#PaliGemma
paligemma-3b-mix-224 - 视觉语言模型PaliGemma实现多语言图像理解与文本生成
视觉语言模型Huggingface模型PaliGemma图像理解Github自然语言生成开源项目多任务处理
PaliGemma-3b-mix-224是一款基于SigLIP和Gemma的视觉语言模型,可同时处理图像和文本输入并生成多语言文本输出。该模型在图像字幕、视觉问答、文本阅读、目标检测等任务中表现优异。采用33亿参数的Transformer架构,经大规模多语言数据预训练,通过微调可适用于多种视觉语言应用场景。
paligemma-3b-pt-896 - 轻量级视觉语言模型支持多种图像文本任务
模型图像文本生成多语言支持GithubPaliGemma微调视觉语言模型Huggingface开源项目
PaliGemma是一个轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建。该模型可处理图像和文本输入并生成文本输出,支持多语言。PaliGemma在图像描述、视觉问答、文本识别等多种视觉语言任务中表现优异。经过大规模数据预训练后,可通过微调应用于特定视觉语言场景。
colpali - 基于PaliGemma-3B的多向量文档检索模型
模型PaliGemma多向量表示开源项目Huggingface文档检索GithubColPali视觉语言模型
ColPali是一个基于PaliGemma-3B的文档检索模型,结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中,实现文本与图像的深度交互,从而提升检索效果。尽管主要在英语数据集上训练,ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。
paligemma-3b-pt-224 - 基于SigLIP和Gemma的多功能视觉语言模型
模型GithubPaliGemma开源项目Huggingface图像处理自然语言处理多语言视觉语言模型
PaliGemma是一款结合SigLIP视觉模型和Gemma语言模型的视觉语言模型。该模型可处理图像和文本输入并生成文本输出,支持多语言。PaliGemma在图像字幕、视觉问答、文本阅读、物体检测等多种视觉语言任务中表现优异。模型采用Transformer架构,拥有30亿参数,经过大规模多语言数据预训练,可通过微调应用于特定任务。
paligemma-3b-pt-448 - 多语言视觉语言模型 适用于多种图像相关任务
模型图像文本生成多语言支持GithubPaliGemma微调视觉语言模型Huggingface开源项目
PaliGemma-3b-pt-448是一款结合SigLIP视觉模型和Gemma语言模型的多语言视觉语言模型。该模型支持图像和文本输入,生成文本输出,适用于图像描述、视觉问答和文本阅读等任务。在多项基准测试中表现优异,尤其擅长处理高分辨率图像。研究人员和开发者可将其作为预训练模型,用于微调各类视觉语言应用。
paligemma-3b-mix-448 - 基于SigLIP和Gemma的多语言视觉语言模型
视觉语言模型图像处理Huggingface模型PaliGemmaGithub多语言开源项目微调
PaliGemma是一款基于SigLIP视觉模型和Gemma语言模型的视觉语言模型,采用3B参数的Transformer架构。该模型支持多语言输入输出,可用于图像描述、视觉问答和文本识别等任务。PaliGemma在多个大规模数据集上经过预训练,并通过严格的数据过滤确保了训练数据质量。模型适用于各类视觉语言任务的微调,在多项基准测试中展现了优异性能。
tiny-random-paligemma - 精简PaLiGeMMA模型实现 用于机器学习快速开发与测试
Transformers库Github模型开源项目模型配置Hub推送HuggingfacePaliGemma自然语言处理
这个项目提供了PaLiGeMMA模型的精简版实现,包括自定义配置、模型初始化和处理器设置。通过将模型架构参数优化至32维,项目适用于快速测试和开发。它整合了文本和视觉配置,采用AutoProcessor,并支持自定义聊天模板,为开发者提供了便捷的模型验证和实验环境。