paligemma-3b-mix-448 - 基于SigLIP和Gemma的多语言视觉语言模型

PaliGemma-3b-mix-448项目介绍

项目概述

PaliGemma-3b-mix-448是一个由Google开发的多功能、轻量级的视觉语言模型(VLM)。该模型受PaLI-3的启发，基于开放组件如SigLIP视觉模型和Gemma语言模型构建而成。PaliGemma-3b-mix-448可以同时接受图像和文本作为输入，并生成文本输出，支持多种语言。它被设计用于在广泛的视觉语言任务上实现领先的微调性能，如图像和短视频标题、视觉问答、文本阅读、物体检测和物体分割等。

模型架构

PaliGemma-3b-mix-448由一个Transformer解码器和一个Vision Transformer图像编码器组成，总参数量为30亿。具体而言：

文本解码器初始化自Gemma-2B模型
图像编码器初始化自SigLIP-So400m/14模型
整体模型遵循PaLI-3的训练方法

输入输出

输入：图像和文本字符串，如描述图像的提示或问题
输出：根据输入生成的文本响应，如图像描述、问题回答、对象边界框坐标列表或分割代码字

预训练数据集

PaliGemma-3b-mix-448在多个数据集上进行了预训练，包括：

WebLI：一个大规模的多语言图像-文本数据集
CC3M-35L：来自网页的英语图像-替代文本对，并翻译成34种额外语言
VQ²A-CC3M-35L/VQG-CC3M-35L：VQ2A-CC3M的子集，同样翻译成34种额外语言
OpenImages：基于OpenImages数据集生成的检测和物体感知问答
WIT：从维基百科收集的图像和文本

数据责任过滤

为了确保训练数据的质量和安全性，项目团队对WebLI数据集应用了多重过滤，包括色情图像过滤、文本安全过滤、文本毒性过滤、个人信息过滤等。

使用方法

PaliGemma-3b-mix-448是一个单轮视觉语言模型，不适用于对话场景。它最适合通过微调来适应特定用例。用户可以通过任务前缀（如"detect"或"segment"）来配置模型要解决的任务。该模型支持多种精度（float32、bfloat16、float16）和量化（4位/8位）运行，可在CPU或CUDA设备上使用。

性能评估

PaliGemma-3b-mix-448在多个基准测试中展现了优秀的性能，包括图像描述、问答、视觉推理等任务。模型在不同分辨率下（224x224、448x448）都取得了良好的结果，显示了其在各种视觉语言任务上的强大迁移能力。

总的来说，PaliGemma-3b-mix-448是一个功能强大、灵活多用的视觉语言模型，可以在多种视觉语言任务中发挥出色的性能，为研究人员和开发者提供了一个有价值的工具。