PaliGemma-3b-mix-448项目介绍
项目概述
PaliGemma-3b-mix-448是一个由Google开发的多功能、轻量级的视觉语言模型(VLM)。该模型受PaLI-3的启发,基于开放组件如SigLIP视觉模型和Gemma语言模型构建而成。PaliGemma-3b-mix-448可以同时接受图像和文本作为输入,并生成文本输出,支持多种语言。它被设计用于在广泛的视觉语言任务上实现领先的微调性能,如图像和短视频标题、视觉问答、文本阅读、物体检测和物体分割等。
模型架构
PaliGemma-3b-mix-448由一个Transformer解码器和一个Vision Transformer图像编码器组成,总参数量为30亿。具体而言:
- 文本解码器初始化自Gemma-2B模型
- 图像编码器初始化自SigLIP-So400m/14模型
- 整体模型遵循PaLI-3的训练方法
输入输出
- 输入:图像和文本字符串,如描述图像的提示或问题
- 输出:根据输入生成的文本响应,如图像描述、问题回答、对象边界框坐标列表或分割代码字
预训练数据集
PaliGemma-3b-mix-448在多个数据集上进行了预训练,包括:
- WebLI:一个大规模的多语言图像-文本数据集
- CC3M-35L:来自网页的英语图像-替代文本对,并翻译成34种额外语言
- VQ²A-CC3M-35L/VQG-CC3M-35L:VQ2A-CC3M的子集,同样翻译成34种额外语言
- OpenImages:基于OpenImages数据集生成的检测和物体感知问答
- WIT:从维基百科收集的图像和文本
数据责任过滤
为了确保训练数据的质量和安全性,项目团队对WebLI数据集应用了多重过滤,包括色情图像过滤、文本安全过滤、文本毒性过滤、个人信息过滤等。
使用方法
PaliGemma-3b-mix-448是一个单轮视觉语言模型,不适用于对话场景。它最适合通过微调来适应特定用例。用户可以通过任务前缀(如"detect"或"segment")来配置模型要解决的任务。该模型支持多种精度(float32、bfloat16、float16)和量化(4位/8位)运行,可在CPU或CUDA设备上使用。
性能评估
PaliGemma-3b-mix-448在多个基准测试中展现了优秀的性能,包括图像描述、问答、视觉推理等任务。模型在不同分辨率下(224x224、448x448)都取得了良好的结果,显示了其在各种视觉语言任务上的强大迁移能力。
总的来说,PaliGemma-3b-mix-448是一个功能强大、灵活多用的视觉语言模型,可以在多种视觉语言任务中发挥出色的性能,为研究人员和开发者提供了一个有价值的工具。