Qwen2-VL-2B-Instruct-AWQ - 支持多分辨率的多语言多模态视觉模型

项目介绍：Qwen2-VL-2B-Instruct-AWQ

项目背景

Qwen2-VL-2B-Instruct-AWQ 是 Qwen-VL 系列模型的最新版本，这代表了将近一年的创新成果。此项目致力于提升视觉和语言的多模态理解，通过结合图像和文本信息，提高模型在不同应用场景下的综合能力。

新功能简介

关键增强功能

卓越的图像理解能力：Qwen2-VL 在多个视觉理解基准测试中表现出色，包括 MathVista、DocVQA 和 RealWorldQA 等。
长视频理解：能够对时长超过 20 分钟的视频进行有效理解，应用于高质量视频问答、对话及内容创作。
智能设备操作：具备复杂推理和决策能力，可集成到移动设备、机器人等，基于视觉和文本指令提供自动操作。
多语言支持：除了英语和中文外，Qwen2-VL 还支持包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等在内的多种语言的文本理解。

架构更新

动态分辨率处理：Qwen2-VL 能够处理任意图像分辨率，通过动态视觉标记映射，实现更接近人类视觉处理的体验。
多模态旋转位置嵌入（M-ROPE）：分解位置嵌入以捕获1D文本、2D视觉和3D视频位置信息，提高多模态处理能力。

模型性能

在性能测试中，Qwen2-VL-2B-Instruct 的量化模型在多个基准测试中的生成精度均表现不凡，包括 MMMU_VAL、DocVQA_VAL 和 MathVista_MINI 等。

速度表现

针对 BF16 模型与量化模型（包括 GPTQ-Int4、GPTQ-Int8 和 AWQ），我们在不同上下文长度条件下进行了推理速度（token/s）和内存占用（GB）的评估。

使用说明

Qwen2-VL 的代码已经集成到 Hugging Face Transformers 中，用户可以通过相应渠道搭建模型环境。我们提供了工具包 qwen-vl-utils 以便捷处理多种视觉输入，可以通过简单的 Python 代码进行图片和视频处理及生成。

使用建议

该模型能够支持多种图像输入方式，包括本地文件、URL 和 base64 编码图像。虽然模型支持多种分辨率输入，但提高分辨率会带来计算量的增加，用户可以根据需要设置最小和最大像素数来平衡速度和内存使用。

限制

虽然 Qwen2-VL 在多种视觉任务中表现出色，但仍存在一些限制：

无法处理音频信息：当前模型未能理解视频中的音频信息。
数据时效性：数据集更新至 2023 年 6 月，之后的信息可能无法涵盖。
特定人物和知识产权识别能力有限：对特定人物或品牌的识别能力有限。
复杂指令的理解能力有限：模型对复杂多步骤指令的理解和执行能力需提升。
计数准确性不足：尤其在复杂场景中，对物体计数的准确性需进一步提升。
空间推理能力弱：尤其是对 3D 空间物体位置关系的推测较为困难。

对于上述限制，我们将持续优化模型，不断提升其性能和应用范围。

引用

如果您发现我们的工作对您有帮助，请记得引用我们的研究。

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng and Bai, Shuai and ...},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}
@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and ...},
  journal={arXiv preprint ...}
}