项目介绍:Qwen2-VL-72B-Instruct-GPTQ-Int8
项目背景
Qwen2-VL-72B-Instruct-GPTQ-Int8 是 Qwen 团队推出的新一代多模态模型。这款模型是对前代 Qwen-VL 模型的进一步升级,经过几乎一年的创新与研发,为用户带来了更多的功能和改进。
主要特点
图像理解的前沿表现
Qwen2-VL 在多个视觉理解基准测试中表现优异,包括 MathVista、DocVQA、RealWorldQA 及 MTVQA 等,展现出对各类分辨率和比例图像的顶尖理解能力。
对长视频的理解
该模型能够理解长达20分钟以上的视频内容,支持基于视频的高质量问答、对话和内容创作等应用。
智能设备集成
Qwen2-VL 具有复杂推理与决策能力,能够集成到移动设备、机器人等中,实现基于视觉环境和文本指令的自动化操作。
多语言支持
为了服务全球用户,Qwen2-VL 除了支持中英文外,还能够理解图片中的多种语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
模型结构更新
动态分辨率处理
Qwen2-VL 具备动态处理任意图像分辨率的能力,将图像映射为动态数量的视觉标记,提供更接近人类的视觉处理体验。
多模态旋转位置嵌入 (M-ROPE)
通过将位置信息分解为多个部分来捕捉 1D 文本、2D 视觉和 3D 视频的位置信息,增强了模型的多模态处理能力。
模型性能
Qwen2-VL-72B-Instruct 在量化模型(如 GPTQ 和 AWQ)的生成性能方面表现出色。在多项测试中,如 MMMU_VAL、DocVQA_VAL、MMBench_DEV_EN 及 MathVista_MINI,该模型显示出优秀的准确率。
速度性能
Qwen2-VL-72B 的速度评估环境包括 NVIDIA A100 80GB GPU,采用不同上下文长度情况下,评估了模型的推理速度(每秒生成的标记数)和内存占用情况。
快速开始
项目提供了工具包,便于处理各类视觉输入,包括base64、URL 和交错的图像及视频。用户可以通过命令 pip install qwen-vl-utils
进行安装,然后借助模型的处理工具进行视觉输入处理与文本生成。
使用限制
虽然 Qwen2-VL-72B-Instruct-GPTQ-Int8 适用于广泛的视觉任务,但仍存在一些已知限制:
- 不支持音频:当前模型无法理解视频中的音频信息。
- 数据时效性:图像数据集更新至 2023 年 6 月,之后的信息可能不被覆盖。
- 个人及知识产权识别能力有限:模型在识别特定人或品牌方面可能存在不足。
- 复杂指令理解的能力有限:对复杂多步骤指令的理解和执行尚需改进。
- 计数精度不高:尤其在复杂场景中,对物体计数的准确度有待提高。
- 空间推理能力较弱:尤其在三维空间中,对物体位置关系的推断存在不足。
这些限制为模型未来优化和提升的方向,团队将持续改善模型性能及应用范围。