项目概述
Qwen-VL-Chat是阿里云研发的视觉语言大模型聊天版本。它作为Qwen系列模型的一员,具备强大的多模态交互能力。该模型可以接收图像、文本和检测框作为输入,并输出对应的文本和检测框信息。
核心特点
- 支持多语言对话,可以用中英文等语言与模型进行自然交流
- 能够处理多图交错对话,支持在一次对话中讨论多个图片
- 具备中文开放域定位能力,可以根据描述定位图片中的物体位置
- 拥有细粒度的图像识别和理解能力,能够捕捉图片中的细节信息
技术规格
- 基于Python 3.8及以上版本开发
- 依赖PyTorch 1.12及以上版本,推荐使用2.0及以上版本
- GPU用户建议使用CUDA 11.4及以上版本
量化版本
- 提供Int4量化版本(Qwen-VL-Chat-Int4),具有以下优势:
- 性能几乎无损,评测效果与原版相当
- 显存占用更低,仅需原版一半左右空间
- 推理速度更快,在生成任务中比原版提升约30%
能力评测
在标准评测基准上表现优异:
- 零样本图像描述能力出色
- 通用视觉问答效果领先
- 文本相关视觉问答准确度高
- 物体定位表现精准
在TouchStone评测中:
- 覆盖300多张图片和800多道题目
- 涉及27个不同类别的任务
- 包含基础属性问答、人物识别、诗歌创作等多样化能力
- 同时支持中英文评测
应用场景
- 图文理解与对话
- 图像描述生成
- 视觉问答
- 图像中物体定位
- 多模态内容创作