VLMEvalKit简介
VLMEvalKit是一个由开源贡献者开发的大规模视觉语言模型(LVLM)评估工具包。它具有以下主要特点:
- 支持对约100种视觉语言模型进行评估,包括API模型和开源PyTorch/Hugging Face模型
- 提供40多个基准数据集,涵盖图像理解、视频理解等多个任务
- 采用基于生成的评估方法,并提供精确匹配和基于LLM的答案提取两种评估模式
- 一键式评估,无需繁琐的数据准备工作
- 支持自定义基准和模型,易于扩展
主要功能
- 支持的视觉语言模型
VLMEvalKit支持多种类型的视觉语言模型:
- API模型:如GPT-4v、Gemini Pro Vision等
- 开源PyTorch/HF模型:如IDEFICS、LLaVA、MiniGPT-4等
- 支持多模态输入的模型(标记为🎞️)
- 即插即用的模型(标记为🚅)
- 提供的基准数据集
工具包提供了丰富的基准数据集,包括:
- 图像理解:MMBench、MME、SEEDBench等
- 视频理解:MMBench-Video、Video-MME等
- 涵盖多选题、是非题、视觉问答等多种任务类型
- 评估方法
VLMEvalKit采用基于生成的评估方法,并提供两种模式:
- 精确匹配:直接从模型输出中匹配答案
- 基于LLM的答案提取:使用判断型LLM从模型输出中提取答案
快速开始
- 安装
git clone https://github.com/open-compass/VLMEvalKit.git
cd VLMEvalKit
pip install -e .
- 配置模型
在vlmeval/config.py
中配置需要评估的模型。
- 运行评估
使用run.py
脚本进行评估:
python run.py --data MMBench_DEV_EN MME --model qwen_vl_chat --verbose
开发指南
VLMEvalKit支持自定义基准和模型。开发者只需实现一个generate_inner()
函数,即可将新模型集成到评估框架中。
更多开发细节请参考开发指南。
总结
VLMEvalKit为视觉语言模型的评估提供了一个强大而灵活的开源工具包。无论是研究人员还是开发者,都可以利用它来方便地评估各种LVLM模型的性能。我们鼓励社区贡献更多的基准和模型实现,共同推动视觉语言模型技术的发展。