VLMEvalKit 项目介绍
项目概述
VLMEvalKit 是一个旨在评估大规模视觉-语言模型(LVLMs)的开源工具包。它可以轻松地通过单个命令对多种基准上的 LVLMs 进行评估,而无需在多个资源库中进行繁重的数据处理。在 VLMEvalKit 中,采用了基于生成的评估方法,并提供通过精确匹配和基于 LLM 的答案提取获得的评估结果。
最新动态
- [2024-11-08] 支持 Aria,这是一种多模态原生模型,感谢 teowu 的贡献。
- [2024-11-04] 支持 WorldMedQA-V,这是一个包含 1000 多个医疗视觉问答(VQA)问题的基准。
- 支持低配置 GPU 的 AUTO_SPLIT 功能,能够将模型自动拆分到多个 GPU 上以减少 GPU 内存使用。
支持的数据集、模型和评估结果
评估结果
VLMEvalKit 提供多模态排行榜的性能数据,可以通过 OpenVLM Leaderboard 下载详细的结果。
支持的图像理解数据集
VLMEvalKit 支持多种图像理解数据集,包括 MM-Vet、MM-Bench Series、SEEDBench 系列等,支持的任务包括多选题(MCQ)、是非题(Y/N)、多轮对话(MTT)、多图像输入(MTI)等。
支持的视频理解数据集
支持的视频理解数据集有 MMBench-Video、Video-MME、MVBench 等,任务类型涵盖 VQA 和 MCQ。
支持的模型
VLMEvalKit 支持多种 API 模型和 PyTorch/HF 模型,如 GPT-4v、Gemini-1.0-Pro、Reka-[Edge / Flash / Core] 等。对于某些模型,可能需要特定版本的 transform 和 torchvision。
快速使用指南
VLMEvalKit 提供易于使用的指南,帮助用户快速开始使用工具包中的功能。
开发指南
开发人员可以根据 VLMEvalKit 提供的指南开发自定义的基准测试、VLMs,或贡献其他代码。所有贡献者将被记录在报告中,具有 3 个或更多重大贡献的贡献者可以加入 VLMEvalKit 技术报告的作者名单。
项目目标
VLMEvalKit 的设计宗旨是:
- 提供一个易于使用的开源评估工具包,方便研究人员和开发者进行 LVLMs 的评估,并使评估结果易于重现。
- 便于 VLM 开发者评估自己的模型,用户只需实现单一的
generate_inner()
函数即可。
VLMEvalKit 旨在简化和加速 LVLMs 的评估过程,为研究与开发社区提供支持。
如果您在研究中使用了 VLMEvalKit 或希望引用其中的数据,请使用提供的 BibTeX 条目进行引用。感谢您的支持!