"MMBench: 你的多模态模型是全能选手吗?"的官方仓库
🔥 注意<br> MMBench 由 OpenCompass 社区 开发,欢迎关注 OpenCompass 获取更多最新的大模型评估技术。
下载:MMBench 是一系列用于评估大型视觉语言模型(LVLMs)多模态理解能力的基准测试集合。下表列出了 MMBench 包含的所有基准测试的信息及其下载链接。
"下载链接(VLMEvalKit)"和"下载链接(传统)"的区别:"下载链接(VLMEvalKit)"是我们官方评估框架 VLMEvalKit 使用的数据格式,它通过在循环评估的不同轮次中只保留图像的一个副本来减小文件大小。而"下载链接(传统)"为 N 选项的循环评估保留 N 个图像副本。这两个版本的其他内容完全相同。
对于不使用 VLMEvalKit 进行评估的之前的用户,请从"下载链接(传统)"下载!
名称 | 分割 | 语言 | 问题数量 | 说明 | 下载链接(VLMEvalKit) | 下载链接(传统) |
---|---|---|---|---|---|---|
MMBench-Dev | 开发 | 英文 | 1164 | MMBench 的开发集 | 下载 | 下载 |
MMBench-Test | 测试 | 英文 | 1784 | MMBench 的测试集 | 下载 | 下载 |
MMBench-Dev (cn) | 开发 | 中文 | 1164 | MMBench-Dev 的中文版 | 下载 | 下载 |
MMBench-Test (cn) | 测试 | 中文 | 1784 | MMBench-Test 的中文版 | 下载 | 下载 |
CCBench | 开发 | 中文 | 510 | 一个关于中国文化相关的基准测试 | 下载 | 下载 |
可视化:您可以在 可视化 中查看 MMBench 基准测试的数据样本。
评估:您可以使用 VLMEvalKit(我们用于 MMBench 排行榜的官方代码)来评估您的 VLM 在 MMBench 基准测试上的表现。要提交您对 MMBench 测试集的预测结果,您可以访问 MMBench 提交。