MMBench

MMBench

全面评估多模态大模型能力的基准测试

MMBench是评估视觉语言模型多模态理解能力的基准测试集。它包含近3000道多项选择题,涵盖20个能力维度,采用循环评估和LLM选项提取等创新方法,提供可靠客观的评估。通过细粒度的能力测试和可重复的评价标准,MMBench为多模态模型开发提供了有价值的反馈。

MMBench多模态模型评估基准视觉语言模型循环评估Github开源项目

MMBench

评估

"MMBench: 你的多模态模型是全能选手吗?"的官方仓库

🔥 注意<br> MMBench 由 OpenCompass 社区 开发,欢迎关注 OpenCompass 获取更多最新的大模型评估技术。

下载:MMBench 是一系列用于评估大型视觉语言模型(LVLMs)多模态理解能力的基准测试集合。下表列出了 MMBench 包含的所有基准测试的信息及其下载链接。

"下载链接(VLMEvalKit)"和"下载链接(传统)"的区别:"下载链接(VLMEvalKit)"是我们官方评估框架 VLMEvalKit 使用的数据格式,它通过在循环评估的不同轮次中只保留图像的一个副本来减小文件大小。而"下载链接(传统)"为 N 选项的循环评估保留 N 个图像副本。这两个版本的其他内容完全相同。

对于不使用 VLMEvalKit 进行评估的之前的用户,请从"下载链接(传统)"下载!

名称分割语言问题数量说明下载链接(VLMEvalKit)下载链接(传统)
MMBench-Dev开发英文1164MMBench 的开发集下载下载
MMBench-Test测试英文1784MMBench 的测试集下载下载
MMBench-Dev (cn)开发中文1164MMBench-Dev 的中文版下载下载
MMBench-Test (cn)测试中文1784MMBench-Test 的中文版下载下载
CCBench开发中文510一个关于中国文化相关的基准测试下载下载

可视化:您可以在 可视化 中查看 MMBench 基准测试的数据样本。

评估:您可以使用 VLMEvalKit(我们用于 MMBench 排行榜的官方代码)来评估您的 VLM 在 MMBench 基准测试上的表现。要提交您对 MMBench 测试集的预测结果,您可以访问 MMBench 提交

新闻

  1. [2023/12/26] 我们更新了 CCBench,并移除了有噪声的测试样本,新版本可以在这里下载 下载。排行榜已相应更新。
  2. [2023/12/10] 我们提供了一个多模态评估工具包 VLMEvalKit,支持在 MMBench 和许多其他多模态基准测试上评估 VLM。
  3. [2023/10/23] 我们提供了一个名为 CCBench 的新基准测试,这是一个关于中国文化领域的多模态基准测试。
  4. [2023/10/03] 我们提供了一个经过验证的 MMBench 中文翻译版本。用户可以使用它来验证其 VLM 的中文能力。我们在下图中提供了一个说明。
<div align="center"> <img src="https://opencompass.oss-cn-shanghai.aliyuncs.com/omnimmbench/img/multi_lingual.png" width="60%"> </div>

关于 MMBench

近年来,视觉-语言(VL)模型的发展迅速,如 MiniGPT-4 和 LLaVA 等模型在处理以前具有挑战性的任务时展现出了令人瞩目的性能。然而,如何有效评估这些模型的性能已成为阻碍大型 VL 模型进一步发展的主要挑战。传统的基准测试如 VQAv2 和 COCO Caption 被广泛用于对 VL 模型进行定量评估,但存在几个缺点:

数据集构建:传统基准测试倾向于根据模型在各种任务(如图像描述和视觉问答)中的表现来评估模型。遗憾的是,这些任务无法完全捕捉模型所具备的细粒度能力,可能会阻碍未来的优化工作。

评估指标:现有的评估指标缺乏稳健性。例如,VQAv2 针对单个词或短语,而许多当前的 VL 模型生成句子作为输出。尽管这些句子可能正确回答了相应的问题,但由于无法精确匹配给定的答案,现有的评估指标会给出失败的分数。此外,最近提出的主观评估指标,如 mPLUG-Owl 中使用的指标,为 VL 模型提供了全面的评估。然而,由于评估需要大量人力,这些指标难以平稳扩展。另外,这些评估具有高度偏差性,难以复现。

为了解决这些局限性,我们提出了一种新方法,定义了一组细粒度能力并收集了与每种能力相关的问题。我们还引入了创新的评估策略,以确保对模型预测进行更稳健的评估。这个新的基准测试称为 MMBench,具有以下特点:

数据收集:到目前为止,我们已收集了约 3000 个问题,涵盖 20 个能力维度。每个问题都是单选题格式,只有一个正确答案。

评估:为了更可靠的评估,我们使用 ChatGPT 将模型的预测与问题的选项匹配,然后输出相应的标签(A、B、C、D)作为最终预测。

数据集

MMBench 从多个来源收集,包括公开数据集和互联网,目前包含 2974 个多选题,涵盖 20 个能力维度。我们将现有的 20 个能力维度构建成 3 个能力维度层级,从 L-1 到 L-3。我们在我们的能力分类中将感知和推理作为顶级能力维度,称为 L-1 能力维度。对于 L-2 能力,我们从 L-1 感知中衍生出:1. 粗糙感知,2. 细粒度单实例感知,3. 细粒度跨实例感知;从 L-1 推理中衍生出:1. 属性推理,2. 关系推理,3. 逻辑推理。为了使我们的基准测试尽可能细粒度,以便为多模态模型的开发提供有信息的反馈,我们进一步从 L-2 能力维度衍生出 L-3 能力维度。据我们所知,MMBench 是第一个涵盖如此多能力维度的大规模多模态评估数据集。

与之前的数据集相比,MMBench 具有以下优势:

与之前的公开客观数据集相比:MMBench 不是评估 VL 模型在特定任务上的表现,而是评估一组细粒度能力。这使我们能够在更细粒度的层面上评估模型的表现,并为模型开发提供更有信息的反馈。

与之前的主观数据集相比:MMBench 是一个客观数据集,评估结果较少偏差。此外,MMBench 上的结果保证可重现,这在主观数据集中是无法做到的。

<div align="center"> <img src="https://opencompass.oss-cn-shanghai.aliyuncs.com/omnimmbench/img/taxonomy2.png" width="50%"> </div>

评估

在 MMBench 中,我们提出了一种新的评估协议,以较低的成本产生稳健的评估结果。我们使用循环评估策略来测试视觉语言模型是否能成功解决每个单独的问题。这种策略比普通的评估策略产生更可靠的结果。为了处理 VLM 的自由文本输出,我们提出使用基于 LLM 的选项提取器将自由文本转换为特定选项(A、B、C 等)。

循环评估策略:为了呈现更稳健的评估结果并减轻噪声的负面影响,我们提出了一种新的评估协议,称为循环评估,用于测试视觉语言模型是否能一致地成功解决每个单独的问题。具体来说,对于一个有 N 个选项的单选题,我们用 VLM 推理 N 次。在每次推理中,我们对选项和相应的答案进行循环移位,为 VLM 推理生成一个新的提示(如下图所示)。在循环评估中,只有当 VLM 在所有 N 次推理中都成功时,我们才认为 VLM 成功解决了这个问题。循环评估设置比传统的单次评估更具挑战性。对于大多数现有的 VLM,应用循环评估策略后,Top-1 准确率通常会下降 10% 到 20%。

<div align="center"> <img src="https://opencompass.oss-cn-shanghai.aliyuncs.com/omnimmbench/img/circular_eval.jpg" width="100%"> </div> **基于LLM的选项提取器**。由于视觉语言模型的指令遵循能力差异很大,我们在评估过程中经常需要处理这些模型的自由形式文本输出。传统的基于规则的匹配方法难以从自由形式文本中提取选项,因此我们求助于大型语言模型。给定一个视觉语言模型的输出,我们首先尝试使用基于规则的匹配来将输出与选项进行匹配,以节省推理成本。如果失败,我们会尝试使用ChatGPT来提取选项。我们向ChatGPT提供问题、选项和模型预测,格式化使用下面的提示模板。获得ChatGPT输出后,我们尝试使用精确匹配(上一步)从GPT输出中提取选项。我们最多尝试3次来提取选项。基于ChatGPT的选项提取器展示了完美的成功率(>99.9%)并与人类专家有合理的一致性。 <div align="center"> <img src="https://opencompass.oss-cn-shanghai.aliyuncs.com/omnimmbench/img/gpt_prompt.png" width="70%"> </div>

如何使用?

请使用我们的官方评估工具包VLMEvalKit进行MMBench评估。这里我们展示了一些用于加载和浏览MMBench的脚本(你需要先安装VLMEvalKit)。

from vlmeval.utils import TSVDataset from vlmeval.smp import mmqa_display # 加载MMBench_DEV_EN dataset = TSVDataset('MMBench_DEV_EN') # 可视化数据集中的样本(通过索引) dataset.display(0) """ 输出将会是: <image> 问题。确定Madelyn和Tucker的实验最能回答哪个问题。 提示。下面的段落描述了一个实验。阅读段落,然后按照以下指示进行。 Madelyn在她的滑雪板底部涂了一层薄薄的蜡,然后直接滑下山坡。然后,她去掉蜡,再次直接滑下山坡。她又重复了四次滑行,交替使用涂有薄层蜡的滑雪板和没有蜡的滑雪板。她的朋友Tucker为每次滑行计时。Madelyn和Tucker计算了涂蜡的滑雪板与未涂蜡的滑雪板直接滑下山坡的平均时间。 图:在山坡上滑雪。 A. 当Madelyn的滑雪板涂有薄层蜡还是厚层蜡时,它滑下山坡的时间更短? B. 当Madelyn的滑雪板涂有一层蜡还是没有涂蜡时,它滑下山坡的时间更短? 答案。B 类别。身份推理 来源。scienceqa 二级类别。属性推理 分割。开发集 """ # 为数据集中的样本构建多模态提示(通过索引) item = dataset.build_prompt(0) print(item) """ 输出将会是: [ {'type': 'image', 'value': '/root/LMUData/images/MMBench/241.jpg'}, # 图像将自动保存在~/LMUData/下 {'type': 'text', 'value': "提示:下面的段落描述了一个实验。阅读段落,然后按照以下指示进行。\n\nMadelyn在她的滑雪板底部涂了一层薄薄的蜡,然后直接滑下山坡。然后,她去掉蜡,再次直接滑下山坡。她又重复了四次滑行,交替使用涂有薄层蜡的滑雪板和没有蜡的滑雪板。她的朋友Tucker为每次滑行计时。Madelyn和Tucker计算了涂蜡的滑雪板与未涂蜡的滑雪板直接滑下山坡的平均时间。\n图:在山坡上滑雪。\n问题:确定Madelyn和Tucker的实验最能回答哪个问题。\n选项:\nA. 当Madelyn的滑雪板涂有薄层蜡还是厚层蜡时,它滑下山坡的时间更短?\nB. 当Madelyn的滑雪板涂有一层蜡还是没有涂蜡时,它滑下山坡的时间更短?\n请从以上选项中选择正确答案。\n"} ] """

进行推理:

# 以llava_v1.5_7b为例 # 要评估你自己的模型,请将`llava_v1.5_7b`替换为你实现的模型名称 python run.py --model llava_v1.5_7b --data MMBench_TEST_EN --mode infer

该命令将输出一个Excel文件:{model_name}/{model_name}_{dataset_name}.xlsx。对于MMBench-TEST-CN/EN,你可以将文件提交到https://mmbench.opencompass.org.cn/mmbench-submission 以获得评估准确率。

引用

@article{MMBench, author = {Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin}, journal = {arXiv:2307.06281}, title = {MMBench: Is Your Multi-modal Model an All-around Player?}, year = {2023}, }

编辑推荐精选

AEE

AEE

AI Excel全自动制表工具

AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。

UI-TARS-desktop

UI-TARS-desktop

基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。

UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。

Wan2.1

Wan2.1

开源且先进的大规模视频生成模型项目

Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。

爱图表

爱图表

全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表

爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

下拉加载更多