MMMU
🌐 主页 | 🤗 数据集 | 🤗 论文 | 📖 arXiv | GitHub
这个仓库包含了论文 “MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI” 的评估代码
🔔新闻
简介
我们介绍了MMMU:一个新的基准,旨在评估需要大学水平主题知识和深思熟虑推理的多模态模型。MMMU 包含从大学考试、测验和教科书中精心收集的 11.5K 多模态问题,覆盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题跨越了 30 个主题 和 183 个子领域,包括 32 种高度异质的图像类型,如图表、示意图、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 聚焦于高级感知和特定领域知识的推理,挑战模型执行类似专家面临的任务。我们对14个开源LMM和GPT-4V(ision)的评估显示了MMMU提出的巨大挑战。即使是先进的GPT-4V也仅取得了56%的准确率,表明还有很大的提升空间。我们相信MMMU将激发社区构建面向专家级人工通用智能(AGI)的下一代多模态基础模型。
数据集创建
MMMU 的创建旨在通过需要大学水平学科知识和深思熟虑推理的任务,挑战多模态模型,推动这些模型在感知和推理方面达到专家水平。请参考我们的huggingface 🤗 数据集了解更多详情。
评估
请参考我们的 eval 文件夹了解更多详情。
🏆 小排行榜
模型 | 验证 (900) | 测试 (10.5K) |
---|---|---|
专家 (最佳) | 88.6 | - |
专家 (中等) | 82.6 | - |
专家 (最差) | 76.2 | - |
GPT-4o* | 69.1 | - |
Gemini 1.5 Pro* | 62.2 | - |
InternVL2-Pro* | 62.0 | 55.7 |
Gemini 1.0 Ultra* | 59.4 | - |
Claude 3 Opus* | 59.4 | - |
GPT-4V(ision) (Playground) | 56.8 | 55.7 |
Reka Core* | 56.3 | - |
Gemini 1.5 Flash* | 56.1 | - |
SenseChat-Vision-0423-Preview* | 54.6 | 50.3 |
Reka Flash* | 53.3 | - |
Claude 3 Sonnet* | 53.1 | - |
HPT Pro* | 52.0 | - |
VILA1.5* | 51.9 | 46.9 |
Qwen-VL-MAX* | 51.4 | 46.8 |
InternVL-Chat-V1.2* | 51.6 | 46.2 |
Skywork-VL* | 51.4 | 46.2 |
LLaVA-1.6-34B* | 51.1 | 44.7 |
Claude 3 Haiku* | 50.2 | - |
Adept Fuyu-Heavy* | 48.3 | - |
Gemini 1.0 Pro* | 47.9 | - |
Marco-VL-Plus* | 46.2 | 44.3 |
Yi-VL-34B* | 45.9 | 41.6 |
Qwen-VL-PLUS* | 45.2 | 40.8 |
HPT Air* | 44.0 | - |
Reka Edge* | 42.8 | - |
Marco-VL* | 41.2 | 40.4 |
OmniLMM-12B* | 41.1 | 40.4 |
Bunny-8B* | 43.3 | 39.0 |
Bunny-4B* | 41.4 | 38.4 |
Weitu-VL-1.0-15B* | - | 38.4 |
InternLM-XComposer2-VL* | 43.0 | 38.2 |
Yi-VL-6B* | 39.1 | 37.8 |
InfiMM-Zephyr-7B* | 39.4 | 35.5 |
InternVL-Chat-V1.1* | 39.1 | 35.3 |
Math-LLaVA-13B* | 38.3 | 34.6 |
SVIT* | 38.0 | 34.1 |
MiniCPM-V* | 37.2 | 34.1 |
MiniCPM-V-2* | 37.1 | - |
Emu2-Chat* | 36.3 | 34.1 |
BLIP-2 FLAN-T5-XXL | 35.4 | 34.0 |
InstructBLIP-T5-XXL | 35.7 | 33.8 |
LLaVA-1.5-13B | 36.4 | 33.6 |
Bunny-3B* | 38.2 | 33.0 |
Qwen-VL-7B-Chat | 35.9 | 32.9 |
SPHINX* | 32.9 | 32.9 |
mPLUG-OWL2* | 32.7 | 32.1 |
BLIP-2 FLAN-T5-XL | 34.4 | 31.0 |
InstructBLIP-T5-XL | 32.9 | 30.6 |
Gemini Nano2* | 32.6 | - |
CogVLM | 32.1 | 30.1 |
Otter | 32.2 | 29.1 |
LLaMA-Adapter2-7B | 29.8 | 27.7 |
MiniGPT4-Vicuna-13B | 26.8 | 27.6 |
Adept Fuyu-8B | 27.9 | 27.4 |
Kosmos2 | 24.4 | 26.6 |
OpenFlamingo2-9B | 28.7 | 26.3 |
Frequent Choice | 22.1 | 23.9 |
Random Choice | 26.8 | 25.8 |
*: 作者提供的结果。
🎯 我们已经发布了包含 150 个开发样本和 900 个验证样本的完整套件。然而,10500 个测试问题是没有答案的。 使用开发集进行少样本学习和上下文学习,验证集用于调试模型、选择超参数和快速评估。测试集问题的答案和解释不公开。您可以在 EvalAI 上提交您模型的 测试集 预测结果。
免责声明
标签标注员的指南强调严格遵守初始数据来源的版权和许可规则,特别是避免复制和再分发禁止的材料。如果您发现任何可能违反任何网站的版权或许可规定的数据样本,请联系我们。经核实后,将迅速删除此类样本。
联系方式
- Xiang Yue: xiangyue.work@gmail.com
- Yu Su: su.809@osu.edu
- Wenhu Chen: wenhuchen@uwaterloo.ca
引用
BibTeX:
@inproceedings{yue2023mmmu,
title={MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI},
author={Xiang Yue and Yuansheng Ni and Kai Zhang and Tianyu Zheng and Ruoqi Liu and Ge Zhang and Samuel Stevens and Dongfu Jiang and Weiming Ren and Yuxuan Sun and Cong Wei and Botao Yu and Ruibin Yuan and Renliang Sun and Ming Yin and Boyuan Zheng and Zhenzhu Yang and Yibo Liu and Wenhao Huang and Huan Sun and Yu Su and Wenhu Chen},
booktitle={Proceedings of CVPR},
year={2024},
}