多模态竞技场 🚀
多模态竞技场 是一个用于评估大型多模态模型的平台。继 Fastchat 之后,我们对两个匿名模型在视觉问答任务中的表现进行对比。我们发布了 演示,欢迎大家参与这一评估活动。
大型多模态模型的整体评估
OmniMedVQA:一个新的大规模综合医疗LVLM评估基准
- OmniMedVQA数据集:包含118,010张图像和127,995个问答项目,涵盖12种不同的模态,涉及20多个人体解剖区域。数据集可以从这里下载。
- 12个模型:8个通用领域LVLM和4个医疗专用LVLM。
Tiny LVLM-eHub:Bard的早期多模态实验
- 微小数据集:每个数据集仅随机选择50个样本,即42个与文本相关的视觉基准,总计2.1K样本,便于使用。
- 更多模型:增加了4个模型,即总共12个模型,包括Google Bard。
- ChatGPT Ensemble Evaluation:与先前的词匹配方法相比,更好地与人类评估结果一致。
LVLM-eHub:大型视觉语言模型的评估基准 🚀
LVLM-eHub 是一个综合的评估基准,专用于公开的大型多模态模型(LVLM)。它通过47个数据集和1个平台,全面评估了8个LVLM的6大多模态能力。
LVLM排行榜
LVLM排行榜系统地将Tiny LVLM评估中涉及的数据集按其特定的目标能力进行分类,包括视觉感知、视觉推理、视觉常识、视觉知识获取和物体幻觉。 该排行榜包含了最近发布的模型,以增强其全面性。
排名 | 模型 | 版本 | 分数 |
---|---|---|---|
🏅️ | InternVL | InternVL-Chat | 327.61 |
🥈 | InternLM-XComposer-VL | InternLM-XComposer-VL-7B | 322.51 |
🥉 | Bard | Bard | 319.59 |
4 | Qwen-VL-Chat | Qwen-VL-Chat | 316.81 |
5 | LLaVA-1.5 | Vicuna-7B | 307.17 |
6 | InstructBLIP | Vicuna-7B | 300.64 |
7 | InternLM-XComposer | InternLM-XComposer-7B | 288.89 |
8 | BLIP2 | FlanT5xl | 284.72 |
9 | BLIVA | Vicuna-7B | 284.17 |
10 | Lynx | Vicuna-7B | 279.24 |
11 | Cheetah | Vicuna-7B | 258.91 |
12 | LLaMA-Adapter-v2 | LLaMA-7B | 229.16 |
13 | VPGTrans | Vicuna-7B | 218.91 |
14 | Otter-Image | Otter-9B-LA-InContext | 216.43 |
15 | VisualGLM-6B | VisualGLM-6B | 211.98 |
16 | mPLUG-Owl | LLaMA-7B | 209.40 |
17 | LLaVA | Vicuna-7B | 200.93 |
18 | MiniGPT-4 | Vicuna-7B | 192.62 |
19 | Otter | Otter-9B | 180.87 |
20 | OFv2_4BI | RedPajama-INCITE-Instruct-3B-v1 | 176.37 |
21 | PandaGPT | Vicuna-7B | 174.25 |
22 | LaVIN | LLaMA-7B | 97.51 |
23 | MIC | FlanT5xl | 94.09 |
更新
- 🔥 2024年3月31日。我们发布了OmniMedVQA,一个针对医疗LVLM的大规模综合评估基准。同时,我们发布了8个通用领域的LVLM和4个医学专用的LVLM。详情请访问MedicalEval。
- 🔥 2023年10月16日。我们推出了一个能力级别数据集拆分,该数据集来源于LVLM-eHub,并补充了八个最近发布的模型。要获取数据集拆分、评估代码、模型推理结果和全面的性能表,请访问tiny_lvlm_evaluation ✅。
- 2023年8月8日。我们发布了[Tiny LVLM-eHub]。评估源代码和模型推理结果在tiny_lvlm_evaluation上开源。
- 2023年6月15日。我们发布了[LVLM-eHub],这是一个针对大型视觉语言模型的评估基准。代码即将发布。
- 2023年6月8日。感谢VPGTrans的作者张博士的修正。VPGTrans的作者主要来自新加坡国立大学和清华大学。我们在重新实现VPGTrans时之前遇到了一些小问题,但我们发现其性能实际上更好。对于更多的模型作者,请通过Email与我联系讨论。同时,请关注我们的模型排名列表,更多准确的结果将会发布。
- 2023年5月22日。感谢mPLUG-Owl的作者叶博士的修正。我们修复了我们在实现mPLIG-Owl时的一些小问题。
支持的多模态模型
以下模型目前参与了随机对决:
- KAUST/MiniGPT-4
- Salesforce/BLIP2
- Salesforce/InstructBLIP
- DAMO Academy/mPLUG-Owl
- NTU/Otter
- 威斯康星大学麦迪逊分校/LLaVA
- 上海人工智能实验室/llama_adapter_v2
- 新加坡国立大学/VPGTrans
关于这些模型的更多详细信息可以在./model_detail/.model.jpg
中找到。我们将尝试安排计算资源以在竞技场中托管更多的多模态模型。
联系我们(微信)
如果您对我们的VLarena平台的任何部分感兴趣,欢迎加入微信群。
安装指南
- 创建conda环境
conda create -n arena python=3.10
conda activate arena
- 安装运行控制器和服务器所需的软件包
pip install numpy gradio uvicorn fastapi
- 然后,对于每个模型,它们可能需要冲突的Python包版本,我们建议根据它们的GitHub仓库为每个模型创建一个特定环境。
启动演示
要使用Web UI提供服务,您需要三个主要组件:与用户交互的Web服务器、托管两个或更多模型的模型工作者,以及协调Web服务器和模型工作者的控制器。
以下是您在终端中需要遵循的命令:
启动控制器
python controller.py
该控制器管理分布式工作者。
启动模型工作者
python model_worker.py --model-name SELECTED_MODEL --device TARGET_DEVICE
等待进程完成加载模型,并看到“Uvicorn running on ...”时,模型工作者将自动注册到控制器。对于每个模型工作者,您需要指定要使用的模型和设备。
启动Gradio Web服务器
python server_demo.py
这是用户将与之交互的用户界面。
通过遵循这些步骤,您将能够使用Web UI提供模型服务。现在,您可以打开浏览器并与模型进行对话。如果模型未显示,请尝试重新启动Gradio Web服务器。
贡献指南
我们非常重视所有旨在提高评估质量的贡献。本节包括两个主要部分:LVLM评估贡献
和LVLM竞技场贡献
。
LVLM评估贡献
您可以在LVLM_evaluation文件夹中访问我们最新版本的评估代码。该目录包括一整套评估代码,以及必要的数据集。如果您热衷于参与评估过程,请随时通过电子邮件(xupeng@pjlab.org.cn)与我们分享您的评估结果或模型推理API。
LVLM竞技场贡献
感谢您对将您的模型集成到我们的LVLM竞技场的兴趣!如果您希望将您的模型集成到我们的竞技场,请准备如下结构的模型测试器:
class ModelTester:
def __init__(self, device=None) -> None:
# TODO: 初始化模型和所需的预处理器
def move_to_device(self, device) -> None:
# TODO: 此功能用于在CPU和GPU之间转移模型(可选)
def generate(self, image, question) -> str:
# TODO: 模型推理代码
此外,我们欢迎在线模型推理链接,例如Gradio等平台提供的链接。您的贡献将受到衷心的感谢。
致谢
我们对ChatBot Arena团队以及他们的论文Judging LLM-as-a-judge表示感谢,他们的工作对我们的LVLM评估工作产生了重要影响。同时,我们要向LVLM的提供者表示诚挚的感谢,他们的宝贵贡献极大地促进了大规模视觉语言模型的发展与进步。最后,我们感谢在我们的LVLM-eHub中使用的数据集提供者。
使用条款
该项目是一个仅供非商业用途的实验性研究工具。它具有有限的安全防护措施,可能会生成不适当的内容。不得用于任何非法、伤害性、暴力、种族主义或性相关的用途。