HuatuoGPT-Vision:大规模注入医学视觉知识到多模态大语言模型
✨ 更新
- [2024/06/28]:我们发布了医学多模态大语言模型,包括 HuatuoGPT-Vision-34B 和 HuatuoGPT-Vision-7B。
- [2024/06/26]:我们发布了 PubMedVision,这是一个包含 130万 高质量医学视觉问答数据集,用于注入医学视觉知识。
🩻 PubMedVision
- PubMedVision 是一个大规模、高质量的医学视觉问答数据集,基于PubMed的图文对构建,并使用GPT-4V重新格式化。
数据量 | 下载链接 | |
---|---|---|
PubMedVision 数据集 | 1,294,062 | HF链接 |
- PubMedVision 能显著提升多模态大语言模型(如LLaVA-v1.5)的医学多模态能力。
VQA-RAD | SLAKE | PathVQA | PMC-VQA | |
---|---|---|---|---|
LLaVA-v1.6-34B | 58.6 | 67.3 | 59.1 | 44.4 |
LLaVA-v1.5-LLaMA3-8B | 54.2 | 59.4 | 54.1 | 36.4 |
LLaVA-v1.5-LLaMA3-8B + PubMedVision | 63.8 | 74.5 | 59.9 | 52.7 |
OmniMedVQA | MMMU 健康与医学(测试集) | |
---|---|---|
LLaVA-v1.6-34B | 61.4 | 48.8 |
LLaVA-v1.5-LLaMA3-8B | 48.8 | 38.2 |
LLaVA-v1.5-LLaMA3-8B + PubMedVision | 75.1 | 49.1 |
👨⚕️ HuatuoGPT-Vision
HuatuoGPT-Vision 是我们基于 PubMedVision 构建的医学多模态大语言模型。
模型获取
我们的模型在Huggingface上提供两个版本:
模型使用
- 命令行界面
通过命令行聊天:
python cli.py --model_dir huatuogpt-vision模型路径
- 模型推理
使用我们的ChatBot进行推理:
query = '这张图片展示了什么?'
image_paths = ['图片路径1']
from cli import HuatuoChatbot
bot = HuatuoChatbot(huatuogpt-vision模型路径)
output = bot.inference(query, image_paths)
print(output) # 打印模型输出
医学多模态性能
VQA-RAD | SLAKE | PathVQA | PMC-VQA | |
---|---|---|---|---|
LLaVA-Med-7B | 51.4 | 48.6 | 56.8 | 24.7 |
LLaVA-v1.6-34B | 58.6 | 67.3 | 59.1 | 44.4 |
HuatuoGPT-Vision-7B | 63.7 | 76.2 | 57.9 | 54.3 |
HuatuoGPT-Vision-34B | 68.1 | 76.9 | 63.5 | 58.2 |
OmniMedVQA | MMMU 健康与医学(测试集) | |
---|---|---|
LLaVA-Med-7B | 44.5 | 36.9 |
LLaVA-v1.6-34B | 61.4 | 48.8 |
HuatuoGPT-Vision-7B | 74.0 | 50.6 |
HuatuoGPT-Vision-34B | 76.9 | 54.4 |
🩺 HuatuoGPT 系列
探索我们的HuatuoGPT系列:
- HuatuoGPT:驯化语言模型成为医生
- HuatuoGPT-II:大语言模型医学适应的一阶段训练
- HuatuoGPT-Vision:大规模注入医学视觉知识到多模态大语言模型
引用
@misc{chen2024huatuogptvisioninjectingmedicalvisual,
title={HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale},
author={Junying Chen and Ruyi Ouyang and Anningzhe Gao and Shunian Chen and Guiming Hardy Chen and Xidong Wang and Ruifei Zhang and Zhenyang Cai and Ke Ji and Guangjun Yu and Xiang Wan and Benyou Wang},
year={2024},
eprint={2406.19280},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.19280},
}