BLIVA简介
BLIVA (Better handling of text-rich visual questions with LLM) 是由加州大学圣地亚哥分校和Coinbase Global Inc.共同开发的一个简单而强大的多模态大语言模型。它专门用于处理富文本视觉问题,在多个基准测试中都取得了优异的表现。
主要特点
- 简单高效的模型架构,基于BLIP-2改进而来
- 在文本丰富的视觉问答任务上表现出色
- 提供了Vicuna-7B和FLAN-T5 XXL两个版本的预训练权重
- 支持商业使用(FLAN-T5版本)
相关资源
📄 论文
💻 代码仓库
⚖️ 模型权重
🎬 在线Demo
📊 数据集
📚 其他资源
快速上手
- 安装BLIVA:
git clone https://github.com/mlpc-ucsd/BLIVA
cd BLIVA
pip install -e .
-
下载模型权重并配置路径
-
运行推理:
python evaluate.py --answer_qs \
--model_name bliva_vicuna \
--img_path images/example.jpg \
--question "what is this image about?"
- 本地运行Demo:
python demo.py
BLIVA为处理富文本视觉问题提供了一个简单而强大的解决方案。无论是研究人员还是开发者,都可以通过上述资源快速了解和使用BLIVA。希望这个汇总能帮助大家更好地探索BLIVA的潜力!