BLIVA

BLIVA 项目简介

项目概况

BLIVA是一个多模态大语言模型，旨在更好地处理富文本的视觉问答问题。项目由加州大学圣地亚哥分校与Coinbase Global, Inc.的多个研究人员共同参与开发。BLIVA通过结合视觉与文本数据，提升了在识别和理解视觉信息方面的能力。

项目进展

BLIVA项目已于2024年被AAAI大会接受，并且已公开多项资源供社区使用，包括模型的训练代码、演示幻灯片和多个模型版本。模型在MME基准测试中表现出色，在感知任务中排名第三，认知任务中排名第二，在颜色、海报和常识推理子任务中更是位列第一。

在文本丰富视觉问答基准中的表现

BLIVA在多个视觉问答基准数据库中，如STVQA、OCRVQA、TextVQA、DocVQA等，表现优异。其中，BLIVA (Vicuna-7B)版本在多个测试中领先，尤其是在STVQA和OCRVQA中。

在一般视觉问答基准中的表现

在不特别丰富文本的视觉问答任务中，BLIVA (Vicuna-7B)同样展现了强大的性能，优于其他主流模型，如Flamingo和MiniGPT-4。

安装及使用

研究人员可以通过GitHub克隆BLIVA项目代码，并使用conda创建一个Python环境进行安装与使用。此外，BLIVA支持从源代码构建，用户可以根据需要设置模型权重路径。

示例命令展示了如何对一幅图像提问， BLIVA能够分析图像并给出答案。用户也可以提供一系列选项进行选择题形式的提问。

演示与训练

项目提供了可在线访问的演示，并支持本地运行。演示可以通过简单的命令在本地启动，用户可以实时体验BLIVA的功能。此外，为方便用户自行训练模型，项目中说明了如何下载数据集及调整训练参数，以在不同的GPU环境下完成训练任务。

引用及致谢

如果BLIVA对您的研究或应用有帮助，您可以在论文中引用其BibTeX条目。项目团队还对多个开源项目表示了感谢，如BLIP2、Lavis和Vicuna等，为BLIVA的开发提供了基础和灵感。

开源协议

BLIVA代码和模型基于不同的开源协议，其中代码采用BSD 3-Clause License，BLIVA Vicuna 版本模型需按照LLaMA的许可使用，而BLIVA FlanT5的权重基于Apache 2.0 License。我们提供的YTTB-VQA数据则采用CC BY NC 4.0授权。

通过这些开放资源及详细文档，BLIVA项目期望为学术研究与工业应用提供一个强大且易用的工具。

BLIVA 项目简介

项目概况

项目进展

在文本丰富视觉问答基准中的表现

在一般视觉问答基准中的表现

安装及使用

演示与训练

引用及致谢

开源协议

编辑推荐精选

讯飞智文

讯飞星火

Spark-TTS

Trae

咔片PPT

讯飞绘文

材料星

openai-agents-python

Hunyuan3D-2

3FS

探索AI的无限可能

推荐工具精选

Trae

豆包

讯飞文书

讯飞绘文

讯飞绘镜

阿里绘蛙

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号