📖 项目介绍
LLaVA-pp是一个基于LLaMA-3和Phi-3的视觉语言模型,由Mohamed bin Zayed University of AI (MBZUAI)开发。它扩展了原始LLaVA 1.5模型的能力,集成了最新发布的Phi-3 Mini Instruct 3.8B和LLaMA-3 Instruct 8B语言模型。
主要特点:
- 基于最新的LLaMA-3和Phi-3语言模型
- 扩展了视觉理解和生成能力
- 在多个基准测试中表现优异
🚀 快速开始
在线演示
Google Colab
💻 代码仓库
项目代码托管在GitHub: https://github.com/mbzuai-oryx/LLaVA-pp
🤖 模型下载
LLaVA-pp提供了多个预训练和微调模型,可从Hugging Face下载:
Phi-3-V系列模型
- LLaVA-Phi-3-mini-4k-instruct-pretrain
- LLaVA-Phi-3-mini-4k-instruct-lora
- LLaVA-Phi-3-mini-4k-instruct
- LLaVA-Phi-3-mini-4k-instruct-FT
LLaMA-3-V系列模型
- LLaVA-Meta-Llama-3-8B-Instruct-pretrain
- LLaVA-Meta-Llama-3-8B-Instruct-lora
- LLaVA-Meta-Llama-3-8B-Instruct
- LLaVA-Meta-Llama-3-8B-Instruct-FT
- LLaVA-Meta-Llama-3-8B-Instruct-FT-S2
📊 性能评测
LLaVA-pp在多个基准测试中表现优异,包括指令跟随、学术任务等:
🛠️ 安装使用
- 克隆代码仓库:
git clone https://github.com/mbzuai-oryx/LLaVA-pp.git
cd LLaVA-pp
git submodule update --init --recursive
- 安装依赖:
pip install git+https://github.com/huggingface/transformers@a98c41798cf6ed99e1ff17e3792d6e06a2ff2ff3
- 按照README中的说明集成Phi-3-V或LLaMA-3-V
🙏 致谢
LLaVA-pp项目得益于以下开源项目的贡献:
📬 联系方式
如有任何问题,欢迎在GitHub上提issue或联系开发者:
希望这份学习资料汇总能帮助你快速上手LLaVA-pp项目。如果觉得有用,不妨给项目的GitHub仓库点个star支持一下!