项目介绍:LLaVA++ 项目
什么是 LLaVA++?
LLaVA++ 项目旨在通过整合 LLaMA-3(8B版本)和 Phi-3(3.8B版本)的能力来扩展视觉处理功能。项目的全称为“LLaVA++: Extending Visual Capabilities with LLaMA-3 and Phi-3”,目标是增强现有的 LLaVA 1.5 模型,这意味着开发团队致力于使视觉人工智能表现更为出色和全面。
项目更新
- 最新演示发布:2024年4月30日,LLaMA-3-V 和 Phi-3-V 模型现已在 Hugging Face Spaces 上线,用户可通过指定链接访问这些演示。
- 线上演示:2024年4月28日,两个模型的线上演示已发布。用户可以在线体验其强大功能。
- 模型微调:项目中包含通过 LoRA 和其他技术进行完全微调的模型。
- Google Colab 兼容性:可以在 Colab 平台上与 Phi-3-V-3.8B 模型互动,方便研究人员进行探索。
项目模型库
LLaVA++ 提供了一系列预训练和微调模型,包括:
- Phi-3-mini-4k-instruct:这一系列模型在大量数据集上完成预训练和微调,提供不同层次的模型格式与权重。
- Meta-Llama-3-8B-Instruct:大规模预训练模型,适用于需要高性能模型的应用场景,具有出色的指标表现。
每一个模型在 Hugging Face 的页面上都提供了链接以获取更多具体信息。
如何安装和使用
要使用 LLaVA++,用户需要克隆项目代码,并根据指南安装所需的库和更新:
git clone https://github.com/mbzuai-oryx/LLaVA-pp.git
cd LLaVA-pp
git submodule update --init --recursive
更新相关的 Python 包:
pip install git+https://github.com/huggingface/transformers@a98c41798cf6ed99e1ff17e3792d6e06a2ff2ff3
此外,还提供了具体的训练和微调命令,帮助用户定制和应用于自己的任务。
贡献与致谢
LLaVA++ 项目得到了 LLaVA 和其他开源评估工具的贡献。用户可以通过邮件联系开发团队获取进一步的技术支持和问题解答。项目同样欢迎贡献者参与改进和扩展此开源项目。
LLaVA++ 值得特别感谢各位开发者和贡献者,他们为这一前沿项目的推进提供了宝贵的支持与帮助。