llava-next-interleave-qwen-7b-dpo项目介绍
项目概述
LLaVA-Next Interleave 是一个开源的聊天机器人项目,通过对多模态指令跟随数据进行微调而训练。该模型基于变压器架构,是一种自回归语言模型。基础的大型语言模型(LLM)使用了 Qwen/Qwen1.5-7B-Chat。
项目描述
- 项目仓库: LLaVA-Next GitHub
- 主要用途: 该项目的主要用途是用于大规模多模态模型和聊天机器人的研究。它仅用于研究探索,不允许商业用途。
- 预期用户: 模型的主要用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
许可信息
在此项目中使用的某些数据集和检查点受其原始许可协议的约束。用户必须遵守所有这些原始许可的条款和条件,包括但不限于数据集的OpenAI使用条款以及检查点训练所用基础语言模型的特定许可(例如,LLaMA-2 的 Llama-1/2 社区许可,Vicuna-v1.5 的 Tongyi Qianwen 许可协议和 META LLAMA 3 社区许可协议)。本项目不对原始许可协议规定的条件施加任何额外限制。此外,用户需要确保其对于数据集和检查点的使用符合所有适用法律法规。
如何开始使用模型
要开始使用该模型,可以按照以下步骤操作:
git clone https://github.com/LLaVA-VL/LLaVA-NeXT
# 安装llava-next
...
# 下载检查点(ckpt)
...
bash playground/demo/interleave_demo.py --model_path path/to/ckpt
模型评估
要评估模型,请编辑脚本中的路径,将 /path/to/ckpt 修改为检查点路径,将 /path/to/images 修改为 "interleave_data" 的路径。然后运行:
bash scripts/interleave/eval_all.sh
参考文献
@misc{li2024llavanextinterleavetacklingmultiimagevideo,
title={LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models},
author={Feng Li and Renrui Zhang and Hao Zhang and Yuanhan Zhang and Bo Li and Wei Li and Zejun Ma and Chunyuan Li},
year={2024},
eprint={2407.07895},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2407.07895},
}
此次项目不仅是多模态模型发展中的一个重要探索,同时还为相关研究人员提供了一个免费且功能强大的工具。他们可以借助这个项目,深入研究多图片、视频和3D领域的大规模多模态模型。