#LLaVA-NeXT
LLaVA-NeXT - 大规模开源多模态模型提升视觉语言能力
LLaVA-NeXT多模态模型视觉语言模型AI助手大语言模型Github开源项目
LLaVA-NeXT是一个开源的大规模多模态模型项目,致力于提升视觉语言交互能力。该项目支持多图像、视频和3D任务的统一处理,在多个基准测试中表现卓越。LLaVA-NeXT提供了多个模型变体,包括支持高分辨率输入和视频处理的版本,以及基于不同大语言模型的实现。此外,项目还开源了训练数据和代码,为研究人员和开发者提供了宝贵资源。
Open-LLaVA-NeXT - 多模态大语言模型实现视觉语言对齐和指令微调的开源项目
LLaVA-NeXT多模态模型视觉语言训练开源实现AI模型评估Github开源项目
Open-LLaVA-NeXT是一个复现LLaVA-NeXT系列模型的开源项目。它提供开源训练数据和检查点,基于LLaVA代码库进行修改。该项目支持CLIP-L-336视觉编码器以及Vicuna-7B和LLaMA3-8B等语言模型。通过特征对齐和视觉指令微调两个阶段的训练,Open-LLaVA-NeXT实现了多模态能力,在多项评估任务中表现优异。