#LLaVA-NeXT

LLaVA-NeXT - 大规模开源多模态模型提升视觉语言能力

LLaVA-NeXT多模态模型视觉语言模型AI助手大语言模型Github开源项目

LLaVA-NeXT是一个开源的大规模多模态模型项目，致力于提升视觉语言交互能力。该项目支持多图像、视频和3D任务的统一处理，在多个基准测试中表现卓越。LLaVA-NeXT提供了多个模型变体，包括支持高分辨率输入和视频处理的版本，以及基于不同大语言模型的实现。此外，项目还开源了训练数据和代码，为研究人员和开发者提供了宝贵资源。

Open-LLaVA-NeXT - 多模态大语言模型实现视觉语言对齐和指令微调的开源项目

LLaVA-NeXT多模态模型视觉语言训练开源实现AI模型评估Github开源项目

Open-LLaVA-NeXT是一个复现LLaVA-NeXT系列模型的开源项目。它提供开源训练数据和检查点，基于LLaVA代码库进行修改。该项目支持CLIP-L-336视觉编码器以及Vicuna-7B和LLaMA3-8B等语言模型。通过特征对齐和视觉指令微调两个阶段的训练，Open-LLaVA-NeXT实现了多模态能力，在多项评估任务中表现优异。

相关文章

Article Cover

LLaVA-NeXT: 开放式大型多模态模型的新突破

Article Cover

Open-LLaVA-NeXT: 开源实现大规模多模态模型的潜力

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号