#LLaMA-VID

LLaMA-VID - 支持长视频处理的多模态大语言模型

LLaMA-VID大语言模型视觉语言模型多模态视频理解Github开源项目

LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。

相关文章

Article Cover

LLaMA-VID:突破性的长视频理解模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号