热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#LLaMA-VID
LLaMA-VID - 支持长视频处理的多模态大语言模型
LLaMA-VID
大语言模型
视觉语言模型
多模态
视频理解
Github
开源项目
LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。
1
1
相关文章
LLaMA-VID:突破性的长视频理解模型
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号