热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#LLaVA-Video
LLaVA-Video-7B-Qwen2 - 基于Qwen2的多模态视频理解与交互模型
模型
Qwen2
多模态模型
开源项目
Huggingface
视频指令微调
Github
人工智能
LLaVA-Video
LLaVA-Video-7B-Qwen2是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解和交互。该模型支持处理最多64帧的视频,可进行图像、多图像和视频的交互。经LLaVA-Video-178K和LLaVA-OneVision数据集训练,具备32K tokens的上下文窗口。在ActNet-QA、EgoSchema和MLVU等多个视频理解基准测试中表现出色。模型提供了简便的代码,方便研究人员生成视频描述和回答相关问题。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号