热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#音频上下文
Video-LLaVA - 视频多模态模型,具备像素级定位能力
PG-Video-LLaVA
像素级别定锚
LMM
视频理解
音频上下文
Github
开源项目
PG-Video-LLaVA通过模块化设计,首次实现视频多模态模型具备像素级定位能力。该框架使用现成的追踪器和创新的定位模块,能够根据用户指令在视频中实现空间定位。引入新的基准测试用于评估基于提示的对象定位性能,并结合音频上下文完善视频内容理解,提高在对话和新闻视频等场景中的适用性。改进的定量基准测试确保更高的透明度和可重复性。
1
1
相关文章
Video-LLaVA: 开创视频大语言模型的新纪元
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号