#像素级别定锚

Video-LLaVA: 开创视频大语言模型的新纪元

2024年08月31日

PG-Video-LLaVA 像素级别定锚 LMM 视频理解音频上下文 Github 开源项目

2024年08月31日

相关项目

Video-LLaVA

PG-Video-LLaVA通过模块化设计，首次实现视频多模态模型具备像素级定位能力。该框架使用现成的追踪器和创新的定位模块，能够根据用户指令在视频中实现空间定位。引入新的基准测试用于评估基于提示的对象定位性能，并结合音频上下文完善视频内容理解，提高在对话和新闻视频等场景中的适用性。改进的定量基准测试确保更高的透明度和可重复性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com