PG-Video-LLaVA: 视频中的像素对位在大型多模态视频模型中
Shehan Munasinghe* , Rusiru Thushara* , Muhammad Maaz , Hanoona Rasheed, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan.
*同等贡献
阿联酋莫哈默德·本·扎耶德人工智能大学
📢 最新更新
- 📦 2023年12月27日:代码和模型已发布!🚀
概述
PG-Video-LLaVA是第一个具有像素级对位能力的视频大型多模态模型(LMM)。🔥🔥🔥
🏆 贡献
这项工作的主要贡献是:
-
我们提出了PG-Video-LLaVA,这是第一个具有像素级对位能力的视频LMM,其模块化设计提高了灵活性。我们的框架使用现成的追踪器和新型对位模块,实现了按照用户指令在视频中空间对位对象。
-
我们引入了一个专门设计的基准,用于测量基于提示的对象对位性能。
-
通过结合音频上下文,PG-Video-LLaVA显著增强了对视频内容的理解,使其更全面,更适用于音频信号对视频理解至关重要的场景(如对话、新闻视频等)。
-
我们引入了改进的定量基准,用于视频对话模型。我们的基准采用开源的Vicuna LLM,以确保更好的可重复性和透明度。我们还提出了评估视频对话模型对位能力的基准。
PG-Video-LLaVA : 架构
安装和CLI演示
关于安装和设置CLI演示,请参考此处的说明。
训练
关于训练,请参考此处的说明。
质性分析 🔍
视频对位 🎯
我们的框架使用现成的追踪器和新型对位模块,实现了按照用户指令在视频中定位对象。
包括音频模态 🎧
通过结合音频上下文,PG-Video-LLaVA显著增强了对视频内容的理解,使其更全面,更适用于音频信号对视频理解至关重要的场景(如对话、新闻视频等)。
Video-ChatGPT 与 PG-Video-LLaVA
PG-Video-LLaVA 基于更强的图像LMM基线,使其比前身拥有更好的对话能力。
定量评估 📊
我们使用基于视频的生成和问答基准评估PG-Video-LLaVA。我们还引入了专门设计的基准,用于测量视频中基于提示的对象对位性能。
视频对位 🎯
为了定量评估PG-Video-LLaVA的空间对位能力,我们在从VidSTG和HC-STVG数据集的测试集中得出的两个基准上进行了定量评估。
有关视频对位定量评估的详细说明,请参考此处。
基于视频的生成性能基准 🤖
我们应用了来自Video-ChatGPT的基准框架,该框架测量了视频对话代理在信息正确性、细节导向、上下文理解、时间理解和一致性等几个关键方向的性能。为了促进可靠和可重复的评估,我们用Vicuna-13b-v1.5替代了GPT-3.5,更新了我们的评估管道。
零样本问答 💬
我们使用几个已建立的开放式问答数据集(MSRVTT-QA、MSVD-QA、TGIF-QA和ActivityNet-QA)定量评估了零样本问答(QA)能力。
关于基于视频的生成性能基准和零样本问答基准的详细说明,请参考此处。
致谢 🙏
- LLaMA: 一次伟大的尝试,致力于开放和高效的LLM!
- Vicuna: 拥有惊人的语言能力!
- LLaVA: 我们的架构受到了LLaVA的启发。
- Video-ChatGPT: PG-Video-LLaVA的前身
引用 📜
如果你在研究或应用中使用PG-Video-LLaVA,请使用以下BibTeX引用:
@article{munasinghe2023PGVideoLLaVA,
title={PG-Video-LLaVA: Pixel Grounding Large Video-Language Models},
author={Shehan Munasinghe and Rusiru Thushara and Muhammad Maaz and Hanoona Abdul Rasheed and Salman Khan and Mubarak Shah and Fahad Khan},
journal={ArXiv 2311.13435},
year={2023}
}