VideoGPT+ :movie_camera: :speech_balloon:
VideoGPT+: 结合图像和视频编码器以增强视频理解
Muhammad Maaz , Hanoona Rasheed , Salman Khan 和 Fahad Khan
Mohamed bin Zayed 人工智能大学
多样化视频生成性能评估基准(VCGBench-Diverse)
在MVBench上的视频问答
视频生成性能评估
:loudspeaker: 最新更新
- 6月13日: VideoGPT+论文、代码、模型、数据集和基准已发布。:fire::fire:
VideoGPT+ 概述 :bulb:
VideoGPT+结合图像和视频编码器,利用详细的空间理解和全局时间上下文。它以段落方式处理视频,通过自适应池化来增强两种编码器的特征,从而提高在各种视频基准测试中的性能。
贡献 :trophy:
- VideoGPT+模型: 我们提出了VideoGPT+,这是第一个采用双编码方案(基于图像和视频特征)的视频对话模型。这些互补的特征集提供了丰富的时空细节,从而提高了视频理解能力。
- VCG+ 112K 数据集: 为解决现有VideoInstruct100K数据集的局限性,我们开发了VCG+ 112K数据集,并采用了一种新的半自动注释管道。该数据集提供了丰富的视频字幕,以及基于空间理解和推理的问答对,进一步提高了模型性能。
- VCGBench-Diverse 基准: 认识到缺乏多样化的视频对话任务基准,我们提出了VCGBench-Diverse,其包含4,354个人工注释的问答对,覆盖18个视频类别,为视频对话模型的性能提供了全面的评估框架。
视频注释管道(VCG+ 112K) :open_file_folder:
Video-ChatGPT引入了VideoInstruct100K数据集,采用半自动注释管道生成了75K条指令训练问答对。为解决这种注释过程的局限性,我们提出了\ourdata~数据集,采用了改进的注释管道。我们的方法通过改善关键帧提取、利用最先进的大型多模态模型(LMM)进行详细描述以及完善指令生成策略,提高了指令训练对的准确性和质量。
VCGBench-Diverse :mag:
认识到现有视频对话基准的多样性有限,我们引入了VCGBench-Diverse,以全面评估视频LMM的泛化能力。尽管VCG-Bench提供了广泛的评估协议,但它仅限于ActivityNet200数据集中的视频。我们的基准包括877个视频,18个广泛的视频类别和4,354个问答对,确保了一个强大的评估框架。
安装 :wrench:
我们建议为该项目设置一个conda环境:
conda create --name=videogpt_plus python=3.11
conda activate videogpt_plus
git clone https://github.com/mbzuai-oryx/VideoGPT-plus
cd VideoGPT-plus
pip install torch==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.41.0
pip install -r requirements.txt
导出PYTHONPATH="./:$PYTHONPATH"
另外,为了进行训练,安装 FlashAttention
pip install ninja
git clone https://github.com/HazyResearch/flash-attention.git
cd flash-attention
python setup.py install
定量评估 📊
我们提供了在 VCGBench、VCGBench-Diverse 和 MVBench 上重现 VideoGPT+ 结果的说明。请遵循 eval/README.md 中的说明。
VCGBench 评估:基于视频的生成性能基准测试 :chart_with_upwards_trend:
VCGBench-Diverse 评估 :bar_chart:
零样本问答评估 :question:
MVBench 评估 :movie_camera:
训练 :train:
我们提供了 VideoGPT+ 的预训练和微调脚本。请遵循 scripts/README.md 中的说明。
定性分析 :mag:
对 VideoGPT+ 在多个任务和领域的全面评估。
致谢 :pray:
- Video-ChatGPT:视频对话模型的开创性尝试。
- LLaVA:我们的代码基础建立在 LLaVA 和 Video-ChatGPT 之上。
- Chat-UniVi:最近一项针对图像和视频的对话模型。我们从他们的公开代码库中借鉴了一些实现细节。
引用 📜:
如果您在研究或应用中使用了 VideoGPT+,请使用以下 BibTeX 引用:
@article{Maaz2024VideoGPT+,
title={VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding},
author={Maaz, Muhammad and Rasheed, Hanoona and Khan, Salman and Khan, Fahad Shahbaz},
journal={arxiv},
year={2024},
url={https://arxiv.org/abs/2406.09418}
}
@inproceedings{Maaz2023VideoChatGPT,
title={Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models},
author={Maaz, Muhammad and Rasheed, Hanoona and Khan, Salman and Khan, Fahad Shahbaz},
booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024)},
year={2024}
}
许可证 :scroll:
本作品已根据 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议获得许可。
期待您的反馈、贡献和点赞! :star2: 请在此处提出任何问题或疑问 here。