Oryx 视频聊天GPT :movie_camera: :speech_balloon:

视频聊天GPT：通过大型视觉和语言模型实现详细的视频理解 [ACL 2024 🔥]

Muhammad Maaz* , Hanoona Rasheed* , Salman Khan 和 Fahad Khan

* 同等贡献的第一作者

穆罕默德·本·扎耶德人工智能大学

多样化视频生成性能基准测试 (VCGBench-Diverse)

视频生成性能基准测试

零样本问答评估

演示	论文	演示片段	离线演示	训练	视频指令数据	定量评估	定性分析
			离线演示	训练	视频指令数据集	定量评估	定性分析

:loudspeaker: 最新更新

2024年6月14日: VideoGPT+ 发布。它在多个基准测试中取得了最先进的结果。查看 VideoGPT+ :fire::fire:
2024年6月14日: 半自动视频标注流程 发布。查看 GitHub, HuggingFace. :fire::fire:
2024年6月14日: VCGBench-多样化基准 发布。它提供了18个视频类别的4,354个人工标注的问答对，用于全面评估视频对话模型的性能。查看 GitHub, HuggingFace. :fire::fire:

2024年5月16日: Video-ChatGPT 被ACL 2024接收! 🎊🎊
2023年9月30日: 我们的VideoInstruct100K数据集可以从 HuggingFace/VideoInstruct100K 下载。 :fire::fire:
2023年7月15日: 我们的基于视频的对话模型定量评估基准现在有了专门的网站：https://mbzuai-oryx.github.io/Video-ChatGPT。 :fire::fire:
2023年6月28日: 更新了GitHub readme，展示了Video-ChatGPT与最近模型（Video Chat、Video LLaMA和LLaMA Adapter）的基准比较。在这些先进的对话模型中，Video-ChatGPT继续保持最先进的性能。:fire::fire:
2023年6月8日: 发布了训练代码、离线演示、指令数据和技术报告。所有资源包括模型、数据集和提取特征都可在此处获取。 :fire::fire:
2023年5月21日: Video-ChatGPT: 演示发布。

在线演示 :computer:

:fire::fire: 您可以使用提供的示例或上传自己的视频来尝试我们的演示点击这里. :fire::fire:

:fire::fire: 或点击图片试用演示! :fire::fire: 您可以在这里访问我们演示的所有视频。

Video-ChatGPT 概述 :bulb:

Video-ChatGPT 是一个能够针对视频生成有意义对话的视频对话模型。它结合了大语言模型的能力和经过预训练的视觉编码器，适用于时空视频表示。

贡献 :trophy:

我们引入了10万对高质量的视频-指令对，以及一个新颖的、可扩展的注释框架，该框架生成多样化的高质量视频特定指令集。
我们开发了第一个用于基准测试视频对话模型的定量视频对话评估框架。
独特的多模态（视觉-语言）能力，结合视频理解和语言生成，通过定量和定性比较在视频推理、创造性、空间和时间理解以及动作识别任务上进行全面评估。

安装 :wrench:

我们建议为项目设置一个conda环境：

conda create --name=video_chatgpt python=3.10
conda activate video_chatgpt

git clone https://github.com/mbzuai-oryx/Video-ChatGPT.git
cd Video-ChatGPT
pip install -r requirements.txt

export PYTHONPATH="./:$PYTHONPATH"

此外，安装 FlashAttention 用于训练，

pip install ninja

git clone https://github.com/HazyResearch/flash-attention.git
cd flash-attention
git checkout v1.0.7
python setup.py install

离线运行演示 :cd:

要离线运行演示，请参考 offline_demo.md 中的说明。

训练 :train:

有关训练说明，请查看 train_video_chatgpt.md。

视频指令数据集 :open_file_folder:

我们正在发布用于训练Video-ChatGPT模型的10万条高质量视频指令数据集。您可以从这里下载该数据集。有关我们用于生成数据的人工辅助和半自动标注框架的更多详细信息，请参阅VideoInstructionDataset.md。

定量评估 :bar_chart:

我们的论文引入了一个新的基于视频的对话模型定量评估框架。要探索我们的基准测试并更深入地了解该框架，请访问我们的专用网站：https://mbzuai-oryx.github.io/Video-ChatGPT。

有关如何进行定量评估的详细说明，请参阅QuantitativeEvaluation.md。

为了详细概述性能，提供了基于视频的生成性能基准测试和零样本问答评估表格。

零样本问答评估

模型	MSVD-QA		MSRVTT-QA		TGIF-QA		Activity Net-QA
	准确率	得分	准确率	得分	准确率	得分	准确率	得分
FrozenBiLM	32.2	--	16.8	--	41.0	--	24.7	--
Video Chat	56.3	2.8	45.0	2.5	34.4	2.3	26.5	2.2
LLaMA Adapter	54.9	3.1	43.8	2.7	-	-	34.2	2.7
Video LLaMA	51.6	2.5	29.6	1.8	-	-	12.4	1.1
Video-ChatGPT	64.9	3.3	49.3	2.8	51.4	3.0	35.2	2.7

基于视频的生成性能基准测试

评估方面	Video Chat	LLaMA Adapter	Video LLaMA	Video-ChatGPT
信息准确性	2.23	2.03	1.96	2.40
细节关注度	2.50	2.32	2.18	2.52
上下文理解	2.53	2.30	2.16	2.62
时序理解	1.94	1.98	1.82	1.98
一致性	2.24	2.15	1.79	2.37

定性分析 :mag:

Video-ChatGPT在多项任务中的全面性能评估。

视频推理任务 :movie_camera:

样例1

创意和生成任务 :paintbrush:

样例5

空间理解 :globe_with_meridians:

样例8

视频理解和对话任务 :speech_balloon:

样例10

动作识别 :runner:

样例22

问答任务 :question:

样例14

时序理解 :hourglass_flowing_sand:

样例18

致谢 :pray:

LLaMA：朝着开放高效的大型语言模型迈出的重要一步！
Vicuna：具有惊人的语言能力！
LLaVA：我们的架构受到LLaVA的启发。
感谢我们在MBZUAI的同事对视频标注任务的重要贡献，包括Salman Khan、Fahad Khan、Abdelrahman Shaker、Shahina Kunhimon、Muhammad Uzair、Sanoojan Baliah、Malitha Gunawardhana、Akhtar Munir、 Vishal Thengane、Vignagajan Vigneswaran、Jiale Cao、Nian Liu、Muhammad Ali、Gayal Kurrupu、Roba Al Majzoub、 Jameel Hassan、Hanan Ghani、Muzammal Naseer、Akshay Dudhane、Jean Lahoud、Awais Rauf、Sahal Shaji、Bokang Jia，没有他们这个项目就无法实现。

如果您在研究或应用中使用Video-ChatGPT，请使用以下BibTeX引用：

@inproceedings{Maaz2023VideoChatGPT,
    title={Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models},
    author={Maaz, Muhammad and Rasheed, Hanoona and Khan, Salman and Khan, Fahad Shahbaz},
    booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024)},
    year={2024}
}

许可证 :scroll:

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://yellow-cdn.veclightyear.com/ab5030c0/69b2c627-4276-48d0-8b6a-891ff58a69b5.png" /></a> 本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议</a>进行许可。

期待您的反馈、贡献和星标！:star2: 如有任何问题或疑问，请在这里提出。