MAD: 一个可扩展的电影音频描述视频语言定位数据集
简介
MAD: 一个可扩展的电影音频描述视频语言定位数据集的官方代码仓库。[ArXiv预印本]
论文已被CVPR22接收。
新闻
[2023年3月] MAD-v2现已发布,详情请查看此链接。MADv2改进了MADv1提供的训练注释,通过Whisper减少了转录错误和单词识别错误。此外,AutoAD引入了MAD数据上的第一个字幕生成基线。
[2022年6月] MAD-v1在CVPR2022上被接受。
[2022年6月] MAD-v1发布。
MAD是什么?
MAD是一个从电影音频描述中收集的大规模数据集,用于视频语言定位任务。它包含384K个句子,这些句子在650部不同且多样化的电影中超过1.2K小时的连续视频中进行定位。
涵盖90年电影史中的22个流派,MAD涵盖了广泛的动作、地点和场景。此外,MAD从广泛的电影类型中继承了多样化的视觉和语言内容,从虚构到日常生活。
这些特性产生了一个独特的长形式定位设置,具有大型语言词汇量和在准确性和效率方面的挑战性要求。
请求访问MAD数据集
要获取MAD数据集(注释和预提取特征)的访问权限,请按以下步骤操作:
1- 填写此表格(链接)并签署NDA(保密协议)。
2- 我们将验证所提供信息的正确性。
3- 您将收到一封包含下载数据凭证的电子邮件。
在此处查看数据文档。
数据下载
确认邮件将包含访问数据的链接和密码。每个文件都可以通过网页界面下载,或使用提供的脚本MAD_downloader.py
,使用方法如下:
python MAD_downloader.py --destination_folder {PATH_TO_DOWNLOAD} --download_link {LINK} --password {PASSWORD}
所需依赖:pip install google-measurement-protocol tqdm
视频-语言定位基线
本仓库包含主要论文中使用的基线代码。要复现结果并使用我们的代码,请访问以下两个链接:
对额外视觉/语言特征的支持
由于版权限制,我们不会发布电影。
尽管如此,为了促进新的研究并跟上不断变化的需求,MAD团队将根据要求提供计算视觉/语言特征的支持。
如果您需要一组新的特征(除了我们已经提供的),请通过电子邮件联系或在此仓库上提出问题。
我们将很快发布一个docker镜像以简化这个过程。
引用
如果我们的论文的任何部分对您的工作有帮助,请引用:
@InProceedings{Soldan_2022_CVPR,
author = {Soldan, Mattia and Pardo, Alejandro and Alc\'azar, Juan Le\'on and Caba, Fabian and Zhao, Chen and Giancola, Silvio and Ghanem, Bernard},
title = {MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {5026-5035}
}
@article{rohrbach2017movie,
title={Movie description},
author={Rohrbach, Anna and Torabi, Atousa and Rohrbach, Marcus and Tandon, Niket and Pal, Christopher and Larochelle, Hugo and Courville, Aaron and Schiele, Bernt},
journal={International Journal of Computer Vision},
volume={123},
number={1},
pages={94--120},
year={2017},
publisher={Springer}
}
如果您使用了MAD-v2注释,也请引用这项工作:
@InProceedings{han2023autoad,
title={{AutoAD}: Movie Description in Context},
author={Tengda Han and Max Bain and Arsha Nagrani and G\"ul Varol and Weidi Xie and Andrew Zisserman},
booktitle={CVPR},
year={2023}}