Project Icon

Panda-70M

开创性大规模视频描述数据集融合多重跨模态技术

Panda-70M是一个包含7000万个高质量视频-描述对的大规模数据集,采用多重跨模态技术构建。项目提供数据集加载下载工具、长视频语义分割和视频描述模型。该数据集为计算机视觉和自然语言处理研究提供丰富资源,有助于推进视频理解和描述技术的发展。

🐼 熊猫-70M

这是熊猫-70M的官方GitHub仓库。

熊猫-70M:利用多个跨模态教师为7000万个视频添加说明文字
陈采宣阿列克桑德尔·夏罗辛威利·梅纳帕切叶卡捷琳娜·代涅卡赵祥维全秉恩方宇威李欣颖任剑杨明轩谢尔盖·图利亚科夫
2024年计算机视觉与模式识别会议(CVPR)

arXiv 项目页面 YouTube

简介

熊猫-70M是一个包含7000万个高质量视频-说明文字对的大规模数据集。 本仓库包含三个部分:

  • 数据集数据加载包括列出熊猫-70M数据的csv文件和下载数据集的代码。
  • 分割包括将长视频分割成多个语义连贯的短片段的代码。
  • 说明文字生成包括在熊猫-70M上训练的视频说明文字生成模型。

数据集

收集流程

下载

分割下载链接源视频数量样本数量视频时长存储空间
训练集(完整)链接 (2.01 GB)3,779,76370,723,513167,000小时约36 TB
训练集(1000万)链接 (381 MB)3,755,24010,473,92237,000小时约8.0 TB
训练集(200万)链接 (86.5 MB)800,0002,400,0007,560小时约1.6 TB
验证集链接 (803 KB)2,0006,00018.5小时约4.0 GB
测试集链接 (803 KB)2,0006,00018.5小时约4.0 GB
更多细节可在数据集数据加载章节中找到。

演示

Panda-70M中的视频-标题对

一头犀牛和一头狮子在泥土中打斗。一个人正抱着一只长毛腊肠犬。一枚火箭在发射台上发射升空。
一个人正在揉面团并往上面涂果酱。一个小男孩在城市里玩篮球。一个3D渲染的动物园,里面有动物和一列火车。
一个戴蓝色手套的人正在将电源连接到喷油器上。前景是一片有波浪和岩石的海滩,背景是城市天际线。这是一辆拉力赛车在乡间的土路上行驶,路边有人观看。

**如果您需要,我们将从我们的数据集/Github/项目网页/技术演示中移除视频样本。请联系tsaishienchen@gmail.com提出请求。

更多样本请查看这里

长视频分割和标题生成

https://github.com/snap-research/Panda-70M/assets/3857997/8144cf3d-c20c-4c18-a4bd-011451da9f9b

https://github.com/snap-research/Panda-70M/assets/3857997/b262128e-2152-41e8-873e-db2dc275c40f

Panda-70M许可证

请查看许可证。 视频样本来自一个公开可用的数据集。 用户必须遵守相关许可证才能使用这些视频样本。

引用

如果您发现本项目对您的研究有用,请引用我们的论文。 :blush:

@article{chen2024panda70m,
    title   = {Panda-70M:利用多个跨模态教师为7000万个视频添加说明文字},
    author  = {陈才显 and Siarohin, Aliaksandr and Menapace, Willi and Deyneka, Ekaterina and 赵向维 and 全秉恩 and 方宇威 and 李欣颖 and 任健 and 杨明轩 and Tulyakov, Sergey},
    journal = {arXiv预印本 arXiv:2402.19479},
    year    = {2024}
}

联系方式

陈才显tsaishienchen@gmail.com

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号