OmniCorpus
[论文] [OmniCorpus-YT] [OmniCorpus-CC-600M] [OmniCorpus-CC-200M] [OmniCorpus-CC-8M]
新闻🚀🚀🚀
2024/06/13
: 🚀我们推出了OmniCorpus,一个100亿级的图像-文本交错数据集。该数据集包含86亿张图像、1.696万亿个文本标记和22亿个文档!
计划
-
发布OmniCorpus-YT
-
发布OmniCorpus-CC-600M
-
发布OmniCorpus-CC-200M
-
发布OmniCorpus-CC-8M
简介
OmniCorpus数据集是迄今为止最大的多模态数据集,它通过包含86亿张来自多样化来源的图像与1,696个文本标记交错,显著超越了以往的数据集,推动了规模和多样性的边界。 与其他数据集相比,该数据集展现了几个优势:
-
更大的数据规模: 与之前最大的多模态数据集LAION-5B相比,我们的数据集在图像数量上是其1.7倍,在文本数量上是其12.5倍,同时保持了出色的数据质量。
-
更丰富的数据多样性: 我们的数据集源自更广泛的数据来源,比其他图像-文本交错数据集更加多样化。它包括中英双语多模态数据,涵盖了从常见网站和视频平台提取的以文本为中心和以视觉为中心的文档。
-
更灵活的格式: 我们数据集的流式数据格式提供了卓越的灵活性,可以适应各种数据结构,包括纯文本语料库、图像-文本对和交错数据格式。
<图片>
一些示例:
<图片>
<图片>
<图片>
数据处理流程
我们的数据处理流程包括五个关键阶段:主体提取、初步文本过滤、文档去重、图像下载和过滤以及详细文本过滤。每个阶段都有效地减少了数据集,仅保留高质量数据。 有关数据处理流程的更多详细信息,请参阅我们的论文。
<图片>
实验结果
我们进行了一系列实验来评估OmniCorpus的有效性。如下表所示,在我们的数据集上训练的模型在学术图像描述和视觉问答基准测试中表现出优异的性能。 更多实验结果请参阅我们的论文。
<图片>