热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#图像文本交错
OmniCorpus - 百亿级图文交错数据集推动多模态AI研究新高度
OmniCorpus
多模态数据集
图像文本交错
数据处理管道
大规模数据
Github
开源项目
OmniCorpus是一个大规模多模态数据集,包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容,涵盖从网站和视频平台提取的文本和视觉文档,具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比,OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍,同时保持了优秀的数据质量。研究表明,基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式,可适应多种数据结构,包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号