MINT-1T:
将开源多模态数据规模扩大10倍:
一个包含一万亿个标记的多模态数据集
🍃 MINT-1T 是一个开源的多模态交错数据集,包含一万亿个文本标记和34亿张图像,规模比现有开源数据集扩大了约10倍。此外,我们还包括了以前未被充分利用的来源,如PDF文件和ArXiv论文。
我们发布了MINT-1T的所有子集,包括:
更新
- [7/24] 🎉 我们开源了🍃 MINT-1T数据集!
- [6/17] 我们发布了技术报告。
引用
如果您觉得我们的工作有用,请考虑引用:
@article{awadalla2024mint1t,
title={MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens},
author={Anas Awadalla and Le Xue and Oscar Lo and Manli Shu and Hannah Lee and Etash Kumar Guha and Matt Jordan and Sheng Shen and Mohamed Awadalla and Silvio Savarese and Caiming Xiong and Ran Xu and Yejin Choi and Ludwig Schmidt},
year={2024}
}