数学生成式人工智能:MathPile
这是数学生成式人工智能:第一部分 - MathPile:亿级token规模的数学预训练语料库的官方代码库
主页 | 数据集 | 论文 | 局限性 | 声明与许可 | 引用 | AK推荐
请注意,我们的语料库可能会更新(我们会在发布时通知)。建议使用最新版本。
🔥新闻
- [2024/01/06] 我们发布了MathPile的商业使用版本,即MathPile_Commercial。
- [2024/01/06] 我们发布了MathPile的新版本(
v0.2
,更干净的版本)。详情请参见我们的HF数据集主页。 - [2023/12/30] MathPile登上了Hugging Face数据集热门列表。[快照]
- [2023/12/29] 我们发布了MathPile,一个95亿token规模的高质量、多样化的数学中心预训练语料库。
- [2023/12/28] 我们发布了MathPile的技术报告。
🚀简介
高质量、大规模的语料库是构建强大基础模型的基石。在这项工作中,我们介绍了MathPile,一个多样化、高质量的数学中心语料库,包含约95亿个token。我们的工作在以下特征上与之前的工作有显著不同:
-
数学中心:MathPile独特地针对数学领域,不同于像Pile和RedPajama这样的通用领域语料库,或像ROOTS和The Stack这样的多语言语料库。虽然也有数学中心的语料库,但它们通常要么是闭源的,如Google的Minerva和OpenAI的MathMix,要么缺乏多样性,如ProofPile和OpenWebMath。
-
多样性:MathPile从广泛的来源中汇集:教科书(包括讲义)、arXiv、维基百科、ProofWiki、StackExchange和网页。它涵盖了适合K-12、大学、研究生水平和数学竞赛的数学内容。这种多样性是首创的,特别是我们发布了大量高质量教科书(约1.9亿token)。
-
高质量:我们坚持"质量胜于数量"的原则,坚信即使在预训练阶段,数据质量也比数量更重要。我们精心收集和处理数据,包括复杂的预处理、预过滤、清洗、过滤和去重套件,确保了语料库的高质量。
-
数据文档:为了提高透明度,我们对MathPile进行了广泛的文档记录。这包括一个数据集表(见我们论文中的表5)和网络来源文档的质量注释,如语言识别分数和符号与词语比率。这使用户可以根据需求定制数据。我们还进行了数据污染检测,以消除来自MATH和MMLU-STEM等基准测试集的重复内容。
我们希望我们的MathPile能帮助增强语言模型的数学推理能力。更多技术细节请参见我们的论文。
😋局限性
- 数据收集和处理阶段的决策可能并非总是最优的。
- MathPile中的一些文档可能并不总是最高质量的。我们致力于持续改进和优化这个语料库。
👊声明与许可
-
这些宝贵的语料库是人类智慧的结晶,应该用于改善人类生活,促进人类进步。我们强烈呼吁所有用户不要将我们的语料库用于任何可能危害国家或社会安全或违反法律的活动。
-
我们已尽最大努力确保数据的高质量和合法使用。然而,仍可能出现不可预见的问题,包括但不限于数据安全问题以及任何因滥用而产生的风险或问题。我们对此类问题不承担任何责任。
如果MathPile的源数据受到比CC BY-NC-SA 4.0更严格的许可限制,MathPile将遵循那个更严格的许可。在所有其他情况下,它遵循CC BY-NC-SA 4.0许可。我们也计划很快发布一个可商业使用的数据集版本。
🥳引用
如果您发现我们的工作有用或使用了MathPile,请引用我们的论文:
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}