MathPile

MathPile 项目介绍

项目背景

MathPile 是一个专注于数学领域的生成式人工智能项目，其核心是一个规模庞大的预训练语料库，包含约95亿个词汇。与之前的类似项目相比，MathPile 在几个方面具有显著的不同。

项目特色

数学领域聚焦

MathPile 专门针对数学领域进行优化，与其他通用领域的语料库（如 Pile 和 RedPajama）以及多语言语料库（如 ROOTS 和 The Stack）不同。尽管市场上也有一些针对数学的语料库，如 Google 的 Minerva 和 OpenAI 的 MathMix，但它们往往闭源或缺乏多样性，MathPile 则弥补了这些不足。

多样性

MathPile 的内容来源多样，涵盖了教科书（包括讲义）、arXiv、维基百科、ProofWiki、StackExchange 及网页等，为用户提供从基础教育到大学、研究生及数学竞赛水平的广泛数学内容。特别值得一提的是，MathPile 首次发布了大量高质量教科书的数据（约1.9亿词汇）。

高质量

MathPile 项目坚持“精益求精”的理念，重视数据的质量而非单纯追求数量。通过复杂的预处理、过滤、清洗、筛选和去重过程，确保语料的高质量。

数据文档化

MathPile 提供了详尽的数据文档，以提高透明度。其中包括一份数据集表（见论文中的表5）和来自网络文档的质量注释，如语言识别评分和符号与单词的比例。这些文档使用户能够根据自己的需要调整数据集。此外，还进行了数据污染检测，以确保如 MATH 和 MMLU-STEM 等基准测试集中的数据不被重复。

项目目标

MathPile 旨在增强语言模型的数学推理能力。更多技术细节可参阅项目的技术报告。

现有的局限性

MathPile 在数据采集和处理阶段所做的决策可能并不总是最优的。此外，某些文档的质量尚需提升。项目团队承诺将持续优化和改进该语料库。

使用声明及许可

MathPile 的数据旨在促进人类生活的改善，项目团队强烈呼吁用户不要将此语料库用于任何可能损害国家或社会安全，或违反法律的活动。项目团队尽力保证数据的高质量和合法使用，但对数据使用中可能出现的任何问题概不负责。

MathPile 遵循相对更严格的许可规定，若源数据的许可限制高于CC BY-NC-SA 4.0，项目将尊重源数据的许可要求。否则，数据在CC BY-NC-SA 4.0许可下使用。团队计划很快发布数据集的商业可用版本。

项目应用

MathPile 被应用于多个项目，涵盖了预训练、数据合成及基准测试等场景。这些项目包括：

Stanford CS224N 自定义项目
JiuZhang3.0 项目
针对特定任务的数据增强研究
Great Memory, Shallow Reasoning 项目
BAM! 项目
SciDFM 项目
MIND 项目等

引用须知

若使用或引用 MathPile，请注明出处：

@article{wang2023mathpile,
      title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
      author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
      journal={arXiv preprint arXiv:2312.17120},
      year={2023}
}