NuminaMath-7B-TIR

NuminaMath-7B-TIR项目简介

NuminaMath-7B-TIR是一个专门为解决数学问题而设计的语言模型。它采用工具整合推理（TIR）技术，能够有效地应对复杂的数学问题。这个模型在AI Math Olympiad (AIMO)中脱颖而出，取得了29/50的优异成绩。

模型背景

NuminaMath系列模型的目标是解决数学问题，其中7B TIR版本是通过两个阶段的监督微调而来：

阶段1：在一个包含大量自然语言数学问题及其解决方案的数据集上对基础模型进行微调，引入了一种称为“思维链”的模板来促进推理。
阶段2：在一个合成数据集上进行进一步微调，这些数据使用工具整合推理的方法，将每个数学问题分解为多步的推理、Python编程以及输出。这个阶段遵循了Microsoft的ToRA论文中的方法，通过GPT-4来生成解决方案并进行代码执行反馈。

通过这些步骤，NuminaMath-7B-TIR发展成为一个可以结合自然语言推理和Python REPL执行来解决数学问题的推理代理。

模型描述

模型类型：这一模型有着7B参数，通过两阶段的监督微调，一开始在包含数学问题和解决方案的数据集上，然后在使用多步推理的合成数据集上进行微调。
语言：主要支持英语。
许可证：Apache 2.0
微调自模型：deepseek-ai/deepseek-math-7b-base

模型性能

NuminaMath-7B-TIR在多项数学基准测试中表现卓越，特别是在GSM8k、MATH等挑战中展现出色的0-shot解题能力。

	NuminaMath-7B-CoT	NuminaMath-7B-TIR
GSM8k	76.3%	84.6%
MATH	55.8%	68.1%
AMC 2023	11/40	20/40
AIME 2024	0/30	5/30

这些成绩表明NuminaMath-7B-TIR能够在无提示情况下解决多种级别的数学问题，特别是在竞赛级别数学问题上表现出色。

使用说明

NuminaMath-7B-TIR 电子演示可以通过Hugging Face访问。用户可以通过该模型进行数学问题求解。

限制与风险

NuminaMath-7B-TIR专注于竞赛级数学问题的解决，可能不适用于一般性的对话应用。在处理难度较大的奥林匹克数学问题和几何问题时，模型可能表现不佳。此外，由于模型的能力和缺乏视觉等多模态信息，使得其对几何问题的解决能力有限。

训练细节

训练过程中使用了以下超参数：

学习率：2e-05
批量大小（训练）：4
批量大小（评估）：8
总训练批量大小：32
优化器：Adam
学习率调度方法：余弦
训练时代：4.0

该模型基于Transformers、Pytorch、Datasets以及Tokenizers框架进行开发和训练。

引用

如果您在工作中发现NuminaMath-7B-TIR对您有帮助，请参考以下方式引用：

@misc{numina_math_7b,
  author = {Edward Beeching and Shengyi Costa Huang and Albert Jiang and Jia Li and Benjamin Lipkin and Zihan Qina and Kashif Rasul and Ziju Shen and Roman Soletskyi and Lewis Tunstall},
  title = {NuminaMath 7B TIR},
  year = {2024},
  publisher = {Numina & Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/AI-MO/NuminaMath-7B-TIR}}
}

NuminaMath-7B-TIR致力于通过先进的工具整合推理技术，为数学问题求解领域带来新的突破。