Abel - 数学推理开源大模型学习资料汇总
Abel是由上海交通大学GAIR实验室开发的专注于数学推理的开源大语言模型,在GSM8K和MATH等数学推理基准测试上取得了业界领先的成绩。本文汇总了Abel项目的相关学习资料,帮助读者快速了解和使用这一强大的数学AI模型。
项目简介
Abel项目旨在通过纯监督微调的方式,打造一个在数学推理领域表现卓越的开源大模型。该项目主要亮点包括:
- 在GSM8K基准上达到83.62%的准确率,超越了PaLM-1、Minerva等顶级模型
- 在MATH基准上达到28.26%的准确率,远超其他开源模型
- 7B和13B版本的模型在GSM8K和MATH上均创造了开源模型的历史最佳成绩
- 仅通过监督微调就取得了优异成绩,无需使用工具、继续预训练、奖励模型、RLHF等技术
模型与性能
目前Abel提供了以下几个版本的模型:
模型名称 | 参数量 | GSM8K准确率 | MATH准确率 |
---|---|---|---|
Abel-7B-002 | 7B | 80.44% | 29.46% |
Abel-7B-001 | 7B | 59.74% | 13.00% |
Abel-13B-001 | 13B | 66.41% | 17.34% |
Abel-70B-001 | 70B | 83.62% | 28.26% |
其中Abel-7B-002是最新发布的版本,在GSM8K上首次突破80%,在MATH上也取得了显著进步。
方法论
Abel项目提出了"父母监督"(Parental Oversight)的数据处理理念,强调应该谨慎地选择最有效的数据处理方法来指导大语言模型。该方法的核心思想包括:
- 数据质量比数量更重要
- 训练样本不仅要给出正确答案,还要教会模型如何推导
- 及时补充模型知识的不足
评估与使用
项目提供了详细的评估脚本,可以方便地复现论文中的实验结果。使用步骤如下:
- 创建conda环境:
conda create -n abel python=3.10
- 激活环境:
conda activate abel
- 安装依赖:
pip install -r requirements.txt
- 运行评估:
bash evaluation/eval.sh
局限性
尽管Abel取得了出色的成绩,但仍存在一些局限性,包括:
- 可能存在过拟合问题
- 泛化能力有待提高
- 缺乏多语言支持
- 未探索奖励模型、RLHF等高级技术
项目维护者已经创建了相关的issues列表来追踪这些问题。
总结
Abel项目展示了纯监督微调在数学推理任务上的强大潜力,为研究人员提供了一个强大的开源基线模型。项目代码、模型权重和评估脚本均已开源,欢迎感兴趣的读者进一步探索和使用。
如果您对数学AI感兴趣,Abel无疑是一个值得关注的重要项目。您可以访问项目GitHub仓库获取更多详细信息。