生成式人工智能用于数学:Abel
模型 | 排行榜 | 方法论 | 评估 | 鲁棒性分析 | 限制 | 引用 | 展望 |
Ethan Chern*, Haoyang Zou*, Xuefeng Li*, Jiewen Hu*, Kehua Feng, Junlong Li, Pengfei Liu+
- "*" 核心贡献者,
- "+" 通讯作者, 在上海交通大学 GAIR 实验室,上海人工智能实验室
新闻
🔥[2023/12/12] 我们发布了 Abel-7B-002,该模型在 GSM8K 上提升了 35%,在 MATH 上提升了 126%,成为最强的 7B 模型之一(GSM8K 上达到 80.44,MATH 上达到 29.46)
模型与性能
模型名称 | HF 检查点 | GSM8k | MATH | 许可证 |
---|---|---|---|---|
Abel-7B-002 | 🤗 7B | 80.44 | 29.46 | Apache License 2.0 |
Abel-7B-001 | 🤗 7B | 59.74 | 13.00 | Llama 2 |
Abel-13B-001 | 🤗 13B | 66.41 | 17.34 | Llama 2 |
Abel-70B-001 | 🤗 70B | 83.62 | 28.26 | Llama 2 |
泛化
模型 | GSM8k | MATH | MathQA | SVAMP | SCQ5K-EN | ARC-E | ARC-C | HellaSwag | MMLU |
---|---|---|---|---|---|---|---|---|---|
Abel-7B-002 | 80.44 | 29.46 | 69.78 | 77.67 | 55.95 | 77.67 | 55.05 | 77.72 | 61.19 |
Abel-7B-001 | 59.74 | 13 | 1.21 | 57.67 | 9.3 | 53.32 | 38.97 | 63.51 | 40.59 |
MetaMath-Mistral-7B | 77.7 | 28.2 | 33.94 | 79.33 | 37.6 | 78.48 | 51.93 | 76.44 | 61.93 |
Qwen-7b | 47.84 | 9.34 | 27.44 | 53 | 40.05 | 74.97 | 53.05 | 86.85 | 57.98 |
Mistral-7b | 37.83 | 9.06 | 25.73 | 63 | 39.6 | 76.83 | 53.22 | 76.31 | 64.05 |
Yi-6b | 32.6 | 5.78 | 26.98 | 55.67 | 35.5 | 73.66 | 49.53 | 68.97 | 64.02 |
LLaMA2-7b | 12.96 | 2.78 | 11.52 | 44 | 28.24 | 71.12 | 46.61 | 71.32 | 46.7 |
可以发现:
- Abel-002 在数学数据集上表现出色(GSM8K、MATH、MathQA、SVAMP、SCQ5K-EN)。
- 它在非领域推理数据集(ARC-E、ARC-C、HellaSwag)上也具有竞争力,超越了基础模型 Mistral-7b。
- 在 MMLU 上,Abel-7B-002 只比 Mistral-7b 低 3 分,而 Abel-7B-001 比 LLaMA2-7b 低了 6 分。
评估细节:
- 所有评估结果都是少样本和零样本结果中的最大值。
- GSM8K、MATH、MathQA、SVAMP 和 SCQ5K-EN 的结果由我们的脚本评估,而 MMLU、ARC-E、ARC-C、HellaSwag 的结果由 OpenCompass 评估。
介绍
📝 Abel
以 尼尔斯·亨里克·阿贝尔 的名字命名,致敬他在代数和分析领域的开创性工作,我们的模型在这些方面也表现较好。然而,我们还有很长的路要走 🏃♂️🏃♀️🏁🏃♂️🏃♀️。
我们展示了:
- 没有 使用工具
- 没有 持续预训练
- 没有 奖励模型
- 没有 RLHF
- 仅 使用 SFT
我们在开放源代码 LLM(不使用外部工具)上建立了新的 最先进 性能,尤其是在 GSM8K(83.62)和 MATH(28.26)基准测试中。具体说来:
- 在 GSM8K 上的表现(83.62)超过了顶级模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)、ChatGPT(OpenAI),仅比 Google 最新的 PaLM-2-Flan 低一个百分点。
- 在 高度挑战的数学竞赛问题(相比 GPT4 的 42.5%),实现了 28.26% 的准确率,显著领先于其他开源模型,超过了之前最好开源模型 5.46%。
- 7B 和 13B 模型在 GSM8K 和 MATH 中实现了 历史性的里程碑 性能。
GAIRMath-Abel
获得了 前 10 名中的 3 名排名,成为榜单上唯一的 大学主导的项目(其他是星创公司或大科技公司)。- 使用我们的方法,不仅在 GSM8K 和 MATH 上取得了优异的结果,当给定一个 新数据集(TALSCQ-EN),我们可以在 短时间 内达到最先进的(SOTA)性能,超过商业性的多亿级模型 MathGPT 和 GPT4。
我们证明了:
- 人们 严重低估了 SFT 的能力,研究人员应对 SFT 怀有敬畏和谨慎的态度
- 卓越的数学问题解决能力 仅通过 SFT 就能实现,这为未来在这一方向上的探索激发了更多的想象力和可能性。
数学推理排行榜
🔒
代表专有模型,🌍
代表开源模型🎓
表示模型开发由大学主导(而非公司)- 我们只考虑 没有 使用任何工具(例如,Python)的模型
排名 | 模型 | 参数 | 主要组织 | GSM8K | MATH |
---|---|---|---|---|---|
🔒 1 | GPT-4 | 未知 | OpenAI | 92.0 | 42.5 |
🔒 2 | Claude-2 | 未知 | Anthropic | 88.0 | - |
🔒 3 | PaLM-2-Flan | 未知 | 84.7 | 33.2 | |
🌍 4 | GAIRMath-Abel | 70B | 🎓 上海交通大学 GAIR 实验室 | 83.6 | 28.3 |
🌍 5 | WizardMath | 70B | Microsoft | 81.6 | 22.7 |
🔒 6 | Claude-Instant | 未知 | Anthropic | 80.9 | - |
🔒 7 | ChatGPT | 未知 | OpenAI | 80.8 | 34.1 |
🌍 4 | Abel-002 | 7B | 🎓 上海交通大学 GAIR 实验室 | 80.4 | 29.5 |
🔒 8 | ChatGPT-0301 | 未知 | OpenAI | 74.9 | - |
🌍 9 | GAIRMath-Abel | 13B | 🎓 上海交通大学 GAIR 实验室 | 66.4 | 17.3 |
🌍 10 | GAIRMath-Abel | 7B | 🎓 上海交通大学 GAIR 实验室 | 59.7 | 13.0 |
🔒 11 | Minerva | 540B | 58.8 | 33.6 | |
🔒 12 | PaLM | 540B | 56.9 | 8.8 | |
🌍 13 | Llama-2 | 70B | Meta | 56.8 | 13.5 |
🌍 14 | RFT | 33B | OFA | 56.5 | 7.4 |
🌍 15 | Baichuan2-13B | 13B | 百川 | 52.8 | 10.1 |
🔒 16 | Minerva | 62B | 52.4 | 27.6 | |
🔒 17 | PaLM | 64B | 52.4 | 4.4 | |
🌍 18 | RFT | 13B | OFA | 52.1 | 5.1 |
🌍 19 | LlaMA | 65B | Meta | 50.9 | 10.6 |
🌍 20 | QWen | 7B | 阿里巴巴 | 44.9 | 8.5 |
🔒 21 | Chinchilla | 70B | DeepMind | 43.7 | - |
🌍 22 | Llama-2 | 34B | Meta | 42.2 | 6.24 |
🔒 23 | Galactica | 30B | Meta | 41.7 | 12.7 |
🌍 24 | ChatGLM2 | 12B | 智谱 | 40.9 | - |
🔒 25 | Text-davinci-002 | 175B | OpenAI | 40.7 | 19.1 |
🌍 26 | Llama | 33B | Meta | 35.6 | 7.1 |
🔒 27 | GPT-3 | 175B | OpenAI | 34 | 5.2 |
🌍 28 | InternLM | 7B | 上海人工智能实验室 | 31.2 | - |
🌍 29 | Llama-2 | 13B | Meta | 28.7 | 3.9 |
🌍 30 | Vicuna v1.3 | 13B | LMSys | 27.6 | - |
🌍 31 | Falcon | 40B | 技术创新研究所 | 19.6 | 2.5 |
🌍 32 | Llama | 13B | Meta | 17.8 | 3.9 |
🌍 33 | MPT | 30B | MosaicML | 15.2 | 3.1 |
🔒 34 | Galactica | 6.7B | Meta | 10.2 | 2.2 |
方法论
我们提出 Parental Oversight, 一种 Babysitting Strategy 用于监督微调。
Parental Oversight
并不限于任何特定的数据处理方法,而是定义了生成式人工智能(GAI)时代监督微调的数据处理理念。我们认为,在 GAI 时代,数据结构工程 已经成为一种新范式。在这一范式中,微调数据的处理方式显著影响训练出的 GAI 的性能。我们期待社区中有越来越多的研究聚焦于这种数据处理理念。
Parental Oversight
的原则强调以关爱和审慎的态度对待监督微调。这类似于鼓励父母教育他们的孩子。不同类型的数据及其呈现格式(例如逐步推理、迭代细化)可以类比为多样的教育方法。就如父母谨慎选择最有效的方法教育孩子一样,GAI 从业者应谨慎选择最有效的数据处理方法来更好地教育他们的 LLM。
此外,“数据越多越好”的理念并不总是成立。标注样本的质量和相关性往往比其数量更为重要。用于 SFT 的训练样本不仅应该提供正确的答案,还应该指导模型如何基于 LLM 的知识得出正确答案。此外,如果 LLM 的知识不足以回答问题,Parental Oversight
应及时介入,填补知识空白。
评价
- 创建一个 Conda 环境
conda create -n abel python=3.10
- 激活该环境
conda activate abel
- 运行
pip install -r requirements.txt
- 运行
bash evaluation/eval.sh
。部分评价脚本修改自 Minerva。 - 注意:我们在进行评价时观察到了一些非完全确定性的现象,这可能与这个 vllm 问题有关。因此,您获得的结果可能与我们的略有不同。您也可以在
./outputs
目录中查看我们的评价输出。
鲁棒性分析
我们的鲁棒性分析由两个部分组成:基于 GSM8k_robust 数据集 的对抗性评价和基于 TAL-SCQ5K-EN 数据集 的监督迁移学习。我们进行初步分析以了解(1)Abel 是否过度拟合训练数据集,因此对分布外测试样本变得脆弱,以及(2)我们的 SFT 方法是否能够快速迁移和推广 Abel 以适应不同分布的数据集。
基于 GSM8k_robust 数据集的对抗性评价
GSM8k_robust 数据集是我们基于 GSM8k 数据集建立的。我们在不改变问题中任何其他信息的情况下,随机修改了 GSM8k 数据集中的数字,使用 GPT-4 生成了修改后问题的“黄金答案”。在手动审查了这些样本的一个子集后,我们发现所有生成的答案都是准确的。我们利用 GSM8k_robust 数据集来评估模型是否过度拟合训练数据,使模型对分布外测试样本变得脆弱。我们的分析表明,Abel 对分布外测试样本更加鲁棒,相比其他模型。
模型 | GSM8k | GSM8k_robust | 差值 |
---|---|---|---|
Abel-7B | 59.74 | 58.23 | -1.51 |
Abel-13B | 66.41 | 66.57 | +0.16 |
Abel-70B | 83.62 | 81.80 | -1.82 |
WizardMath-70B | 81.60 | 74.91 | -6.70 |
WizardMath-13B | 63.90 | 59.51 | -4.39 |
RFT-7B | 41.7 | 37.98 | -3.72 |
基于 TAL-SCQ5K-EN 数据集的监督迁移学习
我们展示了 Abel-70B 不仅在 GSM8k 和 MATH 数据集上实现了 SOTA,还能够推广到 Math LLM 提供商 TAL(好未来)最新发布的 TAL-SCQ5K-EN 2K 数据集。我们的分析表明,我们的 SFT 方法能够成功地将 Abel 推广到不同分布的数据集。我们将进一步进行分析和实验,以探索和提升 Abel 的推广能力。
模型 | TAL-SCQ5K-EN 2K 测试基准 |
---|---|
Abel-70B | 59.7 |
MathGPT | 59.0 |
GPT-4 | 51.0 |
Llama-70B | 43.8 |
演示
限制
- 过拟合:尽管进行了鲁棒性分析,并且考虑到数学生成 AI 本质上具有脆弱性(通常需要高级解码策略如多数投票),过度依赖构建 SFT 样本以提高性能,必然会导致模型过拟合。(然而,过拟合并不是当前项目的主要关切,因为即使过度拟合各种增强的训练数据,要在复杂数学推理任务的测试集如 MATH 数据集上取得良好的结果仍然具有挑战性。) 尽管如此,我们仍需要进行更全面的鲁棒性分析 (https://github.com/GAIR-NLP/abel/issues/1) 并积极探索能够将模型转变为数学全才的训练方法,并进行更广泛的跨领域推广分析。
- 泛化能力 :一个好的数学模型不应仅限于解决 GSM8K 和 MATH 数据集上的问题,它应能够处理各种类型的问题,包括那些评估不同知识领域并要求不同类型回答的问题(例如,多选、对错、证明、算术等)。当前模型的能力不足以推广到这些多样化的场景 (https://github.com/GAIR-NLP/abel/issues/2)。
- 通用性:最终,我们期望大型模型实现的数学推理能力能够集成到各个领域的聊天机器人中,例如医学、法律、物理、化学等。实现 AGI 的关键是将强大的数学模型的能力纳入到其他模型中,但这在当前模型中还缺乏 (https://github.com/GAIR-NLP/abel/issues/3)。
- 多语言性:当前模型的训练数据和基模型限制了其在非英语语言中提供回答的能力 (https://github.com/GAIR-NLP/abel/issues/4)。
- 高级技术:当前模型主要关注 SFT,高级技术如奖励模型、RLHF(从人类反馈中进行强化学习)和工具尚未探索 (https://github.com/GAIR-NLP/abel/issues/5, https://github.com/GAIR-NLP/abel/issues/6)。
我们创建了一个问题列表来记录这些限制和潜在的解决方案。我们欢迎您的意见和评论。
引用
如果本仓库的模型/代码/结论对您有帮助,请引用本仓库。
@misc{abel,
author = {Chern, Ethan and Zou, Haoyang and Li, Xuefeng and Hu, Jiewen and Feng, Kehua and Li, Junlong and Liu, Pengfei},
title = {Generative AI for Math: Abel},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/GAIR-NLP/abel}},
}
致谢
- 感谢上海 AI 实验室提供的部分计算资源支持。
- 感谢贾盛谷在项目早期阶段的有益讨论。
展望
我们将持续改进我们的模型并发布更新。敬请关注!