项目介绍: MAmmoTH2-7B-Plus
项目概述
MAmmoTH2-7B-Plus 项目旨在通过创新性的指令微调,提升大规模语言模型(LLM)的推理能力。通过从网络语料中高效收集了1000万个指令-响应对,该项目在推理基准测试中显著提升了性能。例如,MAmmoTH2-7B(基于 Mistral 模型)的表现从 MATH 数据集上的11%提升到36.7%,在 GSM8K 数据集上从36%提升到68.4%,并且这些提升是在没有利用任何领域特定数据进行训练的情况下实现的。此外,通过在公共指令微调数据集上的进一步训练,研发出了 MAmmoTH2-Plus,达到了推理和聊天机器人基准测试的新标准。这项工作展现了一种通过获取大规模高质量指令数据来提升 LLM 推理能力的新方法。
训练数据与过程
训练数据来源于 WEBINSTRUCT 数据集,具体内容可参考 TIGER-Lab/WebInstructSub。模型使用 Llama-3、Mistral 和 Mistal 原始模型作为基础进行微调。根据模型大小不同,具体的训练程序也有所差异,更详尽的信息请查阅项目的相关论文。
性能评估
项目通过多个数据集中的开放式和多项选择数学问题对模型进行评估,以下是评估结果的部分摘要:
模型 | TheoremQA | MATH | GSM8K | GPQA | MMLU-ST | BBH | ARC-C | 平均 |
---|---|---|---|---|---|---|---|---|
MAmmoTH2-7B-Plus (更新) | 31.2 | 46.0 | 84.6 | 33.8 | 63.8 | 63.3 | 84.4 | 58.1 |
MAmmoTH2-8x7B-Plus | 34.1 | 47.0 | 86.4 | 37.8 | 72.4 | 74.1 | 88.4 | 62.9 |
要重现这些结果,请访问 项目GitHub。
使用方法
模型可以通过Huggingface的Transformers库使用。可以利用 pipeline 功能,建立一个文本生成流水线,然后输入一个数学问题来获得解决方案。更多高级用法请参考 项目GitHub。
项目限制
尽管付出了最大努力来构建数学通用模型,但性能可能会因数学问题的复杂性和具体性而有所不同。此外,模型尚不能完全覆盖所有数学领域。
引用
如果您使用了本项目的模型、数据或代码,请引用原始论文:
@article{yue2024mammoth2,
title={MAmmoTH2: Scaling Instructions from the Web},
author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu},
journal={arXiv preprint arXiv:2405.03548},
year={2024}
}
MAmmoTH2-7B-Plus 项目通过创新的方法显著提升了大规模语言模型的推理能力,是提升人工智能推理性能的重要里程碑。