WizardMath-7B-V1.1项目介绍
项目概述
WizardMath-7B-V1.1是一个专注于数学推理的大型语言模型。该模型是基于Mistral-7B训练而来,目前在7B规模的数学语言模型中取得了最先进的成果。在GSM8k测试集上,WizardMath-7B-V1.1实现了83.2%的pass@1准确率,在MATH测试集上达到了33.0%的pass@1准确率。这些成绩不仅超越了同等规模的开源模型,甚至在某些方面超过了更大规模的模型和一些闭源的商业模型。
性能表现
WizardMath-7B-V1.1在数学推理能力上表现出色:
- 在GSM8k测试集上,它的表现超过了ChatGPT 3.5、Gemini Pro、Mixtral MOE和Claude Instant等知名模型。
- 在MATH测试集上,它与ChatGPT 3.5和Gemini Pro相当,同时超越了Mixtral MOE。
- 与其他开源的7B规模数学语言模型相比,WizardMath-7B-V1.1在GSM8k和MATH测试集上都取得了最佳成绩。
- 它甚至超越了一些30B到70B规模的大型开源语言模型,如Llama 2-70B、Mixtral 8x7B等。
模型应用
研究团队提供了一个在线demo,允许用户与WizardMath-7B-V1.1进行交互。这为用户提供了一个直观体验模型数学推理能力的机会。此外,项目还提供了推理演示代码,方便开发者在自己的环境中运行和测试模型。
使用指南
为了确保模型的最佳性能,研究团队强调了正确使用系统提示(system prompts)的重要性。他们提供了两种版本的提示:
- 默认版本:适用于一般情况
- CoT(Chain of Thought)版本:建议用于复杂的数学问题,不推荐用于简单问题
研究团队特别提醒用户,应严格按照提供的格式使用这些系统提示,以保证模型输出的准确性。
数据清洁度
研究团队非常重视数据的清洁度。在模型训练之前,他们仔细检查了所有训练数据,并使用多种去重方法来验证和防止GSM8k和MATH测试集的数据泄露。这确保了模型性能评估的公平性和可靠性。
结语
WizardMath-7B-V1.1项目展示了在数学推理领域,即使是相对较小规模的模型也能取得令人印象深刻的成果。这不仅为数学教育和研究提供了强大的工具,也为大型语言模型在特定领域应用的潜力提供了有力证明。随着项目的持续发展,我们可以期待看到更多在数学推理和问题解决方面的创新应用。