#数学推理
相关项目
ToRA
ToRA是一款工具集成推理代理,能够通过与外部工具互动解决复杂的数学推理问题。ToRA模型结合了自然语言推理和计算工具的优势,在多个数学任务中表现优异,尤其是ToRA-Code-34B和ToRA-70B,显著提升了数学数据集的准确率。此项目的开源代码和模型为进一步研究数学问题的解决提供了强大的资源。
abel
Abel项目通过优化数学推理模型,在GSM8K和MATH数据集上取得了显著进展。特别是其7B模型达到了超过80%的准确率,并在多个数学数据集上展示了优秀的泛化能力。该项目采用独特的Parental Oversight策略和SFT(监督微调),显著提升了模型性能,无需依赖外部工具和奖励模型。
MathPile
本页面介绍了MathPile,这是一个专注于数学领域的高质量大规模预训练数据集,包含约95亿个标记。MathPile整合了来自教科书、arXiv、Wikipedia等多种来源的数据,确保了内容的多样性和覆盖面。项目注重数据质量,采用严格的预处理和过滤,并提供详细的数据文档和质量注释。MathPile旨在提升语言模型在数学推理方面的能力,同时页面也提供了项目的最新动态、技术报告、使用限制和许可证信息。
DeepSeek-Math
DeepSeek-Math是基于DeepSeek-Coder-v1.5 7B预训练的开源数学推理模型。在MATH基准测试中,它达到51.7%的成绩,接近Gemini-Ultra和GPT-4的水平。项目提供基础、指令微调和强化学习三个7B模型版本,支持数学问题求解、工具使用和定理证明。DeepSeek-Math在保持通用能力的同时提升了数学推理能力,为数学研究提供了新的AI工具。
InternLM-Math
InternLM-Math是一个开源的双语数学推理大模型,在形式化和非形式化数学推理方面表现优异。它集成了数学问题求解、证明、验证和增强等功能。该模型在MiniF2F、MATH和GSM8K等基准测试中展现出领先性能,并支持使用Lean语言进行可验证的数学推理。InternLM-Math还可作为奖励模型和数学问题增强助手,为数学研究和应用提供有力支持。
MathVista
MathVista是一个评估AI模型视觉数学推理能力的基准测试。该数据集包含6,141个样本,涵盖31个多模态数据集。任务要求模型具备深度视觉理解和复合推理能力,对当前顶尖AI模型构成挑战。MathVista为研究人员提供了一个衡量AI模型在视觉数学任务中表现的标准化工具。