Project Icon

DeepSeek-Math

开源数学推理模型的新突破

DeepSeek-Math是基于DeepSeek-Coder-v1.5 7B预训练的开源数学推理模型。在MATH基准测试中,它达到51.7%的成绩,接近Gemini-Ultra和GPT-4的水平。项目提供基础、指令微调和强化学习三个7B模型版本,支持数学问题求解、工具使用和定理证明。DeepSeek-Math在保持通用能力的同时提升了数学推理能力,为数学研究提供了新的AI工具。

DeepSeek LLM

模型下载 | 评估结果 | 快速开始 | 许可 | 引用

论文链接👁️

1. 简介

DeepSeekMath以DeepSeek-Coder-v1.5 7B为初始模型,并在来自Common Crawl的数学相关标记上继续预训练,同时结合自然语言和代码数据,总共训练了5000亿个标记。DeepSeekMath 7B在竞赛级MATH基准测试中取得了令人印象深刻的**51.7%**的得分,而无需依赖外部工具包和投票技术,接近了Gemini-Ultra和GPT-4的性能水平。为了研究目的,我们向公众发布了基础、指令和强化学习模型的检查点

表格

2. 评估结果

DeepSeekMath-Base 7B

我们对DeepSeekMath-Base 7B的数学能力进行了全面评估,重点关注其产生自包含数学解决方案的能力(无需依赖外部工具)、使用工具解决数学问题的能力以及进行形式化定理证明的能力。除了数学之外,我们还提供了基础模型的更一般性能概况,包括其自然语言理解、推理和编程技能的表现。

  • 逐步推理的数学问题解决

表格

  • 使用工具的数学问题解决

表格

  • 自然语言理解、推理和代码

表格

上述表格中的评估结果可以总结如下:

  • **卓越的数学推理能力:**在竞赛级MATH数据集上,DeepSeekMath-Base 7B通过少样本思维链提示,在绝对值上超越了现有开源基础模型10%以上,同时也超越了Minerva 540B。
  • **强大的工具使用能力:**继续以DeepSeekCoder-Base-7B-v1.5为基础进行预训练,使DeepSeekMath-Base 7B能够更有效地通过编写程序来解决和证明数学问题。
  • **comparable的推理和编码性能:**DeepSeekMath-Base 7B在推理和编码方面达到了与DeepSeekCoder-Base-7B-v1.5相comparable的性能。

DeepSeekMath-Instruct和-RL 7B

DeepSeekMath-Instruct 7B是基于DeepSeekMath-Base 7B的数学指令调优模型,而DeepSeekMath-RL 7B则是在DeepSeekMath-Instruct 7B的基础上,使用我们提出的群体相对策略优化(GRPO)算法进行训练。

我们在4个英文和中文的定量推理基准测试上评估了不使用工具和使用工具的数学性能。如表所示,DeepSeekMath-Instruct 7B展示了强大的逐步推理能力,而DeepSeekMath-RL 7B在使用工具的情况下,在MATH上的准确率接近60%,超越了所有现有的开源模型。

表格

3. 数据收集

  • 步骤1:选择OpenWebMath作为我们的初始种子语料库,用于训练FastText模型。OpenWebMath是一个高质量数学网页文本集合。
  • 步骤2:使用FastText模型从去重后的Common Crawl数据库中检索数学相关网页。
  • 步骤3:通过统计分析识别潜在的数学相关域名。
  • 步骤4:手动标注这些已识别域名中与数学内容相关的URL。
  • 步骤5:将与这些已标注URL相链接但尚未收集的网页添加到种子语料库中。返回步骤1,重复四次迭代。

table

经过四轮数据收集,我们最终得到了3550万个数学网页,总计1200亿个标记。

4. 模型下载

我们向公众发布了DeepSeekMath 7B,包括基础、指令和强化学习模型,以支持学术和商业社区更广泛、更多样化的研究。请注意,本模型的使用受许可证章节中列出的条款约束。根据这些条款,允许商业使用。

Huggingface

模型序列长度下载链接
DeepSeekMath-Base 7B4096🤗 HuggingFace
DeepSeekMath-Instruct 7B4096🤗 HuggingFace
DeepSeekMath-RL 7B4096🤗 HuggingFace

5. 快速开始

您可以直接使用Huggingface的Transformers进行模型推理。

文本补全

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/deepseek-math-7b-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

text = "The integral of x^2 from 0 to 2 is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

对话补全

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/deepseek-math-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

messages = [
    {"role": "user", "content": "what is the integral of x^2 from 0 to 2?\nPlease reason step by step, and put your final answer within \boxed{}."}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

如果不使用提供的apply_chat_template函数,您也可以按照示例模板与我们的模型进行交互。请注意,messages应替换为您的输入。

User: {messages[0]['content']}

A: {messages[1]['content']}<|end▁of▁sentence|>User: {messages[2]['content']}

A:

**注意:**默认情况下(add_special_tokens=True),我们的分词器会在输入文本前自动添加一个bos_token<|begin▁of▁sentence|>)。此外,由于系统提示与此版本的模型不兼容,我们不建议在输入中包含系统提示。

❗❗❗ 请使用思维链提示来测试DeepSeekMath-Instruct和DeepSeekMath-RL:

  • 英文问题:{question}\nPlease reason step by step, and put your final answer within \boxed{}.

  • 中文问题:{question}\n请通过逐步推理来解答问题,并把最终答案放置于\boxed{}中。

6. 许可证

此代码仓库采用MIT许可证。DeepSeekMath模型的使用受模型许可证约束。DeepSeekMath支持商业使用。

详情请参阅LICENSE-CODELICENSE-MODEL

7. 引用

@misc{deepseek-math,
  author = {Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo},
  title = {DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models},
  journal = {CoRR},
  volume = {abs/2402.03300},
  year = {2024},
  url = {https://arxiv.org/abs/2402.03300},
}

8. 联系方式

如果您有任何问题,请提出问题或通过service@deepseek.com与我们联系。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号