<!-- markdownlint-disable first-line-h1 -->
<!-- markdownlint-disable html -->
<!-- markdownlint-disable no-duplicate-header -->
<div align="center">
<img src="https://yellow-cdn.veclightyear.com/835a84d5/03cb0773-c839-4a99-8c96-ab7093feb122.svg" width="60%" alt="DeepSeek LLM" />
</div>
<hr>
<div align="center">
<a href="https://www.deepseek.com/" target="_blank">
<img alt="主页" src="https://yellow-cdn.veclightyear.com/835a84d5/598fbc49-f1bb-48f9-9fad-c0a6a3cb067a.svg" />
</a>
<a href="https://chat.deepseek.com/" target="_blank">
<img alt="聊天" src="https://img.shields.io/badge/🤖%20聊天-DeepSeek%20LLM-536af5?color=536af5&logoColor=white" />
</a>
<a href="https://huggingface.co/deepseek-ai" target="_blank">
<img alt="Hugging Face" src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-DeepSeek%20AI-ffc107?color=ffc107&logoColor=white" />
</a>
</div>
<div align="center">
<a href="https://discord.gg/Tc7c45Zzu5" target="_blank">
<img alt="Discord" src="https://img.shields.io/badge/Discord-DeepSeek%20AI-7289da?logo=discord&logoColor=white&color=7289da" />
</a>
<a href="images/qr.jpeg" target="_blank">
<img alt="微信" src="https://img.shields.io/badge/微信-DeepSeek%20AI-brightgreen?logo=wechat&logoColor=white" />
</a>
<a href="https://twitter.com/deepseek_ai" target="_blank">
<img alt="Twitter 关注" src="https://img.shields.io/badge/Twitter-deepseek_ai-white?logo=x&logoColor=white" />
</a>
</div>
<div align="center">
<a href="LICENSE-CODE">
<img alt="代码许可" src="https://img.shields.io/badge/代码许可-MIT-f5de53?&color=f5de53">
</a>
<a href="LICENSE-MODEL">
<img alt="模型许可" src="https://img.shields.io/badge/模型许可-模型协议-f5de53?&color=f5de53">
</a>
</div>
<p align="center">
<a href="#3-模型下载">模型下载</a> |
<a href="#2-评估结果">评估结果</a> |
<a href="#4-快速开始">快速开始</a> |
<a href="#5-许可">许可</a> |
<a href="#6-引用">引用</a>
</p>
<p align="center">
<a href="https://arxiv.org/pdf/2401.06066.pdf"><b>论文链接</b>👁️</a>
</p>
1. 简介
DeepSeekMoE 16B是一个具有16.4B参数的混合专家(MoE)语言模型。
它采用了创新的MoE架构,涉及两个主要策略:细粒度专家分割和共享专家隔离。
该模型从头开始在2T英文和中文词元上训练,展现出与DeekSeek 7B和LLaMA2 7B相当的性能,仅需约40%的计算量。
为了研究目的,我们向公众发布了DeepSeekMoE 16B Base和DeepSeekMoE 16B Chat的模型检查点,这些模型可以在单个40GB内存的GPU上部署,无需量化。
模型代码文件可以在这里找到。
2. 评估结果
DeepSeekMoE 16B Base
我们在各种基准测试上评估了DeepSeekMoE 16B,并与一系列模型进行了比较,如下所示。
- 与开源模型在开放LLM排行榜上的比较。DeepSeekMoE 16B在激活参数数量相似的模型中始终以较大优势胜出,并达到了与LLaMA2 7B相当的性能,而后者的激活参数数量约为前者的2.5倍。
<p align="center">
<img src="https://yellow-cdn.veclightyear.com/835a84d5/ba0efc88-a1fc-489b-9905-71cf6ac53094.jpg" alt="表格" width="50%">
</p>
- 与DeepSeek 7B在我们内部基准测试上的比较。DeepSeek 7B是在与DeepSeekMoE 16B相同语料库上训练的密集模型。仅使用40.5%的计算量,DeepSeekMoE 16B就达到了与DeepSeek 7B相当的性能。
<p align="center">
<img src="https://yellow-cdn.veclightyear.com/835a84d5/3ffed41e-0717-48bb-8dcd-5174e5ecca4e.jpg" alt="表格" width="50%">
</p>
- 与LLaMA2 7B在我们内部基准测试上的比较。仅使用39.6%的计算量,DeepSeekMoE 16B在大多数基准测试中超过了LLaMA2 7B。
<p align="center">
<img src="https://yellow-cdn.veclightyear.com/835a84d5/ff0199ad-9102-45ca-b69c-6e3716dee94e.jpg" alt="表格" width="50%">
</p>
DeepSeekMoE 16B Chat
我们还在各种基准测试上评估了DeepSeekMoE 16B Chat,并与DeepSeek 7B Chat和LLaMA2 7B SFT进行了比较。为了公平比较,所有对比模型都遵循相同的微调设置和数据。
评估结果如下所示。仅使用约40%的计算量,DeepSeekMoE 16B Chat就达到了与DeepSeek 7B Chat和LLaMA2 7B SFT相当或更好的性能。
<p align="center">
<img src="https://yellow-cdn.veclightyear.com/835a84d5/984f336e-5288-4657-b7df-11b3feef2d73.jpg" alt="表格" width="60%">
</p>
3. 模型下载
我们向公众发布DeepSeekMoE 16B,包括基础模型和对话模型。为了支持学术和商业社区更广泛、更多样化的研究。请注意,此模型的使用受许可部分中列出的条款约束。根据这些条款,允许商业使用。
Huggingface
4. 快速开始
安装
在Python >= 3.8
环境的基础上,通过运行以下命令安装必要的依赖:
pip install -r requirements.txt
使用Huggingface的Transformers进行推理