项目概述
DeepSeek-V2-Lite是一个轻量级的专家混合语言模型(MoE),它采用创新架构设计,在保持高性能的同时实现了经济高效的训练和推理。该模型总参数量为16B,每个token激活参数量仅为2.4B,通过5.7万亿个token的训练,在多个英文和中文基准测试中表现优异。
技术特点
DeepSeek-V2-Lite采用了两个关键创新架构:
- 多头潜在注意力机制(MLA):通过将Key-Value缓存压缩成潜在向量的方式,显著提升了推理效率
- DeepSeekMoE架构:采用高性能的专家混合架构,通过稀疏计算降低训练成本
模型规格
- 27层网络架构
- 2048维隐藏层
- 16个注意力头,每个头维度为128
- KV压缩维度为512
- 每个MoE层包含2个共享专家和64个路由专家
- 每个专家中间隐藏层维度为1408
- 每个token会激活6个路由专家
性能优势
在多个基准测试中,DeepSeek-V2-Lite表现出色:
- MMLU(英文):58.3分
- C-Eval(中文):60.3分
- CMMLU(中文):64.3分
- HumanEval(代码):29.9分
- GSM8K(数学):41.1分
部署要求
- 推理需求:单张40GB显存的GPU
- 训练需求:8张80GB显存的GPU
应用场景
- 文本生成和补全
- 多语言处理(支持中英文)
- 代码生成
- 数学问题求解
使用方式
该模型支持多种部署方式:
- 可通过Hugging Face Transformers直接使用
- 支持vLLM高性能推理
- 兼容LangChain框架
- 提供完整的聊天模板
开源许可
- 代码采用MIT许可证
- 模型支持商业使用,需遵循专门的模型许可协议
技术支持
用户可以通过以下方式获取支持:
- 在GitHub上提交issue
- 通过邮件联系官方团队
- 加入Discord或微信社区