#DeepSeekMoE

DeepSeek-MoE: 革新混合专家语言模型架构,实现专家终极专门化

3 个月前

3 个月前

相关项目

DeepSeek-MoE

DeepSeek-MoE项目开发了创新的混合专家架构语言模型，采用细粒度专家分割和共享专家隔离策略。该16.4B参数模型仅使用40%计算量就达到DeepSeek 7B和LLaMA2 7B的性能水平。模型可在单个40GB内存GPU上直接部署运行，无需量化，为学术和商业研究提供了高效便捷的工具。

投诉举报邮箱: service@vectorlightyear.com