热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#MoE架构
DeepSeek-MoE - 创新MoE架构打造高效大规模语言模型
DeepSeekMoE
大语言模型
MoE架构
模型评估
开源模型
Github
开源项目
DeepSeek-MoE项目开发了创新的混合专家架构语言模型,采用细粒度专家分割和共享专家隔离策略。该16.4B参数模型仅使用40%计算量就达到DeepSeek 7B和LLaMA2 7B的性能水平。模型可在单个40GB内存GPU上直接部署运行,无需量化,为学术和商业研究提供了高效便捷的工具。
1
1
相关文章
DeepSeek-MoE: 革新混合专家语言模型架构,实现专家终极专门化
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号