热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多头潜在注意力
DeepSeek-V2-Lite - 创新架构驱动的高效混合专家语言模型
Huggingface
DeepSeek-V2
混合专家模型
开源项目
模型
多头潜在注意力
Github
自然语言处理
大规模语言模型
DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号