#DeepSeek-V2

DeepSeek-V2: 经济高效的专家混合语言模型

3 个月前

DeepSeek-V2 混合专家模型大语言模型预训练模型自然语言处理 Github 开源项目

3 个月前

相关项目

DeepSeek

DeepSeek，一个高级AI平台，通过其大规模模型DeepSeek-V2，在主要AI排行榜如AlignBench和MT-Bench中获得高分，提供数学、编程和推理的精确解决方案。以竞争力的API定价，支持128K上下文长度和多语言，是开发者和研究者的优选。

DeepSeek-V2

DeepSeek-V2是一款基于专家混合(MoE)架构的大规模语言模型,总参数量达2360亿,每个token激活210亿参数。相较于DeepSeek 67B,该模型在提升性能的同时,显著降低了训练成本和推理资源消耗。DeepSeek-V2在多项标准基准测试和开放式生成任务中表现优异,展现了其在多领域的应用潜力。

DeepSeek-V2-Lite-Chat

DeepSeek-V2-Lite采用MLA注意力机制和DeepSeekMoE架构，是一款轻量级混合专家模型。模型总参数量16B，激活参数2.4B，仅需单张40G显卡即可部署。模型支持32k上下文长度，在MMLU、C-Eval等英中文基准测试中表现优异，提供基础和对话两个版本。

DeepSeek-V2-Lite

DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com