DeepSeek-Coder-V2-Lite-Base项目介绍
项目概述
DeepSeek-Coder-V2-Lite-Base是一款由DeepSeek团队推出的开源编程语言模型,属于Mixture-of-Experts(MoE)架构,专为代码相关任务而设计。该模型在大量代码和数学推理任务中展现出了与闭源模型如GPT4-Turbo相媲美的表现。DeepSeek-Coder-V2作为DeepSeek-V2的进一步预训练版本,通过额外的6万亿个标记,提升了在编程和数学推理方面的能力,同时在通用语言任务中保持高水平的表现。
模型特性
- 多语言支持:支持的编程语言由86种扩展至338种,极大提升了在不同编程环境中的适用性。
- 上下文长度:上下文长度从16K增加到128K,改善了处理长代码段的能力。
- 模型参数:DeepSeek-Coder-V2推出了具有16B和236B参数的不同版本。其中,DeepSeek-Coder-V2-Lite-Base版本包含16B总参数和2.4B激活参数。
性能评估
在标准基准测试中,DeepSeek-Coder-V2在代码和数学基准表现上优于GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等闭源模型。用户可以通过DeepSeek仓库中的链接查看支持的编程语言列表。
模型下载与使用
DeepSeek-Coder-V2的不同版本可以通过Hugging Face平台获取。具体下载链接如下:
- DeepSeek-Coder-V2-Lite-Base (16B参数)
- DeepSeek-Coder-V2-Lite-Instruct (16B参数)
- DeepSeek-Coder-V2-Base (236B参数)
- DeepSeek-Coder-V2-Instruct (236B参数)
使用方式
用户可以通过DeepSeek提供的官方网站coder.deepseek.com直接与DeepSeek-Coder-V2进行互动交流。此外,DeepSeek还提供兼容OpenAI的API平台,允许用户按需使用,经济实惠。
本地运行说明
用户可以利用Huggingface的Transformers库或vLLM库来进行本地推理。示例代码展示了如何使用这些库进行代码自动补全、插入和对话生成等任务。
许可证
该代码库遵循MIT许可证,DeepSeek-Coder-V2 Base/Instruct模型的使用需遵循模型许可协议,所有版本均支持商业用途。
联系方式
有任何问题欢迎通过在GitHub上提交Issue或者通过邮箱service@deepseek.com联系我们。