项目介绍:DeepSeek-Coder-V2-Lite-Instruct-GGUF
项目背景
DeepSeek-Coder-V2-Lite-Instruct-GGUF是DeepSeek公司推出的一款全新模型,旨在专注于编程指令的生成与处理。作为一款混合专家模型(MoE),它在一系列的编程基准测试中表现优异,能够用于指令跟随与代码补全。
模型特色
模型设计
该模型是基于DeepSeek-V2进行进一步训练的,采用了高达16B的参数,其中仅有2.4B被激活以实现高效的推理速度。它还支持惊人的128k上下文长度,为用户提供更广泛的编程场景支持。
训练数据
DeepSeek-Coder-V2通过使用6万亿高质量的编码token进行训练,以增强其编程和数学推理能力,使其在相关领域中的表现更加出色。
使用案例
此模型主要用于生成和处理与编程相关的指令。为达到最佳效果,建议在使用LM Studio时选择Deepseek Coder
模板进行提示格式化。
技术细节
- 模型类型:混合专家模型(MoE)
- 参数量:总参数量16B,活跃参数量2.4B
- 上下文长度:支持最长128k的上下文长度
使用指南
要使用DeepSeek-Coder-V2-Lite-Instruct-GGUF,需要在LM Studio版本0.2.25及以上中加载。请确保关闭闪存注意力功能以保证模型正常运行。
特别鸣谢
- 感谢Georgi Gerganov和他的团队在llama.cpp上的贡献。
- 感谢Kalomaze和Dampf在数据集上的工作,该数据集被用于计算所有尺寸的imatrix。
项目免责声明
LM Studio不是任何社区模型的创作者、发起者或所有者。每个社区模型均由第三方创作和提供。LM Studio不对任何社区模型的完整性、真实性、准确性或可靠性做出任何承诺。 使用者需理解,模型可能生成攻击性、有害、不准确或其他不当内容。 使用者对使用或访问社区模型所造成的任何损坏负有全部责任。
了解更多
如需更多技术细节和背景信息,请查看DeepSeek的研究论文:DeepSeek-Coder-V2论文