#代码生成
deepseek-coder-7b-instruct-v1.5
DeepSeek Coder是一个开源的代码生成语言模型,通过2T代码数据预训练和2B指令数据微调,具备4K上下文窗口。该模型支持代码生成与理解功能,开发者可通过Hugging Face平台便捷部署,并允许商业应用场景。
granite-3b-code-instruct-2k
IBM Research的Granite-3B-Code-Instruct-2K是一个3B参数的AI模型,专注提升编程指令响应。它从多个许可数据集微调而来,支持多种编程语言。尽管在某些语言上的性能突出,域外使用建议提供示例指导。部署于IBM超算集群确保了高效性。然而,模型须在特定应用上进行安全测试。
Qwen1.5-1.8B-Chat
Qwen1.5是Qwen2的测试版本,显著提高了聊天模型的人类偏好性能和多语言支持,并能处理32K上下文长度。其基于Transformer架构,采用了SwiGLU激活函数及多种注意力机制,并改进了分词器以增强多语言和代码适应性。通过数据预训练与后期优化,该模型在对话系统中的表现尤为突出。
Codestral-22B-v0.1
Codestral-22B-v0.1是Mistral AI开发的模型,覆盖80多种编程语言的数据集,包括Python、Java、C等流行语言。该模型可通过mistral_common、mistral_inference和transformers库进行推理,支持用户消息生成代码和填空模式预测,适合软件开发者在VS Code等环境中使用。目前不具备内容审核机制,团队将继续改进以适应需审核环境的部署
santacoder
SantaCoder模型专注于生成Python、Java和JavaScript的代码,通过1.1B参数和多查询注意力机制,在不同数据集上展现出卓越的性能。该模型使用2048个Token的上下文窗口,并以填充中间目标优化了精确度。通过专业训练过滤,SantaCoder提升了代码补全能力。此模型可在多个开发场景中应用,但需注意代码许可和归属要求。
CodeLlama-70b-Instruct-hf
CodeLlama-70B由Meta开发,是针对代码生成和理解的语言模型。此模型通过预训练和微调,特别适合一般代码合成和指令遵循,具备更安全的部署特性。本页面为开发者提供了详细的安装指南、使用示例及模型架构信息,以便于代码建议和生成的实现。
gemma-2-27b-it-GGUF
Gemma 2是由Google开发的27B参数模型,基于Gemini技术,适合中等VRAM用户。该模型能够处理多语言、代码和数学文本,尤其擅长生成代码和解决数学问题,弥补了8B和70B模型之间的空缺。其13万亿词元的训练量使其在多语言和编程语言上尤为出色,具有广泛的应用价值。
Qwen2.5-14B-Instruct-AWQ
Qwen2.5是一款大语言模型,专注提升编码和数学能力,同时优化指令跟随、长文本生成和结构化数据理解。支持29种语言,如中文和英语。具备更强的系统提示适应性,适合角色扮演和条件设置。AWQ量化4-bit版本72B模型具备因果语言模型结构,支持131,072个token的上下文处理和8,192个token的文本生成,适合长文本处理及多语言应用。
Yi-Coder-9B-Chat-GGUF
Yi-Coder-9B-Chat-GGUF是一个支持52种编程语言的AI助手模型,具有128k的上下文长度。作为首个在LiveCodeBench上达到20%通过率的10B以下参数模型,它专门针对编程对话进行了优化。该模型由01-ai开发,bartowski提供基于llama.cpp的GGUF量化版本。用户可以在LM Studio中使用ChatML预设与模型进行交互,获取编程问题的解答。