项目介绍:Qwen2.5-Coder-1.5B-Instruct-GGUF
背景介绍
Qwen2.5-Coder 是Qwen系列中的最新代码专用大型语言模型,它以前被称为CodeQwen。在这个版本中,官方发布了三个基础语言模型和指令调优语言模型,参数量分别为1.5亿、7亿及即将推出的32亿。Qwen2.5-Coder在以下几个方面相比CodeQwen1.5有了显著的提升:
- 代码生成、代码推理及代码修复能力显著增强。在强大的Qwen2.5基础上,扩展了训练数据量至5.5万亿,包括源代码、文本代码结合、合成数据等。
- 面向真实世界应用的更全面的基础支持,如代码代理。不仅增强了编码能力,且在数学及一般能力方面也保持优势。
- 支持长上下文,可达128K tokens。
模型特点
此仓库包含经过指令调优的1.5B Qwen2.5-Coder模型,格式为GGUF。其主要特征如下:
- 类型:因果语言模型
- 训练阶段:预训练和后期训练
- 架构:采用transformers架构,包括RoPE、SwiGLU、RMSNorm、Attention QKV偏移和绑定词嵌入
- 参数总数:1.54B
- 非嵌入参数:1.31B
- 层数:28层
- 注意力头数(GQA):Q模块12个,KV模块2个
- 上下文长度:完整32,768 tokens
- 注:目前只有vLLM支持YARN进行长度拓展。如果需要处理多达131,072 个tokens,请参考非GGUF模型。
- 量化:符合q2_K, q3_K_M, q4_0, q4_K_M, q5_0, q5_K_M, q6_K, q8_0规范
更多详细信息,可以访问我们的博客、GitHub、文档及Arxiv。
快速入门
查看我们关于llama.cpp文档的指南以获取更多使用信息。
建议用户根据官方指南克隆llama.cpp
并进行安装。我们遵循最新版本的llama.cpp进行展示,假设用户在llama.cpp
仓库下运行命令。
因为克隆整个代码库可能效率不高,用户可以手动下载所需GGUF文件或使用huggingface-cli
进行下载:
- 安装
pip install -U huggingface_hub
- 下载:
huggingface-cli download Qwen/Qwen2.5-Coder-1.5B-Instruct-GGUF qwen2.5-coder-1.5b-instruct-q4_k_m.gguf --local-dir . --local-dir-use-symlinks False
对于追求类似聊天机器人的体验,建议在对话模式下开始:
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
评估与性能
详细的评估结果已经在这个📑博客中报告。
对于量化模型,相较于原始bfloat16模型的基准结果可以在这里找到。
关于GPU内存需求及相应的吞吐量,结果参见这里。
引用
如果您觉得我们的工作对您有帮助,请随意引用我们的工作。
@article{hui2024qwen2,
title={Qwen2. 5-Coder Technical Report},
author={Hui, Binyuan and Yang, Jian and Cui, Zeyu and Yang, Jiaxi and Liu, Dayiheng and Zhang, Lei and Liu, Tianyu and Zhang, Jiajun and Yu, Bowen and Dang, Kai and others},
journal={arXiv preprint arXiv:2409.12186},
year={2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and others},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}