项目介绍:Qwen2.5-72B-Instruct-GGUF
Qwen2.5-72B-Instruct-GGUF是Qwen大模型系列的最新产品。Qwen2.5在原有的Qwen2基础上进行了多项显著提升,推出了多种基础语言模型和指令调整模型,参数量从0.5亿到72亿不等。
主要改进
- 知识储备增加:Qwen2.5在专业领域的知识大大增强,尤其在编程和数学方面的能力得到了显著提升。
- 指令遵循能力:指令遵循能力优化,能够生成更长的文本(超过8000个Token),理解结构化数据(如表格)并生成结构化输出(特别是JSON)。对于多样化的系统提示具有更强的抵抗力,改善了角色扮演和聊天机器人的条件设定。
- 长上下文支持:最多支持128K个Token的上下文,可生成最多8K个Token的内容。
- 多语言支持:能够处理超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
Qwen2.5-72B-Instruct-GGUF的特点
- 类型:因果语言模型
- 训练阶段:预训练及后训练
- 架构:采用transformers架构,结合RoPE、SwiGLU、RMSNorm和Attention QKV bias技术
- 参数数量:总参数量为72.7B,其中非嵌入参数为70.0B
- 层数:共有80层
- 注意力头数量(GQA):Q的注意力头为64,KV的注意力头为8
- 上下文长度:最多支持32,768个Token的完整上下文和8,192个Token的生成内容
- 量化方式:支持多种量化格式,如q2_K、q3_K_M、q4_0、q4_K_M等
快速入门
为了更快上手使用,可以参考llama.cpp文档。首先建议克隆llama.cpp
并按照官方指南安装。
以下是下载和使用Qwen2.5-72B-Instruct-GGUF模型文件的简要步骤:
- 安装工具:
pip install -U huggingface_hub
- 下载模型:
huggingface-cli download Qwen/Qwen2.5-72B-Instruct-GGUF --include "qwen2.5-72b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
- 合并文件(可选):
./llama-gguf-split --merge qwen2.5-72b-instruct-q5_k_m-00001-of-00014.gguf qwen2.5-72b-instruct-q5_k_m.gguf
在实际使用中,可以通过如下命令实现类似聊天机器人的交互体验:
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
评估与性能
关于Qwen2.5的详细评估结果,请参考此博客。关于量化模型与原始bfloat16模型的基准结果,可以查看此链接。同时,可以在此处查看对GPU内存需求及各自的吞吐量结果链接。
引用
如果您觉得我们的工作对您有帮助,请随时引用以下文献:
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and others},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
Qwen2.5-72B-Instruct-GGUF为用户提供了一个功能强大、灵活多样的多语言处理工具,其突破性改进适用于各种语言生成和交互式应用场景。