项目介绍:Qwen2-7B-Instruct-GGUF
项目概述
Qwen2-7B-Instruct-GGUF 是 Qwen 系列大语言模型中的一员。Qwen2 系列语言模型引入了从基础语言模型到混合专家模型的一系列新模型,参数规模从 0.5 亿到 720 亿不等。这个仓库包含经过指令微调的 7B 参数的 Qwen2 模型。相比于之前发布的 Qwen1.5 和其他开源语言模型,Qwen2 系列在语言理解、语言生成、多语言支持、代码、数学和推理等多项基准测试中表现突出,甚至在某些方面与专有模型竞争。
模型详情
Qwen2 是一个包含不同规模解码器语言模型的系列。每个规模都包括基础语言模型和对话模型,这些模型基于 Transformer 架构,并加入了如 SwiGLU 激活、注意力 QKV 偏差、组查询注意力等创新技术。此外,Qwen2 的分词器进行了改进,能够适应多种自然语言和代码。
训练细节
这些模型预训练时使用了大量数据,并通过监督微调和直接偏好优化的方式进一步训练,以提高模型性能。
如何使用
要使用 Qwen2-7B-Instruct-GGUF,可以通过安装 llama.cpp。用户可以手动下载所需的 GGUF 文件,或者使用 huggingface-cli
进行下载:
huggingface-cli download Qwen/Qwen2-7B-Instruct-GGUF qwen2-7b-instruct-q5_k_m.gguf --local-dir . --local-dir-use-symlinks False
建议使用 llama-server
来运行 Qwen2,这种方式简单且兼容 OpenAI API。例如:
./llama-server -m qwen2-7b-instruct-q5_k_m.gguf -ngl 28 -fa
然后可以通过 OpenAI API 来访问部署的服务:
import openai
client = openai.OpenAI(
base_url="http://localhost:8080/v1",
api_key = "sk-no-key-required"
)
completion = client.chat.completions.create(
model="qwen",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "tell me something about michael jordan"}
]
)
print(completion.choices[0].message.content)
评估
使用 llama.cpp
中的 ./llama-perplexity
进行困惑度评估,并报告使用不同规模和量化级别的 GGUF 模型的 PPL 值。
模型规模 | fp16 | q8_0 | q6_k | q5_k_m | q5_0 |
---|---|---|---|---|---|
0.5B | 15.11 | 15.13 | 15.14 | 15.24 | 15.40 |
1.5B | 10.43 | 10.43 | 10.45 | 10.50 | 10.56 |
7B | 7.93 | 7.94 | 7.96 | 7.97 | 7.98 |
结语
如果您认为我们的工作对您有帮助,欢迎进行引用:
@article{qwen2,
title={Qwen2 Technical Report},
year={2024}
}