项目介绍:Llama-3-8B-Instruct-GPTQ-4-Bit
项目背景
Llama-3-8B-Instruct-GPTQ-4-Bit 是由 Astronomer 公司基于 Meta 提供的原始模型 Meta-Llama-3-8B-Instruct 创建的一个量化模型。Astronomer 是一家专注于Apache Airflow、MLOps 的公司,为数据编排提供开源框架支持。这个项目的目的是通过量化技术,减少模型在运行时对显存的需求与计算资源的消耗。
项目简介
该项目基于 Meta 的 Llama-3 进行了改进,利用 GPTQ 方法进行 4 位量化,这极大缩小了模型的大小,使其能够在普通或相对低成本的 Nvidia GPU(如 T4、K80、RTX 4070 等)上快速运行。虽然有小幅度的质量损失,但相比于原始的 bfloat16
模型,这种量化模型大大提高了延迟和吞吐量。
量化技术
项目中使用了 AutoGPTQ 库进行模型量化,按照 GPTQ 论文中的最佳实践进行操作。量化的过程中,通过使用来自特定数据集的随机样本(目前使用的是 wikitext)来校准量化过程,以尽量减少精度损失。
量化模型参数
- 位数:4 位
- 分组大小:128
- 激活排序:启用
- 阻尼百分比:0.1
- 数据集:wikitext
- 序列长度:8192
- 所需显存:5.74 GB
- 描述:这是一个4位的量化模型,启用了激活排序和 128 分组大小,在轻微的精度损失下达到了最小化模型大小。
模型部署
在使用 vLLM 部署此模型时,在 Nvidia T4 (16GB VRAM) 上测试过。为了解决模型输出文本不停止的问题,建议在请求中添加 stop_token_ids
(如:[128001, 128009]
)。
例如:
{
"model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who created Llama 3?"}
],
"max_tokens": 2000,
"stop_token_ids":[128001,128009]
}
项目贡献者
该模型由 Astronomer 的机器学习工程师 David Xue 完成量化处理。
总的来说,Llama-3-8B-Instruct-GPTQ-4-Bit 项目通过引入量化技术,使得强大的文本生成模型能够更高效地运行于普通的计算硬件之上,为需要高效利用资源的机器学习应用提供了一条可行的途径。