Llama-3-8B-Instruct-GPTQ-4-Bit

项目介绍：Llama-3-8B-Instruct-GPTQ-4-Bit

项目背景

Llama-3-8B-Instruct-GPTQ-4-Bit 是由 Astronomer 公司基于 Meta 提供的原始模型 Meta-Llama-3-8B-Instruct 创建的一个量化模型。Astronomer 是一家专注于Apache Airflow、MLOps 的公司，为数据编排提供开源框架支持。这个项目的目的是通过量化技术，减少模型在运行时对显存的需求与计算资源的消耗。

项目简介

该项目基于 Meta 的 Llama-3 进行了改进，利用 GPTQ 方法进行 4 位量化，这极大缩小了模型的大小，使其能够在普通或相对低成本的 Nvidia GPU（如 T4、K80、RTX 4070 等）上快速运行。虽然有小幅度的质量损失，但相比于原始的 bfloat16 模型，这种量化模型大大提高了延迟和吞吐量。

量化技术

项目中使用了 AutoGPTQ 库进行模型量化，按照 GPTQ 论文中的最佳实践进行操作。量化的过程中，通过使用来自特定数据集的随机样本（目前使用的是 wikitext）来校准量化过程，以尽量减少精度损失。

量化模型参数

位数：4 位
分组大小：128
激活排序：启用
阻尼百分比：0.1
数据集：wikitext
序列长度：8192
所需显存：5.74 GB
描述：这是一个4位的量化模型，启用了激活排序和 128 分组大小，在轻微的精度损失下达到了最小化模型大小。

模型部署

在使用 vLLM 部署此模型时，在 Nvidia T4 (16GB VRAM) 上测试过。为了解决模型输出文本不停止的问题，建议在请求中添加 stop_token_ids（如：[128001, 128009]）。

例如：

{
    "model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who created Llama 3?"}
    ],
    "max_tokens": 2000,
    "stop_token_ids":[128001,128009]
}