Llama-2-13B-chat-AWQ - 增强Transformer模型推理效率的AWQ量化技术

Llama-2-13B-Chat-AWQ项目介绍

Llama-2-13B-Chat-AWQ 是由 Meta 开发的，并通用化为 Hugging Face Transformers 格式。一共有三个版本：7B、13B 以及 70B，涵盖从7亿到70亿的参数规模。这个项目的13B版本是其中经过对话优化的版本，适用于对话的使用场景。

Llama 2 系列是大型语言模型（LLMs）的集合，分别进行了预训练和微调。微调版本，被称为 Llama-2-Chat，在大多数基准测试中优于开源的聊天模型，并在人类评估中在有用性和安全性方面与一些流行的闭源模型不相上下。

AWQ 是一种高效、准确且快速的低位量化方法，目前支持 4 位量化。与 GPTQ 相比，它提供了更快的基于 Transformer 的推理能力。AWQ 目前支持连续分批服务器 vLLM，允许在多用户服务器场景中进行高吞吐量的并发推理。

相比于没有量化的模型，使用 AWQ 能够使用更小的 GPU，从而更简便的部署并节省成本。例如，一个 70B 的模型可以在一个 48GB GPU 上运行，而不是两个 80GB。这带来了硬件需求的减少。

Llama-2-13B-Chat-AWQ 主要用于商业和研究用途，尤其是适用于对话助手的场景。未调版本可适应多种自然语言生成任务。

为了实现聊天版本的预期功能和性能，输入格式上需要特定的设计，包括 INST 和 <<SYS>> 标签。同时，也需注意空格和换行的处理，以确保输入格式的正确性。

训练期间，Llama 2 使用了 Meta 的 Research Super Cluster 和生产集群。微调、标注和评估则在第三方云计算平台上进行。

Llama 2 的预训练累计消耗了 3.3M GPU 小时，并排放了539 tCO2eq 的碳排放，这些全部由 Meta 的可持续性计划抵消。

AWQ 模型文件经过测试，可与 AutoAWQ 和 vLLM 搭配工作。然而，目前 Huggingface Text Generation Inference (TGI) 尚不兼容 AWQ，这方面的支持正在积极添加中。

Llama-2-13B-Chat-AWQ 的进一步支持和讨论可以通过 TheBlokeAI 的 Discord 服务器进行。

任何希望为项目贡献的人可以在 Patreon 或 Ko-Fi 上支持项目，这些支持将帮助继续开发更多模型和新项目。获捐助的支持者将获得优先支持和其他福利。

Llama-2-13B-Chat-AWQ 项目致力于开放模型的提升，以确保在对话、助手等场景中提供优秀的语言生成能力。它的开发与推广为商业应用和研究提供了一个强大的工具，同时还注重降低硬件要求与使用成本。