Llama-2-70B-Chat-AWQ项目介绍
项目背景
Llama-2-70B-Chat-AWQ项目是由Meta公司推出的70亿参数预训练和微调生成性文本模型的一部分。该模型特别为对话应用场景进行优化,并已转换为Hugging Face Transformers格式。Llama-2-Chat模型在多项基准测试中优于其他开源聊天模型。Meta开发并公开发布了Llama 2系列的大型语言模型(LLM),它们的规模从7亿到70亿不等。
模型细节
模型开发者:Meta
参数变体:Llama 2提供了7B、13B和70B三种参数规模的版本,并包含预训练和微调的变体。
输入类型:模型仅接受文本输入。
输出类型:模型仅生成文本输出。
模型架构:Llama 2是一个自回归的语言模型,使用优化的transformer架构。微调版本通过受控的监督微调(SFT)和基于人类反馈的强化学习(RLHF)来优化,使其更符合人类对帮助性和安全性的偏好。
AWQ简介
AWQ是一种高效、准确且极快的低位权量化方法,目前支持4位量化。与GPTQ相比,它在基于Transformers的推理表现上速度更快。AWQ现在也被持续批处理服务器vLLM支持,允许在多用户服务器场景中进行高吞吐量并发推理。尽管使用AWQ时的整体吞吐量仍低于未量化模型的vLLM,但使用AWQ可以利用较小的GPU,从而简化部署并节省成本。例如,70B模型可以在一个48GB的GPU上运行,而不需要两个80GB的GPU。
可用资源库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,提供多种量化参数选项
- 用于CPU+GPU推理的2, 3, 4, 5, 6和8位GGUF模型
- Meta Llama 2原版未量化的fp16模型,以pytorch格式提供,用于GPU推理和进一步转换
推理和使用
AWQ模型可通过vLLM进行服务,只需在服务器上传递--quantization awq
参数即可。同时,也可以在Python代码中通过设置quantization=awq
参数来使用。例如,使用AutoAWQ库可以方便地从Python代码中调用这个模型进行生成任务。
兼容性
AWQ模型已经过测试,可以与AutoAWQ和vLLM一起使用。目前,Huggingface的Text Generation Inference (TGI)尚未兼容AWQ,但有开放PR将很快支持此功能。
感谢
感谢TheBloke's AI Discord社区及Patreon支持者,特别感谢a16z基金会的资助。
总之,Llama-2-70B-Chat-AWQ是一个强大的对话优化模型,在提供自然语言生成任务的同时,具有较高的效率和低成本的实现方式,非常适合于商业和研究用途,特别是在英文对话应用中。