TinyLlama-1.1B-Chat-v0.3-AWQ项目介绍
项目背景
TinyLlama-1.1B-Chat-v0.3模型是由Zhang Peiyuan创建的一个紧凑型对话模型,基于Llama架构开发。该项目旨在用30亿个token对1.1B参数的Llama模型进行预训练,并在90天内通过16个A100-40G GPU完成训练。该模型的紧凑性使其能够应用于需要限制计算和内存的场景。
模型概览
TinyLlama-1.1B-Chat-v0.3是以PY007/TinyLlama-1.1B-Intermediate-Step-480k-1T为基础进行微调的对话模型。使用了OpenAssistant/oasst_top1_2023-08-25数据集,并遵循ChatML格式进行训练。
AWQ量化技术
AWQ(Advanced Weight Quantization)是一种高效、精确且超高速的低比特权重量化方法,支持4-bit量化。相比于GPTQ,AWQ可在基于Transformer的推理任务中提供更快的性能。此外,AWQ已经获得vLLM连续批处理服务器的支持,适用于高并发多用户服务器场景中的模型推理。
模型的优势
使用AWQ技术的模型,尽管整体吞吐量可能低于未量化模型,但其好处在于能使用更小的GPU,从而更容易部署并降低总体成本。例如,一个70B规模的模型可以在1个48GB GPU上运行,而不需要2个80GB的GPU。
可用的模型存储库
该模型的不同量化版本可用于不同的推理场景:
使用方式
vLLM
在vLLM中使用模型时,需传入--quantization awq
参数。具体代码及更多配置方法请参考官方文档。
Text Generation Inference (TGI)
使用TGI版本1.1.0或更高版本,官方Docker容器为:ghcr.io/huggingface/text-generation-inference:1.1.0
。
Python代码示例
可使用AutoAWQ库从Python代码中调用该模型。具体代码及库安装方法请参考项目文档。
总结
TinyLlama-1.1B-Chat-v0.3借助AWQ技术,提供了一款高效、低成本的对话模型解决方案。它的设计兼具通用性和紧凑性,可以在多种应用场景中备案使用。模型的多版本支持进一步增强了其可部署性,适合开发者选择最符合需求的版本使用。