#对话优化
Llama-2-70B-Chat-GPTQ - 多量化参数优化的对话生成模型
Github开源项目模型Llama 2量化Huggingface对话模型生成文本模型对话优化
Llama-2-Chat是Meta Llama 2的预训练和微调文本生成模型,专为对话场景优化。在基准测试中表现优异,可与一些知名闭源模型相媲美。GPTQ版本提供多种量化参数,适配不同硬件配置,实现VRAM利用率最大化和优质推理。支持灵活下载分支供用户选择最佳量化配置。
Llama-2-13B-chat-AWQ - 增强Transformer模型推理效率的AWQ量化技术
Github开源项目文本生成模型量化模型Llama 2HuggingfaceMeta对话优化
Llama-2-13B-chat-AWQ项目利用AWQ低比特量化提高Transformer模型推理效率,支持4比特量化技术,相较于传统GPTQ方法,能更快速地实现多用户并发推理,降低硬件要求和部署成本。AWQ现已兼容vLLM平台进行高吞吐量推理,尽管总体吞吐量较未量化模型略有不如,但可通过较小的GPU实现高效部署,比如70B模型仅需一台48GB GPU即可运行。