#AWQ

llm-awq - 激活感知权重量化技术实现大语言模型高效压缩与加速
AWQLLM模型量化视觉语言模型边缘设备Github开源项目
AWQ是一种高效的大语言模型低比特权重量化技术,支持INT3/4量化,适用于指令微调和多模态模型。它提供预计算模型库、内存高效的4位线性层和快速推理CUDA内核。AWQ使TinyChat可在边缘设备上实现大模型高效本地推理。该技术已被Google、Amazon等采用,并获MLSys 2024最佳论文奖。
TinyChatEngine - 面向边缘设备的高效语言模型推理库
TinyChatEngineLLMVLMAWQSmoothQuantGithub开源项目
TinyChatEngine是一个专为边缘设备设计的语言模型推理库,支持运行大型语言模型(LLM)和视觉语言模型(VLM)。该库采用SmoothQuant和AWQ等先进的模型压缩技术,兼容x86、ARM和CUDA等多种平台架构,无需依赖外部库。TinyChatEngine具备跨平台兼容性、高性能和易用性等特点,能在笔记本电脑、汽车和机器人等设备上实现实时推理,提供快速响应的同时保护数据隐私。
Mistral-7B-Instruct-v0.2-AWQ - Mistral-7B-Instruct-v0.2改进版指令微调大语言模型
模型AI推理AWQ模型量化Mistral-7B-Instruct-v0.2Github文本生成Huggingface开源项目
Mistral-7B-Instruct-v0.2是Mistral AI团队开发的改进版指令微调大语言模型。基于Mistral-7B-v0.1架构,采用分组查询注意力和滑动窗口注意力技术。支持[INST]和[/INST]标记的指令格式,提供聊天模板功能。模型性能出色,但缺乏审核机制。适用于需要无限制输出的应用场景,展示了基础模型易于微调并获得优秀性能。
LlamaGuard-7B-AWQ - 使用低位量化技术提升模型推理速度和效率
AWQGithub模型开源项目安装指南LlamaGuard 7B安全分类Huggingface模型量化
LlamaGuard-7B-AWQ采用了AWQ的4位量化技术,提升了模型在Linux和Windows平台上的推理效率和精度,需使用NVidia GPU。此模型相较于传统GPTQ设置,具备更快速度和良好的输出质量,兼容Text Generation Webui、vLLM及Transformers等系统,支持多用户推理服务,适合对时延和精度有较高要求的应用场景。
zephyr-7B-alpha-AWQ - Zephyr 7B模型AWQ量化版支持轻量级推理部署
AWQGithub模型开源项目深度学习Huggingface文本生成Zephyr-7B模型量化
Zephyr 7B Alpha是一个基于Mistral-7B训练的对话助手模型。本版本采用AWQ量化技术将模型压缩至4位精度,使用wikitext数据集和128g量化参数进行优化。相比GPTQ,AWQ量化能提供更快的推理速度,同时显著降低显存占用,使模型可以在配置较低的GPU上高效部署运行。
Mistral-7B-OpenOrca-AWQ - 高效4比特量化,实现多用户并发推理
OpenOrcaAWQ开源项目Mistral 7B模型Huggingface并行推理量化Github
项目提供OpenOrca的Mistral 7B模型的AWQ版本。AWQ是一种4比特的低比特量化方法,在Transformers推理中更快速,与GPTQ相比具有效率优势。AWQ支持在多用户环境中实现高效的并发推理,有助于使用更小的GPU进行部署,减少整体成本,尽管总体吞吐量仍略低于未量化模型。