#AWQ

llm-awq - 激活感知权重量化技术实现大语言模型高效压缩与加速

AWQLLM模型量化视觉语言模型边缘设备Github开源项目

AWQ是一种高效的大语言模型低比特权重量化技术，支持INT3/4量化，适用于指令微调和多模态模型。它提供预计算模型库、内存高效的4位线性层和快速推理CUDA内核。AWQ使TinyChat可在边缘设备上实现大模型高效本地推理。该技术已被Google、Amazon等采用，并获MLSys 2024最佳论文奖。

TinyChatEngine - 面向边缘设备的高效语言模型推理库

TinyChatEngineLLMVLMAWQSmoothQuantGithub开源项目

TinyChatEngine是一个专为边缘设备设计的语言模型推理库,支持运行大型语言模型(LLM)和视觉语言模型(VLM)。该库采用SmoothQuant和AWQ等先进的模型压缩技术,兼容x86、ARM和CUDA等多种平台架构,无需依赖外部库。TinyChatEngine具备跨平台兼容性、高性能和易用性等特点,能在笔记本电脑、汽车和机器人等设备上实现实时推理,提供快速响应的同时保护数据隐私。

Mistral-7B-Instruct-v0.2-AWQ - Mistral-7B-Instruct-v0.2改进版指令微调大语言模型

模型AI推理AWQ模型量化Mistral-7B-Instruct-v0.2Github文本生成Huggingface开源项目

Mistral-7B-Instruct-v0.2是Mistral AI团队开发的改进版指令微调大语言模型。基于Mistral-7B-v0.1架构,采用分组查询注意力和滑动窗口注意力技术。支持[INST]和[/INST]标记的指令格式,提供聊天模板功能。模型性能出色,但缺乏审核机制。适用于需要无限制输出的应用场景,展示了基础模型易于微调并获得优秀性能。

LlamaGuard-7B-AWQ - 使用低位量化技术提升模型推理速度和效率

AWQGithub模型开源项目安装指南LlamaGuard 7B安全分类Huggingface模型量化

LlamaGuard-7B-AWQ采用了AWQ的4位量化技术，提升了模型在Linux和Windows平台上的推理效率和精度，需使用NVidia GPU。此模型相较于传统GPTQ设置，具备更快速度和良好的输出质量，兼容Text Generation Webui、vLLM及Transformers等系统，支持多用户推理服务，适合对时延和精度有较高要求的应用场景。

zephyr-7B-alpha-AWQ - Zephyr 7B模型AWQ量化版支持轻量级推理部署

AWQGithub模型开源项目深度学习Huggingface文本生成Zephyr-7B模型量化

Zephyr 7B Alpha是一个基于Mistral-7B训练的对话助手模型。本版本采用AWQ量化技术将模型压缩至4位精度,使用wikitext数据集和128g量化参数进行优化。相比GPTQ,AWQ量化能提供更快的推理速度,同时显著降低显存占用,使模型可以在配置较低的GPU上高效部署运行。

Mistral-7B-OpenOrca-AWQ - 高效4比特量化，实现多用户并发推理

OpenOrcaAWQ开源项目Mistral 7B模型Huggingface并行推理量化Github

项目提供OpenOrca的Mistral 7B模型的AWQ版本。AWQ是一种4比特的低比特量化方法，在Transformers推理中更快速，与GPTQ相比具有效率优势。AWQ支持在多用户环境中实现高效的并发推理，有助于使用更小的GPU进行部署，减少整体成本，尽管总体吞吐量仍略低于未量化模型。

相关文章

Article Cover

AWQ: 提升大语言模型推理效率的激活感知权重量化技术

Article Cover

TinyChatEngine: 高效的边缘设备LLM推理库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号