#AWQ
llm-awq - 激活感知权重量化技术实现大语言模型高效压缩与加速
AWQLLM模型量化视觉语言模型边缘设备Github开源项目
AWQ是一种高效的大语言模型低比特权重量化技术,支持INT3/4量化,适用于指令微调和多模态模型。它提供预计算模型库、内存高效的4位线性层和快速推理CUDA内核。AWQ使TinyChat可在边缘设备上实现大模型高效本地推理。该技术已被Google、Amazon等采用,并获MLSys 2024最佳论文奖。
TinyChatEngine - 面向边缘设备的高效语言模型推理库
TinyChatEngineLLMVLMAWQSmoothQuantGithub开源项目
TinyChatEngine是一个专为边缘设备设计的语言模型推理库,支持运行大型语言模型(LLM)和视觉语言模型(VLM)。该库采用SmoothQuant和AWQ等先进的模型压缩技术,兼容x86、ARM和CUDA等多种平台架构,无需依赖外部库。TinyChatEngine具备跨平台兼容性、高性能和易用性等特点,能在笔记本电脑、汽车和机器人等设备上实现实时推理,提供快速响应的同时保护数据隐私。
Midnight-Miqu-70B-v1.5-4bit - 为大规模语言模型提供高效4位量化部署方案
AWQ量化模型Huggingface模型Midnight-Miqu-70BGithub开源项目lmdeployAI模型压缩
Midnight-Miqu-70B-v1.5-4bit是一个经过lmdeploy工具优化的4位量化模型,旨在实现大规模语言模型的高效部署。该项目通过自动量化技术显著减小模型体积,同时保持性能稳定。这为在资源受限环境中部署强大语言模型提供了实用解决方案,可应用于多种自然语言处理任务。
Qwen2-72B-Instruct-AWQ - 先进的大规模语言模型 131K Token上下文长度
AWQHuggingface模型大语言模型长文本处理GithubQwen2开源项目自然语言处理
Qwen2-72B-Instruct-AWQ是一个支持131,072个token上下文长度的大规模语言模型。该模型在语言理解、生成、多语言、编码、数学和推理等方面表现优异,采用改进的Transformer架构。模型经过大规模数据预训练和微调,可通过Python快速部署使用。
mixtral-instruct-awq - AWQ量化的Mixtral Instruct模型替代方案
AWQHuggingface模型人工智能Github开源项目Mixtral Instruct量化
这是一个经AWQ量化的Mixtral Instruct工作版本,旨在解决官方版本的功能问题。项目提供了Mixtral-8x7B-Instruct-v0.1模型的稳定实现,适合在资源受限环境中部署大型语言模型。该替代方案为开发者和研究人员提供了一个可靠的选择,有助于提高模型在实际应用中的效率。
Mistral-7B-Instruct-v0.2-AWQ - Mistral-7B-Instruct-v0.2改进版指令微调大语言模型
模型AI推理AWQ模型量化Mistral-7B-Instruct-v0.2Github文本生成Huggingface开源项目
Mistral-7B-Instruct-v0.2是Mistral AI团队开发的改进版指令微调大语言模型。基于Mistral-7B-v0.1架构,采用分组查询注意力和滑动窗口注意力技术。支持[INST]和[/INST]标记的指令格式,提供聊天模板功能。模型性能出色,但缺乏审核机制。适用于需要无限制输出的应用场景,展示了基础模型易于微调并获得优秀性能。
LlamaGuard-7B-AWQ - 使用低位量化技术提升模型推理速度和效率
AWQGithub模型开源项目安装指南LlamaGuard 7B安全分类Huggingface模型量化
LlamaGuard-7B-AWQ采用了AWQ的4位量化技术,提升了模型在Linux和Windows平台上的推理效率和精度,需使用NVidia GPU。此模型相较于传统GPTQ设置,具备更快速度和良好的输出质量,兼容Text Generation Webui、vLLM及Transformers等系统,支持多用户推理服务,适合对时延和精度有较高要求的应用场景。
zephyr-7B-alpha-AWQ - Zephyr 7B模型AWQ量化版支持轻量级推理部署
AWQGithub模型开源项目深度学习Huggingface文本生成Zephyr-7B模型量化
Zephyr 7B Alpha是一个基于Mistral-7B训练的对话助手模型。本版本采用AWQ量化技术将模型压缩至4位精度,使用wikitext数据集和128g量化参数进行优化。相比GPTQ,AWQ量化能提供更快的推理速度,同时显著降低显存占用,使模型可以在配置较低的GPU上高效部署运行。
Mistral-7B-OpenOrca-AWQ - 高效4比特量化,实现多用户并发推理
OpenOrcaAWQ开源项目Mistral 7B模型Huggingface并行推理量化Github
项目提供OpenOrca的Mistral 7B模型的AWQ版本。AWQ是一种4比特的低比特量化方法,在Transformers推理中更快速,与GPTQ相比具有效率优势。AWQ支持在多用户环境中实现高效的并发推理,有助于使用更小的GPU进行部署,减少整体成本,尽管总体吞吐量仍略低于未量化模型。