#权重量化

高效深度学习:一个缩小、加速和优化深度学习模型的综述

3 个月前

神经网络压缩模型加速网络剪枝权重量化知识蒸馏 Github 开源项目

3 个月前

AutoRound：为大型语言模型优化的先进量化算法

3 个月前

AutoRound 量化算法 LLM推理权重量化低位推理 Github 开源项目

3 个月前

相关项目

auto-round

AutoRound是一种针对大语言模型(LLM)的高效量化算法。通过符号梯度下降优化权重舍入和范围,仅需200步迭代即可达到业界领先水平,且不增加推理开销。该算法支持OPT、BLOOM、GPT-J等多种模型,提供混合精度量化、激活量化等实验功能,并兼容Intel Gaudi2硬件。AutoRound提供简洁的Python接口,方便用户进行模型量化和推理。

Efficient-Deep-Learning

此项目汇总了深度神经网络压缩和加速的多种方法,涵盖神经架构设计、剪枝、量化、矩阵分解和知识蒸馏等技术。重点介绍了剪枝(含彩票假设)、知识蒸馏和量化等领域的研究进展,并提供了大量相关论文摘要。项目还收录了初始化剪枝和高效视觉Transformer等相关资源,为该领域的研究和开发提供了全面参考。

Nous-Hermes-2-Mixtral-8x7B-SFT-AWQ

Nous Hermes 2 Mixtral 8x7B SFT - AWQ由NousResearch开发，采用AWQ低比特量化技术，提供快速且精确的推理能力。支持4位量化的AWQ大幅提升了Transfomers推理速度，与GPTQ设定相比，保证了等同或更佳的质量表现。在Linux和Windows系统的NVIDIA GPU上运行良好，macOS用户建议使用GGUF模型。该模型结合来自多种开放数据集的百万条目数据，通过GPT-4生成数据进行训练，实现多项任务的业界领先性能，兼容Text Generation Webui、vLLM和Hugging Face TGI等多个平台，适用于不同环境下的高性能推理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com