auto-round
AutoRound是一种针对大语言模型(LLM)的高效量化算法。通过符号梯度下降优化权重舍入和范围,仅需200步迭代即可达到业界领先水平,且不增加推理开销。该算法支持OPT、BLOOM、GPT-J等多种模型,提供混合精度量化、激活量化等实验功能,并兼容Intel Gaudi2硬件。AutoRound提供简洁的Python接口,方便用户进行模型量化和推理。