AutoGPTQ
AutoGPTQ是基于GPTQ算法的LLM量化工具包,支持多种模型类型和硬件平台的推理优化,整合Marlin与Exllama内核,提升推理速度与性能,适合在资源受限环境中部署高效的语言模型。