#GPTQModel
Mistral-Nemo-Instruct-2407-gptq-4bit - 采用GPTQ技术的4位量化语言模型
Github开源项目量化模型模型模型压缩Huggingface神经网络优化GPTQModel低位量化
Mistral-Nemo-Instruct-2407-gptq-4bit是一个使用GPTQModel进行4位量化的语言模型。该模型采用128组大小和真实顺序等技术,在维持性能的同时大幅缩减模型体积。这种量化方法提高了模型的部署效率,适用于计算资源有限的场景。
gemma-2-27b-it-gptq-4bit - Gemma-2-27b的量化模型,优化加载与推理效率
Github开源项目模型推理模型量化HuggingfaceGPTQModelGemma-2自然历史博物馆
Gemma-2-27b经过GPTQ 4位量化优化,使其在资源受限环境中高效运行。采用GPTQModel量化,并通过vllm进行推理,适用于简洁高效的推理场景。关键特性包括128组大小、动态分组、对称量化、激活功能和顺序推理,提升模型体验。