#GPTQModel

Mistral-Nemo-Instruct-2407-gptq-4bit - 采用GPTQ技术的4位量化语言模型

Github开源项目量化模型模型模型压缩Huggingface神经网络优化GPTQModel低位量化

Mistral-Nemo-Instruct-2407-gptq-4bit是一个使用GPTQModel进行4位量化的语言模型。该模型采用128组大小和真实顺序等技术，在维持性能的同时大幅缩减模型体积。这种量化方法提高了模型的部署效率，适用于计算资源有限的场景。

gemma-2-27b-it-gptq-4bit - Gemma-2-27b的量化模型，优化加载与推理效率

Github开源项目模型推理模型量化HuggingfaceGPTQModelGemma-2自然历史博物馆

Gemma-2-27b经过GPTQ 4位量化优化，使其在资源受限环境中高效运行。采用GPTQModel量化，并通过vllm进行推理，适用于简洁高效的推理场景。关键特性包括128组大小、动态分组、对称量化、激活功能和顺序推理，提升模型体验。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号