#SqueezeLLM

SqueezeLLM - 硬件资源优化下的大语言模型量化服务

SqueezeLLM量化大语言模型内存优化模型压缩Github开源项目

SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能，将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件，实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型，提供3位和4位量化选项，适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。

相关文章

Article Cover

SqueezeLLM: 大语言模型的高效量化压缩技术

2024年08月30日

Article Cover

SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

2024年09月10日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号