热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#SqueezeLLM
SqueezeLLM - 硬件资源优化下的大语言模型量化服务
SqueezeLLM
量化
大语言模型
内存优化
模型压缩
Github
开源项目
SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能,将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件,实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型,提供3位和4位量化选项,适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。
1
1
相关文章
SqueezeLLM: 大语言模型的高效量化压缩技术
3 个月前
SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号