热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#KIVI
KIVI:一种无需微调的非对称2比特KV缓存量化方法
2 个月前
KIVI是一种新型的即插即用2比特KV缓存量化算法,无需任何微调即可优化大语言模型的内存使用,同时保持模型性能。本文将介绍KIVI的原理、特点及其在实际应用中的优势。
KIVI
KV缓存量化
LLM
内存优化
推理加速
Github
开源项目
2 个月前
相关项目
KIVI
KIVI是一种创新的2比特KV缓存量化算法,无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化,适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时,将峰值内存使用降低2.6倍,批处理大小提升4倍,推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号