#KIVI

KIVI:一种无需微调的非对称2比特KV缓存量化方法

3 个月前

KIVI KV缓存量化 LLM 内存优化推理加速 Github 开源项目

3 个月前

相关项目

KIVI

KIVI是一种创新的2比特KV缓存量化算法，无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化，适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时，将峰值内存使用降低2.6倍，批处理大小提升4倍，推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com