KIVI
KIVI是一种创新的2比特KV缓存量化算法,无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化,适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时,将峰值内存使用降低2.6倍,批处理大小提升4倍,推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。