#Quest

Quest - 长文本LLM推理的查询感知稀疏化框架

长上下文LLM推理稀疏性KV缓存注意力机制QuestGithub开源项目

Quest是一个创新的长文本LLM推理框架，通过在KV缓存中应用查询感知稀疏化技术，显著减少了注意力计算中的内存移动。该框架跟踪缓存页面的Key值范围，并利用Query向量评估页面重要性，仅加载最关键的KV缓存页面。实验表明，Quest可将自注意力计算速度提升至7.03倍，推理延迟降低2.23倍，同时在长依赖任务中保持高精度。

相关文章

Article Cover

Quest: 将查询感知稀疏化应用于大型语言模型,提高长文本推理效率

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号