#Quest

Quest: 将查询感知稀疏化应用于大型语言模型,提高长文本推理效率

2 个月前

长上下文LLM推理稀疏性 KV缓存注意力机制 Quest Github 开源项目

2 个月前

相关项目

Quest

Quest是一个创新的长文本LLM推理框架，通过在KV缓存中应用查询感知稀疏化技术，显著减少了注意力计算中的内存移动。该框架跟踪缓存页面的Key值范围，并利用Query向量评估页面重要性，仅加载最关键的KV缓存页面。实验表明，Quest可将自注意力计算速度提升至7.03倍，推理延迟降低2.23倍，同时在长依赖任务中保持高精度。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com