热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#长上下文LLM推理
Quest - 长文本LLM推理的查询感知稀疏化框架
Github
开源项目
注意力机制
稀疏性
长上下文LLM推理
KV缓存
Quest
Quest是一个创新的长文本LLM推理框架,通过在KV缓存中应用查询感知稀疏化技术,显著减少了注意力计算中的内存移动。该框架跟踪缓存页面的Key值范围,并利用Query向量评估页面重要性,仅加载最关键的KV缓存页面。实验表明,Quest可将自注意力计算速度提升至7.03倍,推理延迟降低2.23倍,同时在长依赖任务中保持高精度。
1
1
相关文章
Quest: 将查询感知稀疏化应用于大型语言模型,提高长文本推理效率
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号