热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#动态稀疏注意力
MInference - 动态稀疏注意力加速长上下文语言模型
Github
开源项目
大语言模型
性能优化
长文本处理
MInference
动态稀疏注意力
MInference是一项新技术,通过利用长上下文语言模型注意力机制的动态稀疏性来加速预填充过程。该技术离线确定注意力头的稀疏模式,在线近似稀疏索引,并使用优化内核动态计算注意力。在A100 GPU上,MInference实现了预填充速度提升10倍,同时保持模型准确性。它支持LLaMA-3、GLM-4等多种长上下文模型,有效处理百万级别token的上下文。
1
1
相关文章
MInference:加速长上下文LLM推理的革命性技术
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号