#MInference

MInference：加速长上下文LLM推理的革命性技术

2024年09月05日

MInference 大语言模型动态稀疏注意力长文本处理性能优化 Github 开源项目

2024年09月05日

相关项目

MInference

MInference是一项新技术，通过利用长上下文语言模型注意力机制的动态稀疏性来加速预填充过程。该技术离线确定注意力头的稀疏模式，在线近似稀疏索引，并使用优化内核动态计算注意力。在A100 GPU上，MInference实现了预填充速度提升10倍，同时保持模型准确性。它支持LLaMA-3、GLM-4等多种长上下文模型，有效处理百万级别token的上下文。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com