热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#KVCache
Mooncake - 大语言模型服务架构采用KVCache分离设计
Mooncake
LLM服务
KVCache
分离架构
吞吐量
Github
开源项目
Mooncake是一种创新的大语言模型服务架构。它采用以KVCache为中心的分离设计,将预填充和解码集群分开,并充分利用GPU集群的闲置资源实现KVCache的分布式缓存。Mooncake的核心调度器在确保延迟服务水平目标的同时,最大化系统的有效吞吐量。通过实施预测性早期拒绝策略,该架构在高负载情况下表现优异,尤其适合长上下文场景。实验结果表明,在特定模拟环境中,Mooncake能够在满足服务水平目标的前提下,将系统吞吐量提升525%。
1
1
相关文章
Mooncake: 月饼服务平台为基于大语言模型的Kimi服务提供强大支持
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号