#KVCache

Mooncake: 月饼服务平台为基于大语言模型的Kimi服务提供强大支持

3 个月前

Mooncake LLM服务 KVCache 分离架构吞吐量 Github 开源项目

3 个月前

相关项目

Mooncake

Mooncake是一种创新的大语言模型服务架构。它采用以KVCache为中心的分离设计，将预填充和解码集群分开，并充分利用GPU集群的闲置资源实现KVCache的分布式缓存。Mooncake的核心调度器在确保延迟服务水平目标的同时，最大化系统的有效吞吐量。通过实施预测性早期拒绝策略，该架构在高负载情况下表现优异，尤其适合长上下文场景。实验结果表明，在特定模拟环境中，Mooncake能够在满足服务水平目标的前提下，将系统吞吐量提升525%。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com