#吞吐量

Mooncake: 月饼服务平台为基于大语言模型的Kimi服务提供强大支持

3 个月前

Mooncake LLM服务 KVCache 分离架构吞吐量 Github 开源项目

3 个月前

LLMPerf 基准测试排行榜：评估大语言模型推理性能

3 个月前

LLMPerf LLM推理提供商性能基准测试吞吐量响应时间 Github 开源项目

3 个月前

相关项目

llmperf-leaderboard

LLMPerf Leaderboard 项目对多家LLM推理服务进行性能评测，主要衡量输出令牌吞吐量和首个令牌响应时间(TTFT)。测试涵盖Llama-2系列的7B、13B和70B聊天模型，为开发者提供客观透明的性能数据和可复现的测试方法，有助于选择合适的LLM服务。

Mooncake

Mooncake是一种创新的大语言模型服务架构。它采用以KVCache为中心的分离设计，将预填充和解码集群分开，并充分利用GPU集群的闲置资源实现KVCache的分布式缓存。Mooncake的核心调度器在确保延迟服务水平目标的同时，最大化系统的有效吞吐量。通过实施预测性早期拒绝策略，该架构在高负载情况下表现优异，尤其适合长上下文场景。实验结果表明，在特定模拟环境中，Mooncake能够在满足服务水平目标的前提下，将系统吞吐量提升525%。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com