#吞吐量

llmperf-leaderboard - LLM推理服务性能基准测试与比较

LLMPerfLLM推理提供商性能基准测试吞吐量响应时间Github开源项目

LLMPerf Leaderboard 项目对多家LLM推理服务进行性能评测，主要衡量输出令牌吞吐量和首个令牌响应时间(TTFT)。测试涵盖Llama-2系列的7B、13B和70B聊天模型，为开发者提供客观透明的性能数据和可复现的测试方法，有助于选择合适的LLM服务。

Mooncake - 大语言模型服务架构采用KVCache分离设计

MooncakeLLM服务KVCache分离架构吞吐量Github开源项目

Mooncake是一种创新的大语言模型服务架构。它采用以KVCache为中心的分离设计，将预填充和解码集群分开，并充分利用GPU集群的闲置资源实现KVCache的分布式缓存。Mooncake的核心调度器在确保延迟服务水平目标的同时，最大化系统的有效吞吐量。通过实施预测性早期拒绝策略，该架构在高负载情况下表现优异，尤其适合长上下文场景。实验结果表明，在特定模拟环境中，Mooncake能够在满足服务水平目标的前提下，将系统吞吐量提升525%。

相关文章

Article Cover

LLMPerf 基准测试排行榜：评估大语言模型推理性能

Article Cover

Mooncake: 月饼服务平台为基于大语言模型的Kimi服务提供强大支持

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号