#高效性能

ScaleLLM: 高性能推理系统助力大型语言模型部署

3 个月前

ScaleLLM 大模型推理高效性能生产环境集成开发 Github 开源项目

3 个月前

相关项目

ScaleLLM

ScaleLLM是一个为大语言模型（LLMs）设计的高效推理系统，适用于生产环境。支持Llama3.1、Gemma2、Bloom、GPT-NeoX等多种开源模型，集成了CUDA图、前缀缓存、分块填充和推测解码等高级功能。项目正在积极开发，目标是提高效率并加入更多特性。现已上架PyPI，可通过pip安装。ScaleLLM还提供兼容OpenAI的REST API和本地聊天机器人UI，支持离线批量推理和在线分布式推理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com