热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#高效性能
ScaleLLM: 高性能推理系统助力大型语言模型部署
2 个月前
ScaleLLM是一款为生产环境设计的高性能推理系统,专为大型语言模型(LLMs)优化。它提供了一系列先进功能,如张量并行、OpenAI兼容API、Hugging Face模型支持等,能够显著提升LLM的推理效率和部署灵活性。
ScaleLLM
大模型推理
高效性能
生产环境
集成开发
Github
开源项目
2 个月前
相关项目
ScaleLLM
ScaleLLM是一个为大语言模型(LLMs)设计的高效推理系统,适用于生产环境。支持Llama3.1、Gemma2、Bloom、GPT-NeoX等多种开源模型,集成了CUDA图、前缀缓存、分块填充和推测解码等高级功能。项目正在积极开发,目标是提高效率并加入更多特性。现已上架PyPI,可通过pip安装。ScaleLLM还提供兼容OpenAI的REST API和本地聊天机器人UI,支持离线批量推理和在线分布式推理。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号