热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#高效性能
ScaleLLM - 优化大语言模型推理,兼容多种开源模型
Github
开源项目
集成开发
生产环境
ScaleLLM
大模型推理
高效性能
ScaleLLM是一个为大语言模型(LLMs)设计的高效推理系统,适用于生产环境。支持Llama3.1、Gemma2、Bloom、GPT-NeoX等多种开源模型,集成了CUDA图、前缀缓存、分块填充和推测解码等高级功能。项目正在积极开发,目标是提高效率并加入更多特性。现已上架PyPI,可通过pip安装。ScaleLLM还提供兼容OpenAI的REST API和本地聊天机器人UI,支持离线批量推理和在线分布式推理。
1
1
相关文章
ScaleLLM: 高性能推理系统助力大型语言模型部署
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号