热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#高通量
lorax - 支持在单个GPU上运行数千个微调模型的框架
Github
开源项目
LoRAX
多模型推理
高通量
低延迟
生产准备
LoRAX框架支持在单个GPU上运行数千个微调模型,有效降低服务成本且不影响吞吐量和延迟。主要特点包括动态适配器加载、异构连续批处理、适配器交换调度和优化推理。LoRAX提供预构建的Docker镜像、Kubernetes Helm图表和Prometheus指标,并兼容OpenAI API,支持多轮聊天对话和私有适配器。免费商用,采用Apache 2.0许可。
1
1
相关文章
LoRAX: 革新大规模语言模型服务的多适配器推理框架
3 个月前
lorax学习资料汇总 - 支持千级微调模型的多LoRA推理服务器
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号