#高通量

lorax - 支持在单个GPU上运行数千个微调模型的框架

Github开源项目LoRAX多模型推理高通量低延迟生产准备

LoRAX框架支持在单个GPU上运行数千个微调模型，有效降低服务成本且不影响吞吐量和延迟。主要特点包括动态适配器加载、异构连续批处理、适配器交换调度和优化推理。LoRAX提供预构建的Docker镜像、Kubernetes Helm图表和Prometheus指标，并兼容OpenAI API，支持多轮聊天对话和私有适配器。免费商用，采用Apache 2.0许可。

相关文章

Article Cover

LoRAX: 革新大规模语言模型服务的多适配器推理框架

Article Cover

lorax学习资料汇总 - 支持千级微调模型的多LoRA推理服务器

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号