#生产准备

lorax学习资料汇总 - 支持千级微调模型的多LoRA推理服务器

2024年09月10日

LoRAX 多模型推理高通量低延迟生产准备 Github 开源项目

2024年09月10日

LoRAX: 革新大规模语言模型服务的多适配器推理框架

2024年08月30日

LoRAX 多模型推理高通量低延迟生产准备 Github 开源项目

2024年08月30日

相关项目

lorax

LoRAX框架支持在单个GPU上运行数千个微调模型，有效降低服务成本且不影响吞吐量和延迟。主要特点包括动态适配器加载、异构连续批处理、适配器交换调度和优化推理。LoRAX提供预构建的Docker镜像、Kubernetes Helm图表和Prometheus指标，并兼容OpenAI API，支持多轮聊天对话和私有适配器。免费商用，采用Apache 2.0许可。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com