Xorbits Inference：模型服务变得简单 🤖

Xorbits Inference（简称 Xinference）是一款强大且多功能的库，旨在服务于语言、语音识别和多模态模型。借助 Xorbits Inference，您可以轻松使用单个命令部署和服务您的模型或最新的内置模型。无论您是研究人员、开发者还是数据科学家，Xorbits Inference 都能帮助您释放最前沿 AI 模型的全部潜力。

👉 加入我们的 Slack 社区！

🔥 热门话题

框架增强

支持 Transformers 引擎的连续批处理：＃1724
支持 Apple Silicon 芯片的 MLX 后端：＃1765
支持指定工作线程和 GPU 索引启动模型：＃1195
支持 SGLang 后端：＃1161
支持 LLM 和图像模型的 LoRA：＃1080
支持语音识别模型：＃929
支持指标：＃906

新模型

内置支持 CogVideoX：＃2049
内置支持 flux.1-schnell & flux.1-dev：＃2007
内置支持 MiniCPM-V 2.6：＃2031
内置支持 Kolors：＃2028
内置支持 SenseVoice：＃2008
内置支持 Mistral Large 2：＃1944
内置支持 llama3.1：＃1932
内置支持 Mistral Nemo：＃1936

集成

Dify：一个 LLMOps 平台，使开发人员（甚至非开发人员）能够快速构建基于大型语言模型的实用应用程序，确保它们是可视化的、可操作的和可改进的。
FastGPT：一个基于 LLM 的知识平台，提供现成的数据处理和模型调用功能，允许通过 Flow 可视化进行工作流编排。
Chatbox：一个适用于多个最新 LLM 模型的桌面客户端，适用于 Windows、Mac 和 Linux。
RAGFlow：一个基于深度文档理解的开源 RAG 引擎。

主要特点

🌟 模型服务变得简单：简化大型语言、语音识别和多模态模型的服务过程。您可以通过一个命令来设置和部署您的模型，用于实验和生产。

⚡️ 最先进的模型：通过一个命令使用最新的内置模型进行实验。Inference 提供访问最先进的开源模型！

🖥 异构硬件的利用：使用 ggml 充分利用您的硬件资源。Xorbits Inference 智能地使用异构硬件，包括 GPU 和 CPU，加速您的模型推理任务。

⚙️ 灵活的 API 和接口：提供多种接口与您的模型进行交互，支持兼容 OpenAI 的 RESTful API（包括函数调用 API）、RPC、CLI 和 WebUI 进行无缝的模型管理和交互。

🌐 分布式部署：在分布式部署场景中表现出色，允许将模型推理无缝分布到多个设备或机器上。

🔌 与第三方库的内置集成：Xorbits Inference 与流行的第三方库无缝集成，包括 LangChain、LlamaIndex、Dify 和 Chatbox。

为什么选择 Xinference

功能	Xinference	FastChat	OpenLLM	RayLLM
OpenAI兼容的 RESTful API	✅	✅	✅	✅
vLLM 集成	✅	✅	✅	✅
更多推理引擎（GGML, TensorRT）	✅	❌	✅	✅
更多平台（CPU, Metal）	✅	✅	❌	❌
多节点集群部署	✅	❌	❌	✅
图像模型（文字到图像）	✅	✅	❌	❌
文本嵌入模型	✅	❌	❌	❌
多模态模型	✅	❌	❌	❌
音频模型	✅	❌	❌	❌
更多OpenAI功能（函数调用）	✅	❌	❌	❌

入门指南

请在开始之前为我们加星，这样您就能立即收到 GitHub 上每次新发布的通知！

Jupyter Notebook

体验 Xinference 的最轻量方法是试用我们的 Google Colab 上的 Jupyter Notebook。

Docker

Nvidia GPU 用户可以使用 Xinference Docker 镜像启动 Xinference 服务器。在执行安装命令之前，请确保您的系统上已设置 Docker 和 CUDA。

docker run --name xinference -d -p 9997:9997 -e XINFERENCE_HOME=/data -v </on/your/host>:/data --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

通过 helm 安装到 K8s

确保您的 Kubernetes 集群中有 GPU 支持，然后按如下步骤安装。

# 添加仓库
helm repo add xinference https://xorbitsai.github.io/xinference-helm-charts

# 更新索引并查询 xinference 版本
helm repo update xinference
helm search repo xinference/xinference --devel --versions

# 安装 xinference
helm install xinference xinference/xinference -n xinference --version 0.0.1-v<xinference_release_version>

有关 K8s 上更自定义的安装方法，请参阅文档。