nm-vllm
概述
nm-vllm
是我们支持的 vLLM 企业版分发。
安装
PyPI
nm-vllm PyPi 包包含预编译的 CUDA(版本 12.1)内核二进制文件。对于其他 PyTorch 或 CUDA 版本,请从源代码编译该包。
使用 pip 安装:
pip install nm-vllm --extra-index-url https://pypi.neuralmagic.com/simple
要使用权重稀疏特性,请包含可选的 sparse
依赖项。
pip install nm-vllm[sparse] --extra-index-url https://pypi.neuralmagic.com/simple
你也可以从源代码构建和安装 nm-vllm
(这将花费约 10 分钟):
git clone https://github.com/neuralmagic/nm-vllm.git
cd nm-vllm
pip install -e .[sparse] --extra-index-url https://pypi.neuralmagic.com/simple
Docker
nm-vllm
容器注册表包含预制的 docker 镜像。
使用以下命令启动与 OpenAI 兼容的服务器:
MODEL_ID=Qwen/Qwen2-0.5B-Instruct
docker run --gpus all --shm-size 2g ghcr.io/neuralmagic/nm-vllm-openai:latest --model $MODEL_ID
模型
Neural Magic 在我们的 Hugging Face 组织简介上维护着各种优化模型: