lmdeploy简介
lmdeploy是由MMRazor和MMDeploy团队开发的LLM压缩、部署和服务工具包。它具有以下核心特性:
- 高效推理:通过持久化批处理、块状KV缓存、动态分割融合等技术,实现比vLLM高1.8倍的请求吞吐量。
- 有效量化:支持权重量化和KV量化,4比特推理性能比FP16高2.4倍。
- 便捷分布式服务:可轻松实现跨多机多卡的多模型服务部署。
- 交互式推理:通过缓存多轮对话中的注意力KV,避免重复处理历史会话。
- 优秀兼容性:支持KV缓存量化、AWQ和自动前缀缓存等技术同时使用。
快速入门
安装
推荐使用pip在conda环境中安装lmdeploy (Python 3.8-3.12):
conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy
默认预编译包基于CUDA 12。更多安装选项请参考安装指南。
离线批量推理
import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm2-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)
更多推理pipeline使用说明请参考这里。
学习资源
支持的模型
lmdeploy支持大量主流LLM和VLM模型,包括Llama系列、InternLM系列、Qwen系列、Baichuan系列等。详细支持列表请参考这里。
性能评测
更多设备和场景的详细性能评测请参考这里。
社区资源
欢迎加入lmdeploy社区,贡献代码或反馈使用体验!让我们一起推动LLM部署技术的发展。