简单、快速且便宜的LLM服务
| 文档 | 博客 | 论文 | Discord | Twitter/X |
最新消息 🔥
- [2024/07] 我们与AWS合作举办了第五次vLLM见面会! 请点击 这里 查看见面会幻灯片。
- [2024/07] 与Meta合作,vLLM正式支持带有FP8量化和流水线并行的Llama 3.1!请查看我们的博客文章 这里。
- [2024/06] 我们与Cloudflare和BentoML合作举办了第四次vLLM见面会!请点击 这里 查看见面会幻灯片。
- [2024/04] 我们与Roblox合作举办了第三次vLLM见面会!请点击 这里 查看见面会幻灯片。
- [2024/01] 我们与IBM合作举办了第二次vLLM见面会!请点击 这里 查看见面会幻灯片。
- [2023/10] 我们与a16z合作举办了第一次vLLM见面会!请点击 这里 查看见面会幻灯片。
- [2023/08] 我们要向 Andreessen Horowitz (a16z) 表示衷心的感谢,他们提供了慷慨的资助来支持vLLM的开源开发和研究。
- [2023/06] 我们正式发布了vLLM!自四月中旬以来,FastChat-vLLM集成已经为LMSYS Vicuna和Chatbot Arena 提供了支持。请查看我们的 博客文章。
关于
vLLM是一个快速且易于使用的LLM推理和服务库。
vLLM的优点在于其速度:
- 最先进的服务吞吐量
- 使用PagedAttention高效管理注意力键和值内存
- 持续批量处理新请求
- 使用CUDA/HIP图形进行快速模型执行
- 量化支持:GPTQ、AWQ、INT4、INT8和FP8。
- 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成
- 推测解码
- 分块预填充
性能基准测试:我们包含一个性能基准测试,比较vLLM与其他LLM服务引擎(TensorRT-LLM、text-generation-inference 和 lmdeploy)的性能。
vLLM的灵活性和易用性体现在:
- 与流行的Hugging Face模型无缝集成
- 通过各种解码算法(包括并行采样、束搜索等)进行高吞吐量服务
- 支持分布式推理的张量并行和流水线并行
- 流式输出
- 兼容OpenAI的API服务器
- 支持NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、TPU和AWS Neuron。
- 前缀缓存支持
- 多lora支持
vLLM无缝支持HuggingFace上大多数流行的开源模型,包括:
- 类Transformer的LLM(例如,Llama)
- 专家混合LLM(例如,Mixtral)
- 嵌入模型(例如,E5-Mistral)
- 多模态LLM(例如,LLaVA)
在这里找到支持的模型的完整列表。
入门指南
通过pip
或从源代码安装安装vLLM:
pip install vllm
访问我们的文档了解更多。
贡献
我们欢迎并重视任何贡献和合作。 请查看CONTRIBUTING.md了解如何参与。
赞助商
vLLM是一个社区项目。我们开发和测试的计算资源由以下组织支持。感谢你们的支持!
- a16z
- AMD
- Anyscale
- AWS
- Crusoe Cloud
- Databricks
- DeepInfra
- Dropbox
- Google Cloud
- Lambda Lab
- NVIDIA
- Replicate
- Roblox
- RunPod
- Sequoia Capital
- Skywork AI
- Trainy
- UC Berkeley
- UC San Diego
- 真格基金
我们还通过OpenCollective有一个官方筹资渠道。我们计划利用这些资金支持vLLM的开发、维护和采用。
引用
如果你在研究中使用了vLLM,请引用我们的论文:
@inproceedings{kwon2023efficient,
title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
year={2023}
}