#PagedAttention

vllm - 高性能与易用性的LLM推理与服务平台

vLLMLLM服务量化PagedAttention高吞吐量Github开源项目

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

相关文章

Article Cover

vLLM:高效易用的大语言模型推理和服务引擎

Article Cover

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号