#nm-vllm

nm-vllm - 基于vLLM的企业级大语言模型推理引擎

nm-vllmvLLMPyPIDocker模型优化Github开源项目

nm-vllm是Neural Magic维护的企业级大语言模型推理引擎，基于vLLM开发。支持PyPI安装和Docker部署，提供CUDA加速和稀疏化功能，可提高推理效率。项目在Hugging Face上提供多种优化模型，为大规模语言模型部署提供高效解决方案。

zephyr-7b-beta-marlin - 适用于高效4比特推理的LLM模型优化技术

模型量化Huggingface开源项目模型推理优化GithubMarlin格式zephyr-7b-betanm-vllm

项目提供的zephyr-7b-beta模型在GPTQ量化后以Marlin格式保存，专为nm-vllm引擎高效推理优化。该模型支持在本地Python环境中部署，代码示例以及详细指导文档可供参考，确保对量化模型优势的完整展现。

相关文章

Article Cover

nm-vllm: 高性能和内存高效的LLM推理与服务引擎

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号