#nm-vllm

nm-vllm: 高性能和内存高效的LLM推理与服务引擎

3 个月前

3 个月前

相关项目

nm-vllm

nm-vllm是Neural Magic维护的企业级大语言模型推理引擎，基于vLLM开发。支持PyPI安装和Docker部署，提供CUDA加速和稀疏化功能，可提高推理效率。项目在Hugging Face上提供多种优化模型，为大规模语言模型部署提供高效解决方案。

zephyr-7b-beta-marlin

项目提供的zephyr-7b-beta模型在GPTQ量化后以Marlin格式保存，专为nm-vllm引擎高效推理优化。该模型支持在本地Python环境中部署，代码示例以及详细指导文档可供参考，确保对量化模型优势的完整展现。

投诉举报邮箱: service@vectorlightyear.com