#nm-vllm
nm-vllm - 基于vLLM的企业级大语言模型推理引擎
nm-vllmvLLMPyPIDocker模型优化Github开源项目
nm-vllm是Neural Magic维护的企业级大语言模型推理引擎,基于vLLM开发。支持PyPI安装和Docker部署,提供CUDA加速和稀疏化功能,可提高推理效率。项目在Hugging Face上提供多种优化模型,为大规模语言模型部署提供高效解决方案。
zephyr-7b-beta-marlin - 适用于高效4比特推理的LLM模型优化技术
模型量化Huggingface开源项目模型推理优化GithubMarlin格式zephyr-7b-betanm-vllm
项目提供的zephyr-7b-beta模型在GPTQ量化后以Marlin格式保存,专为nm-vllm引擎高效推理优化。该模型支持在本地Python环境中部署,代码示例以及详细指导文档可供参考,确保对量化模型优势的完整展现。