#Neural Magic
sparsify - 机器学习模型推理优化解决方案
Github开源项目深度学习模型优化推理加速SparsifyNeural Magic
Sparsify使用先进的剪枝、量化和蒸馏算法,在加速推理的同时保持模型精度。该工具由两部分组成:Sparsify Cloud,提供实验创建、管理和结果比较的在线平台;Sparsify CLI/API,作为Python包和GitHub库,支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。
docs - Neural Magic深度学习模型CPU性能优化平台
Github开源项目深度学习开源软件模型性能Neural MagicCPU优化
Neural Magic开源平台提供了一系列工具,包括SparseML、Sparsify、SparseZoo和DeepSparse,用于优化CPU上的深度学习模型性能。这套软件组件支持选择、构建和运行高效率模型,使开发者能在标准CPU硬件上实现接近GPU级别的AI推理速度。
TinyLlama-1.1B-Chat-v1.0-marlin - TinyLlama-1.1B量化推理解决方案
Github开源项目模型推理量化HuggingfaceNeural MagicTinyLlama-1.1B-Chat-v1.0基于模型
本项目提供了一种以TinyLlama-1.1B为基础的量化聊天模型,运用GPTQ技术实现内存优化与推理加速,支持高效的4位推理。借助nm-vllm引擎,用户能快速实现部署,并可通过Python管道进行本地推理。详细的量化与Marlin格式转换流程保障了模型的高效表现。此外,Neural Magic的Slack社区欢迎加入以获取支持和交流更多关于神经网络及AI的资讯。