#量化优化

PPQ: 强大的离线神经网络量化工具

3 个月前

PPQ 神经网络量化 Onnx TensorRT 量化优化 Github 开源项目

3 个月前

llama.cpp: 高性能大语言模型推理引擎

3 个月前

llama.cpp 模型推理 C/C++量化优化多模态模型 Github 开源项目热门

3 个月前

相关项目

llama.cpp

llama.cpp 提供了基于 C/C++ 的纯粹实现，支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化，包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外，项目支持使用 NVIDIA GPU 的自定义 CUDA 核心，以及通过 HIP 支持 AMD GPU，为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。

ppq

PPQ 是一个适用于工业应用的神经网络量化工具。通过将浮点运算转换为定点运算，它显著提升系统功耗效率和执行速度。具备高度扩展性，用户可自定义量化过程，并结合多种硬件和推理库使用。版本 0.6.6 更新了图模式匹配、图融合功能，并新增 FP8 量化规范和 PFL 基础类库。支持 TensorRT, Openvino, Onnxruntime 等推理框架，实现高效的神经网络量化部署。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com