XNNPACK
XNNPACK 是一个高度优化的解决方案,用于在 ARM、x86、WebAssembly 和 RISC-V 平台上进行神经网络推理。XNNPACK 并非直接面向深度学习实践者和研究人员使用;相反,它为加速高级机器学习框架(如 TensorFlow Lite、TensorFlow.js、PyTorch、ONNX Runtime 和 MediaPipe)提供了底层性能原语。
支持的架构
- Android、iOS、macOS、Linux 和 Windows 上的 ARM64
- Android 上的 ARMv7(带 NEON)
- Linux 上的 ARMv6(带 VFPv2)
- Windows、Linux、macOS、Android 和 iOS 模拟器上的 x86 和 x86-64(最高支持 AVX512)
- WebAssembly MVP
- WebAssembly SIMD
- WebAssembly 宽松 SIMD(实验性)
- RISC-V(RV32GC 和 RV64GC)
算子覆盖范围
XNNPACK 实现了以下神经网络算子:
- 2D 卷积(包括分组卷积和深度卷积)
- 2D 反卷积(又称转置卷积)
- 2D 平均池化
- 2D 最大池化
- 2D ArgMax 池化(最大池化 + 索引)
- 2D 反池化
- 2D 双线性调整大小
- 2D 深度到空间(又称像素重排)
- 加法(包括广播,仅限两个输入)
- 减法(包括广播)
- 除法(包括广播)
- 最大值(包括广播)
- 最小值(包括广播)
- 乘法(包括广播)
- 平方差(包括广播)
- 全局平均池化
- 通道重排
- 全连接
- 绝对值
- 银行家舍入(四舍六入五成双)
- 向上取整
- 钳位(包括 ReLU 和 ReLU6)
- 转换(包括定点和半精度量化与反量化)
- 复制
- ELU
- 向下取整
- HardSwish
- Leaky ReLU
- 取反
- Sigmoid
- Softmax
- 平方
- Tanh
- 转置
- 截断(向零取整)
- PReLU
XNNPACK 中的所有算子都支持 NHWC 布局,但还允许沿着通道维度自定义步长。因此,算子可以消耗输入张量中的一部分通道,并在输出张量中生成一部分通道,从而提供零成本的通道分割和通道连接操作。
性能
手机
下表展示了 XNNPACK 库在三代 MobileNet 模型和三代 Pixel 手机上的单线程性能。
模型 | Pixel, ms | Pixel 2, ms | Pixel 3a, ms |
---|---|---|---|
FP32 MobileNet v1 1.0X | 82 | 86 | 88 |
FP32 MobileNet v2 1.0X | 49 | 53 | 55 |
FP32 MobileNet v3 Large | 39 | 42 | 44 |
FP32 MobileNet v3 Small | 12 | 14 | 14 |
下表展示了 XNNPACK 库在三代 MobileNet 模型和三代 Pixel 手机上的多线程(使用与大核心数量相同的线程数)性能。
模型 | Pixel, ms | Pixel 2, ms | Pixel 3a, ms |
---|---|---|---|
FP32 MobileNet v1 1.0X | 43 | 27 | 46 |
FP32 MobileNet v2 1.0X | 26 | 18 | 28 |
FP32 MobileNet v3 Large | 22 | 16 | 24 |
FP32 MobileNet v3 Small | 7 | 6 | 8 |
基准测试于 2020 年 3 月 27 日进行,使用 end2end_bench --benchmark_min_time=5
在 Android/ARM64 构建上运行,使用 Android NDK r21(bazel build -c opt --config android_arm64 :end2end_bench
)和随机权重和输入的神经网络模型。
树莓派
下表展示了 XNNPACK 库在三代 MobileNet 模型和三代树莓派板上的多线程性能。
模型 | 树莓派 Zero W (BCM2835),毫秒 | 树莓派 2 (BCM2836),毫秒 | 树莓派 3+ (BCM2837B0),毫秒 | 树莓派 4 (BCM2711),毫秒 | 树莓派 4 (BCM2711, ARM64),毫秒 |
---|---|---|---|---|---|
FP32 MobileNet v1 1.0X | 3919 | 302 | 114 | 72 | 77 |
FP32 MobileNet v2 1.0X | 1987 | 191 | 79 | 41 | 46 |
FP32 MobileNet v3 Large | 1658 | 161 | 67 | 38 | 40 |
FP32 MobileNet v3 Small | 474 | 50 | 22 | 13 | 15 |
INT8 MobileNet v1 1.0X | 2589 | 128 | 46 | 29 | 24 |
INT8 MobileNet v2 1.0X | 1495 | 82 | 30 | 20 | 17 |
基准测试于2022年2月8日进行,使用 end2end-bench --benchmark_min_time=5
在 Raspbian Buster 构建上运行,该构建使用 CMake(./scripts/build-local.sh
)编译,并使用随机权重和输入的神经网络模型。INT8 推理是基于每通道量化方案评估的。
最低构建要求
- C11
- C++14
- Python 3
出版物
- Marat Dukhan "间接卷积算法"。在 2019年高效深度学习计算机视觉(ECV) 研讨会上展示(幻灯片,ArXiv 论文)。
- Erich Elsen, Marat Dukhan, Trevor Gale, Karen Simonyan "快速稀疏卷积网络"。 ArXiv 论文,预训练稀疏模型。
- Marat Dukhan, Artsiom Ablavatski "两阶段 Softmax 算法"。 ArXiv 论文。
- Yury Pisarchyk, Juhyun Lee "深度神经网络推理的高效内存管理"。 ArXiv 论文。
生态系统
机器学习框架
- TensorFlow Lite
- TensorFlow.js WebAssembly 后端
- PyTorch Mobile
- ONNX Runtime Mobile
- MediaPipe for the Web
- 阿里巴巴 HALO(异构感知降级和优化)
- 三星 ONE(设备端神经引擎)
致谢
XNNPACK 基于 QNNPACK 库。随着时间的推移,其代码库发生了很大的变化,XNNPACK API 不再与 QNNPACK 兼容。