onnx2c: 轻量级神经网络模型部署利器

onnx2c

onnx2c: 让神经网络在微控制器上起飞

在人工智能和物联网快速发展的今天,如何将训练好的神经网络模型部署到资源受限的嵌入式设备上,已经成为一个热门话题。onnx2c作为一个轻量级的神经网络模型部署工具,正是为解决这一难题而生的。本文将全面介绍onnx2c的设计理念、核心功能以及使用方法,帮助读者了解这一强大工具如何让神经网络在微控制器上"起飞"。

onnx2c简介:小巧而强大的模型转换工具

onnx2c是一个开源的ONNX(Open Neural Network Exchange)到C语言的编译器。它的主要功能是读取ONNX格式的神经网络模型文件,并生成对应的C语言代码。这个工具的目标用户群是那些想要在微控制器等资源受限的嵌入式设备上运行神经网络推理的开发者。

onnx2c的设计理念可以用"小而美"来形容。它专注于生成轻量、高效的C代码,以适应微控制器有限的内存和计算资源。同时,onnx2c的使用也非常简单直接,对用户十分友好。只要你能够将训练好的神经网络导出为ONNX格式(目前主流的深度学习框架如PyTorch和TensorFlow都支持这一功能),并且有一个可工作的微控制器项目,那么使用onnx2c将两者结合就变得轻而易举。

onnx2c的核心特性:为微控制器量身打造

onnx2c生成的C代码具有以下几个重要特性,这些特性都是为了更好地适应微控制器的环境:

无标准输入输出依赖:生成的代码不包含#include <stdio.h>,也就是说不使用printf()等标准输入输出函数。这减少了代码体积,并避免了在某些微控制器平台上可能存在的兼容性问题。
静态内存分配:onnx2c在编译时就分配好所需的缓冲区,不使用动态内存分配,也几乎不使用栈内存。这种做法可以有效避免内存碎片化,并使内存使用更加可预测。
最小库依赖:除了标准C数学库外,生成的代码不依赖其他库。这大大简化了部署过程,提高了代码的可移植性。(不过,推荐使用带有硬件浮点运算单元的设备以获得更好的性能。)
编译器友好:生成的代码结构清晰,便于C编译器进行优化,以获得最佳的运行效率。
单文件输出:所有生成的代码都被包含在一个C文件中,方便项目管理和集成。

这些特性使得onnx2c生成的代码非常适合在资源受限的微控制器上运行。它不仅体积小、效率高,还具有良好的可移植性和易用性。

如何使用onnx2c:从安装到代码生成

使用onnx2c的过程可以分为以下几个步骤:

安装依赖: 首先需要安装ProtocolBuffers库。在Ubuntu系统上,可以使用以下命令:
```
apt install libprotobuf-dev protobuf-compiler
```
对于MacOS用户,可以使用Homebrew安装:
```
brew install protobuf
```

获取源码:

git clone https://github.com/kraiskil/onnx2c.git
cd onnx2c
git submodule update --init

编译onnx2c: 使用CMake进行标准构建:

mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make onnx2c

使用onnx2c生成C代码: 编译完成后,会得到一个onnx2c可执行文件。使用以下命令将ONNX模型转换为C代码:
```
./onnx2c [你的ONNX模型文件] > model.c
```
集成生成的代码: 在生成的model.c文件末尾,有一个名为void entry(...)的函数。在你的主程序中调用这个函数就可以运行模型推理。函数参数的名称与ONNX模型中的一致。

onnx2c的优化技巧:榨干每一滴性能

为了在微控制器上获得最佳性能,onnx2c提供了几个优化选项:

使用-ffast-math编译选项:当编译onnx2c生成的代码时,使用这个选项可以显著提高计算速度。不过,需要注意的是,这可能会稍微降低浮点运算的精度。
张量联合优化:onnx2c会将中间张量包装在联合体(union)中,帮助编译器重用堆内存,从而减少内存占用。
移除Cast节点:通过修改前置节点的输出张量,onnx2c可以消除不必要的类型转换操作。
AVR处理器优化:对于AVR系列处理器,onnx2c可以将常量放入指令内存中,以节省宝贵的数据内存。
实验性量化选项:onnx2c提供了一个将浮点计算转换为整数计算的实验性选项,这对于不支持硬件浮点运算的设备特别有用。

onnx2c的实际性能:小巧但强劲

onnx2c性能对比

根据onnx2c项目提供的基准测试数据,我们可以看到onnx2c在实际应用中表现出色。以一个简单的"Hello World"正弦波生成神经网络为例,将其编译到STM32F411微控制器上运行,结果令人印象深刻:

使用STM32CubeAI生成的代码运行时间为490微秒
而使用onnx2c生成的代码仅需20微秒

这意味着onnx2c生成的代码运行速度比STM32CubeAI快了近25倍!

在内存占用方面,onnx2c也表现不俗:

平台	代码段(text)	数据段(data)	BSS段	运行时间
STM HAL + onnx2c @96MHz	8276	1300	3060	20us
STM HAL + CubeAI @96MHz	14372	1696	2808	490us
OpenCM3 + onnx2c @84MHz	8236	1296	388	25us
OpenCM3 + onnx2c (RAM优化)	8236	12	388	29us

可以看到,onnx2c生成的代码在各个方面都比STM32CubeAI更加高效。特别是在RAM优化版本中,数据段的占用仅为12字节,这对于内存紧张的微控制器来说是一个巨大的优势。

onnx2c的局限性:仍在成长的年轻工具

尽管onnx2c表现出色,但它也有一些局限性需要注意:

ONNX规范覆盖不完整:目前onnx2c仅实现了部分ONNX操作(91个out of 166个ONNX操作至少部分实现)。这意味着某些复杂的神经网络模型可能无法直接转换。
不支持硬件加速器:onnx2c生成的是纯C代码,不支持使用专门的神经网络加速硬件。
不支持反向传播:onnx2c专注于推理,不支持模型训练。
社区活跃度有待提高:与一些大公司支持的工具相比,onnx2c的社区相对较小,更新频率可能不如一些主流工具。