深度学习加速器架构创新：使用半数乘法器实现高效计算

algebraic-nnhw

引言

在人工智能和机器学习领域的快速发展中，深度学习加速器的性能和效率一直是研究的重点。近期，一项名为"algebraic-nnhw"的开源项目引起了广泛关注，它提出了一种革命性的深度学习加速器架构，能够在仅使用约一半乘法器的情况下，实现与传统方法相同的性能。这一创新不仅大幅提高了计算效率，还为机器学习硬件设计开辟了新的思路。

创新技术：FIP和FFIP算法

该项目的核心在于引入了两种新的算法：快速内积（Fast Inner Product, FIP）和自由流水线快速内积（Free-pipeline Fast Inner Product, FFIP）。这些算法基于Winograd在1968年提出的一种未被充分探索的快速内积算法，通过巧妙的数学变换，将近一半的乘法运算转换为低位宽的加法运算，同时保证输出结果与传统内积算法完全一致。

FIP算法的优势

FIP算法的独特之处在于它可以应用于几乎所有可以分解为矩阵乘法的机器学习模型层，包括全连接层、卷积层、循环层和注意力/transformer层。这种广泛的适用性使得FIP算法在各种深度学习模型中都能发挥重要作用。

FFIP算法的进一步优化

在FIP的基础上，研究者们提出了FFIP算法及其硬件架构。FFIP通过优化时钟频率，进一步提高了系统的吞吐量，同时保持了与FIP相似的硬件成本。这一改进使得FFIP成为一种更加高效的深度学习加速器解决方案。

深度学习加速器系统概览

硬件架构创新

algebraic-nnhw项目不仅在算法层面进行了创新，还在硬件架构上做出了重大突破。项目团队设计了一种新型的系统阵列/矩阵乘法单元（MXU）处理元素（PE），能够高效实现FIP和FFIP算法。

系统阵列设计

新的PE设计如下图所示，与传统的基准PE相比，单个FIP或FFIP PE就能提供相当于两个基准PE的计算能力。这种设计大大提高了硬件利用率，同时降低了能耗。

处理元素比较图

MXU/系统阵列连接

项目还详细说明了MXU/系统阵列的连接方式，如下图所示。这种连接方式确保了数据流的高效传输，最大化了计算单元的利用率。

MXU/系统阵列连接图

项目实现与代码组织

algebraic-nnhw项目的源代码组织结构清晰，便于研究者和开发者深入了解和使用。项目主要包含以下几个部分：

编译器（compiler）：负责将Python模型描述解析为加速器指令，实现模型加速。此外，还包括与PCIe驱动程序接口的代码，用于启动模型执行、读取结果和性能计数器，以及测试结果的正确性。
RTL（rtl）：包含可综合的SystemVerilog RTL代码，是硬件实现的核心。
仿真（sim）：提供设置仿真环境的脚本，用于测试和验证。
测试（tests）：基于UVM的测试平台源代码，使用Cocotb进行仿真验证。
工具（utils）：项目作者创建的额外Python包和脚本，用于通用开发工具和辅助功能。