cutlass

CUTLASS 项目详解

项目简介

CUTLASS，全称为CUDA Templates for Linear Algebra Subroutines and Solvers，是一组CUDA C++模板抽象，用于在CUDA中实现高性能矩阵-矩阵乘法（GEMM）及相关计算的各个层次和规模。CUTLASS通过模块化的软件组件，将计算的多个“活动部件”进行复用和抽象。这些组件通过自定义的切分大小、数据类型等策略进行专业化和调优，极大地简化了其在自定义内核和应用中的使用。

设计特点

CUTLASS提供了广泛的混合精度计算支持，例如半精度浮点（FP16）、BFloat16（BF16）、Tensor Float 32（TF32）、单精度FP32、双精度FP64以及整数数据类型（4b和8b）和二进制数据类型（1b）。这使得CUTLASS能够以编程、可定制的高吞吐量方式，针对NVIDIA的Volta、Turing、Ampere和Hopper架构的可编程张量核心进行优化。

CuTe，CUTLASS 3.0引入的新核心库，使程序员能够通过CuTe提供的Layout和Tensor对象，以逻辑描述的方式实现算法，而CuTe则负责复杂的索引操作。这大大简化了稠密线性代数运算的设计、实现和修改。

主要功能

CUTLASS不仅可以用于实现GEMM运算，还包括通过隐式GEMM算法实现的高性能卷积运算。这种方法将卷积操作转化为GEMM，从而能重复利用经过高度优化的GEMM组件。

在最新版本CUTLASS 3.6中，新增了多项重要功能，包括：

Hopper结构化稀疏GEMM支持，涵盖FP16、FP8和INT8等多种数据格式。
对3.x版卷积的kernel::ConvUniversal API重构，使其与gemm::GemmUniversal保持一致。
改进的混合输入GEMM实现和查找表。
用于Top-K选择与softmax的EVT节点以及相关GEMM示例。
新的依赖式程序启动功能。
新的调试工具synclog，用于记录内核中的同步事件。
加入多个性能提升的内核调度策略。

性能与兼容性

CUTLASS的原语非常高效，通常在设备范围的GEMM内核中表现优于或可与cuBLAS性能相比拟。在NVIDIA Hopper架构的H100 GPU上，CUTLASS 3.6的性能持续提升。此外，CUTLASS仍然确保了在各种硬件和软件环境中的兼容性，支持从Volta到Hopper架构的NVIDIA GPU，要求最低的CUDA Compute Capability为7.0。

CUTLASS需要至少支持C++17标准的主机编译器，并建议使用CUDA 12.4版本的工具链来获得最佳性能。