CUTLASS 内核
针对大型语言模型(LLM)的CUTLASS内核库。
(2024年7月11日)FlashAttention-3的官方版本将在 https://github.com/Dao-AILab/flash-attention 维护。
我们可能会不时将一些FA3内核的变体上传到此存储库,以供实验之用,但我们不承诺在这里提供相同级别的支持。
构建
- 按照以下说明下载CUTLASS:https://github.com/NVIDIA/cutlass。
- 修改示例compile.sh中的(硬编码)路径,指向你的CUTLASS目录。
- 运行修改后的compile.sh,使用 ./compile.sh。
运行
- 运行可执行文件时,确保设置 NVIDIA_TF32_OVERRIDE=1 以启用cuBLAS的TF32模式用于SGEMM。否则,cuBLAS将使用float32。
注意事项
- 有关更具体的说明,请查看子目录中的README.md。