#FlashAttention-3

CUTLASS: 高性能CUDA线性代数库

2 个月前

Cover of CUTLASS: 高性能CUDA线性代数库

CUTLASS是NVIDIA开发的CUDA C++模板库,用于实现高性能矩阵乘法(GEMM)和相关计算。它提供了灵活的、模块化的组件,可以用于构建自定义的高效CUDA内核。

CUTLASS FlashAttention-3 GPU加速深度学习 CUDA Github 开源项目

2 个月前

Cover of CUTLASS: 高性能CUDA线性代数库

相关项目

Project Cover

cutlass-kernels

CUTLASS Kernels是一个针对大语言模型(LLM)优化的CUDA库，提供了FlashAttention-3的高效实现。该项目支持TF32模式，显著提升性能，主要用于加速LLM的训练和推理过程。开发者可以轻松集成这些核心，为构建高性能AI应用提供强大的基础支持。CUTLASS Kernels需要配合NVIDIA的CUTLASS项目使用，为LLM开发提供了关键的性能优化工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号