#FlashAttention-3

CUTLASS: 高性能CUDA线性代数库

2024年09月05日

CUTLASS FlashAttention-3 GPU加速深度学习 CUDA Github 开源项目

2024年09月05日

相关项目

cutlass-kernels

CUTLASS Kernels是一个针对大语言模型(LLM)优化的CUDA库，提供了FlashAttention-3的高效实现。该项目支持TF32模式，显著提升性能，主要用于加速LLM的训练和推理过程。开发者可以轻松集成这些核心，为构建高性能AI应用提供强大的基础支持。CUTLASS Kernels需要配合NVIDIA的CUTLASS项目使用，为LLM开发提供了关键的性能优化工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com