热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#FlashAttention-3
CUTLASS: 高性能CUDA线性代数库
2 个月前
CUTLASS是NVIDIA开发的CUDA C++模板库,用于实现高性能矩阵乘法(GEMM)和相关计算。它提供了灵活的、模块化的组件,可以用于构建自定义的高效CUDA内核。
CUTLASS
FlashAttention-3
GPU加速
深度学习
CUDA
Github
开源项目
2 个月前
相关项目
cutlass-kernels
CUTLASS Kernels是一个针对大语言模型(LLM)优化的CUDA库,提供了FlashAttention-3的高效实现。该项目支持TF32模式,显著提升性能,主要用于加速LLM的训练和推理过程。开发者可以轻松集成这些核心,为构建高性能AI应用提供强大的基础支持。CUTLASS Kernels需要配合NVIDIA的CUTLASS项目使用,为LLM开发提供了关键的性能优化工具。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号