#GPU性能优化

MatmulTutorial：深入浅出的矩阵乘法教程

3 个月前

MatMul CUDA GPU性能优化 TensorOp MLIR Github 开源项目

3 个月前

相关项目

MatmulTutorial

MatmulTutorial项目展示了CUDA矩阵乘法的多种高性能实现,包括自定义、CuBLAS和CUTLASS等。项目通过详细的性能对比,帮助CUDA初学者理解内核设计优化。在A100 GPU上,项目实现比Relay+CUTLASS平均快1.73倍,与CuBLAS性能相当。项目还研究了MLIR生成CUDA内核,性能达到手写内核的86%。

Mistral-Large-Instruct-2407-GGUF

Mistral-Large-Instruct-2407项目提供了多种语言支持的模型量化版本。通过llama.cpp工具，用户可以根据不同的RAM和VRAM需求进行量化。文章详细介绍每种量化文件的特性与性能建议，帮助用户根据硬件条件选取适合的文件，实现模型的快速或高质量运行。推荐关注K-quant与I-quant格式文件以在性能与速度间取得平衡。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com