Logo

#GPU优化

HybridBackend:高性能广深推荐系统训练框架

2 个月前
Cover of HybridBackend:高性能广深推荐系统训练框架

Lightplane:高效内存的神经3D场景渲染新技术

2 个月前
Cover of Lightplane:高效内存的神经3D场景渲染新技术

Megatron-LM: 大规模训练Transformer模型的开源框架

2 个月前
Cover of Megatron-LM: 大规模训练Transformer模型的开源框架

深度学习编译器的革命: awesome-tensor-compilers项目解析

2 个月前
Cover of 深度学习编译器的革命: awesome-tensor-compilers项目解析

CogDL:一个全面的图深度学习库

2 个月前
Cover of CogDL:一个全面的图深度学习库

Polygeist: 提升C/C++到多面体MLIR的革命性编译器前端

2 个月前
Cover of Polygeist: 提升C/C++到多面体MLIR的革命性编译器前端

BLoRA: 如何利用批处理LoRA技术提升大语言模型推理效率

2 个月前
Cover of BLoRA: 如何利用批处理LoRA技术提升大语言模型推理效率

CUDA-GEMM 优化技术:提升矩阵乘法性能的深度探索

2 个月前
Cover of CUDA-GEMM 优化技术:提升矩阵乘法性能的深度探索

DataLoader: 高效数据加载工具的全面介绍

2 个月前
Cover of DataLoader: 高效数据加载工具的全面介绍

相关项目

Project Cover
fastai
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。
Project Cover
dataloader
Merlin Dataloader 提供适用于 TensorFlow、PyTorch 和 JAX 的 GPU 优化数据加载器,大幅提升推荐模型的训练速度。优势包括速度提升超10倍、支持大于内存的数据集、每个周期的数据随机化及分布式训练。这些特点使其成为高效训练推荐模型的理想工具。
Project Cover
CogDL
CogDL是一个应用于节点分类、图分类等任务的图深度学习工具包。它具备高效性、易用性和可扩展性的特点,通过提供优化的操作符加快训练速度并节省GPU内存。CogDL还提供易用的API,并支持广泛的模型和数据集。最新版新增了图自监督学习示例和混合精度训练功能,适用于多种图神经网络分析任务。
Project Cover
awesome-tensor-compilers
本页面汇集了关于张量计算与深度学习的优质开源编译器项目和研究论文,包括编译器与中间表示(IR)设计、自动调优与自动调度、CPU和GPU优化、NPU优化、图级优化、动态模型、图神经网络、分布式计算、量化方法、稀疏计算、程序改写以及验证与测试等领域的内容。页面还提供相关教程资源,帮助开发者和研究人员优化机器学习和深度学习的编译性能。
Project Cover
CUDA-GEMM-Optimization
该项目展示了一系列针对通用矩阵乘法(GEMM)的CUDA内核优化实现。内容涵盖从基础到高度优化的多个GEMM内核版本,并提供了详细的性能分析。这些内核适用于任意矩阵大小,并针对NVIDIA GeForce RTX 3090 GPU进行了参数调优。项目包含Docker环境配置说明、编译运行指南,以及FP32和FP16 GEMM的性能对比,直观展示了不同优化技术对性能的影响。
Project Cover
Megatron-LM
Megatron-LM框架利用GPU优化技术实现Transformer模型的大规模训练。其Megatron-Core组件提供模块化API和系统优化,支持自定义模型训练。该项目可进行BERT、GPT、T5等模型预训练,支持数千GPU分布式训练百亿参数级模型,并提供数据预处理、模型评估和下游任务功能。
Project Cover
BLoRA
BLoRA项目开发了一种新技术,通过在同一批次中处理多个LoRA模型的推理来提高GPU利用率。该技术支持同时加载多个LoRA适配器,并在单一基础模型上进行并行推理。BLoRA不仅优化了计算效率,还为开发者提供了在不同任务间灵活切换模型行为的工具。这一简单而直观的实现为大规模语言模型的应用创造了新机会。
Project Cover
lightplane
Lightplane是一个内存高效的神经3D场景渲染框架,包含可微分辐射场渲染器和特征投影模块。它能以不到1GB的GPU内存渲染全高清图像批次,保持与现有方法相当的渲染和反向传播速度。框架包含Lightplane渲染器和投影器两个主要组件,均采用优化的GPU内核实现。Lightplane具有高内存效率和可扩展性,易于扩展和使用,能显著提升神经场方法的应用规模。
Project Cover
Polygeist
Polygeist是一个先进的编译框架,将C/C++代码转换为MLIR的多面体表示。它实现了自动代码优化、并行化和GPU转译,有效提升代码性能和可移植性。该项目集成了CUDA和ROCm后端,并与LLVM、MLIR和Clang紧密结合,为开发人员提供了强大的工具链以优化现有代码。Polygeist主要应用于高性能计算、自动并行化和跨平台开发领域。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号