#GPU优化
fastai - 一个为从业者提供快速提供在标准深度学习领域中提供最先进的高级组件,并提供可以混合和匹配的低级组件构建新方法的深度学习库
Github开源项目PyTorch深度学习计算机视觉fastaiGPU优化
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。
dataloader - 适用于 TensorFlow、PyTorch 和 JAX 的 GPU 优化数据加载器
Github开源项目PyTorchTensorFlow推荐系统GPU优化Merlin Dataloader
Merlin Dataloader 提供适用于 TensorFlow、PyTorch 和 JAX 的 GPU 优化数据加载器,大幅提升推荐模型的训练速度。优势包括速度提升超10倍、支持大于内存的数据集、每个周期的数据随机化及分布式训练。这些特点使其成为高效训练推荐模型的理想工具。
CogDL - 应用于节点分类、图分类等任务的图深度学习工具包
Github开源项目GPU优化自动机器学习CogDL图深度学习GNN
CogDL是一个应用于节点分类、图分类等任务的图深度学习工具包。它具备高效性、易用性和可扩展性的特点,通过提供优化的操作符加快训练速度并节省GPU内存。CogDL还提供易用的API,并支持广泛的模型和数据集。最新版新增了图自监督学习示例和混合精度训练功能,适用于多种图神经网络分析任务。
awesome-tensor-compilers - 编译深度学习与张量计算的开源项目与研究综述
Github开源项目GPU优化机器学习编译器Tensor Computation深度学习编译器自动调优
本页面汇集了关于张量计算与深度学习的优质开源编译器项目和研究论文,包括编译器与中间表示(IR)设计、自动调优与自动调度、CPU和GPU优化、NPU优化、图级优化、动态模型、图神经网络、分布式计算、量化方法、稀疏计算、程序改写以及验证与测试等领域的内容。页面还提供相关教程资源,帮助开发者和研究人员优化机器学习和深度学习的编译性能。
CUDA-GEMM-Optimization - CUDA实现的GEMM优化与性能分析
Github开源项目GPU优化CUDA矩阵乘法GEMM性能分析
该项目展示了一系列针对通用矩阵乘法(GEMM)的CUDA内核优化实现。内容涵盖从基础到高度优化的多个GEMM内核版本,并提供了详细的性能分析。这些内核适用于任意矩阵大小,并针对NVIDIA GeForce RTX 3090 GPU进行了参数调优。项目包含Docker环境配置说明、编译运行指南,以及FP32和FP16 GEMM的性能对比,直观展示了不同优化技术对性能的影响。
Megatron-LM - 优化GPU训练技术 加速大规模Transformer模型
Github开源项目分布式训练大语言模型GPU优化Megatron-LMMegatron-Core
Megatron-LM框架利用GPU优化技术实现Transformer模型的大规模训练。其Megatron-Core组件提供模块化API和系统优化,支持自定义模型训练。该项目可进行BERT、GPT、T5等模型预训练,支持数千GPU分布式训练百亿参数级模型,并提供数据预处理、模型评估和下游任务功能。
BLoRA - 批量处理多个LoRA模型以提升GPU利用率
Github开源项目语言模型批处理LoRAGPU优化推理
BLoRA项目开发了一种新技术,通过在同一批次中处理多个LoRA模型的推理来提高GPU利用率。该技术支持同时加载多个LoRA适配器,并在单一基础模型上进行并行推理。BLoRA不仅优化了计算效率,还为开发者提供了在不同任务间灵活切换模型行为的工具。这一简单而直观的实现为大规模语言模型的应用创造了新机会。
lightplane - 内存高效的神经3D场景渲染框架
Github开源项目GPU优化内存效率3D渲染Lightplane神经场景表示
Lightplane是一个内存高效的神经3D场景渲染框架,包含可微分辐射场渲染器和特征投影模块。它能以不到1GB的GPU内存渲染全高清图像批次,保持与现有方法相当的渲染和反向传播速度。框架包含Lightplane渲染器和投影器两个主要组件,均采用优化的GPU内核实现。Lightplane具有高内存效率和可扩展性,易于扩展和使用,能显著提升神经场方法的应用规模。
Polygeist - 优化C/C++代码性能与可移植性的MLIR编译框架
Github开源项目GPU优化编译器LLVMMLIRPolygeist
Polygeist是一个先进的编译框架,将C/C++代码转换为MLIR的多面体表示。它实现了自动代码优化、并行化和GPU转译,有效提升代码性能和可移植性。该项目集成了CUDA和ROCm后端,并与LLVM、MLIR和Clang紧密结合,为开发人员提供了强大的工具链以优化现有代码。Polygeist主要应用于高性能计算、自动并行化和跨平台开发领域。
HybridBackend - 异构集群上的高性能推荐系统训练框架
Github开源项目深度学习框架推荐系统GPU优化嵌入层HybridBackend
HybridBackend是一个为异构集群设计的高性能推荐系统训练框架。它优化了分类数据加载、GPU嵌入层处理和大规模训练通信,提高了wide-and-deep模型的训练效率。该框架兼容现有AI工作流,提供多种安装选项和完善的文档。HybridBackend采用开源Apache 2.0许可证,支持社区贡献。
The-Forge - 跨平台渲染框架简化游戏引擎开发
Github开源项目GPU优化游戏开发图形引擎The Forge跨平台渲染框架
The Forge是一个跨平台渲染框架,支持Windows、Android、iOS、macOS等平台。它提供描述符管理、多线程资源加载、着色器反射等核心图形功能,可用于构建次世代游戏引擎。框架还包含Lua脚本、动画、数学库等模块,使开发者能快速搭建游戏引擎。最新版本引入了大规模粒子系统和可见性缓冲优化等特性,持续提升性能。
glm-4-9b-chat-1m-GGUF - 基于GLM-4的轻量级中文对话模型量化版本
Github开源项目大语言模型模型量化模型GPU优化HuggingfaceGGUFGLM-4
该项目基于GLM-4-9b-chat-1m模型开发,通过llama.cpp实现多种精度的模型量化。从18GB的F16版本到4GB的IQ2版本,提供了丰富的量化选项。项目中包含详细的性能对比和部署建议,方便开发者根据硬件条件选择合适的量化版本进行本地化部署。
相关文章
CogDL:一个全面的图深度学习库
3 个月前
DataLoader: 高效数据加载工具的全面介绍
3 个月前
深度学习编译器的革命: awesome-tensor-compilers项目解析
3 个月前
CUDA-GEMM 优化技术:提升矩阵乘法性能的深度探索
3 个月前
Megatron-LM: 大规模训练Transformer模型的开源框架
3 个月前
BLoRA: 如何利用批处理LoRA技术提升大语言模型推理效率
3 个月前
Lightplane:高效内存的神经3D场景渲染新技术
3 个月前
Polygeist: 提升C/C++到多面体MLIR的革命性编译器前端
3 个月前
HybridBackend:高性能广深推荐系统训练框架
3 个月前