#分布式训练

oneflow - 用户友好且高效扩展的深度学习框架

OneFlow深度学习框架分布式训练PyTorch APICUDA支持Github开源项目

OneFlow是一款深度学习框架，提供类似PyTorch的API，支持n维并行执行的全局张量以及图编译器用于加速和部署模型。最新版本1.0.0已发布，兼容Linux和多个Python版本。用户可以通过Docker或Pip轻松安装，并利用丰富的文档和模型库快速上手，适合大型变压器模型的并行训练和计算机视觉任务。

composer - 适用于大规模模型的高效深度学习训练框架

MosaicMLComposer深度学习分布式训练PyTorchGithub开源项目

Composer 是 MosaicML 开发的开源深度学习训练库，基于 PyTorch 构建，专为大规模模型的高效训练设计。支持语言模型、扩散模型和卷积神经网络等，简化了并行化配置、数据加载、自动恢复和内存优化。该库帮助用户快速进行深度学习实验和模型训练。

FedML - 跨平台生成式AI和大型语言模型的训练与部署方案

TensorOperaTensorOpera AI联邦学习生成式AI分布式训练Github开源项目

TensorOpera AI简化了生成式AI和大型语言模型的训练与部署。通过集成的MLOps、调度器和高性能机器学习库，开发者可以在去中心化GPU、多云、边缘服务器和智能手机上经济高效地运行复杂的AI任务。TensorOpera Launch自动配对最经济的GPU资源，消除环境设置和管理难题，支持大规模训练和无服务器部署。TensorOpera Studio和Job Store帮助开发者微调和部署模型，实现高效的跨平台AI工作流。

ColossalAI - 提升大型AI模型训练的效率和可访问性

Colossal-AI大模型并行训练AI加速分布式训练人工智能Github开源项目热门

Colossal-AI致力于使大型AI模型的训练更加经济、快速且易于获取。通过支持多种并行策略，包括数据并行、流水线并行、张量并行和序列并行，Colossal-AI可以大幅提高大规模模型训练的速度。此外，还集成了异构训练和零冗余优化器技术，使得在多GPU集群上的训练过程更加高效和灵活。Colossal-AI通过这些先进的功能，已被广泛应用于生产和研究场景，显著推动了AI技术的进步和应用。

training-operator - Kubernetes原生的分布式机器学习训练解决方案

KubeflowTraining OperatorKubernetes机器学习分布式训练Github开源项目

Kubeflow Training Operator是一个Kubernetes原生工具，支持PyTorch、TensorFlow等多种框架的分布式训练。用户可以通过Kubernetes自定义资源API或Python SDK轻松部署和管理大规模机器学习模型的训练任务。项目还提供全面的监控设计和社区支持，是优化模型训练流程的理想工具。

llm_interview_note - 大模型面试知识与实用资源汇总

LLM大语言模型Transformer分布式训练微调Github开源项目

本仓库汇集了大语言模型（LLMs）的面试知识和实用资源，适合准备大模型面试的求职者。内容涵盖大模型基础、架构、训练数据、分布式训练、推理优化、强化学习、RAG技术、模型评估及应用案例。提供详细的知识点解析和操作指南，并附有项目示例和在线体验链接。定期更新，确保内容时效性和实用性。欢迎访问在线阅读页面，关注微信公众号获取更多相关信息。

DeepSpeed - 一个深度学习优化库，专为大规模模型训练和推理设计

DeepSpeed大规模模型训练模型压缩分布式训练模型推理Github开源项目

DeepSpeed 是一个深度学习优化软件套件，专为大规模模型训练和推理设计，能显著优化系统性能和降低成本。它支持亿级至万亿级参数的高效管理，兼容各种计算环境，从资源受限的GPU系统到庞大的GPU集群。此外，DeepSpeed 在模型压缩和推理领域亦取得创新成就，提供极低的延迟和极高的处理速率。

dgl - 图深度学习框架加速图神经网络应用与研究

DGL图神经网络深度学习大规模图分布式训练Github开源项目

DGL是一个高效易用的Python包，支持在图上执行深度学习。兼容PyTorch、Apache MXNet和TensorFlow等多种框架，提供GPU加速的图库、丰富的GNN模型示例、全面的教学材料及优化的分布式训练功能。适合从研究人员到行业专家的各类用户。广泛应用于学术及实践领域，无论是基础教学还是高级图分析，DGL均能有效支持。

llm-action - 提升AI模型训练与推理效率的高级技术与指南

LLM训练微调技术分布式训练参数高效微调LLM实战Github开源项目

llm-action项目为NVIDIA GPU和Ascend NPU上的大模型训练提供简易工具，详细介绍了LLM训练技术的高效微调和分布式技术。深入探究LLM微调实战与技术原理，并提供实际代码示例以供学习和应用。涵盖普适性框架与多模态微调专项技术，适合开发者与研究人员优化和扩展其AI模型的能力。

nanodl - 设计与训练变压器模型的Jax库

NanoDLJaxtransformer模型分布式训练深度学习Github开源项目

这是一个基于Jax的库，旨在简化变压器模型的开发和训练，特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper，涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层，包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制，支持多GPU/TPU的数据并行训练，简化数据处理。该库还包含加速的经典机器学习模型，帮助用户以最小的代码重写快速实现模型开发和训练。

lite-transformer - 现代高效的长短期注意力Transformer模型

Lite Transformer模型训练数据预处理分布式训练测试模型Github开源项目

Lite Transformer是一种结合长短期注意力机制的高效Transformer模型。它基于PyTorch开发，支持多种数据集的下载和预处理，能够在NVIDIA GPU上高效运行。模型在多个大型数据集上表现优异，并支持分布式训练和预训练模型下载。

EasyNLP - 综合性易用的NLP工具包，支持大规模预训练模型

EasyNLPNLP工具包分布式训练知识蒸馏多模态预训练模型Github开源项目

EasyNLP是一个由阿里巴巴发布的自然语言处理工具包，基于PyTorch架构，支持分布式训练和多种NLP算法。它结合知识蒸馏和少样本学习技术，支持大规模预训练模型的部署，并支持CLIP和DALLE等多模态预训练模型，与阿里云PAI平台无缝集成，提供统一的模型训练和部署框架，广泛应用于多个业务场景。

mpi-operator - 在Kubernetes上简化Allreduce式分布式训练的操作

MPI OperatorKubeflowKubernetes分布式训练安装指南Github开源项目

MPI Operator简化了在Kubernetes上运行Allreduce风格分布式训练的操作，并无缝集成到Kubeflow环境中。用户可通过简单的kubectl命令部署最新版本，并通过配置文件定义和创建MPI Job。该项目支持多节点TensorFlow训练，提供日志监控和训练进度查看功能。此外，MPI Operator与Kube-state-metrics集成，全面支持Docker镜像构建和推送。了解更多安装步骤、使用案例和贡献指南，请访问项目主页。

determined - 深度学习平台，支持分布式训练与超参数调优

Determined深度学习平台PyTorchTensorFlow分布式训练Github开源项目

Determined平台兼容PyTorch和TensorFlow，提供分布式训练、超参数调优和资源管理，降低云端GPU成本并支持实验追踪分析和可复现性。通过Python库、命令行界面和Web用户界面，用户能够轻松构建和管理模型，支持本地和云端部署，包括AWS和GCP。丰富的文档和示例帮助快速上手，通过用户指南、社区支持和贡献者指南，确保完整平台功能的利用。

polyaxon - 深度学习应用的全面管理平台

Polyaxon深度学习机器学习分布式训练超参数调优Github开源项目

Polyaxon是一个旨在提升深度学习应用开发效率的平台，提供构建、训练和监控大规模深度学习应用的解决方案。兼容主流深度学习框架如Tensorflow、MXNet和Caffe等，并支持在数据中心、云提供商或由Polyaxon托管的环境中部署。Polyaxon通过智能容器和节点管理，使GPU服务器成为团队或组织的共享资源，提升工作效率。平台还提供详细的安装和快速入门指南，支持分布式训练和超参数优化等功能。

transformers-code - 对Transformers从入门到高效微调的全方位实战指南

TransformersNLP模型训练微调分布式训练Github开源项目

课程提供丰富的实战代码和案例，从基础入门到高效微调以及低精度和分布式训练。涵盖命名实体识别、机器阅读理解和生成式对话机器人等NLP任务。帮助深入理解Transformers的核心组件和参数微调技术，包括模型优化和分布式训练。适合对Transformers应用和实践感兴趣的学习者。课程在B站和YouTube持续更新，紧跟技术前沿。

torchmetrics - 100+ PyTorch 指标实现的集合，以及一个易于使用的 API 来创建自定义指标

TorchMetricsPyTorch机器学习分布式训练度量Github开源项目

TorchMetrics提供超过100种PyTorch指标的实现，拥有易用的API和支持自定义指标的功能，优化分布式训练并减少样板代码。它支持自动批次累积和设备同步，模块化设计使得指标可以自动放置在正确的设备上，并兼容PyTorch Lightning。覆盖音频、分类、检测、图像等多个领域，并提供可视化工具，便于理解机器学习算法。

benchmark_VAE - 统一实现常见变分自编码器并提供基准比较

pythae变分自编码器分布式训练深度学习自动编码器Github开源项目

pythae库实现多种常见的变分自编码器模型，提供相同自编码神经网络架构下的基准实验和比较。用户可以用自己的数据和编码器、解码器网络训练这些模型，并集成wandb、mlflow和comet-ml等实验监控工具。最新版本支持PyTorch DDP分布式训练，提高训练速度和处理大数据集的能力。支持从HuggingFace Hub进行模型共享和加载，代码简洁高效。涵盖多种已实现模型和采样器，满足不同研究需求。

hivemind - 去中心化的分布式深度学习PyTorch库

Hivemind深度学习PyTorch分布式训练神经网络Github开源项目

Hivemind是一个基于PyTorch的去中心化深度学习库，旨在通过多台分布在不同地点的计算机共同训练大型模型。主要特点包括去中心化的分布式训练、容错反向传播、参数去中心化平均以及支持任意大小的神经网络训练。Hivemind兼容Linux、macOS和Windows系统，可通过pip或源码进行安装，并提供PyTorch Lightning集成及详尽的使用文档和示例。

petastorm - 开源数据访问库，支持单机或分布式训练和评估深度学习模型，直接从Apache Parquet格式数据集中读取数据

Petastorm深度学习分布式训练Apache Parquet机器学习框架Github开源项目

Petastorm是一个开源数据访问库，支持单机或分布式训练和评估深度学习模型，直接从Apache Parquet格式数据集中读取数据。该库兼容Tensorflow、PyTorch和PySpark等主流Python机器学习框架，也可用于纯Python代码。Petastorm支持多种数据压缩格式，提供方便的API用于数据生成和读取，并支持列选择、并行读取、行过滤等功能。用户可以轻松在单机或Spark集群上生成数据集，是构建高效机器学习管道的理想工具。

levanter - 专注可读性与可扩展性的大语言模型训练框架

Levanter大语言模型机器学习框架分布式训练JAXGithub开源项目

Levanter是一个用于训练大型语言模型和基础模型的框架。该框架使用Haliax命名张量库编写易读的深度学习代码，同时保持高性能。Levanter支持大型模型训练，兼容GPU和TPU等硬件。框架具有比特级确定性，保证配置一致性。其功能包括分布式训练、Hugging Face生态系统兼容、在线数据预处理缓存、Sophia优化器支持和多种日志后端。

florence2-finetuning - 视觉语言模型的高效微调实现

Florence-2微软视觉语言模型微调分布式训练Github开源项目

本项目展示了Florence-2模型的微调方法。Florence-2是一个基础视觉语言模型，特点是模型小且性能强。项目包含模型安装、数据准备和代码修改说明，并提供单GPU及分布式训练脚本。这些工具可用于Florence-2的特定任务训练，适用于各种计算机视觉和视觉语言任务。

DRLX - 强化学习框架优化扩散模型

DRLX扩散模型强化学习分布式训练Stable DiffusionGithub开源项目

DRLX是一个基于强化学习的扩散模型分布式训练库。它与Hugging Face的Diffusers库集成，支持多GPU和多节点训练。DRLX兼容Stable Diffusion等模型，实现DDPO算法训练。该库采用即插即用设计，训练模型可直接用于原始管道。DRLX集成了美学评分奖励模型和PickAPic提示词生成功能，为扩散模型研究提供了全面的工具集。

accelerate - 简化多设备PyTorch训练的框架

AcceleratePyTorch分布式训练混合精度设备管理Github开源项目

Accelerate是一个轻量级PyTorch训练框架,允许在CPU、GPU、TPU等多种设备上运行原生PyTorch脚本。它自动处理设备分配和混合精度训练,简化了分布式训练流程。研究人员和开发者可专注于模型开发,无需关注底层实现细节,从而加速AI模型的训练和部署。

OpenRLHF - 高性能强化学习框架助力大规模语言模型优化

OpenRLHFRLHF框架强化学习分布式训练模型微调Github开源项目

OpenRLHF是一款基于Ray、DeepSpeed和Hugging Face Transformers构建的高性能强化学习框架。该框架简单易用，兼容Hugging Face模型和数据集，性能优于优化后的DeepSpeedChat。它支持分布式RLHF，能够在多GPU环境下进行70B+参数模型的全规模微调。OpenRLHF集成了多项PPO实现技巧以提升训练稳定性，同时支持vLLM生成加速和多奖励模型等先进特性，为大规模语言模型优化提供了强大支持。

fairscale - 强化PyTorch大规模深度学习训练的开源库

FairScalePyTorch分布式训练大规模模型高性能计算Github开源项目

FairScale是一个开源的PyTorch扩展库，旨在提升大规模深度学习模型的训练效率。它不仅增强了PyTorch的基础功能，还引入了先进的模型扩展技术。通过提供模块化组件和简洁的API，FairScale使研究人员能够更轻松地实现分布式训练，有效应对资源受限情况下的模型扩展挑战。该库在设计时特别强调了易用性、模块化和性能优化，并支持全面分片数据并行(FSDP)等多种先进扩展技术。

apex - NVIDIA Apex加速PyTorch混合精度与分布式训练

ApexPyTorch混合精度训练分布式训练NVIDIAGithub开源项目

Apex是NVIDIA开发的PyTorch扩展库，专注于优化混合精度和分布式训练。该工具提供自动混合精度、分布式数据并行和同步批量归一化等功能，大幅提高训练效率。Apex还集成了多个CUDA优化扩展，如快速层归一化和融合优化器，进一步增强性能。作为持续更新的开源项目，Apex为PyTorch用户提供了最新的训练加速工具。

Megatron-LM - 优化GPU训练技术加速大规模Transformer模型

Megatron-LMMegatron-Core大语言模型GPU优化分布式训练Github开源项目

Megatron-LM框架利用GPU优化技术实现Transformer模型的大规模训练。其Megatron-Core组件提供模块化API和系统优化,支持自定义模型训练。该项目可进行BERT、GPT、T5等模型预训练,支持数千GPU分布式训练百亿参数级模型,并提供数据预处理、模型评估和下游任务功能。

efficient-dl-systems - 从GPU架构到模型部署的全面课程

深度学习系统GPU架构分布式训练模型优化推理优化Github开源项目

本项目是一门全面的高效深度学习系统课程，内容涵盖GPU架构、CUDA编程、实验管理、分布式训练、大模型处理、模型部署及推理优化等核心主题。课程结合理论讲座和实践研讨，旨在培养学生掌握深度学习系统的效率优化技能。课程还提供多个实践作业和往年教学资料，适合希望深入了解深度学习系统效率提升的学习者。

BMTrain - 分布式大规模深度学习模型训练优化工具

BMTrain大模型训练分布式训练ZeRO优化性能优化Github开源项目

BMTrain是一款为大规模深度学习模型设计的分布式训练工具。它能够支持训练包含数十亿参数的模型,并保持代码简洁性。该工具集成了ZeRO优化和通信优化等技术,可提高训练效率和显存利用率。BMTrain与PyTorch兼容,仅需少量代码调整即可实现分布式训练。在13B参数的GPT-2模型训练中,BMTrain展现出优越性能。

HolisticTraceAnalysis - 高效分析分布式训练性能瓶颈的开源工具

性能分析分布式训练PyTorchGPUHolisticTraceAnalysisGithub开源项目

HolisticTraceAnalysis是一款开源性能分析工具，用于识别分布式训练中的性能瓶颈。它分析PyTorch Profiler收集的跟踪数据，提供时间分解、内核分析、通信计算重叠等功能。支持Linux和Mac系统，适用于Python 3.8及以上版本。开发者可通过该工具深入分析和优化分布式训练性能。

ModelCenter - 高效实现大规模预训练语言模型的开源工具

ModelCenter大语言模型分布式训练低资源高效实现Github开源项目

ModelCenter是一个开源的预训练语言模型实现工具。它基于OpenBMB/BMTrain后端，支持高效低资源的模型使用和分布式训练。相较于其他框架，ModelCenter在代码封装、环境配置、内存利用和训练速度等方面都有明显优势。该工具支持BERT、GPT、T5等多种主流预训练模型，并提供简洁易用的API接口。

Adam-mini - 减少内存消耗并提升模型效能的高效优化器

Adam-mini优化器内存效率深度学习分布式训练Github开源项目

Adam-mini是一种新型优化器，通过创新的参数分块和学习率分配方法，将内存占用比AdamW降低45%到50%，同时维持或提高模型性能。它支持多种分布式框架，可用于预训练、监督微调和RLHF等任务。Adam-mini基于Hessian结构相关原则，为大规模模型训练提供了高效解决方案。

min-max-gpt - 为大规模GPT模型训练优化的开源框架

minGPTGPU训练深度学习分布式训练大规模模型Github开源项目

min-max-gpt是一个针对大规模GPT模型训练优化的开源项目。该框架集成了muP初始化、混合精度训练、FSDP和DeepSpeed Zero-3等技术，并提供了不依赖Hugging Face的训练选项。这使得研究人员和开发者能够更灵活地控制训练过程。项目已在8块80GB A100 GPU上成功训练20B参数模型，展现了其在大规模语言模型训练方面的能力。

Determined AI - 开源深度学习平台助力模型训练和优化

AI工具深度学习模型训练GPU资源超参数调优分布式训练

Determined AI是一个开源深度学习训练平台，集成了超参数调优和分布式训练功能。该平台支持多种深度学习框架，可在云端或本地运行，提供资源管理、实验跟踪和结果可视化等功能。它能显著加快模型训练速度，提高模型精度，让研究人员更专注于模型开发而非基础设施管理，从而提升深度学习团队的整体效率。

graphstorm - 训练和部署大规模图机器学习模型的企业级框架

GraphStorm图机器学习分布式训练节点分类链接预测Github开源项目

GraphStorm是一个面向企业的图机器学习框架，能处理数十亿节点和边的超大规模图。它提供可扩展的训练和推理管道，内置多种GML模型，支持一键训练。框架还提供丰富配置选项用于自定义模型和训练流程，并支持分布式训练自定义GML模型，只需提供模型实现即可实现扩展。

相关文章

Article Cover

Composer: 加速深度学习模型训练的开源框架

Article Cover

FedML: 一个统一且可扩展的联邦学习开源平台

Article Cover

LLMs相关知识及面试题全面解析

Article Cover

Kubeflow Training Operator: 分布式机器学习训练的利器

Article Cover

DeepSpeed: 加速大规模深度学习模型训练和推理的开源优化库

Article Cover

DGL：深度学习在图数据上的强大工具

Article Cover

LLM-action: 大模型技术原理与实战经验分享

Article Cover

NanoDL: 基于Jax的轻量级深度学习库

Article Cover

OneFlow: 新一代深度学习框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号