#分布式训练

oneflow - 用户友好且高效扩展的深度学习框架
OneFlow深度学习框架分布式训练PyTorch APICUDA支持Github开源项目
OneFlow是一款深度学习框架,提供类似PyTorch的API,支持n维并行执行的全局张量以及图编译器用于加速和部署模型。最新版本1.0.0已发布,兼容Linux和多个Python版本。用户可以通过Docker或Pip轻松安装,并利用丰富的文档和模型库快速上手,适合大型变压器模型的并行训练和计算机视觉任务。
composer - 适用于大规模模型的高效深度学习训练框架
MosaicMLComposer深度学习分布式训练PyTorchGithub开源项目
Composer 是 MosaicML 开发的开源深度学习训练库,基于 PyTorch 构建,专为大规模模型的高效训练设计。支持语言模型、扩散模型和卷积神经网络等,简化了并行化配置、数据加载、自动恢复和内存优化。该库帮助用户快速进行深度学习实验和模型训练。
FedML - 跨平台生成式AI和大型语言模型的训练与部署方案
TensorOperaTensorOpera AI联邦学习生成式AI分布式训练Github开源项目
TensorOpera AI简化了生成式AI和大型语言模型的训练与部署。通过集成的MLOps、调度器和高性能机器学习库,开发者可以在去中心化GPU、多云、边缘服务器和智能手机上经济高效地运行复杂的AI任务。TensorOpera Launch自动配对最经济的GPU资源,消除环境设置和管理难题,支持大规模训练和无服务器部署。TensorOpera Studio和Job Store帮助开发者微调和部署模型,实现高效的跨平台AI工作流。
ColossalAI - 提升大型AI模型训练的效率和可访问性
Colossal-AI大模型并行训练AI加速分布式训练人工智能Github开源项目热门
Colossal-AI致力于使大型AI模型的训练更加经济、快速且易于获取。通过支持多种并行策略,包括数据并行、流水线并行、张量并行和序列并行,Colossal-AI可以大幅提高大规模模型训练的速度。此外,还集成了异构训练和零冗余优化器技术,使得在多GPU集群上的训练过程更加高效和灵活。Colossal-AI通过这些先进的功能,已被广泛应用于生产和研究场景,显著推动了AI技术的进步和应用。
training-operator - Kubernetes原生的分布式机器学习训练解决方案
KubeflowTraining OperatorKubernetes机器学习分布式训练Github开源项目
Kubeflow Training Operator是一个Kubernetes原生工具,支持PyTorch、TensorFlow等多种框架的分布式训练。用户可以通过Kubernetes自定义资源API或Python SDK轻松部署和管理大规模机器学习模型的训练任务。项目还提供全面的监控设计和社区支持,是优化模型训练流程的理想工具。
llm_interview_note - 大模型面试知识与实用资源汇总
LLM大语言模型Transformer分布式训练微调Github开源项目
本仓库汇集了大语言模型(LLMs)的面试知识和实用资源,适合准备大模型面试的求职者。内容涵盖大模型基础、架构、训练数据、分布式训练、推理优化、强化学习、RAG技术、模型评估及应用案例。提供详细的知识点解析和操作指南,并附有项目示例和在线体验链接。定期更新,确保内容时效性和实用性。欢迎访问在线阅读页面,关注微信公众号获取更多相关信息。
DeepSpeed - 一个深度学习优化库,专为大规模模型训练和推理设计
DeepSpeed大规模模型训练模型压缩分布式训练模型推理Github开源项目
DeepSpeed 是一个深度学习优化软件套件,专为大规模模型训练和推理设计,能显著优化系统性能和降低成本。它支持亿级至万亿级参数的高效管理,兼容各种计算环境,从资源受限的GPU系统到庞大的GPU集群。此外,DeepSpeed 在模型压缩和推理领域亦取得创新成就,提供极低的延迟和极高的处理速率。
dgl - 图深度学习框架加速图神经网络应用与研究
DGL图神经网络深度学习大规模图分布式训练Github开源项目
DGL是一个高效易用的Python包,支持在图上执行深度学习。兼容PyTorch、Apache MXNet和TensorFlow等多种框架,提供GPU加速的图库、丰富的GNN模型示例、全面的教学材料及优化的分布式训练功能。适合从研究人员到行业专家的各类用户。广泛应用于学术及实践领域,无论是基础教学还是高级图分析,DGL均能有效支持。
llm-action - 提升AI模型训练与推理效率的高级技术与指南
LLM训练微调技术分布式训练参数高效微调LLM实战Github开源项目
llm-action项目为NVIDIA GPU和Ascend NPU上的大模型训练提供简易工具,详细介绍了LLM训练技术的高效微调和分布式技术。深入探究LLM微调实战与技术原理,并提供实际代码示例以供学习和应用。涵盖普适性框架与多模态微调专项技术,适合开发者与研究人员优化和扩展其AI模型的能力。
nanodl - 设计与训练变压器模型的Jax库
NanoDLJaxtransformer模型分布式训练深度学习Github开源项目
这是一个基于Jax的库,旨在简化变压器模型的开发和训练,特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper,涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层,包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制,支持多GPU/TPU的数据并行训练,简化数据处理。该库还包含加速的经典机器学习模型,帮助用户以最小的代码重写快速实现模型开发和训练。
lite-transformer - 现代高效的长短期注意力Transformer模型
Lite Transformer模型训练数据预处理分布式训练测试模型Github开源项目
Lite Transformer是一种结合长短期注意力机制的高效Transformer模型。它基于PyTorch开发,支持多种数据集的下载和预处理,能够在NVIDIA GPU上高效运行。模型在多个大型数据集上表现优异,并支持分布式训练和预训练模型下载。
EasyNLP - 综合性易用的NLP工具包,支持大规模预训练模型
EasyNLPNLP工具包分布式训练知识蒸馏多模态预训练模型Github开源项目
EasyNLP是一个由阿里巴巴发布的自然语言处理工具包,基于PyTorch架构,支持分布式训练和多种NLP算法。它结合知识蒸馏和少样本学习技术,支持大规模预训练模型的部署,并支持CLIP和DALLE等多模态预训练模型,与阿里云PAI平台无缝集成,提供统一的模型训练和部署框架,广泛应用于多个业务场景。
mpi-operator - 在Kubernetes上简化Allreduce式分布式训练的操作
MPI OperatorKubeflowKubernetes分布式训练安装指南Github开源项目
MPI Operator简化了在Kubernetes上运行Allreduce风格分布式训练的操作,并无缝集成到Kubeflow环境中。用户可通过简单的kubectl命令部署最新版本,并通过配置文件定义和创建MPI Job。该项目支持多节点TensorFlow训练,提供日志监控和训练进度查看功能。此外,MPI Operator与Kube-state-metrics集成,全面支持Docker镜像构建和推送。了解更多安装步骤、使用案例和贡献指南,请访问项目主页。
determined - 深度学习平台,支持分布式训练与超参数调优
Determined深度学习平台PyTorchTensorFlow分布式训练Github开源项目
Determined平台兼容PyTorch和TensorFlow,提供分布式训练、超参数调优和资源管理,降低云端GPU成本并支持实验追踪分析和可复现性。通过Python库、命令行界面和Web用户界面,用户能够轻松构建和管理模型,支持本地和云端部署,包括AWS和GCP。丰富的文档和示例帮助快速上手,通过用户指南、社区支持和贡献者指南,确保完整平台功能的利用。
polyaxon - 深度学习应用的全面管理平台
Polyaxon深度学习机器学习分布式训练超参数调优Github开源项目
Polyaxon是一个旨在提升深度学习应用开发效率的平台,提供构建、训练和监控大规模深度学习应用的解决方案。兼容主流深度学习框架如Tensorflow、MXNet和Caffe等,并支持在数据中心、云提供商或由Polyaxon托管的环境中部署。Polyaxon通过智能容器和节点管理,使GPU服务器成为团队或组织的共享资源,提升工作效率。平台还提供详细的安装和快速入门指南,支持分布式训练和超参数优化等功能。
transformers-code - 对Transformers从入门到高效微调的全方位实战指南
TransformersNLP模型训练微调分布式训练Github开源项目
课程提供丰富的实战代码和案例,从基础入门到高效微调以及低精度和分布式训练。涵盖命名实体识别、机器阅读理解和生成式对话机器人等NLP任务。帮助深入理解Transformers的核心组件和参数微调技术,包括模型优化和分布式训练。适合对Transformers应用和实践感兴趣的学习者。课程在B站和YouTube持续更新,紧跟技术前沿。
torchmetrics - 100+ PyTorch 指标实现的集合,以及一个易于使用的 API 来创建自定义指标
TorchMetricsPyTorch机器学习分布式训练度量Github开源项目
TorchMetrics提供超过100种PyTorch指标的实现,拥有易用的API和支持自定义指标的功能,优化分布式训练并减少样板代码。它支持自动批次累积和设备同步,模块化设计使得指标可以自动放置在正确的设备上,并兼容PyTorch Lightning。覆盖音频、分类、检测、图像等多个领域,并提供可视化工具,便于理解机器学习算法。
benchmark_VAE - 统一实现常见变分自编码器并提供基准比较
pythae变分自编码器分布式训练深度学习自动编码器Github开源项目
pythae库实现多种常见的变分自编码器模型,提供相同自编码神经网络架构下的基准实验和比较。用户可以用自己的数据和编码器、解码器网络训练这些模型,并集成wandb、mlflow和comet-ml等实验监控工具。最新版本支持PyTorch DDP分布式训练,提高训练速度和处理大数据集的能力。支持从HuggingFace Hub进行模型共享和加载,代码简洁高效。涵盖多种已实现模型和采样器,满足不同研究需求。
hivemind - 去中心化的分布式深度学习PyTorch库
Hivemind深度学习PyTorch分布式训练神经网络Github开源项目
Hivemind是一个基于PyTorch的去中心化深度学习库,旨在通过多台分布在不同地点的计算机共同训练大型模型。主要特点包括去中心化的分布式训练、容错反向传播、参数去中心化平均以及支持任意大小的神经网络训练。Hivemind兼容Linux、macOS和Windows系统,可通过pip或源码进行安装,并提供PyTorch Lightning集成及详尽的使用文档和示例。
petastorm - 开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据
Petastorm深度学习分布式训练Apache Parquet机器学习框架Github开源项目
Petastorm是一个开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据。该库兼容Tensorflow、PyTorch和PySpark等主流Python机器学习框架,也可用于纯Python代码。Petastorm支持多种数据压缩格式,提供方便的API用于数据生成和读取,并支持列选择、并行读取、行过滤等功能。用户可以轻松在单机或Spark集群上生成数据集,是构建高效机器学习管道的理想工具。
levanter - 专注可读性与可扩展性的大语言模型训练框架
Levanter大语言模型机器学习框架分布式训练JAXGithub开源项目
Levanter是一个用于训练大型语言模型和基础模型的框架。该框架使用Haliax命名张量库编写易读的深度学习代码,同时保持高性能。Levanter支持大型模型训练,兼容GPU和TPU等硬件。框架具有比特级确定性,保证配置一致性。其功能包括分布式训练、Hugging Face生态系统兼容、在线数据预处理缓存、Sophia优化器支持和多种日志后端。
florence2-finetuning - 视觉语言模型的高效微调实现
Florence-2微软视觉语言模型微调分布式训练Github开源项目
本项目展示了Florence-2模型的微调方法。Florence-2是一个基础视觉语言模型,特点是模型小且性能强。项目包含模型安装、数据准备和代码修改说明,并提供单GPU及分布式训练脚本。这些工具可用于Florence-2的特定任务训练,适用于各种计算机视觉和视觉语言任务。
DRLX - 强化学习框架优化扩散模型
DRLX扩散模型强化学习分布式训练Stable DiffusionGithub开源项目
DRLX是一个基于强化学习的扩散模型分布式训练库。它与Hugging Face的Diffusers库集成,支持多GPU和多节点训练。DRLX兼容Stable Diffusion等模型,实现DDPO算法训练。该库采用即插即用设计,训练模型可直接用于原始管道。DRLX集成了美学评分奖励模型和PickAPic提示词生成功能,为扩散模型研究提供了全面的工具集。
accelerate - 简化多设备PyTorch训练的框架
AcceleratePyTorch分布式训练混合精度设备管理Github开源项目
Accelerate是一个轻量级PyTorch训练框架,允许在CPU、GPU、TPU等多种设备上运行原生PyTorch脚本。它自动处理设备分配和混合精度训练,简化了分布式训练流程。研究人员和开发者可专注于模型开发,无需关注底层实现细节,从而加速AI模型的训练和部署。
OpenRLHF - 高性能强化学习框架助力大规模语言模型优化
OpenRLHFRLHF框架强化学习分布式训练模型微调Github开源项目
OpenRLHF是一款基于Ray、DeepSpeed和Hugging Face Transformers构建的高性能强化学习框架。该框架简单易用,兼容Hugging Face模型和数据集,性能优于优化后的DeepSpeedChat。它支持分布式RLHF,能够在多GPU环境下进行70B+参数模型的全规模微调。OpenRLHF集成了多项PPO实现技巧以提升训练稳定性,同时支持vLLM生成加速和多奖励模型等先进特性,为大规模语言模型优化提供了强大支持。
fairscale - 强化PyTorch大规模深度学习训练的开源库
FairScalePyTorch分布式训练大规模模型高性能计算Github开源项目
FairScale是一个开源的PyTorch扩展库,旨在提升大规模深度学习模型的训练效率。它不仅增强了PyTorch的基础功能,还引入了先进的模型扩展技术。通过提供模块化组件和简洁的API,FairScale使研究人员能够更轻松地实现分布式训练,有效应对资源受限情况下的模型扩展挑战。该库在设计时特别强调了易用性、模块化和性能优化,并支持全面分片数据并行(FSDP)等多种先进扩展技术。
apex - NVIDIA Apex加速PyTorch混合精度与分布式训练
ApexPyTorch混合精度训练分布式训练NVIDIAGithub开源项目
Apex是NVIDIA开发的PyTorch扩展库,专注于优化混合精度和分布式训练。该工具提供自动混合精度、分布式数据并行和同步批量归一化等功能,大幅提高训练效率。Apex还集成了多个CUDA优化扩展,如快速层归一化和融合优化器,进一步增强性能。作为持续更新的开源项目,Apex为PyTorch用户提供了最新的训练加速工具。
Megatron-LM - 优化GPU训练技术 加速大规模Transformer模型
Megatron-LMMegatron-Core大语言模型GPU优化分布式训练Github开源项目
Megatron-LM框架利用GPU优化技术实现Transformer模型的大规模训练。其Megatron-Core组件提供模块化API和系统优化,支持自定义模型训练。该项目可进行BERT、GPT、T5等模型预训练,支持数千GPU分布式训练百亿参数级模型,并提供数据预处理、模型评估和下游任务功能。
efficient-dl-systems - 从GPU架构到模型部署的全面课程
深度学习系统GPU架构分布式训练模型优化推理优化Github开源项目
本项目是一门全面的高效深度学习系统课程,内容涵盖GPU架构、CUDA编程、实验管理、分布式训练、大模型处理、模型部署及推理优化等核心主题。课程结合理论讲座和实践研讨,旨在培养学生掌握深度学习系统的效率优化技能。课程还提供多个实践作业和往年教学资料,适合希望深入了解深度学习系统效率提升的学习者。
BMTrain - 分布式大规模深度学习模型训练优化工具
BMTrain大模型训练分布式训练ZeRO优化性能优化Github开源项目
BMTrain是一款为大规模深度学习模型设计的分布式训练工具。它能够支持训练包含数十亿参数的模型,并保持代码简洁性。该工具集成了ZeRO优化和通信优化等技术,可提高训练效率和显存利用率。BMTrain与PyTorch兼容,仅需少量代码调整即可实现分布式训练。在13B参数的GPT-2模型训练中,BMTrain展现出优越性能。
HolisticTraceAnalysis - 高效分析分布式训练性能瓶颈的开源工具
性能分析分布式训练PyTorchGPUHolisticTraceAnalysisGithub开源项目
HolisticTraceAnalysis是一款开源性能分析工具,用于识别分布式训练中的性能瓶颈。它分析PyTorch Profiler收集的跟踪数据,提供时间分解、内核分析、通信计算重叠等功能。支持Linux和Mac系统,适用于Python 3.8及以上版本。开发者可通过该工具深入分析和优化分布式训练性能。
ModelCenter - 高效实现大规模预训练语言模型的开源工具
ModelCenter大语言模型分布式训练低资源高效实现Github开源项目
ModelCenter是一个开源的预训练语言模型实现工具。它基于OpenBMB/BMTrain后端,支持高效低资源的模型使用和分布式训练。相较于其他框架,ModelCenter在代码封装、环境配置、内存利用和训练速度等方面都有明显优势。该工具支持BERT、GPT、T5等多种主流预训练模型,并提供简洁易用的API接口。
Adam-mini - 减少内存消耗并提升模型效能的高效优化器
Adam-mini优化器内存效率深度学习分布式训练Github开源项目
Adam-mini是一种新型优化器,通过创新的参数分块和学习率分配方法,将内存占用比AdamW降低45%到50%,同时维持或提高模型性能。它支持多种分布式框架,可用于预训练、监督微调和RLHF等任务。Adam-mini基于Hessian结构相关原则,为大规模模型训练提供了高效解决方案。
min-max-gpt - 为大规模GPT模型训练优化的开源框架
minGPTGPU训练深度学习分布式训练大规模模型Github开源项目
min-max-gpt是一个针对大规模GPT模型训练优化的开源项目。该框架集成了muP初始化、混合精度训练、FSDP和DeepSpeed Zero-3等技术,并提供了不依赖Hugging Face的训练选项。这使得研究人员和开发者能够更灵活地控制训练过程。项目已在8块80GB A100 GPU上成功训练20B参数模型,展现了其在大规模语言模型训练方面的能力。
Determined AI - 开源深度学习平台助力模型训练和优化
AI工具深度学习模型训练GPU资源超参数调优分布式训练
Determined AI是一个开源深度学习训练平台,集成了超参数调优和分布式训练功能。该平台支持多种深度学习框架,可在云端或本地运行,提供资源管理、实验跟踪和结果可视化等功能。它能显著加快模型训练速度,提高模型精度,让研究人员更专注于模型开发而非基础设施管理,从而提升深度学习团队的整体效率。
graphstorm - 训练和部署大规模图机器学习模型的企业级框架
GraphStorm图机器学习分布式训练节点分类链接预测Github开源项目
GraphStorm是一个面向企业的图机器学习框架,能处理数十亿节点和边的超大规模图。它提供可扩展的训练和推理管道,内置多种GML模型,支持一键训练。框架还提供丰富配置选项用于自定义模型和训练流程,并支持分布式训练自定义GML模型,只需提供模型实现即可实现扩展。