#分布式训练
Megatron-DeepSpeed - 分布式训练框架助力大规模语言模型预训练
Megatron-DeepSpeed分布式训练预处理数据GPT预训练DeepSpeed配置Github开源项目
Megatron-DeepSpeed是一个集成DeepSpeed的大规模语言模型预训练框架。它支持多GPU和多节点分布式训练,提供数据预处理、预训练、微调和下游任务评估等完整流程。该框架针对BERT、GPT等模型优化,实现高效大规模训练。集成DeepSpeed的流水线并行和ZeRO-DP技术,进一步提升训练效率和灵活性。
cookbook - EleutherAI深度学习实践指南与资源库
深度学习模型训练Transformer分布式训练EleutherAIGithub开源项目
EleutherAI的Cookbook项目是一个综合性深度学习资源库,涵盖从基础到高级的实用工具和知识。项目提供参数计算器、基准测试工具和精选阅读清单,内容包括transformer基础、分布式训练和最佳实践等主题。此外,还收录了多个简化版教学代码库,便于学习和理解。这个资源库适合各级深度学习从业者使用,有助于提升相关技能和知识。
mlforecast - 高性能可扩展的机器学习时间序列预测框架
MLForecast时间序列预测机器学习特征工程分布式训练Github开源项目
mlforecast是一个基于机器学习模型的时间序列预测框架,具有高效的特征工程实现和良好的可扩展性。该框架支持pandas、polars、spark等多种数据格式,兼容sklearn API,能够处理海量数据。除了支持概率预测和外生变量,mlforecast还提供分布式训练功能,适用于大规模生产环境的时间序列预测任务。框架采用熟悉的fit和predict接口,便于快速上手和集成到现有项目中。
veScale - 基于PyTorch的大规模语言模型训练框架
PyTorchLLM训练框架分布式训练并行计算模型执行Github开源项目
veScale是一个基于PyTorch的大规模语言模型训练框架,专为简化LLM训练过程而设计。它支持零代码修改、单设备抽象和自动并行规划,实现了张量并行、序列并行和数据并行等多种策略。框架还提供自动检查点重分片和nD分布式时间线功能,大幅提升了训练效率。作为一个持续发展的项目,veScale计划在未来引入更多先进功能,为研究人员和开发者提供全面的LLM训练解决方案。
PARL - 灵活高效的强化学习开源框架
PARL强化学习并行计算分布式训练深度学习Github开源项目
PARL是一个开源的强化学习框架,专注于提供高效、灵活的开发环境。该框架具有良好的可复现性、大规模训练支持、高可重用性和易扩展性。PARL基于Model、Algorithm和Agent三个核心抽象,并提供简洁的分布式训练API。框架支持DQN、DDPG、SAC等多种算法实现,在多个强化学习挑战赛中表现出色。PARL适用于各类复杂任务的智能体训练,为强化学习研究和应用提供了有力工具。
HandyRL - 高效实用的分布式强化学习框架
HandyRL强化学习分布式训练离线策略修正PyTorchGithub开源项目
HandyRL是一个基于Python和PyTorch的分布式强化学习框架,已在Kaggle竞赛中取得优异成绩。它采用离线策略修正的策略梯度算法和学习者-工作者架构,支持自定义环境和大规模训练。HandyRL的高并行能力和实用性使其在竞争性游戏AI开发中表现出色,能够快速训练出强大的AI模型。
llms_tool - 多功能大语言模型训练测试工具包
HuggingFace大语言模型预训练RLHF分布式训练Github开源项目
llms_tool是一个基于HuggingFace的大语言模型工具包,支持多种模型的训练、测试和部署。它提供预训练、指令微调、奖励模型训练和RLHF等功能,支持全参数和低参数量训练。工具包集成WebUI和终端预测界面,以及DeepSpeed分布式训练。涵盖ChatGLM、LLaMA、Bloom等主流模型,提供多种训练方法和量化选项。
DeepRec - 基于TensorFlow的推荐系统框架 支持万亿级训练和优化
DeepRec深度学习框架推荐系统分布式训练模型优化Github开源项目
DeepRec是一个基于TensorFlow的推荐系统深度学习框架。它支持万亿级样本和参数的分布式训练,提供嵌入变量、优化器等关键功能。该框架在CPU和GPU平台上进行了性能优化,包括运行时、算子和图级优化。DeepRec还支持增量检查点、分布式服务和在线学习等部署功能,为大规模推荐模型提供全面解决方案。
相关文章