#大模型训练

higgsfield - 高容错且可扩展的GPU调度与机器学习框架
Github开源项目深度学习分布式计算HiggsfieldGPU管理大模型训练
Higgsfield是一款开源、高容错、可扩展的GPU调度与机器学习框架,适用于数十亿到数万亿参数的模型(如大型语言模型)。它的主要功能包括分配计算资源、支持高效分片、启动和监控大规模神经网络训练、管理资源竞争,并通过与GitHub的集成实现持续集成。Higgsfield简化了大规模模型训练的流程,提供了多样且强大的开发工具。
Firefly - 开源大模型训练平台
Github开源项目预训练指令微调QLoRA大模型训练Firefly
Firefly作为一个开源大模型训练工具,提供预训练、指令微调和DPO的全面解决方案。支持LoRA、QLoRA等高效训练技术,并涵盖多种主流大模型如Qwen2、Yi-1.5,特别适合显存和资源有限的环境。项目不仅开源多种数据集,还在Open LLM排行榜中展示了QLoRA训练的高效性,并与Unsloth合作,进一步优化了训练效率和显存使用。
bce-qianfan-sdk - AI大模型推理与训练
Github开源项目SDK大模型训练大模型推理百度千帆大模型平台通用与扩展
千帆 SDK 提供访问和使用千帆大模型平台的工具链。核心功能包括:大模型推理(ERNIE系列等)、大模型训练(从数据处理到模型托管),以及通用和扩展功能(Prompt、Debug、Client工具)。支持 Python、Go、Java 和 JavaScript 多种语言,便于用户在多语言环境下快速集成和使用,提升AI工作流效率。
CoLLiE - 通过协作优化和多并行策略,便捷实现大模型训练
Github开源项目大模型训练CoLLiE高效优化器并行策略GPU显存占用
CoLLiE工具箱提供高效的大型语言模型训练解决方案,涵盖数据预处理、模型微调、训练监测功能。支持多种并行策略和优化器,兼容MOSS、InternLM、LLaMA等主流模型,适合各类用户快速上手及专业定制。
BMTrain - 分布式大规模深度学习模型训练优化工具
Github开源项目分布式训练性能优化大模型训练BMTrainZeRO优化
BMTrain是一款为大规模深度学习模型设计的分布式训练工具。它能够支持训练包含数十亿参数的模型,并保持代码简洁性。该工具集成了ZeRO优化和通信优化等技术,可提高训练效率和显存利用率。BMTrain与PyTorch兼容,仅需少量代码调整即可实现分布式训练。在13B参数的GPT-2模型训练中,BMTrain展现出优越性能。