NeMo框架启动器
NeMo框架启动器是一个云原生工具,用于启动端到端的NeMo框架训练任务。
更多信息请参考NeMo启动器指南。
NeMo框架专注于生成式AI模型的基础模型训练。大型语言模型(LLM)预训练通常需要大量计算和模型并行性来高效扩展训练。NeMo框架包含最新的大规模训练技术,包括:
- 模型并行
- 张量
- 流水线
- 序列
- 分布式优化器
- 混合精度训练
- FP8
- BF16
- 分布式检查点
- 社区模型
- LLAMA-2
NeMo框架模型训练可扩展到数千个GPU,可用于对数万亿个标记进行LLM训练。
启动器旨在成为一个简单易用的工具,用于在CSP或本地集群上启动NeMo FW训练任务。启动器通常从头节点使用,只需要最小的Python安装。
启动器将生成并启动集群调度器的提交脚本,并组织存储作业结果。启动器附带经过测试的配置文件,但用户可以轻松修改配置文件中的任何内容。
NeMo FW启动器经过NeMo FW容器测试,可以在此处申请。访问权限自动授予。用户还可以轻松配置启动器以使用他们想提供的任何容器镜像。
NeMo FW启动器支持:
- 集群设置和配置
- 数据下载、整理和处理
- 模型并行配置
- 模型训练
- 模型微调(SFT和PEFT)
- 模型评估
- 模型导出和部署
我们支持的一些模型包括:
- GPT
- 预训练、微调、SFT、PEFT
- BERT
- T5/MT5
- PEFT、MoE(非专家)
更多详情请参见功能矩阵。
安装
NeMo框架启动器应该安装在头节点或本地机器的虚拟Python环境中。
git clone https://github.com/NVIDIA/NeMo-Framework-Launcher.git
cd NeMo-Framework-Launcher
pip install -r requirements.txt
使用
开始使用NeMo框架启动器的最佳方式是学习NeMo框架操作手册
在.yaml
文件中配置好所有内容后,可以使用以下命令运行启动器:
python main.py
由于启动器使用Hydra,任何配置都可以直接在.yaml
文件中或通过命令行覆盖。有关更多信息,请参阅Hydra的覆盖语法。
贡献
欢迎贡献!
要为NeMo框架启动器做出贡献,只需在GitHub上创建一个包含更改的拉取请求。拉取请求经NeMo FW开发人员审核、批准并通过单元和CI测试后,将被合并。
许可证
NeMo框架启动器采用Apache 2.0许可证授权