PyTorch原生LLM训练框架
一个易用的工业级框架
-
🔥 PyTorch原生:veScale基于PyTorch原生的数据结构、运算符和API,充分利用了PyTorch在机器学习领域的生态系统优势。
-
🛡 零模型代码改动:veScale将分布式系统设计与模型架构解耦,用户几乎无需或完全无需修改模型代码。
-
🚀 单设备抽象:veScale为用户提供单设备语义,自动在设备集群中分发和编排模型执行。
-
🎯 自动并行规划:veScale通过多种策略(张量、序列、数据、ZeRO、流水线并行)的协同,在半自动或全自动模式下并行化模型执行[即将推出]。
-
⚡ 即时与编译模式:veScale不仅支持即时模式下的并行训练和推理自动化,还支持编译模式以实现极致性能[即将推出]。
-
📀 自动检查点重分片:veScale自动管理分布式检查点,可在不同集群规模和不同并行策略间进行在线重分片。
最新动态
-
[2024-7-25] veScale的流水线并行功能开源,包括API、图解析器、阶段抽象、调度和执行运行时,以及nD分布式时间线。
-
[2024-5-31] veScale的快速检查点系统开源,具备自动检查点重分片、缓存、负载均衡、快速复制、去重和异步IO功能。
-
[2024-5-21] veScale的示例(Mixtral、LLama2和nanoGPT)开源,训练损失曲线达到逐位正确。
-
[2024-5-13] veScale在MLSys 2024以海报形式首次亮相。
-
[2024-4-16] 我们的内部LLM训练系统在NSDI 2024上发表。
即将推出
veScale仍处于早期阶段。我们正在重构内部LLM训练系统组件以满足开源标准。暂定时间表如下:
-
高级nD并行API,极易使用
-
高级用户计划API,便于定制nD并行训练
-
端到端vescale/examples,支持5D并行训练(TP、SP、DP、ZeRO、PP)
目录(网页版)
并行
规划
我们正在招聘!
许可证
veScale项目采用Apache License v2.0许可证。