项目介绍:Determined
Determined 是一个功能齐全的深度学习平台,兼容 PyTorch 和 TensorFlow。这个平台专注于以下几个关键方面:
- 分布式训练:加快模型训练速度。
- 超参数调优:帮助用户找到最佳模型参数。
- 资源管理:有效管理资源,降低云 GPU 成本。
- 实验跟踪:支持分析和结果的可重复性。
如何使用 Determined
Determined 由三个主要组件组成:Python 库、命令行接口(CLI)和 Web UI。
Python 库
通过使用 Determined 的 Python 库,用户可以使现有的 PyTorch 或 Tensorflow 代码与平台兼容。使用者只需将代码组织到基于类的 API 中,或是通过 Core API 只调用所需的功能。
例如,使用 PyTorch:
from determined.pytorch import PyTorchTrial
class YourExperiment(PyTorchTrial):
def __init__(self, context):
...
此外,还可以使用 Core API:
import determined as det
with det.core.init() as core_context:
...
命令行接口(CLI)
CLI 提供了便捷的操作方式,用户可以:
- 本地启动 Determined 集群:
det deploy local cluster-up
- 在云服务(如 AWS 或 GCP)上启动集群:
det deploy aws up
- 启动模型训练:
det experiment create gpt.yaml .
通过 YAML 文件来自定义分布式训练和超参数调优等操作。 示例 YAML 配置:
resources:
slots_per_trial: 8
priority: 1
hyperparameters:
learning_rate:
type: double
minval: .0001
maxval: 1.0
searcher:
name: adaptive_asha
metric: validation_loss
smaller_is_better: true
Web UI
Web UI 为用户提供了一个直观的界面,用于查看损失曲线、超参数图表、代码和配置快照、模型注册、集群利用情况、调试日志、性能分析报告等。
安装步骤
要安装 Determined 的 CLI,可以使用以下命令:
pip install determined
安装完毕后,通过 det deploy
启动本地或云服务上的 Determined 集群。
示例与文档
用户可以通过30多个示例来熟悉 Determined 的使用,这些示例可在 Determined 的代码示例库中找到。此外,还有详细的使用文档和教程,帮助用户快速上手和了解更多高级功能。
社区与支持
有需要帮助、报告问题或希望获得最新项目消息的用户可加入 Determined 社区:
- 在 Slack 上向社区提问或获得支持。
- 通过 YouTube 和 Twitter 关注 Determined 的最新动态。
- 加入社区邮件列表获取项目交流和公告。
- 在 GitHub 上提交 issue,报告项目或安全问题。
贡献与许可证
Determined 欢迎社区贡献,并提供了详细的贡献指南。该项目采用 Apache V2 协议授权,保障其开源社区的良性发展。