Arena
查看 Arena 文档。
概述
Arena 是一个命令行界面,供数据科学家以简便的方式运行和监控机器学习训练作业并检查其结果。目前它支持单机/分布式 TensorFlow 训练。在后端,它基于 Kubernetes、Helm 和 Kubeflow。但数据科学家对 Kubernetes 只需要了解很少的知识。
同时,最终用户需要 GPU 资源和节点管理。Arena 还提供了 top
命令来检查 Kubernetes 集群中可用的 GPU 资源。
总之,Arena 的目标是让数据科学家感觉像在单台机器上工作,但实际上拥有 GPU 集群的强大功能。
中文版请参阅 中文文档
设置
您可以按照 安装指南 进行操作
用户指南
Arena 是一个命令行界面,用于以简便的方式运行和监控机器学习训练作业并检查其结果。请参阅 用户指南 来管理您的训练作业。
演示
开发
先决条件:
- Go >= 1.8
mkdir -p $(go env GOPATH)/src/github.com/kubeflow
cd $(go env GOPATH)/src/github.com/kubeflow
git clone https://github.com/kubeflow/arena.git
cd arena
make
arena
二进制文件位于 arena/bin
目录中。您可能想将该目录添加到 $PATH
中。
然后您可以按照 开发者安装指南 进行操作
CPU 性能分析
# 设置性能分析率(HZ)
export PROFILE_RATE=1000
# arena {命令} --pprof
arena list --pprof
INFO[0000] 将 CPU 性能分析文件转储到 /tmp/cpu_profile
然后您可以按照 Go CPU 性能分析:pprof 和 speedscope 分析性能文件
采用者
如果您对 Arena 感兴趣,并希望与其他人分享您的经验,我们热烈欢迎您在 ADOPTERS.md 页面上添加您的信息。我们将持续与您讨论新需求和功能设计。
常见问题
请参阅 常见问题
CLI 文档
请参阅 arena.md
路线图
参见 路线图