🔥 功能特性
- 可以从手机或笔记本电脑监控运行中的实验
- 使用单行命令监控任意计算机上的硬件使用情况
- 集成只需两行代码(见下文示例)
- 记录包括git提交、配置和超参数等信息在内的实验进展
- 提供自定义可视化的API
- 训练进度的精美日志
- 开源!
托管实验服务器
先决条件
要安装 MongoDB
,请参阅官方文档 这里。
安装
使用pip安装软件包:
pip install labml-app
启动服务器
# 在默认端口(5005)启动服务器
labml app-server
# 若使用不同端口启动服务器,请使用以下命令
labml app-server --port 端口号
可选:要在服务器中设置和配置Nginx,请参阅 this。
您可以通过访问 http://localhost:{port}
或者,如果在不同机器上配置,通过导航至 http://{server-ip}:{port}
来访问用户界面。
监控实验
安装
- 使用pip安装软件包。
pip install labml
- 在项目文件夹的顶层创建一个名为
.labml.yaml
的文件,并将以下内容添加到该文件:
app_url: http://localhost:{port}/api/v1/default
# 如果是在不同机器上设置项目,请改用以下行,
app_url: http://{server-ip}:{port}/api/v1/default
PyTorch示例
from labml import tracker, experiment
with experiment.record(name='sample', exp_conf=conf):
for i in range(50):
loss, accuracy = train()
tracker.save(i, {'loss': loss, 'accuracy': accuracy})
分布式训练示例
from labml import tracker, experiment
uuid = experiment.generate_uuid() # 确保在每个机器上同步此UUID
experiment.create(uuid=uuid,
name='distributed training sample',
distributed_rank=0,
distributed_world_size=8,
)
with experiment.start():
for i in range(50):
loss, accuracy = train()
tracker.save(i, {'loss': loss, 'accuracy': accuracy})
📚 文档
指南
🖥 截图
格式化的训练循环输出
基于Tensorboard日志的自定义可视化
监控硬件使用情况
# 安装软件包和依赖项
pip install labml psutil py3nvml
# 开始监控
labml monitor
引用
如果您在学术研究中使用LabML,请使用以下 BibTeX 条目引用该库。
@misc{labml,
author = {Varuna Jayasiri, Nipun Wijerathne, Adithya Narasinghe, Lakshith Nishshanke},
title = {labml.ai: A library to organize machine learning experiments},
year = {2020},
url = {https://labml.ai/},
}