项目介绍:neptune-client
Neptune 是一个专为团队设计的高扩展性实验跟踪工具,它可以帮助训练基础模型的团队更好地管理他们的工作流。在模型训练过程中,不同的实验可能涉及到成千上万次的运行,Neptune 能够快速地记录、查看和比较这些运行,并让用户轻松地监控和可视化长时间、多步骤的模型训练。
主要功能
记录和展示
Neptune 可以集成到任何机器学习流水线中,并支持 Fastai、PyTorch、TensorFlow/Keras、scikit-learn 等多种框架。用户只需在代码中插入一段跟踪代码,即可记录任何形式的元数据,如指标、参数、数据集和模型版本、图片、交互式图表、视频,以及硬件状态(GPU、CPU、内存)。不论是在线数据还是离线数据都能同步。
组织实验
Neptune 提供灵活的 API,允许用户根据需求自定义记录元数据的结构,可以根据参数配置或 k 折验证的结果来组织实验数据。此外,Neptune 支持自定义仪表盘和表格视图,用于查看不同元数据类型,并用于调试训练速度或模型质量。
比较结果
在 Neptune 的 web app 中,用户实时查看训练情况,通过不同参数和配置的影响来优化模型。它支持按学习曲线、参数、图像和数据集进行比较,并可通过查询语言来过滤和排序实验。
版本模型
Neptune 提供模型版本控制,用户可以在一个地方查看、分享生产就绪的模型及其相关的元数据。
共享结果
整个团队可以通过 Neptune 的 API 访问所有模型和实验的元数据,用户还可以发送链接分享图表、仪表盘和表格视图,这使得每个团队成员都能较好地参与到项目中。
简易上手
用户可以通过以下步骤快速上手:
- 创建一个 免费账户
- 安装 Neptune 客户端库
pip install neptune
- 添加实验跟踪代码片段到你的代码中:
import neptune run = neptune.init_run(project="workspace-name/project-name") run["parameters"] = {"lr": 0.1, "dropout": 0.4} run["test_accuracy"] = 0.84
与 MLOps 堆栈集成
Neptune 支持与超过 25 种框架的集成,比如 PyTorch、LightNG、TensorFlow/Keras、XGBoost 等。用户可以轻松地将其集成到现有的 MLOps 工作流中,获取更强大的实验跟踪能力。
支持与用户反馈
如果用户在使用中遇到任何问题,可以通过 Neptune 的 FAQ 页面获取帮助,或者访问他们的 资源中心。此外,用户也可以通过应用内聊天功能或发送电子邮件至 support@neptune.ai 与 Neptune 团队取得联系。
背后的团队
Neptune 是由 neptune.ai 团队 创造的,他们致力于通过创新来帮助科研人员和企业提高工作效率。