Chronon: 实现 AI/ML 数据处理的便捷平台
Chronon 是一个专为人工智能和机器学习应用打造的数据平台,它能够简化数据计算和提供服务的复杂过程。用户可以借此平台从组织内的所有数据来源创建特性,包括批量表、事件流或服务,无需担心复杂的数据协调流程。
平台特点
在线服务
Chronon 提供了一种实时数据获取的API,可以获取最新的特性值。其特点包括:
- 管理批量和实时特性计算的管道,并更新至服务后端
- 低延迟的计算特性服务
- 支持高扩展性的特性集
回填计算
机器学习从业者常常需要历史特性数据来进行模型训练和评估。Chronon 的回填功能特点为:
- 适用于大时间窗口的可扩展性
- 针对高度偏斜的数据提供韧性
- 确保与在线服务一致性的准确时点数据
可观察性、监控和数据质量
Chronon 提供以下方面的可见性:
- 数据新鲜度 - 确保在线值实时更新
- 在线/离线一致性 - 确保模型训练和评估的回填数据与在线服务中观察到的一致
复杂转化和窗口聚合
Chronon 支持多种聚合类型,可通过任意窗口大小进行配置,适用于各种复杂数据的处理。
快速入门
为了帮助用户快速掌握 Chronon,平台提供了一系列的指导步骤,这些步骤引导用户如何创建训练数据集,定义特性,以及如何实施数据计算和服务。用户只需拥有 Docker 环境即可轻松开始。
Chronon 开发步骤
第一步 - 定义特性
用户可以基于输入源数据定义特性集合,例如根据用户购买和退货记录计算总和、计数和平均值,以便更好地理解用户在平台上的历史活动。
第二步 - 联合特性
接着,可以通过 Join
API 将多个特性合并到一个表中,便于模型训练。Chronon 确保联合数据按正确时间戳计算,保证特性值的一致性。
第三步 - 数据回填
在定义完联合操作后,用户可以运行计算命令得到回填数据,Chronon 确保特性值的时间准确性。
在线流程
在训练模型之后,用户可以将模型投入线上使用,此时需要从数据库中获取特性向量。Chronon 提供了一系列步骤,用于上传数据和获取特性,这包括使用 FetchJoin
和 FetchGroupby
等操作。
结论
Chronon 提供了一个集成的特性工程工作流,简化了机器学习中的数据处理与管理:
- 特性定义与应用支持在线和离线场景。
- 自动时间点校正,避免标签泄漏和不一致。
- 数据管道的协调和管理变得简单。
- 特性获取变得便捷,并且系统一致性可测。
Chronon 的设计使得任何组织的数据能够在 AI/ML 项目中得到高效利用,简化了复杂的数据基础设施问题。通过简单的 API 定义特性,Chronon 负责其余部分,实现了全面的线上/线下数据一致性保障。