whylogs: 开源数据日志库的全面介绍

Ray

whylogs

whylogs简介

whylogs是一个开源的数据日志库,旨在为任何类型的数据提供标准化的日志记录方法。它允许用户生成数据集的统计摘要(称为whylogs profiles),这些profiles可以用于:

  1. 跟踪数据集的变化
  2. 创建数据约束条件,以验证数据是否符合预期
  3. 快速可视化数据集的关键统计信息

这些功能为数据科学家、机器学习工程师和数据工程师提供了多种用例:

  • 检测模型输入特征的数据漂移
  • 检测训练-服务偏差、概念漂移和模型性能下降
  • 验证模型输入或数据管道中的数据质量
  • 对大型数据集进行探索性数据分析
  • 跟踪ML实验的数据分布和数据质量
  • 实现跨组织的数据审计和治理
  • 标准化跨组织的数据文档实践

whylogs profiles

whylogs profiles是whylogs库的核心。它们捕获数据的关键统计属性,如分布(远超简单的均值、中位数和标准差度量)、缺失值数量以及广泛的可配置自定义指标。通过捕获这些统计摘要,我们能够准确地表示数据并实现前述的所有用例。

whylogs profiles具有三个理想的数据日志记录属性:

  1. 高效: whylogs profiles高效地描述它们所代表的数据集。这种高保真度的数据集表示使得whylogs profiles成为数据的有效快照。

  2. 可定制: whylogs profiles收集的统计信息易于配置和定制。这很有用,因为不同的数据类型和用例需要不同的指标,而whylogs用户需要能够轻松为这些指标定义自定义跟踪器。

  3. 可合并: whylogs profiles最强大的特性之一是它们的可合并性。这意味着whylogs profiles可以组合在一起,形成新的profiles,代表其组成profiles的集合。这使得分布式和流式系统的日志记录成为可能,并允许用户查看任何时间粒度的聚合数据。

使用whylogs

安装whylogs后,在Python和Java环境中都可以轻松生成profiles。以下是在Python中从Pandas数据框生成profile的简单示例:

import whylogs as why
import pandas as pd

# 数据框
df = pd.read_csv("path/to/file.csv")
results = why.log(df)

生成whylogs profiles后,您可以:

  • 在本地Python环境中设置数据约束或可视化profiles
  • 将profiles发送到WhyLabs平台进行监控和可观察性分析

数据约束

whylogs profiles的一个强大功能是数据约束,它使您能够快速轻松地验证数据是否符合预期。您可以在数据上设置多种类型的约束(例如数值数据始终在特定范围内,文本数据始终采用JSON格式等)。如果数据集不满足约束条件,您可以使单元测试或CI/CD管道失败。

Profile可视化

除了自动获得潜在数据问题的通知外,手动检查数据也很有用。使用profile可视化器,您可以直接在Jupyter notebook环境中生成有关profiles的交互式报告(单个profile或比较多个profiles)。这支持探索性数据分析、数据漂移检测和数据可观察性。

支持的数据类型

whylogs支持结构化和非结构化数据,具体包括:

  • 表格数据
  • 图像数据
  • 文本数据
  • 嵌入向量
  • 其他数据类型(可根据需求扩展)

集成

whylogs可以无缝地与数据和ML管道中的不同工具交互。目前已经构建了与以下工具的集成:

  • AWS S3
  • Apache Airflow
  • Apache Spark
  • MLflow
  • GCS

等等。

通过whylogs,用户可以全面监控和分析他们的数据和机器学习模型,确保数据质量,检测异常,并优化模型性能。它为现代数据科学和机器学习工作流程提供了必不可少的工具。

avatar
0
0
0
最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号