相关项目
DataProfiler
DataProfiler是一个Python库,用于简化数据分析、监控与敏感数据检测。通过单一命令加载数据并自动格式化为DataFrame,支持模式识别、统计分析及实体识别(PII/NPI)。带有预训练的深度学习模型,可高效识别敏感数据,并允许用户添加新的实体识别管道。支持CSV、AVRO、Parquet等多种数据格式,提供便捷的数据处理解决方案。
whylogs
whylogs是一款开源数据日志库,可生成数据集摘要(whylogs profiles)。它能追踪数据变化、设置约束条件、快速可视化关键统计信息。whylogs profiles具有高效、可定制、可合并的特点,支持多种数据类型。该库集成了AWS S3、Apache Airflow等工具,可用于数据漂移检测、质量验证和探索性分析等任务,为数据科学家和工程师提供有力支持。