Zingg 项目简介
项目背景
现代数据处理中,经常遇到多个不同源系统中存在同一客户的多项记录的问题。这些记录跨字段存在着差异,随着数据量的增加,整合它们变得愈发困难。这种情况会对客户分析造成影响,因为未能关联的基础数据会阻碍对客户终身价值、忠诚度计划或市场渠道的评估。此外,当数据仓库的维度表中出现重复项时,数据的准确性也会大打折扣。
Zingg 的解决方案
Zingg 提供了一种高效且可扩展的解决方案,以帮助数据分析工程师和数据科学家整合数据孤岛,从而建立大规模统一视图。Zingg 不仅具备概率匹配能力,也就是模糊匹配,还支持在身份识别和家庭团聚应用中的确定性匹配。
Zingg 的优势
- 多实体支持:Zingg 可以处理任何实体,如客户、患者、供应商、产品等。
- 连接多种数据源:支持本地和云文件系统、企业应用以及各种关系型、NoSQL 和云数据库。
- 大数据支持:Zingg 可以轻松扩展到大数据量的场景。
- 互动式训练数据生成:通过主动学习,Zingg 能够使用极少的训练样本实现高精度模型。
- 自定义域特定函数:提升匹配精度。
- 多语言支持:原生支持英语、中文、泰语、日语、印地语等语言。
应用场景
- 跨系统构建统一可信的客户和供应商视图
- 反洗钱 (AML)、了解你的客户 (KYC) 及其他欺诈和合规场景中的大规模实体解析
- 数据去重及质量提升
- 身份识别
- 在并购时整合数据孤岛
- 从外部资源丰富数据
- 建立客户家庭关系
Zingg 的模型
Zingg 学习构建了两类模型:
-
阻塞模型:在大规模数据处理中,由于需要的比较数量是输入记录数量的平方,Zingg 通过学习一个聚类/阻塞模型来索引相似记录,减少比较工作负载。
-
相似性模型:用于预测记录对是否匹配。相似性模型仅在每个阻塞/聚类内运行,以应对更大数据集的任务。
如何开始使用 Zingg
Zingg 提供了一种简单易行的启动方式,即通过 Docker 使用预构建的模型:
docker pull zingg/zingg:0.4.0
docker run -it zingg/zingg:0.4.0 bash
./scripts/zingg.sh --phase match --conf examples/febrl/config.json
通过这些命令,用户可以快速上手体验 Zingg 的功能。详细指南可参见 Zingg 的逐步引导文档。
Zingg 的团队和社区
Zingg 是由 Zingg.AI 团队开发的。Zingg 社区活跃,用户可以通过 Slack 参与讨论,或者在 GitHub 上提交 Bug 报告及功能请求。
作为开源软件,Zingg 遵循 AGPL v3.0 许可证,用户可以自由分发和修改 Zingg,并创建定制解决方案。
欢迎更多的开发者参与到 Zingg 的开发和改进中,共同推动 Zingg 在数据治理领域的加速创新。