开源数据匿名化和合成数据编排
简介
Neosync 是一种开源的开发者优先方式,用于匿名化PII,生成合成数据并同步环境,以便更好地进行测试、调试和提升开发者体验。
公司使用 Neosync 来:
- 安全地对生产数据进行代码测试 - 匿名化敏感生产数据,以便在本地安全使用,从而获得更好的测试和开发体验
- 本地轻松重现生产错误 - 匿名化和拆分生产数据,以获取一个安全且具代表性的数据集,让您可以快速且高效地在本地重现生产错误
- 提供高质量的数据给低级别环境 - 在将生产类数据注入到预发布和QA环境中时,捕捉生产前的错误
- 解决 GDPR、DPDP、FERPA、HIPAA 等问题 - 使用匿名化和合成数据减少合规范围,并轻松遵守 HIPAA、GDPR 和 DPDP 等法律
- 初始化开发数据库 - 轻松使用合成数据为单元测试、演示等初始化开发数据库
特性
- 根据您的模式生成合成数据
- 匿名化现有的生产数据,从而提高开发者体验
- 使用任何 SQL 查询将您的生产数据库拆分,用于本地和 CI 测试
- 完整的异步流水线,自动处理作业重试、失败和回放,采用事件源模型
- 自动实现数据的参照完整性
- 声明式、基于 GitOps 的配置,作为您的 CI 流水线的一步,以补充 CI 数据库
- 预建数据转换器,适用于所有主要数据类型
- 使用 JavaScript 或 LLMs 创建自定义数据转换器
- 与 Postgres、Mysql、S3 的预构建集成
入门
Neosync 是一个完全容器化的设置,使得上手变得简单。
根目录下的 compose.yml 文件包含生产图像引用,允许您仅通过几个命令就能开始使用,无需在您的系统上构建任何东西。
Neosync 使用新的 docker compose
命令,所以请确保在您的机器上安装了该命令。
要启动 Neosync,将仓库克隆到本地目录,确保安装并运行 Docker,然后运行:
make compose/up
要停止,运行:
make compose/down
Neosync 将在 http://localhost:3000 可用。
生产组合预先配置了连接和作业,让您能够快速入门!只需运行生成和同步作业即可观看 Neosync 的实际行动!
Kubernetes、身份验证模式等
有关环境变量、Kubernetes 部署和生产就绪指南的更详细信息,请查看我们的文档中的 部署 Neosync 部分。
资源
一些帮助您一路走来的资源:
贡献
我们欢迎大小不一的贡献。以下是一些您可以为 Neosync 做出贡献的方式:
- 加入我们的 Discord 频道,并在那儿向我们提问
- 提交PR(参见我们关于 本地开发 Neosync 的说明)
- 提交 功能请求 或 错误报告
许可证
我们坚信免费和开源软件,并根据 MIT Expat 许可证 提供此仓库。