项目介绍:YData Synthetic
项目概览
YData Synthetic 是一个开源软件包,由 YData 在 2020 年开发。其主要目标是为用户提供关于生成模型如何用于生成合成数据的教育资源。最初,该软件包的设计主要侧重于研究和教育,并没有特别针对组织需要的质量、性能和可扩展性进行优化。
合成数据
什么是合成数据?
合成数据是一种人工生成的数据,这些数据并不是来自现实世界的事件。它能够复制真实数据的统计特征,但不包含任何可识别的信息,从而有效地保护个人隐私。
为什么使用合成数据?
合成数据的应用非常广泛,主要包括以下几种用途:
- 数据共享和机器学习开发中的隐私合规
- 去除数据偏见
- 平衡数据集
- 增强数据集
YData 提供了一个名为 YData Fabric 的产品,旨在提供从数据准备到合成数据生成和评估的完整 UI 体验。其社区版本可以为用户生成高质量的数据集。
过渡到 ydata-sdk
随着 YData Synthetic 的更新,用户将逐步过渡到新的 ydata-sdk,这一更新将为用户提供通过单一 API 自动选择和优化最佳生成模型的功能。用户无需手动选择各种模型,API 会根据数据集和应用场景智能识别最佳模型。这种便捷的方法大大简化了合成数据生成的过程,确保用户在无需人工干预的情况下获得最高质量的输出。
新的 ydata-sdk 可以自动处理模型选择,并优化生成数据在保真度、实用性和隐私方面的表现。
快速入门
用户可以从 Python Package Index (PyPI) 下载最新版本的二进制安装包。安装命令如下:
pip install ydata-sdk
使用 UI 指导生成合成数据
YData Fabric 提供了一种 UI 界面,引导用户完成生成结构化数据的步骤。用户可以通过注册社区版本,立即开始实验。
示例和应用
在 YData SDK 中,用户可以找到各种使用示例,帮助新手更好地理解如何生成合成数据。例如,用户可以尝试对 Titanic Kaggle 数据集进行表格数据生成,或者进行时间序列的合成数据生成。更多示例不断被添加,可在相应的目录中查看。
数据集
YData Synthetic 提供了一些特定的数据集供用户练习和实验,包括:
表格数据集
- 成人收入调查数据集
- 信用卡欺诈数据集
- 心血管疾病数据集
序列数据集
- 股票数据
- FCC MBA 数据
支持与社区
YData 还鼓励用户加入其 Discord 社区,社区成员乐于回答有关软件包使用和开发的问题。
为了帮助用户解决疑问,YData 还提供了常见问题解答页面以供用户参考。
许可证
YData Synthetic 遵循 MIT 许可证,详情可在其 GitHub 项目主页查看。
这就是 YData Synthetic 项目的整体介绍,它通过提供优秀的工具和资源,帮助用户深入理解和应用合成数据技术。