#合成数据生成
DataDreamer - 生成合成数据和优化模型的开源Python工具
Github开源项目开源模型训练Python库DataDreamer合成数据生成
DataDreamer 是一个功能强大的开源Python库,专为创建提示工作流、生成合成数据集和训练模型而设计。它支持复杂的多步提示工作流,适用于各种大语言模型。该工具简单易用,且达到研究级别,兼具高效性和可复现性,支持最新技术如量化和LoRA等。无论是研究人员还是普通用户,都可以轻松发布数据集和模型。
be_great - 基于Transformer模型的真实表格数据生成工具
Github开源项目合成数据生成数据填充GReaT生成真实表格数据预训练Transformer模型
GReaT是一个开源框架,利用预训练Transformer语言模型生成真实的表格数据。该工具提供简洁的API,支持数据生成和缺失值填充功能。GReaT适用于Python 3.9及以上版本,通过pip即可安装。这个项目为数据科学和机器学习研究提供了强大的数据生成工具,能够快速创建高质量的合成数据集。