#合成数据

TextRecognitionDataGenerator: 生成合成文本识别数据的强大工具

3 个月前
Cover of TextRecognitionDataGenerator: 生成合成文本识别数据的强大工具

SmartNoise-SDK: 用于表格数据差分隐私的强大工具集

3 个月前
Cover of SmartNoise-SDK: 用于表格数据差分隐私的强大工具集

Persona Hub: 革命性的十亿级人物角色库助力合成数据创新

3 个月前
Cover of Persona Hub: 革命性的十亿级人物角色库助力合成数据创新

微调嵌入模型以提升RAG系统的检索性能

3 个月前
Cover of 微调嵌入模型以提升RAG系统的检索性能

Gretel Synthetics: 开源人工智能合成数据生成工具

3 个月前
Cover of Gretel Synthetics: 开源人工智能合成数据生成工具

Neosync: 开源数据匿名化和合成数据编排平台

3 个月前
Cover of Neosync: 开源数据匿名化和合成数据编排平台
相关项目
Project Cover

gretel-synthetics

Gretel.ai 提供的 Gretel Synthetics 是一个开源合成数据生成库,支持生成高质量的合成数据,适用于机器学习和数据分析。该库主要支持 LSTM、Timeseries DGAN 和 ACTGAN 模型,并与 TensorFlow、PyTorch 和 SDV 集成。用户可以通过简易的 Python 代码进行安装和使用。文档详细介绍了使用方法,包括配置、模型训练和数据生成,并提供多个示例和教程,帮助用户快速上手。

Project Cover

chatgpt-clone

ChatGPT Clone项目提供高灵活性和可定制的聊天AI解决方案。当前开发暂时中止,预计在六月底更新。现有功能包括删除对话双重确认、记住用户偏好和主题切换。未来计划添加对话加载与导出、语音输入输出和更优文档支持。项目可通过虚拟环境或Docker快速启动,并附有详细的设置与运行指南,适合开发者改进代码和提出建议。

Project Cover

neosync

Neosync是一个开源的开发者工具,用于数据匿名化和合成数据生成,帮助企业安全地处理生产数据用于本地测试、调试和开发。它能够快速有效地对生产数据进行匿名和子集化,再现产品故障,并在不同环境中生成高质量数据。Neosync还支持GDPR、DPDP、FERPA和HIPAA等合规要求,并简化开发数据库的初始化过程。凭借全面的功能和多种集成,Neosync优化了CI/CD流程。

Project Cover

finetune-embedding

finetune-embedding项目展示了利用合成数据微调嵌入模型来提升RAG性能的方法。该项目详细介绍了使用大语言模型生成合成数据集、微调开源嵌入模型和评估模型效果的步骤。在小规模金融PDF文档数据集上的实验证明,微调后的嵌入模型能显著提高检索性能。这种方法通过大语言模型生成假设性问题,无需人工标注即可创建高质量训练数据,为RAG系统优化提供了新思路。

Project Cover

Hazy

Hazy合成数据平台重新设计企业数据,提高使用效率和安全性。该平台生成可靠的数据集,保留原始数据特性,同时确保隐私。适用于复杂环境,帮助企业优化决策,推动创新。

Project Cover

syntheticAIdata

syntheticAIdata是一个为企业提供合成数据解决方案的平台,主要用于训练视觉AI模型。该平台能够生成大规模高质量数据,具有自动注释、成本效益高等特点。它采用无代码设计,操作简便。使用syntheticAIdata不仅可以降低数据获取成本,还能保护隐私、确保合规,加快AI产品开发进程。平台支持与主流云服务一键集成,便于用户快速部署和使用。syntheticAIdata通过模拟真实场景生成数据,有效规避了隐私和监管风险。对于企业来说,这是一个能够加速AI项目落地、提高模型性能的实用工具。

Project Cover

persona-hub

PERSONA HUB项目提出了基于人格驱动的数据合成方法,通过大型语言模型创建多样化合成数据。该项目包含10亿个多样化人格的数据集,可应用于大规模数据合成。研究展示了该方法在数学推理、逻辑推理、指令生成、知识文本、游戏NPC和工具函数等领域的应用,体现了其多功能性和可扩展性。

Project Cover

smartnoise-sdk

SmartNoise SDK是一个专注于表格数据差分隐私的开源工具包,包含smartnoise-sql和smartnoise-synth两个主要组件。前者用于执行差分隐私SQL查询,后者用于生成差分隐私合成数据。该SDK支持MWEM和PATE-CTGAN等隐私保护算法,适用于Python 3.7及以上版本。SmartNoise SDK为研究人员和数据科学家提供了在保护个人隐私的同时进行数据分析和合成的能力,并配备详细文档和示例代码以便快速上手。

Project Cover

TextRecognitionDataGenerator

TextRecognitionDataGenerator是一款开源的文本识别数据生成工具。支持多种语言如拉丁文、中文和日文等,可自定义字体、背景、文本扭曲和模糊效果。工具提供命令行界面和Python模块,便于集成到训练流程中。适用于OCR和文本识别模型的数据集制作,支持手写体文本生成功能。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号