#数据生成

stanford_alpaca - 基于52K数据微调的7B LLaMA指令跟随模型
Stanford AlpacaLLaMA model指令跟随模型数据生成微调Github开源项目
Stanford Alpaca项目提供了一个基于52K指令数据微调的7B LLaMA模型。该项目包含数据生成代码、模型微调代码和从权重差异恢复Alpaca-7B权重的代码。模型基于Self-Instruct技术生成的数据进行微调,仅限于研究用途。注意模型尚未经过安全性微调,使用时需谨慎。
marvin - 多功能AI工具包,提供文本、图像与音频处理功能
MarvinAI工具包实体提取分类数据生成Github开源项目
Marvin是一个轻量级AI工具包,提供可靠、可扩展的自然语言接口解决方案。它涵盖文本、图像和音频的生成、分类、实体抽取等多种功能,支持独立或组合使用,适用于各种开发场景。Marvin无需复杂的代码,即可将AI功能集成到现有软件项目中,实现快速部署。该项目开源且免费使用,由Prefect团队开发和维护。
YiVal - 助力GenAI工具配置与优化的自动提示工程助手
YiVal自动化提示工程GenAI应用数据生成性能评估Github开源项目
YiVal致力于为生成型AI应用自动化提示和精确调校,通过先进的数据驱动方法,显著提升应用性能,减少延迟和算力成本。该工具有效应对提示开发和细粒度调节挑战,提供定制化的模型和数据漂移解决方案,保障GenAI应用的长期稳定性。
magpie - 利用提示对齐的语言模型从零生成高质量对齐数据
MagpieLLM对齐数据数据生成HuggingfaceGithub开源项目
Magpie 项目通过提示对齐的大型语言模型生成高质量的对齐数据,无需提示工程或种子问题。该方法通过对齐模型的预查询模板生成用户查询和响应,已在Llama-3、Qwen2、Phi 3 和 Gemma-2系列模型上测试。最新更新包括多款增强中文问答能力和推理能力的数据集。项目开放这些高质量数据,推动AI民主化,提升模型对齐过程的透明度。
scalingup - 使用语言引导的机器人技能自动生成框架
Scaling Up and Distilling Down语言引导机器人技能获取数据生成扩展任务Github开源项目
该项目提出了一种无需专家示范、手动奖励监督和手动语言注释的语言引导技能学习框架。它能够通过任务描述自动生成多样化的机器人轨迹,并含有成功标签和详细的语言标签。该框架支持在多种NVIDIA GPU环境下运行,包括GTX 1080和RTX系列。
Awesome-Diffusion-Models - 扩散模型资源与研究的全面综述
Diffusion Models机器学习图像生成自然语言处理数据生成Github开源项目
提供全面的扩散模型资源与研究论文,包括入门帖子、视频、讲座和教程笔记本。涵盖图像生成、分类、分割、音频处理和自然语言处理等应用领域,适用于机器学习和深度学习研究者。访问本页,获取更多详细信息与最新进展,提升对扩散模型的理解与应用。
SAX-NeRF - 稀疏视角X光3D重建与CT扫描工具箱
SAX-NeRFCT重建X射线3D重建数据生成Github开源项目
这个工具箱支持X光新视角合成(NVS)和计算机断层扫描(CT)重建,包含9种前沿算法:6种基于NeRF,2种基于优化,1种为分析方法。此外,提供了可视化代码和数据生成代码,支持科研工作。用户可以下载预训练模型和训练日志进行测试和调试,并生成自己的CT数据。详情请访问项目仓库。
YuzuMarker.FontDetection - 中日韩字体识别模型和场景文本图像数据集生成
YuzuMarker.FontDetectionCJK字体识别开源数据集模型训练数据生成Github开源项目
YuzuMarker.FontDetection 项目提供了一个专门针对中日韩字体识别的模型,并详尽介绍了生成场景文本图像数据集的方法。用户可以利用CJK字体包和背景图片自动生成所需的数据集,项目现已开源数据集供下载,支持多种字体渲染技术和模型训练选项,有助于提升字体识别的准确性。更多信息请访问项目官网和文档。
ydata-synthetic - 使用尖端生成模型实现合成数据生成,支持表格与时间序列数据
YData Synthetic数据生成GANCTGAN时间序列数据Github开源项目
ydata-synthetic项目提供了多种工具用于合成数据生成,支持前沿的生成模型如Generative Adversarial Networks (GANs)和高斯混合模型。该项目可以生成保护隐私的合成数据,且有助于消除数据偏差,平衡和扩展数据集。全新streamlit应用程序允许用户在无需编程的情况下快速生成合成数据。常见问题、快速入门指南和Jupyter Notebooks实例帮助用户轻松入门。加入Discord社区获取更多技术支持。
SDV - 使用机器学习生成高质量合成数据,提高隐私保护
Synthetic Data VaultSDVPython机器学习数据生成Github开源项目
SDV利用多种机器学习算法,提供生成表格合成数据的解决方案。主要功能包括生成单表、多表和序列数据,支持数据预处理、匿名化和逻辑约束定义。此外,SDV还提供数据评估和可视化工具,比较合成数据与真实数据,并生成质量报告。适合初学者和资深数据科学家,满足多样化需求。
faker - Go语言结构化假数据生成库
faker数据生成Go语言测试结构体Github开源项目
faker是一个Go语言假数据生成库,可根据结构体定义自动生成测试数据。支持多种数据类型、自定义标签和单一数据生成函数,易于集成到测试和开发流程。该库性能高效,操作简便,适合开发人员进行数据模拟和测试。
augmentoolkit - AI开源领域特定数据生成解决方案
Augmentoolkit数据生成LLM训练开源AI自定义数据集Github开源项目
Augmentoolkit是一款开源AI工具,专门用于创建领域特定数据。它能将原始文本高效转化为高质量自定义数据集,适用于训练语言模型和分类器。该工具利用开源AI技术,无需依赖OpenAI,提供了易用、可定制和经济的数据生成方案。Augmentoolkit致力于简化LLM数据创建,使其成为模型开发中的便捷环节。
syntheticAIdata - 为计算机视觉AI模型提供大规模合成训练数据的平台
AI工具合成数据计算机视觉模型训练AI数据生成
syntheticAIdata是一个为企业提供合成数据解决方案的平台,主要用于训练视觉AI模型。该平台能够生成大规模高质量数据,具有自动注释、成本效益高等特点。它采用无代码设计,操作简便。使用syntheticAIdata不仅可以降低数据获取成本,还能保护隐私、确保合规,加快AI产品开发进程。平台支持与主流云服务一键集成,便于用户快速部署和使用。syntheticAIdata通过模拟真实场景生成数据,有效规避了隐私和监管风险。对于企业来说,这是一个能够加速AI项目落地、提高模型性能的实用工具。
presidio-research - 开源PII检测与评估工具包助力隐私保护
PresidioPII检测数据生成模型评估命名实体识别Github开源项目
Presidio-research是一个开源的个人身份信息(PII)检测模型开发和评估工具包。它集成了假数据生成、数据表示、模型评估和训练等功能。研究人员可利用该工具包生成合成数据集、评估PII识别性能,以及训练新的命名实体识别模型。Presidio-research支持spaCy、Flair和CRF等主流NLP框架,为PII检测研究提供了综合性解决方案。