#数据生成

stanford_alpaca - 基于52K数据微调的7B LLaMA指令跟随模型

Stanford AlpacaLLaMA model指令跟随模型数据生成微调Github开源项目

Stanford Alpaca项目提供了一个基于52K指令数据微调的7B LLaMA模型。该项目包含数据生成代码、模型微调代码和从权重差异恢复Alpaca-7B权重的代码。模型基于Self-Instruct技术生成的数据进行微调，仅限于研究用途。注意模型尚未经过安全性微调，使用时需谨慎。

marvin - 多功能AI工具包，提供文本、图像与音频处理功能

MarvinAI工具包实体提取分类数据生成Github开源项目

Marvin是一个轻量级AI工具包，提供可靠、可扩展的自然语言接口解决方案。它涵盖文本、图像和音频的生成、分类、实体抽取等多种功能，支持独立或组合使用，适用于各种开发场景。Marvin无需复杂的代码，即可将AI功能集成到现有软件项目中，实现快速部署。该项目开源且免费使用，由Prefect团队开发和维护。

YiVal - 助力GenAI工具配置与优化的自动提示工程助手

YiVal自动化提示工程GenAI应用数据生成性能评估Github开源项目

YiVal致力于为生成型AI应用自动化提示和精确调校，通过先进的数据驱动方法，显著提升应用性能，减少延迟和算力成本。该工具有效应对提示开发和细粒度调节挑战，提供定制化的模型和数据漂移解决方案，保障GenAI应用的长期稳定性。

magpie - 利用提示对齐的语言模型从零生成高质量对齐数据

MagpieLLM对齐数据数据生成HuggingfaceGithub开源项目

Magpie 项目通过提示对齐的大型语言模型生成高质量的对齐数据，无需提示工程或种子问题。该方法通过对齐模型的预查询模板生成用户查询和响应，已在Llama-3、Qwen2、Phi 3 和 Gemma-2系列模型上测试。最新更新包括多款增强中文问答能力和推理能力的数据集。项目开放这些高质量数据，推动AI民主化，提升模型对齐过程的透明度。

scalingup - 使用语言引导的机器人技能自动生成框架

Scaling Up and Distilling Down语言引导机器人技能获取数据生成扩展任务Github开源项目

该项目提出了一种无需专家示范、手动奖励监督和手动语言注释的语言引导技能学习框架。它能够通过任务描述自动生成多样化的机器人轨迹，并含有成功标签和详细的语言标签。该框架支持在多种NVIDIA GPU环境下运行，包括GTX 1080和RTX系列。

Awesome-Diffusion-Models - 扩散模型资源与研究的全面综述

Diffusion Models机器学习图像生成自然语言处理数据生成Github开源项目

提供全面的扩散模型资源与研究论文，包括入门帖子、视频、讲座和教程笔记本。涵盖图像生成、分类、分割、音频处理和自然语言处理等应用领域，适用于机器学习和深度学习研究者。访问本页，获取更多详细信息与最新进展，提升对扩散模型的理解与应用。

SAX-NeRF - 稀疏视角X光3D重建与CT扫描工具箱

SAX-NeRFCT重建X射线3D重建数据生成Github开源项目

这个工具箱支持X光新视角合成（NVS）和计算机断层扫描（CT）重建，包含9种前沿算法：6种基于NeRF，2种基于优化，1种为分析方法。此外，提供了可视化代码和数据生成代码，支持科研工作。用户可以下载预训练模型和训练日志进行测试和调试，并生成自己的CT数据。详情请访问项目仓库。

YuzuMarker.FontDetection - 中日韩字体识别模型和场景文本图像数据集生成

YuzuMarker.FontDetectionCJK字体识别开源数据集模型训练数据生成Github开源项目

YuzuMarker.FontDetection 项目提供了一个专门针对中日韩字体识别的模型，并详尽介绍了生成场景文本图像数据集的方法。用户可以利用CJK字体包和背景图片自动生成所需的数据集，项目现已开源数据集供下载，支持多种字体渲染技术和模型训练选项，有助于提升字体识别的准确性。更多信息请访问项目官网和文档。

ydata-synthetic - 使用尖端生成模型实现合成数据生成，支持表格与时间序列数据

YData Synthetic数据生成GANCTGAN时间序列数据Github开源项目

ydata-synthetic项目提供了多种工具用于合成数据生成，支持前沿的生成模型如Generative Adversarial Networks (GANs)和高斯混合模型。该项目可以生成保护隐私的合成数据，且有助于消除数据偏差，平衡和扩展数据集。全新streamlit应用程序允许用户在无需编程的情况下快速生成合成数据。常见问题、快速入门指南和Jupyter Notebooks实例帮助用户轻松入门。加入Discord社区获取更多技术支持。

SDV - 使用机器学习生成高质量合成数据，提高隐私保护

Synthetic Data VaultSDVPython机器学习数据生成Github开源项目

SDV利用多种机器学习算法，提供生成表格合成数据的解决方案。主要功能包括生成单表、多表和序列数据，支持数据预处理、匿名化和逻辑约束定义。此外，SDV还提供数据评估和可视化工具，比较合成数据与真实数据，并生成质量报告。适合初学者和资深数据科学家，满足多样化需求。

faker - Go语言结构化假数据生成库

faker数据生成Go语言测试结构体Github开源项目

faker是一个Go语言假数据生成库，可根据结构体定义自动生成测试数据。支持多种数据类型、自定义标签和单一数据生成函数，易于集成到测试和开发流程。该库性能高效，操作简便，适合开发人员进行数据模拟和测试。

augmentoolkit - AI开源领域特定数据生成解决方案

Augmentoolkit数据生成LLM训练开源AI自定义数据集Github开源项目

Augmentoolkit是一款开源AI工具,专门用于创建领域特定数据。它能将原始文本高效转化为高质量自定义数据集,适用于训练语言模型和分类器。该工具利用开源AI技术,无需依赖OpenAI,提供了易用、可定制和经济的数据生成方案。Augmentoolkit致力于简化LLM数据创建,使其成为模型开发中的便捷环节。

syntheticAIdata - 为计算机视觉AI模型提供大规模合成训练数据的平台

AI工具合成数据计算机视觉模型训练AI数据生成

syntheticAIdata是一个为企业提供合成数据解决方案的平台，主要用于训练视觉AI模型。该平台能够生成大规模高质量数据，具有自动注释、成本效益高等特点。它采用无代码设计，操作简便。使用syntheticAIdata不仅可以降低数据获取成本，还能保护隐私、确保合规，加快AI产品开发进程。平台支持与主流云服务一键集成，便于用户快速部署和使用。syntheticAIdata通过模拟真实场景生成数据，有效规避了隐私和监管风险。对于企业来说，这是一个能够加速AI项目落地、提高模型性能的实用工具。

presidio-research - 开源PII检测与评估工具包助力隐私保护

PresidioPII检测数据生成模型评估命名实体识别Github开源项目

Presidio-research是一个开源的个人身份信息(PII)检测模型开发和评估工具包。它集成了假数据生成、数据表示、模型评估和训练等功能。研究人员可利用该工具包生成合成数据集、评估PII识别性能，以及训练新的命名实体识别模型。Presidio-research支持spaCy、Flair和CRF等主流NLP框架，为PII检测研究提供了综合性解决方案。

相关文章

Article Cover

YiVal：您的自动化提示工程助手，为GenAI应用赋能

Article Cover

Magpie: 一种创新的大语言模型对齐数据生成方法

Article Cover

YData-synthetic: 加速人工智能开发的合成数据生成工具

Article Cover

YuzuMarker.FontDetection:首个CJK字体识别与样式提取模型

Article Cover

SDV:一站式表格数据合成解决方案

Article Cover

Augmentoolkit:开源AI驱动的高质量数据生成工具

Article Cover

Presidio Research: 开发和评估PII检测模型的强大工具箱

Article Cover

YiVal学习资料汇总 - 自动化提示工程助手

Article Cover

Magpie - 高效生成高质量对齐数据的开源项目 - 无需种子问题的指令数据合成方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号