Logo

#数据生成

Magpie - 高效生成高质量对齐数据的开源项目 - 无需种子问题的指令数据合成方法

1 个月前
Cover of Magpie - 高效生成高质量对齐数据的开源项目 - 无需种子问题的指令数据合成方法

Presidio Research: 开发和评估PII检测模型的强大工具箱

2 个月前
Cover of Presidio Research: 开发和评估PII检测模型的强大工具箱

SDV:一站式表格数据合成解决方案

2 个月前
Cover of SDV:一站式表格数据合成解决方案

YData-synthetic: 加速人工智能开发的合成数据生成工具

2 个月前
Cover of YData-synthetic: 加速人工智能开发的合成数据生成工具

YiVal:您的自动化提示工程助手,为GenAI应用赋能

2 个月前
Cover of YiVal:您的自动化提示工程助手,为GenAI应用赋能

YiVal学习资料汇总 - 自动化提示工程助手

1 个月前
Cover of YiVal学习资料汇总 - 自动化提示工程助手

Augmentoolkit:开源AI驱动的高质量数据生成工具

2 个月前
Cover of Augmentoolkit:开源AI驱动的高质量数据生成工具

YuzuMarker.FontDetection:首个CJK字体识别与样式提取模型

2 个月前
Cover of YuzuMarker.FontDetection:首个CJK字体识别与样式提取模型

Magpie: 一种创新的大语言模型对齐数据生成方法

2 个月前
Cover of Magpie: 一种创新的大语言模型对齐数据生成方法

相关项目

Project Cover
stanford_alpaca
Stanford Alpaca项目提供了一个基于52K指令数据微调的7B LLaMA模型。该项目包含数据生成代码、模型微调代码和从权重差异恢复Alpaca-7B权重的代码。模型基于Self-Instruct技术生成的数据进行微调,仅限于研究用途。注意模型尚未经过安全性微调,使用时需谨慎。
Project Cover
marvin
Marvin是一个轻量级AI工具包,提供可靠、可扩展的自然语言接口解决方案。它涵盖文本、图像和音频的生成、分类、实体抽取等多种功能,支持独立或组合使用,适用于各种开发场景。Marvin无需复杂的代码,即可将AI功能集成到现有软件项目中,实现快速部署。该项目开源且免费使用,由Prefect团队开发和维护。
Project Cover
YiVal
YiVal致力于为生成型AI应用自动化提示和精确调校,通过先进的数据驱动方法,显著提升应用性能,减少延迟和算力成本。该工具有效应对提示开发和细粒度调节挑战,提供定制化的模型和数据漂移解决方案,保障GenAI应用的长期稳定性。
Project Cover
magpie
Magpie 项目通过提示对齐的大型语言模型生成高质量的对齐数据,无需提示工程或种子问题。该方法通过对齐模型的预查询模板生成用户查询和响应,已在Llama-3、Qwen2、Phi 3 和 Gemma-2系列模型上测试。最新更新包括多款增强中文问答能力和推理能力的数据集。项目开放这些高质量数据,推动AI民主化,提升模型对齐过程的透明度。
Project Cover
scalingup
该项目提出了一种无需专家示范、手动奖励监督和手动语言注释的语言引导技能学习框架。它能够通过任务描述自动生成多样化的机器人轨迹,并含有成功标签和详细的语言标签。该框架支持在多种NVIDIA GPU环境下运行,包括GTX 1080和RTX系列。
Project Cover
Awesome-Diffusion-Models
提供全面的扩散模型资源与研究论文,包括入门帖子、视频、讲座和教程笔记本。涵盖图像生成、分类、分割、音频处理和自然语言处理等应用领域,适用于机器学习和深度学习研究者。访问本页,获取更多详细信息与最新进展,提升对扩散模型的理解与应用。
Project Cover
SAX-NeRF
这个工具箱支持X光新视角合成(NVS)和计算机断层扫描(CT)重建,包含9种前沿算法:6种基于NeRF,2种基于优化,1种为分析方法。此外,提供了可视化代码和数据生成代码,支持科研工作。用户可以下载预训练模型和训练日志进行测试和调试,并生成自己的CT数据。详情请访问项目仓库。
Project Cover
YuzuMarker.FontDetection
YuzuMarker.FontDetection 项目提供了一个专门针对中日韩字体识别的模型,并详尽介绍了生成场景文本图像数据集的方法。用户可以利用CJK字体包和背景图片自动生成所需的数据集,项目现已开源数据集供下载,支持多种字体渲染技术和模型训练选项,有助于提升字体识别的准确性。更多信息请访问项目官网和文档。
Project Cover
ydata-synthetic
ydata-synthetic项目提供了多种工具用于合成数据生成,支持前沿的生成模型如Generative Adversarial Networks (GANs)和高斯混合模型。该项目可以生成保护隐私的合成数据,且有助于消除数据偏差,平衡和扩展数据集。全新streamlit应用程序允许用户在无需编程的情况下快速生成合成数据。常见问题、快速入门指南和Jupyter Notebooks实例帮助用户轻松入门。加入Discord社区获取更多技术支持。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号