#合成数据集

Bonito: 无需GPT的轻量级指令微调数据集生成库

3 个月前

Bonito 指令调整数据生成 Hugging Face 开源合成数据集 Github 开源项目

3 个月前

awesome-synthetic-datasets: 人工智能合成数据集大全

2 个月前

合成数据集大语言模型 TinyStories Self-Instruct Cosmopedia Github 开源项目

2 个月前

Bonito入门指南 - 无需GPT即可生成指令调优数据集的轻量级库

2 个月前

Bonito 指令调整数据生成 Hugging Face 开源合成数据集 Github 开源项目

2 个月前

相关项目

bonito

Bonito：一个开源模型，用于生成用于指令调优的训练数据集，将无标注文本转化为适应多种任务需求的数据集。基于Hugging Face的Transformers和VLLM库，Bonito支持数种任务类型，包括问题生成和自然语言推理，适合学术研究及技术开发使用。

awesome-synthetic-datasets

该项目整理了大语言模型生成合成数据集的相关资源，包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集，以及Self-Instruct、AutoPrompt等技术，为AI研究和开发提供参考。

Llama-3-Instruct-8B-SPPO-Iter2

该模型在第二轮自我博弈偏好优化中，通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构，该过程从openbmb/UltraFeedback数据集中提取提示集，并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上，该模型在语言理解和推理任务中表现出更优胜率和准确度。

coloringbookflux

使用Flux LoRA技术的AI涂色书模型，专为创意素材如涂色书和海报设计。利用合成数据集和Joy Caption Batch标注，用户可通过调整提示词和白色背景来获得理想效果。

Gemma-2-9B-It-SPPO-Iter3

Gemma-2-9B-It-SPPO-Iter3以google/gemma-2-9b-it为基础，经过第三次自我游戏偏好优化迭代开发，结合openbmb/UltraFeedback数据集微调。在合成数据集中展现了出色的性能，LC.获胜率达到53.27%，在AlpacaEval排行榜上表现优良。项目主要使用英语，遵循Apache-2.0许可，适用于多种自然语言处理场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com