#合成数据集

bonito - 从无标注文本到定制化指令调优数据集的转换模型

Bonito指令调整数据生成Hugging Face开源合成数据集Github开源项目

Bonito：一个开源模型，用于生成用于指令调优的训练数据集，将无标注文本转化为适应多种任务需求的数据集。基于Hugging Face的Transformers和VLLM库，Bonito支持数种任务类型，包括问题生成和自然语言推理，适合学术研究及技术开发使用。

awesome-synthetic-datasets - 大语言模型合成数据集资源汇总

合成数据集大语言模型TinyStoriesSelf-InstructCosmopediaGithub开源项目

该项目整理了大语言模型生成合成数据集的相关资源，包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集，以及Self-Instruct、AutoPrompt等技术，为AI研究和开发提供参考。

Llama-3-Instruct-8B-SPPO-Iter2 - 通过自我博弈偏好优化实现语言模型对齐

Self-Play Preference Optimization模型调优Huggingface训练参数Github开源项目模型合成数据集语言模型

该模型在第二轮自我博弈偏好优化中，通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构，该过程从openbmb/UltraFeedback数据集中提取提示集，并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上，该模型在语言理解和推理任务中表现出更优胜率和准确度。

coloringbookflux - AI生成涂色书 - 创新的图像生成工具

AI绘图合成数据集Coloring Book Flux开源项目图像生成模型HuggingfaceLoRAGithub

使用Flux LoRA技术的AI涂色书模型，专为创意素材如涂色书和海报设计。利用合成数据集和Joy Caption Batch标注，用户可通过调整提示词和白色背景来获得理想效果。

Gemma-2-9B-It-SPPO-Iter3 - 通过自我游戏偏好优化增强语言模型 alignment

自我博弈偏好优化Gemma-2-9B-It-SPPO-Iter3语言模型开源项目合成数据集模型GithubHuggingface超参数

Gemma-2-9B-It-SPPO-Iter3以google/gemma-2-9b-it为基础，经过第三次自我游戏偏好优化迭代开发，结合openbmb/UltraFeedback数据集微调。在合成数据集中展现了出色的性能，LC.获胜率达到53.27%，在AlpacaEval排行榜上表现优良。项目主要使用英语，遵循Apache-2.0许可，适用于多种自然语言处理场景。

相关文章

Article Cover

Bonito: 无需GPT的轻量级指令微调数据集生成库

Article Cover

awesome-synthetic-datasets: 人工智能合成数据集大全

Article Cover

Bonito入门指南 - 无需GPT即可生成指令调优数据集的轻量级库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号