#合成数据集

bonito - 从无标注文本到定制化指令调优数据集的转换模型
Bonito指令调整数据生成Hugging Face开源合成数据集Github开源项目
Bonito:一个开源模型,用于生成用于指令调优的训练数据集,将无标注文本转化为适应多种任务需求的数据集。基于Hugging Face的Transformers和VLLM库,Bonito支持数种任务类型,包括问题生成和自然语言推理,适合学术研究及技术开发使用。
awesome-synthetic-datasets - 大语言模型合成数据集资源汇总
合成数据集大语言模型TinyStoriesSelf-InstructCosmopediaGithub开源项目
该项目整理了大语言模型生成合成数据集的相关资源,包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集,以及Self-Instruct、AutoPrompt等技术,为AI研究和开发提供参考。
Llama-3-Instruct-8B-SPPO-Iter2 - 通过自我博弈偏好优化实现语言模型对齐
Self-Play Preference Optimization模型调优Huggingface训练参数Github开源项目模型合成数据集语言模型
该模型在第二轮自我博弈偏好优化中,通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构,该过程从openbmb/UltraFeedback数据集中提取提示集,并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上,该模型在语言理解和推理任务中表现出更优胜率和准确度。
coloringbookflux - AI生成涂色书 - 创新的图像生成工具
AI绘图合成数据集Coloring Book Flux开源项目图像生成模型HuggingfaceLoRAGithub
使用Flux LoRA技术的AI涂色书模型,专为创意素材如涂色书和海报设计。利用合成数据集和Joy Caption Batch标注,用户可通过调整提示词和白色背景来获得理想效果。
Gemma-2-9B-It-SPPO-Iter3 - 通过自我游戏偏好优化增强语言模型 alignment
自我博弈偏好优化Gemma-2-9B-It-SPPO-Iter3语言模型开源项目合成数据集模型GithubHuggingface超参数
Gemma-2-9B-It-SPPO-Iter3以google/gemma-2-9b-it为基础,经过第三次自我游戏偏好优化迭代开发,结合openbmb/UltraFeedback数据集微调。在合成数据集中展现了出色的性能,LC.获胜率达到53.27%,在AlpacaEval排行榜上表现优良。项目主要使用英语,遵循Apache-2.0许可,适用于多种自然语言处理场景。