#合成数据集

Bonito: 无需GPT的轻量级指令微调数据集生成库

3 个月前
Cover of Bonito: 无需GPT的轻量级指令微调数据集生成库

awesome-synthetic-datasets: 人工智能合成数据集大全

2 个月前
Cover of awesome-synthetic-datasets: 人工智能合成数据集大全

Bonito入门指南 - 无需GPT即可生成指令调优数据集的轻量级库

2 个月前
Cover of Bonito入门指南 - 无需GPT即可生成指令调优数据集的轻量级库
相关项目
Project Cover

bonito

Bonito:一个开源模型,用于生成用于指令调优的训练数据集,将无标注文本转化为适应多种任务需求的数据集。基于Hugging Face的Transformers和VLLM库,Bonito支持数种任务类型,包括问题生成和自然语言推理,适合学术研究及技术开发使用。

Project Cover

awesome-synthetic-datasets

该项目整理了大语言模型生成合成数据集的相关资源,包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集,以及Self-Instruct、AutoPrompt等技术,为AI研究和开发提供参考。

Project Cover

Llama-3-Instruct-8B-SPPO-Iter2

该模型在第二轮自我博弈偏好优化中,通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构,该过程从openbmb/UltraFeedback数据集中提取提示集,并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上,该模型在语言理解和推理任务中表现出更优胜率和准确度。

Project Cover

coloringbookflux

使用Flux LoRA技术的AI涂色书模型,专为创意素材如涂色书和海报设计。利用合成数据集和Joy Caption Batch标注,用户可通过调整提示词和白色背景来获得理想效果。

Project Cover

Gemma-2-9B-It-SPPO-Iter3

Gemma-2-9B-It-SPPO-Iter3以google/gemma-2-9b-it为基础,经过第三次自我游戏偏好优化迭代开发,结合openbmb/UltraFeedback数据集微调。在合成数据集中展现了出色的性能,LC.获胜率达到53.27%,在AlpacaEval排行榜上表现优良。项目主要使用英语,遵循Apache-2.0许可,适用于多种自然语言处理场景。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号