大语言模型合成数据集资源汇总
该项目整理了大语言模型生成合成数据集的相关资源,包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集,以及Self-Instruct、AutoPrompt等技术,为AI研究和开发提供参考。
合成数据指的是人工生成的数据,通常旨在模仿真实世界的数据。这些数据是通过算法创建的,通常使用模型或模拟,而不是从真实世界的来源收集。合成数据在机器学习中已经使用了很长时间。自大型语言模型(LLM)出现以来,越来越多地使用LLM来生成合成数据,并使用合成数据来训练LLM。
这个仓库旨在组织资源,帮助人们(包括我自己)开始构建合成数据集。因此,它只会涵盖一些内容,并且主要关注实用和实际的资源。
TinyStories是一个合成数据集,包含短篇故事,只使用典型3到4岁儿童通常理解的词汇,由GPT-3.5和GPT-4生成。我们展示了TinyStories可以用于训练和评估比最先进模型小得多的语言模型(总参数少于1000万),或者 架构更简单的模型(只有一个transformer块),但仍然能够生成流畅一致、多样化、语法几乎完美的多段故事,并展示推理能力。
Open Hermes 2.5数据集是Open Hermes 1数据集的延续,规模更大、更加多样化,质量更高的编译,达到了100万个主要是合成生成的指令和对话样本。
Cosmopedia是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博客文章、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个标记,是迄今为止最大的开放合成数据集。
这是对"Textbooks Are All You Need"的复现。更多详情请查看这篇博客文章。
WebSight是一个大型合成数据集,包含代表合成生成的英文网站的HTML/CSS代码,每个代码都附带相应的截图。
更多详情请查看这篇博客文章。
gretelai/synthetic_text_to_sql是一个高质量的合成文本到SQL样本的丰富数据集,使用Gretel Navigator设计和生成,以Apache 2.0许可发布。更多详情请查看我们的发布博客文章。
一个包含60,000个生成的函数调用示例的数据集,涵盖21个类别和3,673个API。