项目介绍:awesome-instruction-datasets
项目概述
awesome-instruction-datasets 是一个全面的开源指令数据集汇总项目,旨在帮助研究人员和开发者更好地训练基于聊天的复杂语言模型(如 ChatGPT、LLaMA、Alpaca 等)。其中包含了用于指令调优(Instruction Tuning)和从人类反馈中进行强化学习(RLHF)的关键数据集。这些数据集在训练现代语言模型以跟随指令方面发挥着重要作用。
主要内容
该项目的主要内容包括两大类数据集:提示数据集(Prompt Datasets)和 RLHF 数据集(Reinforcement Learning from Human Feedback Datasets)。这些数据集的详细信息、使用规则、统计数据和各个数据集简介都在项目中详细列出。
提示数据集
提示数据集部分聚合了多种语言、多任务和不同生成方式的数据集。这些数据集按以下标准分类:
- 语言标签(Lang):EN(英语)、CN(中文)、ML(多语言)
- 任务标签(Task):MT(多任务)、TS(特定任务)
- 生成方法(Gen):HG(人工生成)、SI(自我生成)、MIX(混合)、COL(集合)
这些标签帮助用户快速识别每个数据集的特性。例如,Alpaca - Stanford 数据集是一个多任务的英语自我指令数据集,由 text-davinci-003 模型生成,共包含 52,000 条指令数据。
RLHF 数据集
RLHF 数据集用于进一步优化语言模型,使其在交互中能够更好地匹配和响应人类反馈。这些数据集同样包含详细的生成方法和用途说明。例如,SHP 数据集收集了 385,000 条人类偏好信息,广泛应用于从烹饪到法律建议的多种主题的任务中。
数据集示例
下面是几个数据集的简要介绍:
Alpaca - Stanford
- 基于 Meta Ai LLaMA 模型的指令调优模型
- 使用 GPT-3.5 自动生成了 52,000 条指令数据
- 实验结果表明,在某些任务上可以达到甚至超过 GPT-3.5 的表现
Instruction in the Wild
- 目标是创建更大且更具多样性的指令数据集
- 收集了来自 ChatGPT 使用截图中的 429 条指令,并生成了中英文版本
JosephusCheung/GuanacoDataset
- 使用修改后的自我指令管道生成的 52,000 条指令数据
- 初始数据由人工编写的 429 条任务组成
Stanford Human Preferences Dataset (SHP)
- 包含 385,000 条人类偏好选择数据
- 用于训练 RLHF 奖励模型和自然语言生成评估模型
贡献与合作
项目欢迎广大研究人员和开发者贡献新的数据集。详细贡献指南可以在项目仓库中找到。
使用许可
所有数据集和相关内容遵循指定的开源许可证规范。具体许可信息请参考项目中的 LICENSE 文件。