awesome-text/visual-instruction-tuning-dataset
一个开源指令调优数据集的集合,用于训练(文本和多模态)基于聊天的大型语言模型(GPT-4、ChatGPT、LLaMA、Alpaca)。 我们目前包含三种类型的数据集:
- 视觉指令调优(例如图像-指令-答案)
- 文本指令调优数据集
- 红队测试 | 人类反馈强化学习(RLHF)数据集
指令调优/人类反馈强化学习(RLHF)数据集是ChatGPT等遵循指令的大型语言模型的关键组成部分。本仓库致力于提供各种大型语言模型用于指令调优的数据集的综合列表,使研究人员和开发人员更容易访问和利用这些资源。
训练大型语言模型的代码库列表:
- nichtdax/awesome-totally-open-chatgpt:完全开放的ChatGPT替代品的代码库
规模:指令调优对的数量
语言标签:
- EN:英语指令数据集
- CN:中文指令数据集
- ML:[多语言]多种语言的指令数据集
任务标签:
- MT:[多任务]包含多个任务的数据集
- TS:[特定任务]针对特定任务定制的数据集
生成方法:
- HG:[人工生成数据集]由人类创建的数据集
- SI:[自我指导]使用自我指导方法生成的数据集
- MIX:[混合数据集]包含人工和机器生成数据的数据集
- COL:[数据集集合]由其他数据集集合而成的数据集
目录
模板
在文件末尾添加新项目
## [({所有者}/{项目名称)|标签}]{https://github.com/链接/到/项目}
- 摘要:
- 数据生成模型:
- 论文:
- 许可证:
- 相关:(如适用)
多模态指令数据集
(Vision-CAIR/MiniGPT-4)|5K|EN|MT|MIX
- 摘要:使用两个机器人之间的对话创建的高质量、对齐良好(例如更详细的图像描述)的图像-文本数据集,类似于ChatCaptioner。这个图像-文本数据集可以与一些预定义的指令模板一起用于图像-指令-答案的微调。
- 模态:文本、图像
- 数据生成模型:N/A
- 论文:MiniGPT-4: 使用先进的大型语言模型增强视觉语言理解
- 许可证:
BSD 3-Clause
- 相关:
(haotian-liu/LLaVA)|150K|EN|MT|MIX
- 摘要:LLaVA Visual Instruct 150K是一组GPT生成的多模态指令遵循数据。它是为视觉指令调优和构建大型多模态模型而设计的,旨在实现GPT-4的视觉/语言能力。
- 模态:文本、图像
- 数据生成模型:
GPT-4-0314
- 论文:视觉指令调优
- 许可证:
CC BY-NC 4.0
[({sunrainyg}/{InstructCV)|EN|MT|MIX}]{https://github.com/AlaaLab/InstructCV}
- 摘要:指令调优的文本到图像扩散模型作为通用视觉模型
- 模态:文本、图像
- 论文:InstructCV
- 许可证:
CC BY-NC 4.0
指令调优数据集
(tatsu-lab/Alpaca)|52K|EN|MT|SI
- 摘要:使用修改后的
self-instruct
流程生成的52K
数据,包含人工编写的175个种子任务
。 - 数据生成模型:
text-davinci-003
- 论文:alpaca-blog
- 许可证:
CC BY-NC 4.0
(gururise/Cleaned Alpaca)|52K|EN|MT|SI
- 摘要:一个手动清理Alpaca 52K数据集的项目
- 数据生成模型:
text-davinci-003
- 论文:不适用
- 许可证:
CC BY-NC 4.0
(XueFuzhao/InstructionWild)|52K|EN|CN|MT|SI
- 摘要:使用修改后的
self-instruct
流程和人工编写的429个种子任务
生成的52K
数据。 - 数据生成模型:
text-davinci-003
- 论文:不适用
- 许可证:InstructWild数据集仅供非商业研究目的使用。
(JosephusCheung/GuanacoDataset)|534K|ML|MT|SI
- 摘要:使用修改后的
self-instruct
流程和人工编写的429个种子任务
生成的52K
指令数据。 - 数据生成模型:
text-davinci-003
- 许可证:
GPL-3.0
(Hello-SimpleAI/HC3)|24K|EN|MT|MIX
- 摘要:第一个人类-ChatGPT比较语料库(英文版),名为HC3数据集
- 数据生成模型:
gpt-3.5
,人工生成
- 论文:ChatGPT与人类专家的接近程度如何?比较语料库、评估和检测
- 许可证:
CC BY-SA 4.0
(Hello-SimpleAI/HC3-Chinese)|13K|CN|MT|MIX
- 摘要:第一个人类-ChatGPT比较语料库(中文版),名为HC3数据集
- 数据生成模型:
gpt-3.5
,人工生成
- 论文:ChatGPT与人类专家的接近程度如何?比较语料库、评估和检测
- 许可证:
CC BY-SA 4.0
(allenai/prosocial-dialog)|58K|EN|MT|MIX
- 摘要:ProsocialDialog是第一个大规模多回合英语对话数据集,旨在教导对话代理按照社会规范回应有问题的内容。
- 数据生成模型:
gpt-3.5
,人工生成
- 论文:ProsocialDialog:对话代理的亲社会主干
- 许可证:
CC BY 4.0
(allenai/natural-instructions)|1.6K|ML|MT|HG
- 摘要:一项社区努力,创建了一个包含
1,616个不同NLP任务
及其自然语言定义/指令的大型集合。 - 数据生成模型:
人工生成
- 论文:超级自然指令:通过1600多个NLP任务的声明性指令实现泛化
- 许可证:
Apache License 2.0
(bigscience/xP3)|N/A|ML|MT|MIX
- 摘要:[提示资源]xP3(跨语言公共提示池)是一个覆盖46种语言和16个NLP任务的提示和数据集集合。
- 数据生成模型:不适用
- 论文:通过多任务微调实现跨语言泛化
- 许可证:
Apache License 2.0
(PhoebusSi/Alpaca-CoT)|500k|ML|MT|COL
- 摘要:基于LLaMA和Alpaca的思维链推理数据集。注意:他们的仓库将持续收集和组合各种指令调优数据集。GitHub仓库
- 论文:不适用
- 许可证:
Apache License 2.0
(nomic-ai/gpt4all)|437k|EN|MT|COL
- 摘要:gpt4all利用了三个公开可用的数据集:1.laion/OIG,2.pacovaldez/stackoverflow-questions 3.bigscience/bloomz-p3的子集
- 数据生成模型:不适用
- 论文:GPT4All:通过GPT-3.5-Turbo的大规模数据蒸馏训练助手式聊天机器人
- 许可证:
MIT License
(teknium1/GPTeacher)|20k+|EN|MT|SI
- 摘要:由GPT-4生成的模块化数据集集合,包括通用指令、角色扮演指令、代码指令和Toolformer
- 数据生成模型:
GPT-4
- 论文:不适用
- 许可证:
MIT License
(google-research/FLAN)|N/A|EN|MT|MIX
- 摘要:Flan集合汇编了来自Flan 2021、P3、超自然指令以及数十个其他数据集,并将它们格式化为零样本、少样本和思维链模板的混合
- 数据生成模型:不适用
- 论文:Flan集合:设计有效指令调优的数据和方法
- 许可证:
Apache License 2.0
(thunlp/UltraChat)|280k|EN|TS|MIX
- 摘要:UltraChat旨在构建一个开源的、大规模的多轮对话数据。UltraChat的第一部分(即关于世界的问题部分)已发布,包含28万个多样化和信息丰富的对话。更多关于写作和创作、对现有材料的协助的对话即将推出。
- 数据生成模型:
GPT-3.5-turbo
- 论文:不适用
- 许可证:
CC BY-NC 4.0
(cascip/ChatAlpaca)|10k|EN|MT|MIX
- 摘要:基于Stanford Alpaca数据,ChatAlpaca将数据扩展到多轮指令及其对应回复。更多数据(20k)和中文翻译版本即将推出。
- 数据生成模型:
GPT-3.5-turbo
- 论文:不适用
- 许可证:
Apache License 2.0
- 相关:(tatsu-lab/Alpaca)|52K|EN|MT|SI
(YeungNLP/firefly-train-1.1M)|1100k|CN|MT|COL
- 摘要:结合人工编写指令模板的23个任务的中文数据集。
- 数据生成模型:不适用
- 论文:不适用
- 许可证:不适用
(orhonovich/unnatural-instructions)|240K|EN|MT|MIX
- 摘要:通过提示语言模型使用三个种子示例指令并引出第四个,生成64K个示例。然后通过提示模型重新表述每条指令,将集合扩展到240K。
- 数据生成模型:
text-davinci-002
- 论文:Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor
- 许可证:
MIT License
(Instruction-Tuning-with-GPT-4/GPT-4-LLM)|52K|EN|CN|MT|SI
- 摘要:GPT-4使用原始Alpaca提示和ChatGPT翻译成中文的Alpaca提示生成的52K条指令遵循数据 + GPT-4使用Unnatural Instruction中的提示生成的9K条指令遵循数据。
- 数据生成模型:
GPT-4
- 论文:Instruction Tuning with GPT-4
- 许可证:
CC BY-NC 4.0
- 相关:
(databrickslabs/dolly)|15K|EN|MT|HG
- 摘要:这个数据集由数千名Databricks员工生成,涵盖了InstructGPT论文中概述的几个行为类别,包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和总结。
- 数据生成模型:不适用
- 论文:Free Dolly
- 许可证:
CC BY-SA 3.0
(OpenAssistant/oasst1)|161K|ML|MT|HG
- 摘要:OpenAssistant对话(OASST1),一个人工生成、人工标注的助手式对话语料库,包含161,443条消息,分布在66,497个对话树中,涵盖35种不同语言,并附有461,292个质量评级。
- 数据生成模型:不适用
- 论文:OpenAssistant Conversations - Democratizing Large Language Model Alignment
- 许可证:
Apache License 2.0
(RyokoAI/ShareGPT52K)|90K|ML|MT|SI
- 摘要:在ShareGPT API关闭之前通过其抓取的90,000个对话。这些对话包括用户提示和OpenAI的ChatGPT的回复。
- 数据生成模型:
GPT-4
,GPT-3.5
- 论文:不适用
- 许可证:
CC0 1.0 Universal
(zjunlp/Mol-Instructions)|2043K|ML|MT|MIX
-
摘要:一个开放的、大规模的生物分子指令数据集,包含148.4K个分子导向、505K个蛋白质导向和53K个生物分子文本指令。
-
数据生成模型:
GPT-3.5
-
论文:Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models
-
许可证:
CC BY 4.0
人类反馈强化学习(RLHF) | 红队数据集
(Anthropic/hh-rlhf)|22k|EN|MT|MIX
- 摘要:这个RLHF数据集是一个迭代的"在线"数据集,包括来自52B语言模型的数据。它包含22k个有用性比较,没有红队数据。
- 数据生成模型:
Anthropic RL-CAI 52B
- 论文:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- 许可证:
MIT License
- 相关:
(thu-coai/Safety-Prompts)|100k|CN|MT|MIX
- 摘要:用于评估和改进LLMs安全性的中文安全提示。该存储库包含10万个中文安全场景提示和ChatGPT响应,涵盖各种安全场景和命令攻击。它可用于对模型安全进行全面评估和改进,以及增强模型的安全知识,使模型输出与人类价值观一致。
- 数据生成模型:
GPT-3.5
- 论文:Safety Assessment of Chinese Large Language Models
- 许可证:
Apache License 2.0
(HuggingFaceH4/stack-exchange-preferences)|10741k|EN|TS|HG
- 摘要:该数据集包含来自Stack Overflow数据转储的问题和答案,用于偏好模型训练。
- 数据生成模型:不适用
- 论文:A General Language Assistant as a Laboratory for Alignment
- 许可证:
CC BY-SA 4.0
- 相关:
(stanfordnlp/SHP)|385k|EN|MT|HG
- 摘要:每个示例是一个Reddit帖子,包含一个问题/指令和该帖子的一对顶级评论,其中一个评论更受Reddit用户(集体)青睐。
- 数据生成模型:不适用
- 论文:不适用
- 许可证:不适用
(Instruction-Tuning-with-GPT-4/GPT-4-LLM)|52K|EN|MT|MIX
- 摘要:三个模型(GPT-4、GPT-3.5和OPT-IML)对Alpaca提示的排名回复(注:数据由
GPT-4
模型评估,而非人类)。作者认为"GPT-4能够识别并修正自己的错误,并准确判断回复的质量" - 数据生成模型:
GPT-4
- 论文:Instruction Tuning with GPT-4
- 许可证:
CC BY-NC 4.0
- 相关:
(Reddit/eli5)|500k|EN|MT|HG
- 摘要:该数据集包含来自r/explainlikeimfive、r/askhistorians和r/askscience子版块的问题和答案。
- 数据生成模型:不适用
- 论文:不适用
- 许可证:不适用
- 相关:eli5数据集 是eli5数据集的转换版本,格式类似于stack-exchange-paired。
允许商业使用的许可证
注意:虽然这些许可证允许商业使用,但它们在署名、分发或修改方面可能有不同的要求。在商业项目中使用之前,请务必仔细阅读每个许可证的具体条款。
商业使用许可证:
- Apache许可证2.0
- MIT许可证
- BSD 3条款许可证
- BSD 2条款许可证
- GNU宽通用公共许可证v3.0(LGPLv3)
- GNU Affero通用公共许可证v3.0(AGPLv3)
- Mozilla公共许可证2.0(MPL-2.0)
- Eclipse公共许可证2.0(EPL-2.0)
- 微软公共许可证(Ms-PL)
- 知识共享署名4.0国际许可证(CC BY 4.0)
- 知识共享署名-相同方式共享4.0国际许可证(CC BY-SA 4.0)
- zlib许可证
- Boost软件许可证1.0