超棒的ChatGPT数据集
释放大语言模型的力量:探索这些数据集来训练你自己的ChatGPT!
选择你自己的混合数据集
git clone https://github.com/voidful/awesome-chatgpt-dataset.git cd awesome-chatgpt-dataset/mixed/dataset
选择你想使用的任何数据集,然后合并并上传:
python preprocess.py 你的数据集名称_to_HuggingFaceHub
数据集详情
数据集名称 | 大小 | 语言 | 来源 | 许可证 |
---|---|---|---|---|
TheoremQA | 1千 | 英语 | 我们标注了800个问答对,涵盖350多个定理,跨越数学、电子电气与计算机科学、物理和金融领域。 | MIT |
lima | 1千 | 英语 | LIMA:对齐中更少即是更多 | CC BY-NC-SA |
im-feeling-curious | 3千 | 英语 | 这个公开数据集是从谷歌的"我很好奇"功能中提取的。要了解更多关于这个功能的信息,请在谷歌上搜索"我很好奇"。 | - |
Puffin | 3千 | 英语 | Puffin数据集。精确包含3,000个样本,每个回答均使用GPT-4创建。 | apache-2.0 |
cc_sbu_align | 4千 | 英语 | MiniGPT-4数据集 | BSD 3-Clause License |
qa_feedback | 4千 | 英语 | 我们重构了ASQA数据并收集了人类反馈。我们将得到的数据集命名为qa-feedback。 | - |
SLF5K | 5千 | 英语 | 带有语言反馈的摘要(SLF5K)数据集是一个英语数据集,包含5千个独特样本,可用于抽象摘要任务。 | apache-2.0 |
blended_skill_talk | 7千 | 英语 | 一个包含7千个对话的数据集,专门设计用于展示多种对话模式:展现个性、表达同理心和展示知识。 | - |
GSM-IC | 8千 | 英语 | 带有无关上下文的小学数学(GSM-IC) | - |
ChatAlpaca | 1万 | 英语 | 数据目前包含总计10,000个对话,共95,558条话语。 | Apache-2.0 license |
PKU-SafeRLHF-10K | 1万 | 英语 | PKU-SafeRLHF-10K是同类数据集中的第一个,包含1万个带有安全偏好的实例。 | - |
Dolly | 1.5万 | 英语 | databricks-dolly-15k是一个由数千名Databricks员工生成的语料库,包含超过15,000条记录,旨在使大型语言模型能够展现ChatGPT的神奇交互能力。 | CC 3.0 |
WebGPT | 2万 | 英语 | 这是WebGPT项目结束时被标记为适合奖励建模的所有比较的数据集。 | - |
Code Alpaca | 2万 | 英语 | 涉及20,022个样本的代码生成任务 | - |
openapi-function-invocations-25k | 2.5万 | 英语 | 这个数据集的构建涉及结合手动提取和AI辅助合成的系统程序。 | MIT |
LongForm | 2.8万 | 英语 | LongForm数据集是通过利用带有增强指令的英语语料库示例创建的。 | LongForm项目受MIT许可证约束,但对OpenAI施加的限制(用于指令生成部分)以及语言模型(OPT、LLaMA和T5)的许可证有自定义限制。 |
chatbot_arena_conversations | 3.3万 | 英语 | 该数据集包含33K经过清理的对话,带有成对的人类偏好。它是从2023年4月至6月期间在Chatbot Arena上由13K个独特IP地址收集的。 | |
HC3 | 3.7万 | 英语、中文 | 37,175条由ChatGPT和人类生成的指令 | - |
Anthropic_HH_Golden | 4.5万 | 英语 | 这个存储库包含一个新的偏好数据集,扩展了Anthropic的Helpful and Harmless (HH)数据集中的无害数据集。HH中原始的积极回应是由Anthropic的监督微调模型生成的,其中经常遇到有害和无益的回应。在这个数据集中,积极回应被GPT4生成的重新编写的回应所替代。 | |
Mol-Instructions | 4.8万 | 英语 | 一个开放的、大规模的生物分子指令数据集,用于大型语言模型。 | CC BY 4.0 |
RefGPT | 5万 | 英语、中文 | 我们引入了一种名为RefGPT的成本效益方法,该方法生成大量高质量的多轮问答内容。 | - |
arxiv-math-instruct-50k | 5万 | 英语 | 数据集由来自ArXiv数学类别摘要的问答对组成 | - |
arxiv-math-instruct-50k | 5.1万 | 英语 | "ArtifactAI/arxiv-math-instruct-50k"数据集由来自ArXiv数学类别摘要的问答对组成。问题使用t5-base模型生成,而答案使用GPT-3.5-turbo模型生成。 | |
Traditional Chinese Alpaca Dataset | 5.2万 | 繁体中文 | 由ChatGPT API翻译自Alpaca数据 | Apache-2.0 license |
Cabrita Dataset | 5.2万 | 葡萄牙语 | 翻译自Alpaca数据 | |
日语Alpaca数据集 | 52K | 日语 | 使用ChatGPT API从Alpaca数据翻译而来 | CC By NC 4.0; OpenAI使用条款 |
Alpaca数据集 | 52K | 英语 | 通过OpenAI API生成的175个种子指令 | CC By NC 4.0; OpenAI使用条款 |
Alpaca数据清洗版 | 52K | 英语 | Alpaca数据集的修订版本 | - |
Alpaca GPT-4数据 | 52K | 英语 | 使用Alpaca提示由GPT-4生成 | - |
Alpaca GPT-4数据(中文) | 52K | 中文 | 使用ChatGPT翻译的Alpaca中文提示由GPT-4生成 | - |
Dynosaur | 66K | 英语 | Dynosaur,一种用于指令调优数据创建的动态增长范式 | Apache-2.0许可证 |
金融 | 69K | 英语 | 68,912条金融相关指令 | - |
evol | 70K | 英语 | 这是WizardLM的训练数据 | - |
Vicuna数据集 | 75K | 英语 | 约10万条ShareGPT对话 | - |
指令翻译 | 80K | 多语言 | 翻译由M2M 12B生成,由于VRAM限制(40G),输出生成限制为512个令牌 | MIT |
Self-Instruct | 82K | 英语 | 我们发布了一个包含52k指令的数据集,配对82K个实例输入和输出 | - |
OASST1 | 89K | 多语言 | 一个人工生成、人工标注的助手式对话语料库,包含35种不同语言的161,443条消息,标注了461,292个质量评级,形成超过10,000个完全标注的对话树 | apache-2.0 |
HH-RLHF | 91K | 英语 | 数据在论文中有描述:通过人类反馈的强化学习训练有帮助且无害的助手 | MIT |
Guanaco数据集 | 98K | 英语、简体中文、繁体中文(香港和台湾)、日语 | 来自Alpaca模型的175个任务 | GPLv3 |
InstructionWild | 104K | 英语、中文 | 429个种子指令并按照Alpaca方式生成52K | 仅用于研究;OpenAI使用条款 |
Camel数据集 | 107K | 多语言 | AI之间的角色扮演(使用Open AI API) | - |
Tapir-Cleaned | 117K | 英语 | 这是DAISLab的IFTTT规则数据集的修订版,经过彻底清理、评分和调整,用于指令调优 | CC BY-NC 4.0 |
WizardLM_evol_instruct_V2_196k | 143K | 英语 | 这个数据集包含143K条Alpaca和ShareGPT混合进化而来的数据 | - |
LLaVA视觉指令 | 150K | 英语 | LLaVA视觉指令150K是一组GPT生成的多模态指令跟随数据。它用于视觉指令调优和构建大型多模态模型,以实现接近GPT-4的视觉/语言能力 | cc-by-nc-4.0 |
亲社会对话 | 166K | 英语 | 165,681条由GPT-3重写问题和人类反馈产生的指令 | - |
COIG | 191K | 中文 | 中文开放指令通用(COIG)项目,旨在维护一个无害、有帮助且多样化的中文指令语料库 | apache-2.0 |
orca-chat | 198K | 英语 | 这是orca的清理、修剪和聚类版本,形成对话风格的数据集。该过程包括移除高度相似的样本,并将指令分组形成对话 | |
非自然指令 | 241K | 英语 | 一个几乎不需要人力劳动就能收集到的大型创意多样指令数据集 | MIT |
SHP | 358K | 英语 | SHP是一个包含385K条集体人类偏好的数据集,涉及18个不同主题领域的问题/指令回应,从烹饪到法律建议 | Reddit非独家、不可转让、不可再许可和可撤销的许可 |
dromedary | 361K | 英语 | Dromedary-Verbose-Clone是一个包含360k条指令和演示的合成数据集 | cc-by-nc-4.0 |
ultrachat | 404K | 英语 | 为确保生成质量,在生成过程中采用了两个独立的ChatGPT Turbo API,一个扮演用户角色生成查询,另一个生成响应 | cc-by-nc-4.0 |
ign_clean_instruct_dataset_500k | 509K | 英语 | 该数据集包含约50.8万对高质量的提示-指令对。它是从Ultrachat提示的一个子集合成创建的。不包含任何对齐focused的响应或不适当内容。 | apache-2.0 |
ELI5 | 559K | 英语 | ELI5数据集是一个英语数据集,包含从三个subreddit收集的问题和答案,用户在这些subreddit中提出需要段落长度或更长答案的事实性问题。 | - |
GPT4All数据集 | 806K | 多语言 | LAION OIG、StackOverflow问题、BigSciense/p3数据集的子集。由OpenAI API回答。 | - |
Instruct | 889K | 英语 | 888,969条英语指令,使用AllenAI NLP工具进行增强 | MIT |
MOSS | 1M | 中文 | 由gpt-3.5-turbo生成 | Apache-2.0, AGPL-3.0许可 |
LaMini-Instruction | 3M | 英语 | 基于几个现有提示资源,使用gpt-3.5-turbo生成的总共258万对指令和响应 | cc-by-nc-4.0 |
OpenOrca | 3M | 英语 | OpenOrca数据集是FLAN Collection数据的增强集合。目前包含约100万个GPT-4完成和约320万个GPT-3.5完成。 | |
Natural Instructions | 5M | 多语言 | 从各种NLP任务中收集的5,040,134条指令 | - |
BELLE | 10M | 中文 | 这个1000万中文数据集由跨多个(指令)类型和多个领域的子集组成。 | 仅供研究;OpenAI使用条款 |
Firefly | 16M | 中文 | 1,649,398条中文指令,涵盖23个NLP任务 | - |
OIG-43M数据集 | 43M | 多语言 | 由LAION和Ontocord.ai共同创建。 | - |
xP3 | 79M | 多语言 | 78,883,588条指令,通过提示和数据集收集,跨46种语言和16个NLP任务 | - |
CodeParrot | - | Python | 数据库查询了所有小于1MB的Python文件,得到一个180GB的数据集,包含超过2000万个文件。 | - |
Alpaca-CoT数据集 | - | 多语言 | 指令数据收集 | ODC-By |
stack-exchange-paired | - | 英语 | 该数据集包含来自Stack Overflow数据转储的问题和答案,用于偏好模型训练。 | cc-by-sa-4.0 |
LangChainDatasets | - | 英语 | 这是一个社区驱动的数据集存储库,用于评估LangChain链和代理的数据集。 | - |
ParlAI | - | 英语 | 100多个流行数据集集中在一处,对话模型涵盖从开放域闲聊到任务导向对话,再到视觉问答。 | - |
GPTeacher | - | 英语 | 由GPT-4生成的模块化数据集集合,包括通用指令、角色扮演指令、代码指令和Toolformer | - |
silk-road/Wizard-LM-Chinese-instruct-evol | - | 中文 | Wizard-LM-Chinese | - |
MultiWOZ | - | 英语 | 多域Wizard-of-Oz数据集(MultiWOZ),一个完全标记的人类对话集合,跨越多个领域和主题。 | apache-2.0 |