instruction-datasets

大语言模型指令微调数据集汇总

Instruction Tuning 大语言模型数据集 NLP 多语言 Github 开源项目

该项目整理了大语言模型指令微调所需的多种数据集，包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务，提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力，为NLP研究和开发提供重要参考。

Github

Huggingface

介绍相关项目

指令微调数据集

大型语言模型指令微调的所有可用数据集

黄金标准数据集

P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- 涵盖多种NLP任务的英语提示数据集集合
- 270个数据集中的2000种提示类型
xP3: https://huggingface.co/datasets/bigscience/xP3mt
- 46种语言的13个训练任务混合，提示使用20种语言（从英语机器翻译而来）
Natural Instructions v2: https://github.com/allenai/natural-instructions
- 1,616个多样化NLP任务及其专家编写的指令基准，涵盖76种不同任务类型和55种不同语言。
The Flan Collection: https://github.com/google-research/FLAN/tree/main/flan/v2
- 包含此处部分数据集的超集
- 1836个任务，1500万个示例
Open Assistant: https://huggingface.co/datasets/OpenAssistant/oasst1
- 人工标注的助手式对话语料，包含161,443条消息，分布在66,497个对话树中，涉及35种不同语言，标注了461,292个质量评级
LIMA: 1000条高质量指令
- https://huggingface.co/datasets/GAIR/lima
databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
PRESTO: https://github.com/google-research-datasets/presto
- 55万条人类与虚拟助手之间的多语言上下文对话
BB3x: https://parl.ai/projects/bb3x/
InstructCTG: https://github.com/MichaelZhouwang/InstructCTG
- 受控生成框架 https://arxiv.org/abs/2304.14293
CrossFit: https://github.com/INK-USC/CrossFit
tasksource: https://arxiv.org/abs/2301.05948
ExMix: https://arxiv.org/abs/2111.10952
InstructEval: https://github.com/declare-lab/instruct-eval
M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 240万多模态实例和400条指令，涵盖40个任务和80种语言
MIMIC-IT: 多模态上下文指令微调: https://arxiv.org/abs/2306.05425
MultiInstruct: https://github.com/VT-NLP/MultiInstruct
COLLIE: https://github.com/princeton-nlp/Collie
Mind2Web: 面向网络的通用智能体 https://osu-nlp-group.github.io/Mind2Web/
Android in the Wild: 大规模Android设备控制数据集: https://github.com/google-research/google-research/tree/master/android_in_the_wild
FLASK: 基于对齐技能集的细粒度语言模型评估 https://github.com/kaistAI/FLASK
Safe-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
HelpSteer: https://huggingface.co/datasets/nvidia/HelpSteer

次优标准/使用语言模型生成

Self-Instruct: https://github.com/yizhongw/self-instruct
Unnatural Instructions: https://github.com/orhonovich/unnatural-instructions
Alpaca: https://huggingface.co/datasets/tatsu-lab/alpaca
- Alpaca-Clean: https://github.com/gururise/AlpacaDataCleaned
Code Alpaca: https://github.com/sahil280114/codealpaca
AlpacaGPT3.5Customized: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-pruned: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
ShareGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
GPTeacher: https://github.com/teknium1/GPTeacher
CAMEL🐪: https://www.camel-ai.org/
人类与ChatGPT对比语料库: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
InstructionWild: https://github.com/XueFuzhao/InstructionWild
使用GPT-4进行指令调优: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
Guanaco: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
LongForm数据集: https://github.com/akoksal/LongForm/tree/main/dataset
- 为多样化语料样本生成LLM指令（27,739对指令和长文本）
UltraChat: https://huggingface.co/datasets/stingning/ultrachat
LLaVA视觉指令150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- GPT生成的多模态指令执行数据
GPT4Tools: https://github.com/StevenGrove/GPT4Tools
- 用于调用多个多模态模型API的指令数据
LaMini-Instruction: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 258万对指令和回复
Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
Dynosaur: https://dynosaur-it.github.io/
Alpaca-Farm: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
airoboros: https://github.com/jondurbin/airoboros
UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
WildChat: 570K真实用户-ChatGPT交互语料 https://wildchat.allen.ai/
反馈收集: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection

偏好数据集（可用于训练奖励模型）

HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- 包含人类对模型输出的有害性和有用性评分。该数据集包含约16万个人工评分示例，每个示例由聊天机器人的一对回复组成，其中一个是人类偏好的。
OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- 包含约2万个比较，每个示例包括一个问题、一对模型答案和元数据。答案由人类根据偏好评分。
OpenAI总结: https://huggingface.co/datasets/openai/summarize_from_feedback
- 包含约9.3万个示例，每个示例包含人类对模型生成摘要的反馈。人类评估员从两个选项中选择更优秀的摘要。
斯坦福人类偏好数据集（SHP）: https://huggingface.co/datasets/stanfordnlp/SHP
- 38.5万个人类对18个不同主题的问题/指令回复的集体偏好
Stack Exchange偏好: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
qa-from-hf: https://github.com/lil-lab/qa-from-hf
Nectar: https://huggingface.co/datasets/berkeley-nest/Nectar
JudgeLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback

杂项

OIG: https://huggingface.co/datasets/laion/OIG
- 这里一些数据集的超集
oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- 用多种编程语言解决的LeetCode问题
ProSocial对话: https://huggingface.co/datasets/allenai/prosocial-dialog
ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
CoT-Collection: https://github.com/kaist-lklab/CoT-Collection
DialogStudio: https://github.com/salesforce/DialogStudio
Chatbot Arena对话 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
对话编年史: https://conversation-chronicles.github.io/

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号