Awesome-instruction-tuning
一个精心整理的开源指令微调数据集、模型、论文和仓库的列表。
数据集和模型
由传统自然语言处理任务修改而来
根据 Longpre 等 的方法,我们列出了从传统 NLP 任务修改而来的所有现有指令微调数据集。
发布日期 | 数据集 | 任务数量 | 实例数量 | 模型名称 | 基础模型 | 模型大小 |
---|---|---|---|---|---|---|
2020-05 | UnifiedQA | 46 | 750k | UnifiedQA | RoBerta | 110-340 M |
2021-04 | CrossFit | 159 | 71.M | BART-CrossFit | BART | 140 M |
2021-04 | Natural Inst v1.0 | 61 | 620 k | Gen. BART | BART | 140 M |
2021-09 | Flan 2021 | 62 | 4.4M | Flan-LaMDA | LaMDA | 137B |
2021-10 | P3 | 62 | 12M | TO, TO+, TO++ | T5-LM | 3-11B |
2021-10 | MetalCL | 142 | 3.5M | MetalCL | GPT-2 | 770 M |
2021-11 | ExMix | 107 | 500 k | ExT5 | T5 | 220M-11B |
2022-04 | Super-Natural Inst. | 1613 | 5M | Tk-Instruct | T5-LM, mT5 | 17-13B |
2022-10 | GLM | 77 | 12M | GLM-130B | GLM | 130 B |
2022-10 | Flan 2022 | 1836 | 15M | Flan-T5, Flan-PaLM | T5-LM, PaLM | 10 M-540 B |
2022-11 | xP3 | 71 | 81M | BLOOMz, mTO | BLOOM, mT5 | 13-176B |
2022-12 | Unnatural Inst. | 117 | 64 k | T5-LM-Unnat. Inst. | T5-LM | 11B |
由LLM生成
发布日期 | 模型名称 | 基础模型 | 模型大小 | 数据集 | 实例数量 | 语言 |
---|---|---|---|---|---|---|
2022-12 | GPT-3 Self Inst. | GPT-3 | 175B | Self-Instruct | 82 k | 英语 |
2023-03-03 | alpaca | LLaMA | 7B | alpaca_data | 52 k | 英语 |
2023-03-19 | alpaca-lora | LLaMA | 7B 13B 30B | alpaca_data、alpaca_data_cleaned | 52 k | 英语 |
2023-03-23 | Chinese-Vicuna | LLaMA | 7B 13B | BELLE、GuanacoDataset | 1M | 中文 |
2023-03-24 | Alpaca-CoT | LLaMA | 7B | dataset | ---- | 英语 中文 |
2023-03-25 | dolly | dolly | 6B | alpaca_data | 52 k | 英语 |
2023-03-25 | guanaco | LLaMA | 7B | GuanacoDataset | 534 k | 英语 中文 日语 德语 |
2023-03-28 | Chinese-LLaMA-Alpaca | LLaMA | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Self-Instruct | 2M | 中文 |
2023-03-29 | ColossalChat | LLaMA | 7B 13B | InstructionWild | 104 k | 英语 中文 |
2023-03-31 | Luotuo | LLaMA ChatGLM | 7B 6B | trans_chinese_alpaca_data | 52k | 中文 |
2023-03-31 | cerebras-lora-alpaca | Cerebras-GPT | 2.7B | AlpacaDataCleaned | 52k | 英语 |
多语言工具
现有大多数数据集都是英语。然而,世界上大多数人群在其语言的数据可用性方面仍处于服务不足的状态。如何确保全世界所有人都能从生成式 AI 中受益?我们开发了一种基于 Helsinki-NLP 的简单且开源的翻译工具,能够免费将英语数据集翻译成 100 多种语言。尽管这些翻译的数据集可能包含一些噪音,但它们仍然是昂贵的高质量数据的可行替代品。见下文。
使用 translator.py:
python translator.py model_name source_data_path
例子:
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
我们的工具设计用于与 alpaca 数据和 Helsinki-NLP/opus-mt-en-zh 模型配合工作。不同的数据集或 Helsinki-NLP 模型会产生不同的结果。由于模型的局限性,翻译质量可能并不总是最佳的。例如,我们注意到从英语翻译到中文时出现了重复词的情况,因而开发了 "process.py" 来消除包含连续出现三次的任何长度字符串的翻译提示。我们在 "translated_alpaca_data.json" 中提供了最终版本。
使用 process.py:
python process.py unprocessed_data_path
例子:
python process.py translated_data.json
Helsinki-NLP 模型可能对输入句子的最大长度有上限。在翻译之前,我们已经放弃了超过此限制的提示。
论文
我们广泛审查了该领域的论文,并列出了以下最有价值的论文:
Finetuned language models are zero-shot learners 2021.9
Multitask Prompted Training Enables Zero-Shot Task Generalization 2021.10
Training language models to follow instructions with human feedback 2022.3
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks 2022.4
Unsupervised Cross-Task Generalization via Retrieval Augmentation 2022.4
Instruction Induction: From Few Examples to Natural Language Task Descriptions 2022.5
Scaling Instruction-Finetuned Language Models 2022.10
Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners 2022.10
Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor 2022.12
Self-Instruct: Aligning Language Model with Self Generated Instructions 2022.12
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning 2022.12
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 2023.1
In-Context Instruction Learning 2023.2
大家的仓库
此外,我们提供了一些相关的仓库供参考。