大语言模型训练的数据管理
这是一个精心策划的大语言模型训练数据管理资源列表。论文按照我们的综述论文《大语言模型训练数据管理:一项调查》进行组织。
目录
预训练
领域组成
- Lamda:对话应用的语言模型(Arxiv,2022年1月)[论文] [代码]
- 通过重要性重采样进行语言模型的数据选择(Arxiv,2023年2月)[论文] [代码]
- CodeGen2:编程和自然语言大语言模型训练的经验教训(ICLR 2023)[论文] [模型]
- DoReMi:优化数据混合加速语言模型预训练(Arxiv,2023年5月)[论文] [代码]
- 预训练者训练数据指南:测量数据年龄、领域覆盖、质量和毒性的影响(Arxiv,2023年5月)[论文]
- SlimPajama-DC:理解大语言模型训练的数据组合(Arxiv,2023年9月)[论文] [模型] [数据集]
- DoGE:基于泛化估计的领域重加权(Arxiv,2023年10月)[论文] [代码]
- 数据混合法则:通过预测语言建模性能优化数据混合(Arxiv,2024年3月)[论文] [代码]
- Sheared LLaMA:通过结构化剪枝加速语言模型预训练(ICLR 2024)[论文] [代码]
数据数量
-
缩放法则
-
数据重复
数据质量
-
质量过滤
-
文本数据质量过滤的实证探索(Arxiv,2021年9月)[论文]
-
一瞥质量:对网络爬取的多语言数据集的审计(ACL 2022)[论文]
-
预训练者训练数据指南:测量数据年龄、领域覆盖、质量和毒性的影响(Arxiv,2023年5月)[论文]
-
Falcon LLM的RefinedWeb数据集:仅使用网络数据超越精选语料库(NeurIPS 2023)[论文] [数据集]
-
少即是多:调查大规模预训练LLMs的数据修剪(Arxiv,2023年9月)[论文]
-
Phi-2:小型语言模型的惊人能力(博客文章,2023年12月)[文章]
-
去重
-
毒性过滤
-
多样性和年龄
-
*社会偏见
-
*幻觉
- 预训练语言模型如何捕捉事实知识?因果启发的分析(ACL 2022)[论文]
- 对话模型中幻觉的起源:是数据集还是模型的问题?(NAACL 2022)[论文]
- 大型语言模型在推理任务中产生幻觉的来源(EMNLP Findings,2023)(https://arxiv.org/abs/2305.14552)
不同方面之间的关系
- 训练者指南:衡量数据年龄、领域覆盖、质量和毒性对训练数据的影响(Arxiv,2023年5月)[论文]
- SlimPajama-DC:理解大语言模型训练中的数据组合(Arxiv,2023年9月)[论文] [模型] [数据集]
- DeepSeek LLM:以长期主义扩展开源语言模型(Arxiv,2024年1月)[论文] [模型]
- 数据过滤的扩展定律 -- 数据整理不能忽视计算(CVPR 2024)[论文] [代码]
- 高效的数据混合:语言模型预训练的二元扩展定律(Arxiv,2024年5月)[论文]
有监督微调
任务组合
- 超自然指令:通过1600多个任务的声明性指令实现泛化(EMNLP 2022)[论文] [数据集]
- 微调的语言模型是零样本学习器(ICLR 2022)[论文] [数据集]
- 多任务提示训练实现零样本任务泛化(ICLR 2022)[论文] [代码]
- 扩展指令微调的语言模型(Arxiv,2022年10月)[论文] [数据集]
- OPT-IML:通过泛化视角扩展语言模型指令元学习(Arxiv,2022年12月)[论文] [模型]
- Flan集合:为有效指令调优设计数据和方法(ICML,2023)[论文] [数据集]
- 探索训练专家语言模型相对于指令调优的优势(ICML,2023)[论文] [代码]
- 使用跨任务最近邻的数据高效微调(ACL Findings,2023)[论文] [代码]
- 可能只需0.5%的数据:低训练数据指令调优的初步探索(Arxiv,2023年5月)[论文]
- 骆驼能走多远?探索开放资源上指令调优的现状(Arxiv,2023年6月)[论文] [代码]
- 有监督微调数据组成如何影响大语言模型的能力(Arxiv,2023年10月)[论文]
- LESS:为目标指令调优选择有影响力的数据(Arxiv,2024年2月)[论文] [代码]
- 指令很重要,一种简单而有效的特定任务指令调优任务选择方法(Arxiv,2024年4月)[论文]
数据质量
-
指令质量
-
SelFee:由自我反馈生成赋能的迭代自我修正大语言模型(博客文章,2023年5月)[项目]
-
AlpaGasus:用更少的数据训练更好的Alpaca(Arxiv,2023年7月)[论文]
-
利用大卫对抗歌利亚的力量:探索不使用闭源模型的指令数据生成(Arxiv,2023年8月)[论文]
-
通过指令反向翻译实现自我对齐(Arxiv,2023年8月)[论文]
-
SELF:大语言模型的语言驱动自我进化(Arxiv,2023年10月)[论文]
-
LoBaSS:衡量监督微调数据的可学习性(Arxiv,2023年10月)[论文]
-
一次性学习作为大语言模型的指令数据勘探者(Arxiv,2023年12月)[论文]
-
大语言模型标签高效监督微调的实验设计框架(Arxiv,2024年1月)[论文]
-
SelectIT:通过不确定性感知自我反思进行大语言模型的选择性指令调优(Arxiv,2024年2月)[论文] [代码]
-
小型语言模型能够为大型语言模型选择指令调优训练数据(Arxiv,2024年2月)[论文]
-
小到大(S2L):通过总结小模型训练轨迹实现大语言模型微调的可扩展数据选择(Arxiv,2024年3月)[论文]
-
用于稳健语言模型微调的自动化数据策划(Arxiv,2024年3月)[论文]
-
SHED:基于Shapley值的指令微调自动化数据集优化(Arxiv,2024年5月)[论文]
-
指令多样性
-
自我指导:通过自生成指令对齐语言模型(ACL 2023)[论文][代码]
- 斯坦福 Alpaca(2023年3月)[代码]
- 通过扩展高质量指令对话来增强聊天语言模型(Arxiv,2023年5月)[论文] [代码]
- Lima:对齐时少即是多(Arxiv,2023年5月)[论文] [数据集]
- #InsTag:指令标记用于分析大型语言模型的监督微调(Arxiv,2023年8月)[论文] [代码]
- 探索-指导:通过主动探索增强特定领域的指令覆盖(Arxiv,2023年10月)[论文] [代码]
- DiffTune:基于扩散的多样化指令调优数据生成方法(NeurIPS 2023)[论文]
- 自演化多样数据采样以实现高效指令调优(Arxiv,2023年11月)[论文] [代码]
- 数据多样性对稳健指令调优至关重要(Arxiv,2023年11月)[论文]
- 聚类与排序:通过专家对齐质量估计实现多样性保留的指令选择(Arxiv,2024年2月)[论文] [代码]
- 大型语言模型指令挖掘的多视图融合(信息融合,2024年10月)[论文]
-
指令复杂性
- WizardLM:赋予大型语言模型执行复杂指令的能力(Arxiv,2023年4月)[论文] [代码]
- WizardCoder:用Evol-Instruct增强代码大型语言模型(Arxiv,2023年6月)[论文] [代码]
- Orca:从GPT-4的复杂解释轨迹中渐进学习(Arxiv,2023年6月)[论文] [代码]
- 复杂性和对齐之间内在关系的初步研究(Arxiv,2023年8月)[论文]
- #InsTag:指令标记用于分析大型语言模型的监督微调(Arxiv,2023年8月)[论文] [代码]
- 大型语言模型能否理解真实世界的复杂指令?(Arxiv,2023年9月)[论文] [基准]
- Followbench:大型语言模型的多层次细粒度约束遵循基准(Arxiv,2023年10月)[论文] [代码]
- Conifer:提高大型语言模型复杂约束指令遵循能力(Arxiv,2024年2月)[论文] [代码]
- 从复杂到简单:增强大型语言模型的多约束复杂指令遵循能力(Arxiv,2024年4月)[论文] [代码]
-
*提示设计
-
通过困惑度估计揭示语言模型中的提示(Arxiv, 2022年12月)[论文]
-
模型真的学会了遵循指令吗?指令调优的实证研究(ACL, 2023)[论文]
-
模仿专有大语言模型的虚假承诺(Arxiv, 2023年5月)[论文]
-
探索指令调优的格式一致性(Arxiv, 2023年7月)[论文]
-
注意指令:基于提示学习的一致性和交互的全面评估(Arxiv, 2023年10月)[论文]
-
指令调优的动态:大语言模型的每种能力都有自己的成长速度(Arxiv, 2023年10月)[论文]
-
*幻觉
数据数量
- 探索指令数据规模对大语言模型的影响:基于真实用例的实证研究(Arxiv, 2023年3月)[论文]
- Lima:对齐中少即是多(Arxiv, 2023年5月)[论文] [数据集]
- 也许只需0.5%的数据:低训练数据指令调优的初步探索(Arxiv, 2023年5月)[论文]
- 大语言模型学习数学推理的缩放关系(Arxiv, 2023年8月)[论文] [代码]
- 监督微调数据组成如何影响大语言模型的能力(Arxiv, 2023年10月)[论文]
- 指令调优的动态:大语言模型的每种能力都有自己的成长速度(Arxiv, 2023年10月)[论文]
- 当扩展遇到大语言模型微调:数据、模型和微调方法的影响(ICLR 2024)[论文]
动态数据高效学习
-
训练影响数据
-
数据影响训练
- Dynosaur:指令调优数据策划的动态增长范式(Arxiv, 2023年5月)[论文] [代码]
- OpenChat:利用混合质量数据推进开源语言模型(Arxiv, 2023年9月)[论文] [代码]
- 监督微调数据组成如何影响大语言模型的能力(Arxiv, 2023年10月)[论文]
- 基于数据课程的大语言模型对比后训练(Arxiv, 2023年10月)[论文]
- InsCL:一种用于大语言模型指令微调的数据高效持续学习范式(NAACL 2024)[论文]
- Conifer:改善大语言模型复杂约束指令遵循能力(Arxiv, 2024年2月)[论文] [代码]
- 策略性数据排序:通过课程学习增强大语言模型性能(Arxiv, 2024年5月)[论文]
不同方面之间的关系
- #InsTag:用于分析大型语言模型监督微调的指令标注(ArXiv,2023年8月)[论文] [代码]
- 数据多样性对稳健指令微调至关重要(ArXiv,2023年11月)[论文]
- 重新思考指令质量:LIFT就是你所需要的(ArXiv,2023年12月)[论文]