只是帮助自己跟踪正在阅读的大语言模型论文,重点关注推理和模型压缩。
Transformer 架构
- 注意力是你所需要的全部
- 快速 Transformer 解码:你只需要一个写入头 - 多查询注意力
- Transformer-XL:超越固定长度上下文的注意力语言模型
- 用持久记忆增强自注意力(Meta 2019)
- MEGABYTE:使用多尺度 Transformer 预测百万字节序列(Meta 2023)
- 鬣狗层次结构:迈向更大的卷积语言模型
基础模型
- LLaMA:开放高效的基础语言模型
- PaLM:通过 Pathways 扩展语言建模
- GPT-NeoX-20B:开源自回归语言模型
- 语言模型是无监督的多任务学习器(OpenAI)- GPT-2
- BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练
- OpenLLaMA:LLaMA 的开放复现
- Llama 2:开放基础和微调对话模型
- DistilBERT,BERT 的蒸馏版本:更小、更快、更便宜、更轻
- Mamba:具有选择性状态空间的线性时间序列建模
位置编码
- 具有相对位置表示的自注意力
- RoFormer:具有旋转位置嵌入的增强型 Transformer - RoPE
- 无位置编码的 Transformer 语言模型仍能学习位置信息 - NoPE
- 修正的旋转位置嵌入 - ReRoPE
KV 缓存
- H2O:用于大型语言模型高效生成推理的重要命中率预测器(2023 年 6 月)
- vLLM:使用 PagedAttention 实现简单、快速、低成本的 LLM 服务
- FlashAttention:具有 IO 感知的快速且内存高效的精确注意力
激活函数
剪枝
- 最优脑损伤(1990)
- 最优脑外科(1993)
- 最优脑压缩:准确后训练量化和剪枝的框架(2023 年 1 月)- 基于最优脑外科引入最优脑量化
- 通过逐层最优脑外科学习剪枝深度神经网络
- SparseGPT:大型语言模型可以在一次性中准确剪枝
- 大型语言模型的简单有效剪枝方法 - 引入 Wanda(使用权重和激活的剪枝)
量化
- LLM.int8():大规模 Transformer 的 8 位矩阵乘法 - 带异常值处理的量化。可能在解决错误的问题 - 参见下面的"可量化 Transformer"。
- SmoothQuant:大型语言模型的准确高效后训练量化 - 另一种处理异常值的量化方法
- 向上还是向下?后训练量化的自适应舍入(高通 2020)- 引入 AdaRound
- 理解和克服高效 Transformer 量化的挑战(高通 2021)
- QuIP:具有保证的大型语言模型 2 比特量化(康奈尔大学 2023 年 7 月)- 引入不相干处理
- SqueezeLLM:稠密和稀疏量化(伯克利大学 2023 年 6 月)
- 大规模量化的有趣特性(Cohere 2023 年 5 月)
- 剪枝 vs 量化:哪个更好?(高通 2023 年 7 月)
归一化
- 均方根层归一化
- 可量化的Transformer:通过帮助注意力头不做任何事来去除异常值 - 引入门控注意力机制,并论证异常值是归一化的结果
稀疏性和秩压缩
- 通过分解压缩预训练语言模型 - 使用普通SVD分解减小矩阵大小
- 使用加权低秩因子分解压缩语言模型 - 基于Fisher信息加权的SVD
- 语言模型加权低秩估计的数值优化 - 上述方法的迭代实现
- 加权低秩近似 (2003)
- Transformer通过逐步增加秩来学习
- 像素化蝴蝶:神经网络模型的简单高效稀疏训练
- Scatterbrain:统一稀疏和低秩注意力近似
- LoSparse:基于低秩和稀疏近似的大型语言模型结构化压缩
- LadaBERT:通过混合模型压缩实现BERT的轻量级适应
- KroneckerBERT:通过知识蒸馏学习预训练语言模型的Kronecker分解
- TRP:用于高效深度神经网络的训练秩剪枝 - 引入能量-剪枝比
微调
采样
扩展
- 高效扩展Transformer推理 (谷歌 2022年11月) - 用于推理的流水线和张量并行化
- Megatron-LM (英伟达 2020年3月) - 用于训练的层内并行
混合专家
- 局部专家的自适应混合 (1991,重制PDF)
- 超大型神经网络:稀疏门控专家混合层 (谷歌 2017)
- Switch Transformers:使用简单高效的稀疏性扩展至万亿参数模型 (谷歌 2022)
- 增加宽度而非深度
水印
更多
- 高效深度学习系统:第9周,压缩
- Transformer家族 2.0版 (Lilian Weng)
- 大型Transformer模型推理优化 (Lilian Weng)