nlp 之旅
1. 书籍
2. 论文
01) Transformer 论文
- BERT: 深度双向Transformer的语言理解预训练。
论文
- GPT-2: 语言模型是无监督的多任务学习者。
论文
- Transformer-XL: 超越固定长度上下文的Transformer语言模型。
论文
- XLNet: 语言理解的广义自回归预训练。
论文
- RoBERTa: 稳健优化的BERT预训练方法。
论文
- DistilBERT: BERT的蒸馏版:更小、更快、更便宜、更轻。
论文
- ALBERT: 一种轻量化的BERT自监督语言表示学习方法。
论文
- T5: 用统一的文本转换Transformer探索迁移学习的极限。
论文
- ELECTRA: 作为判别而不是生成的文本编码器预训练。
论文
- GPT-3: 语言模型是少样本学习者。
论文
02) 模型
- LSTM(长短期记忆)。
论文
- 用神经网络进行序列到序列学习。
论文
- 使用RNN编码-解码器学习短语表示用于统计机器翻译。
论文
- 残差网络(图像识别的深度残差学习)。
论文
- Dropout(通过防止特征检测器共适应来改进神经网络)。
论文
- 批量归一化:通过减少内部协变量偏移加速深度网络训练。
论文
03) 总结
- 梯度下降优化算法概述。
论文
- 神经语言处理中的分析方法:综述。
论文
- 用统一的文本转换Transformer探索迁移学习的极限。
论文
- 生成对抗网络综述:算法、理论与应用。
论文
- 图深度学习的入门介绍。
论文
- 命名实体识别中深度学习的综述。
论文
- 更多数据、更多关系、更多上下文和更多开放性:关系抽取的回顾与展望。
论文
- 基于深度学习的文本分类:全面综述。
论文
- 自然语言处理的预训练模型:综述。
论文
- 上下文嵌入的综述。
论文
- 知识图谱的综述:表示、获取和应用。
论文
- 知识图谱。
论文
04) 预训练
- 神经概率语言模型。
论文
- word2vec参数学习解释。
论文
- 语言模型是无监督的多任务学习者。
论文
- 语言建模平滑技术的实证研究。
论文
- 在向量空间中高效估计词表示。
论文
- 句子和文档的分布式表示。
论文
- 用子词信息丰富词向量(FastText)。
论文
- GloVe:词表示的全局向量。
在线阅读
- ELMo(深度上下文化词表示)。
论文
- 中文BERT的整词遮蔽预训练。
论文
05) 分类
06) 文本生成
07) 文本相似度
08) 问答
- 面向问答的多因素注意力网络。
论文
- XiaoIce的设计与实现,一个具有同理心的社会聊天机器人。
论文
- 基于知识的神经会话模型。
论文
- 神经生成问答。
论文
- 顺序匹配网络:基于检索聊天机器人的多轮响应选择的新架构。
论文
- 用深度话语聚合建模多轮对话。
论文
- 用深度注意力匹配网络进行多轮响应选择的聊天机器人。
论文
- 用离散属性建模闲聊对话的深度强化学习。
论文
09) 神经机器翻译(NMT)
10) 摘要
11) 关系抽取
- 通过分块卷积神经网络进行关系抽取的远程监督。
论文
- 用多语言注意力的神经关系抽取。
论文
- FewRel:一个大规模有监督的少样本关系分类数据集,具有最先进的评估。
论文
- 用LSTM在序列和树结构上进行端到端关系抽取。
论文
12) 大型语言模型
3. 文章
- 从头开始的TRANSFORMER。
链接
- 突出显示的Transformer。
链接
- 基于注意力的模型。
链接
- 现代深度学习技术在自然语言处理中的应用。
链接
- LSTM和GRU的插画指南:逐步解释
。
链接
- 将word2vec应用于推荐系统和广告。
链接