NLP-Paper
更新一些在我学习过程中阅读过的且感觉不错的论文,对于一些经典或思路很新奇的论文,会进行精读,并写一些阅读笔记同步上传更新。(内容同步更新到知乎、CSDN),论文按照时间顺序排放。
注:
- 文本相似度计算相关的复现代码以及工具包(Tf/Pytorch双版本)在这个仓库 ☞ Text-Similarity
- 对话系统构建项目在这个仓库 ☞ Nlp-Dialogue
- 对部分复现论文代码以及NLP其他工具代码放在这 ☞ paper-code
为了方便查找论文以及归档,提供了搜索工具,使用方式如下:
python3 search_kits.py
Contents | 内容
大模型 • 聚类 • 向量召回 • 对话系统 • 对话状态管理 • 机器学习 • 语言模型
数据集 • 文本相似度/匹配/分类 • 深度学习 • 语音系统 • 语音识别 • 模型
预训练 • Subword • 任务型对话 • 对话状态跟踪 • 对话意图识别 • 对话槽位填充
GNN • 检索式对话系统 • 语音合成 • 综述 • 无监督 • 数据增强
阅读理解模型 • 可解释性 • Prompt • 评估 • 对话策略学习 • 关系抽取
蒸馏 • 异常检测 • 自监督 • 损失函数 • 半监督 • 社区发现
图算法 • 搜排 • 文本摘要
Paper List | 论文列表
注:论文按时间排序,并进行分类归档,可直接在本页Ctrl+F查询,或使用上述搜索工具查询(推荐)
下述列表项格式:<标签 | 论文 | 阅读笔记 | 简述 | 作者时间>
-
[图算法-搜排] | The PageRank Citation Ranking: Bringing Order to the Web | 阅读笔记 | 经典的PageRank算法,最初是作为互联网网页的重要度计算方法,被用于谷歌搜索引擎网页排序。该算法的核心思想就是在有向图(带权)上定义一个随机游走模型(一阶马尔可夫链),在一定的条件下,使得极限情况访问每个节点的概率收敛到平稳分布,节点上的平稳概率值就是PageRank值,用于表示节点的重要度 | L Page et al, 1998
-
[聚类] | Accelerating exact k-means algorithms with geometric reasoning | 阅读笔记 | K-Means引入计算机中的那片论文,K-Means属于Partition-based methods,思想是初始化中心点,然后通过启发式算法,达到”类内的点都足够近,类间的点都足够远“的目标 | et al Dan Pelleg,1999
-
[异常检测-机器学习] | LOF: Identifying Density-Based Local Outliers | 阅读笔记 | 本文提出的LOF算法是基于密度的算法,其优势在于同时考虑了数据集的局部和全局属性(其中局部可达密度的定义其实暗含了一个假设,即不存在大于等于K个重复的点),异常值不是按绝对值确定的,而是相对于它们的领域点密度确定的。因此,当数据集中存在不同密度的不同集群时,LOF算法表现良好,比较适合中等高维的数据集 | Markus M. Breunig et al, 2000
-
[聚类] | Mean Shift: A Robust Approach toward Feature Space Analysis | 阅读笔记 | 实现的方法是滑动窗口的算法,在每次迭代中,通过将中心点移动到窗口内所有点的平均值位置(因此得名),将滑动窗口中心移向密度较高的区域。滑动窗口内的密度与其内部的点数成正比。通过转换到窗口内点的平均值位置,窗口将逐渐移动到有着更高点密度的区域。优点:Mean-Shift的最大优势就是可以自动发现簇的数量而不需要人工选择;簇的中心向最大密度点聚合的事实也是非常令人满意的,因为它可被非常直观地理解并很自然地契合数据驱动;可以处理任意形状的簇类;算法只需设置半径这一个参数,半径影响数据集的核密度估计;算法结果稳定,不需要进行类似K均值的样本初始化;缺点:不足就是窗口大小/半径“r”的选择可能是非平凡的;半径设置的太小,收敛太慢,簇类个数过多;半径设置的太大,一些簇类可能会丢失。对于较大的特征空间,计算量非常大 | Dorin Comaniciu et al,2002
-
[向量召回] | similarity estimation techniques from rounding algorithms | 阅读笔记 | 论文提出的SimHash是当年Google用来文本去重的算法。主要做法是将文档提取出一定数量的关键词,然后转换成哈希码并按列相加,1+weight,0-weight,得到的结果按照整数为1,负数为0得到最终的哈希码,然后将哈希码分为m个table,并分别记性计算检索 | Moses S. Charikar et al,2002
-
[图算法-文本摘要-无监督] | TextRank: Bringing Order into Texts | 阅读笔记 | 本文提出的是一种基于图的用于关键词抽取和文档摘要的排序算法,由PageRank算法改进而来,它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词,并使用抽取式的自动文摘方法抽取出该文本的关键句,相对于TF-IDF方法,可以更充分的利用文本元素之间的关系。当然,它也同样存在受分词、停用词、文本清洗的影响 | Rada Mihalcea et al, 2004
-
[聚类] | k-means++: The Advantages of Careful Seeding | 阅读笔记 | 原始K-Means(随机选择簇中心)对于初始化簇中心敏感,因此k-means++进行了改进,随机选择第一个初始中心点,计算其他点与该中心点的距离,按照距离远的以较大的概率被选中来选择第二个初始中心点,一次类推 | et al David Arthur,2006
-
[聚类] | Clustering by Passing Messages Between Data Points | 阅读笔记 | 其基本思想是将全部样本看作网络的节点,然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是responsibility和availability 。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的Exemplar。优点是无需指定聚类“数量”参数;聚类中心点由实际的样本点中产生;初始值不敏感,且对距离矩阵的对称性没要求。AP通过输入相似度矩阵来启动算法,因此允许数据呈非对称,数据适用范围非常大,鲁棒性很好;误差低;缺点是AP聚类应用中需要手动指定Preference和Damping factor,这其实是原有的聚类“数量”控制的变体,且算法复杂度较高 | Brendan J. Frey et al,2007
-
[聚类-社区发现-图算法] | Maps of random walks on complex networks reveal community structure | 阅读笔记1 / 阅读笔记2 |