优秀的半监督学习

一份精心策划的优秀半监督学习资源列表。受到awesome-deep-vision、awesome-deep-learning-papers和awesome-self-supervised-learning的启发。

背景

<img src="https://i.imgur.com/xXi9N40.png">

什么是半监督学习？

它是一种特殊的分类形式。传统分类器仅使用标记数据（特征/标签对）进行训练。然而，标记实例通常很难获得，且代价高昂或耗时，因为它们需要有经验的人工注释者的努力。同时，未标记的数据可能相对容易收集，但利用它们的方法却不多。半监督学习 通过结合大量未标记的数据和标记的数据来建立更好的分类器，从而解决了这个问题。由于半监督学习需要的人工努力较少且准确率更高，因此它在理论和实践中都备受关注。

有多少种半监督学习方法？

很多。一些常用的方法包括：生成混合模型的EM、自训练、一致性正则化、协同训练、横向支持向量机和基于图的方法。随着深度学习的兴起，大部分这些方法被改编并集成到现有的深度学习框架中，以利用未标记的数据。

半监督学习方法如何利用未标记数据？

半监督学习方法使用未标记数据来修改或重新排序从标记数据中获得的假设。尽管并非所有方法都是概率性的，但更易于查看的方法是通过p(y|x)表示假设，通过p(x)表示未标记数据。生成模型有共同参数用于联合分布p(x,y)。可以很容易地看到p(x)影响p(y|x)。包含EM的混合模型属于这一类，某种程度上自训练也算。许多其他方法都是判别性的，包括横向SVM、高斯过程、信息正则化、基于图的方法和大多数基于深度学习的方法。原始的判别训练不能用于半监督学习，因为忽略了p(x)来估计p(y|x)。为了解决这个问题，常常将*p(x)相关的项引入目标函数中，相当于假设p(y|x)和p(x)*共享参数。

（来源：SSL文献调查。）

<figure> <p align="center"> <img src="https://i.imgur.com/PJ340SK.png" width="600"> <figcaption>未标记数据在半监督学习中的影响示例。（图片来源：<a href="https://en.wikipedia.org/wiki/Semi-supervised_learning">维基百科</a>） </figcaption> </p> </figure>

贡献

如果您发现任何错误，或希望添加一些论文，请随时通过联系我或者创建一个pull request来贡献到此列表，使用以下Markdown格式：

- 论文名称。
  [[pdf]](链接) 
  [[code]](链接)
  - 作者1，作者2，和作者3。 *会议年份*

并将它们添加到files/中的相应markdown文件中。

书籍

半监督学习书籍. Olivier Chapelle, Bernhard Schölkopf, Alexander Zien. IEEE神经网络交易2009

代码库

调查和概述

深度半监督学习算法的现实评价. Avital Oliver, Augustus Odena, Colin Raffel, Ekin D. Cubuk, Ian J. Goodfellow. NeurIPS 2018
半监督学习文献调查. Xiaojin Zhu. 2008
深度半监督学习概述. Yassine Ouali, Céline Hudelot, Myriam Tami. 2020
半监督学习调查. Jesper E Van Engelen, Holger H Hoos. 2020
深度半监督学习调查. Xiangli Yang, Zixing Song, Irwin King. 2021