精彩的图表示自监督学习
一个精心策划的关于精彩的自监督图表示学习资源的列表。灵感来源于awesome-deep-vision, awesome-adversarial-machine-learning, awesome-deep-learning-papers, awesome-architecture-search和awesome-self-supervised-learning.
为什么选择自监督学习?
自监督学习已成为AI社区中一个令人兴奋的方向。
- Jitendra Malik:“监督是AI研究者的鸦片”
- Alyosha Efros:“AI革命不会被监督”
- Yann LeCun:“自监督学习是蛋糕,监督学习是蛋糕上的糖霜,强化学习是蛋糕上的樱桃”
目录
概述
我们扩展了自监督学习的概念,该概念最初出现在计算机视觉和自然语言处理领域,提出了现有图数据SSL技术的及时和全面的回顾。具体来说,我们将现有的图SSL方法分为三类:对比学习、生成学习和预测学习,如下所示。
- 对比学习:通过不同的数据增强方法生成的视图进行对比。数据-数据对(跨数据)的差异和相同信息作为自监督信号。
- 生成学习:关注嵌入数据中的信息(数据内),通常基于重构等任务,利用数据本身的属性和结构作为自监督信号。
- 预测学习:通常通过一些简单的统计分析或专家知识自生成标签,设计基于自生成标签的预测任务,以处理数据标签关系。
训练策略
考虑瓶颈编码器、自监督任务和下游任务之间的关系,训练策略可以分为三类:预训练和微调(P&F)、联合学习(JL)和无监督表示学习(URL),其具体工作流程如下所示。
- 预训练和微调(P&F):首先通过自监督任务预训练编码器的参数,然后将其用作有监督微调下游任务的初始参数。
- 联合学习(JL):包括一个自监督的辅助任务以帮助学习有监督的下游任务。编码器同时被预训练任务和下游任务联合训练。
- 无监督表示学习(URL):首先通过自监督任务对未标记的节点预训练编码器,然后将预训练的编码器参数冻结并用于有监督的下游任务。
对比学习
以下是对比学习的一般框架。对比的两个组件可以是局部的、上下文的或全局的,对应于图中节点级别(红色标记)、子图级别(绿色标记)或图级别(黄色标记)的信息。对比学习可以对比两个视图(在相同或不同尺度下),这导致了两类算法:(1)同尺度对比,包括*局部-局部(L-L)*对比、*上下文-上下文(C-C)对比和全局-全局(G-G)对比;(2)跨尺度对比,包括局部-上下文(L-C)*对比、*局部-全局(L-G)对比和上下文-全局(C-G)*对比。
全局-全局对比
- GraphCL:通过增强进行图对比学习。
- IGSD:迭代图自蒸馏。
- H. Zhang, S. Lin, W. Liu, P. Zhou, J. Tang, X. Arxiv 2020. [pdf]
- DACL:面向领域不可知对比学习。
- V. Verma, M.-T. Luong, K. Kawaguchi, H. Pham, 和 Q. V. Le. Arxiv 2020. [pdf]
- LCC:基于标签对比编码的图神经网络用于图分类。
- CCGL:对比级联图学习。
- CSSL:用于图分类的自监督对比学习。
- J. Zeng 和 P. Xie. Arxiv 2020. [pdf]
上下文-上下文对比
- GCC:用于图神经网络预训练的图对比编码。
局部-局部对比
- CDNMF: 用于社区检测的对比深度非负矩阵分解。
- GRACE: 深度图对比表示学习。
- GCA: 具有自适应增强的图对比学习。
- GROC: 走向鲁棒图对比学习。
- N. Jovanovi´c, Z. Meng, L. Faber, and R. Wattenhofer. Arxiv 2021. [pdf]
- SEPT: 社交感知自监督三重训练推荐。
- STDGI: 时空深度图Infomax。
- F. L. Opolka, A. Solomon, C. Cangea, P. Veliˇckovi´c, P. Li` o, and R. D. Hjelm. Arxiv 2019. [pdf]
- GMI: 通过图形互信息最大化的图表示学习。
- KS2L: 自监督平滑图神经网络。
- L. Yu, S. Pei, C. Zhang, L. Ding, J. Zhou, L. Li, and X. Zhang. Arxiv 2020. [pdf]
- CG3: 对比生成的图卷积网络用于基于图的半监督学习。
- S. Wan, S. Pan, J. Yang, and C. Gong. Arxiv 2020. [pdf]
- BGRL: 图上的引导表示学习。
- SelfGNN: 无显性负采样的自监督图神经网络。
- HeCo: 具有共对比学习的自监督异构图神经网络。
- PT-DGNN: 动态图神经网络的预训练。
- COAD: 用敌对微调的对比预训练用于零样本专家链接。
- Contrast-Reg: 通过对比正则化提高图表示学习。
- K. Ma, H. Yang, H. Yang, T. Jin, P. Chen, Y. Chen, B. F. Kamhoua, and J. Cheng. Arxiv 2021. [pdf]
- C-SWM: 结构化世界模型的对比学习。
本地-全球对比
- DGI: 深度图Infomax。
- HDMI: 高阶深度多路Infomax。
- B. Jing, C. Park, and H. Tong. Arxiv 2021. [pdf]
- DMGI: 无监督的属性多路网络嵌入。
- MVGRL: 基于图的对比多视图表示学习。
- HDGI: 异构深度图Infomax。
本地-上下文对比
- CDNMF: 用于社区检测的对比深度非负矩阵分解。
- Subg-Con: 子图对比,用于可扩展的自监督图表示学习。
- Cotext Prediction: 图神经网络预训练策略。
- GIC: 利用集群级节点信息进行无监督的图表示学习。
- GraphLoG: 具有局部和全局结构的自监督图级表示学习。
- MHCN: 用于社交推荐的自监督多通道超图卷积网络。
- EGI: 通过 ego 图信息最大化进行图神经网络的迁移学习。
上下文-全局对比
- MICRO-Graph: 基于模体驱动的图表示对比学习。
- InfoGraph: 通过互信息最大化进行无监督和半监督的图级表示学习。
- SUGAR: 具有强化池化和自监督互信息机制的子图神经网络。
- BiGI: 通过互信息最大化的二分图嵌入。
- HTC: 通过互信息最大化的子图集成聚合的图表示学习。
- C. Wang and Z. Liu. Arxiv 2021. [pdf]
- DITNet: 通过子结构对比的图表示学习进行药物靶点预测。
图自动编码
- CDNMF: 用于社区检测的对比深度非负矩阵因子分解。
- GraphMAE: 自监督掩码图自动编码器
- 图完成:自监督何时有助于图卷积网络?
- 节点属性掩码:图上的自监督学习:深刻见解和新方向。
- 边属性掩码:图神经网络的预训练策略。
- 节点属性和嵌入降噪:具有多个自监督辅助任务的基于图的神经网络模型。
- F. Manessi and A. Rozza. Arxiv 2020. [pdf]
- 邻接矩阵重建:图卷积网络的自监督训练。
- Q. Zhu, B. Du, and P. Yan. Arxiv 2020. [pdf]
- Graph Bert: 仅需要注意力即可学习图表示。
- Pretrain-Recsys: 用于冷启动用户和项目表示的图神经网络预训练。
- SLAPS: 自监督改进图神经网络的结构学习。
- G-BERT: 用于药物推荐的图增强变压器预训练。
图自回归
预测学习
下图展示了预测学习的比较。预测方法通常从图数据中自生成标签,然后基于自生成标签设计预测任务。根据标签如何获得,我们将图数据的预测学习方法总结为四类:
- 节点属性预测:预先计算节点属性,如节点度,并将其用作自监督标签。
- 基于上下文的预测:图中的局部或全局上下文信息,如节点间的最短路径长度,可以提取为标签以帮助自监督学习。
- 自训练:应用算法如无监督聚类获得伪标签,然后根据预测结果或损失更新前一阶段的伪标签集。
- 基于领域知识的预测:使用领域知识,如专家知识或专用工具,预先获得信息量高的标签。
节点属性预测
- 节点属性预测:图上的自监督学习:深刻见解和新方向。
基于上下文的预测
- S2GRL: 通过全局上下文预测进行自监督图表示学习。
- Z. Peng, Y. Dong, M. Luo, X.-M. Wu, and Q. Zheng. Arxiv 2020. [pdf]
- PairwiseDistance: 图上的自监督学习:深刻见解和新方向。
- PairwiseAttsim: 图上的自监督学习:深刻见解和新方向。
- Distance2Cluster: 图上的自监督学习:深刻见解和新方向。
- EdgeMask: 图上的自监督学习:深刻见解和新方向。
- TopoTER: 拓扑变换等变表示的无监督学习。
- X. Gao, W. Hu, and G.-J. Qi. OpenReview 2021. [pdf]
- 中心性得分排名:用于通用结构特征提取的图神经网络预训练。
- Z. Hu, C. Fan, T. Chen, K.-W. Chang, and Y. Sun. Arxiv 2019. [pdf]
- 元路径预测:用于异构图的自监督辅助学习。
- SLiCE: 用于异构网络中链接预测的上下文嵌入自监督学习。
- Distance2Labeled: 图上的自监督学习:深刻见解和新方向。
- Distance2Labeled: 图上的自监督学习:深刻见解和新方向。
- HTM: 基于跳数的属性网络自监督异常检测。
- T. Huang, Y. Pei, V. Menkovski, and M. Pechenizkiy. Arxiv 2021. [pdf]
自训练
- 多阶段自训练:对图卷积网络进行半监督学习的更深见解。
- 节点聚类和划分:自监督何时有助于图卷积网络。
- CAGAN: 面向无监督图表示学习的聚类感知图神经网络。
- Y. Zhu, Y. Xu, F. Yu, S. Wu, and L. Wang. Arxiv 2020. [pdf]
- M3S: 在少标签节点的图上进行图卷积网络的多阶段自监督学习。
- 聚类保持:用于通用结构特征提取的图神经网络预训练。
- Z. Hu, C. Fan, T. Chen, K.-W. Chang, and Y. Sun. Arxiv 2019. [pdf]
- SEF: 改进图神经网络训练的自监督边特征。
基于领域知识的预测
- 上下文分子属性预测:在大规模分子数据上进行自监督图变压器。
- 图级模式预测:在大规模分子数据上进行自监督图变压器。
- DrRepair: 基于图的、从诊断反馈进行自监督程序修复。
以下是所有调查工作的摘要。
方法细节总结
关于图属性、预处理任务、数据增强、目标函数、训练策略和发表年份。
方法 | 图属性 | 预训练任务 | 数据增强 | 目标函数 | 训练策略 | 年 |
---|---|---|---|---|---|---|
CDNMF | 有属性 | 对比/L-C + 生成/AE | 无 | InfoNCE + AE | URL | 2024 |
图完成 | 有属性 | 生成/AE | 属性掩码 | MAE | P&F/JL | 2020 |
节点属性掩码 | 有属性 | 生成/AE | 属性掩码 | MAE | P&F/JL | 2020 |
边属性掩码 | 有属性 | 生成/AE | 属性掩码 | MAE | P&F | 2019 |
节点属性和 嵌入去噪 | 有属性 | 生成/AE | 属性掩码 | MAE | JL | 2020 |
邻接矩阵 重建 | 有属性 | 生成/AE | 属性掩码 边扰动 | MAE | JL | 2020 |
图 Bert | 有属性 | 生成/AE | 属性掩码 边扰动 | MAE | P&F | 2020 |
预训练-Recsys | 有属性 | 生成/AE | 边扰动 | MAE | P&F | 2021 |
GPT-GNN | 异质 | 生成/AR | 属性掩码 边扰动 | MAE/InfoNCE | P&F | 2020 |
GraphCL | 有属性 | 对比/G-G | 属性掩码 边扰动 随机游走采样 | InfoNCE | URL | 2020 |
IGSD | 有属性 | 对比/G-G | 边扰动 边离散 | InfoNCE | JL/URL | 2020 |
DACL | 有属性 | 对比/G-G | 混合 | InfoNCE | URL | 2020 |
LCC | 有属性 | 对比/G-G | 无 | InfoNCE | JL | 2021 |
CCGL | 有属性 | 对比/G-G | 信息再扩散 | InfoNCE | P&F | 2021 |
CSSL | 有属性 | 对比/G-G | 节点插入 边扰动 均匀采样 | InfoNCE | P&F/JL/URL | 2020 |
GCC | 无属性 | 对比/C-C | 随机游走采样 | InfoNCE | P&F/URL | 2020 |
GRACE | 有属性 | 对比/L-L | 属性掩码 边扰动 | InfoNCE | URL | 2020 |
GCA | 有属性 | 对比/L-L | 基于注意力 | InfoNCE | URL | 2020 |
GROC | 有属性 | 对比/L-L | 基于梯度 | InfoNCE | URL | 2021 |
SEPT | 有属性 | 对比/L-L | 边扰动 | InfoNCE | JL | 2021 |
STDGI | 时序空间 | 对比/L-L | 属性洗牌 | JS估计器 | URL | 2019 |
GMI | 有属性 | 对比/L-L | 无 | SP估计器 | URL | 2020 |
KS2L | 有属性 | 对比/L-L | 无 | InfoNCE | URL | 2020 |
CG3 | 有属性 | 对比/L-L | 无 | InfoNCE | JL | 2020 |
BGRL | 有属性 | 对比/L-L | 属性掩码 边扰动 | 内积 | URL | 2021 |
SelfGNN | 有属性 | 对比/L-L | 属性掩码 边扩散 | MSE | URL | 2021 |
HeCo | 异质 | 对比/L-L | 无 | InfoNCE | URL | 2021 |
PT-DGNN | 动态 | 对比/L-L | 属性掩码 边扰动 | InfoNCE | P&F | 2021 |
COAD | 有属性 | 对比/L-L | 无 | 三元组边缘损失 | P&F | 2020 |
Contrst-Reg | 有属性 | 对比/L-L | 属性洗牌 | InfoNCE | JL | 2021 |
DGI | 有属性 | 对比/L-G | 任意 | JS估计器 | URL | 2019 |
HDMI | 有属性 | 对比/L-G | 属性洗牌 | JS估计器 | URL | 2021 |
DMGI | 异质 | 对比/L-G | 属性洗牌 | JS估计器/MAE | URL | 2020 |
MVGRL | 有属性 | 对比/L-G | 属性掩码 边扰动 边扩散 随机游走采样 | DV估计器 JS估计器 NT-Xent InfoNCE | URL | 2020 |
HDGI | 异质 | 对比/L-G | 属性洗牌 | JS估计器 | URL | 2019 |
Subg-Con | 有属性 | 对比/L-C | 重要性采样 | 三元组边缘损失 | URL | 2020 |
背景预测 | 有属性 | 对比/L-C | 自私网络采样 | 交叉熵 | P&F | 2019 |
GIC | 有属性 | 对比/L-C | 任意 | JS估计器 | URL | 2020 |
GraphLoG | 有属性 | 对比/L-C | 属性掩码 | InfoNCE | URL | 2021 |
MHCN | 异质 | 对比/L-C | 属性洗牌 | InfoNCE | JL | 2021 |
EGI | 有属性 | 对比/L-C | 自私网络采样 | SP估计器 | P&F | 2020 |
MICRO-Graph | 有属性 | 对比/C-G | 知识采样 | InfoNCE | URL | 2020 |
InfoGraph | 有属性 | 对比/C-G | 无 | SP估计器 | URL | 2019 |
SUGAR | 有属性 | 对比/C-G | BFS采样 | JS估计器 | JL | 2021 |
BiGI | 异质 | 对比/C-G | 边扰动 自私网络采样 | JS估计器 | JL | 2021 |
HTC | 有属性 | 对比/C-G | 属性洗牌 | SP估计器 DV估计器 | URL | 2021 |
节点属性预测 | 有属性 | 预测/节点属性 | 无 | MAE | P&F/JL | 2020 |
S2GRL | 有属性 | 预测/上下文 | 无 | 交叉熵 | URL | 2020 |
配对距离 | 有属性 | 预测/上下文 | 无 | 交叉熵 | P&F/JL | 2020 |
配对属性相似 | 有属性 | 预测/上下文 | 无 | MAE | P&F/JL | 2020 |
到集群的距离 | 有属性 | 预测/上下文 | 无 | MAE | P&F/JL | 2020 |
边掩码 | 有属性 | 预测/上下文 | 无 | 交叉熵 | P&F/JL | 2020 |
TopoTER | 有属性 | 预测/上下文 | 边扰动 | 交叉熵 | URL | 2021 |
中心度评分排序 | 有属性 | 预测/上下文 | 无 | 交叉熵 | P&F | 2019 |
元路径预测 | 异质 | 预测/上下文 | 无 | 交叉熵 | JL | 2020 |
SLiCE | 异质 | 预测/上下文 | 无 | 交叉熵 | P&F | 2020 |
到标签的距离 | 有属性 | 预测/上下文 | 无 | MAE | P&F/JL | 2020 |
上下文标签 | 有属性 | 预测/上下文 | 无 | MAE | P&F/JL | 2020 |
HCM | 有属性 | 预测/上下文 | 边扰动 | 贝叶斯推断 | URL | 2021 |
上下文分子 属性预测 | 有属性 | 预测/领域 | 无 | 交叉熵 | P&F | 2020 |
图级基元预测 | 有属性 | 预测/领域 | 无 | 交叉熵 | P&F | 2020 |
多阶段自我训练 | 有属性 | 预测/自我训练 | 无 | 无 | JL | 2018 |
节点聚类 | 有属性 | 预测/自我训练 | 无 | 聚类 | P&F/JL | 2020 |
图划分 | 有属性 | 预测/自我训练 | 无 | 图划分 | P&F/JL | 2020 |
CAGAN | 有属性 | 预测/自我训练 | 无 | 聚类 | URL | 2020 |
M3S | 有属性 | 预测/自我训练 | 无 | 聚类 | JL | 2020 |
集群保持 | 有属性 | 预测/自我训练 | 无 | 交叉熵 | P&F | 2019 |
实现细节摘要
关于任务层级、评估指标和评估数据集。
方法 | 任务级别 | 评价指标 | 数据集 |
---|---|---|---|
CDNMF | 节点 | 节点聚类 (Acc, NMI) | Cora, Citeseer, Pubmed |
Graph Completion | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Node Attribute Masking | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
Edge Attribute Masking | 图 | 图分类 (ROC-AUC) | MUTAG, PTC, PPI, BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
Node Attribute and Embedding Denoising | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Adjacency Matrix Reconstruction | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Graph Bert | 节点 | 节点分类 (Acc) 节点聚类 (NMI) | Cora, Citeseer, Pubmed |
Pretrain-Recsys | 节点/链接 | - | ML-1M, MOOCs 和 Last-FM |
GPT-GNN | 节点/链接 | 节点分类 (F1-score) 链接预测 (ROC-AUC) | OAG, Amazon, Reddit |
GraphCL | 图 | 图分类 (Acc, ROC-AUC) | NCI1, PROTEINS, D&D, COLLAB, RDT-B, RDT-M5K, GITHUB, MNIST, CIFAR10, MUTAG, IMDB-B, BBBP, Tox21, ToxCast, SIDER, ClinTox, MUV, HIV, BACE, PPI |
IGSD | 图 | 图分类 (Acc) | MUTAG, PTC_MR, NCI1, IMDB-B, QM9, COLLAB, IMDB-M |
DACL | 图 | 图分类 (Acc) | MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B, RDT-M5K |
LCC | 图 | 图分类 (Acc) | IMDB-B, IMDB-M, COLLAB, MUTAG, PROTEINS, PTC, NCI1, D&D |
CCGL | 图 | 瀑布图预测 (MSLE) | 微博, Twitter, ACM, APS, DBLP |
CSSL | 图 | 图分类 (Acc) | PROTEINS, D&D, NCI1, NCI109, Mutagenicity |
GCC | 节点/图 | 节点分类 (Acc) 图分类 (Acc) | US-Airport, H-index, COLLAB, IMDB-B, IMDB-M, RDT-B, RDT-M5K |
GRACE | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, DBLP, Reddit, PPI |
GCA | 节点 | 节点分类 (Acc) | Wiki-CS, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
GROC | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Photo, Wiki-CS |
SEPT | 节点/链接 | - | Last-FM, Douban, Yelp |
STDGI | 节点 | 节点回归(MAE, RMSE, MAPE) | METR-LA |
GMI | 节点/链接 | 节点分类 (Acc, Micro-F1) 链接预测 (ROC-AUC) | Cora, Citeseer, PubMed, Reddit, PPI, BlogCatalog, Flickr |
KS2L | 节点/链接 | 节点分类 (Acc) 链接预测 (ROC-AUC) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS |
CG3 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS |
BGRL | 节点 | 节点分类 (Acc, Micro-F1) | Wiki-CS, Amazon-Computers, Amazon-Photo, PPI, Coauthor-CS, Coauthor-Physics, ogbn-arxiv |
SelfGNN | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
HeCo | 节点 | 节点分类 (ROC-AUC, Micro-F1, Macro-F1) 节点聚类 (NMI, ARI) | ACM, DBLP, Freebase, AMiner |
PT-DGNN | 链接 | 链接预测 (ROC-AUC) | HepPh, Math Overflow, Super User |
COAD | 节点/链接 | 节点聚类 (Precision, Recall, F1-score) 链接预测 (HitRatio@K, MRR) | AMiner, News, LinkedIn |
Contrast-Reg | 节点/链接 | 节点分类 (Acc) 节点聚类 (NMI, Acc, Macro-F1) 链接预测 (ROC-AUC) | Cora, Citeseer, Pubmed, Reddit, ogbn-arxiv, Wikipedia, ogbn-products, Amazo-Computers, Amazo-Photo |
DGI | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, Reddit, PPI |
HDMI | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (NMI) | ACM, IMDB, DBLP, Amazon |
DMGI | 节点 | 节点聚类 (NMI) 节点分类 (Acc) | ACM, IMDB, DBLP, Amazon |
MVGRL | 节点/图 | 节点分类 (Acc) 节点聚类 (NMI, ARI) 图分类 (Acc) | Cora, Citeseer, Pubmed, MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B |
HDGI | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (NMI, ARI) | ACM, DBLP, IMDB |
Subg-Con | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, PPI, Flickr, Reddit |
Cotext Prediction | 图 | 图分类 (ROC-AUC) | MUTAG, PTC, PPI, BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
GIC | 节点/链接 | 节点分类 (Acc) 节点聚类 (Acc, NMI, ARI) 链接预测 (ROC-AUC, ROC-AP) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
GraphLoG | 图 | 图分类 (ROC-AUC) | BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
MHCN | 节点/链接 | - | Last-FM, Douban, Yelp |
EGI | 节点/链接 | 节点分类 (Acc) 链接预测 (ROC-AUC, MRR) | YAGO, Airport |
MICRO-Graph | 图 | 图分类 (ROC-AUC) | BBBP, Tox21, ToxCast, ClinTox, HIV, SIDER, BACE |
InfoGraph | 图 | 图分类 (Acc) | MUTAG, PTC_MR, RDT-B, RDT-M5K, IMDB-B, QM9, IMDB-M |
SUGAR | 图 | 图分类 (Acc) | MUTAG, PTC, PROTEINS, D&D, NCI1, NCI109 |
BiGI | 链接 | 链接预测 (AUC-ROC, AUC-PR) | DBLP, ML-100K, ML-1M, Wikipedia |
HTC | 图 | 图分类 (Acc) | MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B, QM9, RDT-M5K |
Node Property Prediction | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
S2GRL | 节点/链接 | 节点分类 (Acc, Micro-F1) 节点聚类 (NMI) 链接预测 (ROC-AUC) | Cora, Citeseer, Pubmed, PPI, Flickr, BlogCatalog, Reddit |
PairwiseDistance | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
PairwiseAttrSim | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
Distance2Cluster | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
EdgeMask | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
TopoTER | 节点/图 | 节点分类 (Acc) 图分类 (Acc) | Cora, Citeseer, Pubmed, MUTAG, PTC-MR, RDT-B, RDT-M5K, IMDB-B, IMDB-M |
Centrality Score Ranking | 节点/链接/图 | 节点分类 (Micro-F1) 链接预测 (Micro-F1) 图分类 (Micro-F1) | Cora, Pubmed, ML-100K, ML-1M, IMDB-M, IMDB-B |
Meta-path prediction | 节点/链接 | 节点分类 (F1-score) 链接预测 (ROC-AUC) | ACM, IMDB, Last-FM, Book-Crossing |
SLiCE | 链接 | 链接预测 (ROC-AUC, Micro-F1) | Amazon, DBLP, Freebase, Twitter, Healthcare |
Distance2Labeled | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
ContextLabel | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
HCM | 节点 | 节点分类 (ROC-AUC) | ACM, Amazon, Enron, BlogCatalog, Flickr |
Contextual Molecular Property Prediction | 图 | 图分类 (Acc) 图回归 (MAE) | BBBP, SIDER, ClinTox, BACE, Tox21, ToxCast, ESOL, FreeSolv, Lipo, QM7, QM8 |
Graph-level Motif Prediction | 图 | 图分类 (Acc) 图回归 (MAE) | BBBP, SIDER, ClinTox, BACE, Tox21, ToxCast, ESOL, FreeSolv, Lipo, QM7, QM8 |
Multi-stage Self-training | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Node Clustering | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Graph Partitioning | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
CAGAN | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (Micro-F1, Macro-F1, NMI) | Cora, Citeseer, Pubmed |
M3S | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
Cluster Preserving | 节点/链接/图 | 节点分类 (Micro-F1) 链接预测 (Micro-F1) 图分类 (Micro-F1) | Cora, Pubmed, ML-100K, ML-1M, IMDB-M, IMDB-B |
常用图数据集总结
关于类别、图的数量、每个图的节点数量、每个图的边数、节点属性的维数、类别数量和引用论文。 <SOURCE_TEXT>
数据集 | 分类 | 图数 | 节点数 (平均) | 边数 (平均) | 特征数 | 类别 |
---|---|---|---|---|---|---|
Cora | 引用网络 | 1 | 2708 | 5429 | 1433 | 7 |
Citeseer | 引用网络 | 1 | 3327 | 4732 | 3703 | 6 |
Pubmed | 引用网络 | 1 | 19717 | 44338 | 500 | 3 |
Wiki-CS | 引用网络 | 1 | 11701 | 216123 | 300 | 10 |
Coauthor-CS | 引用网络 | 1 | 18333 | 81894 | 6805 | 15 |
Coauthor-Physics | 引用网络 | 1 | 34493 | 247962 | 8415 | 5 |
DBLP (v12) | 引用网络 | 1 | 4894081 | 45564149 | - | - |
ogbn-arxiv | 引用网络 | 1 | 169343 | 1166243 | 128 | 40 |
社交网络 | 1 | 232965 | 11606919 | 602 | 41 | |
BlogCatalog | 社交网络 | 1 | 5196 | 171743 | 8189 | 6 |
Flickr | 社交网络 | 1 | 7575 | 239738 | 12047 | 9 |
COLLAB | 社交网络 | 5000 | 74.49 | 2457.78 | - | 2 |
RDT-B | 社交网络 | 2000 | 429.63 | 497.75 | - | 2 |
RDT-M5K | 社交网络 | 4999 | 508.52 | 594.87 | - | 5 |
IMDB-B | 社交网络 | 1000 | 19.77 | 96.53 | - | 2 |
IMDB-M | 社交网络 | 1500 | 13.00 | 65.94 | - | 3 |
ML-100K | 社交网络 | 1 | 2625 | 100000 | - | 5 |
ML-1M | 社交网络 | 1 | 9940 | 1000209 | - | 5 |
PPI | 蛋白质网络 | 24 | 56944 | 818716 | 50 | 121 |
D&D | 蛋白质网络 | 1178 | 284.32 | 715.65 | 82 | 2 |
PROTEINS | 蛋白质网络 | 1113 | 39.06 | 72.81 | 4 | 2 |
NCI1 | 分子图 | 4110 | 29.87 | 32.30 | 37 | 2 |
MUTAG | 分子图 | 188 | 17.93 | 19.79 | 7 | 2 |
QM9 (QM7, QM8) | 分子图 | 133885 | - | - | - | - |
BBBP | 分子图 | 2039 | 24.05 | 25.94 | - | 2 |
Tox21 | 分子图 | 7831 | 18.51 | 25.94 | - | 12 |
ToxCast | 分子图 | 8575 | 18.78 | 19.26 | - | 167 |
ClinTox | 分子图 | 1478 | 26.13 | 27.86 | - | 2 |
MUV | 分子图 | 93087 | 24.23 | 26.28 | - | 17 |
HIV | 分子图 | 41127 | 25.53 | 27.48 | - | 2 |
SIDER | 分子图 | 1427 | 33.64 | 35.36 | - | 27 |
BACE | 分子图 | 1513 | 34.12 | 36.89 | - | 2 |
PTC | 分子图 | 344 | 14.29 | 14.69 | 19 | 2 |
NCI109 | 分子图 | 4127 | 29.68 | 32.13 | - | 2 |
Mutagenicity | 分子图 | 4337 | 30.32 | 30.77 | - | 2 |
MNIST | 其他 (图像) | - | 70000 | - | 784 | 10 |
CIFAR10 | 其他 (图像) | - | 60000 | - | 1024 | 10 |
METR-LA | 其他 (交通) | 1 | 207 | 1515 | 2 | - |
Amazon-Computers | 其他 (购物) | 1 | 13752 | 245861 | 767 | 10 |
Amazon-Photo | 其他 (购物) | 1 | 7650 | 119081 | 745 | 8 |
ogbn-products | 其他 (购物) | 1 | 2449029 | 61859140 | 100 | 47 |
开源代码总结
贡献
如果你想贡献这个列表,请随时联系我或添加 pull request 并按照以下 Markdown 格式:
- 论文名称.
- 作者列表. *会议 年*. [[pdf]](链接) [[代码]](链接)
这是我们 调研 的 Github 总结。如果你发现这个文件对你的研究有用,请考虑引用:
@article{wu2021self,
title={Self-supervised Learning on Graphs: Contrastive, Generative, or Predictive},
author={Wu, Lirong and Lin, Haitao and Tan, Cheng and Gao, Zhangyang and Li, Stan Z},
journal={IEEE Transactions on Knowledge and Data Engineering},
year={2021},
publisher={IEEE}
}
反馈
如果你有关于这项工作的任何问题,请随时通过电子邮件联系我:
- Lirong Wu: wulirong@westlake.edu.cn </SOURCE_TEXT>