基于无负样本损失和自适应增强的图对比学习
Graph contrastive learning based on negative-sample-free loss and adaptive augmentation
通讯作者:
收稿日期: 2022-07-28
基金资助: |
|
Received: 2022-07-28
Fund supported: | 黑龙江省自然科学基金-联合引导项目(LH2020F043) |
作者简介 About authors
周天琪(1999—),女,硕士生,从事图表示学习研究.orcid.org/0000-0001-9497-2166.E-mail:
针对图对比学习方法中对输入图进行随机增强和须利用负样本构造损失的问题,提出基于无负样本损失和自适应增强的图对比学习框架.该框架利用输入图中节点度的中心性进行自适应增强以生成2个视图,避免随机增强对重要的节点和边进行删除从而影响生成视图的质量,以提高框架的鲁棒性.利用相同权重编码器网络得到2个视图的嵌入矩阵,无须进行指定. 利用基于互相关的损失函数指导框架学习,该损失函数不依赖于非对称神经网络架构,无须用负样本构造损失函数,从而避免在图的情况下难以定义的负样本变得更具有挑战性,以及负样本构造损失会增大计算和存储负担的问题.所提框架在3个引文数据集上进行节点分类实验,结果表明,其在分类准确性方面优于很多基线方法.
关键词:
A graph contrastive learning framework based on negative-sample-free loss and adaptive augmentation was proposed to address the problems of random enhancement of the input graph and the need to construct losses using negative samples in graph contrastive learning methods. In the framework, the centrality of the node degree in the input graph was used to generate two views by adaptive enhancement, which avoided the deletion of important nodes and edges by random enhancement and thus improved the robustness of the framework . The embedding matrix of the two views was obtained using the same weight encoder network without specifying. A cross-correlation-based loss function which did not rely on non-symmetric neural network architectures was used to guide the framework learning. Negative samples were not required in this loss function, avoiding that negative samples became more challenging to define in the case of graphs and that negative samples increased the computational and storage burden of constructing losses. Results showed that the proposed framework outperformed many baseline methods in terms of classification accuracy in the node classification experiments on three citation datasets.
Keywords:
本文引用格式
周天琪, 杨艳, 张继杰, 殷少伟, 郭增强.
ZHOU Tian-qi, YANG Yan, ZHANG Ji-jie, YIN Shao-wei, GUO Zeng-qiang.
近些年来,图表示学习已经成为重要的研究方法,其能够根据图的属性信息和结构信息学习节点的表示. 图神经网络(graph neural network,GNN)通过聚合邻居的特征信息来学习新的特征[1],将节点的独立信息与图中相应的结构信息相结合,其优秀的性能引起了人们的高度关注. 在基于图的任务中,很多图神经网络的变体具有更好的性能,例如节点或链接分类[2]、链接预测[3-4]和图分类等. 大多数应用在图场景中的图神经网络是在有监督的情况下进行端到端训练的. 随着图卷积神经网络(graph convolutional network,GCN)[5]的出现,越来越多的图表示学习方法选择功能强大的GCN作为编码器,例如DGI[6]、GraphCL[7]、MVGRL[8],专注于最大化全局图级嵌入和局部节点级嵌入之间的互信息. 图神经网络大多须依赖任务的标签来学习丰富的表示. 然而,在现实世界中获得有标签的图信息的代价是昂贵的.
目前,研究人员在计算机视觉领域研究中已经解决了需要负样本的问题,例如BGRL[11]、Barlow Twins[12]和孪生网络架构等. 为了进一步解决对比学习中使用负样本构造损失会增大计算和存储负担的问题,本研究提出简单而有效的对比框架——基于无负样本损失和自适应增强的图对比学习框架(graph contrastive learning framework based on negative-sample-free loss and adaptive augmentation,GNSA),将自适应数据增强与Barlow Twins损失函数相结合. 该框架计算一个图的2个变体视图的嵌入互相关矩阵;所采用的网络结构是完全对称的,不需要任何特殊的技术来构造特殊的嵌入向量;使用同一个编码器进行传递.
综上,本研究所提出的基于无负样本损失和自适应增强的图对比学习框架主要贡献如下:1)提出基于无负样本损失和自适应增强的图对比学习框架,利用节点度中心性进行自适应的增强以生成2个视图. 2)为了解决通过负样本构造对比损失,从而增大计算和存储负担的问题,采用巴洛双胞胎(Barlow Twins)损失函数,利用图中2个变体视图的嵌入互相关矩阵对表示向量进行优化,该函数无须使用负样本,也无须在网络架构中引入任何类型的不对称信息.
1. 相关工作
1.1. 图表示学习
图表示学习(graph representation learning) 已经成为分析图结构中数据信息的有效方法,图表示学习的目的是学习一种编码函数以将节点转化为低维稠密的嵌入表示,从而保存节点的属性和结构特征. 传统的无监督图表示学习方法,如DeepWalk[13],使用SkipGram中的随机遍历来学习节点嵌入,node2vec[14]则将节点映射到含有特征的低维空间,从而最大限度地保存节点的图邻域信息. 两者都集中在局部对比,迫使邻近节点有相似的嵌入表示,这种情况下的正样本是在同一随机游走中出现的节点. 随机游走过分强调邻近性信息而忽略了结构信息,并且仅限于直推分类任务,不能使用节点特性且难以处理大规模的数据集.
近年来,关于GNN的研究使用了比传统方法更优的GCN. GCN能够处理可变大小的排列不变图,并通过从拓扑邻居中传递、变换和聚合表示的迭代过程来学习低维表示. 每次迭代将接受域扩展一跳,经过k次迭代后,k-hop内的节点相互影响.
1.2. 自监督学习
自监督学习是无监督学习的一类方法,利用图自身构造的监督信号,不再需要外部标签,可以学习到对下游任务有价值的表示. 本研究采用基于对比的自监督学习. 早期基于浅层神经网络的方法在图上构造监督信号,使同一局部上下文中的节点表示相似,其中局部上下文可以是随机游走序列、特定次序的邻居或社区成员. 随着图神经网络的成功,一些方法使用多层的图自动编码器来学习重构图的特定部分,其可以是邻接矩阵或节点特征矩阵. 对比学习在自然语言处理和计算机视觉领域被广泛应用,研究者将图像表示学习中的BYOL[15]技术迁移到图领域,提出BGRL框架,BGRL通过引导编码器的延迟版本的输出来学习表示,无须定义任何负样本.
1.3. 对比学习
对比学习(contrastive learning, CL)是通过对比正负样本来学习判别表示. 对比学习由数据增强方案、可学习模型和损失函数3个主要部分组成. 大多数图对比学习方法首先对输入图进行随机增强,以获得2个图视图,并最大限度地提高2个视图的表示一致性,最后设计一个对比损失函数来训练学习模型. 数据增强方案应该保留图的内在结构和属性,使模型能学习不重要节点和边的表示.
2. GNSA框架
2.1. 问题定义
给定一个图
2.2. 图对比学习框架
受计算机视觉领域对比学习的启发,提出自监督图对比学习框架GNSA,如图1所示. 该框架能最大化寻求不同视图间表示的一致性,该框架共有如下3个主要组成部分.
图 1
1)在GNSA框架每次迭代中,该框架采样2个自适应增强函数
2)2个增强视图
3)Barlow Twins[12]使用无负样本损失函数(negative-sample-free loss function)训练编码器网络. 首先对批量维度的嵌入矩阵进行正则化,然后计算互相关矩阵(cross-correlation matrix)
2.3. 自适应增强
数据扩充的目的是在不影响语义标签的情况下,通过应用某种转换来创建合理有效的数据. 在GNSA框架里,本研究设计的增强方案是量化节点间重要性,即保存重要性高的结构和属性不变,对重要性低的边和特征信息进行扰动. 之前很多数据增强都是随机删除边和对节点特征进行掩码,这样会对数据增强产生不利影响. 本研究强调按重要性保存视图的结构和属性,而不是随机损坏视图,以使该框架保持基本的拓扑和语义图信息.
通过数据增强生成了2个增强视图,包括改变图的结构和属性2个方面. 在结构方面,利用节点度中心性计算边中心性,根据得到的边的重要性,以一定概率删除不重要的边;在属性方面,通过将属性向量中不重要的维度替换为0,掩盖节点属性信息.
2.3.1. 拓扑级增强
对于拓扑级增强,按重要性程度删除图中的边,以度中心性作为测量节点中心性. 从输入图E中采样修改的子集
式中:
在图中节点中心性是一种广泛使用的度量指标,用于量化图中节点的重要性. 用边
根据每条边的中心性计算出每条边的概率. 由于节点的度中心性在数量级上会有不同,先设置
式中:
2.3.2. 节点属性级增强
在节点属性层面上,掩蔽节点特征中含有零的维度,首先采样一个随机向量
式中:;表示拼接操作,
式中:
最后将权重进行归一化得到表示特征的重要程度:
式中:
最终在自适应增强部分执行拓扑级和节点级属性增强生成2个增强视图
在实验中对自适应增强GNSA的变体GNSA-T、GNSA-A进行研究,其中自适应增强的度中心性和权重度量均只依赖图
2.4. Barlow Twins损失函数
大多采用对比学习的方法需要负样本,这是难以定义的,负样本构造损失会增大计算和存储负担,在图的情况下更具有挑战性. 为了解决这一问题,使用无负样本损失函数代替负样本来训练编码器网络. Barlow Twins[12]损失函数不依赖非对称神经网络架构,采用对称的网络架构,更加直观和合理,计算单个图中2个变体视图的嵌入互相关矩阵,将嵌入互相关矩阵优化到尽可能接近的单位矩阵. 变体视图通过使用反向传播梯度(以对称的方式)训练相同编码器从而进行传递.
Barlow Twins[12]主要思想是计算2个嵌入矩阵
式中:
Barlow Twins损失函数是将互相关矩阵转变成单位矩阵. 它由2个部分组成:不变性、减少冗余项. 第1部分是互相关矩阵的对角线元素
式中:参数
3. 实验结果及分析
3.1. 数据集
为了评估该框架学习表示的有效性,采用在文献中广泛使用的3个真实的节点分类引文数据集进行实验,数据集分别为Cora、Citeseer和Pubmed,统计结果如表1所示. 表中,C为节点类别数,TN为训练节点数,YN为验证节点数,TE为测试节点数. 这3个引文数据集中每个节点表示1篇学术论文,边表示论文间的引文关系. 例如在Cora 数据集中共有2708篇论文,共存在5429条边,类别数为7,表示这些论文共分为7个研究领域,每篇论文都由一个1433维的向量表示.
表 1 引文数据集详细信息
Tab.1
数据集 | N | M | F | C | TN | YN | TE |
Cora | 2708 | 5429 | 1433 | 7 | 140 | 500 | 1000 |
Citeseer | 3327 | 4552 | 3703 | 6 | 120 | 500 | 1000 |
Pubmed | 19717 | 44324 | 500 | 3 | 60 | 500 | 1000 |
3.2. 框架的超参数设置
为了寻找GNSA的最优超参数设置,该框架生成不同视图的超参数:{
表 2 不同数据集的框架超参数设置
Tab.2
数据集 | | | | | | |
Cora | 0.1 | 0.2 | 0.2 | 0.0 | 0.7 | 0.0010 |
Citeseer | 0.6 | 0.9 | 0.8 | 0.2 | 0.7 | 0.0002 |
Pubmed | 0.2 | 0.4 | 0.1 | 0.5 | 0.7 | 0.0010 |
3.3. 节点分类实验
进行节点分类实验,以评估该框架学习表示的有效性,并采用带标准差的平均分类精度来评估这些数据集的性能. 在实验中以准确性来衡量性能,统计结果如表3所示. 表中,
表 3 节点分类准确率的比较分析
Tab.3
% | ||||
模型 | 输入数据 | Cora | Citeseer | Pubmed |
DeepWalk | | 67.2 | 43.2 | 63.0 |
Raw features | | 47.9 ± 0.4 | 49.3 ± 0.2 | 69.1 ± 0.2 |
LP | | 68.0 | 45.3 | 63.0 |
MLP | | 55.1 | 46.5 | 71.4 |
PLANETOID | | 75.7 | 64.7 | 77.2 |
GraphSAGE | | 79.2 ± 0.5 | 71.2 ± 0.5 | 73.1 ± 1.4 |
Chebyshev | | 81.2 | 69.8 | 74.4 |
GCN | | 81.5 | 70.3 | 79.0 |
GAT | | 83.0 ± 0.7 | 72.5 ± 0.7 | 79.0 ± 0.3 |
DeepWalk-F | | 70.7 ± 0.6 | 51.4 ± 0.5 | 74.3 ± 0.9 |
Unsup-GraphSAGE | | 75.2 ± 1.5 | 59.4 ± 0.9 | 70.1 ± 1.4 |
DGI | | 82.3 ± 0.6 | 71.8 ± 0.7 | 76.9 ± 0.6 |
GMI | | 82.8 ± 0.3 | 72.3 ± 0.3 | 79.8 ± 0.2 |
GRACE | | 80.0 ± 0.4 | 71.7 ± 0.6 | 79.5 ± 1.1 |
GCA | | 80.5 ± 0.5 | 71.3 ± 0.4 | 78.6 ± 0.6 |
CG3 | | 83.1 ±0.6 | 73.0 ± 0.5 | 80.2±0.7 |
GNSA | | 83.3 ± 0.7 | 72.6 ± 0.1 | 81.6 ± 0.1 |
为了评估所提出的方法,采用以下2类有代表性的方法作为基线:1)无监督学习方法. 在原始输入节点特征(raw features)上使用逻辑回归分类器的方法;经典方法DeepWalk[13]和将学习到的嵌入与输入节点特性连接起来的DeepWalk-F;GraphSAGE[19]的无监督版本(Unsup-GraphSAGE);自监督方法DGI[6]、GMI[20]、 GRACE[10]、GCA[9]和CG3[21]. 2)监督学习方法. MLP[22]、Label Propagation (LP)[23]、PLANETOID[24]、 Chebyshev[25]、GCN[5],、GAT[17]和监督学习版本的GraphSAGE[19].
由表3可见,在数据集相同的情况下,与现有基准算法相比,GNSA框架节点分类的平均准确率在Cora和Pubmed数据集上最高,在Citeseer数据集上CG3方法的平均准确率最优. 相比于基准算法GCN,GNSA 的平均准确率在Cora、Citeseer和Pubmed数据集上分别提高1.8%、2.3%和2.6%. 相比于GMI,GNSA的平均准确率在Cora、Citeseer和Pubmed数据集上分别提高约0.5%、0.3%和1.8%. 虽然没有标签信息的指导,本研究方法依然获得了优于监督学习方法包括GCN、GAT、GraphSAGE等模型的性能. 上述结果验证了GNSA的优越性能.
3.4. 性能比较分析实验
表 4 不同对比方法的内存占用和运行时间设置
Tab.4
模型 | Cora数据集 | Citeseer数据集 | |||
| | | | ||
DGI | 1257 | 60.16 | 1053 | 76.27 | |
GMI | 1078 | 472.52 | 1411 | 631.41 | |
GRACE | 777 | 60.93 | 1151 | 163.54 | |
GCA | 845 | 805.99 | 1093 | 1207.03 | |
GNSA | 651 | 28.59 | 885 | 15.13 |
3.5. 消融实验
对本研究方法进行消融实验,以研究所提出的框架中每个组成部分的影响. 2个变体分别为:1)GNSA-T,只保留节点重要性的特征自适应,消除边的自适应,用平均抽样替换拓扑增强方案;2)GNSA-A,保留边的自适应,消除特征的自适应,用平均抽样替换节点属性增强方案.
实验结果如表5所示. 可以看出,拓扑级和节点属性级自适应增强方案在所有数据集上都能一致地提高框架的性能,并且结合2层的自适应方案能进一步提高性能,验证了自适应增强方案在拓扑和节点属性级上的有效性.
表 5 忽略不同因素对框架性能的影响
Tab.5
% | |||
模型 | Cora | Citeseer | Pubmed |
GNSA-T | 82.4 ± 0.5 | 71.5 ± 0.8 | 81.2 ± 0.6 |
GNSA-A | 71.0 ± 1.5 | 60.1 ± 2.0 | 79.0 ± 1.1 |
GNSA | 83.3 ± 0.7 | 72.6 ± 0.1 | 81.6 ± 0.1 |
3.6. 参数敏感性分析
对GNSA框架的主要超参数进行敏感性分析,主要包括
图 2
图 2 Cora数据集上不同超参数对节点分类准确率的影响
Fig.2 Effect of different hyperparameters on node classification accuracy in Cora dataset
4. 结 语
提出基于无负样本损失和自适应增强的图对比学习框架,该自监督图表示学习框架能缓解图表示学习中的标签稀缺问题,节省大量人力标注的工作. 该框架能自适应增强图中拓扑级和属性级图表示,再经编码器得出图的嵌入矩阵,最后采用无负样本损失函数进行训练,能使互相关矩阵变成单位矩阵减少表示向量的冗余. 与多个主流模型方法进行对比, 本研究框架均取得较好的结果, 甚至超过一些有监督学习的模型,证明了本研究框架的有效性.
本研究所提框架关注的仅仅是一个全批处理的场景,即一次性处理整个图,因此目前只局限于使用同构图. 在今后工作中,将研究批量采样的GNN编码器,并检查能够计算边级或图级表示的其他类型GNN.
参考文献
融合图注意力的多特征链接预测算法
[J].DOI:10.3778/j.issn.1673-9418.2012092 [本文引用: 1]
Multi-feature based link prediction algorithm fusing graph attention
[J].DOI:10.3778/j.issn.1673-9418.2012092 [本文引用: 1]
多层感知器的灵敏度分析
[J].DOI:10.3321/j.issn:0254-4164.2001.09.009 [本文引用: 1]
Sensitivity analysis of multilayer perception
[J].DOI:10.3321/j.issn:0254-4164.2001.09.009 [本文引用: 1]
图卷积神经网络综述
[J].DOI:10.11897/SP.J.1016.2020.00755 [本文引用: 1]
A survey on graph convolutional neural network
[J].DOI:10.11897/SP.J.1016.2020.00755 [本文引用: 1]
/
〈 |
|
〉 |
