基于无负样本损失和自适应增强的图对比学习

doi:10.3785/j.issn.1008-973X.2023.02.006

基于无负样本损失和自适应增强的图对比学习

周天琪^,, 杨艳^,, 张继杰, 殷少伟, 郭增强

黑龙江大学计算机科学技术学院，黑龙江哈尔滨 150000

Graph contrastive learning based on negative-sample-free loss and adaptive augmentation

ZHOU Tian-qi^,, YANG Yan^,, ZHANG Ji-jie, YIN Shao-wei, GUO Zeng-qiang

College of Computer Science and Technology, Heilongjiang University, Harbin 150000, China

通讯作者: 杨艳，女，教授，博士. orcid.org/0000-0001-6875-4165. E-mail: yangyan@hlju.edu.cn

收稿日期: 2022-07-28

基金资助:

黑龙江省自然科学基金-联合引导项目(LH2020F043)

Received: 2022-07-28

Fund supported:

黑龙江省自然科学基金-联合引导项目(LH2020F043)

作者简介 About authors

周天琪（1999—），女，硕士生，从事图表示学习研究.orcid.org/0000-0001-9497-2166.E-mail：2201816@s.hlju.edu.cn , E-mail：2201816@s.hlju.edu.cn

摘要

针对图对比学习方法中对输入图进行随机增强和须利用负样本构造损失的问题，提出基于无负样本损失和自适应增强的图对比学习框架.该框架利用输入图中节点度的中心性进行自适应增强以生成2个视图，避免随机增强对重要的节点和边进行删除从而影响生成视图的质量，以提高框架的鲁棒性.利用相同权重编码器网络得到2个视图的嵌入矩阵，无须进行指定. 利用基于互相关的损失函数指导框架学习，该损失函数不依赖于非对称神经网络架构，无须用负样本构造损失函数，从而避免在图的情况下难以定义的负样本变得更具有挑战性，以及负样本构造损失会增大计算和存储负担的问题.所提框架在3个引文数据集上进行节点分类实验，结果表明，其在分类准确性方面优于很多基线方法.

关键词： 自监督学习 ; 对比学习 ; 图神经网络 ; 自适应增强 ; 节点分类

Abstract

A graph contrastive learning framework based on negative-sample-free loss and adaptive augmentation was proposed to address the problems of random enhancement of the input graph and the need to construct losses using negative samples in graph contrastive learning methods. In the framework, the centrality of the node degree in the input graph was used to generate two views by adaptive enhancement, which avoided the deletion of important nodes and edges by random enhancement and thus improved the robustness of the framework . The embedding matrix of the two views was obtained using the same weight encoder network without specifying. A cross-correlation-based loss function which did not rely on non-symmetric neural network architectures was used to guide the framework learning. Negative samples were not required in this loss function, avoiding that negative samples became more challenging to define in the case of graphs and that negative samples increased the computational and storage burden of constructing losses. Results showed that the proposed framework outperformed many baseline methods in terms of classification accuracy in the node classification experiments on three citation datasets.

Keywords： self-supervised learning ; contrastive learning ; graph neural network ; adaptive augmentation ; node classification

PDF (832KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

周天琪, 杨艳, 张继杰, 殷少伟, 郭增强. 基于无负样本损失和自适应增强的图对比学习. 浙江大学学报(工学版)[J], 2023, 57(2): 259-266 doi:10.3785/j.issn.1008-973X.2023.02.006

ZHOU Tian-qi, YANG Yan, ZHANG Ji-jie, YIN Shao-wei, GUO Zeng-qiang. Graph contrastive learning based on negative-sample-free loss and adaptive augmentation. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(2): 259-266 doi:10.3785/j.issn.1008-973X.2023.02.006

近些年来，图表示学习已经成为重要的研究方法，其能够根据图的属性信息和结构信息学习节点的表示. 图神经网络（graph neural network，GNN）通过聚合邻居的特征信息来学习新的特征^[1]，将节点的独立信息与图中相应的结构信息相结合，其优秀的性能引起了人们的高度关注. 在基于图的任务中，很多图神经网络的变体具有更好的性能，例如节点或链接分类^[2]、链接预测^[3-4]和图分类等. 大多数应用在图场景中的图神经网络是在有监督的情况下进行端到端训练的. 随着图卷积神经网络（graph convolutional network，GCN）^[5]的出现，越来越多的图表示学习方法选择功能强大的GCN作为编码器，例如DGI^[6]、GraphCL^[7]、MVGRL^[8]，专注于最大化全局图级嵌入和局部节点级嵌入之间的互信息. 图神经网络大多须依赖任务的标签来学习丰富的表示. 然而，在现实世界中获得有标签的图信息的代价是昂贵的.

针对这一问题，自监督学习（self-supervised learning, SSL）范式为图表示学习提供了一种可行的解决方法. 自监督学习因数据效率高和泛化能力强而受到广泛关注，许多新提出的模型都遵循这一范式. 自监督学习利用输入数据本身作为监督信号，不需要人工添加标签. 其中，最典型的是对比学习. 对比学习通过最大化正样本对之间的一致性和负样本对之间的不一致性来学习特征编码器，其中最突出的方法有GCA^[9]、DGI、GRACE^[10]和GraphCL等. 尽管上述模型能取得良好的效果，但它们均须利用负样本构造损失函数.

目前，研究人员在计算机视觉领域研究中已经解决了需要负样本的问题，例如BGRL^[11]、Barlow Twins^[12]和孪生网络架构等. 为了进一步解决对比学习中使用负样本构造损失会增大计算和存储负担的问题，本研究提出简单而有效的对比框架——基于无负样本损失和自适应增强的图对比学习框架（graph contrastive learning framework based on negative-sample-free loss and adaptive augmentation，GNSA），将自适应数据增强与Barlow Twins损失函数相结合. 该框架计算一个图的2个变体视图的嵌入互相关矩阵；所采用的网络结构是完全对称的，不需要任何特殊的技术来构造特殊的嵌入向量；使用同一个编码器进行传递.

综上，本研究所提出的基于无负样本损失和自适应增强的图对比学习框架主要贡献如下：1）提出基于无负样本损失和自适应增强的图对比学习框架，利用节点度中心性进行自适应的增强以生成2个视图. 2）为了解决通过负样本构造对比损失，从而增大计算和存储负担的问题，采用巴洛双胞胎（Barlow Twins）损失函数，利用图中2个变体视图的嵌入互相关矩阵对表示向量进行优化，该函数无须使用负样本，也无须在网络架构中引入任何类型的不对称信息.

1. 相关工作

1.1. 图表示学习

图表示学习（graph representation learning) 已经成为分析图结构中数据信息的有效方法，图表示学习的目的是学习一种编码函数以将节点转化为低维稠密的嵌入表示，从而保存节点的属性和结构特征. 传统的无监督图表示学习方法，如DeepWalk^[13]，使用SkipGram中的随机遍历来学习节点嵌入，node2vec^[14]则将节点映射到含有特征的低维空间，从而最大限度地保存节点的图邻域信息. 两者都集中在局部对比，迫使邻近节点有相似的嵌入表示，这种情况下的正样本是在同一随机游走中出现的节点. 随机游走过分强调邻近性信息而忽略了结构信息，并且仅限于直推分类任务，不能使用节点特性且难以处理大规模的数据集.

近年来，关于GNN的研究使用了比传统方法更优的GCN. GCN能够处理可变大小的排列不变图，并通过从拓扑邻居中传递、变换和聚合表示的迭代过程来学习低维表示. 每次迭代将接受域扩展一跳，经过k次迭代后，k-hop内的节点相互影响.

1.2. 自监督学习

自监督学习是无监督学习的一类方法，利用图自身构造的监督信号，不再需要外部标签，可以学习到对下游任务有价值的表示. 本研究采用基于对比的自监督学习. 早期基于浅层神经网络的方法在图上构造监督信号，使同一局部上下文中的节点表示相似，其中局部上下文可以是随机游走序列、特定次序的邻居或社区成员. 随着图神经网络的成功，一些方法使用多层的图自动编码器来学习重构图的特定部分，其可以是邻接矩阵或节点特征矩阵. 对比学习在自然语言处理和计算机视觉领域被广泛应用，研究者将图像表示学习中的BYOL^[15]技术迁移到图领域，提出BGRL框架，BGRL通过引导编码器的延迟版本的输出来学习表示，无须定义任何负样本.

1.3. 对比学习

对比学习(contrastive learning, CL）是通过对比正负样本来学习判别表示. 对比学习由数据增强方案、可学习模型和损失函数3个主要部分组成. 大多数图对比学习方法首先对输入图进行随机增强，以获得2个图视图，并最大限度地提高2个视图的表示一致性，最后设计一个对比损失函数来训练学习模型. 数据增强方案应该保留图的内在结构和属性，使模型能学习不重要节点和边的表示.

现有的方法大多采用统一的数据增强方案，例如统一删除边和统一打乱节点特征，导致性能次优. DIM^[16]的核心思想是训练一个编码器，其目标函数不是最小化输入与输出的均方误差（MSE），而是最大化输入与输出的互信息；DGI^[6]提出在图上局部表示和全局表示之间进行对比学习，以更好地捕获结构信息；GRACE^[10]通过最大限度地利用删除边和掩盖特征产生的2个图视图之间的节点嵌入一致性来获取图中的节点表示，从而简化DGI；MVGRL^[8]引入一种自监督的方法来学习节点和图级别的表示，该方法采用对比图的2个结构视图(包括一阶邻居和图扩散)的编码.

2. GNSA框架

2.1. 问题定义

给定一个图 $G = (V,E)$，其中节点集 $V = \left\{ {v_1},{v_2}, \cdots , {v_N} \right\}$， $N$为节点数；边集 $E = \left\{ {{e_1},{e_2}, \cdots ,{e_M}} \right\}$， $M$为边数. 节点的特征矩阵为 $ {\boldsymbol{X}} \in {{\bf{R}}^{N \times F}} $， $F$为特征维度，每个 ${v_i}$的特征向量为 ${{\boldsymbol{x}}_{{i}}} \in {{\bf{R}}^F}$；节点的邻接矩阵为 ${\boldsymbol{A}} \in {\{ 0,1\} ^{N \times N}}$，本研究假设图是无权重的，若 $\left( {{v_i},{v_j}} \right) \in \;E$，则 $ {{{A}}_{ij}} = 1 $，否则 $ {{{A}}_{ij}} = 0 $. 本研究目标是学习一个图神经网络编码器 $f({\boldsymbol{X}},{\boldsymbol{A}}) \in {{\bf{R}}^{N \times {F^\prime }}}$，将图的特征矩阵 ${\boldsymbol{X}}$和邻接矩阵 ${\boldsymbol{A}}$作为输入经GNN编码器生成低维的节点嵌入表示，即 ${F^\prime } \ll F$. 学习到的节点表示为 ${\boldsymbol{H}} = f({\boldsymbol{X}},{\boldsymbol{A}})$，节点 ${v_i}$的嵌入表示为 ${{\boldsymbol{h}}_i}$. 这些表示能被检索到并可用于下游任务，如节点分类.

2.2. 图对比学习框架

受计算机视觉领域对比学习的启发，提出自监督图对比学习框架GNSA，如图1所示. 该框架能最大化寻求不同视图间表示的一致性，该框架共有如下3个主要组成部分.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 自监督图对比学习框架

Fig.1 Framework of self-supervised graph contrastive learning

1）在GNSA框架每次迭代中，该框架采样2个自适应增强函数 ${t_1}\sim {T}$和 ${t_2}\sim{T}$， ${T}$为用于拓扑级增强函数和属性级增强函数的集合. 然后，通过增强函数生成图形视图 ${G_1} = \left( {{{\hat {\boldsymbol{X}}}_{{1}}},{{\hat {\boldsymbol{A}}}_{{1}}}} \right)$和 ${G_2} = \left( {{{\hat {\boldsymbol{X}}}_{{2}}},{{\hat {\boldsymbol{A}}}_{{2}}}} \right)$.

2）2个增强视图 ${G_1}$和 ${G_2}$采用相同权重的编码器网络 $f( \cdot )$，分别得到2个嵌入矩阵 ${{\boldsymbol{Z}}^{(1)}}$和 ${{\boldsymbol{Z}}^{(2)}}$. 此编码器是无须进行指定的，如GCN、GAT^[17]都可以，本研究只使用GNN编码器学习下游任务的节点表示.

3）Barlow Twins^[12]使用无负样本损失函数（negative-sample-free loss function）训练编码器网络. 首先对批量维度的嵌入矩阵进行正则化，然后计算互相关矩阵（cross-correlation matrix） ${\boldsymbol{l}} \in {{\bf{R}}^{k \times k}}$（ $k$为嵌入维度），尽可能优化使其成为单位矩阵. 利用Barlow Twins损失函数，通过编码器网络对称地反向传播梯度，不依赖任何特殊的技术.

2.3. 自适应增强

数据扩充的目的是在不影响语义标签的情况下，通过应用某种转换来创建合理有效的数据. 在GNSA框架里，本研究设计的增强方案是量化节点间重要性，即保存重要性高的结构和属性不变，对重要性低的边和特征信息进行扰动. 之前很多数据增强都是随机删除边和对节点特征进行掩码，这样会对数据增强产生不利影响. 本研究强调按重要性保存视图的结构和属性，而不是随机损坏视图，以使该框架保持基本的拓扑和语义图信息.

通过数据增强生成了2个增强视图，包括改变图的结构和属性2个方面. 在结构方面，利用节点度中心性计算边中心性，根据得到的边的重要性，以一定概率删除不重要的边；在属性方面，通过将属性向量中不重要的维度替换为0，掩盖节点属性信息.

2.3.1. 拓扑级增强

对于拓扑级增强，按重要性程度删除图中的边，以度中心性作为测量节点中心性. 从输入图E中采样修改的子集 $\hat{ \mathcal{E}}$的概率集合定义如下：

(1) $ P\{ (i,j) \in \hat{ \mathcal{E}}\} = 1 - p_{ij}^{\text{e}} . $

式中： $\hat{ \mathcal{E}}$为增强视图中的边集； $p_{ij}^{\text{e}}$为删除边 $(i,j)$的概率，能反映边 $(i,j)$的重要性程度，能使增强方案以更高的概率删除不重要的边来保证图的结构完整.

在图中节点中心性是一种广泛使用的度量指标，用于量化图中节点的重要性. 用边 $(i,j)$的中心性 $c_{ij}^{\text{e}}$来表示2个相连节点间重要性的影响. 设一个节点中心性度量 $\varphi ( \cdot ):V \to {{\bf{R}}^+}$，将边中心性定义为2个相邻节点中心性得分的平均值：

(2) $ c_{ij}^{\text{e}} = \left( {\varphi (i)+\varphi (j)} \right)/2. $

根据每条边的中心性计算出每条边的概率. 由于节点的度中心性在数量级上会有不同，先设置 $t_{ij}^{\text{e}} = \ln\; c_{ij}^{\text{e}}$来减轻稠密节点的影响，然后通过归一化步骤，将值转换为概率：

(3) $ p_{ij}^{\text{e}} = \min\; \left\{ {\frac{{t_{{\rm{max}}}^{\text{e}} - t_{ij}^{\text{e}}}}{{t_{{\rm{max}}}^{\text{e}} - \mu _t^{\text{e}}}} {p_{\rm{e}}},\;{p_{\text{τ}} }} \right\}. $

式中： ${p_{\rm{e}}}$为一个超参数，目的是控制删除边的总体概率； $t_{{\rm{max}}}^{\text{e}}$为 $t_{ij}^{\text{e}}$的最大值； $ \;{\mu ^{\text{e}}_{{t}}} $为 $t_{ij}^{\text{e}}$的平均值； $ {{{p}}_{\text{τ}} } < 1 $为截止概率，用于限制概率的最大值，因为过高的删除概率会严重损坏图结构.

2.3.2. 节点属性级增强

在节点属性层面上，掩蔽节点特征中含有零的维度，首先采样一个随机向量 $\widetilde {\boldsymbol{q}} \in {\{ 0,1\} ^F}$，它的每个维度都是独立且服从伯努利分布的，即 ${{{\tilde q}}_{\boldsymbol{i}}}\sim{{\rm{Bern}}} \left( {1 - p_i^{\text{f}}} \right)$，其中 $p_i^{\text{f}}$为掩盖第 $i$维节点特征的概率. 生成的节点特征矩阵 ${\boldsymbol{\tilde X}} $表达式如下:

(4) $ {\boldsymbol{\tilde X}} = {\left[ {{{\boldsymbol{x}}_{{1}}}\circ {\boldsymbol{\tilde q}};\;{{\boldsymbol{x}}_{{2}}}\circ {\boldsymbol{\tilde q}};\; \cdots ;\;{{\boldsymbol{x}}_{{N}}} \circ {\boldsymbol{\tilde q}}} \right]^{\rm{T}} }. $

式中：；表示拼接操作， $\circ $表示元素积. 对于稀疏的独热节点特征，例如节点i的第d维x_id∈{0，1}，计算维度 $d$的权重如下：

(5) $ w_d^{\text{f}} = \sum\limits_{i \in {V}} {{{{x}}_{id}}} \varphi (i) . $

式中： $\varphi (i)$为衡量节点重要性的指标. 节点特征 ${{{x}}_{id}}$不能直接计算每个独热编码值的出现次数，因此利用绝对值 $|{{{x}}_{id}}|$测量节点 $i$在第 $d$维特征值的大小：

(6) $ w_d^{\text{f}} = \sum\limits_{i \in \:V} {\left| {{{{x}}_{id}}} \right|} \varphi (i). $

最后将权重进行归一化得到表示特征的重要程度：

(7) $ p_d^{\text{f}} = \min\; \left\{ {\frac{{t_{{\rm{max}}}^{\text{f}} - t_d^{\text{f}}}}{{t_{{\rm{max}}}^{\text{f}} - \mu _t^{\text{f}}}} {p_{\rm{f}}},\;{p_{\text{τ}} }} \right\}. $

式中： $t_d^{\text{f}} = \ln\; w_d^{\text{f}}$， $t_{{\rm{max}}}^{\text{f}}$为 $t_d^{\text{f}}$的最大值， $\mu _t^{\text{f}}$为 $t_d^{\text{f}}$的平均值， ${p_{\rm{f}}}$为控制特征增强整体大小的超参数.

最终在自适应增强部分执行拓扑级和节点级属性增强生成2个增强视图 ${G_1}$和 ${G_2}$. 在GNSA中， ${p_{\rm{e}}}$和 ${p_{\rm{f}}}$为不同视图下的超参数， ${p_{{\rm{e}},1}}$、 ${p_{{\rm{f}},1}}$为用于生成第1个增强视图的参数， ${p_{{\rm{e}},2}}$、 ${p_{{\rm{f}},2}}$为用于生成第2个增强视图的参数.

在实验中对自适应增强GNSA的变体GNSA-T、GNSA-A进行研究，其中自适应增强的度中心性和权重度量均只依赖图 $G$的拓扑和节点属性.

2.4. Barlow Twins损失函数

大多采用对比学习的方法需要负样本，这是难以定义的，负样本构造损失会增大计算和存储负担，在图的情况下更具有挑战性. 为了解决这一问题，使用无负样本损失函数代替负样本来训练编码器网络. Barlow Twins^[12]损失函数不依赖非对称神经网络架构，采用对称的网络架构，更加直观和合理，计算单个图中2个变体视图的嵌入互相关矩阵，将嵌入互相关矩阵优化到尽可能接近的单位矩阵. 变体视图通过使用反向传播梯度(以对称的方式)训练相同编码器从而进行传递.

Barlow Twins^[12]主要思想是计算2个嵌入矩阵 ${{\boldsymbol{Z}}^{(1)}}$和 ${{\boldsymbol{Z}}^{(2)}}$沿批处理维度输出的互相关矩阵 ${\boldsymbol{l}} \in {{\bf{R}}^{k \times k}}$，而不是依赖负样本和对比损失函数. 矩阵中的单个元素 ${l_{uv}}$表达式如下：

(8) $ {l_{uv}} = \frac{{\displaystyle \sum\limits_b {{{z}}_{b,u}^{(1)}} {{z}}_{b,v}^{(2)}}}{{\sqrt {\displaystyle \sum\limits_b {{{\left( {{{z}}_{b,u}^{(1)}} \right)}^2}} } \sqrt {\displaystyle \sum\limits_b {{{\left( {{{z}}_{b,v}^{(2)}} \right)}^2}} } }}. $

式中： $b$为批处理索引， $u$、 $v$为索引的维数， ${{z}}_{b,u}^{(1)} $为索引为b的第1个视图的节点表示的第u维. ${\boldsymbol{l}}$为一个方阵，大小为网络输出的维数，其值由−1(即完全不相关)和1(即完全相关)组成. 令2个嵌入 ${{\boldsymbol{Z}}^{(1)}}$、 ${{\boldsymbol{Z}}^{(2)}}$都沿着批处理维度进行归一化表示.

Barlow Twins损失函数是将互相关矩阵转变成单位矩阵. 它由2个部分组成：不变性、减少冗余项. 第1部分是互相关矩阵的对角线元素 ${{l} _{uu}}$=1，能保持嵌入图的增广不变性；第2部分优化了互相关矩阵的非对角线元素 $ {l_{u{{v}}}} $=0，能得到嵌入向量的不相关分量. 这种不相关减少了输出单元之间的冗余，因此输出单元包含有关样本的非冗余信息. 区别于其他方法，新的损失函数 ${L_{{\text{BT}}}}$表达式如下：

(9) $ {L_{{\text{BT}}}} \triangleq {\sum\limits_u {{{\left( {1 - {l_{uu}}} \right)}^2}} }+\lambda {\sum\limits_u {\sum\limits_{v \ne u} {l_{uv}^2} } }. $

式中：参数 $\lambda $表示优化整体损失函数过程中不变性和冗余减少项之间的重要性权衡， $\lambda > 0$. 在实验设置中， $ \lambda ={1}/{k} $^[18].

3. 实验结果及分析

3.1. 数据集

为了评估该框架学习表示的有效性，采用在文献中广泛使用的3个真实的节点分类引文数据集进行实验，数据集分别为Cora、Citeseer和Pubmed，统计结果如表1所示. 表中，C为节点类别数，TN为训练节点数，YN为验证节点数，TE为测试节点数. 这3个引文数据集中每个节点表示1篇学术论文，边表示论文间的引文关系. 例如在Cora 数据集中共有2708篇论文，共存在5429条边，类别数为7，表示这些论文共分为7个研究领域，每篇论文都由一个1433维的向量表示.

表 1 引文数据集详细信息

Tab.1 Details of citation datasets

数据集	N	M	F	C	TN	YN	TE
Cora	2708	5429	1433	7	140	500	1000
Citeseer	3327	4552	3703	6	120	500	1000
Pubmed	19717	44324	500	3	60	500	1000

新窗口打开| 下载CSV

3.2. 框架的超参数设置

为了寻找GNSA的最优超参数设置，该框架生成不同视图的超参数：{ ${p_{{\rm{e}},1}}$， ${p_{{\rm{e}},2}}$， ${p_{{\rm{f}},1}}$， ${p_{{\rm{f}},2}}$}，其取值范围均为0~0.9，截止概率 ${p_{\text{τ}} }$固定为0.7， ${{L_{\rm{r}}}}$表示框架的学习率. 所有数据集的超参数配置如表2所示.

表 2 不同数据集的框架超参数设置

Tab.2 Framework hyperparameter settings for different datasets

数据集	${p_{{\rm{e}},1}}$	${p_{{\rm{f}},1}}$	${p_{{\rm{e}},2}}$	${p_{{\rm{f}},2}}$	${p_{\text{τ}} }$	${{L_{\rm{r}}} }$
Cora	0.1	0.2	0.2	0.0	0.7	0.0010
Citeseer	0.6	0.9	0.8	0.2	0.7	0.0002
Pubmed	0.2	0.4	0.1	0.5	0.7	0.0010

新窗口打开| 下载CSV

3.3. 节点分类实验

进行节点分类实验，以评估该框架学习表示的有效性，并采用带标准差的平均分类精度来评估这些数据集的性能. 在实验中以准确性来衡量性能，统计结果如表3所示. 表中， ${\boldsymbol{Y}}$表示标签矩阵. 本研究提出的框架在所有的数据集上都表现出了较强的性能，验证了所提出的对比学习框架的优越性.

表 3 节点分类准确率的比较分析

Tab.3 Comparison and analysis of node classification accuracy　　　　　　

%
模型	输入数据	Cora	Citeseer	Pubmed
DeepWalk	${\boldsymbol{A}}$	67.2	43.2	63.0
Raw features	${\boldsymbol{X}}$	47.9 ± 0.4	49.3 ± 0.2	69.1 ± 0.2
LP	${\boldsymbol{A}}$, ${\boldsymbol{Y}}$	68.0	45.3	63.0
MLP	${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	55.1	46.5	71.4
PLANETOID	${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	75.7	64.7	77.2
GraphSAGE	${\boldsymbol{A}}$, ${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	79.2 ± 0.5	71.2 ± 0.5	73.1 ± 1.4
Chebyshev	${\boldsymbol{A}}$, ${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	81.2	69.8	74.4
GCN	${\boldsymbol{A}}$, ${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	81.5	70.3	79.0
GAT	${\boldsymbol{A}}$, ${\boldsymbol{X}}$, ${\boldsymbol{Y}}$	83.0 ± 0.7	72.5 ± 0.7	79.0 ± 0.3
DeepWalk-F	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	70.7 ± 0.6	51.4 ± 0.5	74.3 ± 0.9
Unsup-GraphSAGE	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	75.2 ± 1.5	59.4 ± 0.9	70.1 ± 1.4
DGI	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	82.3 ± 0.6	71.8 ± 0.7	76.9 ± 0.6
GMI	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	82.8 ± 0.3	72.3 ± 0.3	79.8 ± 0.2
GRACE	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	80.0 ± 0.4	71.7 ± 0.6	79.5 ± 1.1
GCA	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	80.5 ± 0.5	71.3 ± 0.4	78.6 ± 0.6
CG³	${\boldsymbol{A}}$, ${\boldsymbol{X}}$	83.1 ±0.6	73.0 ± 0.5	80.2±0.7
GNSA	${\boldsymbol{A}}$,${\boldsymbol{X}}$	83.3 ± 0.7	72.6 ± 0.1	81.6 ± 0.1

新窗口打开| 下载CSV

为了评估所提出的方法，采用以下2类有代表性的方法作为基线：1）无监督学习方法. 在原始输入节点特征（raw features）上使用逻辑回归分类器的方法；经典方法DeepWalk^[13]和将学习到的嵌入与输入节点特性连接起来的DeepWalk-F；GraphSAGE^[19]的无监督版本(Unsup-GraphSAGE)；自监督方法DGI^[6]、GMI^[20]、 GRACE^[10]、GCA^[9]和CG^3[21]. 2)监督学习方法. MLP^[22]、Label Propagation (LP)^[23]、PLANETOID^[24]、 Chebyshev^[25]、GCN^[5],、GAT^[17]和监督学习版本的GraphSAGE^[19].

由表3可见，在数据集相同的情况下，与现有基准算法相比，GNSA框架节点分类的平均准确率在Cora和Pubmed数据集上最高，在Citeseer数据集上CG³方法的平均准确率最优. 相比于基准算法GCN，GNSA 的平均准确率在Cora、Citeseer和Pubmed数据集上分别提高1.8%、2.3%和2.6%. 相比于GMI，GNSA的平均准确率在Cora、Citeseer和Pubmed数据集上分别提高约0.5%、0.3%和1.8%. 虽然没有标签信息的指导，本研究方法依然获得了优于监督学习方法包括GCN、GAT、GraphSAGE等模型的性能. 上述结果验证了GNSA的优越性能.

3.4. 性能比较分析实验

在Cora和Citeseer数据集上开展性能比较分析实验. 主要设置2个指标，GPU内存占用和运行时间对比的基线方法有DGI^[6]、GMI^[20]、GRACE^[10]和GCA^[9]，统计结果如表4所示. 表中，MB为GPU内存占用，S为运行时间. 经实验比较分析，无负样本损失的框架GNSA的GPU 内存占用最少且运行时间最短，可以看出负样本构造损失会增大计算和存储负担.

表 4 不同对比方法的内存占用和运行时间设置

Tab.4 Memory usage and runtime settings of different comparison methods

模型	Cora数据集		Citeseer数据集
模型	${\rm{MB}}$	$S$	${\rm{MB}}$	$S$
DGI	1257	60.16	1053	76.27
GMI	1078	472.52	1411	631.41
GRACE	777	60.93	1151	163.54
GCA	845	805.99	1093	1207.03
GNSA	651	28.59	885	15.13

新窗口打开| 下载CSV

3.5. 消融实验

对本研究方法进行消融实验，以研究所提出的框架中每个组成部分的影响. 2个变体分别为：1）GNSA-T，只保留节点重要性的特征自适应，消除边的自适应，用平均抽样替换拓扑增强方案；2）GNSA-A，保留边的自适应，消除特征的自适应，用平均抽样替换节点属性增强方案.

实验结果如表5所示. 可以看出，拓扑级和节点属性级自适应增强方案在所有数据集上都能一致地提高框架的性能，并且结合2层的自适应方案能进一步提高性能，验证了自适应增强方案在拓扑和节点属性级上的有效性.

表 5 忽略不同因素对框架性能的影响

Tab.5 Effect of ignoring different factors on framework performance

%
模型	Cora	Citeseer	Pubmed
GNSA-T	82.4 ± 0.5	71.5 ± 0.8	81.2 ± 0.6
GNSA-A	71.0 ± 1.5	60.1 ± 2.0	79.0 ± 1.1
GNSA	83.3 ± 0.7	72.6 ± 0.1	81.6 ± 0.1

新窗口打开| 下载CSV

3.6. 参数敏感性分析

对GNSA框架的主要超参数进行敏感性分析，主要包括 ${p_{\rm{e}}}$和 ${p_{\rm{f}}}$对准确率的影响. 在引文数据集Cora上对这4个参数进行分析，这些超参数能确定生成的图视图和显示框架的稳定性. 在0.1~0.9范围内改变这些参数进行节点分类实验，以更好地检验超参数对准确率的影响，设置 ${p_{\rm{e}}} = {p_{{\rm{e}},1}} = {p_{{\rm{e}},2}}$， ${p_{\rm{f}}} = {p_{{\rm{f}},1}} = {p_{{\rm{f}},2}}$控制拓扑级和节点属性级的增强，在敏感性分析中只改变这4个参数，其他参数保持不变. 在Cora数据集上的结果如图2所示. 图中，Acc表示节点分类准确率. 可以看出，当参数小于0.5时，节点分类的准确率表现相对稳定，可见GNSA框架对这些超参数不敏感，体现出框架的鲁棒性，能更好地学习节点表示. 若参数设置大于0.5，会破坏原始图，其编码器网络难以学习到图的重要属性和结构信息，影响节点分类准确率，导致对比目标难以优化.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 Cora数据集上不同超参数对节点分类准确率的影响

Fig.2 Effect of different hyperparameters on node classification accuracy in Cora dataset

4. 结　语

提出基于无负样本损失和自适应增强的图对比学习框架，该自监督图表示学习框架能缓解图表示学习中的标签稀缺问题，节省大量人力标注的工作. 该框架能自适应增强图中拓扑级和属性级图表示，再经编码器得出图的嵌入矩阵，最后采用无负样本损失函数进行训练，能使互相关矩阵变成单位矩阵减少表示向量的冗余. 与多个主流模型方法进行对比, 本研究框架均取得较好的结果, 甚至超过一些有监督学习的模型，证明了本研究框架的有效性.

本研究所提框架关注的仅仅是一个全批处理的场景，即一次性处理整个图，因此目前只局限于使用同构图. 在今后工作中，将研究批量采样的GNN编码器，并检查能够计算边级或图级表示的其他类型GNN.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks [C]// Proceedings of the 7th International Conference on Learning Representations. New Orleans: [s.n.], 2019: 1-17.

[本文引用: 1]

[2]

ABU-EL-HAIJA S, PEROZZI B, KAPOOR A, et al. Mixhop: higher-order graph convolutional architectures via sparsified neighborhood mixing [C]// Proceedings of the 36th International Conference on Machine Learning. Long Beach: PMLR , 2019: 21-29.

[本文引用: 1]

[3]

YOU J, YING R, LESKOVEC J. Position-aware graph neural networks [C]// Proceedings of the 36th International Conference on Machine Learning. Long Beach: PMLR, 2019: 7134-7143.

[本文引用: 1]

[4]

张雁操, 赵宇海, 史岚

融合图注意力的多特征链接预测算法

[J]. 计算机科学与探索, 2022, 16 (5): 1096- 1106

DOI:10.3778/j.issn.1673-9418.2012092 [本文引用: 1]

ZHANG Yan-cao, ZHAO Yu-hai, SHI Lan

Multi-feature based link prediction algorithm fusing graph attention

[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16 (5): 1096- 1106

DOI:10.3778/j.issn.1673-9418.2012092 [本文引用: 1]

[5]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// Proceedings of the 5th International Conference on Learning Representations. Toulon: [s. n. ], 2017: 1-14.

[本文引用: 2]

[6]

VELICKOVIC P, FEDUS W, HAMILTON W L, et al. Deep graph Infomax [C]// Proceedings of the 7th International Conference on Learning Representations. New Orleans: [s.n.], 2019: 1-17.

[本文引用: 4]

[7]

YOU Y, CHEN T L, SUI Y D, et al. Graph contrastive learning with augmentations [C]// Advances in Neural Information Processing Systems. [s.l.]: MIT Press, 2020: 1-12.

[本文引用: 1]

[8]

HASSANI K, AHMADI A H K. Contrastive multi-view representation learning on graphs [C]// Proceedings of the 37th International Conference on Machine Learning. [s.l.]: PMLR, 2020: 4116-4126.

[本文引用: 2]

[9]

ZHU Y Q, XU Y C, LIU Q, et al. Graph contrastive learning with adaptive augmentation [C]// Proceedings of the 2021 World Wide Web Conference. [s.l.]: ACM, 2021: 2069-2080.

[本文引用: 3]

[10]

ZHU Y Q, XU Y C, YU F, et al. Deep graph contrastive representation learning [EB/OL]. [2022-03-21]. https://arxiv.org/abs/2006.04131.

[本文引用: 4]

[11]

THAKOOR S, TALLEC C, AZAR M G, et al. Bootstrapped representation learning on graphs [EB/OL]. [2021-02-18]. https://arxiv.org/abs/2102.06514.

[本文引用: 1]

[12]

BIELAK P, KAJDANOWICZ T, CHAWLA N V. Graph Barlow Twins: a self-supervised representation learning framework for graphs [EB/OL]. [2021-06-10]. https://arxiv.org/abs/2106.02466.

[本文引用: 4]

[13]

PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations [C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. NewYork: ACM, 2014: 701-710.

[本文引用: 2]

[14]

GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM, 2016: 855-864.

[本文引用: 1]

[15]

GRILL J B, ALTCHE F, TALLEC C, et al. Bootstrap Your Own Latent: a new approach to self-supervised learning [C]// Advances in Neural Information Proceedings Systems. [s.l.]: MIT Press, 2020: 1-35.

[本文引用: 1]

[16]

HJELM R, FEDOROV A, LAVOIE-MARCHILDON S, et al. Learning deep representations by mutual information estimation and maximization [C]// Proceedings of the 7th International Conference on Learning Representations. New Orleans: [s.n.], 2019: 1-24.

[本文引用: 1]

[17]

VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph attention networks [C]// Proceedings of the 6th International Conference on Learning Representations. Vancouver: [s.n.], 2018: 1-12.

[本文引用: 2]

[18]

TSAI Y H, BAI S J, MORENCY L P, et al. A note on connecting Barlow Twins with negative-sample-free contrastive learning [EB/OL]. [2021-05-04]. https://arxiv.org/abs/2104.13712.

[本文引用: 1]

[19]

HAMILTON W L, YING Z, LESKOVEC J. Inductive representation learning on large graphs [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 1024-1034.

[本文引用: 2]

[20]

PENG Z, HUANG W, LUO M, et al. Graph representation learning via graphical mutual information maximization [C]// Proceedings of the 2020 World Wide Web Conference. Taipei: ACM, 2020: 259-270.

[本文引用: 2]

[21]

WAN S, PAN S, YANG J, et al. Contrastive and generative graph convolutional networks for graph-based semi-supervised learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [s.l.]: AAAI, 2021: 10049-10057.

[本文引用: 1]

[22]

孙学全, 冯英浚

多层感知器的灵敏度分析

[J]. 计算机学报, 2001, 24 (9): 951- 958

DOI:10.3321/j.issn:0254-4164.2001.09.009 [本文引用: 1]

SUN Xue-quan, FENG Ying-jun

Sensitivity analysis of multilayer perception

[J]. Chinese Journal of Computers, 2001, 24 (9): 951- 958

DOI:10.3321/j.issn:0254-4164.2001.09.009 [本文引用: 1]

[23]

徐冰冰, 岑科廷, 黄俊杰, 等

图卷积神经网络综述

[J]. 计算机学报, 2020, 43 (5): 755- 780

DOI:10.11897/SP.J.1016.2020.00755 [本文引用: 1]

XU Bing-bing, CEN Ke-ting, HUANG Jun-jie, et al

A survey on graph convolutional neural network

[J]. Chinese Journal of Computers, 2020, 43 (5): 755- 780

DOI:10.11897/SP.J.1016.2020.00755 [本文引用: 1]

[24]

YANG Z W, COHEN W, SALAKHUTDINOV R. Revisiting semi-supervised learning with graph embeddings [C]// Proceedings of 33nd International Conference on Machine Learning. New York: [s.n.], 2016: 40-48.

[本文引用: 1]

[25]

DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering [C]// Advances in Neural Information Proceedings Systems. Barcelona: MIT Press, 2016: 3837-3845.

[本文引用: 1]

... 近些年来，图表示学习已经成为重要的研究方法，其能够根据图的属性信息和结构信息学习节点的表示. 图神经网络（graph neural network，GNN）通过聚合邻居的特征信息来学习新的特征^[1]，将节点的独立信息与图中相应的结构信息相结合，其优秀的性能引起了人们的高度关注. 在基于图的任务中，很多图神经网络的变体具有更好的性能，例如节点或链接分类^[2]、链接预测^[3-4]和图分类等. 大多数应用在图场景中的图神经网络是在有监督的情况下进行端到端训练的. 随着图卷积神经网络（graph convolutional network，GCN）^[5]的出现，越来越多的图表示学习方法选择功能强大的GCN作为编码器，例如DGI^[6]、GraphCL^[7]、MVGRL^[8]，专注于最大化全局图级嵌入和局部节点级嵌入之间的互信息. 图神经网络大多须依赖任务的标签来学习丰富的表示. 然而，在现实世界中获得有标签的图信息的代价是昂贵的. ...

融合图注意力的多特征链接预测算法

2022

融合图注意力的多特征链接预测算法

2022

... 为了评估所提出的方法，采用以下2类有代表性的方法作为基线：1）无监督学习方法. 在原始输入节点特征（raw features）上使用逻辑回归分类器的方法；经典方法DeepWalk^[13]和将学习到的嵌入与输入节点特性连接起来的DeepWalk-F；GraphSAGE^[19]的无监督版本(Unsup-GraphSAGE)；自监督方法DGI^[6]、GMI^[20]、 GRACE^[10]、GCA^[9]和CG^3[21]. 2)监督学习方法. MLP^[22]、Label Propagation (LP)^[23]、PLANETOID^[24]、 Chebyshev^[25]、GCN^[5],、GAT^[17]和监督学习版本的GraphSAGE^[19]. ...

... 现有的方法大多采用统一的数据增强方案，例如统一删除边和统一打乱节点特征，导致性能次优. DIM^[16]的核心思想是训练一个编码器，其目标函数不是最小化输入与输出的均方误差（MSE），而是最大化输入与输出的互信息；DGI^[6]提出在图上局部表示和全局表示之间进行对比学习，以更好地捕获结构信息；GRACE^[10]通过最大限度地利用删除边和掩盖特征产生的2个图视图之间的节点嵌入一致性来获取图中的节点表示，从而简化DGI；MVGRL^[8]引入一种自监督的方法来学习节点和图级别的表示，该方法采用对比图的2个结构视图(包括一阶邻居和图扩散)的编码. ...

... 在Cora和Citeseer数据集上开展性能比较分析实验. 主要设置2个指标，GPU内存占用和运行时间对比的基线方法有DGI^[6]、GMI^[20]、GRACE^[10]和GCA^[9]，统计结果如表4所示. 表中，MB为GPU内存占用，S为运行时间. 经实验比较分析，无负样本损失的框架GNSA的GPU 内存占用最少且运行时间最短，可以看出负样本构造损失会增大计算和存储负担. ...

... 针对这一问题，自监督学习（self-supervised learning, SSL）范式为图表示学习提供了一种可行的解决方法. 自监督学习因数据效率高和泛化能力强而受到广泛关注，许多新提出的模型都遵循这一范式. 自监督学习利用输入数据本身作为监督信号，不需要人工添加标签. 其中，最典型的是对比学习. 对比学习通过最大化正样本对之间的一致性和负样本对之间的不一致性来学习特征编码器，其中最突出的方法有GCA^[9]、DGI、GRACE^[10]和GraphCL等. 尽管上述模型能取得良好的效果，但它们均须利用负样本构造损失函数. ...

... 目前，研究人员在计算机视觉领域研究中已经解决了需要负样本的问题，例如BGRL^[11]、Barlow Twins^[12]和孪生网络架构等. 为了进一步解决对比学习中使用负样本构造损失会增大计算和存储负担的问题，本研究提出简单而有效的对比框架——基于无负样本损失和自适应增强的图对比学习框架（graph contrastive learning framework based on negative-sample-free loss and adaptive augmentation，GNSA），将自适应数据增强与Barlow Twins损失函数相结合. 该框架计算一个图的2个变体视图的嵌入互相关矩阵；所采用的网络结构是完全对称的，不需要任何特殊的技术来构造特殊的嵌入向量；使用同一个编码器进行传递. ...

... 3）Barlow Twins^[12]使用无负样本损失函数（negative-sample-free loss function）训练编码器网络. 首先对批量维度的嵌入矩阵进行正则化，然后计算互相关矩阵（cross-correlation matrix）

${\boldsymbol{l}} \in {{\bf{R}}^{k \times k}}$

（

$k$

为嵌入维度），尽可能优化使其成为单位矩阵. 利用Barlow Twins损失函数，通过编码器网络对称地反向传播梯度，不依赖任何特殊的技术. ...

... 大多采用对比学习的方法需要负样本，这是难以定义的，负样本构造损失会增大计算和存储负担，在图的情况下更具有挑战性. 为了解决这一问题，使用无负样本损失函数代替负样本来训练编码器网络. Barlow Twins^[12]损失函数不依赖非对称神经网络架构，采用对称的网络架构，更加直观和合理，计算单个图中2个变体视图的嵌入互相关矩阵，将嵌入互相关矩阵优化到尽可能接近的单位矩阵. 变体视图通过使用反向传播梯度(以对称的方式)训练相同编码器从而进行传递. ...

... Barlow Twins^[12]主要思想是计算2个嵌入矩阵

${{\boldsymbol{Z}}^{(1)}}$

和

${{\boldsymbol{Z}}^{(2)}}$

沿批处理维度输出的互相关矩阵

${\boldsymbol{l}} \in {{\bf{R}}^{k \times k}}$

，而不是依赖负样本和对比损失函数. 矩阵中的单个元素

${l_{uv}}$

表达式如下： ...

... 图表示学习（graph representation learning) 已经成为分析图结构中数据信息的有效方法，图表示学习的目的是学习一种编码函数以将节点转化为低维稠密的嵌入表示，从而保存节点的属性和结构特征. 传统的无监督图表示学习方法，如DeepWalk^[13]，使用SkipGram中的随机遍历来学习节点嵌入，node2vec^[14]则将节点映射到含有特征的低维空间，从而最大限度地保存节点的图邻域信息. 两者都集中在局部对比，迫使邻近节点有相似的嵌入表示，这种情况下的正样本是在同一随机游走中出现的节点. 随机游走过分强调邻近性信息而忽略了结构信息，并且仅限于直推分类任务，不能使用节点特性且难以处理大规模的数据集. ...

... 自监督学习是无监督学习的一类方法，利用图自身构造的监督信号，不再需要外部标签，可以学习到对下游任务有价值的表示. 本研究采用基于对比的自监督学习. 早期基于浅层神经网络的方法在图上构造监督信号，使同一局部上下文中的节点表示相似，其中局部上下文可以是随机游走序列、特定次序的邻居或社区成员. 随着图神经网络的成功，一些方法使用多层的图自动编码器来学习重构图的特定部分，其可以是邻接矩阵或节点特征矩阵. 对比学习在自然语言处理和计算机视觉领域被广泛应用，研究者将图像表示学习中的BYOL^[15]技术迁移到图领域，提出BGRL框架，BGRL通过引导编码器的延迟版本的输出来学习表示，无须定义任何负样本. ...

... 2）2个增强视图

${G_1}$

和

${G_2}$

采用相同权重的编码器网络

$f( \cdot )$

，分别得到2个嵌入矩阵

${{\boldsymbol{Z}}^{(1)}}$

和

${{\boldsymbol{Z}}^{(2)}}$

. 此编码器是无须进行指定的，如GCN、GAT^[17]都可以，本研究只使用GNN编码器学习下游任务的节点表示. ...

... 式中：参数

$\lambda $

表示优化整体损失函数过程中不变性和冗余减少项之间的重要性权衡，

$\lambda > 0$

. 在实验设置中，

$ \lambda ={1}/{k} $

^[18]. ...

... [19]. ...

多层感知器的灵敏度分析

2001

多层感知器的灵敏度分析

2001

图卷积神经网络综述

2020

图卷积神经网络综述

2020

〈

〉