<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 HMIPDC 模型示意图

Fig.1 Schematic diagram of HMIPDC model

3.1. 互信息监督模块

为了充分挖掘图中节点之间的相关性，让网络提取到更适合下游任务的低维表征，采用一种高阶互信息最大化策略^[21]，通过将高级特征表示 ${{\boldsymbol{h}}_i}$、全局特征表示 ${\boldsymbol{s}}$和节点属性向量 $ {{\boldsymbol{f}}_i} $这3个随机变量之间的互信息最大化以实现在同质属性网络上的表征学习.

3.1.1. 高级特征表示

通过不断聚合与目标节点 ${{\boldsymbol{v}}_i}$直接相连的邻居节点进行表征学习. 具体来说，引入GCN编码器 $\varepsilon$来得到 ${{\boldsymbol{h}}_i}$：

(3) $ \varepsilon \left( {{\boldsymbol{F}},{\boldsymbol{A}}} \right) = {\boldsymbol{H}} = {{\rm{ReLU}}} \left( {{{{\hat{\boldsymbol D}}}^{ - {1}/{2}}}{\hat{\boldsymbol A}}{{{\hat{\boldsymbol D}}}^{ - {1}/{2}}}{\boldsymbol{FW}}} \right). $

式中： ${\hat{\boldsymbol A}} = {\boldsymbol{A}}+w{\boldsymbol{I}}$， ${\boldsymbol{I}}$为单位对角矩阵，相当于给每个节点增加自连接关系，保证目标节点在聚合其邻居节点时能考虑到自身的属性信息， $w$为自连接的权重，越大的权重表明节点本身在生成 ${{\boldsymbol{h}}_i}$的过程中起着越重要的作用； $ {\hat{\boldsymbol D}} $为保存每个节点的度的矩阵， ${\hat d_{ii}} = {\displaystyle\sum}_j{{\hat a}_{ij}} $为节点 ${{\boldsymbol{v}}_i}$对应的度， ${\hat a_{ij}}$为矩阵 ${\hat{\boldsymbol A}}$第 $i$行第 $j$列的元素； ${{\rm{ReLU}}} $为线性整流函数； ${\boldsymbol{W}}$为可训练的权重矩阵.

3.1.2. 全局特征表示

选择 $ {\boldsymbol{H}}$中所有节点属性的平均值作为 ${{\rm{Readout}}} $函数 $\varPhi $：

(4) $ {\boldsymbol{s}} = \varPhi ({\boldsymbol{H}}) = \frac{1}{n}\sum\limits_{i = 1}^n {{{\boldsymbol{h}}_i}} . $

式中： ${{\boldsymbol{h}}_i}$为矩阵 ${\boldsymbol{H}}$的第 $i$行向量.

3.1.3. 高阶互信息

由于考虑的是3个随机变量之间的互信息，故有

(5) $ \begin{split} I({X_1};\;&{X_2};{X_3}) = \\ & H({X_1})+H({X_2})+H({X_3}) - \\ & H({X_1},{X_2}) - H({X_1},{X_3}) - \\ & H({X_2},{X_3}){\text+}H({X_1},{X_2},{X_3}) = \\ & I({X_1};{X_2})+I({X_1};{X_3}) - I({X_1};{X_2},{X_3}). \end{split}\qquad\qquad$

式中： $ I({X_1};{X_2},{X_3}) $为 ${X_1}$的分布与 $({X_2},{X_3})$的联合分布之间的互信息. 将需要计算的3个随机变量代入式(5)可以得到

(6) $ I({{\boldsymbol{h}}_i};{\boldsymbol{s}};{{\boldsymbol{f}}_i}) = I({{\boldsymbol{h}}_i};{\boldsymbol{s}})+I({{\boldsymbol{h}}_i};{{\boldsymbol{f}}_i}) - I({{\boldsymbol{h}}_i};{\boldsymbol{s}},{{\boldsymbol{f}}_i}). $

式中： $I({{\boldsymbol{h}}_i};{\boldsymbol{s}})$考虑了图级监督信号，即节点的低维表征和全局表示之间的互信息； $I({{\boldsymbol{h}}_i};{{\boldsymbol{f}}_i})$考虑了节点级监督信号，即节点的低维表征和节点属性之间的互信息； $ I({{\boldsymbol{h}}_i};{\boldsymbol{s}},{{\boldsymbol{f}}_i}) $则考虑了节点级监督信号和图级监督信号之间的相互作用.

进一步考虑高阶互信息：

(7) $ {L_{{\rm{mi}}}} = {\lambda _{\rm{E}}}I({{\boldsymbol{h}}_i};{\boldsymbol{s}})+{\lambda _{\rm{I}}}I({{\boldsymbol{h}}_i};{{\boldsymbol{f}}_i})+{\lambda _{\rm{J}}}I({{\boldsymbol{h}}_i};{\boldsymbol{s}},{{\boldsymbol{f}}_i}). $

式中： ${\lambda _{\rm{E}}}、{\lambda _{\rm{I}}}、{\lambda _{\rm{J}}}$为可以调整的平衡系数.

1）对于 $ I\left( {{{\boldsymbol{h}}_i};{\boldsymbol{s}}} \right) $. 依照DGI的设定可以得到

(8) $ {L}_{{\rm{E}}}=E\text{ }[\mathrm{ln}\;{{{D}}}_{{\rm E}}({{\boldsymbol{h}}}_{i},{\boldsymbol{s}})]+E\text{ }[\mathrm{ln}\;(1-{{{D}}}_{{\rm{E}}}({\tilde{{\boldsymbol{h}}}}_{i},{\boldsymbol{s}}))]. $

式中： $ E $表示期望； $ {{\tilde{\boldsymbol h}}_i} $为来自负网络 $\tilde G$的高级特征表示，它先通过一个显式的腐蚀函数 $ C\text{ }:\tilde{G}\text{=}C(G) $对原始网络 $G$的属性矩阵 ${\boldsymbol{F}}$的行进行随机打乱，从而得到负网络 $\tilde G$，然后再使用 $\tilde G$提供的负样本生成 $ {{\tilde{\boldsymbol h}}_i} $； $ {{{D}}_{\rm{E}}} $为图级监督信号的判别器， $ {{{D}}_{\rm{E}}}({{\boldsymbol{h}}_i},{\boldsymbol{s}}) $为使用双线性评分函数对 $ ({{\boldsymbol{h}}_i},{\boldsymbol{s}}) $进行评分.

2）对于 $ I({{\boldsymbol{h}}_i};{{\boldsymbol{f}}_i}) $. 将式(8)中的 $ {\boldsymbol{s}} $替换为 $ {{\boldsymbol{f}}_i} $：

(9) $ {L}_{{\rm{I}}}=E\text{ }[\mathrm{ln}\;{{{D}}}_{{\rm{I}}}({{\boldsymbol{h}}}_{i},{{\boldsymbol{f}}}_{i})]+E\text{ }[\mathrm{ln}\;(1-{{{D}}}_{{\rm{I}}}({\tilde{{\boldsymbol{h}}}}_{i},{{\boldsymbol{f}}}_{i}))]. $

式中： $ {{D}_{\rm{I}}} $为节点级监督信号的判别器.

3）对于 $ I({{\boldsymbol{h}}_i};{\boldsymbol{s}},{{\boldsymbol{f}}_i}) $. 通过 $\tilde G$中的属性矩阵 ${\tilde{\boldsymbol F}}$让编码器 $\varepsilon $更好地捕捉 $ ({{\boldsymbol{h}}_i},{\boldsymbol{s}},{{\boldsymbol{f}}_i}) $这3个随机变量之间的互信息，尤其是 ${\boldsymbol{s}}$和 $ {{\boldsymbol{f}}_i} $之间的互信息，这是图级信号和节点级信号都没有考虑到的，由此可以得到

(10) $ {L}_{{\rm{J}}}=E\text{ }[\mathrm{ln}\;{{{D}}}_{{\rm{J}}}({{\boldsymbol{h}}}_{i},{\boldsymbol{s}},{{\boldsymbol{f}}}_{i})]+E\text{ }[\mathrm{ln}\;(1-{{{D}}}_{{\rm{J}}}({{{\boldsymbol{h}}}}_{i},{\boldsymbol{s}},{\tilde{{\boldsymbol{f}}}}_{i}))]. $

式中： $ {{{D}}_{\rm{J}}} $为监督联合信号的判别器， ${{\tilde{\boldsymbol f}}_i}$为矩阵 ${\tilde{\boldsymbol F}}$中第 $i$行的向量.

4）最终的监督信号以最大化以下公式为目标：

(11) $ {L}_{{\rm{mi}}}\text{}={\lambda }_{{\rm{E}}}{L}_{{\rm{E}}}+{\lambda }_{{\rm{I}}}{L}_{{\rm{I}}}\text{}+{\lambda }_{{\rm{J}}}{L}_{{\rm{J}}}. $

3.2. 图注意力自编码器

为了更好地利用邻近信息和节点的属性信息，采用图自编码器(graph auto-encoder, GAE)^[14]作为主框架来学习低维表征；同时将GAE中的GCN模块替换为图注意力网络(graph attention networks, GAT)^[23]的图注意力层，以此来构成图注意力自编码器. 这样就可以将原本GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数，通过计算目标节点与邻居节点之间的“注意力系数”，让图神经网络更加关注重要的邻居节点.

为了判断每个邻居节点对于目标节点的重要程度，在逐层图注意力策略中对不同邻居节点表示赋予不同的权重：

(12) $ {\boldsymbol{z}}_i^{l+1} = \sigma \left( {\sum\limits_{j \in {N_i}} {{\alpha _{ij}}{\boldsymbol{Wz}}_j^l} } \right). $

式中： ${\boldsymbol{z}}_j^l$为节点 ${{\boldsymbol{v}}_j}$在第 $l$层所对应的特征向量； $ {\boldsymbol{z}}_i^{l+1} $为以节点 ${{\boldsymbol{v}}_i}$为目标节点生成的第 $l+1$层的特征向量，这是经过一个以自注意力机制为核心的操作后生成的； ${\alpha _{ij}}$为注意力系数，表示邻居节点 ${{\boldsymbol{v}}_j}$对于目标节点 ${{\boldsymbol{v}}_i}$的重要程度； $ {N_i} $为节点 $ {{\boldsymbol{v}}_i} $的邻居节点集合； $\sigma $为非线性激活函数； ${\boldsymbol{W}}$为作用到每个邻居节点的权重矩阵. 为了计算 ${\alpha _{ij}}$，从拓扑距离和属性信息2个方面来衡量邻居节点对于目标节点的重要性.

1）拓扑距离. 邻居节点通过邻边来表示目标节点. 为了更好地挖掘图中节点之间的相关性，在图注意力自编码器中使用 $t$跳邻居节点来获得一个多跳邻近矩阵：

(13) $ {\boldsymbol{M}} = ({\boldsymbol{B}}+{{\boldsymbol{B}}^2}+ \cdots +{{\boldsymbol{B}}^t})/t. $

式中： $t$为可调整的参数，可以根据数据集的稀疏性和复杂程度进行相应调整，本研究将其设置为2； ${\boldsymbol{B}}$为转移矩阵，如果目标节点 $ {{\boldsymbol{v}}_i} $和邻居节点 ${{\boldsymbol{v}}_j}$之间有边相连，则 ${b_{ij}} = 1/{d_i}$，否则 ${b_{ij}} = 0$， ${d_i}$为目标节点 ${{\boldsymbol{v}}_i}$的度； ${{\boldsymbol{B}}^t}$为 ${\boldsymbol{B}}$的 $t$次方； ${m_{ij}}$为节点 ${{\boldsymbol{v}}_i}$和节点 ${{\boldsymbol{v}}_j}$在 $t$跳内的拓扑相关性，即如果 ${m_{ij}} > 0$，表示节点 ${{\boldsymbol{v}}_i}$和节点 ${{\boldsymbol{v}}_j}$之间具有相关性，值越大表示相关性越大.

2）属性信息. 注意力系数 ${\alpha _{ij}}$可以用一个单层前馈神经网络 $ \phi $来表示：

(14) $ {\phi _{ij}} = {{\boldsymbol{e}}^{\rm{T}}}({\boldsymbol{W}}{{\boldsymbol{f}}_i},{\boldsymbol{W}}{{\boldsymbol{f}}_j}). $

式中： $ {{\boldsymbol{f}}_i} $和 ${{\boldsymbol{f}}_j}$分别为节点 ${{\boldsymbol{v}}_i}$和节点 ${{\boldsymbol{v}}_j}$的属性特征， $ {{\boldsymbol{e}}^{\rm{T}}} $为共享的权重向量的转置.

为了使原来没有可比性的数据变得具有可比性，同时又能保持不同数据之间的相对关系，采用 ${{\rm{softmax}}} $函数对邻域 $ u \in {N_i} $的注意力系数进行归一化：

(15) $ {\alpha _{ij}} = {{{\rm{softmax}}} _j}\;({\phi _{ij}}) = \frac{{\exp\; ({\phi _{ij}})}}{{\displaystyle\sum\nolimits_{u \in {N_i}} {\exp \;({\phi _{iu}})} }}. $

再加上拓扑权重 ${\boldsymbol{M}}$和非线性激活函数 $ \delta $，注意力系数 $ {\alpha _{ij}} $可以表示为

(16) $ {\alpha _{ij}} = \frac{{\exp \;(\delta {m_{ij}}{\phi _{ij}})}}{{\displaystyle\sum\nolimits_{u \in {N_i}} {\exp \;(\delta {m_{iu}}{\phi _{iu}})} }}. $

3.3. 动态信息融合机制

为了进一步提炼从图注意力自编码器中学习到的初级低维表征 ${\boldsymbol{Z}}$中的图结构和节点属性信息，提出了一种动态信息融合机制，该机制由自相关学习机制和跳跃连接组成.

1）使用自相关学习机制让 ${\boldsymbol{Z}}$融合节点属性空间中的非局部关系.

计算自相关系数矩阵并进行归一化得到 ${\boldsymbol{Q}}$：

(17) $ {q_{ij}} = \frac{{\exp\; {{({\boldsymbol{Z}}{{\boldsymbol{Z}}^{\rm{T}}})}_{ij}}}}{{\displaystyle\sum\limits_{u = 1}^n {\exp \;{{({\boldsymbol{Z}}{{\boldsymbol{Z}}^{\rm{T}}})}_{iu}}} }}. $

探讨节点之间的全局相关性来修改 ${\boldsymbol{Z}}$，得到节点的全局特征表示：

(18) $ {{\boldsymbol{Z}}_{\rm{q}}} = {\boldsymbol{QZ}}. $

2）为了保证样本空间在进行多次变换后，仍能保持其核心特征，采用跳跃连接让节点信息可以通过动态信息融合机制顺利传递：

(19) $ {\tilde{\boldsymbol Z}} = \beta {{\boldsymbol{Z}}_{\rm{q}}}+{\boldsymbol{Z}}. $

式中： $\tilde {\boldsymbol{Z}} \in {{\bf{R}}^{n \times d'}}$为融合低维表征， $d'$为嵌入维度； $\beta $为可学习的权重系数，将其初始化为0，并在网络训练时使用梯度下降法自动学习权重.

由于 $\tilde {\boldsymbol{Z}}$已经包含了属性和结构信息，选择内积解码器来预测节点之间的连接：

(20) $ {\tilde a_{ij}} = {{\rm{sigmoid}}} \;({{\tilde{\boldsymbol z}}_i}{{\tilde{\boldsymbol z}}_j}^{\rm{T}}). $

式中： ${\tilde a_{ij}}$为 $G$重构后的邻接矩阵 $\tilde {\boldsymbol{A}}$中第 $i$行第 $j$列的元素， ${{\tilde{\boldsymbol z}}_i}$为融合低维表征矩阵 ${\tilde{\boldsymbol Z}}$中的第 $i$行向量.

3.4. 目标函数

HMIPDC的目标函数由3个部分组成，即图注意力自编码器的重构损失、聚类损失以及伪标签监督损失.

3.4.1. 重构损失

通过二元交叉熵计算 ${\boldsymbol{A}}$和 $\tilde {\boldsymbol{A}}$之间的差值，并最小化其差值来逐步降低重构误差：

(21) $ {L_{{\rm{re}}}} = - \frac{1}{n}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{a_{ij}} \ln\; \left( {{{\tilde a}_{ij}}} \right)+\left( {1 - {a_{ij}}} \right) \ln\; \left( {1 - {{\tilde a}_{ij}}} \right)} } . $

通过降低重构误差可以尽可能地保留数据固有的局部结构.

3.4.2. 聚类损失

使用DDC^[11]算法来衡量聚类损失，该算法用概率密度函数对每个簇进行建模并优化聚类分配，然后采用信息论中的CS散度(Cauchy-Schwarz divergence)来最大化它们的概率密度函数之间的差异，使得网络能够通过梯度下降方法优化其权重并学习输入图的内在簇结构.

其聚类损失函数主要由3个损失项组成.

1）第1个损失项主要考虑数据聚类在低维表征空间的可分离性和紧凑性约束，其源自CS散度的多重概率密度函数泛化，用来保证不同簇中的节点之间的相似度较小，而同一簇中的节点之间的相似度尽可能的大. 第1个损失项表达式如下：

(22) $ {L_1}{\text{ }} = \sum\limits_{i = 1}^{K - 1} {\sum\limits_{j > i}^K {\frac{{{\tilde{\boldsymbol z}}_i^{\rm{T}}{\boldsymbol{U}}{{{\tilde{\boldsymbol z}}}_j}}}{{\sqrt {{\tilde{\boldsymbol z}}_i^{\rm{T}}{\boldsymbol{U}}{{{\tilde{\boldsymbol z}}}_i}{\tilde{\boldsymbol z}}_j^{\rm{T}}{\boldsymbol{U}}{{{\tilde{\boldsymbol z}}}_j}} }}} } . $

式中： ${\boldsymbol{U}}$为采用 ${u_{ij}} = \exp\; ({{ - ||{{{\tilde{\boldsymbol z}}}_i} - {{{\tilde{\boldsymbol z}}}_j}|{|^2}} \mathord{\left/ {\vphantom {{ - ||{{{\tilde{\boldsymbol z}}}_i} - {{{\tilde{\boldsymbol z}}}_j}|{|^2}} {{{(2\ell )}^2}}}} \right. } {{{(2\ell )}^2}}})$计算得到的核相似度矩阵， $\ell $为高斯核带宽，它是通过基于学习表示的统计信息计算得到的，默认值为0.15.

2）第2个损失项要求不同节点的聚类分配在低维特征空间是向量正交的，从而避免聚类结果陷入局部最优解，防止聚类划分结构的退化；当且仅当矩阵的内积为零时，簇分配向量是正交的. 第2个损失项表达式如下：

(23) $ {L_2} = {{\rm{triu}}}\; \left( {{\tilde{\boldsymbol Z}}{{{\tilde{\boldsymbol Z}}}^{\rm{T}}}} \right). $

式中： $ {{\rm{triu}}}\; \left( \cdot \right) $为矩阵上三角元素的总和.

3）第3个损失项试图把簇分配向量推向标准单纯形空间的拐角附近，通过位于标准单纯形拐角处的理想聚类中心中的相似点分组来分离数据点. 第3个损失项表达式如下：

(24) $ {L_3} = \sum\limits_{i = 1}^{K - 1} {\sum\limits_{j > i}^K {\frac{{{\boldsymbol{m}}_i^{\rm{T}}{\boldsymbol{U}}{{\boldsymbol{m}}_j}}}{{\sqrt {{\boldsymbol{m}}_i^{\rm{T}}{\boldsymbol{U}}{{\boldsymbol{m}}_i}{\boldsymbol{m}}_j^{\rm{T}}{\boldsymbol{U}}{{\boldsymbol{m}}_j}} }}} } . $

式中： ${m_{ij}} = \exp\; ( - ||{{\tilde{\boldsymbol z}}_i} - {{\boldsymbol{l}}_j}|{|^2})$， ${{\boldsymbol{l}}_j}$为 $ {{\bf{R}}^k} $中第 $j$个笛卡尔基向量.

4）模型训练期间的聚类损失可以表示为这3个损失项的总和：

(25) $ {L_{{\rm{ddc}}}} = {L_1}+{L_2}+{L_3}. $

3.4.3. 伪标签监督损失

伪标签监督损失函数^[24]的设计同时兼顾了正伪标签和负伪标签.

1）获取伪标签.

直接从每次模型训练的预测标签中选择正伪标签：

(26) $ \tilde y_k^{(i)} = 1\left[ {p_k^{(i)} > {\gamma _{\rm{p}}}} \right]. $

式中： $\tilde y_k^{(i)}$为节点 ${{\boldsymbol{v}}_i}$是否属于第 $k$类的伪标签； $p_k^{(i)}$为节点 ${{\boldsymbol{v}}_i}$在模型预测时，最大概率所在的类是第 $k$类的概率； ${\gamma _{\rm{p}}}$为正伪标签的阈值，其值域为 $\left( {0,1.0} \right)$； $1\left[ \cdot \right]$为指示方程，如果 $ p_k^{(i)} > {\gamma _{\rm{p}}} $，则结果为1，否则为0. 式(26)直接将满足 $ p_k^{(i)} > {\gamma _{\rm{p}}} $的节点 ${{\boldsymbol{v}}_i}$选取为正伪标签，表明节点 ${{\boldsymbol{v}}_i}$属于第 $k$类.

用相似的方法从模型预测的结果中选择负伪标签：

(27) $ \bar y_k^{(i)} = 1\left[ {p_k^{(i)} < {\gamma _{\rm{n}}}} \right]. $

式中： $ {\gamma _{\rm{n}}} $为负伪标签的阈值，其值域为 $\left( {0,1.0} \right)$，并且 $ {\gamma _{\rm{n}}} < {\gamma _{\rm{p}}} $. 式(27)直接将满足 $ p_k^{(i)} < {\gamma _{\rm{n}}} $的节点选取为负伪标签，表明节点 ${{\boldsymbol{v}}_i}$不属于第 $k$类.

使用 $\theta _k^{(i)}$将正伪标签和负伪标签整合起来，用来指导节点 ${{\boldsymbol{v}}_i}$的预测标签能否被用于指导训练模型：

(28) $ \theta _k^{(i)} = 1\left[ {p_k^{(i)} > {\gamma _{\rm{p}}}} \right]+1\left[ {p_k^{(i)} < {\gamma _{\rm{n}}}} \right]. $

2）计算伪标签监督损失.

使用交叉熵损失来表示正伪标签监督损失：

(29) $ {L_{\rm{p}}} = - \frac{1}{{{\partial _{{\rm{pn}}}}}}\sum\limits_{k = 1}^K {\theta _k^{(i)}\tilde y_k^{(i)}\ln } \;(\hat y_k^{(i)}). $

式中： $ {\partial _{{\rm{pn}}}} = \displaystyle\sum\nolimits_k {\theta _k^{(i)}} $为从预测标签中选择的伪标签总数， $ \hat y_k^{(i)} $为模型预测时节点 ${{\boldsymbol{v}}_i}$在第 $k$类的输出概率.

借用正伪标签的交叉熵损失函数设计出负伪标签的损失函数：

(30) $ {L_{\rm{n}}} = - \frac{1}{{{\partial _{{\rm{pn}}}}}}\sum\limits_{k = 1}^K {\theta _k^{(i)}(1 - \bar y_k^{(i)})\ln } \;(1 - \hat y_k^{(i)}). $

结合式(29)、(30)的损失函数，得到最终的伪标签监督损失：

(31) $ {L_{{\rm{pn}}}} = - \frac{1}{{{\partial _{{\rm{pn}}}}}}\sum\limits_{k = 1}^K {\theta _k^{(i)}\left[ {\tilde y_k^{(i)}\ln\; (\hat y_k^{(i)})+(1 - \bar y_k^{(i)})\ln\; (1 - \hat y_k^{(i)})} \right]} . $

3.4.4. 优化

联合式(21)、(25)、(31)，得到最终进行优化的目标函数：

(32) $ L = {L_{{\rm{re}}}}+\eta {L_{{\rm{ddc}}}}+\mu {L_{{\rm{pn}}}}. $

式中： $ \eta $和 $ \mu $为超参数，是用来平衡这3种损失函数的权衡参数.

4. 实验结果及分析

4.1. 数据集

为了评估HMIPDC的有效性，在ACM^[9]、Citeseer^[9]、DBLP^[9]、和AMAP^[17]4个公开的数据集上对不同方法进行大量实验. 这些数据集的一些统计信息如表1所示.

表 1 4个基准数据集的统计信息

Tab.1 Statistics of four benchmark datasets

数据集	$n$	$K$	$d$	$\xi $
ACM	3 025	3	1 870	13 128
Citeseer	3 327	6	3 703	4 552
DBLP	4 057	4	334	3 528
AMAP	7 650	8	745	119 081

新窗口打开| 下载CSV

4.2. 基线方法

为了证明HMIPDC的优越性，本研究选择了8种聚类方法作为基线方法，包括1种使用原始数据的传统聚类方法(K-means^[25])，2种基于AE的深度聚类方法(AE^[5]、IDEC^[3])，2种基于GCN的深度图聚类方法(GAE^[14]、DAEGC^[8])以及3种融合多种信息的深度图聚类方法(SDCN^[9]、DFCN^[16]、DCRN^[17]). 上述基线方法的介绍如下.

1）K-means^[25]：一种基于原始数据的传统聚类方法，先为节点分配初始的聚类中心，并通过不断的迭代来优化聚类.

2）AE^[5]：一种分2步走的深度聚类方法，先用自编码器学习到低维表征，再将其用于后续的聚类任务.

3）IDEC^[4]：一种联合深度聚类方法，通过同时学习低维表征和聚类分配来迭代优化聚类目标.

4）GAE^[14]：一种使用GCN来学习低维表征的深度图聚类方法.

5）DAEGC^[8]：通过引入自注意力机制来学习低维表征，并使用聚类损失来监督图聚类过程.

6）SDCN^[9]：有效地联合AE和GCN模块来更好地学习低维表征，并设计了一个双重自监督机制来监督聚类过程，指导整个模型的优化.

7）DFCN^[16]：设计了一种基于相关性来学习结构与属性信息的融合模块，用来合并AE和GAE学到的低维表征，并提出了一种三重自监督机制为信息融合提供可靠的指导.

8）DCRN^[17]：通过双重方式来降低信息的相关性，从而提升特征区分能力，并且引入了传播正则化来缓解表示崩溃，使得网络能够以浅层网络结构获得长距离信息.

4.3. 评价指标

类似以前的聚类研究^[17]，采用4种常用的评价指标来评估模型的聚类性能，即聚类准确率(accuracy, ACC)^[26]、规范化互信息(normalized mutual information, NMI)^[27]、调整兰德指数(adjusted Rand index, ARI)^[15]和macro F1-score(F1)^[28]. 对于每种评价指标，数值越高意味着聚类效果越好.

4.4. 参数设置

所有的实验都是基于Pytorch深度学习框架实现并完成的，并且运行在Ubuntu 18.04.6上，使用的CPU是i9-11900K，GPU是NVIDIAGeForce RTX 3090. 对于DAEGC，按照原始论文^[8]的设置处理论文实验所涉及的各种参数和实验环境，借此来重现源代码；为了防止出现极端情况，将该论文实验重复运行了10次并获得平均值和相应的标准差. 对于其他的基线方法，直接使用DCRN中列出的相应结果. 对于HMIPDC，ACM使用学习率为0.001的Adam^[29]算法来优化高级特征表示，Citeseer、DBLP和AMAP使用的学习率为0.0001，并且都采用提前停止策略来避免过拟合，之后再将所有数据集的学习率修改为0.01来进一步优化模型. 根据参数敏感性测试的结果，将所有数据集里用于平衡损失函数的超参数 $ \mu $、 $\eta $分别设置为0.01、1.0；嵌入维度 $d'$统一设置为128. 通过模型训练的结果不断调整超参数 $ {\gamma _{\rm{n}}} $、 $ {\gamma _{\rm{p}}} $的大小，最终得到：ACM的超参数 $ {\gamma _{\rm{n}}} $、 $ {\gamma _{\rm{p}}} $设置为0.6、0.2；Citeseer的超参数 $ {\gamma _{\rm{n}}} $、 $ {\gamma _{\rm{p}}} $设置为0.9、0.3；DBLP的超参数 $ {\gamma _{\rm{n}}} $、 $ {\gamma _{\rm{p}}} $设置为0.7、0.2；AMAP的超参数 $ {\gamma _{\rm{n}}} $、 $ {\gamma _{\rm{p}}} $设置为0.5、0.1.

4.5. 聚类结果

HMIPDC和8种基线方法在4个数据集上的聚类结果如表2所示. 表中，加粗的字体表示最优的结果. 根据表2中的结果，得到以下观察.

表 2 HMIPDC和8种基线方法在4个数据集上的聚类结果

Tab.2 Clustering results of HMIPDC and eight baseline methods on four datasets

%
数据集	方法	ACC	NMI	ARI	F1
ACM	K-means	67.31±0.71	32.44±0.46	30.60±0.69	67.57±0.74
	AE	81.83±0.08	49.30±0.16	59.64±0.16	82.01±0.08
	IDEC	85.12±0.52	56.61±1.16	62.16±1.50	85.11±0.48
	GAE	84.52±1.44	55.38±1.92	59.46±3.10	84.65±1.33
	DAEGC	88.24±0.02	63.01±0.04	68.70±0.04	88.11±0.01
	SDCN	90.45±0.18	68.31±0.25	73.91±0.40	90.42±0.19
	DFCN	90.90±0.20	64.40±0.40	74.90±0.40	90.80±0.20
	DCRN	91.93±0.20	71.56±0.61	77.56±0.52	91.94±0.20
	HMIPDC	92.12±0.15	72.18±0.52	78.04±0.39	92.13±0.14
Citeseer	K-means	39.32±3.17	16.94±3.22	13.43±3.02	36.08±3.53
	AE	57.08±0.13	27.64±0.08	29.31±0.14	53.80±0.11
	IDEC	60.49±1.42	27.17±2.40	25.70±2.65	61.62±1.39
	GAE	61.35±0.80	34.63±0.65	33.55±1.18	57.36±0.82
	DAEGC	64.90±0.07	38.71±0.08	39.21±0.09	59.56±0.06
	SDCN	65.96±0.31	38.71±0.32	40.17±0.43	63.62±0.24
	DFCN	69.50±0.20	43.90±0.20	45.50±0.30	64.30±0.20
	DCRN	70.86±0.18	45.86±0.35	47.64±0.30	65.83±0.21
	HMIPDC	71.93±0.31	46.07±0.23	48.28±0.50	66.96±0.26
DBLP	K-means	38.65±0.65	11.45±0.38	6.97±0.39	31.92±0.27
	AE	51.43±0.35	25.40±0.16	12.21±0.43	52.53±0.36
	IDEC	60.31±0.62	31.17±0.50	25.37±0.60	61.33±0.56
	GAE	61.21±1.22	30.80±0.91	22.02±1.40	61.41±2.23
	DAEGC	67.42±0.38	30.64±0.46	32.79±0.58	66.89±0.37
	SDCN	68.05±1.81	39.50±1.34	39.15±2.01	67.71±1.51
	DFCN	76.00±0.80	43.70±1.00	47.00±1.50	75.70±0.80
	DCRN	79.66±0.25	48.95±0.44	53.60±0.46	79.28±0.26
	HMIPDC	80.34±0.16	49.41±0.34	55.39±0.28	79.76±0.32
AMAP	K-means	27.22±0.76	13.23±1.33	5.50±0.44	23.96±0.51
	AE	48.25±0.08	38.76±0.30	20.80±0.47	47.87±0.20
	IDEC	47.62±0.08	37.83±0.08	19.24±0.07	47.20±0.11
	GAE	71.57±2.48	62.13±2.79	48.82±4.57	68.08±1.76
	DAEGC	75.52±0.01	63.31±0.01	59.98±0.84	70.02±0.01
	SDCN	53.44±0.81	44.85±0.83	31.21±1.23	50.66±1.49
	DFCN	76.88±0.80	69.21±1.00	59.98±0.84	71.58±0.31
	DCRN	79.94±0.13	73.70±0.24	63.69±0.20	73.82±0.12
	HMIPDC	80.83±0.78	69.47±0.46	65.23±1.64	75.87±2.08

新窗口打开| 下载CSV

1）在4个数据集中，HMIPDC相较于其他基线方法在4个评价指标上都有较佳的性能表现. 例如在DBLP数据集中，HMIPDC在ACC、NMI、ARI和F1上分别超过了最佳基线方法0.68%、0.46%、1.79%和0.48%.

2）K-means、AE和IDEC方法在各个指标上都跟HMIPDC相距甚远. 这是因为它们仅仅考虑了节点属性信息来进行聚类，忽略了图结构对于后续聚类任务的影响. 相对而言，HMIPDC同时整合了图结构和节点属性信息，将其统一到一个框架中提取低维表征，并不断优化聚类目标，进而大大提升了聚类效果.

3）虽然SDCN和DFCN方法有效整合了图结构和节点属性信息，但是它们将编码器部分学到的属性信息过度引入到潜在空间中，使得低维表征包含了很多冗余信息，降低了低维表征的质量. 而HMIPDC则采用高阶互信息最大化策略来探索低维表征和节点属性信息之间的关系，使得获得的表征更具有辨别力.

4）相较于最佳的基线方法DCRN，HMIPDC在许多指标上也有不错的性能提升. DCRN虽然通过对齐软分配分布和目标分布来指导网络学习，但是它并没有对模型学习到的预测标签进行区分，导致很多错误的标签被用来指导学习，降低了聚类效果. 相反，HMIPDC使用伪标签技术将置信度较高的样本加入到自监督学习中，减少了错误的标签信息对于后续表征学习的影响，提高了聚类性能.

4.6. 消融研究

通过消融实验来证明互信息监督模块和伪标签技术在HMIPDC中的重要性，进一步表明HMIPDC模型的有效性. 首先以由图注意力自编码器和DDC聚类损失为主要部分构成的一个框架作为基线(AD)，因为它是HMIPDC模型进行训练的一个主体框架. AD-MI、AD-PL和AD-MI-PL分别表示添加了互信息监督模块、伪标签技术和两者都添加的方法. 消融研究结果如表3所示. 表中，加粗的字体表示最优的结果.

表 3 HMIPDC和3种变种算法在4个数据集上的聚类结果

Tab.3 Clustering results of HMIPDC and three variants on four datasets

%
数据集	方法	ACC	NMI	ARI	F1
ACM	AD	91.87±0.12	70.92±0.29	77.49±0.32	91.67±0.29
	AD-MI	91.94±0.15	71.50±0.33	77.57±0.36	91.95±0.15
	AD-PL	92.07±0.12	72.08±0.23	77.92±0.28	92.08±0.12
	AD-MI-PL	92.12±0.15	72.18±0.52	78.04±0.39	92.13±0.14
Citeseer	AD	64.80±0.98	39.25±0.92	40.28±0.69	62.86±0.64
	AD-MI	70.65±0.89	44.82±0.50	47.47±0.68	66.56±0.38
	AD-PL	70.67±0.58	43.90±0.73	46.08±0.91	64.57±0.78
	AD-MI-PL	71.93±0.31	46.07±0.23	48.28±0.50	66.96±0.26
DBLP	AD	78.30±0.62	46.94±0.45	52.07±0.75	77.72±0.59
	AD-MI	79.05±0.35	47.83±0.57	52.96±0.61	78.60±0.34
	AD-PL	79.21±0.80	48.66±0.71	54.24±0.53	78.83±0.57
	AD-MI-PL	80.34±0.16	49.41±0.34	55.39±0.28	79.76±0.32
AMAP	AD	72.67±1.19	61.62±1.15	54.17±1.05	66.25±2.35
	AD-MI	76.68±0.98	65.53±0.85	58.84±0.89	73.17±2.47
	AD-PL	74.36±0.91	64.11±0.95	57.23±1.36	71.64±2.16
	AD-MI-PL	80.83±0.78	69.47±0.46	65.23±1.64	75.87±2.08

新窗口打开| 下载CSV

由表3可以看出：1）AD-MI和AD-PL在4个数据集上的所有指标都优于AD. 这表明互信息监督模块和伪标签技术确实能提升聚类效果. 2）AD-MI-PL在4个数据集上的所有指标都优于AD、AD-MI和AD-PL. 原因在于AD-MI-PL在利用高阶互信息学到低维表征后，选取了高置信度的预测标签作为伪标签来进行自监督学习，通过不断地迭代优化，使得生成的低维表征更易于后续的聚类任务. 3）特别地，在AMAP数据集中，AD-MI-PL相较于AD在ACC、NMI、ARI和F1这4个评价指标上分别有了8.16%、7.85%、11.06%和9.62%的提升，这主要得益于AD-MI-PL通过高阶互信息和伪标签有效地整合了图结构和节点属性信息，使得提取到的低维表征拥有原始图的核心特征，从而让聚类性能在大规模图上有极大的提升.

4.7. 参数敏感性分析

通过4个数据集中的ACC来探讨HMIPDC对目标函数的权衡超参数 $\mu $和 $\eta $的敏感性. 具体来说，固定 $\eta = 1.0$，修改 $\mu $的值；固定 $\mu = 0.01$，修改 $ \eta $的值，其结果如图2所示. 可以看出，ACM数据集对于 $\mu $和 $ \eta $的变化都不敏感，具有较好的稳定性；在Citeseer、DBLP和AMAP中，虽然HMIPDC的性能在一定程度上会受参数变化的影响，但是当 $\mu \in \left[ {0.001,1.0} \right]$、 $\eta \in \left[ 0.1, 10.0 \right]$时仍有较好的稳定性；设置 $\mu = 0.01$和 $ \eta = 1.0 $是较合理的，因为这时模型具有较高的ACC.

图 2

图 2 不同超参数下4个数据集上的聚类准确率

Fig.2 Clustering accuracy on four datasets with different hyperparameters

4.8. 实验时间分析

为了探究模型的训练时间对于聚类效果的影响，在ACM数据集中，记录了IDEC、DAEGC、DFCN、DCRN和HMIPDC这5种方法在不同训练时间t的ACC，结果如图3所示. 可以看出，相较于其他4种方法，HMIPDC在所有的训练时间都能保持较高的ACC. 特别地，如果训练时间不足30 s，由于其他4种方法都须先耗费一定的时间对模型进行不同程度的预训练，导致模型的ACC在训练初期表现不佳；而HMIPDC并不需要进行预训练，模型能有更多时间进行本身的优化，从而获得较高的ACC.

图 3

图 3 不同训练时间下5种方法在ACM数据集上的聚类准确率

Fig.3 Clustering accuracy of five methods with different training time on ACM dataset

4.9. 聚类可视化分析

为了更加直观地验证HMIPDC的有效性，在ACM数据集上，将IDEC、SDCN、DFCN、DCRN和HMIPDC使用t-分布随机邻域嵌入(t-distributed stochastic neighbor embedding, t-SNE)^[30]算法将模型学习到的低维表征投影到二维空间并进行可视化，可视化结果如图4所示. 图中，不同的颜色表示不同的簇. 可以看出，较于原始数据，每种模型方法都有不错的可视化结果. 对于图4(b)、(c)，虽然不同颜色之间有明显的边界，但是它们每种颜色的内部混杂了许多其他颜色的节点，说明它们生成的低维表征还不能较好地区分不同类别的节点. 对于图4(d)、(e)，虽然同一颜色的点能彼此靠近，但是每种颜色的边界却不清晰，导致它们不能较好地区分不同类别的相似节点. 图4(f)的可视化结果最好，同种颜色的点紧密地聚集在一起，不同颜色的点彼此分离，表明HMIPDC生成的低维表征具有更清晰的结构，可以更好地揭示数据之间的内在聚类结构.

图 4

DOI:10.1016/j.neucom.2022.01.099 [本文引用: 1]

图 4 不同方法的低维表征在ACM数据集上的2维可视化结果

Fig.4 2D visualization results of low-dimensional representations of different methods on ACM dataset

5. 结　语

提出一种高阶互信息最大化与伪标签指导的深度聚类模型HMIPDC，该模型通过高阶互信息最大化策略充分利用图的拓扑结构和节点的属性信息，从原始图中获得更有价值的节点特征. 采用了一种结合多跳邻近矩阵的自注意力机制，驱使目标节点在进行聚合操作时能够关注重要的邻居节点，从而有效克服数据稀疏性和复杂性对聚类结果的影响. 为了减少训练过程出现的噪声影响，HMIPDC使用DDC聚类损失函数来衡量聚类性能，并从模型的聚类预测结果中选取置信度较高的样本作为伪标签，用于指导低维表征的学习，进而实现更优的聚类性能. 在4个数据集上进行的聚类任务、消融研究、参数敏感性分析、实验时间分析和聚类可视化分析，充分表明了HMIPDC聚类性能的有效性和优越性.

本研究只是在同质属性网络中进行深度聚类研究. 在未来的工作中，将会进一步考虑拥有不同类型节点的异质信息网络^[31]，尝试利用异质信息网络中丰富的语义信息来完成聚类任务. 另外，现实世界中的图数据大多数都存在缺失，如何在有缺失的数据中有效地进行聚类任务也将是下一步的研究重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHAN Z H, LI J Y, ZHANG J

Evolutionary deep learning: a survey

[J]. Neurocomputing, 2022, 483: 42- 58

[2]

LIN Y J, GOU Y B, LIU Z T, et al. COMPLETER: incomplete multi-view clustering via contrastive prediction[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. [s. l. ]: CVPR, 2021: 11174-11183.

[3]

XIE J Y, GIRSHICK R, FARHADI A. Unsupervised deep embedding for clustering analysis[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016: 478-487.

[4]

GUO X F, GAO L, LIU X W, et al. Improved deep embedded clustering with local structure preservation[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: IJCAI, 2017: 1753-1759.

[5]

ZHANG S S, LIU J W, ZUO X, et al

Online deep learning based on auto-encoder

[J]. Applied Intelligence, 2021, 51 (8): 5420- 5439

DOI:10.1007/s10489-020-02058-8 [本文引用: 3]

[6]

WU Z H, PAN S R, CHEN F W, et al

A comprehensive survey on graph neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (1): 4- 24

DOI:10.1109/TNNLS.2020.2978386 [本文引用: 1]

[7]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[C]// 5th International Conference on Learning Representations. Toulon: ICLR, 2017: 1-14.

DOI:10.7544/issn1000-1239.20200897 [本文引用: 1]

[8]

WANG C, PAN S R, HU R Q, et al. Attributed graph clustering: a deep attentional embedding approach[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao: IJCAI, 2019: 3670-3676.

[本文引用: 4]

[9]

BO D Y, WANG X, SHI C, et al. Structural deep clustering network[C]// Proceedings of the Web Conference 2020. Taipei: WWW, 2020: 1400-1410.

[本文引用: 6]

[10]

杜国王, 周丽华, 王丽珍, et al

基于两级权重的多视角聚类

[J]. 计算机研究与发展, 2022, 59 (4): 907- 921

DU Guo-wang, ZHOU Li-hua, WANG Li-zhen, et al

Multi-view clustering based on two-level weights

[J]. Journal of Computer Research and Development, 2022, 59 (4): 907- 921

DOI:10.7544/issn1000-1239.20200897 [本文引用: 1]

[11]

KAMPFFMEYER M, LØKSE S, BIANCHI F M, et al

Deep divergence-based approach to clustering

[J]. Neural Networks, 2019, 113: 91- 101

DOI:10.1016/j.neunet.2019.01.015 [本文引用: 2]

[12]

MOLAEI S, BOUSEJIN N G, ZARE H, et al

Deep node clustering based on mutual information maximization

[J]. Neurocomputing, 2021, 455: 274- 282

DOI:10.1016/j.neucom.2021.03.020 [本文引用: 2]

[13]

陈亦琦, 钱铁云, 李万理, et al

基于复合关系图卷积的属性网络嵌入方法

[J]. 计算机研究与发展, 2020, 57 (8): 1674- 1682

DOI:10.7544/issn1000-1239.2020.20200206 [本文引用: 1]

CHEN Yi-qi, QIAN Tie-yun, LI Wan-li, et al

Exploiting composite relation graph convolution for attributed network embedding

[J]. Journal of Computer Research and Development, 2020, 57 (8): 1674- 1682

DOI:10.7544/issn1000-1239.2020.20200206 [本文引用: 1]

[14]

KIPF T N, WELLING M. Variational graph auto-encoders[C]// Bayesian Deep Learning Workshop on 30th Conference on Neural Information Processing Systems. Barcelona: NIPS, 2016.

[本文引用: 4]

[15]

KOU S W, XIA W, ZHANG X D, et al

Self-supervised graph convolutional clustering by preserving latent distribution

[J]. Neurocomputing, 2021, 437: 218- 226

DOI:10.1016/j.neucom.2021.01.082 [本文引用: 2]

[16]

TU W X, ZHOU S H, LIU X W, et al. Deep fusion clustering network[C]// 35th AAAI Conference on Artificial Intelligence. [s.l.]: AAAI, 2021: 9978-9987.

[本文引用: 3]

[17]

LIU Y, TU W X, ZHOU S H, et al. Deep graph clustering via dual correlation reduction[C]// 36th Conference on Artificial Intelligence. Vancouver: AAAI, 2022: 7603-7611.

[本文引用: 5]

[18]

BELGHAZI M I, BARATIN A, RAJESWAR S, et al. MINE: mutual information neural estimation[C]// Proceedings of the 35th International Conference on Machine Learning. Stockholm: ICML, 2018: 531-540.

[19]

HJELM R D, FEDOROV A, LAVOIE-MARCHILDON S, et al. Learning deep representations by mutual information estimation and maximization[C]// 7th International Conference on Learning Representations. New Orleans: ICLR, 2019.

[20]

VELIČKOVIĆ P, FEDUS W, HAMILTON W L, et al. Deep graph infomax[C]// 7th International Conference on Learning Representations. New Orleans: ICLR, 2019.

[21]

JING B Y, PARK C Y, TONG H H. HDMI: high-order deep multiplex infomax[C]// Proceedings of the Web Conference 2021. New York: WWW, 2021: 2414-2424.

[22]

MCGILL W J

Multivariate information transmission

[J]. Transactions of the IRE Professional Group on Information Theory, 1954, 4 (4): 93- 111

DOI:10.1109/TIT.1954.1057469 [本文引用: 1]

[23]

VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C]// 5th International Conference on Learning Representations. Toulon: ICLR, 2017.

[24]

RIZVE M N, DUARTE K, RAWAT Y S, et al. In defense of pseudo-labeling: an uncertainty-aware pseudo-label selection framework for semi-supervised learning[C]// 9th International Conference on Learning Representations. [s. l. ]: ICLR, 2021.

[25]

HARTIGAN J A, WONG M A

A K-means clustering algorithm

[J]. Journal of the Royal Statistical Society Series C Applied Statistics, 1979, 28 (1): 100- 108

[26]

ZHAO H, YANG X, WANG Z R, et al. Graph debiased contrastive learning with joint representation clustering[C]// Proceedings of the 30th International Joint Conference on Artificial Intelligence. [s.l.]: IJCAI, 2021: 3434-3440.

DOI:10.1016/j.future.2020.07.011 [本文引用: 1]

[27]

LV J C, KANG Z, LU X, et al

Pseudo-supervised deep subspace clustering

[J]. IEEE Transactions on Image Processing, 2021, 30: 5252- 5263

DOI:10.1109/TIP.2021.3079800 [本文引用: 1]

[28]

BOUYER A, ROGHANI H

LSMD: a fast and robust local community detection starting from low degree nodes in social networks

[J]. Future Generation Computer Systems, 2020, 113: 41- 57

[29]

KINGMA D P, BA J. Adam: a method for stochastic optimization[C]// 3rd International Conference for Learning Representations. San Diego: ICLR, 2015.

[30]

MAATENL V D, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9: 2579- 2605