关系生成图注意力网络的知识图谱链接预测

doi:10.3785/j.issn.1008-973X.2022.05.020

关系生成图注意力网络的知识图谱链接预测

陈成^,, 张皞, 李永强^,, 冯远静

1. 浙江工业大学信息工程学院，浙江杭州 310023

2. 中国移动通信集团浙江有限公司杭州分公司，浙江杭州 310006

Knowledge graph link prediction based on relational generative graph attention network

CHEN Cheng^,, ZHANG Hao, LI Yong-qiang^,, FENG Yuan-jing

1. College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

2. China Mobile Zhejiang Limited Company Hangzhou Branch Company, Hangzhou 310006, China

通讯作者: 李永强，男，副教授. orcid.org/0000-0002-9345-943X. E-mail: yqli@zjut.edu.cn

收稿日期: 2021-06-7

基金资助:

国家自然科学基金资助项目(62073294)；浙江省自然科学基金资助项目(LZ21F030003)

Received: 2021-06-7

Fund supported:

国家自然科学基金资助项目(62073294)；浙江省自然科学基金资助项目(LZ21F030003)

作者简介 About authors

陈成（1996—），男，硕士生，从事知识图谱推理研究.orcid.org/0000-0002-1051-6436.E-mail:cauchychen@126.com , E-mail：cauchychen@126.com

摘要

针对实体邻域三元组缺少联系的问题，提出基于关系生成图注意力网络(RGGAT)的知识图谱链接预测方法. 利用不同类型的关系生成相应的注意力机制参数，邻域三元组按照关系类型使用对应的参数计算注意力系数. 实体通过聚合以关系为主导的邻域三元组信息得到更丰富的嵌入向量. 在训练过程中对编码器和解码器进行共同训练，将编码器更新的实体向量和关系向量直接输入到解码器中，保证编码器和解码器训练目标一致. 在3个公开数据集上进行链接预测实验，对比实验选用目前主流的5个模型作为基线. RGGAT方法在3个数据集上的Hits@10能达到0.519 8、0.510 4和0.973 9，高于传统图注意力网络嵌入方法的. 在邻域聚合阶数对比实验中，1阶关系邻域聚合的方法相比2阶关系在Hits@10上提升3.59%.

关键词： 知识图谱 ; 图注意力网络 ; 实体邻域 ; 关系生成参数 ; 链接预测

Abstract

A knowledge graph link prediction method for relational generative graph attention network (RGGAT) was proposed to address the problem of missing links in entity neighborhood triples. Different types of relation were used to generate the corresponding attention mechanism parameters, and the attention coefficient was calculated by the neighborhood triples through the corresponding parameters according to the relation types. The entity got a richer embedding vector by aggregating the relation-dominated neighborhood triples information. The encoder and the decoder were jointly trained during the training process, and the entity vector and relation vector updated by the encoder were directly input into the decoder to ensure that the training objectives of the encoder and the decoder were consistent. The link prediction experiment was carried out on three public datasets, and five current mainstream models were selected as the baseline for the comparison experiment. The Hits@10 of RGGAT method on the three datasets were 0.519 8, 0.510 4 and 0.973 9, higher than that of the traditional graph attention network embedding method. In the comparison experiment of neighborhood aggregation order, the Hits@10 of the neighborhood aggregation method for one-hop relation was improved by 3.59% compared with the method for two-hop relation.

Keywords： knowledge graph ; graph attention network ; entity neighborhood ; relational generative parameter ; link prediction

PDF (1020KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈成, 张皞, 李永强, 冯远静. 关系生成图注意力网络的知识图谱链接预测. 浙江大学学报(工学版)[J], 2022, 56(5): 1025-1034 doi:10.3785/j.issn.1008-973X.2022.05.020

CHEN Cheng, ZHANG Hao, LI Yong-qiang, FENG Yuan-jing. Knowledge graph link prediction based on relational generative graph attention network. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(5): 1025-1034 doi:10.3785/j.issn.1008-973X.2022.05.020

对于增强人工智能相关应用，如信息检索^[1]、智能问答^[2]和信息抽取^[3]等，知识图谱已经成为最重要的资源之一. 尽管Freebase^[4]、YAGO和知心等现代知识图谱取得了一定的成功，但知识图谱的覆盖面和内容还远远不够全面和完整，限制了其扩展应用的发展. 这也激发了对知识图谱推理的研究. 知识图谱推理利用已有事实的三元组信息预测三元组中缺失的实体或者关系信息，从而丰富和扩展知识图谱^[5]. 在知识图谱推理中较为经典的任务是链接预测、三元组分类和知识图谱问答，三元组分类和简单的问答问题任务都能转化为链接预测任务，并且链接预测在进行知识图谱推理检测时更方便、更直接.

在所有知识图谱推理方法中，目前主流的方法是学习知识图谱中实体和关系的分布式表示，利用线性或神经网络的操作预测三元组缺失的信息. 比如，基于距离平移的转换嵌入(translation-based embedding, TransE)^[6]模型及其衍生的一系列改进算法、基于张量分解模型的双线性模型^[7](RESCAL)及推广模型、基于卷积神经网络嵌入(convolution embedding, ConvE)^[8]模型及变体方法. 但是这些方法都只是独立地处理每个三元组，都没能概括出固有的语义丰富的潜在关系.

知识图谱中的实体之间通过关系连结形成网络图结构^[9]，每个实体与其相邻实体组成星形图结构. 因此，利用实体邻域信息来丰富实体的表示是近年来兴起的研究方向. 学者们提出了很多实体聚合邻域信息的方法. 关系图卷积神经网络(relational graph convolutional networks, R-GCN)^[10]模型将图卷积网络应用到知识图谱推理上，对每个实体的邻域应用卷积运算，并赋予邻域实体相同的权重. Marcheggiani等^[11]在设计GCN公式时考虑关系信息沿2个方向流动，加入了逆关系信息. 在加权图卷积神经网络(weighted graph convolutional networks, WGCN)^[12]模型中，不同的关系有相应的权重，将一个多关系知识图变换为多个带有不同强弱关系的单一关系知识图.

上述推理模型都尝试在实体特征中加入邻域信息，但是在实体聚合过程中并没有真正地融入三元组信息，也没有为不同的三元组分配不同的权重，导致对知识图谱推理的提升效果不明显. Nathani等^[13]提出多阶关系下基于图注意力网络(knowledge bases method based on graph attention network, KBGAT)的嵌入方法，较好地解决了基于图卷积神经网络的模型无法分配不同权重的问题，并使用多阶关系进一步丰富邻域信息. 虽然KBGAT能够同时更新实体和关系的特征向量，但存在2个缺陷：1)KBGAT在邻域三元组计算注意力系数时直接将邻域三元组输入到前馈网络中，实体和关系没有充分的交互；2)KBGAT模型使用编码器-解码器框架，编码器和解码器分开训练，导致编码器训练无法随着解码器输出的任务结果的变化而调整，影响链接预测任务的准确度.

为了提升实体聚合邻域信息的能力，通过改进KBGAT的邻域聚合方法，提出基于关系生成图注意力网络(relational generative graph attention network, RGGAT)的知识图谱推理模型. 通过不同类型的关系嵌入生成对应的注意力参数，增强以关系为主导的注意力系数的分配，提高实体聚合邻域信息的能力. 同时将解码器改为ConvE^[8]模型，编码器的输出直接输入到解码器进行训练. 最后，在3个公开数据集上进行链接预测实验，验证本研究方法在知识图谱链接预测准确度上的表现.

1. 相关工作

近年来，学者提出了几种不同的知识图谱嵌入方法用于链接预测. 这些方法大致可以分为基于张量分解的模型、基于距离平移的模型、基于卷积神经网络的模型和基于图神经网络的模型.

张量分解的基本思想是用多个低维矩阵或张量乘积来代替原始的实体和关系矩阵，从而用少量的参数来代替稀疏庞大的原始数据. RESCAL^[7]模型使用张量分解的方法考虑了二进关系数据的固有结构. NTN^[14]模型将这些关系表示为一个矩阵来表示潜在特征之间的相关性. 虽然这些模型使用实体和关系之间的双线性匹配来判断关系建立的可能性，但都需要大量的矩阵乘法计算，大大增加了时间成本. 因此，Nickel等^[15]使用实体嵌入的循环相关性创建了更高效和可伸缩的组合表示. Balazevic等^[16]使用tucker分解，将一个张量分解成一组向量和一个更小的共享参数.

基于距离平移的模型以能量函数为基础，通过能量函数的计算来判断建立的三元组是否正确，即正确三元组能量较低，而无效三元组能量较高. TransE^[6]模型考虑头实体和尾实体之间的转换操作，但在处理一对多和多对一关系时存在一定的问题. 为了解决这个问题，Wang等^[17]和Lin等^[18]分别在不同的关系空间中使用不同的表示形式计算具有相同实体的三重分数，有效地避免了收敛问题. Ji等^[19]所提出的模型通过使用由对应的实体和关系确定的转移矩阵来解决实体和关系的多样性问题. 自TransE模型提出后，在这个框架下提出了多种方法，如基于关系映射属性的转换嵌入(translating embedding based on relation mapping properties, TransM)^[20]模型和基于自适应方法的转换嵌入(translating embedding based on adaptive approach, TransA)^[21]模型.

考虑到实空间中的正则化会使得实体向量表示在一个球面上，这与TransE模型的优化目标矛盾，Ebisu等^[22]将嵌入空间定义在基于紧李群的圆环空间上. Sun等^[23]将嵌入空间定义在复空间上，将关系嵌入表示为旋转向量，通过旋转来代替平移操作. Zhang等^[24]将嵌入空间放在极坐标系上，利用极坐标系的结构能更好地反映知识图谱中的语义信息. Zhang等^[25]为了让旋转操作更灵活，将嵌入空间扩展到四元数空间，并使用哈密尔顿乘积来表示旋转操作.

基于卷积神经网络的模型通过使用卷积神经网络架构来进行知识图谱推理. ConvE模型^[8]将头实体和关系向量进行二维重构，拼接后经过卷积层和全连接层得到融合向量，将融合向量与候选实体向量进行相似度计算来判断其是否为尾实体. Nguyen等^[26]模型则直接将拼接的三元组向量输入到卷积层，通过计算三元组得分来判断三元组的正确性. Vashishth等^[27]为了提高实体和关系在卷积层中的交互作用，通过改变重构函数和卷积操作来加强实体和关系的交互作用. 这些模型能够有效地获取三元组的嵌入，但每个三元组相互独立，忽略了三元组之间也存在着关系. Stoica等^[28]通过关系生成神经网络参数，相同关系的三元组共享网络参数，从而提高了实体和关系的交互，也丰富了三元组之间的联系.

由于图和知识图谱在结构上有着一定的相似性，图嵌入的方法也能够在知识图谱嵌入上进行应用. R-GCN^[10]模型通过图卷积网络获得三元组的嵌入，并应用DistMult^[29]模型来计算三元组的得分. 但是GCN的不足在于无法为每个邻域三元组分配独立的权重. 为此，WGCN^[12]模型为每个关系分配一个权重，将知识图谱拆分成多个关系图进行训练. Vashishth等^[30]利用头实体和关系通过线性或非线性操作来计算三元组的权重. 为了解决邻域三元组权重一致的问题，图注意力网络被提出，通过注意力机制来生成权重. KBGAT^[13]模型将GAT应用到知识图谱嵌入上，并使用多阶关系进一步扩大实体聚合邻域信息的范围. 但对于实体来说，不同距离的实体也应该有不同的权重. 因此，Wang等^[31]利用衰减机制来分配不同范围下的权重. 但是在实体聚合邻域过程中，三元组相互之间独立处理，忽略了邻域三元组之间的联系. 因此，本研究针对邻域三元组的独立性对图注意力网络进行改进，提出关系生成的图注意力网络架构，用于提高邻域三元组之间的交互.

2. 基于图注意力网络的实体聚合

2.1. 知识图谱背景

知识图谱 $ {{G = }}\left( {{{V,\;R,\;}}}\varepsilon \right) $可以看作是多关系有向图，其中 $ {{V}} $为实体(节点)集， $ {{V = }}\{ {e_0},{e_1},\cdots ,{e_{{N_{\rm{e}}}}}\} $， $ {N_{\rm{e}}} $为实体数量， $ {{R}} $为关系(边)集， $ {{R}} = \{ {r_0},{r_1},\cdots ,{r_{{N_{\rm{r}}}}}\} $， $ {N_{\rm{r}}} $为关系数量. 知识图谱中的事实以三元组的形式表示：(头实体，关系，尾实体)，用符号表示为 $\left( {{e_{\rm{s}}},{r_{\rm{k}}},{e_{\rm{t}}}} \right) \in {{\varepsilon }}$，其中 $ {e_{\rm{s}}} $表示头实体， $ {r_{\rm{k}}} $表示关系， $ {e_{\rm{t}}} $表示尾实体. 这种三元组形式概括了由头实体 $ {e_{\rm{s}}} $指向尾实体 $ {e_{\rm{t}}} $存在关系 $ {r_{\rm{k}}} $的语义信息.

一般知识图谱推理都是基于三元组中已知的任意2个元素推理缺失的另外一个元素^[5]. 知识图谱的推理过程可以看成实体在多种关系下的交互过程，通过关系来推理原本没有联系的实体之间可能存在的关系. 根据知识图谱推理方法，可以完成链接预测、关系预测、三元组分类等下游任务.

2.2. 实体邻域三元组聚合过程

基于图注意力网络方法，实体对其邻域三元组根据注意力系数进行加权聚合，得到新的实体特征. 实体聚合过程如图1所示. 图中，虚线箭头表示拼接操作，斜线填充的方格表示实体向量，实心填充的方格表示关系向量.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 实体邻域聚合过程图

Fig.1 Process diagram of entity neighborhood aggregation

给定实体的嵌入矩阵 $ {\boldsymbol{H}} \in {{\bf{R}}^{{d_{\rm{e}}} \times {N_{\rm{e}}}}} $，关系的嵌入矩阵 $ {\boldsymbol{U}} \in {{{\bf{R}}}^{{d_{\rm{r}}} \times {N_{\rm{r}}}}} $，其中 $ {d_{\rm{e}}} $、 $ {d_{\rm{r}}} $分别表示实体和关系的初始嵌入维度.

为了获得包含邻域三元组信息的实体 $ {e_i} $的新嵌入，模型将以 $ {e_i} $为头实体的三元组 $ x_{ij}^k = \left( {{e_i},{r_k},{e_j}} \right) $对应的实体和关系拼接后进行线性转换：

(1) $ {{\boldsymbol{c}}_{ijk}} = {{\boldsymbol{W}}_1}\left[ {{{\boldsymbol{h}}_i}||{{\boldsymbol{h}}_j}||{{\boldsymbol{u}}_k}} \right] . $

式中： $ {{\boldsymbol{c}}_{ijk}} $为三元组 $ x_{ij}^{k} $的向量， $ {{\boldsymbol{W}}_1} \in {{{\bf{R}}}^{{{d'}_{\rm{e}}} \times \left( {2{d_{\rm{e}}} + {d_{\rm{r}}}} \right)}} $表示线性转换矩阵， $ {{\boldsymbol{h}}_i} $、 $ {{\boldsymbol{h}}_j} $和 $ {{\boldsymbol{u}}_k} $分别表示实体 $ {e_i} $、 $ {e_j} $和关系 $ {r_k} $的嵌入向量，||表示拼接操作. 通过 $ {{\boldsymbol{W}}_2} \in {{{\bf{R}}}^{{{d'}_{\rm{e}}}}} $的线性变换，并使用负斜率为0.2的LeakyReLU激活函数获得三元组 $ x_{ij}^k $对于实体 $ {e_i} $的重要程度：

(2) $ {{b}}_{ij}^k = {{\rm{LeakyReLU}}} \;\left( {{{\boldsymbol{W}}_2}^{\rm{T}}{{\boldsymbol{c}}_{ijk}}} \right) . $

式中： $ {{b}}_{ij}^k $表示三元组 $ x_{ij}^k $的绝对注意力系数. 为了更准确地统计实体 $ {e_i} $邻域三元组的注意力系数分布，对实体 $ e_{i} $所有邻域三元组的绝对注意力系数 $ {{b}}_{ij}^k $进行softmax操作：

(3) $ {\alpha _{ijk}} = {{\rm{softmax}}}\; \left( {{b}}_{ij}^k \right) = \frac{{\exp\; \left( {{b}}_{ij}^k \right)}}{{\displaystyle \sum\nolimits_{n \in {{V} _i}} {\displaystyle \sum\nolimits_{r \in {{R} _i}} {\exp \;\left( {{b}}_{n}^r \right)} } }} . $

式中： $ {{V} _i} $表示实体 $ {e_i} $的邻域实体集合， $ {{R} _i} $表示实体 $ e_{i} $和邻近实体之间的关系集合, ${b}_n^r $表示实体 $ {e_i} $的所有邻域三元组的绝对注意力系数. 那么，将所有邻域三元组根据计算出来的注意力系数进行加权求和，得到实体 $ {e_i} $新的嵌入：

(4) $ {{\boldsymbol{h}^\prime}_i} = \sigma \left( {\sum\limits_{j \in {{V} _i}} {\sum\limits_{k \in {{R} _{ij}}} {{\alpha _{ijk}}{{\boldsymbol{c}}_{ijk}}} } } \right) . $

式中： $\sigma $表示非线性激活函数，通常用ReLU函数； $R_{ij} $表示实体 ${e_i}、{e_j} $之间的关系集合.

根据图注意力神经网络^[13]的计算方式，多头注意力机制^[32]能够稳定学习过程并且压缩更多的邻域信息. 因此，当M个相互独立的注意力机制共同计算实体嵌入后，将实体嵌入进行拼接得到如下实体嵌入表示：

(5) $ {{\boldsymbol{h}}_i} = \mathop \parallel \limits_{m = 1}^M \sigma \left( {\sum\limits_{j \in {{V}_i}} {\sum\limits_{k \in {{R}_{ij}}} {{\alpha _{ijk}^m}{{\boldsymbol{c}}_{ijk}^m}} } } \right) . $

式中：||表示拼接操作.

以上就是单层图注意力机制的计算过程. 当使用图注意力层超过1层时，须使用线性转换矩阵 $ {{\boldsymbol{W}}_{{\rm{R}}} } \in {{{\bf{R}}}^{{{d'_{\rm{e}}} \times {d_{\rm{r}}}}}} $将关系嵌入矩阵 $ \boldsymbol{U} $扩展到与实体相同的维度：

(6) $ {\boldsymbol{U' = }}{{\boldsymbol{W}}_{{\rm{R}}} }{\boldsymbol{U}} . $

当使用图注意力层后需要输出时，与中间层的拼接操作不同，通过计算平均向量来获得最后的实体嵌入：

(7) $ {{\boldsymbol{h'}}_i} = \sigma \left( {\frac{1}{M}\sum\limits_{m = 1}^M {\sum\limits_{j \in {{V} _i}} {\sum\limits_{k \in {{R} _{ij}}} {\alpha _{ijk}^m{\boldsymbol{c}}_{ijk}^m} } } } \right) . $

一般来讲，当使用图注意力机制超过2层时，实体嵌入会丢失自身的初始信息造成特征信息过度平滑. 为了缓解信息平滑问题，KBGAT使用残差网络方法来增强实体的输出嵌入中包含的自身信息，将初始实体嵌入矩阵进行线性转换，使得其维度和最后一层图注意力层输出的实体嵌入维度保持一致. 将变换后的实体初始嵌入与输出实体嵌入叠加，得到最后的实体嵌入：

(8) $ {{\boldsymbol{H}}^{{\rm{add}}}}{\boldsymbol{ = }}{{\boldsymbol{W}}_{{\rm{E}}} }{{\boldsymbol{H}}^{\rm{i}}}{\boldsymbol{ + }}{{\boldsymbol{H}}^{\rm{f}}} . $

式中： $ {{\boldsymbol{W}}_{\rm{E}}} \in {{{\bf{R}}}^{{d_{\rm{f}}} \times {d_{\rm{e}}}}} $表示线性转换矩阵， $ {{\boldsymbol{H}}^{\rm{i}}} \in {{{\bf{R}}}^{{d_{\rm{e}}} \times {N_{\rm{e}}}}} $和 $ {{\boldsymbol{H}}^{\rm{f}}} \in {{{\bf{R}}}^{{d_{\rm{f}}} \times {N_{\rm{e}}}}} $分别表示实体初始嵌入与最后一层图注意力机制输出的实体嵌入， $ {d_{\rm{f}}} $为最后一层输出的实体嵌入维度.

3. 关系生成图注意力方法

虽然KBGAT使用图注意力网络方法更新实体特征，但在实体聚合过程中实体和关系没有充分的交互. 同时，编码器和解码器分开训练，导致两者训练目标不一致. 因此，本研究提出基于关系生成图注意力神经网络的知识图谱链接预测模型，使用编码器-解码器的框架，首先利用不同关系类型生成相应的注意力机制中的前馈神经网络参数，接着将知识图谱中每个实体的邻域信息以三元组的形式进行表示，每个三元组按照关系类型使用关系生成的网络参数来计算注意力系数，然后采用图注意力网络的聚合公式将邻域信息以三元组形式聚合到目标实体上，获得更新的实体嵌入和关系嵌入. 最后使用ConvE模型作为解码器，对三元组进行评分和链接预测. 模型的基本框架如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 关系生成图注意力网络模型框架图

Fig.2 Framework illustration of relational generative attention network model

3.1. 实体邻域三元组阶数

KBGAT模型在实体邻域中加入了多阶关系信息，即头实体通过多个关系得到尾实体，这样的三元组成为多阶三元组 $ ({e_{\rm{s}}},{r_{{k_0}}},{r_{{k_1}}},\cdots ,{r_{{{k} _n}}},{e_{\rm{t}}}) $，使得实体能够聚合更远的三元组信息. 但是加入多阶关系会使实体包含太多邻近信息，导致自身特征过度平滑，降低实体之间的区分度. 即便使用残差网络方法也无法缓解平滑问题. 因此，为了降低多阶邻域关系对实体的影响，RGGAT模型只在一阶关系下提取实体邻域信息，使实体在聚合邻域信息的同时能够保持相对独立性.

关系信息在聚合过程中沿着2个方向流动，不论对于头实体还是尾实体，关系都是连接另一实体的重要标识. 因此，将关系扩展生成对应的逆关系 $ {{{R}}^{ - 1}} $，由此扩展生成与原三元组互逆的逆三元组 ${{{\varepsilon }}^{ - 1}} = \{ ({e_{\rm{t}}},{r^{ - 1}},{e_{\rm{s}}})|({e_{\rm{s}}},r,{e_{\rm{t}}}) \in {{\varepsilon }}\}$并组成新的知识图谱 ${{G = }}({{V}},{{R}} \cup {{{R}}^{ - 1}},{{\varepsilon }} \cup {{{\varepsilon }}^{ - 1}})$. 实体邻域信息在互逆三元组中进行提取. 通过加入逆关系，所有实体都可以作为邻域三元组的头实体，并且只须将知识图谱结构信息从尾实体聚合到头实体.

3.2. 关系生成图注意力系数

传统的图注意力网络将2个节点向量作为输入，拼接后通过权重矩阵进行线性转换，再经过前馈神经网络得到未归一化的注意力系数^[33]. KBGAT模型在此基础上将一个三元组向量作为输入，得到三元组的注意力系数. 但是，在这种方式下邻域三元组之间并没有得到充分的交互，实体聚合的邻域信息过于分散，邻域三元组计算的注意力系数不包含其他三元组信息.

KBGAT模型在实体聚合邻域信息时，邻域三元组将头实体、尾实体和关系进行拼接操作，并计算注意力系数. 在整个计算过程中实体并没有吸收关系信息. 以图3中实体 $ e_{1} $的邻域三元组 $ \left(e_{1}, r_{1},e_{2}\right) $为例. 其注意力系数的表达式如下：

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 实体多阶邻域三元组示意图

Fig.3 Illustration of entity multi-hop neighborhood triples

(9) $ {\alpha _{12}} = \frac{{\exp\; \left( {{{\rm{LeakyReLU}}}\; \left( {{{\boldsymbol{W}}^{\rm{T}}_2}{{\boldsymbol{W}}_1}\left[ {{{\boldsymbol{h}}_1}||{{\boldsymbol{h}}_2}||{{\boldsymbol{u}}_1}} \right]} \right)} \right)}}{{\displaystyle \sum\limits_{n \in {{V} _i},r \in {{R} _i}} {\exp\; \left( {{{\rm{LeakyReLU}}}\; \left( {{{\boldsymbol{W}}^{\rm{T}}_2}{{\boldsymbol{W}}_1}\left[ {{{\boldsymbol{h}}_1}||{{\boldsymbol{h}}_n}||{{\boldsymbol{u}}_r}} \right]} \right)} \right)} }}. $

可以看出，在计算邻域三元组注意力系数过程中实体和关系一直处于拼接的状态，没有吸收关系信息.

基于图神经网络的模型的核心思想都是如何在实体聚合邻域过程中加入关系的信息，能够让邻域信息以三元组的形式被实体聚合. CoPER^[28]模型提到的简单的拼接方式对实体和关系之间的交互并没有多大作用，同时限制了模型的表达能力. 而利用关系向量生成网络参数能够简单有效地混合实体和关系信息. 通过将关系向量转换到编码网络中，实体向量和关系向量能进行更有效的信息融合，从而让实体得到邻域完整的信息.

由于每个实体通过不同的关系连接其邻域，关系在邻域信息中起到连接头尾实体的作用. 因此，以关系为导向对邻域三元组进行一定程度的分类，加强相同关系之间邻域三元组的联系.

将关系嵌入矩阵 $ {\boldsymbol{U}} $通过线性投影转换成为前馈神经网络参数 ${\boldsymbol{A}} \in {{{\bf{R}}}^{{{d'_{\rm{e}}} \times {N_{\rm{r}}}}}}$，可以表示为

(10) $ {{\boldsymbol{a}}_k} = {{\boldsymbol{W}}_{\rm{L}}}{{\boldsymbol{u}}_{{k}}} + {\boldsymbol{b}} . $

式中： $ {{\boldsymbol{W}}_{{\rm{L}}} } \in {{{\bf{R}}}^{{{d'_{\rm{e}}} \times {d_{{\rm{r}}} }}}} $表示线性转换矩阵， $ {\boldsymbol{b}} \in {{{\bf{R}}}^{{{d'_{\rm{e}}}}}} $表示偏差， $ {d'_{{\rm{e}}} } $表示更新后的实体嵌入维度. 直观地说，关系嵌入表示前馈神经网络参数的 $ {d_{\rm{r}}} $个不同值的线性组合，允许关系之间共享信息. 关系类型相同的三元组能够按照相同的参数生成注意力系数. 生成的网络参数作为计算邻域三元组注意力系数的参数，使用方式如图4所示. 图中，虚线箭头表示拼接操作，斜线填充的表示实体向量，实心填充的表示关系向量，w_i为神经元权重.

使用前馈神经网络参数 $ {\boldsymbol{A}} $代替式(2)中的线性转换矩阵W₂，每个邻域三元组按照关系类型计算绝对注意力，因此式(2)可以改写为

(11) $ {{b}}_{ij}^k = {{\rm{LeakyReLU}}} \;\left( {{{\boldsymbol{a}}_k}^{\rm{T}}{{\boldsymbol{c}}_{ijk}}} \right) . $

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 关系生成图注意力机制

Fig.4 Attention mechanism of relational generative graph

3.3. 二维卷积解码器

经过关系生成图注意力网络更新后的实体嵌入和关系嵌入，用来进行链接预测任务. 链接预测指的是预测一个三元组的头实体或者尾实体，可以形式化为一个学习排序问题，其目标为学习一个评分函数 $ \phi :{V} \times {{R}} \times {{V}} \mapsto \bf{R} $. 给定三元组 $ x_{{\rm{st}}}^{\rm{k}} = $ $ \left( {{e_{\rm{s}}},{r_{\rm{k}}},{e_{\rm{t}}}} \right) $，其评分函数 $\phi (x) \in {\bf{R}} $的可能性与由 $ x $得到的事实为真的可能性成正比.

KBGAT模型使用ConvKB模型作为解码器进行链接预测. 但ConvKB模型的参数在经过激活函数后有较大的比例变为零，导致无效三元组和有效三元组得分相同的数量较多，而ConvE模型没有这种情况^[34]. 因此本研究使用基于2维卷积的ConvE模型作为解码器，利用卷积层和全连接层来实现实体和关系的交互. 将头实体嵌入和关系嵌入二维重构并且拼接后，经过单层卷积层和全连接层后与尾实体进行点积，得到三元组的分数. 评分函数如下：

(12) $ \phi \left( {x_{{\rm{st}}}^{\rm{k}}} \right) = f\left( {{{\rm{vec}}}\; \left( {f\left( {\left[ {{{{{\bar {\boldsymbol{h}}}}}_{\rm{s}}};{{{{\bar {\boldsymbol{u}}}}}_{\rm{k}}}} \right] * {\boldsymbol{\omega }}} \right)} \right){\boldsymbol{W}}} \right){{\boldsymbol{h}}_{\rm{t}}} . $

式中： ${\boldsymbol{\omega }}$表示卷积核； $ f $表示ReLU激活函数； ${{{\bar {\boldsymbol{h}}}}_{\rm{s}}}$和 ${{{\bar {\boldsymbol{u}}}}_{\rm{k}}}$表示头实体嵌入 ${{\boldsymbol{h}}_{\rm{s}}} \in {{\bf{R}}^{{d_{\rm{e}}}}}$和关系嵌入 ${{\boldsymbol{u}}_{\rm{k}}} \in {{\bf{R}}^{{d_{\rm{r}}}}}$的二维重构，也就是说当 ${{{\bar {\boldsymbol{h}}}}_{\rm{s}}} \in {{\bf{R}}^{{k_{{\rm{w}}} } {k_{\rm{h}}}}}$和 ${{{\bar {\boldsymbol{u}}}}_{\rm{k}}} \in {{\bf{R}}^{{k_{\rm{w}}} {k_{\rm{h}}}}}$时，有 ${d_{\rm{e}}} = {d_{{\rm{r}}} } = {k_{{\rm{w}}} } {k_{\rm{h}}}$.

为了训练模型参数，在尾实体做标签后，使用逻辑Sigmoid函数 $ \sigma(\cdot) $来归一化评分，得到三元组评分的概率，也就是 $ P = \sigma (\phi (x_{{\rm{st}}}^{\rm{k}})) $. 同时，通过最小化交叉熵损失值优化模型结果：

(13) $ {L}\left( {P,t} \right) = - \frac{1}{N}\sum\limits_i \left( {{t_i} \ln\; \left( {{P_i}} \right) + \left( {1 - {t_i}} \right) \ln\; \left( {1 - {P_i}} \right)} \right) . $

式中： $ {t} $表示所有进行评分的实体的标签，如果头实体、关系和该实体组成的三元组真实存在，那么 $ t $对应的元素为1，否则为0；i表示第i个进行评分的实体编号.

同时KBGAT模型将编码器和解码器分开训练，编码器训练的目标与最后的连接预测任务并不保持一致，这可能导致实体在聚合邻域信息时发生偏差. 因此，将编码器邻域聚合后的实体向量和线性变换后的关系向量直接输入到解码器中，即编码器和解码器拼接在一起进行共同训练. 联合训练过程如图5所示. 图中，虚线箭头表示拼接操作，斜线填充的表示实体向量，实心填充的表示关系向量，竖线填充的表示经过卷积层后的向量，横线填充的表示经过全连接层后的向量.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 链接预测训练过程图

Fig.5 Process diagram of link prediction training

4. 实验与结果分析

利用链接预测任务来评估RGGAT模型，并在WN18RR数据集上对是否应该加入多阶关系进行邻域聚合的问题进行实验. 选用TransE^[6]、R-GCN^[10]、ConvKB^[26]、A2N^[35]、KBGAT^[13]方法来进行对比.

4.1. 实验数据及评价指标

本研究使用3个真实知识图谱作为基准数据集：WN18RR^[8]、FB15K-237^[36]和Kinship^[37]. 由于WordNet的子集WN18和Freebase^[4]的子集FB15K数据集上存在大量的互逆三元组，通过基于规则的线性转换方法就可以得到测试集三元组，容易造成逆关系测试集泄漏. 因此，将WN18和FB15K数据集中的逆三元组全部删去，得到的WN18RR和FB15K-237数据集能够更准确地评估模型性能. Kinship是由Alyawarra的亲属关系组成的数据集. 如表1所示为3种数据集的统计信息. 表中，en为实体数；rn为关系数；tr为训练集的三元组个数；va为验证集的三元组个数；te为测试集的三元组个数；da为数据集中实体的度平均值；dm为数据集中实体的度中位数.

表 1 知识图谱公开数据集统计信息

Tab.1 Knowledge graph public dataset statistics

数据集	en	rn	tr	va	te	da	dm
WN18RR	40 493	11	86 835	3 034	3 134	4.24	3
FB15K-237	14 541	237	272 115	17 535	20 466	37.43	22
Kinship	104	25	8 544	1 068	1 074	164.31	164

新窗口打开| 下载CSV

实验评价指标使用知识图谱推理中常用的3个指标^[6]：平均倒数排名(mean reciprocal rank, MRR)，平均排名(mean rank, MR)和在前N名的正确实体比例Hits@N，N=1，3，10. 对于测试三元组，将所有候选实体依次替换头实体或尾实体计算得分后，进行降序排列，正确实体的平均倒数排名即为MRR，可以表达为

(14) $ {\rm{MRR}}{\rm{ = }}\frac{1}{Q}\sum\limits_{i = 1}^Q {\frac{1}{{{q_i}}}} . $

式中： $ Q $表示预测结果的总个数， $ {q_i} $表示第i个预测结果在排序中的排名. 如果对得分进行升序排列，那么正确实体的平均排名即为MR，可以写为

(15) $ {\rm{MR}}{\rm{ = }}\frac{1}{Q}\sum\limits_{i = 1}^Q {{q_i}} . $

正确实体排名越靠前表明模型性能越好，则正确实体在前N名的比例可以表示为

(16) $ {\rm{H}} { {\rm{its}} @ } N={N_{ {\rm{r}}}}/{Q}. $

式中： $N_{\rm{r}}$表示排名在前N名的正确实体的个数.

4.2. 实验参数设置

KBGAT方法的实验被指出存在测试集泄漏的问题^[37]，并且重新实验的结果并不完整，因此在修正问题后重新进行实验，实验参数设置参照原论文设定值. 剩余所有方法的实验结果都由原论文得出^[6,10,26,35]，其中A2N方法没有源代码，故在Kinship数据集下不进行对比.

编码器RGGAT模型参数设置如下：训练批次大小为512，学习率为0.001，实体和关系的初始嵌入向量维度为50，单头注意力输出的实体嵌入维度为100，注意力机制头数为2. 解码器ConvE模型参数设置如下：二维重构尺寸为 $ k_{{\rm{w}}} \times k_{{\rm{h}}}= $ $ 10 \times 20 $，卷积核大小为 $ 5 \times 5 $. WN18RR数据集的滤波器数量为200，FB15K-237数据集的滤波器数量为50，Kinship数据集的滤波器数量为32. 所有可训练的参数都随机初始化，并且通过Adam优化器进行优化.

为了防止模型在训练过程中出现过拟合现象，设置RGGAT模型的图注意力层丢弃率(dropout)为0.3，ConvE模型的二维重构丢弃率为0.2，卷积层和全连接层丢弃率为0.3. 正则项惩罚系数 $ L_{2} $= $ 10^{-5} $，并且在验证集上评估时，最大终止训练次数为25.

模型代码使用Python语言编写，并在PyTorch框架下构建RGGAT模型和ConvE模型. 模型训练采用NVIDIA RTX3090 GPU.

4.3. 链接预测实验结果

不同数据集的链接预测实验结果如表2~4所示.

表 2 在WN18RR数据集上的链接预测结果

Tab.2 Link prediction results on WN18RR dataset

模型	MRR	MR	Hits@1	Hits@3	Hits@10
TransE	0.2430	2 300	−	−	0.5010
R-GCN	0.1230	6 700	0.0800	0.1370	0.2070
ConvKB	0.2480	2 554	0.042 7	0.4450	0.5250
A2N	0.4500	−	0.4200	0.4600	0.5100
KBGAT	0.415 1	1 954	0.338 1	0.457 3	0.554 0
RGGAT	0.414 1	2 628	0.353 7	0.449 6	0.519 8

新窗口打开| 下载CSV

表 3 在FB15K-237数据集上的链接预测结果

Tab.3 Link prediction results on FB15K-237 dataset

模型	MRR	MR	Hits@1	Hits@3	Hits@10
TransE	0.2790	323	0.1980	0.3760	0.4410
R-GCN	0.1640	600	0.1000	0.1810	0.3000
ConvKB	0.2890	216	0.1980	0.3240	0.4710
A2N	0.3170	−	0.2320	0.3480	0.4860
KBGAT	0.208 3	264	0.129 5	0.222 0	0.374 6
RGGAT	0.332 6	235	0.244 7	0.364 2	0.510 4

新窗口打开| 下载CSV

表 4 在Kinship数据集上的链接预测结果

Tab.4 Link prediction results on Kinship dataset

模型	MRR	MR	Hits@1	Hits@3	Hits@10
TransE	0.3090	6.80	0.0090	0.6430	0.8410
R-GCN	0.1090	25.90	0.0300	0.0880	0.2390
ConvKB	0.6140	3.30	0.436 2	0.7550	0.9530
KBGAT	0.727 1	2.70	0.584 3	0.846 4	0.966 0
RGGAT	0.814 5	2.37	0.716 0	0.900 8	0.973 9

新窗口打开| 下载CSV

由表2可以看出，在WN18RR数据集上RGGAT的效果略差于KBGAT. 这是因为WN18RR数据集中的关系数量相对较少，同时实体度平均值相比另外2个数据集要小很多，即实体的邻域信息相对更少，导致使用以关系为主导的邻域聚合方式效果不明显.

由表3、4可知，在FB15K-237和Kinship数据集上RGGAT的实验结果均优于KBGAT. 实体聚合邻域信息时使用以关系为主导的方式来计算注意力系数，具有更好的准确度，这在关系较多或者实体度较大的数据集中有较好的优势.

通过3个不同数据集的实验结果可以看出，在实体邻域信息关系较多的情况下，以关系为主导的邻域聚合方式能更有效地按照关系类型梳理邻域三元组，加强相同关系下邻域三元组的联系.

4.4. 多阶关系对比实验结果

为了具体说明实体是否应该聚合更多的邻域信息，在实体邻域信息中加入2阶关系和3阶关系进行聚合，实验数据使用WN18RR数据集. 所有训练参数都与链接预测任务的参数设置保持一致. 实验结果如表5所示. 可以看出，随着邻域信息中关系阶数的升高，链接预测结果准确度逐渐下降. 这是因为使用2层图注意力的网络进行聚合已经包含了很多实体邻域信息，加上多阶关系的邻域使得每个实体聚合的范围过大，相邻实体重复的邻域信息过多，即使使用残差网络方法也会模糊实体自身信息.

表 5 在WN18RR数据集上多阶关系的链接预测结果

Tab.5 Link prediction results on WN18RR dataset using multi-hop relation

阶数	MRR	MR	Hits@1	Hits@3	Hits@10
1	0.414 1	2 628	0.353 7	0.449 6	0.519 8
2	0.391 6	3 740	0.328 8	0.431 4	0.501 8
3	0.351 9	4 026	0.272 5	0.407 3	0.483 1

新窗口打开| 下载CSV

4.5. 逆关系对比实验结果

RGGAT模型在实体邻域聚合过程中增加逆关系三元组，丰富了实体邻域信息，实体特征能够包括更多的邻域信息. 为了说明逆关系三元组的作用，在实体聚合过程对使用逆关系进行对比实验，实验数据使用WN18RR数据集. 所有训练参数和链接预测任务的参数保持一致. 实验结果如表6所示. 可以看出，在实体邻域聚合过程中，使用逆关系三元组的实体相对于不使用逆关系三元组的实体在特征信息上要更丰富，实体吸收邻域三元组信息更多. 通过使用逆关系三元组，在链接预测任务上，正确实体在排序后位于前10的概率有较大的提升.

表 6 逆关系对链接预测结果的影响

Tab.6 Effect of inverse relation on link prediction results

逆关系	MRR	MR	Hits@1	Hits@3	Hits@10
使用	0.414 1	2 628	0.353 7	0.449 6	0.519 8
不使用	0.378 9	3 109	0.335 0	0.404 0	0.453 9

新窗口打开| 下载CSV

4.6. 模型不同部分的影响

为了评估以关系为主导的注意力系数分配、编码器与解码器连接对实验结果的影响，本研究对模型的每个部分进行了对比实验. 实验数据使用Kinship数据集，分别将编码器与解码器连接，再修改编码器部分.

KBGAT+ConvKB模型将编码器和解码器分开训练，模型参数设置参照KBGAT方法中的参数设定值. KBGAT-ConvKB模型将编码器的损失函数去掉，直接将聚合后的实体向量和关系向量输入到解码器中，使用解码器的损失函数进行训练，参数与分开训练时的设定值保持一致. RGGAT-ConvKB模型的编码器部分参数与4.2节RGGAT模型参数设置保持一致，解码器模型参数与前2种模型的参数保持一致. RGGAT-ConvE模型参数与4.2节的参数设置描述保持一致. 实验结果如表7所示. 可以看出，通过改建编码器和解码器的结构，将两者放在同一个损失函数下进行训练，避免了训练目标不一致，能在一定程度上提升实验结果. 而增强以关系为主导的注意力系数分配也在实体邻域聚合的过程中起到了一定的作用.

表 7 在Kinship数据集上的链接预测结果

Tab.7 Link prediction results on Kinship dataset

模型	MRR	Hits@1	Hits@3	Hits@10
KBGAT+ConvKB	0.727 1	0.584 3	0.846 4	0.966 0
KBGAT-ConvKB	0.774 2	0.671 3	0.862 2	0.965 6
RGGAT-ConvKB	0.781 8	0.670 4	0.868 7	0.975 8
RGGAT-ConvE	0.814 5	0.716 0	0.900 8	0.973 9

新窗口打开| 下载CSV

5. 结　语

提出基于关系生成图注意力网络的知识图谱推理方法，对知识图谱进行链接预测. 利用不同类型的关系生成相应的注意力机制参数，邻域三元组按照关系类型使用对应的参数计算注意力系数，每个三元组通过计算得到的注意力系数加权聚合到中心实体上. 实验表明，本研究方法有效改进了图注意力网络在知识图谱推理中的应用，在实体邻域信息丰富和关系数量较多的知识图谱上有一定的优势. 下一步计划研究让实体和关系在不过度平滑的情况下同时融入邻域信息，提升实体和关系之间的交互，进一步提升知识图谱的完整性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

DALTON J, DIETA L, ALLAN J. Entity query feature expansion using knowledge base links [C]// Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. Gold Coast: ACM, 2014: 365-374.