基于关系聚合的时序知识图谱表示学习

doi:10.3785/j.issn.1008-973X.2023.02.003

基于关系聚合的时序知识图谱表示学习

苏丰龙^,, 景宁^,

国防科技大学电子科学学院，湖南长沙 410073

Temporal knowledge graph representation learning based on relational aggregation

SU Feng-long^,, JING Ning^,

School of Electronic Science, National University of Defense Technology, Changsha 410073, China

通讯作者: 景宁,男, 教授. orcid.org/0000-0001-7448-1566. E-mail: jingningnudt@163.com

收稿日期: 2022-08-1

Received: 2022-08-1

作者简介 About authors

苏丰龙（1988—），男，博士，从事知识图谱研究.orcid.org/0000-0002-7595-7516.E-mail:xueshu2021@qq.com , E-mail：xueshu2021@qq.com

摘要

针对静态知识图表示方法不能对时间进行建模的局限性，从时序图谱实际应用的需求出发，设计了基于关系聚合的时序图谱表示学习方法来描述和推理动态知识图谱的时间信息. 与离散的快照时序网络不同，将时间信息视为实体间的链接属性，提出利用时间感知的关系图注意力编码器来学习时序图谱的实体表征. 将中心节点的邻域关系和时间戳融入图结构中，然后分配不同的权重，高效地聚合时间知识. 在公开的时序知识图谱数据集上运行，结果表明,与传统的时序图谱编码框架相比,面向注意力聚合的时序图谱表示学习方法在补全和对齐任务的性能上都有较强的竞争优势,尤其对高时间敏感度实体更加显著，体现出算法的优越性和强鲁棒性.

关键词： 图注意力网络 ; 时序知识图谱 ; 表示学习 ; 时间感知 ; 关系聚合

Abstract

Aiming at the limitation that static knowledge graph representation learning methods cannot model time, a temporal graph representation learning method based on relational aggregation was designed to describe and reason about the temporal information of dynamic knowledge graphs from the demand of practical applications. Different from the discrete snapshot temporal neural networks, temporal information was treated as a link property among entities. A time-aware relational graph attention encoder was used to learn entity representations of temporal knowledge graphs, while the neighborhood relations and time stamps of central nodes were incorporated into the graph structure, and then different weights were assigned to aggregate temporal knowledge efficiently. Results of running on public datasets showed that, compared with traditional temporal graph encoder frameworks, the attention aggregation network had a strong competitive advantage in the performance of both the complementation and alignment tasks, especially for highly time-sensitive entities, reflecting the superiority and strong robustness of the algorithm.

Keywords： graph attention network ; temporal knowledge graph ; representation learning ; time-awareness ; relational aggregation

PDF (772KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

苏丰龙, 景宁. 基于关系聚合的时序知识图谱表示学习. 浙江大学学报(工学版)[J], 2023, 57(2): 235-242 doi:10.3785/j.issn.1008-973X.2023.02.003

SU Feng-long, JING Ning. Temporal knowledge graph representation learning based on relational aggregation. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(2): 235-242 doi:10.3785/j.issn.1008-973X.2023.02.003

知识图谱(knowledge graph, KG)将现实世界的知识抽象为由数十亿个三元组组成的复杂图网络. 每个三元组被表示为〈 ${{e}_{\text{s}}}$, ${r}$, ${{e}_{\text{o}}}$〉，其中 ${{e}_{\text{s}}}$为主体实体， ${{e}_{\text{o}}}$为客体实体，r为实体之间的关系. YAGO、Wikidata和DBpedia这样的大规模KG已经被广泛用于许多人工智能应用中，例如，问答、搜索和自然语言处理. 很多时候，单一的KG远远不够完整，无法拥有足够的事实来支持上述这些应用. 因此，研究者提出了2个基本的KG任务. 1) KG补全，又称链接预测，旨在预测单个KG中不完整事实的缺失实体；2) KG对齐，旨在对齐多个KG中提及同一对象的同等实体对. 为了应对上述挑战，本研究利用知识图谱嵌入(knowledge graph embedding，KGE)方法，将KG中的实体和关系映射到一个低维向量空间中，并根据它们的嵌入来测量三元组成立的概率和实体之间的相似性.

近来，对知识图谱的时间动态的研究引起了越来越多的关注. 一些带有时间性的知识图谱(temporal knowledge graph，TKG)，比如Wikidata、YAGO以及基于事件的数据集（如ICEWS和GDELT知识库）存储了数十亿的带时间的事实. 例如，三元组〈Obama, PresidentOf, USA〉仅从2009年1月到2017年1月有效. 这种附有时间信息的元组被表示为四元组，通常表示为 $\left\langle {e_{\text{s}}} , \;r , \;{e_{\text{o}}} , \; \tau \right\rangle$，其中， $ \tau $为时间戳. 传统的知识图谱嵌入方法无视时间信息，导致对时间性查询的链接预测无效，例如〈?, PresidentOf, USA, 2015〉. 因此，在TKG嵌入学习中怎样表达时间信息值得关注.

Sun等^[1]将KGE方法广泛用于多KG之间的实体对齐(entity alignment, EA)，尤其是基于图神经网络(graph neural network, GNN)的实体对齐方法取得了巨大的成功^[2-4]. 然而，现有的基于嵌入的实体对齐方法都没有考虑时间信息，这就为提高它们在TKG上的对齐性能留下了很大的空间. 另外，以往的动态图模型通常将一个时序图离散成多个具有较高稀疏度的静态图快照，然后利用GNN和递归架构的组合来学习节点嵌入，导致效率低下.

为了解决上述问题，本研究提出了一个用于时序图谱嵌入的时间感知关系图注意力网络(time-aware relational graph attention network, TA-GAT)来学习实体表征，将中心节点的邻域关系和时间戳融入图结构中，然后分配不同的权重，高效聚合时间知识以适应下游任务.

1. 相关工作

1.1. TKG表示学习

HyTE^[5]使用时间表示将每个快照的知识投射到特定时间的超平面，然后在每个超平面中应用 TransE^[6]来学习每个快照的表示. TTransE^[7]首先添加关系表示和时间表示以获得翻译向量，然后使用向量空间将主实体翻译为对象实体. TNTComplEx^[8]将时间知识图视为 4 阶张量，并通过基于时间正则化方案的张量分解来学习 TKG 表示. TA-DistMult^[7]利用时间信息来约束关系表示，并使用数字级长短时记忆网络为每个知识实例构建时间关系表示. DE-DistMult^[9]将实体表示视为与时间戳相关的变量，并根据其对应的时间戳生成实体表示来生成非线性函数. ATiSE^[10]考虑了实体语义的不确定性，学习多维高斯分布空间中的实体表示. 最近，有方法试图通过消息传递机制来学习 TKG 表示. 例如，TeMP^[11]通过结合图神经网络和时间动态模型，提出了一种时间消息传递框架. 然而，以上这些方法假设不同时间发生的知识是独立的，并且在每个快照上分别学习表示，无法捕捉到时序图结构的形成机制.

1.2. 知识图谱对齐

知识图谱对齐是扩大知识图谱覆盖范围的最基本任务之一. 早期技术利用手工制作的特征、众包和基于 OWL 的等价推理来解决 EA问题. 由于耗费大量人力资源和时间，早期技术逐渐被基于嵌入的模型所取代. 这些方法应用结构学习来获得每个实体的密集嵌入，然后通过对齐模块将这些嵌入映射到统一的向量空间中. 最后，实体之间的成对距离决定了它们是否对齐. 根据使用的实体特征，知识图谱对齐方法可以分为2类：基于关系的方法和基于属性增强的方法. 前者使用知识图谱的关系结构进行表示学习. 主流技术包括翻译模型^[12-13]、循环神经网络模型^[14]和图神经网络模型^[2-3]. 除了基于关系结构的表示学习之外，有部分方法提出使用属性增强的附加信息，如摘要^[15]、图片^[16]以及其他典型属性来增强EA的学习，效果也很显著. 但是，目前没有任何工作来研究 TKG 之间的实体对齐，并且当前基于 GNN 的 TKGE 方法与 EA 设置并不兼容.

2. 问题定义

形式上，TKG表示为G=〈 $ E,R,T,Q $〉，其中E、R、T和Q分别为实体、关系、时间戳和四元组的集合. TKG的补全是时序图谱嵌入的一项基本任务. 给定一个TKG，它的目的是预测给定的对象实体 $ {e_{\text{o}}} $〈 $ {e_{\text{s}}} $, $ r $, $ ? $, $ \tau $〉，或者预测给定的主实体 $ {e_{\text{s}}} $〈 $ ? $, $ r $, $ {e_{\text{o}}} $, $ \tau $〉，其中 $ {e_{\text{o}}} $、 $ {e_{\text{s}}} $∈E， $ r $∈R， $ \tau $∈T.

假设，G₁=〈 $ {E_1},{R_1},{T_1},{Q_1} $〉和G₂=〈 $ {E_2},{R_2},{T_2}, {Q_2} $〉是2个TKG，P= { $ \left( {{e_{i1}},{e_{i2}}} \right)|{e_{i1}} \in {E_1},{e_{i2}} \in {E_2} $}为G₁和G₂之间预先对齐的实体对集合. 大多数事件图谱中的时间戳都以类似的阿拉伯数字格式呈现，可以通过手动统一其格式来轻松对齐，因此可以构建一个统一的时间集 $ {T^*} $= $ {T_{\text{1}}} $∪ $ {T_{\text{2}}} $，2个TKG可以更新为G₁=〈 $ {{E}_{\text{1}}}{,}{{R}_{\text{1}}}{,}{{T}^{*}}{,}{{Q}_{\text{1}}} $〉和G₂=〈 $ {E_2},{R_2},{T^*},{Q_2} $〉共享同一组时间戳. 时间感知实体对齐的任务旨在根据对齐种子P和时间信息 $ {T^*} $的先验知识，在G₁和G₂之间找到新的对齐实体对.

3. 基于图注意力聚合的时序知识表征

3.1. 整体框架

本研究提出的方法可以分为2个子结构：基于TA-GAT的编码器和面向任务的解码器（TKGC解码器和EA解码器），如图1(a)所示，分别对应着TKGC和EA这2个下游任务. 具体来说，TA-GAT编码器主要包括2部分：一个时间感知的实体表示和一个时间感知的自我注意机制. 值得注意的是，当研究下游EA任务时，TKG1和TKG2的底层编码都是TR-GAT，然后统一汇集到EA解码器中，该数据流向如图中斜线箭头所示. 详细的时间感知自注意力机制结构（TA-GAT）可以参考图1(b).

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 用于 TKG 补全和时间感知 EA 的 TA-GAT 模型框架

Fig.1 Framework of TA-GAT models for TKG completion and time-aware EA

3.2. TA-GAT编码器

TA-GAT编码器包括一个生成时间感知的实体特征输入层和多个时间感知的注意力层. 设第L个注意力层的实体 $ {e_i} $的输出特征为 ${\boldsymbol{h}}_{{e_i}}^{{\text{out}}\left( L \right)}$，将 $ {e_i} $的最终实体表示定义为

(1) $ {{\boldsymbol{z}}}_{{e}_{i}}=\left[{{\boldsymbol{h}}}_{{e}_{i}}^{\text{out}\left(0\right)}\parallel {{\boldsymbol{h}}}_{{e}_{i}}^{\text{out}\left(1\right)}\parallel \cdots \parallel {{\boldsymbol{h}}}_{{e}_{i}}^{\text{out}\left(L\right)}\right] . $

式中：L为注意力层的数量， $ {\boldsymbol{h}}_{{e_i}}^{{\text{out}}\left( 0 \right)} $= $ {\boldsymbol{h}}_{{e_i}}^{{\text{in}}} $为输入实体特征，||表示连接运算符.

3.2.1. 时间感知的实体表示

时间事实〈 $ {e_{\text{s}}} $, $ r $, $ {e_{\text{o}}} $, $ \tau $〉中的时间信息 $ \tau $可以用各种形式表示，例如，时间点或者时间间隔. 一个时间间隔的形状是[ $ {\tau _{\text{b}}} $, $ {\tau _{\text{e}}} $]，其中 $ {\tau _{\text{b}}} $和 $ {\tau _{\text{e}}} $分别表示该事实的实际开始时间和结束时间. 一个时间点可以表示为[ $ {\tau _{\text{b}}} $, $ {\tau _{\text{e}}} $]，其中 $ {\tau _{\text{b}}} $= $ {\tau _{\text{e}}} $. 将仅含有一个开始或结束时间点的时间间隔表示为[ $ {\tau _{\text{b}}} $, $ {\tau _0} $]或[ $ {\tau _0} $, $ {\tau _{\text{e}}} $]，其中 $ {\tau _0} $∈T^*为时间集合中的第1个时间步骤，表示未知时间信息.

为了整合关系方向，为每个关系 $ r $创建一个反向关系 $ {r^{ - 1}} $，并扩展关系集R = { $ {r_0} $， $ {r_1}, \cdots , {r_{\left| R \right| - 1}} $}→{ $ {r_0} $， $ r_0^{ - 1}, \cdots, {r_{\left| R \right| - 1}} $， $r_{|R| - 1}^{ - 1}$}，其中|R|为关系集合中元素的数量. 而每个事实〈 $ {e_{\rm{s}}} $， $ r $， $ {e_{\text{o}}} $, [ $ {\tau _{\text{b}}} $， $ {\tau _{\rm{e}}} $]〉被分解成2个四元组〈 $ {e_{\rm{s}}} $， $ r $， $ {e_{\text{o}}} $， $ {\tau _{\text{b}}} $〉和〈 $ {e_{\rm{s}}} $， $ {r^{ - 1}} $， $ {e_{\text{o}}} $， $ {\tau _{\rm{e}}} $〉，分别处理关系的开始和结束.

将TKG中的所有实体、关系(包括反向关系)和时间步骤映射到一个向量空间 ${{\bf{R}}^d}$中，其中d表示向量空间的维度. 实体 $ {e_i} $、关系 $ {r_j} $、时间步骤 $ {\tau _m} $的嵌入分别表示为 $ {{\boldsymbol{h}}_{{e_i}}} $、 $ {{\boldsymbol{h}}}_{{r}_{j}} $、 ${{\boldsymbol{h}}_{{\tau _m}}}$∈ ${{\bf{R}}^d}$. 为了将关系信息和时间信息都嵌入到实体表示中，首先对每个实体和其邻近实体的嵌入进行平均，然后将平均实体嵌入与实体邻域的内向链接的特征连接起来. 如图1（a）所示为对TKG补全和时间感知EA的模型框架的整体描述，如图1（b）所示为节点 $ {e_1} $的时间感知自注意力机制模型，其中弯曲的箭头表示对应于其邻居节点的注意力计算方式. 准确地说，实体 $ {e_1} $附近的内向链接包括〈 $ {e_2} $, $ {r_1} $, $ {e_{\text{1}}} $, $ {\tau _{{\text{1b}}}} $〉和〈 $ {e_3} $, $ r_2^{ - 1} $, $ {e_{\text{1}}} $, $ {\tau _{{\text{2e}}}} $〉，其中，内向链接特征是由当前节点的所有1跳关系嵌入加上时间戳嵌入组合而成的. 实体 $ {e_i} $的时间感知表示 $ {\boldsymbol{h}}_{{e_i}}^{{\text{in}}} $可以表述为

(2) $ {\boldsymbol{h}}_{{e_i}}^{{\text{in}}} = \left[ {\frac{1}{{\left| {N_i^{\rm{e}}} \right| + 1}}\mathop \sum \limits_{{e_j} \in N_i^{\rm{e}} \cup \left\{ {{e_i}} \right\}} {{\bar{\boldsymbol{h}}}_{{e_j}}}\parallel \frac{1}{{\left| {N_i^{\rm{r}}} \right|}}\mathop \sum \limits_{{r_j} \in N_i^{\rm{r}}} {{\bar{\boldsymbol{h}}}_{{r_j}}}\parallel \frac{1}{{\left| {N_i^{\text{τ}} } \right|}}\mathop \sum \limits_{{\tau _j} \in N_i^{\text{τ}} } {{\bar{\boldsymbol{h}}}_{{\tau _j}}}} \right]. $

式中： $N_i^{\rm{e}}$为 $ {e_i} $的1跳邻居的相邻实体集合， $N_i^{\rm{r}}$和 $N_i^{\text{τ}}$为向内连接到 $ {e_i} $的关系和时间戳集合； ${{\bar{\boldsymbol{h}}_{{e_i}}}}$、 ${{{\bar{\boldsymbol{h}}}_{{r_i}}}}$和 ${{{\bar{\boldsymbol{h}}}_{{{\tau}_i}}}}$分别表示所涉及的实体嵌入、关系嵌入和时间嵌入的平均值.

3.2.2. 时间感知的自注意力机制

时间感知的自注意力机制旨在将时间和关系信息整合到实体嵌入中，根据节点间内向链接的时间和关系特征，为不同的相邻节点分配不同的权重. 对相邻实体 $ {e_j} $到 $ {e_i} $的加权重要性 $ \;{\beta _{i,j}} $定义如下：

(3) $ {\beta _{i,j}} = {{\boldsymbol{\omega}} ^{\text{T}}}\left[ {{\boldsymbol{h}}_{{e_i}}^{{\text{in}}}{\boldsymbol{h}}_{{e_j}}^{{\text{in}}}\mathop \sum \limits_{{r_m} \in L_{ij}^{\rm{r}}} \frac{{{{\boldsymbol{h}}_{{r_m}}}}}{{\left| {L_{ij}^{\rm{r}}} \right|}}\mathop \sum \limits_{{\tau _m} \in L_{ij}^\text{τ} } \frac{{{{\boldsymbol{h}}_{{\tau _m}}}}}{{\left| {L_{ij}^\text{τ} } \right|}}} \right]. $

式中： ${\boldsymbol{\omega}}$∈ ${{\bf{R}}^{8d}}$为一个共同注意力的权重向量， $L_{ij}^{\rm{r}}$和 $L_{ij}^\text{τ}$分别表示从 $ {e_j} $到 $ {e_i} $的链接中的关系和时间戳的集合.

按照原始的GAT的做法，使用LeakyReLU激活函数, 定义 ${\alpha _{i,j}}$为实体 $ {e_i} $到 $ {e_j} $的连接性：

(4) $ {\alpha }_{i,j}=\frac{\mathrm{exp}\;\left(\text{LeakyReLU}\left({\beta }_{i,j}\right)\right)}{{{\displaystyle \sum }}_{{e}_{m}\in {N}_{i}^{{\rm{e}}}\cup \left\{{e}_{i}\right\}}\mathrm{exp}\;\left(\text{LeakyReLU}\left({\beta }_{i,m}\right)\right)}. $

将原始的时间感知实体表征作为第1隐藏层中实体的输入特征. 而输出特征 ${\boldsymbol{h}}_{{e_i}}^{{\text{out}}}$是由相邻实体的输入特征和非线性激活函数 $ \sigma (\cdot) $线性组合得到的，表达式如下：

(5) $ {{\boldsymbol{h}}}_{{e}_{i}}^{\text{out}}=\sigma \left(\frac{1}{M}{\displaystyle \sum }_{m=1}^{M}\left[{{\displaystyle \sum }}_{{e}_{j}\in {{N}}_{i}^{{\rm{e}}}\cup \left\{{e}_{i}\right\}}{a}_{i,j}^{m}{{\boldsymbol{h}}}_{{e}_{j}}^{\text{in}}\right]\right). $

式中：M为注意力头的数量， $a_{i,j}^m$为由第m个注意力机制计算的归一化系数. 与GAT一样，利用平均化的多头注意力机制来稳定自注意力机制的学习过程.

3.3. 时间感知的时序图谱补全

为了进行TKG补全，首先使用一个基于TA-GAT层的编码器，将图内邻域信息整合到实体表示 ${{\boldsymbol{z}}_{{e_{\text{s}}}}}$中. 然后使用Lacroix等^[8]定义的得分函数，将四元组的得分定义如下：

(6) $ \phi \left( {{e_{\rm{s}}},r,{e_{\rm{o}}},\tau } \right) = {\rm{TKGC}}\left( {{{\boldsymbol{z}}_{{e_{\rm{s}}}}},{{\boldsymbol{z}}_r},{{\boldsymbol{z}}_{{e_{\rm{o}}}}},{{\boldsymbol{z}}_\tau }} \right). $

式中： $ \phi (\cdot) $表示四元组〈 $ {e_{\text{s}}} ,\; r,\; {e_{\text{o}}},\;\tau $〉的得分，TKGC表示解码函数， ${{\boldsymbol{z}}_{{e_{\rm{s}}}}}$和 ${{\boldsymbol{z}}_{{e_{\rm{o}}}}}$为主体和客体的实体表征， $ {{\boldsymbol{z}}_r} $和 $ {{\boldsymbol{z}}_\tau } $为关系r和时间戳τ的学习嵌入. 值得注意的是，首先通过减小嵌入维度，即k=d/2，将 ${{\boldsymbol{z}}_{{e_{\rm{s}}}}}, {{\boldsymbol{z}}_r},{{\boldsymbol{z}}_{{e_{{\rm{o}}}}}},{{\boldsymbol{z}}_\tau }$从实向量空间 ${{\bf{R}}^d}$映射到复向量空间 ${{\bf{C}}^k}$. 对于每个min-batch ${Q_{\text{b}}} \subseteq $Q，遵循TNTComplEx的设置，对嵌入和时间平滑采用N3正则化，并定义了完整的多类对数最大损失函数，表达式如下：

(7) $ \begin{split} {{\rm{Loss}}}=\;&\frac{1}{b}\displaystyle\sum_{\left(e_{\rm{s}}, r, e_{\rm{b}}, \tau\right) \in Q_{\mathrm{b}}} \left[-\ln \left(\frac{\exp\; \left(\phi\left(e_{\mathrm{s}}, r, e_{\rm{o}}, \tau\right)\right)}{\displaystyle\sum_{e_{\rm{o}}^{\prime} \in E} \exp \;\left(\phi\left(e_{\mathrm{s}}, r, e_{\mathrm{o}}^{\prime}, \tau\right)\right)}\right)-\right.\\ &\ln \left(\frac{\exp\; \left(\phi\left(e_{\mathrm{s}}, r, e_{\rm{o}}, \tau\right)\right)}{\displaystyle\sum_{e_{\rm{s}}^{\prime} \in E} \exp \;\left(\phi\left(e_{\mathrm{s}}^{\prime}, r, e_{\mathrm{o}}, \tau\right)\right)}\right)+\\ &\lambda_{\mathrm{b}}\left(\left\|{\boldsymbol{z}}_{e_{\rm{s}}}\right\|_3^3+\left\|{\boldsymbol{z}}_{r}\right\|_3^3+\left\|{\boldsymbol{z}}_{e_{\rm{o}}}\right\|_3^3+\left\|{\boldsymbol{z}}_\tau\right\|_3^3\right)\Bigg]+\\ &\lambda_\text{τ} \displaystyle\sum_{i=1}^{|T|-1}\left\|{\boldsymbol{z}}_{\tau_{i+1}}-{\boldsymbol{z}}_{\tau_i}\right\|_3^3.\\[-15pt] \end{split}$

式中：b表示批次大小； $ {\lambda _{\text{b}}} $表示N3正则化权重； $ {\lambda _{\text{τ }}} $表示时间平滑性的正则化系数，用于促进相邻的时间戳产生相近的表示.

3.4. 时间感知的实体对齐

时间感知的EA模型通过将实体的种子推到一起，促使2个TKG嵌入到一个统一的向量空间. 在这项工作中，时间感知的EA模型包括一个TA-GAT编码器和一个衡量实体表征之间相似性的翻译解码模块.

实体排列的预测是基于来自2个TKG的实体的最终输出特征之间的距离. 对于来自不同源的2个实体 $ {e_i} $∈ $ {E_1} $和 $ {e_j} $∈ $ {E_2} $，使用L₁范数来衡量它们之间的距离：

(8) $ d\left( {{e_i},{e_j}} \right) = \parallel {{\boldsymbol{z}}_{{e_i}}} - {{\boldsymbol{z}}_{{e_j}}}{\parallel _{\text{1}}}. $

边际损失用作EA的优化目标：

(9) $ \begin{split} {\rm{Loss}} =& \mathop \sum \nolimits_{\left( {{e_i},\;{e_j}} \right) \in P} \mathop \sum \nolimits_{\left( {{e_i},\;e_j'} \right),\left( {e_i',\;{e_j}} \right) \in P'}\\ &\left[ {\sigma \left( {d\left( {{e_i},{e_j}} \right)+\gamma - d\left( {{e_i},e_j'} \right)} \right)} \right. +\\ & \left. {\sigma \left( {d\left( {{e_i},{e_j}} \right)+\gamma - d\left( {e_i',{e_j}} \right)} \right)} \right]. \end{split} $

式中： $\gamma $表示间隔超参数， $P'$为生成的负样本集合， ${e_i}{{'}}$∈E₁和 ${e_j}{{'}}$∈E₂分别为 $ {e_i} $和 $ {e_j} $的负实体. 负实体是随机抽样的，并使用Adam优化器来最小化损失函数. 在测试过程中，采用CSLS^[17]来衡量实体嵌入之间的相似性.

4. 实验结果及分析

将TKG补全和时间感知EA看作排名任务，并使用平均倒数排名占比(MRR)和链接预测中排名小于n的三元组的平均占比Hits@n(n=1，3，10)作为评价指标. 为了避免可能存在的评价缺陷，对TKG的补全采用了时间感知的过滤设置.

对于TKG的补全，将本研究所提方法与几个最先进的TKG补全方法进行比较，包括TTransE^[7]、 HyTE^[5]、 TA-DistMult^[9]、DE-SimplE^[9]、TNTComplEx^[8]、TeMP^[11]和ChronoR^[18]. 对于TKG的对齐，选择了MTransE^[12]、JAPE^[19]、AlignE^[20]、 GCN-Align^[3]、MuGNN^[21]、 MRAEA^[2]和RREA^[22]作为比较模型.

参数设定：1）TKG 补全，遵循TNTComplEx和 ChronoR的设置. 为了公平比较，手动选择嵌入维度. 正则化权重 $ {\lambda _{\text{b}}} $和 $ {\lambda _{\text{τ }}} $在{0, 0.001, 0.005, 0.010, 0.050, $\cdots, $ 10.000}内调整. 固定批量大小b=1000、多头注意力机制的数量M=2、注意层的数量L=1、dropout=0.3. 采用 early-stop设置，并固定最大 epoch 数为150. 2）TKG对齐， TR-GAT最优配置如下：对于DICEWS-1K和DICEWS-200，k=100， $\gamma $=1；对于 YAGO-WIKI50K和YAGO-WIKI20K，k=100， $\gamma $=0. 其余的基线模型选用各自文章的默认参数.

4.1. 数据集

TKG补全数据集，包括ICEWS14、ICEWS05-15和GDELT-500. 其中，前2个数据集是Integrated Crisis EarlyWarning System (ICEWS)的子集. ICEWS14包含从2014年1月1日—2014年12月31日的事件事实，而ICEWS15-05是发生在2005年1月1日—2015年12月31日的事件集合的子集. 其中，ICEWS数据集中的每个事实都涉及一个时间点作为其时间戳. 另一个GDELT-500是Global Database of Events, Language, and Tone (GDELT)数据集的子集，存储了从 1979 年开始的人类事件知识. GDELT-500数据集包含时间戳2015 年 4 月 1 日— 2016 年 3 月 31 日之间的事件，包括 500个最常见实体和 20个最常见关系. 关于TKGC数据集的更多细节详见表1. 表中，Num为数量.

表 1 关于 TKGC 数据集的统计信息

Tab.1 Statistical information about TKGC datasets

数据集	Num							时间戳
数据集	节点	关系	时间点	训练	验证	测试	四元组	时间戳
ICEWS14	7128	230	365	72826	8941	8963	90730	2014
ICEWS05-15	10488	251	4017	386962	46275	46092	479329	2005—2015
GDELT-500	500	20	366	2735685	341961	341961	3419607	2015.04.01—2016.03.31

新窗口打开| 下载CSV

从ICEWS05-15中建立了2个数据集DICEWS-1K和DICEWS-200，其方法与Zhu等^[13]构建DFB数据集的方法类似. 此外，从Wikidata和YAGO提取了YAGO-WIKI50K数据集（包含约50000个实体对和5000个种子）和YAGO-WIKI20K数据集（包含约20000个实体对和400个种子），每个事实都带有时间信息. 值得注意的是，YAGO-WIKI数据集中的时间戳以各种形式出现，包括时间点、开始或结束时间、时间间隔等. 如表2所示为时间感知知识图谱对齐数据集的统计情况.

表 2 时间感知实体对齐数据集

Tab.2 Statistics of time-aware EA datasets

数据集	Num
数据集	节点1	节点2	关系1	关系2	时间戳	四元组1	四元组2	实体对	种子
DICEWS-1K/DICEWS-200	9517	9537	247	246	4017	307552	307553	8566	1000/200
YAGO-WIKI50K	49629	49222	11	30	245	221050	317814	49172	5000
YAGO-WIKI20K	19493	19929	32	130	405	83583	142568	19462	400

新窗口打开| 下载CSV

4.2. 主要结果

如表3所示为3个数据集的补全结果. 图中，双下滑线表示最优结果，单下滑线表示次优结果. 与浅层基线模型TNTComplEx（其解码功能与本研究的TKG补全模型相同）相比，TA-GAT在ICEWS 14和ICEWS05-15的所有指标上都取得了明显的改进. 在GDELT-500上，TA-GAT在所有指标上都优于选择的基线模型. 总的来说，TA-GAT在ICEWS14和GDELT-500的MRR、Hits@1、Hits@ 3方面均取得了最先进的结果. 在ICEWS05-15上，TA-GAT取得了最好的Hits@1，虽然在其他指标方面不是最优，但是也很有竞争力. 与次优结果相比，TA-GAT在3个数据集的Hits@1方面分别获得了1.92%、0.17%和0.66%的改进.

表 3 TA-GAT在时序知识图谱上的补全结果

Tab.3 Complementary results of TA-GAT on temporal knowledge graphs

模型	ICEWS14				ICEWS05-15				GDELT-500
模型	MRR	Hit@1	Hit@3	Hit@10	MRR	Hit@1	Hit@3	Hit@10	MRR	Hit@1	Hit@3	Hit@10
TTransE	0.255	0.074	−	0.601	0.271	0.084	−	0.616	0.115	0.000	0.160	0.318
HyTE	0.297	0.108	0.416	0.655	0.316	0.116	0.445	0.681	0.118	0.000	0.165	0.326
TA-DistMult	0.477	0.363	−	0.686	0.474	0.346	−	0.728	0.206	0.124	0.219	0.365
DE-SimplE	0.526	0.418	0.592	0.725	0.513	0.392	0.578	0.748	0.230	0.141	0.248	0.403
TeMP-SA	0.607	0.484	0.684	$\underline{\underline {\boldsymbol{0.840} } } $	$ \underline{\underline {\boldsymbol{0.680} } }$	0.553	$\underline{\underline {\boldsymbol{0.769} } } $	$\underline{\underline {\boldsymbol{0.913 } } }$	0.232	0.152	0.245	0.377
TNTComplEx	0.620	0.520	0.660	0.760	0.670	0.590	0.710	0.810	−	−	−	−
ChronoR	0.625	0.547	0.669	0.773	0.675	0.596	0.723	0.820	−	−	−	−
TA-GAT	$\underline{\underline {\boldsymbol{0.637} } }$	$\underline{\underline {\boldsymbol{0.556} } } $	$\underline{\underline {\boldsymbol{0.685} } } $	0.790	0.676	$\underline{\underline {\boldsymbol{0.597} } } $	0.720	0.816	$\underline{\underline {\boldsymbol{0.241} } } $	$\underline{\underline {\boldsymbol{0.153} } } $	$\underline{\underline {\boldsymbol{0.252} } } $	$\underline{\underline {\boldsymbol{0.421} } } $

新窗口打开| 下载CSV

如表4所示为本研究提出的模型和所有基线在DICEWS和YAGO-WIKI50K数据集上的实体对齐结果. 表中，Imp为最优结果与次优结果的差值除以次优结果的百分比. 可以看出，TA-GAT在3个TKG数据集上的所有指标都明显优于所有基线模型的. 与RREA相比，TA-GAT在3个TKG数据集的Hits@1方面分别获得了21.33%、23.67%和5.19%的改进.

表 4 TA-GAT在时序知识图谱上的对齐结果

Tab.4 Alignment results of TA-GAT on temporal knowledge graphs

模型	DICEWS-1K			DICEWS-200			YAGO-WIKI50K
模型	MRR	Hits@1	Hits@10	MRR	Hits@1	Hits@10	MRR	Hits@1	Hits@10
MTransE	0.150	0.101	0.241	0.104	0.067	0.175	0.322	0.242	0.477
JAPE	0.198	0.144	0.298	0.138	0.098	0.210	0.345	0.271	0.488
AlignE	0.593	0.508	0.751	0.303	0.222	0.457	0.800	0.756	0.883
GCN-Align	0.291	0.204	0.466	0.231	0.165	0.363	0.581	0.512	0.711
MuGNN	0.617	0.525	0.794	0.412	0.367	0.583	0.808	0.762	0.890
MRAEA	0.745	0.675	0.870	0.564	0.476	0.733	0.848	0.806	0.913
RREA	0.780	0.722	0.883	0.719	0.659	0.824	0.868	0.828	0.938
TU-GAT	0.748	0.681	0.870	0.576	0.489	0.739	0.815	0.767	0.902
TA-GAT	$\underline{\underline {\boldsymbol{0.900} } } $	$\underline{\underline {\boldsymbol{0.876} } } $	$\underline{\underline {\boldsymbol{0.942} } } $	$\underline{\underline {\boldsymbol{0.849} } } $	$\underline{\underline {\boldsymbol{0.815} } } $	$\underline{\underline {\boldsymbol{0.909} } } $	$\underline{\underline {\boldsymbol{0.903} } } $	$\underline{\underline {\boldsymbol{0.871} } } $	$\underline{\underline {\boldsymbol{0.959} } } $
Imp/%	15.38	21.33	6.68	18.08	23.67	10.31	4.03	5.19	2.23

新窗口打开| 下载CSV

为了研究嵌入时间信息的效果，测试了TA-GAT的无时间感知的变体，TU-GAT. 它使用静态关系注意力机制来捕获实体之间的关系信息，包括关系类型和关系方向. 如表4所示，TU-GAT优于除RREA之外的大多数基线模型，同时可以看出，TA-GAT相对于TU-GAT的改进在种子较少的数据集上更为显著. 具体来说，TA-GAT在DICEWS-200上的MRR提高了18.08%，而在DICEWS-1K和YAGO-WIKI50K上的提高只有15.38%和4.03%.

4.3. 敏感性分析

对具有不同时间敏感度的EA结果进行研究. 生成一个混合数据集YAGO-WIKI20K，其中17.5%的YAGO事实和36.6%的Wikidata事实都是非时间性的. 根据对时间信息的敏感度，将该数据集中的所有测试实体对分为2类，即高时间敏感度实体对和低时间敏感度实体对. 单个实体 $ {e_i} $的时间敏感度 $ {S_i} $被定义为其时间感知的链接数量与它附近的所有链接集合 ${L_i}$的总数的比率，即

(10) $ {S_i} = 1 - {{\left| {L_i^{{\tau _0}}} \right|}}/{{\left| {{L_i}} \right|}}. $

式中： $L_i^{{\tau _0}}$表示连接 $ {e_i} $的无时间感知的链接集合. 给定 $ {G_1} $和 $ {G_2} $之间的一对实体对( $ {e_{i1}} $, $ {e_{i2}} $)，如果 $ {S_{i1}} $≥ 0.5且 $ {S_{i2}} $≥ 0.5，称它们为高时间敏感的实体对.

在YAGO-WIKI20K的19062个测试实体对中，根据上述定义，其中6898个实体是高时间敏感的，其余是低时间敏感的. 如表5所示为TA-GAT和TU-GAT在高时间敏感度测试集和低时间敏感度测试集上的EA结果. 可以看出，TA-GAT和TU-GAT在低时间敏感度的实体对上有接近的表现，而在高时间敏感度的测试集上，TA-GAT明显优于TU-GAT. 换句话说，当待对齐实体对的时间敏感度较高时，引入时间信息后EA的效果更为显著.

表 5 YAGO-WIKI20K在不同时间敏感度数据集上的EA结果

Tab.5 EA results of YAGO-WIKI20K on different time-sensitive data sets

模型	高时间敏感度			低时间敏感度			总计
模型	MRR	Hits@1	Hits@10	MRR	Hits@1	Hits@10	MRR	Hits@1	Hits@10
TA-GAT	0.805	0.797	0.892	0.331	0.284	0.419	0.503	0.470	0.590
TU-GAT	0.700	0.639	0.818	0.314	0.264	0.411	0.454	0.400	0.558

新窗口打开| 下载CSV

5. 结　论

研究时序图谱的表征学习，提出TA-GAT框架，以时间感知的方式学习关系图，弥补了以往使用注意力机制和图神经网络框架的缺陷，在时序图谱对齐和补全中取得了有竞争力的结果.

（1）针对现有的实体对齐模型忽略时间属性的问题，提出利用时间感知的自我注意力机制来建立时序关系图模型，并且能够较好地适应各种形式的时序图谱数据集，可以执行不同的TKG学习任务.

（2）针对以往的时间感知的GNN模型训练效率低下的问题，提出将时间戳视作节点间链接的属性来形成高效的训练，进而提升下游任务性能.

（3）首次将时间信息整合到实体对齐任务中的工作. 实验表明，本研究的方法在TKG补全和TKG对齐方面取得了有竞争力的结果，尤其在时间敏感度较高的实体对齐任务上效果尤其显著.

本研究在对齐的时候依旧使用了大量的人工标注的种子，与现实生产要求还有一定差距，并且时间知识的利用还可以再做进一步拓展. 后续本研究将在更加稀疏和高异质性的时序图谱表征方向上做进一步的研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SUN Z, ZHANG Q, HU W, et al

A benchmarking study of embedding-based entity alignment for knowledge graphs

[J]. Proceedings of the VLDB Endowment, VLDBJ, 2020, 13 (11): 2326- 2340

[本文引用: 1]

[2]

MAO X, WANG W T, LAN M, et al. MRAEA: an efficient and robust entity alignment approach for cross-lingual knowledge graph [C]// The 13th ACM International Conference on Web Search and Data Mining. Houston: ACM, 2020: 420-428.

[本文引用: 3]

[3]

WANG Z, LV Q, LAN X, et al. Cross-lingual knowledge graph alignment via graph convolutional networks [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018: 349-357.

[本文引用: 2]

[4]

WU Y, LIU X, FENG Y, et al. Jointly learning entity and relation representations for entity alignment [M]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Hong Kong: Association for Computational Linguistics, 2019: 240-249.

[本文引用: 1]

[5]

DASGUPTA S S, RAY S N, TALUKDAR P P. Hyte: hyperplane-based temporally aware knowledge graph embedding [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018: 2001-2011.

[本文引用: 2]

[6]

BORDES A, USUNIER N, GARCÍA-DURÁN A, et al. Translating embeddings for modeling multi-relational data [C]// 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe: [s.n.], 2013: 2787-2795.

[本文引用: 1]

[7]

GARCÍA-DURÁN A, DUMANCIC S, NIEPERT M. Learning sequence encoders for temporal knowledge graph completion [M]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018: 4816-4821.

[本文引用: 3]

[8]

LACROIX T, OBOZINSKI G, USUNIER N. Tensor decompositions for temporal knowledge base completion [C]// 8th International Conference on Learning Representations. Addis Ababa: [s.n.], 2020.

[本文引用: 3]

[9]

GOEL R, KAZEMI S M, BRUBAKER M A, et al. Diachronic embedding for temporal knowledge graph completion [C]// The 34th AAAI Conference on Artificial Intelligence. New York: AAAI Press, 2020: 3988-3995.

[本文引用: 3]

[10]

XU C, NAYYERI M, ALKHOURY F, et al. Temporal knowledge graph embedding model based on additive time series decomposition [EB/OL]. [2022-07-15]. https://arXiv.org/abs/1911.07893v1.

[本文引用: 1]

[11]

WU J, CAO M, CHEUNG J C K, et al. Temp: temporal message passing for temporal knowledge graph completion [M]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. [s.l.]: Association for Computational Linguistics, 2020: 5730-5746.

[本文引用: 2]

[12]

CHEN M, TIAN Y, YANG M, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: [s.n.], 2017: 1511-1517.

[本文引用: 2]

[13]

ZHU H, XIE R, LIU Z, et al. Iterative entity alignment via joint knowledge embeddings [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: [s.n.], 2017: 4258-4264.

[本文引用: 2]

[14]

GUO L, SUN Z, HU W. Learning to exploit long-term relational dependencies in knowledge graphs [C]// Proceedings of the 36th International Conference on Machine Learning. Long Beach: PMLR, 2019: 2505-2514.

[本文引用: 1]

[15]

CHEN M, TIAN Y, CHANG K, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment [C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm: [s.n.], 2018: 3998-4004.

[本文引用: 1]

[16]

LIU F, CHEN M, ROTH D, et al. Visual pivoting for (unsupervised) entity alignment [C]// 25th AAAI Conference on Artificial Intelligence. [s.l.]: AAAI Press, 2021: 4257-4266.

[本文引用: 1]

[17]

LAMPLE G, CONNEAU A, RANZATO M, et al. Word translation without parallel data [C]// 6th International Conference on Learning Representations. Vancouver: ICML, 2018.

[本文引用: 1]

[18]

SADEGHIAN A, ARMANDPOUR M, COLAS A, et al. Chronor: rotation based temporal knowledge graph embedding [M]// 35th AAAI Conference on Artificial Intelligence. [s.l.]: AAAI Press, 2021 : 6471-6479.

[本文引用: 1]

[19]

SUN Z, HU W, LI C. Cross-lingual entity alignment via joint attribute-preserving embedding [C]// 16th International Semantic Web Conference. Vienna: Springer, 2017: 628-644.

[本文引用: 1]

[20]

SUN Z, HU W, ZHANG Q, et al. Bootstrapping entity alignment with knowledge graph embedding [C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm: [s.n.], 2018: 4396-4402.

[本文引用: 1]

[21]

CAO Y, LIU Z, LI C, et al. Multi-channel graph neural network for entity alignment [M]// Proceedings of the 57th Conference of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019: 1452-1461.

[本文引用: 1]

[22]

MAO X, WANG W, XU H, et al. Relational reflection entity alignment[C]// The 29th ACM International Conference on Information and Knowledge Management. [s.l.]: ACM, 2020: 1095-1104.

[本文引用: 1]

A benchmarking study of embedding-based entity alignment for knowledge graphs

2020

... Sun等^[1]将KGE方法广泛用于多KG之间的实体对齐(entity alignment, EA)，尤其是基于图神经网络(graph neural network, GNN)的实体对齐方法取得了巨大的成功^[2-4]. 然而，现有的基于嵌入的实体对齐方法都没有考虑时间信息，这就为提高它们在TKG上的对齐性能留下了很大的空间. 另外，以往的动态图模型通常将一个时序图离散成多个具有较高稀疏度的静态图快照，然后利用GNN和递归架构的组合来学习节点嵌入，导致效率低下. ...

... 知识图谱对齐是扩大知识图谱覆盖范围的最基本任务之一. 早期技术利用手工制作的特征、众包和基于 OWL 的等价推理来解决 EA问题. 由于耗费大量人力资源和时间，早期技术逐渐被基于嵌入的模型所取代. 这些方法应用结构学习来获得每个实体的密集嵌入，然后通过对齐模块将这些嵌入映射到统一的向量空间中. 最后，实体之间的成对距离决定了它们是否对齐. 根据使用的实体特征，知识图谱对齐方法可以分为2类：基于关系的方法和基于属性增强的方法. 前者使用知识图谱的关系结构进行表示学习. 主流技术包括翻译模型^[12-13]、循环神经网络模型^[14]和图神经网络模型^[2-3]. 除了基于关系结构的表示学习之外，有部分方法提出使用属性增强的附加信息，如摘要^[15]、图片^[16]以及其他典型属性来增强EA的学习，效果也很显著. 但是，目前没有任何工作来研究 TKG 之间的实体对齐，并且当前基于 GNN 的 TKGE 方法与 EA 设置并不兼容. ...

... 对于TKG的补全，将本研究所提方法与几个最先进的TKG补全方法进行比较，包括TTransE^[7]、 HyTE^[5]、 TA-DistMult^[9]、DE-SimplE^[9]、TNTComplEx^[8]、TeMP^[11]和ChronoR^[18]. 对于TKG的对齐，选择了MTransE^[12]、JAPE^[19]、AlignE^[20]、 GCN-Align^[3]、MuGNN^[21]、 MRAEA^[2]和RREA^[22]作为比较模型. ...

... HyTE^[5]使用时间表示将每个快照的知识投射到特定时间的超平面，然后在每个超平面中应用 TransE^[6]来学习每个快照的表示. TTransE^[7]首先添加关系表示和时间表示以获得翻译向量，然后使用向量空间将主实体翻译为对象实体. TNTComplEx^[8]将时间知识图视为 4 阶张量，并通过基于时间正则化方案的张量分解来学习 TKG 表示. TA-DistMult^[7]利用时间信息来约束关系表示，并使用数字级长短时记忆网络为每个知识实例构建时间关系表示. DE-DistMult^[9]将实体表示视为与时间戳相关的变量，并根据其对应的时间戳生成实体表示来生成非线性函数. ATiSE^[10]考虑了实体语义的不确定性，学习多维高斯分布空间中的实体表示. 最近，有方法试图通过消息传递机制来学习 TKG 表示. 例如，TeMP^[11]通过结合图神经网络和时间动态模型，提出了一种时间消息传递框架. 然而，以上这些方法假设不同时间发生的知识是独立的，并且在每个快照上分别学习表示，无法捕捉到时序图结构的形成机制. ...

... [7]利用时间信息来约束关系表示，并使用数字级长短时记忆网络为每个知识实例构建时间关系表示. DE-DistMult^[9]将实体表示视为与时间戳相关的变量，并根据其对应的时间戳生成实体表示来生成非线性函数. ATiSE^[10]考虑了实体语义的不确定性，学习多维高斯分布空间中的实体表示. 最近，有方法试图通过消息传递机制来学习 TKG 表示. 例如，TeMP^[11]通过结合图神经网络和时间动态模型，提出了一种时间消息传递框架. 然而，以上这些方法假设不同时间发生的知识是独立的，并且在每个快照上分别学习表示，无法捕捉到时序图结构的形成机制. ...

... 为了进行TKG补全，首先使用一个基于TA-GAT层的编码器，将图内邻域信息整合到实体表示

${{\boldsymbol{z}}_{{e_{\text{s}}}}}$

中. 然后使用Lacroix等^[8]定义的得分函数，将四元组的得分定义如下： ...

... [9]、TNTComplEx^[8]、TeMP^[11]和ChronoR^[18]. 对于TKG的对齐，选择了MTransE^[12]、JAPE^[19]、AlignE^[20]、 GCN-Align^[3]、MuGNN^[21]、 MRAEA^[2]和RREA^[22]作为比较模型. ...

... 从ICEWS05-15中建立了2个数据集DICEWS-1K和DICEWS-200，其方法与Zhu等^[13]构建DFB数据集的方法类似. 此外，从Wikidata和YAGO提取了YAGO-WIKI50K数据集（包含约50000个实体对和5000个种子）和YAGO-WIKI20K数据集（包含约20000个实体对和400个种子），每个事实都带有时间信息. 值得注意的是，YAGO-WIKI数据集中的时间戳以各种形式出现，包括时间点、开始或结束时间、时间间隔等. 如表2所示为时间感知知识图谱对齐数据集的统计情况. ...

... 式中：

$\gamma $

表示间隔超参数，

$P'$

为生成的负样本集合，

${e_i}{{'}}$

∈E₁和

${e_j}{{'}}$

∈E₂分别为

$ {e_i} $

和

$ {e_j} $

的负实体. 负实体是随机抽样的，并使用Adam优化器来最小化损失函数. 在测试过程中，采用CSLS^[17]来衡量实体嵌入之间的相似性. ...

〈

〉