时间感知组合的动态知识图谱补全

doi:10.3785/j.issn.1008-973X.2024.08.020

时间感知组合的动态知识图谱补全

李忠良^,, 陈麒, 石琳^,, 杨朝, 邹先明

1. 华北理工大学人工智能学院，河北唐山 063210

2. 河北省工业智能感知重点实验室，河北唐山 063210

Dynamic knowledge graph completion of temporal aware combination

LI Zhongliang^,, CHEN Qi, SHI Lin^,, YANG Chao, ZOU Xianming

1. College of Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China

2. Hebei Key Laboratory of Industrial Intelligent Perception, Tangshan 063210, China

通讯作者: 石琳，女，讲师，博士. orcid.org/0009-0002-2271-4250. E-mail：shilin@ncst.edu.cn

收稿日期: 2023-07-10

Received: 2023-07-10

作者简介 About authors

李忠良（1994—），男，硕士生，从事知识图谱嵌入的研究.orcid.org/0009-0001-2675-1043.E-mail：bbzqlzl@163.com , E-mail：bbzqlzl@163.com

摘要

针对现有时序知识图谱嵌入方法仅考虑时序信息的关系或仅编码独立的时序向量，知识图谱补全性能不高的问题，提出时间感知组合（TAC）的时序知识图谱补全方法. 通过建模维度特征，分析时序信息对知识图谱补全方法的有效程度. 通过时序信息内嵌和独立相结合的嵌入方式，考虑时序信息嵌入后，不同学习方式对表示学习能力产生不同的影响. 提出的方法利用长短时记忆（LSTM）网络编码时序信息，学习到更准确的时间维度特征，有助于提升时序图谱的性能. 在ICEWS14、ICEWS05-15和GDELT数据集上进行实验，验证了时间感知组合方法的有效性. 对比相关的研究性能指标可知，本文方法在链接预测上表现较优.

关键词： 时序知识图谱 ; 注意力机制 ; 长短时记忆(LSTM) ; 时序嵌入

Abstract

A time-aware combination (TAC) method for temporal knowledge graph completion was proposed aiming at the problem that the existing temporal knowledge graph embedding methods only consider the relationship of temporal information or encode independent temporal vectors and the completion performance of these methods is not high enough. The effectiveness of temporal information on knowledge graph completion methods was analyzed by modeling dimensional features. Different learning methods have different effects on the representation learning ability after considering the embedding of temporal information through the embedding method of combining the embedded and independent temporal information. Long short-term memory (LSTM) network was utilized to encode temporal information, learn more accurate temporal dimension features and help to improve the performance of temporal graph. Experiments on ICEWS14, ICEWS05-15 and GDELT datasets verified the effectiveness of the time-aware combination method. The related research performance metrics were compared. Results show that the proposed method performs better in link prediction.

Keywords： temporal knowledge graph ; attention mechanism ; long short-term memory (LSTM) ; temporal embedding

PDF (970KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李忠良, 陈麒, 石琳, 杨朝, 邹先明. 时间感知组合的动态知识图谱补全. 浙江大学学报(工学版)[J], 2024, 58(8): 1738-1747 doi:10.3785/j.issn.1008-973X.2024.08.020

LI Zhongliang, CHEN Qi, SHI Lin, YANG Chao, ZOU Xianming. Dynamic knowledge graph completion of temporal aware combination. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(8): 1738-1747 doi:10.3785/j.issn.1008-973X.2024.08.020

传统的知识图谱仅关注实体之间的静态关系，然而在实际应用中，知识图谱往往包含了时间信息，以表示2个实体之间的关系在特定时间内成立. 为了对时序知识进行感知推理，引入时序知识图谱（temporal knowledge graph，TKG）. TKG以四元组(s，r, o, t)的形式表示事实，描述该事实在时间t内有效，其中s（subject）和o（object）表示实体，r（relation）表示边类型即关系，t（timestamp）表示时间戳，例如（Joe Biden, inauguration, Chief Executive, 2021）. 此外，时间信息可以广泛应用于多个领域的下游任务中，如历史事件的推理^[1]、问答系统^[2]、金融预测^[3]等. 在时序知识图谱表示学习中，实体和关系之间的时间信息常常以嵌入的形式进行表示，嵌入是将时间信息编码成连续向量的技术，可以将时间维度纳入知识图谱中的实体和关系表示中，以便于模型进行时间感知的推理. 时序嵌入方式包括时序内嵌的三元组^[4]及时间独立的四元组^[5]. 随着时间信息的重要性日益凸显，知识图谱的时间感知推理成为知识图谱研究领域的热门研究方向.

在实际应用中，事实性知识和过程性知识往往伴有实时更新的特性，目前，不少知识库都包含时间标记，如全球事件、语言和语调数据库（global database of events, language, and tone，GDELT）^[6]、综合危机预警系统（integrated crisis early warning system，ICEWS）^[7]. 在时序知识图谱中，合理地利用时间信息可以提升知识图谱表示学习的质量，引出知识图谱补全任务，通过给定的已知信息预测主语(?, r, o, t)或宾语(s, r, ?, t). 为了完成时序知识图谱补全的任务，时序知识图谱嵌入^[8]（temporal knowledge graph embedding，TKGE）技术应运而生. 结合时间信息与实体和关系嵌入向量，对推导出的新事实进行评分，从而学习到新的实体关系，以达到增强知识图谱完备性的目的；因此，时序知识图谱嵌入的相关研究具有巨大的应用潜力.

为了学习特定任务的时间和关系嵌入，本文设计时间感知组合（temporal aware composition，TAC）的时序知识图谱嵌入方法. 它将内嵌和独立的2种主流的时序知识图谱嵌入方式组合在一起，提升了嵌入模型在知识图谱补全任务上的性能.

1. 研究现状

1.1. 静态知识图谱嵌入

静态知识图谱嵌入模型着重于如何刻画实体和关系之间的相关性. 常见的静态嵌入模型大致分为加法模型、乘法模型、神经网络模型这3类.

Bordes等^[9]提出的TransE是第一个基于翻译距离的加法模型，将关系建模为头实体到尾实体的翻译，尽管它简单高效，但是不能很好地处理复杂关系. 为了解决该问题，Wang等^[10]提出TransH，该模型将关系建模为超平面，对实体进行平移操作，通过实体在关系平面上的映射，能够处理一对多、多对多、多对一的复杂关系. TransH将实体和关系放到了同一向量空间，不能区分实体和关系的语义. Lin等^[11]提出TransR模型，它将关系建模为实体空间到关系空间的投影矩阵，不仅考虑关系的多样性，而且考虑实体的多样性. TransR模型计算复杂，忽略头实体、尾实体不同的类型和属性. TransD^[12]模型在TransR的基础上，将投影矩阵进一步分解为2个向量的乘积.

乘法模型是根据相似性的评分函数来评价三元组的可信度，其中Nickel等^[13]提出的RESCAL模型是张量分解模型，它在各种规范关系学习任务中表现良好，缺点是包含的参数过多，容易导致模型的过拟合. 为了解决上述问题，Yang等^[14]提出DistMult，它将关系矩阵限制为对角矩阵，减少了模型的参数量，降低了模型过拟合的可能性. DistMult模型的评分函数具有对称性质，不能建模非对称关系. Trouillon等^[15]提出ComplEx，它将实体与关系嵌入到复数空间中，由于复数向量乘法的不对称性，ComplEx可以很好地建模非对称关系.

神经网络模型具有强大的特征捕获能力，它可以通过非线性变换将输入数据的特征分布从原始空间转换到另一个特征空间，并自动学习特征表示. Dettmers等^[16]提出利用二维卷积进行知识图谱嵌入的模型ConvE. 随后，出现了各种利用神经网络进行知识图谱嵌入的工作. Nguyen等^[17]认为ConvE只考虑了主语向量e_s或关系向量e_r中不同维度条目之间的局部关系，没有考虑嵌入三元组(e_s, e_r, e_o)中相同维度条目之间的全局关系，忽略了过渡特征. 为此，Nguyen等提出用于知识库补全的实体和关系嵌入模型ConvKB，它采用CNN编码实体与关系的级联，而不需要重构，与捕捉局部关系的基于二维卷积的ConvE相比，ConvKB利用一维卷积保留了条目间同维度的过渡特征. Schlichtkrull等^[18]提出R-GCN，引入权值共享和系数约束的方法，采用图卷积神经网络解决知识图谱关系型数据的补全任务，包括链接预测和实体分类. CompGCN^[19]设计实体和关系的组合表示算子，在邻居聚合过程中允许各种实体和关系的交互，通过同样的聚合函数完成不同关系类型的邻居实体聚合，具有参数少但灵活的特点.

1.2. 时间内嵌的知识图谱嵌入

时间内嵌的嵌入方法是把时间信息的特征内嵌到实体或关系中，使得实体或关系在建模中含有时间特征. 本质上是将四元组降维成含有时间信息的三元组，使用传统的静态知识图谱嵌入方法开展链接预测任务. t-TransE^[20]是最早利用时间信息的嵌入模型之一，尤其是时间敏感事实中关系的时间顺序会影响时序知识推理. 如果r_i和r_j共享一个主语e_i，且r_i出现在r_j之前，那么先验关系向量r_i可以在时间维度上演化为后续的关系向量r_j. 定义时间顺序评分函数为g(r_i, r_j) = ||r_iM−r_j||₁，其中M为可学习的参数矩阵，用于将输入的关系嵌入向量r_i映射到新的向量空间中，当关系对按时间顺序排列时，预计得分较低，否则得分较高. TA-TransE和TA-DistMult^[21]分别是TransE和DistMult的扩展，其中时间戳向量通过与关系向量进行拼接，得到更好的关系向量表示，然后输入到LSTM并获得它的最终输出，用于表示降维后三元组中的关系. 采用TransE的评分方式，具有以下评分函数：f(s, r, o, t) = ||e_s+ e_rt−e_o||_1/2. 采用DistMult的评分方式，具有以下评分函数：f(s, r, o, t) = (e_s$ \circ $e_o)e_rt^T. 其中e_s、e_o分别为主语和宾语的嵌入，e_rt为关系类型谓词的嵌入，$ \circ $为元素级乘积. HyTE^[22]方法将主语、关系和宾语的嵌入向量投影到特定于时间戳的超平面中，对投影的嵌入应用TransE的评分函数：f(s, r, o, t) = ||P_t(e_s)+P_t(e_r)−P_t(e_o)||，其中P_t(v)为在时间戳t上的实体或关系v的嵌入向量. ATiSE^[23]通过使用加性时间序列分解，将时间信息合并到实体或关系表示中. 每个实体或关系在一个时间步嵌入的平均值显示了当前的预期位置，而它的协方差（在时间上是固定的）表示它的时间不确定性. 综上所述，时序信息内嵌方法已被证明可以取得较好的结果.

1.3. 时间独立的知识图谱嵌入

时间独立嵌入方法是学习四元组(e_s, e_r, e_o, e_t)形式的向量表示，引入独立的时间向量进行相关计算. 具体方法有基于向量的TTransE^[24]模型，该模型将时间戳嵌入单独表示，时间信息、实体和关系表示在相同的向量空间中. TTransE具有较好的可解释性，能够处理多关系的情况，即同一实体对应多个不同的关系，对于链式关系的效果较好，但对于反义关系和对称关系的处理效果较差. TTransE存在过拟合的问题，当知识图谱数据量较小时，模型容易受到噪声的影响，导致效果不佳，评分函数为f(s, r, o, t) = ||e_s+ e_r+ e_t−e_o||_1/2. TComplEx^[25]添加了时间戳嵌入，调制多线性点积. 时间戳可以用于等效的调制主语、谓词或对象，评分函数为f(s, r, o, t) = Re(<e_s, w_r, e_o, w_t>)，其中w为可学习的参数，表示权重矩阵. 在特定的知识库中某些谓词可能不受时间戳的影响，而有些受时间戳的影响，Lacroix等^[25]提出的另一种引入非时间组件的知识图谱表示学习方法，即只允许嵌入组件的一小部分γ在时间上被调制，从而将嵌入向量分解为时间相关的向量和非时间相关的向量2个部分，这种分解称为TNTComplEx^[25]. 这几个模型将时间信息作为独立的向量进行处理.

如表1所示为现有的知识图谱补全方法在相似性理论和知识维度建模方面的差异^[26]. 表中，$ \circ $表示元素级乘积，Re()表示取实部，$* $表示卷积操作，vec为将张量重塑为向量的操作，Ω为卷积核，W为权重矩阵，w为权重向量，concat表示连接操作符，f为非线性函数，σ为sigmoid激活函数，ConvTransE为评分函数，H_t为实体的概率向量，D_KL为基于KL散度的对称相似度度量，P_r,t为关系的概率向量，P_e,t为实体的概率向量. 通过对比可知，适用于动态知识库的补全方法应具备对知识各维信息进行建模的能力，必须充分利用时间特性，以突显时间维度与其他相关维度之间的深层联系.

表 1 用于知识图谱的补全方法对比

Tab.1 Comparison of approaches for knowledge graph completion

补全方法	适用知识库	建模维度	时间特征	时间维度融合	相似性评价函数
TransE	三元组	s,r,o	×	×	$ f\left( {s,r,o} \right) = \left\\| {{{\boldsymbol{e}}_s}+{{\boldsymbol{e}}_r} - {{\boldsymbol{e}}_o}} \right\\| $
DistMult	三元组	s,r,o	×	×	$ f\left( {s,r,o} \right) = \left\langle {{{\boldsymbol{e}}_s},{{\boldsymbol{e}}_r},{{\boldsymbol{e}}_o}} \right\rangle $
ComplEx	三元组	s,r,o	×	×	$ f\left( {s,r,o} \right) = {{\mathrm{Re}}} \left( {\langle {{\boldsymbol{e}}_s},{{\boldsymbol{w}}_r},{{\boldsymbol{e}}_o}\rangle } \right) $
ConvE	三元组	s,r,o	×	×	$ f\left( {s,r,o} \right) = f({\mathrm{vec}}(f([{{\boldsymbol{\bar e}}_s};{{\boldsymbol{\bar r}}_r}] * {\boldsymbol{\varOmega}})){{\boldsymbol{W}}}){{\boldsymbol{e}}_o} $
ConvKB	三元组	s,r,o	×	×	$ f\left( {s,r,o} \right) = {\text{concat}}(f([{{\boldsymbol{e}}_s},{{\boldsymbol{e}}_r},{{\boldsymbol{e}}_o}] * {\boldsymbol{\varOmega}} )) \cdot {\boldsymbol{w}} $
HyTE	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = \left\\| {{P_t}({{\boldsymbol{e}}_s})+{P_t}({{\boldsymbol{e}}_r}) - {P_t}({{\boldsymbol{e}}_o})} \right\\| $
TA-TransE	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = \left\\| {{{\boldsymbol{e}}_s}+{{\boldsymbol{e}}_{{r_{{\mathrm{seq}}}}}} - {{\boldsymbol{e}}_o}} \right\\| $
TA-DistMult	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = ({{\boldsymbol{e}}_s} \circ {{\boldsymbol{e}}_o}){{\boldsymbol{e}}_{{r_{{\mathrm{seq}}}}}}^{\text{T}} $
ST-ConvKB	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = {\text{concat}}(f([{{\boldsymbol{e}}_{{s_t}}},{{\boldsymbol{e}}_r},{{\boldsymbol{e}}_{{o_t}}}] * {\boldsymbol{\varOmega}} )) \cdot {\boldsymbol{w}} $
TTransE	四元组	s,r,o,t	√	×	$ f\left( {s,r,o,t} \right) = \left\\| {{{\boldsymbol{e}}_s}+{{\boldsymbol{e}}_r}+{{\boldsymbol{e}}_t} - {{\boldsymbol{e}}_o}} \right\\| $
TComplEx	四元组	s,r,o,t	√	×	$ f\left( {s,r,o,t} \right) = {{\mathrm{Re}}} (\langle {{\boldsymbol{e}}_s},{{\boldsymbol{w}}_r},{{\boldsymbol{e}}_o},{{\boldsymbol{w}}_t}\rangle ) $
RE-GCN^[27]	四元组	s,r,o	√	√	$ \vec p(o\|s,r,{{\boldsymbol{H}}_t},{R_t}) = \sigma ({{\boldsymbol{H}}_t}{\text{ConvTransE}}({{\boldsymbol{e}}_{{s_t}}},{{\boldsymbol{e}}_{{r_t}}})) $
ATiSE	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = {D_{{\mathrm{KL}}}}({{\boldsymbol{P}}_{r,t}},{{\boldsymbol{P}}_{e,t}}) $
TeRo	四元组	s,r,o	√	√	$ f\left( {s,r,o,t} \right) = \|\|{{\boldsymbol{e}}_{{s_t}}}+{{\boldsymbol{e}}_r} - \overline {{{\boldsymbol{e}}_{ot}}} \|\| $

新窗口打开| 下载CSV

综上所述，尽管静态知识图谱嵌入模型具有较好的推理能力，但对如今实时更新的知识库而言，静态知识图谱对时序信息不敏感，不能很好地建模时序关系，推理时序知识. 为了更好地表示学习动态知识图谱，时序知识图谱嵌入的研究是未来的趋势. 时间内嵌与时间独立的时序知识图谱嵌入方法没有充分利用时间信息，补全性能有待进一步的加强. 亟需新的时序信息嵌入方法来提升时序知识图谱嵌入模型的补全性能. 为此，本文提出TAC方法，解决上述问题.

2. 时间感知组合模型

受文献[4,5]的启发，在进行时间信息内嵌的同时，对时间信息进行了独立表示. 本节将详细描述提出的TAC方法.

2.1. 问题和符号定义

问题1：时间独立. 时间独立是指在三元组的基础上将时序信息独立编码为时序向量，与实体和关系共同组成四元组(s, r, o, t). 时间信息独立的向量表示未考虑时间信息的复用性，忽略了时间与其他维度的潜在联系.

问题2：时间内嵌. 时间内嵌是指实体或者关系的嵌入考虑了时序信息，将时间信息内嵌到关系中，组成三元组(s, r_t, o). 不同的关系会随着时间的变化而变化，如在“出生于—>毕业于—>工作于—>去世于”这种描述关系演变发展的时间顺序链中，引入时间信息能够帮助模型对“出生于”和“去世于”这种语义相似的关系进行更细粒度的区分. 时间内嵌的方式未考虑时间独立表示的优越性，忽略了时间戳对四元组的约束力.

2.2. 方法框架

对于给定的带有时间戳注释的四元组(s, r, o, t)事实，针对时间信息开展如下特殊处理.

为了更方便地处理实际应用中的格式化时间（如2023-06-16），受文献[4]的启发，对时间戳进行特殊处理. 对于给定的（可能是缺失的）时间戳，将其分解为表2所示时间标记组成的序列. 表中， ky: n中k表示年份的一位取值，y为年份标记，n为索引值；im: n中i表示月份的一位取值，m为月份标记，n为索引值；jd: n中j表示天的一位取值，d为天的标记，n为索引值. 例如对于2014-12-01的时间戳，年份2014表示为2y:2，0y:0，1y:1，4y:4. 对于月份与日的标记，本文与文献[4]不同，考虑将月份拆分用2个索引值标记，例如对于12月将其拆分为1m:11和2m:12，对于25日将其拆解为2d:22和5d:25，以此类推.

表 2 时间序列标记

Tab.2 Time series index marker

日期	映射标记
Year	0y:0	1y:1	2y:2	3y:3	4y:4	5y:5	6y:6	7y:7	8y:8	9y:9
Month	0m:10	1m:11	2m:12	3m:13	4m:14	5m:15	6m:16	7m:17	8m:18	9m:19
Day	0d:20	1d:21	2d:22	3d:23	4d:24	5d:25	6d:26	7d:27	8d:28	9d:29

新窗口打开| 下载CSV

考虑将实体s和o的嵌入映射到低维向量空间中，表示为e_s和e_o. 将关系嵌入e_r与时间嵌入e_t拼接得到向量表示e_rt，即e_rt= [e_r: e_t]. e_rt经过通道注意力机制优化学习，在学习过程中有侧重地优化时间维度的向量表示，得到含有注意力权重的关系向量表示e_rta. 将e_rta附加给关系嵌入与时间嵌入拼接的向量表示e_rt= e_rta+e_rt，优化时间内嵌的关系向量表示e_rt. LSTM^[28]的网络结构比RNN复杂，从微观上看，LSTM引入了细胞状态，使用输入门、遗忘门、输出门3种门来保持和控制信息，使得LSTM既能够处理短时依赖问题，又能够处理长时依赖问题. 本文将优化后的关系向量表示e_rt输入到LSTM中，得到含有时间信息的关系表示LSTM(e_rt). 将时间戳e_t输入到LSTM中，得到时间独立向量表示LSTM(e_t). 如图1所示为时间序列组合的嵌入方式，其中LSTM的公式如下.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 时间感知组合的嵌入方式

Fig.1 Embedding method of temporal aware composition

计算3个门：输入门i_t、遗忘门f_t和输出门o_t. 假设当前时刻为t，则输入为x_t，隐藏状态为h_t-1.

(1)$ \left. \begin{gathered} {{\boldsymbol{i}}_t} = \sigma\; ({{\boldsymbol{W}}_{xi}}{{\boldsymbol{x}}_t}+{{\boldsymbol{W}}_{hi}}{{\boldsymbol{h}}_{t - 1}}+{{\boldsymbol{b}}_i}), \\ {{\boldsymbol{f}}_t} = \sigma\; ({{\boldsymbol{W}}_x}_f{{\boldsymbol{x}}_t}+{{\boldsymbol{W}}_{hf}}{{\boldsymbol{h}}_{t - 1}}+{{\boldsymbol{b}}_f}), \\ {{\boldsymbol{o}}_t} = \sigma\; {\boldsymbol{(}}{{\boldsymbol{W}}_{xo}}{{\boldsymbol{x}}_t}+{{\boldsymbol{W}}_{ho}}{{\boldsymbol{h}}_{t - 1}}+{{\boldsymbol{b}}_o}). \\ \end{gathered} \right\} $

式中：b_i、b_f、b_o分别为输入门、遗忘门和输出门的偏置向量.

根据输入门和前一个时刻的单元状态，计算当前时刻的候选值C_t'.

(2)$ {\boldsymbol{C}}_t^{'} = \tanh \;({{\boldsymbol{W}}_{xc}}{{\boldsymbol{x}}_t}+{{\boldsymbol{W}}_{hc}}{{\boldsymbol{h}}_{t - 1}}+{{\boldsymbol{b}}_c}). $

式中：tanh为非线性激活函数.

根据遗忘门、候选值和前一时刻的单元状态，计算当前时刻的单元状态C_t.

(3)$ {{\boldsymbol{C}}_t} = {{\boldsymbol{f}}_t}{{\boldsymbol{C}}_{t - 1}}+{{\boldsymbol{i}}_t}{\boldsymbol{C}}_t^{'}. $

根据输出门和当前时刻t的单元状态，得到当前时刻的隐藏状态向量h_t和预测值（记忆单元状态）y_t.

(4)$ \left. \begin{gathered} {{\boldsymbol{h}}_t} = {{\boldsymbol{o}}_t} \cdot \tanh\; ({{\boldsymbol{C}}_t}), \\ {{\boldsymbol{y}}_t} = {\text{softmax}}\;({{\boldsymbol{W}}_{hy}}{{\boldsymbol{h}}_t}+{{\boldsymbol{b}}_y}). \\ \end{gathered} \right\} $

2.3. 评分函数

模型训练和推理. 在TAC中，将四元组的嵌入表示(e_s, e_r, e_o, e_t)映射成(e_s, LSTM(e_rt), e_o, LSTM(e_t))，使用基于加法和基于乘法的评分函数进行评分，通过最大化正确事实的得分和错误事实的得分之间的差距来进行优化. 具有时间感知能力的TransE、DistMult和SimplE分别称为TAC-TransE、TAC-DistMult和TAC-SimplE，评分函数如下.

基于加法模型的TAC_TransE：

(5)$ f(s,r,o,t) = ||{{\boldsymbol{e}}_s}+{\text{LSTM}}({{\boldsymbol{e}}_{rt}})+{\text{LSTM}}({{\boldsymbol{e}}_t}) - {{\boldsymbol{e}}_o}|{|_2}. $

基于乘法模型的TAC_DistMult：

(6)$ f(s,r,o,t) = ({{\boldsymbol{e}}_s} \circ {{\boldsymbol{e}}_o} \circ {\text{LSTM}}({{\boldsymbol{e}}_t})) \cdot {\text{LSTM}}({\boldsymbol{e}}_{rt}^{\text{T}}). $

基于乘法模型的TAC_SimplE：

(7)$ \begin{split} f\left( {s,r,o,t} \right) =& \frac{1}{2}[({{\boldsymbol{e}}_s} \circ {{\boldsymbol{e}}_o} \circ {\text{LSTM}}({{\boldsymbol{e}}_t})) \cdot {\text{LSTM}}({\boldsymbol{e}}_{rt}^{\text{T}})+ \\ &({{\boldsymbol{e}}_o} \circ {{\boldsymbol{e}}_s} \circ {\text{LSTM}}({{\boldsymbol{e}}_t})) \cdot {\text{LSTM}}({\boldsymbol{e}}_{rt'}^{\text{T}})]. \end{split} $

使用Han等^[29]提出的最佳模型配置为参考，采用Adam优化器最小化损失函数，对基于加法模型的TAC_TransE采用边际损失函数：

(8)$ L = \sum\limits_{(s,r,o,t) \in G} {\sum\limits_{(s',r',o',t') \in G'} {{{[\gamma +{f_r}(s,r,o,t) - {f_r}(s',r,o',t)]}_+}} } . $

式中：γ为边距超参数，用于分割正负样本；(s', r, o', t)为随机替换四元组(s, r, o, t)主语s或宾语o产生的负四元组；[x]₊ = max{0,x}. 对基于双线性的模型TAC-DistMult和TAC-SimplE采用二元交叉熵损失函数（binary cross entropy loss function, BCE）：

(9)$ L = - \frac{1}{n}\sum\limits_{i = 1}^n [ {{\boldsymbol{y}}_i}\ln P({{\boldsymbol{y}}_i})+(1 - {{\boldsymbol{y}}_i})\ln\; (1 - P({{\boldsymbol{y}}_i}))]. $

式中：y_i为第i个样本的真实标签向量，取值为0或1；P(y_i)为四元组为真的概率；n为知识图谱中四元组的数量.

3. 实验分析

为了比较不同的时间嵌入方式和评分方式的组合所得的具体模型的性能，在4个公开的时序知识图谱补全数据集上开展链接预测实验，在主流的相应评价标准上对比补全效果.

3.1. 数据集

综合危机预警系统（ICEWS）是当前公开的最大动态知识库之一，收集了来自社交媒体和新闻媒体的政治事件信息. 198个国家从1995年到2018年为该数据集贡献了超过1 700万次政治事件. Garcia-Duran等^[4]将ICEWS划分为多个子数据集，其中ICEWS14记录了2014年1月到12月的政治事件，时间非常紧密. ICEWS05-15记录了从2005年1月至2015年12月近10年的政治事件，时间跨度相对较长. GDELT数据集记录全球范围内发生的政治事件，它记录了从1969 年至今的新闻，代表政治领袖、组织和国家等实体一个月内不同类型的事件. 其中ICEWS05-15、ICEWS14、ICEWS11-14、GDELT数据集都是每24 h记录一次. 数据集中包含实体关系和时间统计信息，具体可以参考表3.

表 3 数据集的信息统计

Tab.3 Information statistics of dataset

数据集	实体集	关系数	训练集	验证集	测试集	时间戳	时间粒度
ICEWS14	7 128	230	72 826	8 941	8 963	365	day
ICEWS05-15	10 488	251	368 962	46 275	46 092	4 017	day
ICEWS11-14	6 738	235	118 766	14 859	14 756	1 461	day
GDELT	500	20	2 735 685	341 961	341 961	366	day

新窗口打开| 下载CSV

3.2. 对比模型和评价指标

链接预测是知识图谱中根据已知事实推断缺失事实的任务. 使用过滤设置对假阴性样本进行筛选和排除，避免测试过程中出现已知的负样本，以确保评估结果的可靠性和准确性，并报告Hits@n（H@n）和平均倒数排名（mean reciprocal rank，MRR）. H@n（H@1/3/10）是指在给定测试的四元组(s, r, o, t)中，模型预测的前1、3或10个实体中占所有实体的比例. H@n越大，模型的性能越好. 平均倒数排名（MRR）是指在给定测试四元组中，模型预测的所有实体按照其得分排序后，正确实体排名的倒数的平均值. H@n和MRR是被链接预测任务广泛使用的评价标准.

本文将提出的TAC方法模型与几种经典的静态知识图谱嵌入^[30]模型和动态知识图谱嵌入^[31]模型进行比较. 其中，TransE、DistMult、SimplE^[32]被选为静态嵌入对比模型，这些传统经典的模型在实验中被广泛使用. HyTE、TTransE、TA-DistMult、DE-SimplE^[33]、ATiSE、TeRo^[34]、RE-Net^[35]、RE-GCN^[36]、rGalT^[27]、TNTcomplEx、TuckERT^[37]被选为动态嵌入对比模型，这些模型在处理时序知识图谱补全任务上都取得了较先进的结果，且一些经典的动态嵌入模型在时序链接预测实验中作为对比模型被广泛使用.

3.3. 实验设置

根据文献[29]的研究，采用Adam优化器来训练本文的模型. 对于翻译距离（TransE）的评分，本文采用Marginloss损失函数；对于双线性（DistMult和SimplE）的评分，本文采用BCE损失函数. 根据验证集上的MRR结果，通过早停法来选择最优的超参数. 将最大迭代轮数设置为3 000. 对于ICEWS的2个数据集，将批量大小选择设为{256，512，1 024}；对于GDELT，采用{128，256，512，1 024，2 048}中的批量大小，采用{100，200，300，400，500}中的嵌入维数d及{0.000 1，0.000 3，0.001，0.003}中的学习率l_r.

3.4. 实验结果分析

在PyTorch学习框架中实现了TAC方法的3种模型，即TAC-TransE、TAC-DistMult、TAC-SimplE. 通过嵌入方式、评分函数、损失函数和正则化器等模块的不同选择，比较出建模四维的时序嵌入模型更具表现力，表明在相同的训练策略下充分利用时间信息可以实现相近甚至更好的性能. 通过实验可知，TAC方法的2个乘法模型在3个ICEWS数据集和GDELT数据集上的评价标准表现优秀.

表4给出在ICEWS14、ICEWS05-15、GDELT数据集上的实验结果. 所有模型中的最佳结果以粗体显示，次之的以下划线显示. 由表4可见，除在ICEWS14和ICEWS05-15数据集中TuckERTNT在H@1评价标准上优于本文提出的模型TAC-SimplE外，TAC-SimplE均优于其他方法. 在ICEWS14数据集上，TAC-SimplE在MRR评价标准上优于次优方法TuckERTNT 3%，在H@3、H@10评价标准上分别优于次优方法TAC-DistMult 12%、14%. 在ICEWS05-15数据集上，TAC-SimplE在MRR、H@3评价标准上分别优于次有方法TuckERTNT 1%、12%，在H@10评价标准上优于次优方法TeRo15%. 在GDELT数据集上，TAC-SimplE在MRR、H@1、H@3、H@10评价标准上分别优于次优方法TuckERT 27%、15%、39%、29%. 实体预测任务的精度提升效果明显.

表 4 不同嵌入方法在ICEWS14、ICEWS05-15和GDELT的链接预测结果

Tab.4 Link prediction results of different embedding methods in ICEWS14 and ICEWS05-15 %

模型	ICEWS14				ICEWS05-15				GDELT
模型	MRR	H@1	H@3	H@10	MRR	H@1	H@3	H@10	MRR	H@1	H@3	H@10
TransE^[33]	28.0	9.4	—	63.7	29.4	9.0	—	66.3	11.3	0.0	15.8	31.2
DistMult^[33]	43.9	32.3	—	67.2	45.6	33.7	—	69.1	19.6	11.7	20.8	34.8
SimplE^[33]	45.8	34.1	51.6	68.7	47.8	35.9	53.9	70.8	20.6	12.4	22.0	36.6
TTransE^[33]	25.5	7.4	—	60.1	27.1	8.4	—	61.6	11.5	0.0	16.0	31.8
HyTE^[33]	29.7	10.8	41.6	65.5	31.6	11.6	44.5	68.1	11.8	0.0	16.5	32.6
TA-DistMult^[33]	47.7	36.3	—	68.6	47.4	34.6	—	72.8	20.6	12.4	21.9	36.5
DE-TransE^[33]	32.6	12.4	46.7	68.6	31.4	10.8	45.3	68.5	12.6	0.0	18.1	35.0
DE-DistMult^[33]	50.1	39.2	56.9	70.8	48.4	36.6	54.6	71.8	21.3	13.0	22.8	37.6
DE-SimplE^[33]	52.6	41.8	59.2	72.5	51.3	39.2	57.8	74.8	23.0	14.1	24.8	40.3
ATiSE^[34]	55.0	43.6	62.9	75.0	51.9	37.8	60.6	79.4	—	—	—	—
TeRo^[34]	56.2	46.8	62.1	73.2	58.6	46.9	66.8	79.5	—	—	—	—
RE-Net^[27]	36.3	26.7	41.0	54.2	36.7	26.1	41.6	56.8	19.4	11.9	20.5	33.7
RE-GCN^[27]	37.4	27.4	41.7	57.0	38.0	27.0	43.3	58.9	19.0	11.8	20.3	33.0
rGalT^[27]	38.3	28.6	42.9	58.1	38.9	27.6	44.1	58.1	19.6	12.1	20.9	34.1
TNTComplEx^[37]	56.0	46.0	61.0	74.0	60.0	50.0	65.0	78.0	22.4	14.4	23.9	38.1
TuckERT^[37]	59.4	51.8	64.0	73.1	62.7	55.0	67.4	76.9	41.1	31.0	45.3	61.4
TuckERTNT^[37]	60.4	52.1	65.5	75.3	63.8	55.9	68.6	78.3	38.1	28.3	41.8	57.6
TAC-TransE	23.3	15.2	38.0	62.7	26.3	17.5	42.0	66.4	9.8	3.7	12.0	28.3
TAC-DistMult	58.7	47.8	65.6	78.3	58.7	46.5	65.6	78.2	25.8	17.4	29.7	45.2
TAC-SimplE	62.5	48.8	74.1	89.4	64.5	52.8	76.9	92.2	52.5	35.7	63.3	79.8

新窗口打开| 下载CSV

表5给出在ICEWS14、ICEWS11-14数据集上的实验结果，对比模型的结果均来自文献[29]，所有模型中的最佳结果以粗体显示，次之的以下划线显示. 从表5可见，除在ICEWS11-14数据集中T方法在H@1评价标准上优于本文提出的TAC外，TAC方法均优于其他方法. 在ICEWS14数据集上，TAC在MRR、H@1、H@3、H@10评价标准上分别优于次优方法T 15%、11%、4%、2%. 在ICEWS11-14数据集上，TAC在MRR、H@3、H@10评价标准上分别优于次优方法T 7%、18%、20%. 实体预测任务的精度提升效果明显.

表 5 不同嵌入方法在ICEWS14和ICEWS11-14数据集上的实验结果对比

Tab.5 Comparison of experimental results of different embedding methods on ICEWS14 and ICEWS11-14 datasets %

时序嵌入方法	ICEWS14				ICEWS11-14
时序嵌入方法	MRR	H@1	H@3	H@10	MRR	H@1	H@3	H@10
T	55.3	43.7	62.7	76.5	60.2	51.3	65.2	75.5
DE	53.9	42.5	61.2	74.6	54.2	42.3	61.0	67.8
UTEE	53.7	42.5	60.8	74.8	56.1	45.2	62.9	76.4
HyTE	52.3	41.9	58.9	71.4	54.9	43.1	61.7	77.4
ATiSE	46.6	34.7	53.4	69.7	49.3	37.5	56.1	72.2
TA	37.1	25.3	42.2	61.4	33.4	24.0	37.6	51.2
TAC	62.5	48.8	65.6	78.3	64.7	48.7	77.4	91.2

新窗口打开| 下载CSV

实验结果表明，TAC-DistMult在ICEWS05-15数据集中的评价标准提升幅度不大于在ICEWS14数据集中的数值，TAC-SimplE在ICEWS05-15数据集中的评价标准提升幅度大于ICEWS14数据集中的数值. 这主要是因为TAC-SimplE对逆关系进行了定义，而ICEWS14数据集的样本量相对较少且时间步长仅局限在2014年，相对于ICEWS05-15数据集可能少了在时序上的逆反关系. TAC-SimplE在GDELT数据集上的推理结果优于以往具有竞争力的推理模型，这是由于GDELT数据集实体、关系数量少，但是关系网路极其复杂，而TAC-SimplE的实验结果表明在考虑了逆关系的模型中对该数据集的推理结果得到了极大的提升. 由表5可见，TAC方法与次优的T方法相比考虑了时间信息的复用性，同关系串联拼接后的向量可以进行更充分地表示学习.

3.5. 消融研究

为了验证所提模型各个组成部分对整体方法性能的影响，从时序信息的建模维度和嵌入维度2个方面进行消融实验.

如表6所示，在ICEWS14数据集上进行消融实验，分析时间独立、时间内嵌和本文提出的时间感知组合的不同时间嵌入方式对MRR、H@n指标的影响. 采取LSTM编码的方法，一个实验仅用LSTM编码时序信息，得到向量LSTM(e_t)，不改变关系向量，命名为时间独立的T方法. 另一个实验利用LSTM同时编码时序信息和关系，得到向量LSTM(e_rt)，命名为时间内嵌的TA方法以及本文提出的TAC方法. 从表6可知，TAC-SimplE和TAC-DistMult分别得到了最优和次优的评价标准. TAC方法对评分函数的选择较敏感，对于加法模型的评分并未得到具有竞争力的结果，但是对于乘法模型的评分得到了最优或次优的结果. 此外，与T和TA方法相比，本文提出的TAC方法使用LSTM同时编码时间信息内嵌的关系和独立的时序信息，更充分地利用了时序信息. 本文提出的TAC方法具有更强的时序知识图谱补全性能.

表 6 不同时序嵌入方法在ICEWS14数据集上的实验结果

Tab.6 Comparison of experimental results of different temporal embedding methods on ICEWS14 dataset %

时序嵌入方法	ICEWS14
时序嵌入方法	MRR	H@1	H@3	H@10
t-TransE	23.6	9.7	29.3	52.8
TA-TransE	27.9	39.9	50.6	70.2
TAC-TransE	23.3	15.2	38.0	62.7
T-DistMult	43.2	31.7	48.4	66.3
TA-DistMult	53.6	41.8	61.0	76.0
TAC-DistMult	58.7	47.8	65.6	78.3
T-SimplE	31.4	18.5	34.4	55.5
TA-SimplE	20.5	13.4	22.6	32.6
TAC-SimplE	62.5	48.8	74.1	89.4

新窗口打开| 下载CSV

将TAC-TransE、TAC-DistMult及TAC-SimplE的嵌入维度在ICEWS14数据集上从100调整到500，记录了每个嵌入维数下的MRR和H@n指标，如图2所示为相应的实验结果. 结果显示，随着嵌入维数的增加，TAC方法的性能在一定程度上得到了提高，每训练一轮的时间随着嵌入维数呈线性增加. 此外，在单个GeForce RTX3090上训练嵌入维数为100的TAC-DistMult模型，每轮需要8.7 s，具有500维嵌入的TAC-DistMult每轮需要14.2 s. 训练嵌入维数为100的TAC-SimplE模型每轮需要11.3 s，具有500维嵌入的TAC-SimplE每轮需要17.9 s.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 嵌入维数的消融对比

Fig.2 Ablation contrast of embedded dimensions

4. 结　语

目前的时序知识图谱嵌入方法很少对时间信息进行复合建模，缺乏对连续时间事件推理的能力. 本文提出时间感知组合的时序知识图谱嵌入模型，将时间戳信息拼接到关系向量，以考虑时间信息对关系的影响. 将时间戳单独编码为时序向量，以更好地捕捉四元组事实成立的时间顺序和持续时间，深度挖掘了时间戳在时序知识图谱上的效用和能力. 未来考虑结合不同的时间利用方式及卷积神经网络的评分函数，在时间感知组合方式的基础上研究时序知识图谱嵌入方法.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LI Z, GUAN S, JIN X, et al. Complex evolutional pattern learning for temporal knowledge graph reasoning [C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) . Dublin: ACL, 2022: 290-296.