基于关系聚合的时序知识图谱表示学习
Temporal knowledge graph representation learning based on relational aggregation
通讯作者:
收稿日期: 2022-08-1
Received: 2022-08-1
作者简介 About authors
苏丰龙(1988—),男,博士,从事知识图谱研究.orcid.org/0000-0002-7595-7516.E-mail:
针对静态知识图表示方法不能对时间进行建模的局限性,从时序图谱实际应用的需求出发,设计了基于关系聚合的时序图谱表示学习方法来描述和推理动态知识图谱的时间信息. 与离散的快照时序网络不同,将时间信息视为实体间的链接属性,提出利用时间感知的关系图注意力编码器来学习时序图谱的实体表征. 将中心节点的邻域关系和时间戳融入图结构中,然后分配不同的权重,高效地聚合时间知识. 在公开的时序知识图谱数据集上运行,结果表明,与传统的时序图谱编码框架相比,面向注意力聚合的时序图谱表示学习方法在补全和对齐任务的性能上都有较强的竞争优势,尤其对高时间敏感度实体更加显著,体现出算法的优越性和强鲁棒性.
关键词:
Aiming at the limitation that static knowledge graph representation learning methods cannot model time, a temporal graph representation learning method based on relational aggregation was designed to describe and reason about the temporal information of dynamic knowledge graphs from the demand of practical applications. Different from the discrete snapshot temporal neural networks, temporal information was treated as a link property among entities. A time-aware relational graph attention encoder was used to learn entity representations of temporal knowledge graphs, while the neighborhood relations and time stamps of central nodes were incorporated into the graph structure, and then different weights were assigned to aggregate temporal knowledge efficiently. Results of running on public datasets showed that, compared with traditional temporal graph encoder frameworks, the attention aggregation network had a strong competitive advantage in the performance of both the complementation and alignment tasks, especially for highly time-sensitive entities, reflecting the superiority and strong robustness of the algorithm.
Keywords:
本文引用格式
苏丰龙, 景宁.
SU Feng-long, JING Ning.
知识图谱(knowledge graph, KG)将现实世界的知识抽象为由数十亿个三元组组成的复杂图网络. 每个三元组被表示为〈
近来,对知识图谱的时间动态的研究引起了越来越多的关注. 一些带有时间性的知识图谱(temporal knowledge graph,TKG),比如Wikidata、YAGO以及基于事件的数据集(如ICEWS和GDELT知识库)存储了数十亿的带时间的事实. 例如,三元组〈Obama, PresidentOf, USA〉仅从2009年1月到2017年1月有效. 这种附有时间信息的元组被表示为四元组,通常表示为
为了解决上述问题,本研究提出了一个用于时序图谱嵌入的时间感知关系图注意力网络(time-aware relational graph attention network, TA-GAT)来学习实体表征,将中心节点的邻域关系和时间戳融入图结构中,然后分配不同的权重,高效聚合时间知识以适应下游任务.
1. 相关工作
1.1. TKG表示学习
HyTE[5]使用时间表示将每个快照的知识投射到特定时间的超平面,然后在每个超平面中应用 TransE[6]来学习每个快照的表示. TTransE[7]首先添加关系表示和时间表示以获得翻译向量,然后使用向量空间将主实体翻译为对象实体. TNTComplEx[8]将时间知识图视为 4 阶张量,并通过基于时间正则化方案的张量分解来学习 TKG 表示. TA-DistMult[7]利用时间信息来约束关系表示,并使用数字级长短时记忆网络为每个知识实例构建时间关系表示. DE-DistMult[9]将实体表示视为与时间戳相关的变量,并根据其对应的时间戳生成实体表示来生成非线性函数. ATiSE[10]考虑了实体语义的不确定性,学习多维高斯分布空间中的实体表示. 最近,有方法试图通过消息传递机制来学习 TKG 表示. 例如,TeMP[11]通过结合图神经网络和时间动态模型,提出了一种时间消息传递框架. 然而,以上这些方法假设不同时间发生的知识是独立的,并且在每个快照上分别学习表示,无法捕捉到时序图结构的形成机制.
1.2. 知识图谱对齐
知识图谱对齐是扩大知识图谱覆盖范围的最基本任务之一. 早期技术利用手工制作的特征、众包和基于 OWL 的等价推理来解决 EA问题. 由于耗费大量人力资源和时间,早期技术逐渐被基于嵌入的模型所取代. 这些方法应用结构学习来获得每个实体的密集嵌入,然后通过对齐模块将这些嵌入映射到统一的向量空间中. 最后,实体之间的成对距离决定了它们是否对齐. 根据使用的实体特征,知识图谱对齐方法可以分为2类:基于关系的方法和基于属性增强的方法. 前者使用知识图谱的关系结构进行表示学习. 主流技术包括翻译模型[12-13]、循环神经网络模型[14]和图神经网络模型[2-3]. 除了基于关系结构的表示学习之外,有部分方法提出使用属性增强的附加信息,如摘要[15]、图片[16]以及其他典型属性来增强EA的学习,效果也很显著. 但是,目前没有任何工作来研究 TKG 之间的实体对齐,并且当前基于 GNN 的 TKGE 方法与 EA 设置并不兼容.
2. 问题定义
形式上,TKG表示为G=〈
假设,G1=〈
3. 基于图注意力聚合的时序知识表征
3.1. 整体框架
图 1
图 1 用于 TKG 补全和时间感知 EA 的 TA-GAT 模型框架
Fig.1 Framework of TA-GAT models for TKG completion and time-aware EA
3.2. TA-GAT编码器
TA-GAT编码器包括一个生成时间感知的实体特征输入层和多个时间感知的注意力层. 设第L个注意力层的实体
式中:L为注意力层的数量,
3.2.1. 时间感知的实体表示
时间事实〈
为了整合关系方向,为每个关系
将TKG中的所有实体、关系(包括反向关系)和时间步骤映射到一个向量空间
式中:
3.2.2. 时间感知的自注意力机制
时间感知的自注意力机制旨在将时间和关系信息整合到实体嵌入中,根据节点间内向链接的时间和关系特征,为不同的相邻节点分配不同的权重. 对相邻实体
式中:
按照原始的GAT的做法,使用LeakyReLU激活函数, 定义
将原始的时间感知实体表征作为第1隐藏层中实体的输入特征. 而输出特征
式中:M为注意力头的数量,
3.3. 时间感知的时序图谱补全
为了进行TKG补全,首先使用一个基于TA-GAT层的编码器,将图内邻域信息整合到实体表示
式中:
式中:b表示批次大小;
3.4. 时间感知的实体对齐
时间感知的EA模型通过将实体的种子推到一起,促使2个TKG嵌入到一个统一的向量空间. 在这项工作中,时间感知的EA模型包括一个TA-GAT编码器和一个衡量实体表征之间相似性的翻译解码模块.
实体排列的预测是基于来自2个TKG的实体的最终输出特征之间的距离. 对于来自不同源的2个实体
边际损失用作EA的优化目标:
式中:
4. 实验结果及分析
将TKG补全和时间感知EA看作排名任务,并使用平均倒数排名占比(MRR)和链接预测中排名小于n的三元组的平均占比Hits@n(n=1,3,10)作为评价指标. 为了避免可能存在的评价缺陷,对TKG的补全采用了时间感知的过滤设置.
参数设定:1)TKG 补全,遵循TNTComplEx和 ChronoR的设置. 为了公平比较,手动选择嵌入维度. 正则化权重
4.1. 数据集
TKG补全数据集,包括ICEWS14、ICEWS05-15和GDELT-500. 其中,前2个数据集是Integrated Crisis EarlyWarning System (ICEWS)的子集. ICEWS14包含从2014年1月1日—2014年12月31日的事件事实,而ICEWS15-05是发生在2005年1月1日—2015年12月31日的事件集合的子集. 其中,ICEWS数据集中的每个事实都涉及一个时间点作为其时间戳. 另一个GDELT-500是Global Database of Events, Language, and Tone (GDELT)数据集的子集,存储了从 1979 年开始的人类事件知识. GDELT-500数据集包含时间戳2015 年 4 月 1 日— 2016 年 3 月 31 日之间的事件,包括 500个最常见实体和 20个最常见关系. 关于TKGC数据集的更多细节详见表1. 表中,Num为数量.
表 1 关于 TKGC 数据集的统计信息
Tab.1
数据集 | Num | 时间戳 | ||||||
节点 | 关系 | 时间点 | 训练 | 验证 | 测试 | 四元组 | ||
ICEWS14 | 7128 | 230 | 365 | 72826 | 8941 | 8963 | 90730 | 2014 |
ICEWS05-15 | 10488 | 251 | 4017 | 386962 | 46275 | 46092 | 479329 | 2005—2015 |
GDELT-500 | 500 | 20 | 366 | 2735685 | 341961 | 341961 | 3419607 | 2015.04.01—2016.03.31 |
表 2 时间感知实体对齐数据集
Tab.2
数据集 | Num | ||||||||
节点1 | 节点2 | 关系1 | 关系2 | 时间戳 | 四元组1 | 四元组2 | 实体对 | 种子 | |
DICEWS-1K/DICEWS-200 | 9517 | 9537 | 247 | 246 | 4017 | 307552 | 307553 | 8566 | 1000/200 |
YAGO-WIKI50K | 49629 | 49222 | 11 | 30 | 245 | 221050 | 317814 | 49172 | 5000 |
YAGO-WIKI20K | 19493 | 19929 | 32 | 130 | 405 | 83583 | 142568 | 19462 | 400 |
4.2. 主要结果
如表3所示为3个数据集的补全结果. 图中,双下滑线表示最优结果,单下滑线表示次优结果. 与浅层基线模型TNTComplEx(其解码功能与本研究的TKG补全模型相同)相比,TA-GAT在ICEWS 14和ICEWS05-15的所有指标上都取得了明显的改进. 在GDELT-500上,TA-GAT在所有指标上都优于选择的基线模型. 总的来说,TA-GAT在ICEWS14和GDELT-500的MRR、Hits@1、Hits@ 3方面均取得了最先进的结果. 在ICEWS05-15上,TA-GAT取得了最好的Hits@1,虽然在其他指标方面不是最优,但是也很有竞争力. 与次优结果相比,TA-GAT在3个数据集的Hits@1方面分别获得了1.92%、0.17%和0.66%的改进.
表 3 TA-GAT在时序知识图谱上的补全结果
Tab.3
模型 | ICEWS14 | ICEWS05-15 | GDELT-500 | |||||||||||
MRR | Hit@1 | Hit@3 | Hit@10 | MRR | Hit@1 | Hit@3 | Hit@10 | MRR | Hit@1 | Hit@3 | Hit@10 | |||
TTransE | 0.255 | 0.074 | − | 0.601 | 0.271 | 0.084 | − | 0.616 | 0.115 | 0.000 | 0.160 | 0.318 | ||
HyTE | 0.297 | 0.108 | 0.416 | 0.655 | 0.316 | 0.116 | 0.445 | 0.681 | 0.118 | 0.000 | 0.165 | 0.326 | ||
TA-DistMult | 0.477 | 0.363 | − | 0.686 | 0.474 | 0.346 | − | 0.728 | 0.206 | 0.124 | 0.219 | 0.365 | ||
DE-SimplE | 0.526 | 0.418 | 0.592 | 0.725 | 0.513 | 0.392 | 0.578 | 0.748 | 0.230 | 0.141 | 0.248 | 0.403 | ||
TeMP-SA | 0.607 | 0.484 | 0.684 | | | 0.553 | | | 0.232 | 0.152 | 0.245 | 0.377 | ||
TNTComplEx | 0.620 | 0.520 | 0.660 | 0.760 | 0.670 | 0.590 | 0.710 | 0.810 | − | − | − | − | ||
ChronoR | 0.625 | 0.547 | 0.669 | 0.773 | 0.675 | 0.596 | 0.723 | 0.820 | − | − | − | − | ||
TA-GAT | | | | 0.790 | 0.676 | | 0.720 | 0.816 | | | | |
如表4所示为本研究提出的模型和所有基线在DICEWS和YAGO-WIKI50K数据集上的实体对齐结果. 表中,Imp为最优结果与次优结果的差值除以次优结果的百分比. 可以看出,TA-GAT在3个TKG数据集上的所有指标都明显优于所有基线模型的. 与RREA相比,TA-GAT在3个TKG数据集的Hits@1方面分别获得了21.33%、23.67%和5.19%的改进.
表 4 TA-GAT在时序知识图谱上的对齐结果
Tab.4
模型 | DICEWS-1K | DICEWS-200 | YAGO-WIKI50K | ||||||||
MRR | Hits@1 | Hits@10 | MRR | Hits@1 | Hits@10 | MRR | Hits@1 | Hits@10 | |||
MTransE | 0.150 | 0.101 | 0.241 | 0.104 | 0.067 | 0.175 | 0.322 | 0.242 | 0.477 | ||
JAPE | 0.198 | 0.144 | 0.298 | 0.138 | 0.098 | 0.210 | 0.345 | 0.271 | 0.488 | ||
AlignE | 0.593 | 0.508 | 0.751 | 0.303 | 0.222 | 0.457 | 0.800 | 0.756 | 0.883 | ||
GCN-Align | 0.291 | 0.204 | 0.466 | 0.231 | 0.165 | 0.363 | 0.581 | 0.512 | 0.711 | ||
MuGNN | 0.617 | 0.525 | 0.794 | 0.412 | 0.367 | 0.583 | 0.808 | 0.762 | 0.890 | ||
MRAEA | 0.745 | 0.675 | 0.870 | 0.564 | 0.476 | 0.733 | 0.848 | 0.806 | 0.913 | ||
RREA | 0.780 | 0.722 | 0.883 | 0.719 | 0.659 | 0.824 | 0.868 | 0.828 | 0.938 | ||
TU-GAT | 0.748 | 0.681 | 0.870 | 0.576 | 0.489 | 0.739 | 0.815 | 0.767 | 0.902 | ||
TA-GAT | | | | | | | | | | ||
Imp/% | 15.38 | 21.33 | 6.68 | 18.08 | 23.67 | 10.31 | 4.03 | 5.19 | 2.23 |
为了研究嵌入时间信息的效果,测试了TA-GAT的无时间感知的变体,TU-GAT. 它使用静态关系注意力机制来捕获实体之间的关系信息,包括关系类型和关系方向. 如表4所示,TU-GAT优于除RREA之外的大多数基线模型,同时可以看出,TA-GAT相对于TU-GAT的改进在种子较少的数据集上更为显著. 具体来说,TA-GAT在DICEWS-200上的MRR提高了18.08%,而在DICEWS-1K和YAGO-WIKI50K上的提高只有15.38%和4.03%.
4.3. 敏感性分析
对具有不同时间敏感度的EA结果进行研究. 生成一个混合数据集YAGO-WIKI20K,其中17.5%的YAGO事实和36.6%的Wikidata事实都是非时间性的. 根据对时间信息的敏感度,将该数据集中的所有测试实体对分为2类,即高时间敏感度实体对和低时间敏感度实体对. 单个实体
式中:
在YAGO-WIKI20K的19062个测试实体对中,根据上述定义,其中6898个实体是高时间敏感的,其余是低时间敏感的. 如表5所示为TA-GAT和TU-GAT在高时间敏感度测试集和低时间敏感度测试集上的EA结果. 可以看出,TA-GAT和TU-GAT在低时间敏感度的实体对上有接近的表现,而在高时间敏感度的测试集上,TA-GAT明显优于TU-GAT. 换句话说,当待对齐实体对的时间敏感度较高时,引入时间信息后EA的效果更为显著.
表 5 YAGO-WIKI20K在不同时间敏感度数据集上的EA结果
Tab.5
模型 | 高时间敏感度 | 低时间敏感度 | 总计 | ||||||||
MRR | Hits@1 | Hits@10 | MRR | Hits@1 | Hits@10 | MRR | Hits@1 | Hits@10 | |||
TA-GAT | 0.805 | 0.797 | 0.892 | 0.331 | 0.284 | 0.419 | 0.503 | 0.470 | 0.590 | ||
TU-GAT | 0.700 | 0.639 | 0.818 | 0.314 | 0.264 | 0.411 | 0.454 | 0.400 | 0.558 |
5. 结 论
研究时序图谱的表征学习,提出TA-GAT框架,以时间感知的方式学习关系图,弥补了以往使用注意力机制和图神经网络框架的缺陷,在时序图谱对齐和补全中取得了有竞争力的结果.
(1)针对现有的实体对齐模型忽略时间属性的问题,提出利用时间感知的自我注意力机制来建立时序关系图模型,并且能够较好地适应各种形式的时序图谱数据集,可以执行不同的TKG学习任务.
(2)针对以往的时间感知的GNN模型训练效率低下的问题,提出将时间戳视作节点间链接的属性来形成高效的训练,进而提升下游任务性能.
(3)首次将时间信息整合到实体对齐任务中的工作. 实验表明,本研究的方法在TKG补全和TKG对齐方面取得了有竞争力的结果,尤其在时间敏感度较高的实体对齐任务上效果尤其显著.
本研究在对齐的时候依旧使用了大量的人工标注的种子,与现实生产要求还有一定差距,并且时间知识的利用还可以再做进一步拓展. 后续本研究将在更加稀疏和高异质性的时序图谱表征方向上做进一步的研究.
参考文献
A benchmarking study of embedding-based entity alignment for knowledge graphs
[J].
/
〈 |
|
〉 |
