浙江大学学报(工学版), 2026, 60(2): 379-387 doi: 10.3785/j.issn.1008-973X.2026.02.016

计算机技术与控制工程

基于嵌入特征和稀疏矩阵的实体对齐方法

冯超文,, 耿程晨, 刘英莉,

1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

2. 昆明理工大学 云南省计算机技术应用重点实验室,云南 昆明 650500

Entity alignment method based on embedding features and sparse matrices

FENG Chaowen,, GENG Chengchen, LIU Yingli,

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

2. Yunnan Key Laboratory of Computer Technology Applications, Kunming University of Science and Technology, Kunming 650500, China

通讯作者: 刘英莉,女,副教授,博士. orcid.org/0000-0003-0298-9257. E-mail:lyl@kust.edu.cn

收稿日期: 2025-03-6  

基金资助: 国家自然科学基金资助项目(52061020);云南省重大科技专项计划项目(202302AG050009);云南省计算机技术应用重点实验室开放基金资助项目(2024G05).

Received: 2025-03-6  

Fund supported: 国家自然科学基金资助项目(52061020);云南省重大科技专项计划项目(202302AG050009);云南省计算机技术应用重点实验室开放基金资助项目(2024G05).

作者简介 About authors

冯超文(1995—),男,硕士生,从事知识图谱研究.orcid.org/0009-0004-7851-7509.E-mail:15236085295@163.com , E-mail:15236085295@163.com

摘要

多语言知识融合的实体对齐面临特征建模粒度不足、结构信息利用受限的挑战,为此提出融合多层次嵌入特征与稀疏矩阵传播机制的实体对齐方法. 结合字符特征、词向量特征与邻域关系特征,构建统一的多维实体表示,增强实体的局部语义表达和结构关联建模能力. 基于关系嵌入构建稀疏邻接矩阵,结合特征归一化传播机制,实现信息在知识图谱中的稳定扩展与有效传递. 为了进一步提升实体匹配的全局一致性,引入Sinkhorn正则化优化相似度矩阵,采用Hungarian算法执行最优实体对齐. 所提方法在多个跨语言知识图谱数据集上的命中率和平均倒数排名评价指标上均有稳定性能表现,比代表性方法(如SNGA、EAMI)的竞争性强. 该结果有效验证了所提方法的准确性与鲁棒性.

关键词: 知识图谱 ; 实体对齐 ; 多层次特征建模 ; 稀疏矩阵传播 ; Sinkhorn正则化

Abstract

Entity alignment for multilingual knowledge fusion suffers from insufficient granularity in feature modeling and limited exploitation of structural information. An entity alignment method was proposed that integrated multi-level embedding features with a sparse matrix propagation mechanism. Entities were represented through a unified embedding that fused character-level features, word-level embeddings, and neighborhood relational information, enabling fine-grained semantic and structural expression. To promote efficient knowledge propagation, a sparse adjacency matrix was constructed based on relation embeddings, and a normalization-based mechanism was introduced to stabilize feature transmission across graphs. To enhance global consistency during alignment, Sinkhorn regularization was applied to refine the similarity matrix, followed by the Hungarian algorithm to obtain optimal one-to-one matching. Stable performance was achieved on multiple cross-lingual knowledge graph datasets in terms of evaluation metrics such as hit rate and mean reciprocal rank. Compared with representative methods such as SNGA and EAMI, the proposed approach demonstrated strong competitiveness, validating its accuracy and robustness.

Keywords: knowledge graph ; entity alignment ; multi-level feature modeling ; sparse matrix propagation ; Sinkhorn regularization

PDF (1200KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

冯超文, 耿程晨, 刘英莉. 基于嵌入特征和稀疏矩阵的实体对齐方法. 浙江大学学报(工学版)[J], 2026, 60(2): 379-387 doi:10.3785/j.issn.1008-973X.2026.02.016

FENG Chaowen, GENG Chengchen, LIU Yingli. Entity alignment method based on embedding features and sparse matrices. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(2): 379-387 doi:10.3785/j.issn.1008-973X.2026.02.016

随着知识图谱[1]在搜索引擎、推荐系统和问答系统等领域的广泛应用,跨图谱的实体对齐[2]成为实现知识融合与共享的核心任务. 实体对齐旨在识别不同知识图谱中语义等价的实体对,对于提升知识图谱的规模与质量具有重要意义,分布式表示、稀疏结构和语言异构性使该任务极具挑战.

传统的实体对齐方法主要基于规则匹配[3]或语义相似性计算[4],例如基于字符串匹配、编辑距离或先验规则的启发式方法. 这类方法在小规模场景下有效,但对人工依赖较强,难以适应异构大规模知识图谱. 深度学习[5]和嵌入表示技术的发展推动了嵌入式实体对齐方法的发展. 此类方法通过将实体和关系嵌入低维连续空间,利用神经网络或图神经网络[6](graph neural networks, GNNs)学习知识图谱的结构和语义特征,实现对齐任务的自动化建模. 现有方法仍存在不足:1)多数模型仅依赖单一特征,缺乏多层次融合;特征传播难以捕获全局结构信息,跨图谱建模能力有限;2)相似度度量方式过于简单,难以保证对齐结果的鲁棒性和一致性.

本研究提出融合多层次嵌入特征与稀疏矩阵传播机制的实体对齐方法. 方法构建统一的实体表示框架,将字符级、词向量级与邻域关系级的语义信息整合到一致的表征空间中,以增强实体向量在跨语言场景下的稳健性. 稀疏矩阵传播机制借助关系嵌入对结构信息进行有序扩展,使实体在稀疏图谱条件下仍能够保持结构关联的一致性. 为了强化对齐阶段的整体约束,采用统一的相似度优化流程,引入全局匹配策略以提升实体映射的可靠性与一致性. 该方法在多层次语义表达、结构信息传播与全局对齐约束之间形成协同关系,能够为跨语言知识图谱的实体对齐提供系统化且可扩展的技术框架.

1. 相关工作

1.1. 传统的实体对齐方法

传统的实体对齐方法主要基于句法匹配和结构相似性计算,通常分为1)基于字符或符号特征的相似度计算,2)基于关系推理的结构建模. 传统方法在早期对齐研究中发挥了重要作用,但在异构和大规模知识图谱场景下表现一般.

1.1.1. 基于相似性计算的实体对齐方法

这类方法多依赖字符级度量和文本分析技术. 例如,TF-IDF[7]用于衡量实体名称的文本相似性,Cohen等[8]提出的距离计算方法结合分类模型提升匹配精度,n-gram[9]匹配、编辑距离和同义词扩展等技术进一步增强候选实体对的筛选能力. 为了降低人工标注成本,Sarawagi等[10]引入主动学习机制,通过组合优化决策树、朴素贝叶斯与SVM提高了实体对齐的自动化水平. Arasu等[11]提出分阶段方法,利用过滤机制快速筛选候选实体,再结合相似度计算提升精度,减轻大规模场景下的计算压力. 此外,Jean-Mary等[12]提出的ASMOV算法通过同义词和反义词集增强语义相似性计算,在复杂知识图谱对齐中展现出较强鲁棒性.

1.1.2. 基于关系推理的实体对齐方法

这类方法利用实体之间的结构关系进行对齐. Suchanek等[13]提出PARIS算法,将关系建模为函数,通过概率推理实现实体匹配;Lacoste-Julien等[14]提出的SiGMa算法结合属性信息和拓扑结构,通过贪心搜索优化局部匹配,采用贪心搜索和动态权重调整优化匹配;Song等[15]提出的HistSim和DisNGram方法通过启发式筛选和无监督关系挖掘提升大规模图谱的对齐效率. 这些方法能够较好地利用结构特性,但在语言异构或属性缺失条件下的性能受限.

1.2. 基于知识表示学习的实体对齐方法

随着深度学习与嵌入技术的发展,基于知识表示学习的方法成为实体对齐研究的主流. 此类方法遵循“嵌入-对齐-匹配”的框架,通过学习实体与关系的低维向量表示,优化不同知识图谱间的对齐性能. 如图1所示为知识图谱实体对齐示例,可通过向量嵌入表示与相似度度量实现自动对齐.

图 1

图 1   知识图谱实体对齐示例

Fig.1   Example of entity alignment between knowledge graph


1.2.1. 利用结构信息进行实体对齐

主要通过图结构建模实现匹配. MTransE[16]利用TransE嵌入将不同图谱投射到共享空间,并通过映射策略优化对齐效果. GCN-Align[17]采用两阶段神经网络架构,先计算局部嵌入,再利用消息传递优化邻域一致性. MuGNN[18]通过GNN和同步消息传递提升大规模数据下的匹配能力. BootEA[19]结合增强学习在迭代排序过程中强化邻域一致性,进一步提高准确率. PSR[20]引入简化图编码器与半监督机制,兼顾可扩展性与收敛效率. 这些方法能较好利用结构特征,但存在特征融合粒度不足和训练稳定性欠佳的问题.

1.2.2. 利用结构信息和属性信息进行实体对齐

为了弥补仅依赖结构信息的不足,研究者引入属性信息辅助建模. MRAEA[21]直接建模跨语言实体嵌入,引入元语义建模以增强对齐效果. AttrGNN[22]设计属性值编码器与子图划分策略,在增强语义表达的同时,提升了跨语言实体对齐的稳定性. 这些方法在处理实体属性丰富的数据集上表现良好,但处理属性缺失或异构严重数据集的能力不足.

1.2.3. 利用结构信息和实体名信息进行实体对齐

RDGCN[23]中的关系感知双图卷积网络提升了实体表征一致性;HGCN[24]同步学习框架,优化了实体与关系嵌入;JEANS[25]基于偶然监督信号挖掘未对齐实体间的潜在关系,提升了低资源场景下的性能. 这些方法能够灵活结合语义与结构,但在复杂语义异构场景下仍显乏力.

1.2.4. 利用结构信息、属性信息和实体名信息进行实体对齐

EPEA[26]基于实体对嵌入构建连接图,通过卷积与图神经网络联合建模,实现多维度的相似性学习. 该方法在多语言、多结构异构图谱中表现突出,但在大规模实体对集合下计算开销较大.

1.3. 实体对齐方法进展

随着跨语言知识图谱融合需求的增长,实体对齐方法逐渐向特征融合与匹配优化并重的方向发展. SNGA[27]中的结构噪声感知框架能够有效提升稀疏关系图谱下的鲁棒性;EAMI[28]结合双重注意力机制,能够有效挖掘跨图谱实体特征的局部语义与全局关系. 这些方法提升了对齐准确率,但在特征融合粒度控制、优化过程稳定性与大规模数据处理能力方面仍存在不足. 本研究提出的实体对齐方法,通过构建统一的实体表征、多层次特征扩展与全局一致性匹配优化来提升跨语言知识图谱实体对齐的准确性与鲁棒性.

2. 融合多层次嵌入特征与稀疏矩阵传播机制的实体对齐方法

2.1. 模型架构

图2所示,所提方法的模型整体框架包括4个阶段:特征提取与融合、稀疏邻接矩阵构建与特征传播、相似度矩阵优化与最优实体匹配. 在特征提取过程中,综合引入字符特征、词向量特征与邻域关系特征,提升实体表征的局部语义表达与结构建模能力. 通过基于关系嵌入构建的稀疏邻接矩阵与归一化特征传播机制,有效扩展实体的上下文感知范围,缓解传统GNN方法在高稀疏图谱中信息传播受限的问题. 引入Sinkhorn[29]正则化对相似度矩阵进行双随机约束,提升匹配阶段的全局一致性,利用Hungarian[30]算法实现实体对的最优匹配. 稀疏矩阵传播与多层次特征融合相结合能够有效弥补局部特征表示与全局结构建模之间的缺口,显著提升实体对齐的准确性与鲁棒性. 在特征建模过程中,关系嵌入不仅作为构建稀疏邻接矩阵的核心依据,还承担着语义引导的作用. 设$ {{\boldsymbol{x}}}_{1},{{\boldsymbol{x}}}_{2},\cdots,{{\boldsymbol{x}}}_{n-1} $为目标实体对应的邻域实体嵌入向量集合,其中$ {{\boldsymbol{x}}}_{i} $为第$ i $个邻域实体的向量表示,$ n-1 $为邻域实体的数量. $ {{\boldsymbol{W}}}_{r} $为与关系$ r $对应的关系嵌入映射矩阵,用于刻画关系语义在稀疏邻接矩阵构建及特征传播过程中的引导作用. 不同于仅基于实体邻接关系的结构建模,关系嵌入向量在传播过程中引导语义信息在实体之间进行加权传递,有效构建语义感知路径,使得同类关系下的实体表示更具一致性,异类关系的区分性更明确. 稀疏特征传播机制显著增强跨语言图谱中语义等价实体的表征一致性,为后续对齐输出更具判别力的特征.

图 2

图 2   融合多层次嵌入特征与稀疏矩阵传播机制的实体对齐方法整体架构

Fig.2   Overall architecture of entity alignment method based on multi-level embedding features with sparse matrix propagation mechanism


2.2. 特征提取与融合

为了充分捕捉实体的多维语义与结构特征,设计多层次特征提取与融合策略,综合利用字符特征、词向量特征与邻域关系特征,确保实体表示的丰富性与判别性. 融合多层次特征构建高质量的实体表示. 对于实体的字符特征,提取其名称中的字符二元组[31](bigram),根据出现频率生成稀疏表示矩阵;对于词向量特征,采用预训练词向量模型生成语义嵌入,增强实体的语义表达能力. 定义知识图谱中的实体集合为$ \left\{{e}_{1},{e}_{2},\cdots ,{e}_{N}\right\} $,字符特征表示为$ \boldsymbol{C}\in {{\bf{R}}}^{N\times {{d}_{{\mathrm{c}}}}} $,其中$ N $为实体数量,$ {d}_{{\mathrm{c}}} $为字符嵌入的维度. 采用预训练词向量模型(FastText)生成实体名称的词向量嵌入,提升语义相关性建模能力. 词向量特征表示为$ \boldsymbol{W}\in {{\bf{R}}}^{N\times {{d}_{{\mathrm{w}}}}} $. 为了进一步增强实体的上下文信息表达能力,引入关系嵌入模型,通过学习关系嵌入矩阵$ \boldsymbol{R}\in {{\bf{R}}}^{M\times {{d}_{{\mathrm{r}}}}} $,其中$ M $为关系数,$ {d}_{{\mathrm{r}}} $为关系嵌入维度,将知识图谱中的结构信息显式引入实体特征表示中. 为了引入结构上下文信息,基于关系嵌入构建邻域关系特征. 每个实体$ {e}_{i} $的邻域特征由与之相连的关系嵌入和邻接实体共同决定,表达式为

$ {\boldsymbol{N}}_{i}=\frac{1}{|\boldsymbol{N}({e}_{i})|}\sum \limits_{(h,r,t)\in T,h={e}_{i}, t={e}_{i}}{{\boldsymbol{R}}}_{r} . $

式中:$ \boldsymbol{N}({e}_{i}) $为实体$ {e}_{i} $的邻域集合,$ {{\boldsymbol{R}}}_{r} $为关系$ r $的嵌入表示. 对字符特征、词向量特征与邻域关系特征进行拼接融合,得到实体的综合表示:

$ {\boldsymbol{E}}_{i}=[{\boldsymbol{C}}_{i};{\boldsymbol{W}}_{i};{\boldsymbol{N}}_{i}] . $

式中:$ {\boldsymbol{E}}_{i}\in {{\bf{R}}}^{{{d}_{{\mathrm{c}}}}+{{d}_{{\mathrm{w}}}}+{{d}_{{\mathrm{r}}}}} $为实体$ {e}_{i} $的多层次融合特征. 多模态特征融合策略兼顾局部语义细粒度建模与结构拓扑信息补充,供后续特征传播与匹配优化.

2.3. 稀疏邻接矩阵构建与特征传播

为了有效扩展实体的结构上下文信息,同时避免特征过平滑与噪声累积问题,基于关系嵌入构建稀疏邻接矩阵,并结合归一化特征传播机制以实现结构信息的高效传递与稳定建模. 稀疏邻接矩阵的构建依赖关系嵌入的权重:

$ \begin{split} {\boldsymbol{E}}_{i}=&[{\boldsymbol{C}}_{i};{\boldsymbol{W}}_{i};{\boldsymbol{N}}_{i}]{\boldsymbol{A}}_{ij}=\\ & \left\{\begin{array}{*{20}{l}} ||{{\boldsymbol{R}}}_{r}||/(1+\deg (r)), & ({e}_{i},r,{e}_{j})\in {T}; \\ 0, & 其他. \end{array}\right. \\ \end{split} $

式中:$ \deg (r) $为关系$ r $的度. 对邻接矩阵进行归一化处理,确保数值稳定性和信息传播的有效性,得到归一化邻接矩阵:

$ \hat{{\boldsymbol{A}}}={\boldsymbol{D}}^{-1}\boldsymbol{A} . $

式中:$ \boldsymbol{D} $$ \boldsymbol{A} $的度矩阵,满足$ {\boldsymbol{D}}_{ii}={\displaystyle\sum }_{j}{\boldsymbol{A}}_{ij} $. 特征传播采用基于稀疏矩阵的高效计算方式实现. 初始实体特征定义为$ {\boldsymbol{E}}^{(0)}=\boldsymbol{E} $. 在传播过程中,特征通过归一化邻接矩阵进行更新,

$ {\boldsymbol{E}}^{(l+1)}\text=\hat{\boldsymbol{A}}{\boldsymbol{E}}^{(l)};\;\;l=0,1,\cdots ,L-1 . $

为了防止特征传播过程中出现数值爆炸或消失,在每一层传播后对特征进行$ {L}_{2} $归一化操作:

$ {\boldsymbol{E}}^{(l+1)}=\frac{{\boldsymbol{E}}^{(l+1)}}{||{\boldsymbol{E}}^{(l+1)}{||}_{2}} . $

特征传播深度$ l $作为超参数设置,控制上下文扩展范围与计算开销的平衡. 从理论上看,基于关系嵌入构建稀疏邻接矩阵方式的本质是语义加权机制. 通过引入关系向量范数来调整邻接边权,能够有效刻画不同关系对实体间语义传递的重要性. 归一化后的稀疏矩阵有助于稳定特征传播过程,在一定程度上缓解过平滑问题. 此外,该结构结合谱图理论可视为图结构与语义信息融合的近似计算框架,有助于提升特征的可分性与传播过程的收敛性.

2.4. 相似度矩阵计算与Sinkhorn正则化

在特征传播后的实体对齐阶段,通过计算跨图谱实体的相似度矩阵完成语义匹配. 相似度矩阵的元素基于余弦相似度计算:

$ {\boldsymbol{S}}_{ij}\text=\frac{{\boldsymbol{E}}_{i}\cdot {\boldsymbol{E}}_{j}}{||{\boldsymbol{E}}_{i}||\;||{\boldsymbol{E}}_{j}||} . $

式中:$ {\boldsymbol{E}}_{i} $$ {\boldsymbol{E}}_{j} $分别为源知识图谱与目标知识图谱中实体$ {e}_{i} $$ {e}_{j} $的最终特征表示. 在Sinkhorn正则化过程中,通过交替进行行归一化与列归一化操作,将原始相似度矩阵转化为双随机矩阵,即满足所有行向量与列向量均为概率分布(元素和为1)的矩阵. 该操作有助于提高匹配矩阵的全局一致性,降低噪声干扰,促进后续最优匹配的稳定性:

$ {\boldsymbol{S}}^{\prime}\text=\mathrm{Sin}\text{khorn}\;(\boldsymbol{S}) . $

其中Sinkhorn操作由迭代公式实现:

$ {\boldsymbol{S}}^{\prime}\leftarrow \frac{{\boldsymbol{S}}^{\prime}}{{\displaystyle\sum }_{j}\boldsymbol{S}_{ij}^{\prime}},\;\;{\boldsymbol{S}}^{\prime}\leftarrow \frac{{\boldsymbol{S}}^{\prime}}{{\displaystyle\sum }_{i}\boldsymbol{S}_{ij}^{\prime}} . $

在得到优化后的相似度矩阵后,采用Hungarian算法生成最终的实体对齐结果. Hungarian算法通过最大化总相似度目标函数实现最优匹配,目标函数定义为

$ \max \sum \limits_{(ij)\in P}\boldsymbol{S}_{ij}^{\prime} . $

式中:$ P $为最终的实体对齐集合. Hungarian算法在多项式时间复杂度内求解最优匹配,保障实体对齐方案的全局最优性与稳定性,输出实体对齐对$ M=\{({e}_{i},{e}_{j})\} $.

2.5. 方法合理性分析

在知识图谱中,由于实体与关系分布的高度稀疏性,传统密集传播机制易导致噪声累积和特征过平滑问题. 本研究采用基于关系嵌入的稀疏邻接矩阵传播策略,通过限制传播路径和边权稀疏性,抑制无关实体特征干扰,有效提升局部信息扩展的精确性. 基于谱图理论分析,归一化稀疏矩阵$ \hat{{\boldsymbol{A}}}={\boldsymbol{D}}^{-1}\boldsymbol{A} $保证传播过程中的数值稳定性,避免特征膨胀现象,增强了特征空间的可分性. Sinkhorn正则化与Hungarian算法结合,确保匹配阶段全局一致性与最优性,整体提升跨语言异构知识图谱实体对齐任务的准确性、鲁棒性与可扩展性.

3. 实验及结果分析

3.1. 数据集

DBP15K[32]公开数据集上进行不同实体对齐方法的对比实验. DBP15K是实体对齐领域广泛使用的跨语言基准数据集,由DBpedia构建,涵盖3个跨语言子集:英语-中文(DBP_ZH-EN)、英语-日语(DBP_JA-EN)和英语-法语(DBP_FR-EN). 每个子集均包含15 000组预对齐的实体对,覆盖不同语言环境下的知识图谱. 作为早期的对齐数据集,DBP15K在推动跨语言实体对齐研究方面发挥重要作用. DBP15K详情如表1所示,其中NENRNT分别为实体数量、关系数量和三元组数量. 该数据集在语言、结构及关系复杂度上存在显著异构性,适合作为验证跨语言实体对齐模型鲁棒性的标准平台.

表 1   DBP15K数据集的信息统计

Tab.1  Statistics of DBP15K dataset

数据集语言NENRNT
DBP_ZH-EN
中文19 3881 70170 414
英文19 5721 32395 142
DBP_JA-EN
日文19 8141 29977 214
英文19 7801 15393 484
DBP_FR-EN法文19 661903105 998
英文19 9931 208115 722

新窗口打开| 下载CSV


3.2. 评价指标

使用平均倒数排名$ \text{Hits@}n $$ \text{MRR} $评估模型的性能. $ \text{Hits@}n $为分数排名小于或等于$ {n} $的测试三元组的比例,计算式为

$ \text{Hits@}n\boldsymbol=\frac{1}{N_{\mathrm{t}}}\sum \limits_{i=0}^{N_{\mathrm{t}}}{I} ({\text{rank}}_{i}\leqslant n) . $

式中:$ N_{\mathrm{t}} $为测试集中三元组的数量;$ {\mathrm{rank}}_{i} $为实体对齐任务中第$ i $个测试三元组的排名;$ {I}(\cdot ) $为指示函数,当条件为真时取值为1,否则取值为0. $ \text{MRR} $代表所有测试三元组的平均倒数排名,计算式为

$ \text{MRR}\boldsymbol=\frac{1}{N_{\mathrm{t}}}\sum \limits_{i=1}^{N_{\mathrm{t}}}\frac{1}{{\mathrm{rank}}_{i}} . $

当模型的$ \text{Hits@}n $$ \text{MRR} $越高时,表明模型性能越好. 值得注意的是,$ \text{MRR} $不仅考虑正确三元组是否出现在前$ k $个排名中,还考虑它们在排名列表中的位置,提供对知识图嵌入模型性能更全面的评估.

3.3. 对比方法选择

对比所提方法与现有方法的性能,这些方法包括MTransE[16]、GCN-Align[17]、MUGNN[18]、BootEA[19]、PSR[20]、MRAEA[21]、AttrGNN[22]、RDGCN[23]、HGCN[24]、JEANS[25]、EPEA[26]、SNGA[27]和EAMI[28].

3.4. 实验设置

在数据预处理阶段,为了提高实体表示的鲁棒性,采用FastTest预训练词向量(300维)初始化实体的语义嵌入,该词向量在Wikipedia语料上训练,有效捕获单词的子词信息. 字符特征采用bigram模型,即对实体名称中的字符进行二元切分并构建高维稀疏表示,作为补充的字符级特征. 实体的结构信息由其邻接关系表示,通过基于关系嵌入的归一化邻接矩阵进行传播,以增强实体间的全局信息传递. 最终,实体表示由词向量、字符特征和邻接关系特征拼接而成,并进行$ {\mathrm{L}}2 $归一化处理,以确保数值稳定性. 为了实现字符级和词语级语义建模,依据DBP15K原始版本中提供的entity_id到文本标签(label)的对齐信息,利用预处理脚本从原始Wikipedia链接中提取实体名称,作为构建词级(word-level)和字符级(character-level)特征的基础. 在中文实体中,字符特征通过bigram切分实现局部拼写建模;在英文实体中,使用空格划分后的词作为基本单元嵌入. 对于未提供标签的实体或噪声项,采用平均词向量策略补充其嵌入表示,以保证整体特征输入的一致性与有效性. 模型采用批量归一化和dropout操作,以加速收敛并防止过拟合. 在模型训练过程中,采用Adam优化器进行梯度更新,初始学习率设为0.005,在训练过程中进行指数衰减,衰减系数设为0.99,确保优化的稳定性. 在训练过程中,设置批量大小为1 024,训练轮数为50,传播深度$ l=6 $,即在归一化的稀疏邻接矩阵上进行6轮特征传播,以捕获更远距离的实体关系信息. 实验采用Sinkhorn正则化进行相似度矩阵的优化,其中温度参数τ=200,正则化迭代轮数k=40,确保相似度矩阵满足双随机性约束. 在优化后的相似度矩阵上执行Hungarian算法进行最优匹配,确保实体对齐的全局最优解. 实验基于TensorFlow 2.0实现,采用Numpy进行数据处理,确保计算的高效性和数值稳定性. 模型训练与测试均在24 GB GPU内存环境下进行,每组实验均运行5次取均值,以减少随机性对实验结果的影响.

3.5. 实验结果及分析

表2所示为不同实体对齐方法的性能对比结果,可以看出,所提方法在多个评估指标上显著优于现有的基线模型. 在DBP_ZH-EN子集上,所提方法的$ \text{Hits@1} $$ \text{MRR} $分别为0.871和0.900,明显优于MTransE和GCN-Align,充分表明所提方法在准确对齐异构语言实体时具有显著优势. MTransE作为基于嵌入的经典方法,主要通过学习低维向量表示进行对齐,未能充分考虑知识图谱中多层次的结构信息及跨语言的复杂关系,导致其在实际应用中对齐效果较差. 所提方法的$ \text{Hits@10} $和MRR明显高于GCN-Align的对应指标. GCN-Align利用图神经网络来计算节点嵌入,通过消息传递机制优化对齐过程,该方法过于依赖图的结构信息,忽略跨语言之间的语义差异和属性信息,导致其在多语言对齐中的表现受到限制. 所提方法通过在嵌入模型中引入更丰富的语言信息,结合跨语言实体的上下文语义和结构信息,使得$ \text{Hits@10} $$ \text{MRR} $显著提升,该结果进一步验证了所提方法的鲁棒性与有效性. 在DBP_JA-EN子集上,所提方法的$ \text{Hits@1} $$ \text{MRR} $分别为0.938和0.955,相比PSR和MRAEA的对应指标有明显提升. PSR引入简化图编码器和半监督学习策略,但在复杂实体关系建模上存在不足;MRAEA通过元关系感知优化对齐,但当不同语言体系中的实体表达差异较大时,其处理效果有所下降. 相比之下,所提方法通过稀疏矩阵传播与多层次特征融合,兼顾局部细粒度信息与全局结构感知,提升了跨语言对齐的稳定性与准确性. 在DBP_FR-EN数据集上,所提方法的$ \text{Hits@1} $$ \text{Hits@10} $分别为0.976和0.995,整体优于主流方法EPEA、PSR、MRAEA的对应指标. 虽然EPEA在小规模、高密度数据集中通过直接对实体对进行嵌入学习展现了较强性能,但在面对结构异构或语言差异较大的知识图谱时,泛化能力有限. 所提方法在DBP_FR-EN这样结构密集、语言近似的数据集上展现了更强的综合建模能力,能够有效融合上下文语义、关系拓扑与邻域信息,提升多语言对齐的鲁棒性与精度. 值得注意的是,相比JEANS和AttrGNN,所提方法在不同子集上展现出更均衡且稳定的性能. JEANS虽然通过偶然监督信号提升了跨语言对齐效果,但在对齐种子稀缺场景下性能下降明显;AttrGNN过度依赖静态属性信息,导致在动态异构环境下表现有限. 相比之下,所提方法在不同跨语言数据集间均展现出更好的适应性与稳健性. 所提方法的整体性能接近EAMI,略低于SNGA. EAMI具有统一的文本蕴涵推理框架,使得实体对齐中的细粒度语义理解能力有效增强,特别是在多语言文本推理场景中具有明显优势;SNGA引入结构噪声感知机制,能够在噪声较多、结构不确定性大的知识图谱中保持较高的对齐精度,因而$ \text{Hits@1} $$ \text{MRR} $略高于所提方法. 与之相比,所提方法在局部特征建模和全局信息整合方面已取得突破,但在处理极端语义推理复杂度或高噪声环境方面,仍有提升空间. 综合实验结果与分析可知,所提方法在不同跨语言、异构结构的数据集上均展现出优异的实体对齐性能,具有较强的泛化能力和扩展潜力. 尽管与部分代表性方法(如SNGA、EAMI)相比在极端复杂环境下略有差距,但在综合建模局部语义、全局拓扑以及优化对齐一致性方面,本研究提出的策略仍具备显著的应用价值与研究潜力.

表 2   不同实体对齐方法在DBP15K数据集上的性能对比

Tab.2  Performance comparison of different entity alignment methods on DBP15K dataset

方法DBP_ZH-ENDBP_JA-ENDBP_FR-EN
Hits@1Hits@10MRRHits@1Hits@10MRRHits@1Hits@10MRR
MTransE[16]0.2090.5120.3100.2500.5720.3600.2470.5770.360
GCN-Align[17]0.4340.7620.5500.4270.7620.5400.4110.7720.530
MuGNN[18]0.4940.8440.6110.5010.8570.6210.4950.8700.621
BootEA[19]0.6290.8470.7030.6220.8530.7010.6530.8740.731
PSR[20]0.8020.9350.8510.8030.9380.8520.8280.9520.874
MRAEA[21]0.7570.9300.8270.7580.9340.8260.7810.9480.849
AttrGNN[22]0.7960.9290.8450.7830.9200.8340.9190.9790.910
RDGCN[23]0.6970.8420.7500.7630.8970.8100.8730.9500.901
HGCN[24]0.7200.8570.7600.7660.8970.8120.8920.9610.910
JEANS[25]0.7190.8950.7910.7370.9140.7980.7690.9400.827
EPEA[26]0.8850.9530.9110.9240.9690.9420.9550.9860.967
SNGA[27]0.9870.9970.9910.9910.9980.9940.9981.0000.999
EAMI[28]0.9350.9820.9500.9390.9780.9500.9870.9960.990
本研究0.8710.9500.9000.9380.9820.9550.9760.9950.984

新窗口打开| 下载CSV


3.6. 训练过程收敛性分析

图3所示为所提方法在DBP15K3个子集中的训练阶段的损失函数收敛曲线,其中$ e $为训练轮数,$ L $为损失值. 可以看出,3条曲线在初始阶段均呈现出较快的下降趋势,表明模型在前几轮训练中能够迅速学习到有效特征. 随着训练轮数的增加,损失值逐步收敛并在第40轮后趋于平稳,说明模型已达到较为稳定的最优状态. 从整体趋势看,DBP_ZH-EN子集的损失下降幅度略快,DBP_JA-EN和DBP_FR-EN子集在中后期收敛性较强,表明所提方法在多语种异构图谱下具备良好的适应性与泛化能力. 此外,各曲线中存在的轻微扰动反映出训练过程中的自然波动,但不影响整体收敛效果,进一步印证本研究构建的特征融合与传播机制在不同数据场景下的稳定性与鲁棒性.

图 3

图 3   DBP15K各子集的训练损失收敛曲线

Fig.3   Training loss convergence curves on DBP15K subsets


3.7. 消融实验

设计系统性的消融实验,逐一移除所提方法的关键模块并观察性能变化. 关键模块包括稀疏特征传播、关系嵌入、字符级嵌入、Sinkhorn归一化以及Hungarian匹配,实验结果如表3所示. 可以看出,完整模型在所有数据集上均达到最优性能,说明各个模块的协同融合对于提升实体对齐精度的关键作用. 若移除稀疏特征传播模块,模型的Hits@1下降明显,尤其在DBP_ZH-EN子集中,Hits@1下降了0.035,说明结构信息在应对稀疏知识图谱中的长距离依赖传播方面具有显著贡献. 关系嵌入被移除后,模型在DBP_JA-EN和DBP_FR-EN子集上的Hits@1分别下降了0.049和0.042,说明该模块在结构密集、语义关系复杂的图谱中可有效补充实体之间的语义桥梁,特别适用于语言语序和语义逻辑差异较大的跨语言对齐任务. 字符级嵌入的影响主要体现在DBP_ZH-EN子集,Hits@1下降了0.021. 这是由于中文语言缺乏形态变化明确的分词边界,字符粒度信息在增强语义匹配鲁棒性方面发挥了关键作用. 在DBP_FR-EN子集中,字符级嵌入模块影响相对较小,原因是法语与英语共享较多形态相似词汇,词级嵌入即可表达大部分语义. Sinkhorn归一化被移除后,MRR在3个子集上相对于完整模型的平均相对降幅约为1.5%,说明该模块通过交替归一化相似度矩阵,有效优化了匹配矩阵的概率分布结构,提高了匹配稳定性,降低了噪声干扰. 移除Hungarian算法模块对模型的影响最为剧烈,在DBP_ZH-EN子集中,Hits@1下降了0.081. 说明在最终实体分配阶段,全局最优匹配策略对性能具有决定性作用,没有Hungarian算法支持时,模型难以在全局范围内构建一致有效的对齐映射. 此外,通过不同模块组合的对比分析可以观察到,稀疏传播和Sinkhorn正则化之间存在显著协同效应. 稀疏传播扩展了实体的结构语义表示能力,Sinkhorn从匹配矩阵层面强化了行列归一性,两者的结合有效提升了对齐精度与稳定性. 消融实验充分验证了所提方法的模块设计合理性与组合策略的有效性. 各个模块在不同数据环境下发挥出互补特性,为最终的多语言实体对齐结果提供了强有力的支持.

表 3   所提实体对齐方法不同模块的消融实验结果

Tab.3  Ablation results of different modules in proposed entity alignment method

方法变体DBP_ZH-ENDBP_JA-ENDBP_FR-EN
Hits@1Hits@10MRRHits@1Hits@10MRRHits@1Hits@10MRR
完整模型 0.871 0.950 0.900 0.938 0.982 0.955 0.976 0.995 0.984
移除稀缺特征传播模块0.8360.9320.8780.9020.9710.9300.9420.9850.962
移除关系嵌入模块0.8190.9240.8670.8890.9580.9230.9340.9820.958
移除字符级嵌入模块0.8500.9400.8900.9210.9750.9420.9600.9900.975
移除Sinkhorn 归一化模块0.8450.9370.8850.9180.9730.9400.9560.9880.973
移除Hungarian算法模块0.7900.9100.8400.8640.9460.9050.9180.9750.948

新窗口打开| 下载CSV


3.8. 辅助实验

为了深入理解关键超参数对方法性能的影响,分别从相似度归一化温度τ、结构传播深度$ l $以及负样本生成策略开展辅助实验分析. 如图4所示为不同τ在DBP_ZH-EN子集上对Hits@1的影响趋势,k为正则化迭代轮数. 当τ$ =200 $时,方法整体表现最优,具有更快的收敛速度和更高的最终精度. τ控制着Sinkhorn归一化中相似度矩阵的平滑程度,在数值上等价于softmax函数的温度项. 较低的τ使归一化更接近独热(one-hot)分布,有助于增强匹配的稀疏性与判别性;若τ取值过小,则可能导致梯度不稳定. 相反,当τ$ \geqslant 500 $时,相似度矩阵趋于均匀分布,训练过程中信息梯度分布受损,匹配方向模糊,最终影响模型性能. 该实验结果说明,在实体对齐任务中,Sinkhorn温度调节不仅影响收敛路径,也直接关系到匹配矩阵的优化效果. 如图5所示为传播深度对DBP15K不同子集对齐性能的影响. 整体趋势显示,随着传播深度的增加,Hits@1在初期稳步上升,尤其是在DBP_FR-EN子集中,模型能充分挖掘远距离邻接关系的语义特征,性能得到显著提升;当$ l > 6 $时,性能出现下滑. 该现象与图神经网络中“过度平滑”问题高度一致,即深层传播导致实体表示趋同,抑制特征区分度,降低匹配精度. DBP_ZH-EN子集下降更为明显,这可能与该数据集中实体结构稀疏、跨语言异构性强有关,深层传播加剧了信息扩散失真问题. 该实验结果验证了关系嵌入驱动的稀疏传播在适当深度下能够增强结构感知能力,但过深堆叠会削弱语义判别效果. 如图6所示为不同负样本数量Nneg在DBP_ZH-EN子集上对模型Hits@1和Hits@10的影响. 实验表明,适量的负样本(Nneg=5~10)有助于提高对齐模型的判别边界与收敛稳定性. 当负样本数较少时,模型学习空间受限,难以构建强判别特征;当负样本数量逐步增加至40时,Hits@1和Hits@10明显下滑,分别下降至0.843与0.902. 这一趋势说明负采样策略的有效性不仅依赖于数量,还应考虑其对训练目标梯度结构的影响. 样本数量过多时,负例间语义相似性不足,可能引入大量冗余信息,稀释有效信号,甚至产生梯度冲突,进而抑制实体表征空间的优化过程. 以上3组实验从归一化行为、结构信息建模深度、训练对比机制角度揭示了模型设计参数对实体对齐性能的综合影响,为模型泛化提升与参数自适应机制提供了理论与实证依据.

图 4

图 4   不同温度下DBP_ZH-EN数据集的Hits@1变化情况

Fig.4   Hits@1 variation on DBP_ZH-EN dataset under different temperature


图 5

图 5   不同传播深度下DBP15K各子集上的Hits@1变化情况

Fig.5   Hits@1 variation on DBP15K subsets under different propagation depths


图 6

图 6   不同负样本三元组数量下的Hits@1和Hits@10

Fig.6   Hits@1 and Hits@10 under different numbers of negative sample triples


4. 结 语

本研究针对现有实体对齐方法在结构建模与特征表达方面的不足,提出融合多层次嵌入特征与稀疏矩阵传播机制的实体对齐方法. 从字符级、词语级和邻域结构3个层次构建多层次实体表示,实现语义细粒度与结构上下文的联合建模. 基于关系嵌入构建稀疏邻接矩阵,引入图结构信息以增强特征传播过程中的语义一致性. 为了提升对齐质量,引入Sinkhorn正则化对相似度矩阵进行双随机约束,结合Hungarian算法实现全局最优匹配. 在3个跨语言子集上的实验结果表明,所提方法构建模型在模型性能主流评估指标上均优于传统基线模型,在DBP_FR-EN子集上展现出对结构紧凑、语义相近图谱的良好适应能力. 模型性能在部分复杂场景下仍有提升空间,在结构简洁性、训练稳定性与跨语言迁移鲁棒性方面所提方法表现突出,适合资源受限与参数敏感的实际应用环境. 所提方法无需大量先验对齐对的参与,便能有效提升对结构异构与语义不一致实体的识别能力,为大规模跨语言知识图谱的融合任务开辟了可行的技术路径.

参考文献

CHEN X, JIA S, XIANG Y

A review: knowledge reasoning over knowledge graph

[J]. Expert Systems with Applications, 2020, 141: 112948

DOI:10.1016/j.eswa.2019.112948      [本文引用: 1]

ZHAO X, ZENG W, TANG J, et al

An experimental study of state-of-the-art entity alignment approaches

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34 (6): 2610- 2625

[本文引用: 1]

FU T C, CHUNG F L, LUK R, et al

Stock time series pattern matching: template-based vs. rule-based approaches

[J]. Engineering Applications of Artificial Intelligence, 2007, 20 (3): 347- 364

DOI:10.1016/j.engappai.2006.07.003      [本文引用: 1]

CHANDRASEKARAN D, MAGO V

Evolution of semantic similarity: a survey

[J]. ACM Computing Surveys, 2021, 54 (2): 1- 37

[本文引用: 1]

HERRMANN L, KOLLMANNSBERGER S

Deep learning in computational mechanics: a review

[J]. Computational Mechanics, 2024, 74 (2): 281- 331

DOI:10.1007/s00466-023-02434-4      [本文引用: 1]

CORSO G, STARK H, JEGELKA S, et al

Graph neural networks

[J]. Nature Reviews Methods Primers, 2024, 4: 17

DOI:10.1038/s43586-024-00294-7      [本文引用: 1]

QAISER S, ALI R

Text mining: use of TF-IDF to examine the relevance of words to documents

[J]. International Journal of Computer Applications, 2018, 181 (1): 25- 29

DOI:10.5120/ijca2018917395      [本文引用: 1]

COHEN W W, RICHMAN J. Learning to match and cluster large high-dimensional data sets for data integration [C]// Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Edmonton: ACM, 2002: 475–480.

[本文引用: 1]

BUSCALDI D, ROSSO P, GÓMEZ-SORIANO J M, et al

Answering questions with an n-gram based passage retrieval engine

[J]. Journal of Intelligent Information Systems, 2010, 34 (2): 113- 134

DOI:10.1007/s10844-009-0082-y      [本文引用: 1]

SARAWAGI S, BHAMIDIPATY A. Interactive deduplication using active learning [C]// Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Edmonton: ACM, 2002: 269–278.

[本文引用: 1]

ARASU A, GÖTZ M, KAUSHIK R. On active learning of record matching packages [C]// Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. Indianapolis: ACM, 2010: 783–794.

[本文引用: 1]

JEAN-MARY Y R, SHIRONOSHITA E P, KABUKA M R. ASMOV: results for OAEI 2010 [C]// Proceedings of the 5th International Workshop on Ontology Matching (OM 2010). Shanghai: [s.n.], 2010: 114−121.

[本文引用: 1]

SUCHANEK F M, ABITEBOUL S, SENELLART P. PARIS: probabilistic alignment of relations, instances, and schema [EB/OL]. (2011−11−30)[2025−03−05]. https://arxiv.org/pdf/1111.7164.

[本文引用: 1]

LACOSTE-JULIEN S, PALLA K, DAVIES A, et al. SiGMa: simple greedy matching for aligning large knowledge bases [C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Chicago: ACM, 2013: 572−580.

[本文引用: 1]

SONG D, LUO Y, HEFLIN J

Linking heterogeneous data in the semantic web using scalable and domain-independent candidate selection

[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29 (1): 143- 156

DOI:10.1109/TKDE.2016.2606399      [本文引用: 1]

CHEN M, TIAN Y, YANG M, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment [EB/OL]. (2017−05−17)[2025−03−05]. https://arxiv.org/pdf/1611.03954.

[本文引用: 3]

FEY M, LENSSEN J E, MORRIS C, et al. Deep graph matching consensus [EB/OL]. (2020−01−27)[2025−03−05]. https://arxiv.org/pdf/2001.09621.

[本文引用: 3]

CAO Y, LIU Z, LI C, et al. Multi-channel graph neural network for entity alignment [EB/OL]. (2019−08−26)[2025−03−05]. https://arxiv.org/pdf/1908.09898.

[本文引用: 3]

SUN Z, HU W, ZHANG Q, et al. Bootstrapping entity alignment with knowledge graph embedding [C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm: ACM, 2018: 4396–4402.

[本文引用: 3]

MAO X, WANG W, WU Y, et al. Are negative samples necessary in entity alignment? An approach with high performance, scalability and robustness [C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management. [S.l.]: ACM, 2021: 1263−1273.

[本文引用: 3]

MAO X, WANG W, XU H, et al. MRAEA: an efficient and robust entity alignment approach for cross-lingual knowledge graph [C]// Proceedings of the 13th International Conference on Web Search and Data Mining. Houston: ACM, 2020: 420−428.

[本文引用: 3]

LIU Z, CAO Y, PAN L, et al. Exploring and evaluating attributes, values, and structures for entity alignment [EB/OL]. (2021−01−02)[2025−03−05]. https://arxiv.org/pdf/2010.03249.

[本文引用: 3]

WU Y, LIU X, FENG Y, et al. Relation-aware entity alignment for heterogeneous knowledge graphs [EB/OL]. (2019−08−22)[2025−03−05]. https://arxiv.org/pdf/1908.08210.

[本文引用: 3]

WU Y, LIU X, FENG Y, et al. Jointly learning entity and relation representations for entity alignment [EB/OL]. (2019−09−20)[2025−03−05]. https://arxiv.org/pdf/1909.09317.

[本文引用: 3]

CHEN M, SHI W, ZHOU B, et al. Cross-lingual entity alignment with incidental supervision [EB/OL]. (2021−01−26)[2025−03−05]. https://arxiv.org/pdf/2005.00171.

[本文引用: 3]

WANG Z, YANG J, YE X. Knowledge graph alignment with entity-pair embedding [C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2020: 1672−1680.

[本文引用: 3]

TANG J, ZHAO K, LI J. A fused Gromov-Wasserstein framework for unsupervised knowledge graph entity alignment [EB/OL]. (2023−05−11)[2025−03−05]. https://arxiv.org/pdf/2305.06574.

[本文引用: 3]

ZHAO Y, WU Y, CAI X, et al. From alignment to entailment: a unified textual entailment framework for entity alignment [C]// Findings of the Association for Computational Linguistics. Toronto: ACL, 2023: 8795−8806.

[本文引用: 3]

PATRINI G, VAN DEN BERG R, FORRE P, et al. Sinkhorn autoencoders [C]// 35th Uncertainty in Artificial Intelligence Conference. Toronto: PMLR, 2020: 733−743.

[本文引用: 1]

HAMUDA E, MC GINLEY B, GLAVIN M, et al

Improved image processing-based crop detection using Kalman filtering and the Hungarian algorithm

[J]. Computers and Electronics in Agriculture, 2018, 148: 37- 44

DOI:10.1016/j.compag.2018.02.027      [本文引用: 1]

GRANGER S, BESTGEN Y

The use of collocations by intermediate vs. advanced non-native writers: a bigram-based study

[J]. International Review of Applied Linguistics in Language Teaching, 2014, 52 (3): 229- 252

[本文引用: 1]

SUN Z, HU W, LI C. Cross-lingual entity alignment via joint attribute-preserving embedding [C]// Proceedings of the Semantic Web – ISWC 2017. [S.l.]: Springer, 2017: 628–644.

[本文引用: 1]

/