大模型知识引导的复合多注意力文档级关系抽取方法

doi:10.3785/j.issn.1008-973X.2025.09.003

大模型知识引导的复合多注意力文档级关系抽取方法

竹志超^,, 李建强, 齐宏智, 赵青^,, 高齐, 李思颖, 蔡嘉怡, 沈金炎

1. 北京工业大学计算机学院，北京 100124

2. 北京工业大学北京-都柏林国际学院，北京 100124

Large model knowledge-guided composite multi-attention method for document-level relation extraction

ZHU Zhichao^,, LI Jianqiang, QI Hongzhi, ZHAO Qing^,, GAO Qi, LI Siying, CAI Jiayi, SHEN Jinyan

1. College of Computer Science, Beijing University of Technology, Beijing 100124, China

2. Beijing-Dublin International College, Beijing University of Technology, Beijing 100124, China

通讯作者: 赵青，女，副研究员，博士. orcid.org/0000-0001-9570-9546. E-mail: zhaoqing@bjut.edu.cn

收稿日期: 2024-09-25

基金资助:

国家科学基金联合基金资助项目（U20A2018）；北京市卫生健康委员会高级公共卫生技术人才建设项目（领军人才03-10）.

Received: 2024-09-25

Fund supported:

国家科学基金联合基金资助项目（U20A2018）；北京市卫生健康委员会高级公共卫生技术人才建设项目（领军人才03-10）.

作者简介 About authors

竹志超（1994—），男，博士生，从事自然语言处理、医学人工智能研究.orcid.org/0000-0002-1544-8831.E-mail：zhuzc@emails.bjut.edu.cn , E-mail：zhuzc@emails.bjut.edu.cn

摘要

针对现有文档级关系抽取（DRE）方法对各类语义信息内部特征的重要性区分不足以及外部领域知识规模受限、实时扩展困难的问题，提出大语言模型知识引导的复合多注意力（LKCM）方法. 通过集成复合多注意力框架，利用注意力机制对词、句和文档级特征进行细致提取，有效区分不同语义信息内部特征的重要性；将大语言模型微调为动态领域知识库组件，借助其广泛的常识性知识和强大的推理能力，持续为模型提供知识指导，有效缓解知识规模有限和难以实时扩展的问题. 在真实医学关系数据集上的实验结果表明，LKCM在F1指标上的平均值超出最佳基线方法1.54个百分点. 该方法显著提高了长距离跨句关系的捕捉能力，增强了对关键特征的辨识效果，具备较好的性能和推广价值.

关键词： 文档级关系抽取 ; 领域知识 ; 注意力 ; 大语言模型 ; 常识推理

Abstract

A large language model knowledge-guided composite multi-attention (LKCM) method was proposed to address the shortcomings in current document-level relation extraction (DRE) methods, namely, the insufficient differentiation of internal feature importance in various semantic information and the limited, hard-to-expand scale of external domain knowledge. By integrating a composite multi-attention framework, the attention mechanism was utilized to meticulously extract features at the word, sentence, and document levels to effectively distinguish the varying importance of internal features across different semantic information. A large language model was fine-tuned as a dynamic domain knowledge base component and its extensive commonsense knowledge and reasoning capabilities were leveraged to continuously provide guidance for the model. This design effectively mitigates the issues of limited knowledge scale and difficult real-time expansion. Experimental results on a real-world medical relation dataset showed that the average F1 score of the LKCM was 1.54 percentage points higher than that of the best baseline. The comprehensive analysis demonstrated that this method not only enhanced the capture of long-distance, cross-sentence relations but also improved the identification of key features. The LKCM method exhibits strong performance and broad applicability.

Keywords： document-level relation extraction ; domain knowledge ; attention ; large language model ; common sense reasoning

PDF (1235KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

竹志超, 李建强, 齐宏智, 赵青, 高齐, 李思颖, 蔡嘉怡, 沈金炎. 大模型知识引导的复合多注意力文档级关系抽取方法. 浙江大学学报(工学版)[J], 2025, 59(9): 1793-1802 doi:10.3785/j.issn.1008-973X.2025.09.003

ZHU Zhichao, LI Jianqiang, QI Hongzhi, ZHAO Qing, GAO Qi, LI Siying, CAI Jiayi, SHEN Jinyan. Large model knowledge-guided composite multi-attention method for document-level relation extraction. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1793-1802 doi:10.3785/j.issn.1008-973X.2025.09.003

关系抽取（relation extraction，RE）旨在识别文本中实体之间的语义关系^[1]. 早期的方法主要处理句子级关系抽取^[2-4]，然而，许多关系分布在不同句子中^[5]，因此需要采用文档级关系抽取（document-level relation extraction，DRE）方法. 为了充分利用文档中复杂的语义信息（如词、句、依赖关系等），近期一些研究设计了文档级图，并提出基于图卷积神经网络（graph convolutional network，GCN）^[6]的模型^[7-9]. 此外，大规模领域知识库，如Wikidata、DBpedia、知识图谱等，也日渐成为信息提取的宝贵资源^[10-15]. 领域知识的注入为DRE预测增加了更多可用特征，进一步推动了DRE技术的发展^[16-19]. 尽管这些研究在DRE上的成果已十分显著，但2个主要问题限制了它们的发展. 1）对各类语义信息内部特征的重要性差异区分不足. 具体来说，这些方法通常只对文档中各个句子或提及内的词嵌入进行简单的数学运算（例如求和、求平均或池化），以获得实体的嵌入表示，而没有考虑不同词汇的贡献权重. 其次，GCN对文档级图中的全部节点平等对待，无法聚焦到更具指示性的特征. 2）知识资源的规模通常是有限且难以扩充的. 对于现有的知识库、知识图谱等知识表示形式而言，内容通常是静态固化的；知识扩展涉及到一系列复杂的知识整合流程（如实体消歧、知识对齐等），这使得模型在面对新的数据或知识域时泛化能力受限.

本研究通过集成大语言模型（large language model，LLM），提出一种大模型知识引导的复合多注意力（LLM knowledge-guided composite multi-attention，LKCM）方法. 通过设计复合多注意力框架，对词、句、文档级图等每种语义信息，都使用注意力机制进行提取，以捕捉内部特征的重要性差异. 引入大语言模型并将其设计为动态领域知识库组件，基于其广泛的常识性知识和强大的推理能力，动态可持续地为模型提供领域知识支持. 最后，全面聚合各类语义信息，以预测长距离跨句实体对的关系.

1. 相关工作

DRE在过去几年中已有相当多的研究，大致可以分为基于序列的模型、基于图的模型和基于知识的模型.

基于序列的模型采用BERT^[20]之类的神经编码器来隐式地捕获文档中的依赖关系. Wang等^[21]使用BERT对文档进行编码，设计两步管道，预测2个实体之间是否存在关系，进而预测具体的关系类型. Zhou等^[22]提出本地化上下文池，将注意力从预训练的语言模型和自适应阈值转移到多标签和多实体问题. Xu等^[23]修改了BERT中的注意力机制，对实体之间的共指和共现结构进行建模，以更好地捕获上下文中的语义信息.

基于图的模型通过构建文档级图来捕获文档中的语义信息，并设计各种神经网络对构建的文档级图进行推理. Quirk等^[24]将文档中的单词建模为节点，将句子内/间的依赖关系建模为边. 基于这一思路，Peng等^[25]使用图长短期记忆模型，而Verga等^[26]使用Transformer^[27]对文档级图进行编码. 最近，关系抽取模型LSR^[28]、GLRE^[7]、GAIN^[29]和GCGCN^[9]定义更复杂的文档级图，以便在文档中保留更多的依赖信息. 与之不同的是，GRACR模型^[8]建立实体级图，并通过关系图卷积神经网络（relational GCNs, R-GCNs）实现实体节点之间的交互，以发现长距离跨句实体对的潜在关系.

此外，一些工作研究如何将外部知识注入到RE任务中以进一步提高性能. Wang等^[16]试图在新的文档级图RST-GRAPH上选择合适的证据并展示推理过程. RST-GRAPH通过修辞结构理论（rhetorical structure theory, RST）揭示多个文本单元之间的有效语义关联，并整合一系列推理模块来捕获有效证据. Sousa等^[17]通过添加基于知识图谱的推荐机制，来提高系统识别基线深度RE模型无法从文本中提取的真实关系的能力. Wang等^[15]提出KIRE架构，通过引入共指蒸馏来注入共指知识，赋予RE模型更广泛的共指推理能力，并通过表示协调来注入事实知识，将知识图谱表示和文档表示聚合到统一的空间中. Chen等^[18]提出利用阅读理解和先验知识进行生物医学关系抽取的方法. 实验结果显示，开放领域的阅读理解数据和知识表示有助于提高医学关系抽取能力. 为了更好地融合知识，Zhang等^[19]在因果方向的指导下有效地聚合了上下文和层次知识语义，提出GECANet架构，并证实融合外部知识可以有效地引导模型识别事件之间的因果关系.

2. 模型定义及框架设计

2.1. 定义

2.1.1. 文档级图

令$ {\boldsymbol{G}}_{\mathrm{d}}=({\boldsymbol{V}}_{\mathrm{d}},{\boldsymbol{E}}_{\mathrm{d}}) $表示文档级图，如图1中③所示. $ {\boldsymbol{V}}_{\mathrm{d}}={\boldsymbol{V}}_{\mathrm{s}}\cup {\boldsymbol{V}}_{\mathrm{m}} $，其中$ {\boldsymbol{V}}_{\mathrm{s}} $和$ {\boldsymbol{V}}_{\mathrm{m}} $分别为句子节点集和提及节点集. 每一个句子节点$ {{\boldsymbol{v}}_{{\boldsymbol{s}}_{{i}}}\in \boldsymbol{V}}_{\mathrm{s}} $的表示聚合了其包含的词特征、节点类型特征和在文档中的位置特征，每一个提及节点$ {{\boldsymbol{v}}_{{\boldsymbol{m}}_{i}}\in \boldsymbol{V}}_{\mathrm{m}} $的表示聚合了构成提及的词特征以及该节点的类型特征. $ {\boldsymbol{E}}_{\mathrm{d}}={\boldsymbol{E}}_{\mathrm{M}\mathrm{m}}\cup {\boldsymbol{E}}_{\mathrm{M}\mathrm{s}}\cup {\boldsymbol{E}}_{\mathrm{S}\mathrm{s}} $，其中$ {\boldsymbol{E}}_{\mathrm{M}\mathrm{m}} $为“提及-提及边”集，$ {\boldsymbol{E}}_{\mathrm{M}\mathrm{s}} $为“提及-句子边”集，$ {\boldsymbol{E}}_{\mathrm{S}\mathrm{s}} $为“句子-句子边”集.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 大语言模型知识引导的复合多注意力架构

Fig.1 Framework of large language model knowledge-guided composite multi-attention method

2.1.2. 实体级图

令$ {\boldsymbol{G}}_{\mathrm{e}}=({\boldsymbol{V}}_{\mathrm{e}},{\boldsymbol{E}}_{\mathrm{e}}) $表示实体级图，如图1中④所示. $ {\boldsymbol{V}}_{\mathrm{e}} $为实体节点的集合，其中每一个实体节点的嵌入表示$ {{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}\in \boldsymbol{V}}_{\mathrm{e}} $聚合了它所引用的提及节点的特征、文档级图聚合特征、实体类型特征、背景知识描述特征. $ {\boldsymbol{E}}_{\mathrm{e}}={\boldsymbol{E}}_{\mathrm{I}\mathrm{s}}\cup {\boldsymbol{E}}_{\mathrm{L}\mathrm{r}} $为实体间关系(即边)的集合，其中$ {\boldsymbol{E}}_{\mathrm{I}\mathrm{s}} $为“句内边”集，$ {\boldsymbol{E}}_{\mathrm{L}\mathrm{r}} $为“逻辑推理边”集.

2.1.3. 问题

给定1个带有实体标注的文档$ \boldsymbol{D} $，其包含1组实体 $ \mathbf{E}\mathbf{n}\mathbf{t}=\{{\boldsymbol{e}}_{1},{\boldsymbol{e}}_{2}, \cdots ,{\boldsymbol{e}}_{n}\} $和1组候选的关系类型$ \boldsymbol{R}=\{{\boldsymbol{r}}_{1},{\boldsymbol{r}}_{2}, \cdots ,{\boldsymbol{r}}_{s}\} $. 其中任一实体$ {\boldsymbol{e}}_{i}\in \mathbf{E}\mathbf{n}\mathbf{t} $都存在多个不同的文本提及形式，可以表示为$ {\boldsymbol{M}}_{{\boldsymbol{e}}_{{i}}}=\{{\boldsymbol{m}}_{1}^{i},{\boldsymbol{m}}_{2}^{i}, \cdots ,{\boldsymbol{m}}_{k}^{i}\} $，任意$ {\boldsymbol{m}}_{j}^{i}\in {\boldsymbol{M}}_{{\boldsymbol{e}}_{{i}}} $为实体$ {\boldsymbol{e}}_{i}\in \mathbf{E}\mathbf{n}\mathbf{t} $的文本提及形式之一. 本研究旨在预测文档中任意一对实体($ {\boldsymbol{e}}_{i}\in \mathbf{E}\mathbf{n}\mathbf{t},{\boldsymbol{e}}_{j}\in \mathbf{E}\mathbf{n}\mathbf{t} $)是否存在候选关系$ {\boldsymbol{r}}_{k}\in \bf{R} $，若存在则输出对应的关系，否则标注为“无关系”.

2.2. 框架设计

模型的整体架构如图1所示，主要由5个模块组成：微调模块、嵌入模块、文档级图模块、实体级图模块和预测模块.

2.2.1. 微调模块

微调模块旨在将医学领域知识资源归纳到语言模型中，使其更好地适应医学相关任务，如图1中①所示. 在本研究中，微调过程涉及RoBERTa^[30]语言模型微调和ChatGLM2-6B^[31]大语言模型微调2个部分.

1）RoBERTa微调

RoBERTa具有比BERT模型更好的性能表现. 然而，RoBERTa-base模型只在维基百科、图书语料库、CC-NEWS、OPENWEBTEXT和STORIES上进行过预训练. 医学文本由许多很少出现在这些语料库中的专业术语组成. 因此，在生成嵌入之前，使用大规模医学语料库. 这些语料库涉及中文的医学文献、专著、百科全书以及真实的电子医疗记录，总大小约为6 GB.

首先需要对语料库中的数据进行清洗，以去除无关信息，如页眉、页脚、图片说明等. 然后，对文档进行分句，为模型的输入做准备. 由于RoBERTa与BERT的整体结构基本相似，微调RoBERTa-base模型时借鉴Devlin等^[20]采用的技巧，以精化嵌入表示，进而更好地表示医学文档.

2）ChatGLM2-6B微调

ChatGLM2-6B是清华大学提出的大语言模型，相比于ChatGPT^[32]、LLaMA^[33]等超大规模大语言模型，其参数规模较小，支持本地离线指令微调. 此外，离线操作不涉及联网环节，有效避免了敏感数据在公网传输时可能出现的隐私泄露问题. 因此，ChatGLM2-6B更适用于本研究面向的真实医学文本相关任务. ChatGLM2-6B模型的微调数据是带有标签的中文医学数据，来自于公开数据以及合作医院提供的由专业医学团队标注的真实数据，涉及约3 682个文档，共计49 172个标准医学实体. 这些标准医学实体的背景知识描述信息由合作医院提供或通过百度百科检索获得.

ChatGLM2-6B指令微调方法采用LoRA^[34]微调方法. 具体的指令微调过程涉及2个步骤.

1）使用带标记数据$ [{P}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}{]}_{\sum _{i=1}^{I}{N}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}-i}} $进行微调.

2）使用无标记数据 $ [{P}_{\mathrm{t}\mathrm{e}\mathrm{s}\mathrm{t}}{]}_{\sum _{i=1}^{I}{N}_{\mathrm{t}\mathrm{e}\mathrm{s}\mathrm{t}-i}} $进行测试.

(1)$ P={\mathrm{I}\mathrm{n}\mathrm{p}\mathrm{u}\mathrm{t}}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}}+{S}_{ \mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}}+{Q}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}}+{\mathrm{O}\mathrm{u}\mathrm{t}\mathrm{p}\mathrm{u}\mathrm{t}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{r}\mathrm{o}\mathrm{l}}. $

式中：$ {N}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}-i} $和$ {N}_{\mathrm{t}\mathrm{e}\mathrm{s}\mathrm{t}-i} $分别表示训练数据集和测试数据集；$ I $表示用于微调的数据集；$ i\in I $表示微调数据集$ I $ 中的第i个样本，且|$ i $|≥1；$ {\mathrm{I}\mathrm{n}\mathrm{p}\mathrm{u}\mathrm{t}}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $表示输入的数据；$ {S}_{ \mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $提供目标任务的规范；$ {Q}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $表示模型要回答的问题；$ {\mathrm{O}\mathrm{u}\mathrm{t}\mathrm{p}\mathrm{u}\mathrm{t}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{r}\mathrm{o}\mathrm{l}} $控制模型的输出（例如，要求模型“输出信息的长度不超过200个字”）. 为了说明$ {S}_{ \mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $和$ {Q}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $的设计方式，这里给出1个示例：

$ {S}_{ \mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $：“这是一个医学实体，作为一名医学专家，仔细阅读这个疾病并评价这个问题. ”

$ {Q}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $：“请提供这份医学实体的相关医学背景和相关介绍. ”

经过指令微调后，可以获得用于提供实体背景知识描述信息的大语言模型，即ChatDR. 该大型语言模型已经内嵌了更为丰富的临床医疗常识知识，从而具备更为强大的医疗领域常识推理能力，进而能够在复杂和多变的医学实体背景知识描述问答任务中表现出色.

2.2.2. 嵌入模块

在嵌入模块中，使用微调的RoBERTa模型，以生成医学文档的嵌入式表示，如图1中②所示. 对于1个给定的医学文本文档$ \boldsymbol{D}=\{{\boldsymbol{w}}_{1},{\boldsymbol{w}}_{2}, \cdots ,{\boldsymbol{w}}_{n}\} $（$ {\boldsymbol{w}}_{n} $表示第$ n $个单词），RoBERTa模型通过添加3个不同的特征向量，即字符向量、句子分割向量和位置向量，来获得总特征向量. 经过RoBERTa编码后的医学文档可以表示为

(2)$ {{\boldsymbol{X}}}=\{{\boldsymbol{x}}_{1},{\boldsymbol{x}}_{2}, \cdots ,{\boldsymbol{x}}_{n}\}=\mathrm{R}\mathrm{o}\mathrm{B}\mathrm{E}\mathrm{R}\mathrm{T}\mathrm{a}\left(\right\{{\boldsymbol{w}}_{1},{\boldsymbol{w}}_{2}, \cdots ,{\boldsymbol{w}}_{n}\left\}\right) . $

式中：$ \boldsymbol{x} $是$ \boldsymbol{w} $的编码表示.

为了从提及元组中积累弱信号，使用Transformer模型来获得实体$ {\boldsymbol{e}}_{i} $的嵌入$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}} $作为初始实体表示：

(3)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}={\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{a}}\sum _{j=1}^{\boldsymbol{N}\left({{\boldsymbol{e}}}_{i}\right)}{{{\boldsymbol{v}}}_{{\boldsymbol{m}}}}_{j}^{i} . $

式中：$ {\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{a}} $表示基于Transformer模型对文档中的词嵌入进行加权聚合，这有助于区分文档中不同词的重要性差异；$ {\boldsymbol{m}}_{j}^{i} $为实体$ {\boldsymbol{e}}_{i} $的提及， $ {{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i} $为$ {\boldsymbol{m}}_{j}^{i} $的嵌入；$ N\left({\boldsymbol{e}}_{i}\right) $为实体$ {\boldsymbol{e}}_{i} $在文档$ \boldsymbol{D} $中的提及次数.

2.2.3. 文档级图模块

　　1）文档级图构建

为了全面整合文档中的语义信息以获得特征丰富的实体表示，基于语义信息间的依存关系构建文档级图表示，如图1中③所示. 由2.1.1节的定义可知，文档级图中包含2种类型的节点和3种类型的边.

首先，节点涉及句子节点和提及节点. 对任一句子节点的嵌入$ {{\boldsymbol{v}}_{{\boldsymbol{s}}_{i}}\in \boldsymbol{V}}_{\mathrm{s}} $和提及节点的嵌入$ {{\boldsymbol{v}}_{{\boldsymbol{m}}_{i}}\in \boldsymbol{V}}_{\mathrm{m}} $，计算过程如下：

(4)$ {\boldsymbol{v}}_{{\boldsymbol{s}}_{i}}=\left[{\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{b}}\sum _{j=1}^{N\left({\boldsymbol{s}}_{i}\right)}{\boldsymbol{x}}_{j};{\boldsymbol{t}}_{{\boldsymbol{s}}_{i}};{\boldsymbol{l}}_{{\boldsymbol{s}}_{i}}\right] , $

(5)$ {\boldsymbol{v}}_{{\boldsymbol{m}}_{i}}=\left[{\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{b}}\sum _{j=1}^{N\left({\boldsymbol{m}}_{i}\right)}{\boldsymbol{x}}_{j};{\boldsymbol{t}}_{{\boldsymbol{m}}_{i}}\right] . $

式中：$ {\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{b}} $表示基于Transformer模型对句子或提及内的词嵌入进行加权聚合，$ N $($ {\boldsymbol{s}}_{i} $)、$ N $($ {\boldsymbol{m}}_{i} $)分别表示句子和提及的长度，$ \boldsymbol{x} $为RoBERTa输出的编码表示，$ \boldsymbol{t} $为节点类型，$ \boldsymbol{l} $为句子在文档中的顺序编码，[ ; ]表示拼接.

其次，文档级图中存在3种边，用于将不同节点连接起来，包括提及-提及边$ {\boldsymbol{e}}_{{\mathrm{M}{{\boldsymbol{m}}}}_{i}}{\in \boldsymbol{E}}_{\mathrm{M}\mathrm{m}} $、提及-句子边$ {\boldsymbol{e}}_{{\mathrm{M}{{\boldsymbol{s}}}}_{i}}{\in \boldsymbol{E}}_{\mathrm{M}\mathrm{s}} $和句子-句子边$ {\boldsymbol{e}}_{{\mathrm{S}{{\boldsymbol{s}}}}_{i}}{\in \boldsymbol{E}}_{\mathrm{S}\mathrm{s}} $. 根据依存关系分析：如果2个不同实体的提及同时出现在同一个句子中，则2个实体的提及节点通过提及-提及边$ {\boldsymbol{e}}_{{\mathrm{M}{{\boldsymbol{m}}}}_{i}}\in {\boldsymbol{E}}_{\mathrm{M}\mathrm{m}} $连接起来；对于任一实体提及，提及节点和句子节点通过提及-句子边$ {\boldsymbol{e}}_{{\mathrm{M}{{\boldsymbol{s}}}}_{i}}\in {\boldsymbol{E}}_{\mathrm{M}\mathrm{s}} $连接；文档中所有的句子节点通过句子-句子边$ {\boldsymbol{e}}_{{\mathrm{S}{{\boldsymbol{s}}}}_{i}}\in {\boldsymbol{E}}_{\mathrm{S}\mathrm{s}} $连接.

最后，当全部的节点和边计算完成后，即可得到该医学文档的图结构表示：$ {\boldsymbol{G}}_{\mathrm{d}}=({\boldsymbol{V}}_{\mathrm{d}},{\boldsymbol{E}}_{\mathrm{d}}) $.

2）文档级图特征聚合

对于给定的文档级图$ {\boldsymbol{G}}_{\mathrm{d}}=({\boldsymbol{V}}_{\mathrm{d}},{\boldsymbol{E}}_{\mathrm{d}}) $，使用图注意力网络（graph attention network，GAT）^[35]对其进行学习. 与GCN相比，GAT集成的注意力机制能够更好地分辨特征的重要性差异，因而更适合对具有各种类型节点和边的图进行建模. 具体来说，GAT的计算过程如下：

(6)$ {\boldsymbol{u}}_{ij}=\mathrm{att}\left({\boldsymbol{a}}^{\mathrm{T}}\left[{\boldsymbol{W}}_{{\boldsymbol{v}}_{\boldsymbol{m}_i}}\left|\right|{\boldsymbol{W}}_{{\boldsymbol{v}}_{j}}\left|\right|{\boldsymbol{e}}_{ij}\right]\right) , $

(7)$ {\boldsymbol{k}}_{{\boldsymbol{v}}_{\boldsymbol{m}_i}}=\sigma \Biggr(\sum _{j\in \left|{\boldsymbol{V}}_{\mathrm{d}}\right|}{\boldsymbol{\alpha }}_{ij}{\boldsymbol{W}}_{{\boldsymbol{v}}_{j}}\Biggr) . $

式中：$ {\boldsymbol{u}}_{ij} $为GAT模型输出的注意力得分，$ \mathrm{a}\mathrm{t}\mathrm{t}\left(\right) $为LeakyReLU激活函数，$ \boldsymbol{a} $为可学习的注意力参数，$ \boldsymbol{W} $为权重矩阵，$ {\boldsymbol{v}}_{\boldsymbol{m}_i}\in {\boldsymbol{V}}_{\mathrm{d}} $表示文档级图中的提及节点，$ {\boldsymbol{v}}_{j}\in {\boldsymbol{V}}_{\mathrm{d}} $表示文档级图中的任一其他节点，$ {\boldsymbol{e}}_{ij} $为节点对($ {\boldsymbol{v}}_{\boldsymbol{m}_i}\in {\boldsymbol{V}}_{\mathrm{d}},{\boldsymbol{v}}_{j}\in {\boldsymbol{V}}_{\mathrm{d}} $)的关系(边)特征向量，$ \sigma \left(\right) $为非线性激活函数ReLU，$ {\bf\textit{α}}_{ij} $为$ {\boldsymbol{u}}_{ij} $标准化后的注意力得分表示，$ {\boldsymbol{k}}_{{\boldsymbol{v}}_{\boldsymbol{m}_i}} $为经过GAT层后提及节点的更新表示.

然后，通过Transformer聚合实体节点$ {\boldsymbol{e}}_{i} $的全部提及表示$ {\boldsymbol{k}}_{{\boldsymbol{v}}_{\boldsymbol{m}_i}} $得到聚合表示$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}} $. $ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}} $包含整个文档级图的语义信息：

(8)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}={\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{c}}\sum _{j=1}^{\boldsymbol{N}\left({{\boldsymbol{e}}}_{i}\right)}{\boldsymbol{k}}_{{{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i}} . $

式中：$ {{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i} $为实体$ {\boldsymbol{e}}_{i} $的第$ j $个提及的嵌入，${\boldsymbol{k}}_{{{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i}} $为$ {{{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i}} $经过GAT层更新的文档级提及嵌入.

最后，采用标准注意力机制融合实体初始嵌入信息和文档语义信息：

(9)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{g}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}{\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}}({\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}{\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}}{)}^{\mathrm{T}}}{\sqrt{{l}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}}}}\right){\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}{\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}} . $

式中：$ {\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}} $和$ {\boldsymbol{W}}_{{{\boldsymbol{e}}}_{i}}^{{{\boldsymbol{v}}}_{{{\boldsymbol{e}}}_{i}}} $为可训练参数矩阵，$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}} $为文档级聚合表示，$ {l}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}} $为$ {\boldsymbol{v}}_{{{\boldsymbol{e}}}_{i}} $的维数.

2.2.4. 实体级图模块

　　1）实体级图构建

为了更好地发现长距离实体间的潜在关联，进一步构建实体级图，如图1中④所示. 根据2.1.2节的定义，该图完全由实体节点构成，并包含2种类型的边.

首先，针对任一实体节点$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}} $：

(10)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}=[{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}};{\boldsymbol{t}}_{{\boldsymbol{e}}_{i}};{\mathbf{d}\mathbf{e}\mathbf{s}}_{{\boldsymbol{e}}_{i}}] . $

式中：$ {\boldsymbol{v}}^{\mathrm{d}\mathrm{o}\mathrm{c}}_{{\boldsymbol{e}}_{i}} $为实体${{\boldsymbol{e}}_{i}} $的文档级图表示，$ \boldsymbol{t}_{{\boldsymbol{e}}_{i}} $为实体类型嵌入，$ {\mathbf{d}}{\mathbf{e}}\mathbf{s}_{{\boldsymbol{e}}_{i}} $为实体${{\boldsymbol{e}}_{i}} $的背景知识描述嵌入.

特别地，针对实体的背景知识描述嵌入$ \mathbf{d}\mathbf{e}\mathbf{s} $，基于2.2.1节提到的微调模型来生成. 具体来说，对任一给定的实体$ {{\boldsymbol{e}}_{i}} $，首先通过Q&A方式，利用ChatDR知识组件来获得实体的背景知识描述$ {\boldsymbol{d}}^{{\boldsymbol{e}}_{i}}= \{{\boldsymbol{w}}_{1},{\boldsymbol{w}}_{2}, \cdots ,{\boldsymbol{w}}_{n}\} $，其中$ {\boldsymbol{w}}_{n} $表示实体$ {\boldsymbol{e}}_{i} $的背景知识描述中的第$ n $个词. 然后，基于微调的RoBERTa将$ {\boldsymbol{d}}^{{\boldsymbol{e}}_{i}} $编码为嵌入式表示$ {\boldsymbol{X}}_{{\boldsymbol{d}}^{{\boldsymbol{e}}_{i}}}=\{{\boldsymbol{x}}_{1},{\boldsymbol{x}}_{2}, \cdots ,{\boldsymbol{x}}_{n}\} $. 最后，将$ {\boldsymbol{X}}_{{\boldsymbol{d}}^{{\boldsymbol{e}}_{i}}} $中的全部词嵌入聚合，即可得到实体$ {\boldsymbol{e}}_{i} $的背景知识描述嵌入：

(11)$ {\mathbf{d}\mathbf{e}\mathbf{s}}_{{\boldsymbol{e}}_{i}}={\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{d}}\sum _{j=1}^{N({\boldsymbol{x}}_{{\boldsymbol{e}}_{i}})}{\boldsymbol{x}}_{{\boldsymbol{e}}_{j}^{i}} . $

式中：$ {\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{d}} $表示基于Transformer对实体背景知识描述中的字嵌入进行加权聚合，$ N\left({{{\boldsymbol{x}}_{{{\boldsymbol{e}}}_{i}}}}\right) $为实体${\boldsymbol{e}}_i $的背景知识描述嵌入${\boldsymbol{x}}_{{{\boldsymbol{e}}}_{i}} $中的嵌入总数.

其次，针对实体级图中存在的2种关系，即“句内边”和“逻辑推理边”，根据依存关系，如果2个不同的实体同时出现在同一个句子中，则它们通过“句内边”$ {\boldsymbol{e}}_{{\mathrm{I}{{\boldsymbol{s}}}}_{i}}\in {\boldsymbol{E}}_{\mathrm{I}\mathrm{s}} $连接起来；如果实体$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}\in {\boldsymbol{V}}_{\rm{e}} $的提及与不同句子中提到的其他2个实体具有共现依赖关系，那么$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}\in {\boldsymbol{V}}_{\mathrm{e}} $作为实体之间的桥梁将分布在不同句子中的其他2个实体用“逻辑推理边”$ {\boldsymbol{e}}_{{\mathrm{L}{{\boldsymbol{r}}}}_{i}}\in {\boldsymbol{E}}_{\mathrm{L}\mathrm{r}} $连接起来.

最后，当节点和边都计算完成后，即可得到该文档的实体级图结构表示：$ {\boldsymbol{G}}_{\mathrm{e}}=({\boldsymbol{V}}_{\mathrm{e}},{\boldsymbol{E}}_{\mathrm{e}}) $.

2）实体级图特征聚合

类似地，对于给定的实体级图$ {\boldsymbol{G}}_{\mathrm{e}}=({\boldsymbol{V}}_{\mathrm{e}},{\boldsymbol{E}}_{\mathrm{e}}) $，使用GAT对其进行学习（参考式(6)和(7)）. 通过Transformer聚合实体节点$ {\boldsymbol{e}}_{i} $的提及表示得到$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}} $，$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{ent}} $包含实体图中的全部语义特征：

(12)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}}={\mathrm{T}\mathrm{r}\mathrm{m}}_{\mathrm{f}}\sum _{j=1}^{N\left({{\boldsymbol{e}}_{i}}\right)}{\boldsymbol{e}}_{{{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i}} . $

式中：$ {\boldsymbol{e}}_{{{\boldsymbol{v}}_{\boldsymbol{m}}}_{j}^{i}} $为$ {\boldsymbol{v}}_{{\boldsymbol{m}}_{j}^{i}} $的实体级图嵌入，$ N\left({\boldsymbol{e}}_{i}\right) $为实体$ {\boldsymbol{e}}_{i} $在文档$ \boldsymbol{D} $中的提及次数.

最后，采用标准注意力机制融合实体的初始嵌入信息、文档级图语义信息和实体图语义信息：

(13)$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{g}}=\mathrm{softmax}\left(\frac{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}{\boldsymbol{W}}_{{{\boldsymbol{e}}}_{i}}^{{\boldsymbol{v}}_{{{\boldsymbol{e}}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}}({{\boldsymbol{v}}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}}{\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}}}{)}^{\mathrm{T}}}{\sqrt{{l}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}}^{\mathrm{e}\mathrm{n}\mathrm{t}}}}\right){\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}{\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}} . $

式中：$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}} $为原始嵌入表示，$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}} $为文档级聚合表示，$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}} $为实体级聚合表示，$ {\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{d}\mathrm{o}\mathrm{c}}} $、$ {\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}}} $和$ {\boldsymbol{W}}_{{\boldsymbol{e}}_{i}}^{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}} $为可训练参数矩阵，$ {l}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}}^{\mathrm{e}\mathrm{n}\mathrm{t}} $为${\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{n}\mathrm{t}} $的维数.

2.2.5. 预测模块

预测模块用于实体对(${\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}\in {\boldsymbol{V}}_{\mathrm{d}}, $$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{j}}\in {\boldsymbol{V}}_{\mathrm{d}} $)目标关系r的分类. 将实体最终表示和相对距离表示连接起来以表示一个实体对：

(14)$ {\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{i}}=[{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}^{\mathrm{e}\mathrm{g}};{\boldsymbol{s}}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}},{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}}}],\;\;{\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{j}}=[{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}}^{\mathrm{e}\mathrm{g}};{\boldsymbol{s}}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}},{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}}] . $

式中：$ {\boldsymbol{s}}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}},{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}}} $和$ {\boldsymbol{s}}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}},{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}}} $分别表示从文档中第一次提到$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{i}} $到$ {\boldsymbol{v}}_{{\boldsymbol{e}}_{j}} $以及${\boldsymbol{v}}_{{\boldsymbol{e}}_{j}} $到${\boldsymbol{v}}_{{\boldsymbol{e}}_{i}} $的相对距离的嵌入.

然后，将$ {\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{i}} $和$ {\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{j}} $的表示连接起来，形成目标关系表示$ {\boldsymbol{r}}_{{\boldsymbol{v}}_{{\boldsymbol{e}}_{i}},{\boldsymbol{v}}_{{\boldsymbol{e}}_{j}}}=[{\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{i}};{\hat{\boldsymbol{v}}}_{{\boldsymbol{e}}_{j}}] $.

此外，文档中的所有关系都隐含着文档的主题信息，这些主题信息暗示了可能的关系. 相似主题下的一些关系可能会共存，而不同主题下的另一些关系则不会共存. 为此，使用标准注意力机制来捕捉上下文关系表示，以集成文档的主题信息：

(15)$ {\boldsymbol{r}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}}=\sum _{i=1}^{N}{\boldsymbol{\beta }}_{i}{\boldsymbol{r}}_{i}=\sum _{i=1}^{N}\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{r}}_{i}\boldsymbol{W}{\boldsymbol{r}}_{\mathrm{w}}^{\mathrm{T}}\right)}{\sum _{j=1}^{N}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{r}}_{j}\boldsymbol{W}{\boldsymbol{r}}_{\mathrm{w}}^{\mathrm{T}}\right)}{\boldsymbol{r}}_{i} . $

式中：$ \boldsymbol{W} $为可训练参数矩阵，$ {\boldsymbol{r}}_{i} $为第$ i $个实体对的关系表示，$ {\boldsymbol{\beta }}_{i} $为$ {\boldsymbol{r}}_{i} $的注意权重，$ {\boldsymbol{r}}_{\mathrm{w}} $表示注意力机制随机初始化的上下文矩阵，$ N $为实体对的数量.

最后，利用前馈神经网络（feedforward neural network, FNN）对目标关系表示$ {\boldsymbol{r}}_{i} $和上下文关系表示$ {\boldsymbol{r}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $进行预测. 此外，由于1个实体对可能有不同的关系，将多分类问题转化为多个二分类问题. 所有关系集合$ \boldsymbol{R} $中$ \boldsymbol{r} $的预测概率分布定义如下：

(16)$ {y}_{\boldsymbol{r}}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(\mathrm{F}\mathrm{N}\mathrm{N}\right([{\boldsymbol{r}}_{i};{\boldsymbol{r}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}}]\left)\right) . $

式中：$ {y}_{\boldsymbol{r}}\in \left\{\mathrm{0,1.0}\right\} $. 损失函数定义为

(17)$ L=-\sum _{\boldsymbol{r}\in \boldsymbol{R}}\left({{y}_{\boldsymbol{r}}}^{*}{\mathrm{log}}\;({y}_{\boldsymbol{r}})+(1-{{y}_{\boldsymbol{r}}}^{*}){\mathrm{log}}\;(1-{y}_{\boldsymbol{r}})\right) . $

式中：$ {{y}_{\boldsymbol{r}}}^{*}\in \left\{\mathrm{0,1.0}\right\} $表示$ \boldsymbol{r} $的金标准.

3. 实　验

3.1. 数据集和实验设置

在真实的中文医疗关系数据集上评估LKCM模型. 该数据集包含1 846份妊娠心脏病患者的电子病历文档，共计605 842个医学实体和361 883个医学关系事实. 关系类型包括“症状-检查”、“症状-疾病”、“症状-治疗”、“检查-检查结果”、“检查-疾病”和“疾病-治疗”6种. 该数据集被分为训练集（80%）和测试集（20%）.

在模型的实现过程中，RoBERTa、Transformer、GAT和标准注意力模型的隐藏层维数都是768；学习率设置为0.001，退出率设置为0.3；GAT特征聚合后的维度是1；优化算法是Adam.

将精准率（P）、召回率（R）和F1分数用作评估模型性能的指标.

3.2. 实验分析

3.2.1. 与其他先进方法的对比

将提出的LKCM模型与先进的DRE方法进行比较，包括：基于序列的方法、基于图的方法、基于知识的方法和基于大语言模型的方法.

对比实验结果如表1所示. 可以看出，在所有评估指标下，LKCM模型的表现最好. 在13个基线模型中，对比多种基于序列、图结构、知识以及大语言模型的文档级关系抽取模型. 基于序列的方法RoBERTa-base^[30]和SSAN^[23]在捕捉局部上下文信息方面表现较好，但由于缺乏有效的全局信息整合能力，在处理跨句长距离关系方面，特别是当文档包含复杂的语义依赖时，其性能有所下降. 相比之下，基于图的方法（包括GCGCN^[9]、GLRE^[7]和GRACR^[8]）通过构建文档级和实体级的图结构，有效地整合了文档中的全局信息，包括词特征、句特征、提及特征、依赖关系特征等各类语义特征，能够更好地推理实体之间的长距离关系，从而在预测跨句实体关系时表现较好. 其中， GLRE和GRACR通过使用异质图结构和关系图卷积网络（R-GCN）来捕捉各类语义特征，在复杂语义关系预测上取得了显著的效果. 然而，这些模型在特征提取方面存在一定的局限性，即没有充分区分各类语义信息内部特征间的重要性差异. 基于知识的方法（包括DISCO^[16]、K-BiOnt^[17]、KIRE^[15]、KRC^[18]和GECANet^[19]）除了通过构建文档级图聚合数据内部的全局信息外，还引入外部知识资源（如知识库、知识图谱等）为模型注入更具指示性的信息，因此相比于其他通用模型，其表现得更为出色. 然而，由于知识库的规模限制和动态更新的困难，这些模型在处理新数据时面临一定的挑战. 基于大语言模型的方法（包括ChatGLM2-6B^[31]，LLaMA3-8B^[33]和Qwen-32B^[36]）在所有基线模型中表现最差，主要原因可以归结为2点：1）架构差异. 其他基线模型均属于较小规模的模型，其网络结构是针对特定医学文档级关系抽取任务精心设计的. 相比之下，ChatGLM2-6B、 LLaMA3-8B和Qwen-32B由于网络结构复杂，很难集中研究与特定医学文档级关系抽取任务相关的特征. 此外，更少的参数和更紧凑的网络结构使得小模型更容易在有限的数据集上收敛. 大语言模型参数规模相对较大，虽然它可以通过指令微调来适应特定领域的文档级关系抽取任务，但这通常需要极为庞大的标注数据集，而这种数据集很难获得. 2）特定领域知识的差异. 小模型如DISCO、K-BiOnt、KIRE、KRC和GECANet，集成了来自外部医学资源的特定领域知识. 这些知识往往是丰富而广泛的，因此通过设计更精细的损失函数来充分利用这些知识，模型可以学习到更多有价值的信息和独特的见解，从而有效地提高准确率. 相比之下，初始大语言模型的知识通常来自于通用领域，缺乏深入、专业的特定领域知识，很难分辨特征之间的细微差别. LKCM模型结合了图结构和大语言模型的优势，在DRE任务中达到了87.47%的最高F1分数，这主要得益于两个方面：一方面，通过设计复合多注意力机制，显著提升了模型对各类语义信息内部特征重要性差异的区分能力. 另一方面，通过引入ChatGLM2-6B大语言模型作为动态领域知识库组件，能够在模型学习过程中动态地提供特定领域知识来指导模型学习，从而提高了模型的适应能力和预测精度.

表 1 与先进模型的性能对比结果

Tab.1 Performance comparison results with advanced models

类别	模型	P /%	R /%	F1/%
Sequence-based	RoBERTa-base	79.92±0.72	78.60±1.02	79.25±0.75
Sequence-based	SSAN	80.61±1.22	81.06±0.81	80.83±0.99
Graph-based	GCGCN	80.98±0.46	81.54±0.77	81.26±0.51
	GLRE	82.42±0.80	82.27±0.63	82.34±0.70
	GRACR	83.01±1.34	83.13±0.61	83.57±0.68
Knowledge-based	DISCO	83.66±0.25	84.28±0.46	83.97±0.42
	K-BiOnt	85.14±0.39	84.36±0.50	84.75±0.39
	KIRE	84.90±0.44	85.23±0.38	85.06±0.41
	KRC	85.06±0.22	86.00±0.08	85.53±0.09
	GECANet	86.31±0.15	85.55±0.14	85.93±0.14
LLM-based	ChatGLM2-6B	37.42±4.32	41.21±3.48	39.22±3.90
	LLaMA3-8B	40.56±2.79	43.75±3.50	42.09±2.83
	Qwen-32B	45.76±3.68	48.20±4.61	46.95±4.46
—	LKCM	87.26±0.16	87.69±0.09	87.47±0.12

新窗口打开| 下载CSV

3.2.2. 消融研究

提出2个改进建议来提高模型的性能，即采用复合多注意力框架聚合语义特征和引入大语言模型动态地提供实体背景知识描述. 为了更好地理解这2个建议如何帮助LKCM模型预测关系，构建消融实验，实验结果如表2所示.

表 2 不同组件下模型的性能对比结果

Tab.2 Performance comparison results of models with different components

模型	消融对象	P /%	R /%	F1 /%
LKCM-1	去除复合多注意力框架，采用加和求平均计算语义特征嵌入	85.73±0.09	85.29±0.15	85.51±0.10
LKCM-2	移除大语言模型，即实体背景知识描述信息由静态领域知识库提供	86.81±0.20	86.92±0.12	86.86±0.15
LKCM	—	87.26±0.16	87.69±0.09	87.47±0.12

新窗口打开| 下载CSV

可以看出，2个改进建议对于DRE预测都是有效的，特别是复合多注意力框架对模型性能的增强效果极为显著（F1提高了1.96个百分点）. 这主要得益于复合多注意力框架全面且细致的特征提取能力；对于每种语义特征，它都使用注意力机制对其内部特征的重要性差异进行区分，增强了模型对关键特征的分辨能力. LKCM在大语言模型知识组件的加持下相比于在静态领域知识库加持下的LKCM-2的表现更为出色（F1提高了0.61个百分点），这是因为大语言模型既能够提供静态领域知识库中包含的实体背景知识描述信息，对于静态领域知识库未包含的医学实体，也能够基于其广泛的常识性知识进行推理，从而生成背景知识描述信息，为模型注入有用的知识特征. 经过特定医学领域的指令微调后，大模型的幻觉问题能够得到有效的缓解. 因此，基于大语言模型的动态领域知识库能够比静态领域知识库提供更多的医学实体背景知识，并降低静态领域知识库的更新成本.

为了更好地体现复合多注意力框架在区分不同语义信息内部特征的重要性差异方面的优势，随机抽取几个数据样本，针对关系分类中极为重要的关键字进行可视化处理，并展示了 LKCM 和 LKCM-1（即移除复合多注意力框架后，采用加和求平均方法计算语义特征嵌入）分别赋予的注意力权重，如表3 所示.

表 3 LKCM和LKCM-1的注意力权重可视化结果

Tab.3 Visualized attention weights of LKCM and LKCM-1

关系类型	关键字	注意力权重
关系类型	关键字	LKCM	LKCM-1
疾病-治疗	诊断为	0.871	0.839
疾病-治疗	治疗	0.847	0.793
症状-治疗	自诉	0.863	0.824
症状-治疗	口服	0.855	0.800

新窗口打开| 下载CSV

可以看出，LKCM赋予了关键字更高的权重，而LKCM-1的表现明显差于LKCM. 这是因为LKCM-1所采用的加和求平均计算方法对所有语义特征平等看待，即没有重要性差异之分，因而无法聚焦于关系分类中的重要关键字. LKCM通过集成复合多注意力框架，能够更好地聚焦于对关系分类真正有用的特征，从而很好地改进了LKCM-1的缺陷. 因此，提出的复合多注意力框架组件能够有效地指导模型区分不同语义信息内部特征的重要性差异，从而进一步提升识别精度.

3.3. 讨论

3.3.1. 统计显著性分析

从表1的实验结果可以看出，LKCM模型在DRE预测任务上展现了最佳性能. 为了评估表1中实验结果的统计学意义，利用p值（p-value）来比较经过10轮验证的LKCM与其他基线模型之间的性能结果的统计差异. 在研究中，若p值小于0.05，则认为2个模型的比较结果具有统计学意义，统计显著性分析结果如表4所示.

表 4 LKCM与基线模型的统计显著性分析结果

Tab.4 Statistical significance analysis results between LKCM and baseline models

模型	p-value
模型	P	R	F1
LKCM/RoBERTa-base	3.88×10⁻⁴	2.86×10⁻⁴	3.21×10⁻⁴
LKCM/SSAN	1.70×10⁻³	3.22×10⁻³	1.90×10⁻³
LKCM/GCGCN	3.09×10⁻⁴	2.51×10⁻²	2.88×10⁻³
LKCM/GLRE	1.63×10⁻²	4.29×10⁻⁴	3.74×10⁻³
LKCM/GRACR	3.14×10⁻³	3.82×10⁻³	3.51×10⁻³
LKCM/DISCO	7.25×10⁻⁵	6.68×10⁻³	6.00×10⁻³
LKCM/K-BiOnt	3.46×10⁻³	1.24×10⁻²	1.65×10⁻²
LKCM/KIRE	6.48×10⁻⁴	3.50×10⁻³	7.90×10⁻⁴
LKCM/KRC	2.19×10⁻³	6.23×10⁻³	3.06×10⁻⁴
LKCM/GECANet	1.58×10⁻⁴	1.32×10⁻²	3.01×10⁻³

新窗口打开| 下载CSV

可以看出，LKCM模型的表现优于其他先进方法，且p值远小于0.05，说明性能比较结果具有统计学意义.

3.3.2. 模型的可扩展性和灵活性

提出的LKCM方法通过设计复合多注意力框架，显著提升了语义信息内部特征的区分能力，同时结合大语言模型的动态知识引导，具备良好的可扩展性和灵活性.

LKCM模型的设计充分考虑了适应大规模数据和扩展至不同应用场景的需求. 1）具备处理大规模文档的能力. 其文档级图的构建方式适用于多句子甚至多段落文档. 模型通过GAT对文档的长距离依赖特征进行聚合，克服了传统方法在长文本处理上的性能瓶颈. 在实验中，LKCM在实际医学文档数据集（包含1 846份电子病历，约60万实体）上展现了较好的可扩展性. 对于更大规模的数据集，图结构的高效建模能力仍然适用. 2）适应不同数据类型. 由于文档级图和实体级图的节点和边设计灵活，LKCM模型可以根据数据需求添加新的节点类型（如段落）或边（如因果、包含）. RoBERTa提供的基础嵌入模块支持多种语言和文本格式，通过微调即可适应其他特定领域的数据（例如从医学领域迁移到法律领域）.

LKCM模型具有高度的灵活性. 1）集成了复合多注意力框架，可以灵活适配不同类型的语义特征，包括词嵌入、句子嵌入和依赖关系嵌入. 这种机制允许模型在领域变化情况下引入额外的特征(如领域特定的关系类型或上下文信息)，无须重构模型主体. 同时，复合多注意力框架支持权重分配的自适应动态调整；由于不同领域任务中语义特征的作用权重可能不同，模型可以通过调整注意力机制权重自动适应. 2）ChatGLM2-6B被设计为动态知识库组件，支持更新领域知识以应对新任务需求，例如当模型部署至其他领域时，只须调整指令微调数据，而无须修改LKCM的整体架构. 特别地，针对非敏感领域任务，可以将ChatGLM2-6B替换为更大规模的大语言模型（如GPT-4），这使得模型具备更广泛的跨领域适应能力和更大规模的知识储备.

3.3.3. 模型部署

LKCM 模型在部署过中涉及计算资源需求和隐私保护2个关键方面. 1）在计算资源需求方面，文档级和实体级图的构建依赖于GAT的特征聚合计算，训练时对GPU的显存要求较高. 为此，可以通过分布式训练降低单节点的负担. 在RoBERTa和ChatGLM2-6B微调过程中，需加载预训练权重，这同样需要GPU参与. 本研究采用的服务器是NVIDIA Corporation 4090 24 GB. 2）在隐私保护与数据安全性方面，由于ChatGLM2-6B参数规模（6B）足够小，完全支持本地化运行，可以在常规服务器上部署. 这种本地化运行模式有效避免了云端大模型推理带来的数据泄露风险，是LKCM在医疗敏感领域的核心优势. 在微调过程中，医学数据完全在本地存储和处理，不涉及外部网络调用，进一步强化了隐私保护能力.

4. 结　语

本研究提出的LKCM方法在文档级关系抽取任务中，通过设计复合多注意力框架和引入大语言模型动态知识指导，显著提升了模型对语义特征内部重要性差异的辨识能力和对长距离跨句关系的捕捉效果. 实验结果表明，LKCM在真实生物医学文档数据集上取得了最佳表现，证明了该方法在特定领域内的有效性. 然而，LKCM仍存在一些局限性. 首先，ChatDR大模型提供的实体背景知识描述与LKCM的学习过程相互独立，导致LKCM的性能表现高度依赖于背景知识描述的准确性. 在未来工作中，考虑将大模型生成任务直接集成到LKCM目标任务中，以减少不准确知识带来的负面影响. 其次，当前模型的核心组件（如微调策略和背景描述嵌入）主要面向中文医学文档，可能限制了其在跨语言、跨领域应用中的泛化能力. 因此，未来研究可利用多语言、多领域数据和知识资源对LKCM进行进一步微调和知识注入，从而构建更通用的文档级关系抽取模型. 此外，鉴于标注数据获取成本较高，将LKCM转化为半监督或无监督方法也是后续研究的重要方向. 综上所述，本研究工作为DRE任务提供了一种有效的新思路，并为未来在多领域、跨语言以及低标注场景下的DRE研究奠定了基础.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHAO Q, XU D, LI J, et al

Knowledge guided distance supervision for biomedical relation extraction in Chinese electronic medical records

[J]. Expert Systems with Applications, 2022, 204: 117606

DOI:10.1016/j.eswa.2022.117606 [本文引用: 1]

[2]

HEIST N, PAULHEIM H. Language-agnostic relation extraction from wikipedia abstracts [C]// International Semantic Web Conference. Vienna: Springer, 2017: 383–399.