基于分阶段语义感知的事件抽取大语言模型框架
Large language model framework for event extraction based on staged semantic perception
通讯作者:
收稿日期: 2025-03-11
| 基金资助: |
|
Received: 2025-03-11
| Fund supported: | 国家重点研发计划资助项目(2024YFB3312600);浙江省“领雁”研发攻关计划资助项目(2024C01107). |
作者简介 About authors
李延松(1999—),男,硕士生,从事大模型信息抽取、图像压缩的研究.orcid.org/0009-0004-1556-9854.E-mail:
针对大语言模型难以对事件中层级化语义建模的问题,提出基于分阶段语义感知的事件抽取大模型框架,整个框架模拟了人类“先识整体、再学细节”的认知机理. 结构化统一编码设计了不同领域的统一的提示词. 即插即用的语义感知驱动单元支持事件类型预测和论元提取的分阶段学习,通过自适应权重分配机制使大模型关注细颗粒度的语义信息. 为了提升模型的泛化能力,提出基于事件分解的数据增强来丰富训练数据. 在CASIE和ACE2005数据集上进行的实验结果表明,该方法在事件抽取中的性能取得显著提升.
关键词:
A large language model framework for event extraction based on staged semantic perception was proposed aiming at the difficulty in modeling the hierarchical semantics of events, which simulated the human cognitive mechanism of ‘recognizing the whole first and then learning the details’. The structured unified coding ensured consistency of prompts across different domains. The plug-and-play semantic perception driver unit supported staged learning for event-type prediction and argument extraction. The model focused on fine-grained semantic information by leveraging an adaptive weight mechanism. Data augmentation based on event decomposition was proposed to enrich the training data in order to enhance the generalization ability of the model. The experimental results on the CASIE and ACE2005 datasets demonstrated that our method significantly improved the performance of models in the event extraction.
Keywords:
本文引用格式
李延松, 陈宁, 刘锋光, 陈盼, 黄晓峰, 葛慧丽.
LI Yansong, CHEN Ning, LIU Fengguang, CHEN Pan, HUANG Xiaofeng, GE Huili.
事件抽取的早期研究通常将任务分解为4个子任务:触发词识别、触发词分类、论元识别和论元角色分类. 针对这种模块化的任务,分别提出基于流水线的事件抽取[8-9]和基于联合的事件抽取[10] 2种范式. 它们不能在不同事件类型间共享信息并独立学习每种类型的特征,即无法处理全局的依赖关系[11]. 此外,子模块相互独立,导致误差会从前向后传递,性能逐级衰减[12]. 随着深度学习技术的成熟,研究倾向于利用神经网络来实现端到端的事件抽取. 通过卷积神经网络自动捕获文本特征,以减少手动特征提取设计的需要[13]. 卷积核大小限制了模型处理长距离特征的能力. 基于循环神经网络,可以利用文本序列的顺序来获取单词之间长距离的关系[14],但很难有效地在触发词和非连续论元间进行建模,导致模型的抽取性能不佳.
随着大语言模型(large language models, LLMs)的突破性进展[15-18],事件抽取的研究转向基于LLMs的方法,这得益于LLMs在自然语言处理中展现出卓越语义表征能力. Gao等[19]探索基于提示词工程无须微调,即可驱动ChatGPT在简单场景下完成事件抽取任务. Bonisoli等[20]基于小样本学习和上下文学习来提取意大利犯罪新闻事件的信息. Wang等[18]提出基于指令微调的统一信息抽取框架. Li等[21]提出更易于大模型理解的代码风格的表征模式,通过预训练增强模式理解能力,通过指令微调增强遵循模式的能力. Lou等[22]将事件抽取解耦为2个基本任务,即用于提取标签不可知子结构的token-token链接和用于将子结构附加到相应语义概念的标签-token链接. 虽然针对场景的二次预训练能够提升模型的性能,但是训练耗费大量的计算资源和时间成本,而仅依靠微调,模型的性能不令人满意且泛化能力较差. 这是由于层级化语义依赖建模难和跨域语义迁移障碍两方面的问题. 事件类型与论元之间存在层级化的语义依赖关系,传统方法平等对待所有语义导致细粒度理解不足,难以使模型有效地构建事件语义的层次化表征. 事件语义在不同领域呈现显著的差异性,导致模型在新场景对未知事件的泛化能力弱.
针对上述问题,提出基于分阶段语义感知的事件抽取大模型框架. 原理是将训练分解为2个感知阶段:事件类型的全局语义理解和事件角色的细粒度语义匹配. 前一阶段可以表示为后一阶段的语义先验约束. 整个框架模拟了人类“先识整体、再学细节”的认知机理. 本文研究的主要创新贡献如下. 1) 设计统一的基于大模型的事件抽取框架,它包含结构化统一编码、基于事件任务分解的数据增强和语义感知驱动单元. 2) 针对细颗粒度语义理解的问题,提出即插即用的语义感知驱动单元. 基于语义信息生成自适应权重,以在训练过程中动态调整模型的决策状态. 不同的决策状态分别侧重于不同的子任务、事件类型分类和参数提取. 语义感知驱动单元在不增加推理延迟的情况下提高了准确性. 3) 针对跨域语义迁移障碍,提出基于事件任务分解的数据增强. 不同的子任务样本使大模型可以学习不同的能力,以提高模型的泛化能力.
1. 方法简介
整个框架的详细结构如图1所示. 为了克服现有技术的不足,提出基于分阶段语义感知的事件抽取大模型框架. 核心原理是将事件抽取训练分解为2个具有优先级差异的感知阶段:第1阶段专注于事件类型的全局语义理解;第2阶段聚焦于事件角色的细粒度语义匹配,前一阶段可以理解为后一阶段的语义先验约束. 通过事件分解增强,丰富训练样本,以提升模型对未知事件的泛化能力. 结构化统一编码,使大模型充分理解不同场景的事件抽取任务. 针对跨域语义迁移障碍,将事件抽取任务分解为3个子任务,在不改变原本事件结构和语句结构的基础上进行数据扩容,有效地提升模型的泛化能力. 提出即插即用的语义感知驱动单元,基于分阶段的语义感知设计自适应权重分配机制,以支持大模型的事件类型预测和论元提取的分阶段学习,使得模型关注细颗粒度的语义信息,不增加推理延迟. 利用低秩自适应(low-rank adaptation, LoRA)[23]技术对模型进行监督微调,微调结束后将语义感知驱动单元移除,将模型与系统集成,以供不同场景的用户应用.
图 1
图 1 基于分阶段语义感知的事件抽取大语言模型框架
Fig.1 Framework of event extraction large language model based on phased semantic perception
1.1. 结构化统一编码
为了更好地利用大模型在预训练中学习到的知识,将事件抽取任务转化为seq2seq任务. 利用结构化统一编码来充分挖掘大模型的全部潜力,对输出结构施加约束,保证结果在系统中的适用性,具体如图2所示. 每个实例的模型输入都会被分为4个部分:任务描述、事件类型/角色表、结构化输出约束和事件描述.
图 2
任务描述是提示词中的关键组成部分,它明确阐述了大模型需要完成的具体任务,帮助大模型更好地理解当前的任务场景. 事件抽取的目标是根据事件描述进行事件类型分类和内容抽取,在以往的方法中,触发词只是该任务中间的结果. 人脑阅读文本内容时,不会去寻找文中具体的某个词,而是更倾向于理解上下文的语义内容,从全局的角度去判断当前事件的类型. 本文研究的框架不依赖任何显示的触发词信息,触发词对事件抽取的最终结果是没有必要的[24]. 此外,现在大多数数据集中的触发词均是由注释者人工挑选的,这是非常耗时的,会限制大模型在事件抽取领域的探索. 为此,将触发词这一部分去除.
事件类型/角色表指用户当前应用场景所有可能的事件类型和角色类型,为大模型提供精准的选择范围. 针对不同的下游任务场景,用户可以自行切换合适的表. 结构化输出约束定义了模型输出的格式和不同符号指代含义. 这种约束有助于大模型在seq2seq任务中的微调阶段更好地对齐标签中不同的信息. 这种约束简化了后续模型与其他系统或数据库的集成,提高了输出信息的可用性. 事件描述指事件的具体描述内容,由用户自己输入,越详细的描述越有利于模型进行推理.
1.2. 语义感知驱动单元
大模型在监督微调的seq2seq任务中通常使用交叉熵(cross entropy)作为损失函数,优化目标是将模型的输出token与标签token对齐. 在此过程中,每个token可以理解为被分配相同的权重,如图3所示. 模型输出Logits需要计算每个token的损失,如下所示:
图 3
图 3 传统seq2seq任务和语义感知驱动模块的LLMs优化目标对比
Fig.3 Comparison of LLMs optimization objectives in traditional seq2seq task and semantic perception driver module
式中:
式中:
为了解决上述问题,设计即插即用的语义感知驱动单元,提高大模型学习细粒度的事件抽取能力. 本质上,其原理是通过EE子任务与模型的阶段式决策过程对齐,即在不同阶段侧重不同的语义信息,进而将大模型的训练过程概念化为一系列可控的自适应阶段. 详细的原理如图4所示,该模块直接拼接在大模型的输出位置,输出token中含有丰富的语义信息. 根据标签token,将输出token分为事件类型、事件角色和结构化信息3种. 同时,需要标记出错误token. 这种错误检测对于后续事件分析的可靠性至关重要. 根据2种不同阶段,生成自适应权重向量. 阶段1是事件类型预测错误. 在事件抽取任务中,不同的事件类型对应不同的事件角色类别. 事件类型的预测结果直接影响模型对事件角色的预测结果,因此此时屏蔽了事件角色的所有token和结构化信息. 自适应权重的计算过程如下:
图 4
式中:
阶段2是事件类型正确,事件角色错误. 引入比例因子
所有的独立事件实体都被分配自适应权重. 将它们拼接在一起成为最终的自适应权重向量
基于分阶段的语义感知,对每个事件实体的语义信息赋予相应的自适应权重. 此时,在微调的不同阶段,模型可以学到不同的子任务能力. 掌握预测事件类型的能力,学习提取角色的能力. 2个子任务之间存在优先级差异,以降低整个任务的难度,这样可以更准确地反映事件的复杂性和多样性. 在微调结束后,将该模块拆除不会增加任何推理延迟.
1.3. 基于事件分解的数据增强
针对数据匮乏和提升模型的泛化能力2个角度,提出基于事件分解的数据增强技术. 将事件抽取任务分解为3个子任务:仅预测事件类型、已知事件类型抽取事件角色和预测事件类型并抽取事件角色. 这3个子任务分别对应模型的3种能力,保证在不改变原本事件结构和语句结构的基础上进行数据扩容. 子任务提供补充主要任务的附加信息,使模型更好地学习不同阶段下的不同语义信息. 与事件语义感知驱动单元类似,该数据增强基于深层语义信息来提高LLM的泛化性能,符合人类“先识整体、再学细节”的认知机理,详细示例如图5所示.
图 5
图 5 基于事件分解的数据增强的举例
Fig.5 Example of data enhancement based on event decomposition
1.4. 模型微调与预测
为了提升模型在下游任务上的性能,需要对模型进行微调,如图6所示. 在模型的输出层插入提出的即插即用的语义感知驱动单元,使用基于事件分解的数据增强技术生成的多任务数据集进行微调. 模型能够更准确地捕捉事件类型及角色间的抽象关系,有效地解决现有方法中对细粒度语义认知不足的问题和数据资源匮乏的问题,大幅度减少大模型训练所需要消耗的计算资源.
图 6
在微调结束后,将模型中的语义感知模块拆除,模型此时具备很强的泛化能力. 用户只需要针对应用任务场景输入不同的事件类型/角色表和具体的事件描述. 用户的输入信息会通过结构化统一编码,自动生成对应的提示词输入到大模型. 模型会根据提示词推理,最终得到结构化的输出. 此时,可以根据结构化输出与其他应用系统集成. 结构化的输出表达具有较好的规范性和便捷性.
2. 实验设计与分析
2.1. 数据集和实验环境
为了验证模型的性能,采用2个不同场景的事件抽取数据集进行测评:ACE05和CASIE. ACE05数据集是由伯克利大学发布的基准数据集,内容主要来自新闻、博客和广播等,其中事件类型为33种,事件角色为22种. 它包括3种语言:英语、汉语和阿拉伯语. 本文仅使用英语部分数据. ACE05数据集倾向于通用领域数据,CASIE数据集是来自网络安全领域,包含5种事件类型和26种事件角色. 具体的数据划分情况如表1所示.
表 1 数据集的统计
Tab.1
| 数据集 | 主题 | 事件类型数/ 角色类型数 | 训练 集数 | 验证 集数 | 测试 集数 |
| ACE05 | 通用新闻 | 33/22 | 327 | 293 | |
| CASIE | 网络安全 | 5/26 | 788 |
本文方法中的主干网络是在Huggingface官网获取的ChatGLM3和GLM4-9B-0414模型. 实验均在单张英伟达的A100上开展. 批大小为4,迭代次数为5,采用Adamw优化器,学习率为
2.2. 基线模型
为了评估模型的性能表现,将提出的模型与如下的代表性模型进行比较.
表 2 在ACE05和CASIE数据集上的模型性能对比
Tab.2
| 方法 | 主干网络 | 模型参数规模 | CASIE | ACE05 | |||
| F1e/% | F1a/% | F1e/% | F1a/% | ||||
| Bert-base | BERT-base | 110×106 | 68.98 | 60.37 | 72.50 | 59.50 | |
| EEQA | 2×BERT-base | 220×106 | — | — | 72.40 | 53.30 | |
| UIE | T5-v1.1-base | 770×106 | 69.33 | 61.30 | 73.36 | 54.79 | |
| USM | RoBERTa-Large | 355×106 | 71.73 | 63.26 | 72.41 | 55.83 | |
| InstructUIE | FlanT5-11B | 11×109 | 67.80 | 63.53 | 77.13 | 72.94 | |
| Schema-Aware-EE | ChatGPT | > 20×109 | 70.28 | 56.28 | 73.68 | 49.56 | |
| LC4EE | GPT-4 | > 175×109 | — | — | 77.20 | 54.90 | |
| TALOR-EE | GPT-3.5-turbo | > 20×109 | — | — | 70.50 | 47.70 | |
| 本文方法 | ChatGLM3 | 6×109 | 90.93 | 63.71 | 76.56 | 72.07 | |
| 本文方法 | GLM4-9B-0414 | 9×109 | 93.40 | 66.87 | 77.81 | 76.52 | |
EEQA[26]:基于问答阅读理解的事件抽取系统.
UIE[17]:统一的文本到结构生成框架,可以通用地应对不同的信息抽取任务,并自适应地生成目标结构.
USM[22]:将信息抽取任务转化为语义匹配任务的通用信息抽取框架.
InstructUIE[18]:通用的端到端信息提取框架,充分利用自然语言指令,指导模型完成信息抽取任务.
Schema-Aware-EE[27]:利用LLM的文本理解能力,通过集成提示分解和检索增强生成启发的提示,提高提取事件的准确性.
LC4EE[15]:小语言模型和大语言模型协同框架,旨在利用小模型卓越的提取能力和大模型的指令跟踪能力构建高性能的事件抽取系统.
TALOR-EE[28]:面向低资源事件抽取的目标增强与反向验证框架. 通过从外部语料库检索目标实体构建多样化事件结构,利用自然语言推理模块进行双向验证,显著提升任务性能.
2.3. 评估指标
当评估模型有效性时,采用
式中:TP、FP和FN分别表示真阳性、假阳性和假阴性. 在没有触发词的情况下,执行事件检测和参数提取任务. 对于事件类型的
2.4. 性能对比与分析
如表2所示为模型与基准模型在ACE05和CASIE 2个数据集上的性能对比结果. 其中,最佳结果以粗体突出显示,次佳结果用下划线突出显示. 从表2可知,本文方法在2个数据集上都优于最具竞争力的基线方法. 在CASIE数据上,本文方法达到最优,其中事件类型的
图 7
在ACE05数据集上,除了LC4EE之外,本文方法表现最好,事件类型的
2.5. 消融实验
在CASIE和ACE05 2个数据集上,对语义感知驱动单元进行消融实验,以验证有效性,结果如表3所示. 在去除语义感知驱动单元后,ChatGLM3在CASIE上的
表 3 语义感知驱动单元的消融实验
Tab.3
| 方法 | CASIE | ACE05 | |||
| ChatGLM3 | 89.34 | 62.58 | 74.28 | 70.77 | |
| ChatGLM3+语义感知驱动 | 90.58 | 62.88 | 74.85 | 71.24 | |
| GLM4-9B-0414 | 91.86 | 65.28 | 75.76 | 73.57 | |
| GLM4-9B-0414+语义感知驱动 | 92.70 | 65.85 | 76.72 | 75.03 | |
为了验证基于事件分解的数据增强方法对大模型事件抽取的影响,消融实验结果如表4所示. 在采用基于事件分解的数据增强后,模型的性能显著提升. 通过同时学习多个提示样本,大模型可以构建更强大的多任务和特定领域特征的表示,增强了模型的泛化能力.
表 4 基于事件分解的数据增强的消融实验
Tab.4
| 方法 | CASIE | ACE05 | |||
| F1e | F1a | F1e | F1a | ||
| ChatGLM3 | 89.34 | 62.58 | 74.28 | 70.77 | |
| ChatGLM3+事件分解 | 89.46 | 62.25 | 75.19 | 71.67 | |
| GLM4-9B-0414 | 91.86 | 65.28 | 75.76 | 73.57 | |
| GLM4-9B-0414+事件分解 | 92.50 | 65.40 | 76.70 | 74.20 | |
综上所述,实验证明了语义感知驱动单元和基于事件分解的数据增强技术在提高模型性能方面的有效性. 语义感知驱动单元显著增强了模型对细粒度语义的理解能力. 采用基于事件分解的数据增强技术的多任务策略,提高了模型的泛化性和稳定性.
2.6. 跨域泛化能力实验
如表5所示为本文方法在2个数据集上的跨域泛化性能的结果. 其中,ACE05_CASIE的含义为模型在ACE05上微调,在CASIE上测试;CASIE_ACE05的含义为模型在CASIE上微调,在ACE05上测试.
表 5 跨域泛化能力的实验
Tab.5
| 方法 | 5-shot | ACE05_CASIE | CASIE_ACE05 | |||
| F1e | F1a | F1e | F1a | |||
| ChatGLM3 | × | 61.73 | 40.65 | 40.72 | 39.59 | |
| ChatGLM3 | √ | 63.93 | 43.26 | 42.83 | 41.21 | |
| 基于本文方法的ChatGLM3 | × | 47.57 | 42.45 | 41.63 | 39.68 | |
| 基于本文方法的ChatGLM3 | √ | 68.21 | 48.25 | 47.52 | 41.70 | |
| GLM4-9B-0414 | × | 70.06 | 44.06 | 44.70 | 42.19 | |
| GLM4-9B-0414 | √ | 73.66 | 46.90 | 46.75 | 44.15 | |
| 基于本文方法的GLM4-9B-0414 | × | 78.26 | 43.31 | 46.75 | 43.30 | |
| 基于本文方法的GLM4-9B-0414 | √ | 79.85 | 45.78 | 52.21 | 45.07 | |
开展zero-shot的实验,跨域测试时,提示词中没有引入对新场景的事件抽取例子. 对于CASIE_ACE05,与单纯依靠ChatGLM3的模型相比,基于本文方法的ChatGLM3的
为了进一步探索泛化性能,开展5-shot的测试,通过在提示词中引入新场景的例子,辅助大模型理解新场景的事件. 结果如图5所示,本文方法在ChatGLM3和GLM4-9B-0414模型上的性能均有大幅度的提升. 此外,ChatGLM3模型解决了ACE05_CASIE上的性能下降问题,这表明5-shot能够有效地辅助大模型理解新场景下的事件. 此外,本文方法的性能均超过了基础模型. 这表明本文方法通过与few-shot结合,可以大幅度提升大模型在新场景下对新事件的理解和抽取能力.
表 6 平台设备长时间未开机原因的举例
Tab.6
| 未开机理由 | 事件描述 |
| 仪器搬迁实验室改造 | 该设备于2023年6月进行搬迁后,因实验室 架构调整和实验室场地改造的 原因停用,尚未恢复使用. |
| 传感器问题排查 | 设备正常使用中,但因设备进行电路改造升级 为三相电源,原传感器已不适用,实验室 没有及时告知更换. |
| 仪器待报废 | 设备仪器陈旧,技术指标落后. |
3. 结 语
提出基于分阶段语义感知的事件抽取大模型框架,旨在解决仅依靠监督微调无法使模型对事件进行细粒度语义理解和数据匮乏的问题. 核心原理是基于结构化统一编码和语义感知驱动单元将事件抽取训练分解为2个感知阶段:事件类型的全局语义理解和事件角色的细粒度语义匹配. 针对模型的不同能力,通过事件分解技术丰富训练样本,提升模型对未知事件的泛化能力. 整个框架模拟了人类“先识整体、再学细节”的认知机理,使模型能够显式地建模事件语义的层次化表征. 结果表明,本文方法可以使参数量小的大模型在事件抽取任务上优于参数量大的大模型,保证模型直接迁移到新领域的数据集上,具有优秀的泛化能力. 未来研究将重点探索长文本上下文的场景和事件抽取实时性.
参考文献
Contextualized medication event extraction with striding NER and multi-turn QA
[J].
Document-level event extraction from Italian crime news using minimal data
[J].DOI:10.1016/j.knosys.2025.113386 [本文引用: 1]
Exploration of hierarchical and characteristic operation modes for large instruments and equipment
[J].
省属高校分析测试中心大型仪器设备开放运行管理探讨
[J].DOI:10.20175/j.syyfx.20240414 [本文引用: 1]
Discussion on the open operation management of large instruments in the analysis and testing center of provincial universities
[J].DOI:10.20175/j.syyfx.20240414 [本文引用: 1]
A survey on deep learning event extraction: Approaches and applications
[J].
中文事件抽取研究综述
[J].DOI:10.3778/j.issn.1002-8331.2203-0453 [本文引用: 1]
Survey of chinese event extraction research
[J].DOI:10.3778/j.issn.1002-8331.2203-0453 [本文引用: 1]
/
| 〈 |
|
〉 |

