基于分阶段语义感知的事件抽取大语言模型框架

doi:10.3785/j.issn.1008-973X.2026.03.008

基于分阶段语义感知的事件抽取大语言模型框架

李延松^,, 陈宁, 刘锋光, 陈盼, 黄晓峰, 葛慧丽^,

1. 杭州电子科技大学通信工程学院，浙江杭州 310018

2. 浙江省科技项目管理服务中心，浙江杭州 310006

Large language model framework for event extraction based on staged semantic perception

LI Yansong^,, CHEN Ning, LIU Fengguang, CHEN Pan, HUANG Xiaofeng, GE Huili^,

1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China

2. Department of Science and Technology of Zhejiang Province, Hangzhou 310006, China

通讯作者: 葛慧丽，女，正高级. orcid.org/0009-0004-1769-2194. E-mail: 429362862@qq.com

收稿日期: 2025-03-11

基金资助:

国家重点研发计划资助项目（2024YFB3312600）；浙江省“领雁”研发攻关计划资助项目（2024C01107）.

Received: 2025-03-11

Fund supported:

国家重点研发计划资助项目（2024YFB3312600）；浙江省“领雁”研发攻关计划资助项目（2024C01107）.

作者简介 About authors

李延松（1999—），男，硕士生，从事大模型信息抽取、图像压缩的研究.orcid.org/0009-0004-1556-9854.E-mail：yansongli@hdu.edu.cn , E-mail：yansongli@hdu.edu.cn

摘要

针对大语言模型难以对事件中层级化语义建模的问题，提出基于分阶段语义感知的事件抽取大模型框架，整个框架模拟了人类“先识整体、再学细节”的认知机理. 结构化统一编码设计了不同领域的统一的提示词. 即插即用的语义感知驱动单元支持事件类型预测和论元提取的分阶段学习，通过自适应权重分配机制使大模型关注细颗粒度的语义信息. 为了提升模型的泛化能力，提出基于事件分解的数据增强来丰富训练数据. 在CASIE和ACE2005数据集上进行的实验结果表明，该方法在事件抽取中的性能取得显著提升.

关键词： 自然语言处理 ; 事件抽取 ; 大语言模型 ; 监督微调 ; 数据增强

Abstract

A large language model framework for event extraction based on staged semantic perception was proposed aiming at the difficulty in modeling the hierarchical semantics of events, which simulated the human cognitive mechanism of ‘recognizing the whole first and then learning the details’. The structured unified coding ensured consistency of prompts across different domains. The plug-and-play semantic perception driver unit supported staged learning for event-type prediction and argument extraction. The model focused on fine-grained semantic information by leveraging an adaptive weight mechanism. Data augmentation based on event decomposition was proposed to enrich the training data in order to enhance the generalization ability of the model. The experimental results on the CASIE and ACE2005 datasets demonstrated that our method significantly improved the performance of models in the event extraction.

Keywords： natural language processing ; event extraction ; large language model ; supervised fine-tuning ; data augmentation

PDF (1245KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李延松, 陈宁, 刘锋光, 陈盼, 黄晓峰, 葛慧丽. 基于分阶段语义感知的事件抽取大语言模型框架. 浙江大学学报(工学版)[J], 2026, 60(3): 527-535 doi:10.3785/j.issn.1008-973X.2026.03.008

LI Yansong, CHEN Ning, LIU Fengguang, CHEN Pan, HUANG Xiaofeng, GE Huili. Large language model framework for event extraction based on staged semantic perception. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 527-535 doi:10.3785/j.issn.1008-973X.2026.03.008

事件抽取（event extraction）是自然语言处理（natural language processing）领域中重要的研究，核心是从非结构化文本中识别并提取出用户感兴趣的信息并以结构化形式表达^[1]. 自动内容抽取（automatic content extraction, ACE）国际评测会议组织将事件定义为：发生在某时、某地，由一个或多个角色参与的一个或多个动作组成的事件或者改变的状态^[2]. 在实际应用中，事件抽取在信息检索^[3]、知识图谱^[4]、智能问答^[5]和仪器设备管理^[6-7]等多个领域发挥着关键作用，极大地提升了用户体验感.

事件抽取的早期研究通常将任务分解为4个子任务：触发词识别、触发词分类、论元识别和论元角色分类. 针对这种模块化的任务，分别提出基于流水线的事件抽取^[8-9]和基于联合的事件抽取^[10] 2种范式. 它们不能在不同事件类型间共享信息并独立学习每种类型的特征，即无法处理全局的依赖关系^[11]. 此外，子模块相互独立，导致误差会从前向后传递，性能逐级衰减^[12]. 随着深度学习技术的成熟，研究倾向于利用神经网络来实现端到端的事件抽取. 通过卷积神经网络自动捕获文本特征，以减少手动特征提取设计的需要^[13]. 卷积核大小限制了模型处理长距离特征的能力. 基于循环神经网络，可以利用文本序列的顺序来获取单词之间长距离的关系^[14]，但很难有效地在触发词和非连续论元间进行建模，导致模型的抽取性能不佳.

随着大语言模型（large language models, LLMs）的突破性进展^[15-18]，事件抽取的研究转向基于LLMs的方法，这得益于LLMs在自然语言处理中展现出卓越语义表征能力. Gao等^[19]探索基于提示词工程无须微调，即可驱动ChatGPT在简单场景下完成事件抽取任务. Bonisoli等^[20]基于小样本学习和上下文学习来提取意大利犯罪新闻事件的信息. Wang等^[18]提出基于指令微调的统一信息抽取框架. Li等^[21]提出更易于大模型理解的代码风格的表征模式，通过预训练增强模式理解能力，通过指令微调增强遵循模式的能力. Lou等^[22]将事件抽取解耦为2个基本任务，即用于提取标签不可知子结构的token-token链接和用于将子结构附加到相应语义概念的标签-token链接. 虽然针对场景的二次预训练能够提升模型的性能，但是训练耗费大量的计算资源和时间成本，而仅依靠微调，模型的性能不令人满意且泛化能力较差. 这是由于层级化语义依赖建模难和跨域语义迁移障碍两方面的问题. 事件类型与论元之间存在层级化的语义依赖关系，传统方法平等对待所有语义导致细粒度理解不足，难以使模型有效地构建事件语义的层次化表征. 事件语义在不同领域呈现显著的差异性，导致模型在新场景对未知事件的泛化能力弱.

针对上述问题，提出基于分阶段语义感知的事件抽取大模型框架. 原理是将训练分解为2个感知阶段：事件类型的全局语义理解和事件角色的细粒度语义匹配. 前一阶段可以表示为后一阶段的语义先验约束. 整个框架模拟了人类“先识整体、再学细节”的认知机理. 本文研究的主要创新贡献如下. 1) 设计统一的基于大模型的事件抽取框架，它包含结构化统一编码、基于事件任务分解的数据增强和语义感知驱动单元. 2) 针对细颗粒度语义理解的问题，提出即插即用的语义感知驱动单元. 基于语义信息生成自适应权重，以在训练过程中动态调整模型的决策状态. 不同的决策状态分别侧重于不同的子任务、事件类型分类和参数提取. 语义感知驱动单元在不增加推理延迟的情况下提高了准确性. 3) 针对跨域语义迁移障碍，提出基于事件任务分解的数据增强. 不同的子任务样本使大模型可以学习不同的能力，以提高模型的泛化能力.

1. 方法简介

整个框架的详细结构如图1所示. 为了克服现有技术的不足，提出基于分阶段语义感知的事件抽取大模型框架. 核心原理是将事件抽取训练分解为2个具有优先级差异的感知阶段：第1阶段专注于事件类型的全局语义理解；第2阶段聚焦于事件角色的细粒度语义匹配，前一阶段可以理解为后一阶段的语义先验约束. 通过事件分解增强，丰富训练样本，以提升模型对未知事件的泛化能力. 结构化统一编码，使大模型充分理解不同场景的事件抽取任务. 针对跨域语义迁移障碍，将事件抽取任务分解为3个子任务，在不改变原本事件结构和语句结构的基础上进行数据扩容，有效地提升模型的泛化能力. 提出即插即用的语义感知驱动单元，基于分阶段的语义感知设计自适应权重分配机制，以支持大模型的事件类型预测和论元提取的分阶段学习，使得模型关注细颗粒度的语义信息，不增加推理延迟. 利用低秩自适应（low-rank adaptation, LoRA）^[23]技术对模型进行监督微调，微调结束后将语义感知驱动单元移除，将模型与系统集成，以供不同场景的用户应用.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于分阶段语义感知的事件抽取大语言模型框架

Fig.1 Framework of event extraction large language model based on phased semantic perception

1.1. 结构化统一编码

为了更好地利用大模型在预训练中学习到的知识，将事件抽取任务转化为seq2seq任务. 利用结构化统一编码来充分挖掘大模型的全部潜力，对输出结构施加约束，保证结果在系统中的适用性，具体如图2所示. 每个实例的模型输入都会被分为4个部分：任务描述、事件类型/角色表、结构化输出约束和事件描述.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 结构化统一编码的实例

Fig.2 Example of structured unified coding

任务描述是提示词中的关键组成部分，它明确阐述了大模型需要完成的具体任务，帮助大模型更好地理解当前的任务场景. 事件抽取的目标是根据事件描述进行事件类型分类和内容抽取，在以往的方法中，触发词只是该任务中间的结果. 人脑阅读文本内容时，不会去寻找文中具体的某个词，而是更倾向于理解上下文的语义内容，从全局的角度去判断当前事件的类型. 本文研究的框架不依赖任何显示的触发词信息，触发词对事件抽取的最终结果是没有必要的^[24]. 此外，现在大多数数据集中的触发词均是由注释者人工挑选的，这是非常耗时的，会限制大模型在事件抽取领域的探索. 为此，将触发词这一部分去除.

事件类型/角色表指用户当前应用场景所有可能的事件类型和角色类型，为大模型提供精准的选择范围. 针对不同的下游任务场景，用户可以自行切换合适的表. 结构化输出约束定义了模型输出的格式和不同符号指代含义. 这种约束有助于大模型在seq2seq任务中的微调阶段更好地对齐标签中不同的信息. 这种约束简化了后续模型与其他系统或数据库的集成，提高了输出信息的可用性. 事件描述指事件的具体描述内容，由用户自己输入，越详细的描述越有利于模型进行推理.

1.2. 语义感知驱动单元

大模型在监督微调的seq2seq任务中通常使用交叉熵（cross entropy）作为损失函数，优化目标是将模型的输出token与标签token对齐. 在此过程中，每个token可以理解为被分配相同的权重，如图3所示. 模型输出Logits需要计算每个token的损失，如下所示：

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 传统seq2seq任务和语义感知驱动模块的LLMs优化目标对比

Fig.3 Comparison of LLMs optimization objectives in traditional seq2seq task and semantic perception driver module

(1)$ {z}_{i,j}=-\ln\left(\dfrac{{\rm{exp}}\;{y}_{i,j}}{ \displaystyle\sum\nolimits _{k=0}^{S-1}{{\mathrm{exp}}}\;{y}_{i,k}}\right).$

式中：$ S $为词表的大小，$ {y}_{i,j} $为模型输出的第i个单词属于j类的分数. 根据标签token从$ {z}_{i,j} $中提取出对应的值，构成损失向量$ \boldsymbol{Z} $. 最终的损失值为向量$ \boldsymbol{Z} $中元素的平均值. 该优化目标可以表示为

(2)$ \begin{split} &\underset{\theta }{\min}\;({\boldsymbol{W}} \cdot {\boldsymbol{Z}})=\\[-10pt]& \underset{\theta }{\min}\left[\dfrac{1}{N}, \;\dfrac{1}{N},\; \dfrac{1}{N},\; \cdots, \;\dfrac{1}{N}\right] \times \left[\begin{array}{c}{z}_{0}\\ {z}_{1}\\ \begin{array}{c}{z}_{2}\\ \vdots \\ {z}_{N-1}\end{array}\end{array}\right].\end{split} $

式中：$ \theta $为模型训练的参数；$ N $为模型输出token的长度；$ \boldsymbol{W} $为权重向量，此时为均值权重. 虽然它对于一般语言建模场景很有效，但在事件抽取任务中的表现不佳. 事件类型和事件角色之间存在对应关系，但传统方法在训练过程中忽略了语义联系. 事件类型的token长度远远小于事件角色的token长度，交叉熵函数对这种情况下的误差灵敏度反馈较差. 这会导致模型对细颗粒度的理解能力难的问题.

为了解决上述问题，设计即插即用的语义感知驱动单元，提高大模型学习细粒度的事件抽取能力. 本质上，其原理是通过EE子任务与模型的阶段式决策过程对齐，即在不同阶段侧重不同的语义信息，进而将大模型的训练过程概念化为一系列可控的自适应阶段. 详细的原理如图4所示，该模块直接拼接在大模型的输出位置，输出token中含有丰富的语义信息. 根据标签token，将输出token分为事件类型、事件角色和结构化信息3种. 同时，需要标记出错误token. 这种错误检测对于后续事件分析的可靠性至关重要. 根据2种不同阶段，生成自适应权重向量. 阶段1是事件类型预测错误. 在事件抽取任务中，不同的事件类型对应不同的事件角色类别. 事件类型的预测结果直接影响模型对事件角色的预测结果，因此此时屏蔽了事件角色的所有token和结构化信息. 自适应权重的计算过程如下：

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 语义感知驱动模块的工作原理

Fig.4 Principle of semantic perception driver module

(3)$ \begin{split} {\boldsymbol{W}}_{\mathit{i}}=\left[{w}_{{E}_{i}}^{{L}_{{\mathrm{e}}}}\left(1\right),\; {w}_{{E}_{i}}^{{L}_{{\mathrm{e}}}}\left(2\right),\;\cdots,\; {w}_{{E}_{i}}^{{L}_{{\mathrm{e}}}}\left({L}_{{\mathrm{e}}}\right),\; 0, \;\cdots,\; 0\right],\end{split}$

(4)$ {w}_{E}^{L}\left(x\right)=1/L,\left(E,L\right)\in \left\{\left({E}_{i},{L}_{{\mathrm{e}}}\right),\left({R}_{i},{L}_{{\mathrm{r}}}\right),\left({S}_{i},{L}_{{\mathrm{s}}}\right)\right\}. $

式中：$ {E}_{i} $为第i个事件的事件类型，$ {R}_{i} $为第i个事件的事件角色，$ {S}_{i} $为第i个事件的结构化信息，$ L $ 为当前语句的长度，$L_{\mathrm{e}} $为事件类型的长度，$L_{\mathrm{r}} $为事件角色的长度，$L_{\mathrm{s}} $为结构符号的长度，$ x $为token的位置信息，$ {W}_{i} $为第i个事件的自适应权重. 事件角色和掩码的结构化信息的权重为零.

阶段2是事件类型正确，事件角色错误. 引入比例因子$ \alpha $，为事件类型和事件角色分配权重. 此时，自适应权重如下：

(5)$ {\boldsymbol{W}}_{\mathit{i}}=\left[{\alpha w}_{{E}_{i}}^{{L}_{{\mathrm{e}}}}\left(1\right), \cdots, {w}_{{S}_{i}}^{{L}_{{\mathrm{s}}}}\left(1\right), \cdots, {\left(1-\alpha \right)w}_{{R}_{i}}^{{L}_{{\mathrm{r}}}}\left({L}_{{\mathrm{r}}}\right), {w}_{{S}_{i}}^{{L}_{{\mathrm{s}}}}\left({L}_{{\mathrm{s}}}\right)\right]. $

所有的独立事件实体都被分配自适应权重. 将它们拼接在一起成为最终的自适应权重向量$ \boldsymbol{W} $，新的优化目标可以表示为损失向量$ \boldsymbol{Z} $乘以自适应权重向量$ \boldsymbol{W} $，如下所示：

(6)$ \begin{split} \underset{\theta }{{\min}}\;(\boldsymbol{W} \boldsymbol{Z})=&\underset{\theta }{\min}\left[{w}_{0}, {w}_{1}, \cdots , {w}_{N-1}\right] \times\\&\left[{z}_{0},\;{z}_{1},\;{z}_{2},\; \cdots ,\;{z}_{N-1}\right]^{\mathrm{T}}.\end{split} $

基于分阶段的语义感知，对每个事件实体的语义信息赋予相应的自适应权重. 此时，在微调的不同阶段，模型可以学到不同的子任务能力. 掌握预测事件类型的能力，学习提取角色的能力. 2个子任务之间存在优先级差异，以降低整个任务的难度，这样可以更准确地反映事件的复杂性和多样性. 在微调结束后，将该模块拆除不会增加任何推理延迟.

1.3. 基于事件分解的数据增强

针对数据匮乏和提升模型的泛化能力2个角度，提出基于事件分解的数据增强技术. 将事件抽取任务分解为3个子任务：仅预测事件类型、已知事件类型抽取事件角色和预测事件类型并抽取事件角色. 这3个子任务分别对应模型的3种能力，保证在不改变原本事件结构和语句结构的基础上进行数据扩容. 子任务提供补充主要任务的附加信息，使模型更好地学习不同阶段下的不同语义信息. 与事件语义感知驱动单元类似，该数据增强基于深层语义信息来提高LLM的泛化性能，符合人类“先识整体、再学细节”的认知机理，详细示例如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 基于事件分解的数据增强的举例

Fig.5 Example of data enhancement based on event decomposition

1.4. 模型微调与预测

为了提升模型在下游任务上的性能，需要对模型进行微调，如图6所示. 在模型的输出层插入提出的即插即用的语义感知驱动单元，使用基于事件分解的数据增强技术生成的多任务数据集进行微调. 模型能够更准确地捕捉事件类型及角色间的抽象关系，有效地解决现有方法中对细粒度语义认知不足的问题和数据资源匮乏的问题，大幅度减少大模型训练所需要消耗的计算资源.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 微调与预测

Fig.6 Fine-tuning and prediction

在微调结束后，将模型中的语义感知模块拆除，模型此时具备很强的泛化能力. 用户只需要针对应用任务场景输入不同的事件类型/角色表和具体的事件描述. 用户的输入信息会通过结构化统一编码，自动生成对应的提示词输入到大模型. 模型会根据提示词推理，最终得到结构化的输出. 此时，可以根据结构化输出与其他应用系统集成. 结构化的输出表达具有较好的规范性和便捷性.

2. 实验设计与分析

2.1. 数据集和实验环境

为了验证模型的性能，采用2个不同场景的事件抽取数据集进行测评：ACE05和CASIE. ACE05数据集是由伯克利大学发布的基准数据集，内容主要来自新闻、博客和广播等，其中事件类型为33种，事件角色为22种. 它包括3种语言：英语、汉语和阿拉伯语. 本文仅使用英语部分数据. ACE05数据集倾向于通用领域数据，CASIE数据集是来自网络安全领域，包含5种事件类型和26种事件角色. 具体的数据划分情况如表1所示.

表 1 数据集的统计

Tab.1 Statistic of dataset

数据集	主题	事件类型数/ 角色类型数	训练集数	验证集数	测试集数
ACE05	通用新闻	33/22	3342	327	293
CASIE	网络安全	5/26	3751	788	1500

新窗口打开| 下载CSV

本文方法中的主干网络是在Huggingface官网获取的ChatGLM3和GLM4-9B-0414模型. 实验均在单张英伟达的A100上开展. 批大小为4，迭代次数为5，采用Adamw优化器，学习率为$ 5\times {10}^{-5} $，调整策略为余弦退火. 其中，LoRA的秩设置为8，dropout和alpha分别设置为0.1和32. 模型的最大输入token长度为1 000，最大输出token长度为512.

2.2. 基线模型

为了评估模型的性能表现，将提出的模型与如下的代表性模型进行比较.

Bert^[25]：广泛应用于各种文本任务的编码器. 表2中的结果来自文献[18].

表 2 在ACE05和CASIE数据集上的模型性能对比

Tab.2 Model performance comparison between ACE05 and CASIE dataset

方法	主干网络	模型参数规模	CASIE		ACE05
方法	主干网络	模型参数规模	F_1e/%	F_1a/%	F_1e/%	F_1a/%
Bert-base	BERT-base	110×10⁶	68.98	60.37	72.50	59.50
EEQA	2×BERT-base	220×10⁶	—	—	72.40	53.30
UIE	T5-v1.1-base	770×10⁶	69.33	61.30	73.36	54.79
USM	RoBERTa-Large	355×10⁶	71.73	63.26	72.41	55.83
InstructUIE	FlanT5-11B	11×10⁹	67.80	63.53	77.13	72.94
Schema-Aware-EE	ChatGPT	> 20×10⁹	70.28	56.28	73.68	49.56
LC4EE	GPT-4	> 175×10⁹	—	—	77.20	54.90
TALOR-EE	GPT-3.5-turbo	> 20×10⁹	—	—	70.50	47.70
本文方法	ChatGLM3	6×10⁹	90.93	63.71	76.56	72.07
本文方法	GLM4-9B-0414	9×10⁹	93.40	66.87	77.81	76.52

新窗口打开| 下载CSV

EEQA^[26]：基于问答阅读理解的事件抽取系统.

UIE^[17]：统一的文本到结构生成框架，可以通用地应对不同的信息抽取任务，并自适应地生成目标结构.

USM^[22]：将信息抽取任务转化为语义匹配任务的通用信息抽取框架.

InstructUIE^[18]：通用的端到端信息提取框架，充分利用自然语言指令，指导模型完成信息抽取任务.

Schema-Aware-EE^[27]：利用LLM的文本理解能力，通过集成提示分解和检索增强生成启发的提示，提高提取事件的准确性.

LC4EE^[15]：小语言模型和大语言模型协同框架，旨在利用小模型卓越的提取能力和大模型的指令跟踪能力构建高性能的事件抽取系统.

TALOR-EE^[28]：面向低资源事件抽取的目标增强与反向验证框架. 通过从外部语料库检索目标实体构建多样化事件结构，利用自然语言推理模块进行双向验证，显著提升任务性能.

2.3. 评估指标

当评估模型有效性时，采用$ {F}_{1} $作为评价指标. 通过计算事件类型的$ {F}_{1} $分数$ {F}_{1{\mathrm{e}}}$和事件角色的$ {F}_{1} $分数${F}_{1{\mathrm{a}}} $ 2个标准指标来评估模型的性能，具体公式如下所示：

(7)$ {{P}}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}}\times 100 {\text{%}},$

(8)$ {{R}}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}}\times 100 {\text{%}},$

(9)$ {{F}}_1=\frac{2 {P} {R}}{{P}+{R}}\times 100 {\text{%}}. $

式中：TP、FP和FN分别表示真阳性、假阳性和假阴性. 在没有触发词的情况下，执行事件检测和参数提取任务. 对于事件类型的$ {F}_{1} $，只须判断事件类型是否正确. 对于事件角色的$ {F}_{1} $，若提取的角色内容与角色类型匹配，则认为样本被正确标记.

2.4. 性能对比与分析

如表2所示为模型与基准模型在ACE05和CASIE 2个数据集上的性能对比结果. 其中，最佳结果以粗体突出显示，次佳结果用下划线突出显示. 从表2可知，本文方法在2个数据集上都优于最具竞争力的基线方法. 在CASIE数据上，本文方法达到最优，其中事件类型的$ {F}_{1} $显著提高了20%. 事件角色的$ {F}_{1} $提升幅度较小，经分析发现，数据标签本身存在代词指代不清和系统软件版本指代不清的问题. 具体如图7所示，可知大模型抽取的信息相对于真实标签更加准确和详细. 代词能够根据上下文语义分析得到具体的实体名称. 此外，在CASIE的场景下存在大量系统和软件版本的信息，这部分真实标签存在部分错误和冗余，影响了最终的性能. 大模型可以基于强大的理解能力，抽取正确的版本号信息并进行角色分类.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 CASIE数据集的问题

Fig.7 Problem of CASIE dataset

在ACE05数据集上，除了LC4EE之外，本文方法表现最好，事件类型的$ {F}_{1} $提升约为7%，事件角色的$ {F}_{1} $提升为8.1%~24.4%. 对于LC4EE，虽然本文方法在ChatGLM3的事件类型$ {F}_{1} $下降0.6%，但是事件角色$ {F}_{1} $显著提升了17.1%. 主干网络OpenAI的GPT-4模型规模远远超过ChatGLM3，可以大大减少现存的推理开销. 本文方法在GLM4-9B-0414上的性能均优于LC4EE. 在事件抽取任务上，超大规模的模型不一定比小规模的模型表现更好. 对于事件抽取任务，更重要的是如何让模型理解深层的语义信息，更好地从抽象的文本关系中，对事件进行分类，抽取对应类别下的关键信息. 较小的大模型可以在特定领域的EE任务上以较低的计算成本超过参数规模较大的大模型.

2.5. 消融实验

在CASIE和ACE05 2个数据集上，对语义感知驱动单元进行消融实验，以验证有效性，结果如表3所示. 在去除语义感知驱动单元后，ChatGLM3在CASIE上的$ {F}_{{\mathrm{1e}}} $分数下降了1.24%，在ACE05 上下降了0.57%. $F_{{\mathrm{1a}}} $在CASIE和ACE05上分别下降了0.3%和0.47%. GLM4-9B-0414上的结果证明了语义感知驱动单元对于大模型捕获更细粒度语义信息的有效性. 具体来说，语义感知驱动单元增强了大模型理解事件类型和事件角色之间关系的能力，而这些抽象关系经常被基线模型所忽视.

表 3 语义感知驱动单元的消融实验

Tab.3 Ablation experiment on semantic perception driver unit

方法	CASIE		ACE05
方法	$F_{{\mathrm{1e}}} $/%	$F_{{\mathrm{1a}}} $/%	$F_{{\mathrm{1e}}} $/%	$F_{{\mathrm{1a}}} $/%
ChatGLM3	89.34	62.58	74.28	70.77
ChatGLM3+语义感知驱动	90.58	62.88	74.85	71.24
GLM4-9B-0414	91.86	65.28	75.76	73.57
GLM4-9B-0414+语义感知驱动	92.70	65.85	76.72	75.03

新窗口打开| 下载CSV

为了验证基于事件分解的数据增强方法对大模型事件抽取的影响，消融实验结果如表4所示. 在采用基于事件分解的数据增强后，模型的性能显著提升. 通过同时学习多个提示样本，大模型可以构建更强大的多任务和特定领域特征的表示，增强了模型的泛化能力.

表 4 基于事件分解的数据增强的消融实验

Tab.4 Ablation experiment on data enhancement based on event decomposition %

方法	CASIE		ACE05
方法	F_1e	F_1a	F_1e	F_1a
ChatGLM3	89.34	62.58	74.28	70.77
ChatGLM3+事件分解	89.46	62.25	75.19	71.67
GLM4-9B-0414	91.86	65.28	75.76	73.57
GLM4-9B-0414+事件分解	92.50	65.40	76.70	74.20

新窗口打开| 下载CSV

综上所述，实验证明了语义感知驱动单元和基于事件分解的数据增强技术在提高模型性能方面的有效性. 语义感知驱动单元显著增强了模型对细粒度语义的理解能力. 采用基于事件分解的数据增强技术的多任务策略，提高了模型的泛化性和稳定性.

2.6. 跨域泛化能力实验

如表5所示为本文方法在2个数据集上的跨域泛化性能的结果. 其中，ACE05_CASIE的含义为模型在ACE05上微调，在CASIE上测试；CASIE_ACE05的含义为模型在CASIE上微调，在ACE05上测试.

表 5 跨域泛化能力的实验

Tab.5 Experiment on cross-domain generalization ability %

方法	5-shot	ACE05_CASIE		CASIE_ACE05
方法	5-shot	F_1e	F_1a	F_1e	F_1a
ChatGLM3	×	61.73	40.65	40.72	39.59
ChatGLM3	√	63.93	43.26	42.83	41.21
基于本文方法的ChatGLM3	×	47.57	42.45	41.63	39.68
基于本文方法的ChatGLM3	√	68.21	48.25	47.52	41.70
GLM4-9B-0414	×	70.06	44.06	44.70	42.19
GLM4-9B-0414	√	73.66	46.90	46.75	44.15
基于本文方法的GLM4-9B-0414	×	78.26	43.31	46.75	43.30
基于本文方法的GLM4-9B-0414	√	79.85	45.78	52.21	45.07

新窗口打开| 下载CSV

开展zero-shot的实验，跨域测试时，提示词中没有引入对新场景的事件抽取例子. 对于CASIE_ACE05，与单纯依靠ChatGLM3的模型相比，基于本文方法的ChatGLM3的$ {F}_{{\mathrm{1e}}} $提升了0.91%，$ {F}_{{\mathrm{1a}}} $提升了0.09%. 对于ACE05_CASIE，本文方法的$ {F}_{{\mathrm{1a}}} $提升了1.80%，但$ {F}_{{\mathrm{1e}}} $出现了显著的下降. 这种下降可能归因于 CASIE和ACE05之间事件类型数量的巨大差异. CASIE仅包含5种事件类型，而ACE05包含33种，可以更广泛、更复杂地表示事件. 当在ACE05上进行微调时，模型很难推广到更简单的CASIE数据集，可能是因为较少的事件类型限制了模型分类的能力. 基于本文方法的GLM4-9B-0414的跨域性能均优于基础模型，这表明本文方法增强了大模型事件抽取的跨域泛化能力.

为了进一步探索泛化性能，开展5-shot的测试，通过在提示词中引入新场景的例子，辅助大模型理解新场景的事件. 结果如图5所示，本文方法在ChatGLM3和GLM4-9B-0414模型上的性能均有大幅度的提升. 此外，ChatGLM3模型解决了ACE05_CASIE上的性能下降问题，这表明5-shot能够有效地辅助大模型理解新场景下的事件. 此外，本文方法的性能均超过了基础模型. 这表明本文方法通过与few-shot结合，可以大幅度提升大模型在新场景下对新事件的理解和抽取能力.

此外，将本文方案应用在浙江省大型科研仪器开放共享平台^[29]上，分析平台中长时间未开机仪器的理由，根据理由的描述文本进行事件分类. 如表6所示为平台中各仪器长时间未开机的理由描述样例. 为了方便平台运维人员对设备进行管理，利用提出的模型对理由描述进行分析，将长时间未开机的仪器分为传感器问题排查、仪器搬迁实验室改造、仪器待报废三大类别. 选取300条真实数据，在该任务场景下，$ {F}_{1{\mathrm{e}}} $指标能够达到89.3%.

表 6 平台设备长时间未开机原因的举例

Tab.6 Example of reasons why platform devices have not been turned on for a long time

未开机理由	事件描述
仪器搬迁实验室改造	该设备于2023年6月进行搬迁后，因实验室架构调整和实验室场地改造的原因停用，尚未恢复使用.
传感器问题排查	设备正常使用中，但因设备进行电路改造升级为三相电源，原传感器已不适用，实验室没有及时告知更换.
仪器待报废	设备仪器陈旧，技术指标落后.

新窗口打开| 下载CSV

3. 结　语

提出基于分阶段语义感知的事件抽取大模型框架，旨在解决仅依靠监督微调无法使模型对事件进行细粒度语义理解和数据匮乏的问题. 核心原理是基于结构化统一编码和语义感知驱动单元将事件抽取训练分解为2个感知阶段：事件类型的全局语义理解和事件角色的细粒度语义匹配. 针对模型的不同能力，通过事件分解技术丰富训练样本，提升模型对未知事件的泛化能力. 整个框架模拟了人类“先识整体、再学细节”的认知机理，使模型能够显式地建模事件语义的层次化表征. 结果表明，本文方法可以使参数量小的大模型在事件抽取任务上优于参数量大的大模型，保证模型直接迁移到新领域的数据集上，具有优秀的泛化能力. 未来研究将重点探索长文本上下文的场景和事件抽取实时性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[13]

NGUYEN T H, GRISHMAN R. Event detection and domain adaptation with convolutional neural networks [C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing: ACL, 2015: 365–371.