浙江大学学报(工学版), 2025, 59(1): 79-88 doi: 10.3785/j.issn.1008-973X.2025.01.008

计算机与控制工程

基于课程学习的跨度级方面情感三元组提取

侯明泽,, 饶蕾,, 范光宇, 陈年生, 程松林

上海电机学院 电子信息学院,上海 201306

Span-level aspect sentiment triplet extraction based on curriculum learning

HOU Mingze,, RAO Lei,, FAN Guangyu, CHEN Niansheng, CHENG Songlin

School of Electronic Information Engineering Shanghai Dianji University, Shanghai 201306, China

通讯作者: 饶蕾,女,副教授,博士. orcid.org/0000-0001-7399-3224. E-mail:raol@sdju.edu.cn

收稿日期: 2023-11-19  

基金资助: 国家自然科学基金资助项目(61702320).

Received: 2023-11-19  

Fund supported: 国家自然科学基金资助项目(61702320).

作者简介 About authors

侯明泽(1999—),男,硕士生,从事自然语言处理研究.orcid.org/0009-0005-7768-7159.E-mail:226003010119@st.sdju.edu.cn , E-mail:226003010119@st.sdju.edu.cn

摘要

现有方面情感三元组提取方法存在无法充分利用预训练模型知识,容易出现过拟合或欠拟合,识别语句细粒度方面词和情感极性的能力不足等问题,为此提出基于课程学习框架的跨度级方面情感三元组提取方法. 该方法基于课程学习框架进行数据预处理,使用预训练模型学习句子的上下文表示,搭建跨度模型提取句子中所有可能的跨度,基于双通道提取方面词和意见词,筛出正确的方面词和意见词组合进行情感分类. 在ASTE-Data-V2数据集上的实验结果表明,所提方法的F1值比SPAN-ASTE的F1值提升了2个百分点,所提方法的实验结果优于GTS、B-MRC、JET等其他方面情感三元组提取方法.

关键词: 课程学习 ; 跨度模型 ; 方面情感三元组提取 ; 双通道 ; 情感分类

Abstract

Exiting methods of aspect sentiment triplet extraction suffer from the problems of not being able to fully utilize the knowledge of the pre-trained model, being prone to overfitting or underfitting, and having insufficient ability to recognize the fine-grained aspects and sentiments of an utterance. A method for extracting span-level aspect sentiment triples based on a curriculum learning framework was proposed. Data preprocessing was performed based on the curriculum learning framework, and the contextual representation of a sentence was learned using a pre-trained model. By building a span model, all possible spans were extracted in a sentence. Aspect and opinion terms were extracted based on the dual channel, and the correct combinations of aspect-opinion were filtered out for sentiment categorization. Experimental results on the ASTE-Data-V2 dataset show that the F1 value of the proposed method is improved by 2 percentage points over that of SPAN-ASTE. The experimental results of the proposed method outperform the other aspect sentiment triplet extraction methods such as GTS, B-MRC, and JET.

Keywords: curriculum learning ; span model ; aspect sentiment triplet extraction ; dual-channel ; sentiment categorization

PDF (875KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

侯明泽, 饶蕾, 范光宇, 陈年生, 程松林. 基于课程学习的跨度级方面情感三元组提取. 浙江大学学报(工学版)[J], 2025, 59(1): 79-88 doi:10.3785/j.issn.1008-973X.2025.01.008

HOU Mingze, RAO Lei, FAN Guangyu, CHEN Niansheng, CHENG Songlin. Span-level aspect sentiment triplet extraction based on curriculum learning. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(1): 79-88 doi:10.3785/j.issn.1008-973X.2025.01.008

方面情感三元组提取(aspect sentiment triplet extraction,ASTE)是细粒度的情感分析任务,其目的是提取句子中的方面词、情感极性和意见词,主要应用于商品评论分析任务[1]. 例如在语句“The sweet treats are good but average service.”中,方面词是“sweet treats”和“service”;意见词是“good”和“average”,它们的情感极性分别是“正面”和“中立”.

学者们提出了多种端到端ASTE方法,包括基于序列标注的方法[2]、文本生成的方法[3-4]、阅读理解的方法[5-6]等,这些方法均存在局限性. 基于序列标注的方法只考虑单个词的信息,忽略了由多个单词组成的情感词整体信息,因此在提取具有复杂方面词或意见词的语句时效果不佳. 基于文本生成的方法和阅读理解的方法都要改造并设计相应的问题模板才能完成ASTE任务,这不仅增加了任务的复杂性,而且严重依赖上下文来预测方面意见对的情感极性. 在执行识别包含多个单词的方面词和意见词的任务时,由于上述3种方法仅能单独预测每个词对的情感极性,导致在分析完整语句时无法保证方面词和意见词的情感一致性,对语句细粒度方面和情感的识别能力不足. Xu等[7]提出跨度模型(span model, SM),通过枚举所有可能的跨度组合作为输入来捕捉方面词和意见词之间的跨度交互,实现了对多个词组成的方面词和意见词的提取. 由于需要枚举所有可能的跨度,跨度模型在处理长句子时可能会增加计算复杂度,影响模型的效率和性能. 在ASTE任务中,模型训练时数据的输入都是无序的,导致模型训练的优化路径不稳定,使得模型的收敛速度变慢,重复训练相似或相同的样本会导致模型出现过拟合.

本研究提出课程学习(curriculum learning, CL)训练框架,分开提取语句的方面词和意见词,筛选正确的方面意见对进行情感分类. 针对模型收敛速度慢和过拟合问题,提出基于课程学习的数据训练自适应方法,通过逐渐增加训练难度,避免陷入次优解,更有效地探索解空间,在提高模型收敛速度的同时避免过拟合. 针对细粒度方面词和情感极性的识别能力不足的问题,基于预训练模型学习句子的上下文表示,搭建跨度模型提取句子中所有可能的跨度,基于双通道同时提前方面词和意见词,再筛选出正确的方面词和意见词组合并进行情感分类,提高模型细粒度方面词和情感极性的识别能力.

1. 相关工作

1.1. 方面级情感分析

在方面级情感分析任务中,细粒度情感分析的特定子任务是研究者的关注重点. Chen等[8-10]采用图卷积神经网络,通过学习句子的依存句法树和利用单词之间的依存关系来捕捉与特定方面词相关的上下文信息,从而判断情感极性. 现有的研究方法大多只处理方面级情感分析任务的某个子任务,无法完整地进行语句整体的情感分析. 为了解决这个问题,学者们开始考虑采用多个子任务联合的学习策略,例如同时抽取方面词与观点词,或者方面提取情感分类(aspect extraction and sentiment classification,AESC). Peng等[1]提出ASTE任务,旨在同时从句子中抽取方面词、意见词以及与每个方面词相关的情感极性. 基于SemEval-2014[11]、SemEval-2015[12]和SemEval-2016[13]等数据集,学者们构建了基准数据集ASTE-Data-V1用于评测ASTE任务的识别效果[1]. 为了解决ASTE-Data-V1数据集遗漏对应多个方面词的观点词问题,Xu等[2]修正该数据集并发布ASTE-Data-V2数据集,使方面情感三元组的研究和评估得到了更好的支持.

1.2. 课程学习框架

课程学习属于机器学习方法. 课程学习的概念由Bengio等[14]提出,它模仿人类的学习过程,主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识. 课程学习的收敛速度快,泛化能力强,通过逐渐增加训练数据难度模型能够避免陷入次优解,而对解空间进行有效的探索. 课程学习还有助于模型学习更强大和可迁移的表示,提高模型在新类型数据上的性能[15]. 课程学习方法在计算机视觉和自然语言处理领域的研究成果优秀,主要有基于课程学习的神经机器翻译[16],还有用于阅读理解长篇叙事的课程指针生成器网络[17].

本研究提出如图1所示的应用于ASTE任务的课程学习框架. 在课程学习框架中定义2种标准:样本难度和模型能力. 样本难度表示训练样本的难度程度,它取决于当前模型的状态,即模型在学习过程中的能力,本研究采用自然语言处理任务中较为直观的句子长度作为样本难度的度量标准. 模型能力表示模型在训练阶段的学习能力. 框架通过观察模型在前5轮训练中的损失是否有明显变化来度量模型能力,如果没有明显变化,框架会向模型输入更难的训练样本,以提升模型的学习能力.

图 1

图 1   课程学习框架

Fig.1   Curriculum learning framework


2. 方 法

图2所示,所提基于课程学习框架的跨度级ASTE方法的网络架构由5个部分组成:基于课程学习框架的数据预处理、预训练模型、语句跨度提取、方面词和意见词双通道提取以及ASTE任务输出. 课程学习框架处理输入数据,预训练模型获得词的上下文表示,跨度模型生成所有可能的跨度,方面词提取(aspect term extraction, AE)模型和意见词提取(opinion term extraction,OE)模型提取所有的候选方面词和候选意见词,ASTE提取模型配对正确的方面词和意见词对并分类情感极性,其中POS、NEG和NEU分别对应积极、消极和中立的情感极性,WRONG表示方面词和意见词配对失败,不输出情感极性.

图 2

图 2   基于课程学习框架的跨度级方面情感三元组提取方法的网络架构

Fig.2   Network architecture for span-level aspect sentiment triplet extraction method based on curriculum learning framework


2.1. 任务定义

令句子$ S = \left\{ {{x_1},{x_2}, \cdots ,{x_n}} \right\} $,其中${x_1}, \cdots ,{x_n}$n个词. ASTE任务的目标是提取方面意见情感三元组$ T{\text{ = }}\left\{ {{{\left( {a,o,s} \right)}_k}} \right\}_{k = 1}^{|T|} $,其中a为方面词,o为意见词,s为情感极性,$k$为集合$T$中的索引位置.

2.2. 课程学习框架

课程学习让模型先处理容易学习的数据,再逐渐增加数据的难度,帮助模型逐步学习复杂的特征和规律. 在自然语言处理中,按照句子长度排序是自然方法,原因是相比短句,长句更复杂,需要更强的推理和计算能力来处理. 课程学习方法可以帮助神经网络模型更快收敛,并提高模型的性能和泛化能力. 在实际应用中,课程学习方法还可以通过对如情感极性、主题的其他特征进行数据排序,以便更好地利用数据集中的信息.

图3所示为所提课程学习框架在ASTE任务中的训练过程,图中的意见词均用斜体表现,3种情感极性均写在括号内,放在对应的方面词后面. 参考机器翻译的句子划分策略[16-19],将数据集按照句式由短至长排序后分为3份:$ {{Q_1}、{Q_2}、{Q_3}} $. 其中${Q_1}$包含句子长度小于10个字母的样本,如简短语句“Good food(POS) .”;${Q_2}$包含句子长度小于20个字母大于等于10个字母的样本,如较复杂语句 “A cheap eat(POS) for NYC , but not for dosa(NEG) .”;${Q_3}$包含句子长度大于等于20个字母的样本,如复杂语句 “For the next hour and a half we stood in the crowded lobby area(NEG) of this touristy restaurant listening to all types of explanations of why we were not being seated .”. 如算法1所示,定义判断模型是否收敛的函数来表现模型能力,如果模型收敛则本轮学习结束,可以输入更难的样本. 先将${Q_1}$送入模型训练,模型收敛后再送入${Q_2}$, 最后送入${Q_3}$. 通过逐渐增加课程学习框架的任务强度(先训练数据集中小且简单的样本,再加入更难样本,最终放入所有样本),帮助模型逐步学习语句更复杂的特征和规律.

图 3

图 3   课程学习在方面情感三元组提取任务中的训练过程

Fig.3   Training processes of curriculum learning in aspect sentiment triplet extraction tasks


算法 1  课程学习

输入:${Q_1},{Q_2},{Q_3}.$

1. 计算是否收敛(模型);

2. if 近3轮收敛阈值<0.01:

3. return True;

4. else:

5. return False;

6. 当前数据集= ${Q_1};$

7. for 轮次 in range(总轮次):

8. 训练模型(模型,当前数据集);

9. 计算是否收敛(模型):

10. break;

11. if 当前数据集= ${Q_1}$

12. 当前数据集= ${Q_1}+ {Q_2}$

13. else:

14. 当前数据集= ${Q_1}+ {Q_2}+ {Q_3}$

输出:模型

2.3. 预训练模型

将RoBERTa[18]作为预训练的语言模型来获取句子的上下文表示. 由于字词分割算法的引入,单词可能被标记为多个词段,导致模型误解词义. 采用均值池化的方法来聚合多个词段的表示. 具体而言,对于由多个词段组成的词,每个词段都有自己的上下文表示,将这些词段的表示求平均(将每个词段的表示相加,除以词段的数量),获得整个词的上下文表示,再将多个词段的信息进行综合表示. 这种方法允许综合考虑词段的上下文信息,提供更全面和准确的词表示,为后续的任务和分析提供更可靠的输入. 本实验采用RoBERTa模型的预训练权重,并结合均值池化的策略来获取最终的上下文词表示$w = \left\{ {{w_1},{w_2}, \cdots ,{w_n}} \right\}$.

2.4. 跨度模型

跨度模型是用于处理自然语言任务的模型,其主要作用是接受文本序列作为输入,预测出每个跨度的开始和结束位置,这些跨度可以表示方面词或意见词的信息. 相比序列标记方法,跨度模型方法可以结合更广泛的上下文信息和处理不同长度的文本序列,通过最大池化的方式来组合上下文表示. 给定包含n个标记的句子$S$,有m个可能的跨度,每个跨度${p_{i,j}} \in P$,定义为

$ {p_{i,j}} = \left\{ {{w_i};{w_j};{L_{\mathrm{l}}}\left( {i,j} \right)} \right\} . $
(1)

式中:$ {w_i} $为跨度的起始位置,$ {w_j} $为跨度的结束位置,$ {L_{\mathrm{l}}}\left( {i,j} \right) $表示跨度长度. 定义$ {L_m} $为跨度的最大长度限值,

$ {L_{{\mathrm{l}}}}\left( {i,j} \right) \leqslant {L_m} . $
(2)

跨度模型能够捕捉到每个跨度中最具代表性的信息量表示,有助于后续任务更好地理解和利用跨度的语义信息.

2.5. 方面词提取模型和意见词提取模型

方面情感三元组可以由方面词或意见词触发,方面词和意见词在文本中具有不同的语义和功能,因此模型在处理方面词或意见词时面临不同的挑战. 传统单通道只关注方面词或意见词中单个情况的触发词,导致提取方面、意见、情感三元时效果差. 本研究提出双通道结构来解码跨度表示,通道结构由方面词提取模型和意见词提取模型组成. 在方面词和意见词提取任务中,方面词提取和意见词提取子任务的结果为双通道跨度策略提供指导, 根据预测的方面词和意见词跨度的分数确定方面词和意见词所在的位置范围. 方面词和意见词的概率求解式分别为

$ P\left( {\left. a \right|{p_{i,j}}} \right) = {\text{softmax}}\left( {{\mathrm{FFN}}{{\mathrm{N}}_a}\left( {{p_{i,j}}} \right)} \right) \text{,} $
(3)

$ P\left( {\left. o \right|{p_{i,j}}} \right) = {\text{softmax}}\left( {{\mathrm{FFN}}{{\mathrm{N}}_o}\left( {{p_{i,j}}} \right)} \right) . $
(4)

式中:$ P\left( {\left. a \right|{p_{i,j}}} \right) $为候选方面词在给定跨度$ {p_{i,j}} $下的概率,$ P\left( {\left. o \right|{p_{i,j}}} \right) $为候选意见词在给定跨度$ {p_{i,j}} $下的概率,$ {\text{softmax}} $为激活函数, ${\mathrm{ FFNN}} $为非线性激活的前馈神经网络. 将跨度$ {p_{i,j}} $作为输入,在AE模型中预测方面词$a \in \left\{ {{\text{True}},{\text{False}}} \right\}$,在OE模型中预测意见词$o \in \left\{ {{\mathrm{True}},{\mathrm{False}}} \right\}$,其中True表示正确的方面词或意见词,False表示不是方面词或意见词.

对于长度为n的句子$S$,需要考虑大量的跨度组合,跨度的数量为$O\left( {{n^2}} \right)$. 当考虑所有候选意见词和候选方面词跨度之间的相互作用时,可能的词对总数为$ O\left( {{n^4}} \right) $(即三元组模块). 在计算中考虑所有可能的成对相互作用不切实际,为此采用基于跨度的方法,通过使用每个跨度的提取分数来选择候选方面词和候选意见词:

$ \phi a\left( {{p_{i,j}}} \right) = P\left( {\left. a \right|{p_{i,j}}} \right) \text{,} $
(5)

$ \phi o\left( {{p_{i,j}}} \right) = P\left( {\left. o \right|{p_{i,j}}} \right) .\;\;\; $
(6)

式中:$ \phi a\left( {{p_{i,j}}} \right) $为候选方面词的提取分数,$ \phi o\left( {{p_{i,j}}} \right) $为候选意见词的提取分数. 计算候选方面词和意见词的提取分数选择最高分的候选,将这些候选跨度存入方面词候选池${C^a} = \left\{ { \cdots ,c_{e,f}^a, \cdots } \right\}$和意见词候选池${C^o} = \left\{ { \cdots ,c_{m,n}^o, \cdots } \right\}$,其中上标分别代表方面词标注和意见词标注,下标分别代表方面词和意见词的索引位置,候选池为后续任务提供输入.

2.6. 方面情感三元组提取任务输出

将每个候选方面词跨度表示$c_{e,f}^a $与每个候选意见词跨度表示$c_{m,n}^o $配对,方面-意见对表达式为

$ {G_{c_{e,f}^a,c_{m,n}^o}} = \left[ {c_{e,f}^a;c_{m,n}^o;{L_{\mathrm{r}}}\left( {e,f,m,n} \right)} \right] . $
(7)

式中:$ {L_{\mathrm{r}}}\left( {e,f,m,n} \right) $为候选方面词跨度和候选意见词跨度之间的距离. 将方面-意见对表示输入前馈神经网络,确定$ c_{e,f}^a $$ c_{m,n}^o $的情感极性$s \in R = \{ \rm{POS}, {\mathrm{NEG,NEU,WRONG}} \}$的概率. 取4种结果的最大概率作为情感极性,计算式为

$ P\left( {\left. s \right|c_{e,f}^a,c_{m,n}^o} \right) = {\mathrm{softmax}}\left( {{\mathrm{FFN}}{{\mathrm{N}}_s}\left( {{G_{c_{e,f}^a,c_{m,n}^o}}} \right)} \right) . $
(8)

配对后的方面词和意见词再进行情感分类,得到语句的方面词、对应的情感极性和意见词.

3. 实 验

3.1. 数据集

在ASTE-Data-V2数据集上验证所提模型的有效性. 该数据集包含4个子集:14LAP、14RES、15RES和16RES,均标注了方面词、情感极性和意见词的三元组信息. 如表1所示为这4个数据集的训练集、验证集和测试集的统计数据,其中NS为句子的数量,NPOSNNEUNNEG分别表示正、中性和负三元组的数量. 如图4所示为4个子数据集中不同长度句子的数量统计图,其中${S_{\mathrm{w}}}$为句子中词的数量,$S$为句子数量. 数据集中各句子长度以包含字母的多少划分为3类:${Q_1}$${Q_2}$${Q_3}$,并在图中用虚线框标注出${Q_1}、{Q_2}、{Q_3}$的范围,使${Q_1}、{Q_2}、{Q_3}$的句子数量分布合理且均衡,保证模型的训练效果.

表 1   方面情感三元组提取数据集

Tab.1  Dataset of aspect sentiment triplet extraction

数据集14LAP14RES15RES16RES
NSNPOSNNEUNNEGNSNPOSNNEUNNEGNSNPOSNNEUNNEGNSNPOSNNEUNNEG
训练集1266169216648090681712651760578325205857101550329
验证集310404541192191693614114818511532102521176
测试集4927736615532836463116322317251433264072978

新窗口打开| 下载CSV


图 4

图 4   ASTE-Data-V2不同子数据集中的句子长度统计图

Fig.4   Sentence length statistics in different sub-datasets of ASTE-Data-V2


3.2. 实验设置

模型采用RoBERTa和BERT[20]的基础版本. 设置RoBERTa的微调速率和其他模型的学习速率为1.0×10−5,最小批量大小为16,丢弃率为0.1,生成的跨度的最大长度为8;在NVIDIA 3090 GPU上训练的迭代轮次epoch=30.

3.3. 评价指标

采用ASTE任务性能中常用的3种评价指标:准确值P,召回率R和F1值来评价模型的综合性能,计算式分别为

$ P = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FP}}}} , $
(9)

$ R = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}}, $
(10)

$ {\mathrm{F}}1 = \frac{{2 \times P \times R}}{{P+R}}. $
(11)

式中:$ {\mathrm{TP}} $为模型正确预测的正样本数量,$ {\mathrm{FP}} $为模型错误预测的正样本数量,$ {\mathrm{FN}} $为模型未能正确预测的正样本数量. F1用于衡量模型的性能,数值越大表示模型的准确性和完整性越好.

3.4. 基线模型

将所提模型与其他预训练模型的基准模型进行性能比较. 其中1)GAS[4]提供了统一生成框架,将基于方面的情感分析任务转化为文本生成问题,分为注释式模式,和提取式模式. 2)BARTABSA[3]将所有基于方面的情感分析(aspect-based sentiment analysis,ABSA)任务重新定义为由指针索引和情感类索引混合的序列,利用预训练的序列到序列模型来解决ABSA任务. 3)JET[2]以新的位置感知标记方案来联合提取三元组的端到端模型;其因子化特征表示的设计能够有效地捕捉三重因子之间的相互作用. 4)B-MRC[5]具有双向机器阅读理解结构,2个阅读理解模型先分别提取方面和意见,再分别由方面提取意见和意见提取方面互补分类情感极性. 5)Dual-MRC[6]构建2个机器阅读理解问题,通过联合训练2个共享参数的BERT模型完成所有子任务. 6)GTS[21]以网格标记方案来解决方面情感三元组提取问题,使用推理策略来利用不同意见元素之间的关联. 7)Span-ASTE[7]采用双通道跨度修剪策略,通过重点考虑目标和意见之间的相互作用来预测情感关系.

3.5. 课程学习框架实验结果

对比GAS模型和引入课程学习框架的GAS模型在ASTE-Data-V2数据集上的识别效果,以验证课程学习框架的有效性. 如表2所示为GAS模型与引入课程学习框架3个阶段CL1、CL2和CL3后GAS模型的ASTE结果. 可以看出,课程学习框架训练初期由于训练数据少,模型性能较差;当整个课程学习训练结束时,引入课程学习框架的F1值在14LAP数据集上提升了1.45个百分点,在14RES数据集上提升了0.17个百分点,在15RES数据集上提升了1.82个百分点,在16RES数据集上提升了1.77个百分点. 在15RES训练集中,F1值更大,但是召回率相比原模型稍有下降,15RES的总体数据偏少且积极例子和消极例子数量差距大,是导致召回率下降的可能原因. GAS模型是基于T5[22]预训练模型的模型,GAS将ABSA任务作为文本生成任务,说明使用课程学习框架在生成模型GAS上有效果.

表 2   GAS引入课程学习框架前后的方面情感三元组提取结果

Tab.2  Aspect sentiment triplet extraction results before and after GAS imported into curriculum learning framework

%
模型14LAP14RES15RES16RES
PRF1PRF1PRF1PRF1
GAS63.4555.6259.2771.7770.9571.7561.3360.8261.0868.3272.1870.20
GAS+CL153.7741.9947.1663.1462.2562.6953.1552.1652.6560.6356.6158.55
GAS+CL263.5456.1759.6369.3468.2268.7858.1059.1858.6365.1868.0966.60
GAS+CL364.3457.6460.7272.5672.0671.9260.6165.3662.9070.1173.9371.97

新窗口打开| 下载CSV


表3所示为Span-ASTE模型与引入课程学习框架3个阶段后Span-ASTE模型的ASTE结果. 可以看出,课程学习框架训练初期同样出现了训练数据少导致的模型效果不佳的情况;当整个课程学习训练结束时,引入课程学习框架的F1值在14LAP数据集上提升了0.25个百分点,在14RES数据集上提升了1.87个百分点,在15RES数据集上提升了2.02个百分点,在16RES数据集上提升了1.54个百分点. 14RES数据集数据比14LAP数据多,有更多的多方面词或者意见词组成的复杂句,因此课程学习框架训练使Span-ASTE模型在14RES数据集上的F1值更大,CL3阶段在4个子数据集中F1值虽然比不加课程学习更好,但是在14LAP的准确值和16RES的召回率下降,原因是14LAP和16RES的句子数量多,不同类的例子分化严重,出现积极例子远远大于中立和消极例子的情况. 在15RES中,CL3阶段召回率较CL2阶段的小,15RES总体数据偏少并且积极例子和消极例子数量差距大,是导致召回率下降的原因.

表 3   Span-ASTE引入课程学习框架前后的方面情感三元组提取结果

Tab.3  Aspect sentiment triplet extraction results before and after Span-ASTE imported into curriculum learning framework

%
模型14LAP14RES15RES16RES
PRF1PRF1PRF1PRF1
Span-ASTE65.0456.5460.4972.9367.2069.9563.8560.8262.3067.3273.7570.38
Span-ASTE+CL151.5845.1248.1348.7759.5653.7536.4052.1642.8841.1564.2050.15
Span-ASTE+CL260.1558.3859.2565.1269.1167.0645.9965.1553.9254.7065.5659.65
Span-ASTE+CL363.9557.8360.7473.4770.5471.8264.5264.1264.3271.1072.7671.92

新窗口打开| 下载CSV


表4所示为BARTABSA模型与引入课程学习框架3个阶段后BARTABSA模型的ASTE结果. 可以看出,除了15RES数据集,课程学习第2阶段模型的识别效果已经超过了BARTABSA模型的识别效果. BARTABSA模型基于BART[23]预训练模型的生成模型,有编码器解码器的结构,有BERT更大的预训练数据量,这说明生成模型在训练数据偏少的情况下仍能达到很好的效果. 当整个课程学习训练结束时,引入课程学习框架的F1值在14LAP数据集上提升了1.7个百分点,在14RES数据集上提升了1.46个百分点,在15RES数据集上提升了0.82个百分点,在16RES数据集上提升了1.80个百分点,说明课程学习框架能够提高编码器解码器结构的网络识别效果.

表 4   BARTABSA引入课程学习框架前后的方面情感三元组提取结果

Tab.4  Aspect sentiment triplet extraction results before and after BARTABSA imported into curriculum learning framework

%
模型14LAP14RES15RES16RES
PRF1PRF1PRF1PRF1
BARTABSA57.3556.5256.9364.7359.7962.1658.1760.2159.1767.1769.2668.20
BARTABSA+CL159.8856.2358.0059.2355.6460.2558.3056.4957.3866.2369.4667.81
BARTABSA+CL260.2454.7857.9862.1861.5362.2857.8659.1858.5168.2669.4668.85
BARTABSA+CL361.5657.1058.6365.8662.3963.6260.2961.0360.6669.2070.8270.00

新窗口打开| 下载CSV


表5所示为SBN[24]模型与引入课程学习框架3个阶段后SBN模型的ASTE结果.可以看出,课程学习框架训练初期由于训练数据少,导致模型效果不佳;当整个课程学习训练结束时,引入课程学习框架的F1值在14RES数据集上提升了1.06个百分点,在14LAP数据集上提升了6.65个百分点,在15RES数据集上提升了1.30个百分点,在16RES数据集上提升了0.62个百分点. 14RES数据集数据比14LAP数据偏多,包含多词组成的方面词和意见词却少很多,说明课程学习框架训练在更长跨度方面词或意见词提取时的效果更好.

表 5   SBN引入课程学习框架前后的方面情感三元组提取结果

Tab.5  Aspect sentiment triplet extraction results before and after SBN imported into curriculum learning framework

%
模型14LAP14RES15RES16RES
PRF1PRF1PRF1PRF1
SBN68.4272.2270.2774.5556.9464.5763.2160.4161.7870.3271.8371.11
SBN+CL146.4372.2256.5240.4364.5849.7343.5649.7146.4356.3160.3758.27
SBN+CL256.5272.2263.4154.8263.1958.7157.6352.9855.2165.9667.8466.89
SBN+CL371.4283.3376.9275.0058.3365.6364.3761.8463.0870.1173.4371.73

新窗口打开| 下载CSV


3.6. 比较其他模型

表6所示为所提模型和ASTE基线模型在ASTE任务上的结果,其中基线模型的结果都是极限模型原论文中的结果. 表中的预训练模型类型已分类,基线模型的结果均来自基线模型的论文. 可以看出,基于跨度的方法明显优于序列标记和阅读理解的方法,体现出跨度在方面级情感分析中的重要性;基于T5和BART生成模型的方法比其他BERT方法的结果好得多,原因可能是这2种生成模型的预训练数据量比BERT的多得多. 所提方法通过课程学习训练得到的结果明显优于不加入课程学习的结果,课程学习有助于模型进行领域的自适应,这种能力对于情感分析任务尤为重要. 在替换预训练模型RoBERTa作为文本编码器之后,各项数据结果又得到提升,RoBERTa相比BERT去掉了下一句预测任务,更加专注于句子中词与词的关系,这对于方面级情感分析中的方面词和意见词提取任务尤为重要. 所提方法与Span-ASTE的优势主要体现在文本编码器和课程学习训练,总体而言,所提方法在4个子数据集中均有良好的性能表现.

表 6   不同模型的方面情感三元组提取任务结果对比

Tab.6  Comparison of aspect sentiment triplet extraction task results from different models

%
模型类型14LAP14RES15RES16RES
PRF1PRF1PRF1PRF1
GAS[15]T560.7872.1662.1070.10
BARTABSA[14]BART61.4156.1958.6965.5264.9965.2559.1459.3859.2666.6068.6867.62
JET[15]BERT55.3947.3351.0470.5655.9462.4064.4551.9657.5370.4258.3763.83
B-MRC[18]BERT65.1254.4159.2771.3270.0970.6963.7158.6361.0567.7468.5668.13
Dual-MRC[19]BERT57.3953.8855.5871.5569.1470.3263.7851.8757.2168.6066.2467.40
GTS[29]BERT57.5251.9254.5870.9269.4970.2059.2958.0758.6768.5866.6067.58
Span-ASTE[18]BERT63.4455.8459.3872.8970.8971.8562.1864.4563.2769.4571.1770.26
本研究BERT62.8356.4359.5672.6871.2671.9662.9763.6163.2969.7571.0470.39
本研究(CL)BERT64.3257.3460.6373.1071.3472.2163.5764.5364.0569.9871.5370.75
本研究RoBERTa65.8756.1760.6474.4972.3173.3863.1264.3763.7470.8172.3671.58
本研究(CL)RoBERTa67.4958.6362.7575.3672.5273.9164.1764.7664.4671.8872.7472.31

新窗口打开| 下载CSV


3.7. 错误分析

图5所示为所提方法在不同预训练模型下的推理结果. 其中虚线矩形内为方面词,实线矩形内为意见词. 可以看出,基于跨度的方法能够提高多词的提取效果,却出现提取错误跨度的问题. 在BERT的预测中,“saag and paneer and korma”被识别为同一目标,这可能是句子的上下文中共享相似的情感信息,导致模型将这些单词合并为一个目标. RoBERTa模型只针对掩码任务训练,更专注与句子中词与词的关系,可以提升提取的准确性,因此选择RoBERTa模型作为所提方法的最终模型.

图 5

图 5   预训练模型的差异分析

Fig.5   Variance analysis of pre-trained models


3.8. 课程学习训练损失

模型每次训练的损失结果均反馈给模型进行优化[25-26],为此采用损失函数Loss来表征模型的收敛趋势. 如图6所示为未加入课程学习训练和加入课程学习训练的模型在14LAP和14RES数据集上的损失函数曲线对比图. 可以看出,在加入课程学习框架训练前期,Loss快速下降使得模型更快收敛,随后加入复杂样本训练,收敛速度下降,但是总体收敛速度相比未加入课程学习训练的快.

图 6

图 6   RoBERTa模型的训练损失函数曲线对比图

Fig.6   Comparison of training loss of RoBERTa model


4. 结 语

本研究提出基于课程学习框架的跨度级ASTE方法,以课程学习框架数据预处理加快模型收敛,提升模型性能;基于预训练模型BERT或RoBERTa学习句子的上下文表示;搭建跨度模型,提取句子中所有可能的跨度;基于双通道提取方面词和意见词,处理方面词和意见词的不同语境,筛选出正确的方面词和意见词组合并进行情感分类. 实验表明,所提方法在ASTE-Data-V2数据集上的性能表现良好,准确值、召回率和F1值均取得了较Span-ASTE模型更好的结果. 本研究成果可广泛应用于产品评论分析领域. 在后续研究中计划通过使用更细分的课程学习框架或者数据量更大的预训练模型,学习更精确的上下文表示,进一步提升模型的整体性能.

参考文献

PENG H, XU L, BING L, et al. Knowing what, how and why: a near complete solution for aspect-based sentiment analysis [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI, 2020, 34(5): 8600–8607.

[本文引用: 3]

XU L, LI H, LU W, et al. Position-aware tagging for aspect sentiment triplet extraction [EB/OL]. (2021–03–09) [2024–01–29]. https://arxiv.org/abs/2010.02609.

[本文引用: 3]

YAN H, DAI J, QIU X, et al. A unified generative framework for aspect-based sentiment analysis [EB/OL]. (2021–06–08) [2024–01–29]. https://arxiv.org/abs/2106.04300.

[本文引用: 2]

ZHANG W, LI X, DENG Y, et al. Towards generative aspect-based sentiment analysis [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers) . [S.l.]: Association for Computational Linguistics, 2021: 504–510.

[本文引用: 2]

CHEN S, WANG Y, LIU J, et al. Bidirectional machine reading comprehension for aspect sentiment triplet extraction [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI, 2021, 35(14): 12666–12674.

[本文引用: 2]

MAO Y, SHEN Y, YU C, et al. A joint training dual-MRC framework for aspect based sentiment analysis [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI, 2021, 35(15): 13543–13551.

[本文引用: 2]

XU L, CHIA Y K, BING L. Learning span-level interactions for aspect sentiment triplet extraction [EB/OL]. (2021–07–26) [2024–01–29]. https://arxiv.org/abs/2107.12214.

[本文引用: 2]

CHEN Z, QIAN T. Bridge-based active domain adaptation for aspect term extraction [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) . [S.l.]: Association for Computational Linguistics, 2021: 317–327.

[本文引用: 1]

SUN K, ZHANG R, MENSAH S, et al. Aspect-level sentiment analysis via convolution over dependency tree [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing . Hong Kong: Association for Computational Linguistics, 2019: 5679–5688.

ZHANG C, LI Q, SONG D. Aspect-based sentiment classification with aspect-specific graph convolutional networks [EB/OL]. (2019–10–13) [2024–01–29]. https://arxiv.org/abs/1909.03477.

[本文引用: 1]

PONTIKI M, GALANIS D, PAVLOPOULOS J, et al. SemEval-2014 task 4: aspect based sentiment analysis [C]// Proceeding of the 8th International Workshop on Semantic Evaluation . Dublin: Association for Computational Linguistics, 2014: 27–35.

[本文引用: 1]

PONTIKI M, GALANIS D, PAPAGEORGIOU H, et al. SemEval-2015 task 12: aspect based sentiment analysis [C]// Proceedings of the 9th International Workshop on Semantic Evaluation . Denver: Association for Computational Linguistics, 2015: 486–495.

[本文引用: 1]

PONTIKI M, GALANIS D, PAPAGEORGIOU H, et al. SemEval-2016 task 5: aspect based sentiment analysis [C]// Proceedings of the 10th International workshop on Semantic Evaluation . San Diego: Association for Computational Linguistics, 2016: 19–30.

[本文引用: 1]

BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning [C]// Proceedings of the 26th Annual International Conference on Machine Learning . [S.l.]: Association for Computing Machinery, 2009: 41–48.

[本文引用: 2]

WANG X, CHEN Y, ZHU W

A survey on curriculum learning

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (9): 4555- 4576

[本文引用: 3]

PLATANIOS E A, STRETCU O, NEUBIG G, et al. Competence-based curriculum learning for neural machine translation [EB/OL]. (2019–03–06) [2024–01–29]. https://arxiv.org/abs/1903.09848.

[本文引用: 2]

TAY Y, WANG S, TUAN L A, et al. Simple and effective curriculum pointer-generator networks for reading comprehension over long narratives [EB/OL]. (2019–05–26) [2024–01–29]. https://arxiv.org/abs/1905.10847.

[本文引用: 1]

LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019–07–26) [2024–01–29]. https://arxiv.org/abs/1907.11692.

[本文引用: 3]

KOCMI T, BOJAR O. Curriculum learning and minibatch bucketing in neural machine translation [EB/OL]. (2017–07–29) [2024–01–29]. https://arxiv.org/abs/1707.09533.

[本文引用: 2]

DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019–05–24) [2024–01–29]. https://arxiv.org/abs/1810.04805.

[本文引用: 1]

WU Z, YING C, ZHAO F, et al. Grid tagging scheme for aspect-oriented fine-grained opinion extraction [EB/OL]. (2020–11–03) [2024–01–29]. http://arxiv.org/abs/2010.04640.

[本文引用: 1]

RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. The Journal of Machine Learning Research , 2020, 21: 1–67.

[本文引用: 1]

LEWIS M,LIU Y,GOYAL N,et al. BART: denoising swquence-to-sequence pre-training for natural language generation, translation, and comprehension [EB/OL]. (2019–10–29)[2024–01–29]. https://arxiv.org/abs/1910.13461.

[本文引用: 1]

CHEN Y, KEMING C, SUN X, et al. A span-level bidirectional network for aspect sentiment triplet extraction [C]// Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing . Abu Dhabi: Association for Computational Linguistics, 2022: 4300–4309.

[本文引用: 1]

JANOCHA K, CZARNECKI W M. On loss functions for deep neural networks in classification [EB/OL]. (2017–02–18) [2024–01–29]. https://arxiv.org/abs/1702.05659.

[本文引用: 1]

KIM Y, OHN I, KIM D

Fast convergence rates of deep neural networks for classification

[J]. Neural Networks, 2021, 138: 179- 197

DOI:10.1016/j.neunet.2021.02.012      [本文引用: 1]

/