基于关系门控图卷积网络的方面级情感分析

doi:10.3785/j.issn.1008-973X.2023.03.001

基于关系门控图卷积网络的方面级情感分析

程艳芬^,, 吴家俊, 何凡

武汉理工大学计算机与人工智能学院，湖北武汉 430070

Aspect level sentiment analysis based on relation gated graph convolutional network

CHENG Yan-fen^,, WU Jia-jun, HE Fan

School of Computer Science and Artificial Intelligence, Wuhan University of Technology, Wuhan 430070, China

收稿日期: 2022-04-1

Received: 2022-04-1

作者简介 About authors

程艳芬（1970—），女，副教授，从事深度学习研究.orcid.org/0000-0003-0472-4543.E-mail：995132428@qq.com , E-mail：995132428@qq.com

摘要

在方面级情感分析任务中，现有方法难以有效利用句法关系类型且性能依赖依存解析的准确性，为此提出注意力增强的关系门控图卷积神经网络（ARGCN）模型. 该模型将双向长短时记忆（BiLSTM）网络学习得到的句子顺序特征与依存概率矩阵相结合构建单词图；利用关系门控图卷积神经网络（RG-GCN）和注意力增强网络（AAN）分别从单词图和句子的顺序特征中获取方面词的情感特征；拼接RG-GCN和AAN的输出作为方面词最终的情感特征. 在数据集 SemEval 2014 、 Twitter 上进行对比实验和消融实验，结果表明ARGCN模型可以有效地利用关系类型，减小依存解析准确性对模型性能的影响，更好地建立方面词和意见词的联系，模型准确率优于所有基线模型.

关键词： 方面级情感分析 ; 图卷积网络 ; 注意力机制 ; 依存树 ; 门机制 ; 自然语言处理

Abstract

In aspect level sentiment analysis, existing methods struggle to effectively utilize the types of syntactic relations, and the performance of the model is affected by the accuracy of the dependency parsing. To resolve these challenges, an attention augmented relation gated graph convolutional network (ARGCN) model was proposed. The model uses a bidirectional long-short-term memory (BiLSTM) network to learn the sequential feature of sentences, and combines feature with the dependency probability matrix to construct a word graph. Then the model uses a relation gated graph convolutional network (RG-GCN) and an attention augmented network (AAN) to obtain the sentiment features of aspect words from the word graph and the sequential feature of sentences, respectively. Finally, the outputs of RG-GCN and AAN are concatenated as the final sentiment feature of aspect words. Contrastive experiments and ablation experiments were conducted on SemEval 2014 and Twitter datasets. And the results show that the ARGCN model can effectively utilize relation types, reduce the impact of dependency parsing accuracy on its performance, and better establish the connection between aspect words and opinion words. The model accuracy is better than all baseline models.

Keywords： aspect level sentiment analysis ; graph convolutional network ; attention mechanism ; dependency tree ; gate mechanism ; natural language processing

PDF (1096KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

程艳芬, 吴家俊, 何凡. 基于关系门控图卷积网络的方面级情感分析. 浙江大学学报(工学版)[J], 2023, 57(3): 437-445 doi:10.3785/j.issn.1008-973X.2023.03.001

CHENG Yan-fen, WU Jia-jun, HE Fan. Aspect level sentiment analysis based on relation gated graph convolutional network. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 437-445 doi:10.3785/j.issn.1008-973X.2023.03.001

基于方面的情感分析（aspect based sentiment analysis，ABSA）旨在研究给定句子的三元组：方面词、意见词、方面词所对应的情感极性. 在餐厅评论“The price is reasonable although the service is poor.”中，可以抽取2个三元组：（price, reasonable, positive）和（service, poor, negative）. 根据已知条件和抽取目标的不同，ABSA可以分为许多子任务：方面词抽取（aspect term extraction，AE）、意见词抽取（opinion term extraction，OE）、方面-意见词对抽取（aspect-opinion pair extraction， AOPE）、三元组抽取（triplet extraction，TE）、方面词抽取及情感分析（aspect term extraction and sentiment classification，AESC）以及方面级情感分析（aspect-level sentiment analysis，ALSA）等. 本研究以方面级情感分析为主要研究内容，旨在预测句子中给定方面词的情感极性（正面、中性、负面）. 以上述餐厅评论为例，给定句子和句子中的方面词“price”和“service”，要求方面级情感分析方法能够预测方面词相应的情感极性：“positive”和“negative”.

解决方面级情感分析任务的关键是如何准确地建立方面词与对应意见词的联系. 例句中“price”和“service”对应的意见词分别为“reasonable”和“poor”. 直观上，方面词与意见词在句法上关系密切. 为了更好地利用句法信息，研究者致力于在依存树上应用图卷积网络（graph convolutional network，GCN）^[1]和图注意力网络（graph attention network，GAN）^[2]获取方面词的情感特征. 依存解析可以将顺序结构的句子转化为1棵依存树，该树可以被视为1张图. 树中的每个节点对应句子中的1个单词，节点与节点之间由关系类型连接. 简单地将GCN应用于依存树上来解决方面级情感分析任务存在2个主要缺点：1）忽略了关系类型的重要性.Schlichtkrull等^[3]证实利用知识图谱中实体之间的关系能够有效提升模型推理性能.GCN 在进行卷积操作获取相邻节点的信息时，将每个相邻节点视为同等重要，导致有价值的信息与噪声具有相同的权重. 实际上，某些关系类型对应的节点可能不重要，甚至是噪声. 2）GCN的性能取决于依存解析的准确性. GCN在依存树上进行卷积操作以采集信息，结构错误的依存树会影响GCN采集信息的准确性导致其性能下降. 由于在线输入数据的句法不规范以及依存解析器的性能局限，基于GCN的模型在实际生产中的性能将不可避免地下降.

为了解决上述问题，本研究提出注意力增强的关系门控图卷积网络（attention augmented relation gated graph convolutional network，ARGCN），将单词特征表示与依存树结合构建单词图，利用关系门控图卷积神经网络（relation gated graph conventional network，RG-GCN）采集图中的情感特征；使用注意力增强网络（attention augmentation network，AAN）通过注意力机制在句子的顺序特征表示上提取情感特征. 拼接RG-GCN和AAN输出的情感特征向量，作为ARGCN模型最终的输出.

1. 方面级情感分析方法综述

经典的方面级情感分析方法分为基于机器学习的方法和基于深度学习的方法. 基于机器学习的方法中比较经典的有支持向量机算法^[4-5]，该算法的性能十分依赖人工设计的特征. 基于深度学习的方法无需人工设计特征，能够有效地捕捉方面词和上下文单词之间的语义关系，受到越来越多的关注. 基于深度学习的方法主要分为基于注意力的方法和基于句法的方法.

1.1. 基于注意力的深度学习方法

该类方法通过注意力机制使得模型能够找到与方面词对应的意见词，得到方面词的情感极性. Tang等^[6]提出深层记忆网络，解决了传统SVM以及LSTM在方面级情感分析中无法明确捕捉每个上下文单词的重要性的问题. Chen等^[7]将多重注意力与循环神经网络（recurrent neural network，RNN）相结合，获得了远距离的情感特征，减弱了近距离无关信息的影响. 为了更好地学习方面词和上下文单词的特征表示，Ma等^[8]提出交互注意力机制，弥补了单独只针对方面词建模的不足. Zeng等^[9]提出上下文动态掩码（context dynamic mask，CDM）和上下文动态权重（context dynamic weighting，CDW）2种方法，给予了局部上下文单词更多的关注，避免了远距离噪声的影响. Song等^[10]使用基于注意力的编码器来模拟上下文和目标的连接，解决使用RNN难以记录长期特征的问题. Xu等^[11]提出使用内部和级间注意机制的多注意力网络，解决了当方面词包含多个单词时基于注意力的模型会导致信息丢失的问题. Song等^[12]提出的语义感知和细化网络能够提取信息丰富的局部语义特征，解决了注意力机制容易引入噪声，不利于捕捉重要情感表示的问题. 宋威等^[13]使用门控机制构建双重蒸馏网络，解决注意力机制易致方面词与上下文单词的错误搭配而引入额外噪声的问题. 毛腾跃等^[14]改进自注意力机制，使其在训练时能够挖掘出句子中地低频情感词. 然而基于注意力的方法无法有效地利用句子中蕴含的句法信息，容易引入噪声.

1.2. 基于句法的深度学习方法

受传统卷积神经网络（convolutional neural networks, CNN）和图嵌入（graph embedding）技术的启发，GCN是能够直接在图型结构数据（人际关系网络、交通网络和引文网络等）上进行卷积操作的高效CNN变体. 通过卷积操作，GCN能够有效地编码局部信息并且解决图中的节点分类问题. 将图神经网络应用于依存树上以编码方面词的情感特征，能够有效地利用句法信息. 依存树结构如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 依存树结构图

Fig.1 Structural diagram of dependency tree

Sun等^[15-16]将GCN、GAN应用在依存树上生成方面词的情感特征表示，能够有效利用依存解析的信息减弱噪声的影响. Zhang等^[17]采用带有注意机制的 GCN来获取与方面词相关的上下文特征，减弱了句法不相关的上下文单词对情感极性预测的影响. Wang等^[18]以方面词为根节点重构依存树，有效地降低了依存树的冗余度. Tang等^[19]进行了GCN和Transformer^[20]之间的特征交互学习，使得模型能够获得更好的顺序特征和图型特征. Li等^[21]使用2个GCN分别同时提取句法信息和语义信息，减弱了在线数据句法复杂性引入错误对GCN的影响. Li等^[22]将GAN嵌入外部知识和句法关系，可以更好地整合句法关系来理解句子. 张合桥等^[23]提出结合句子依存树和单词序列信息建立句子关系图模型，解决了模型缺乏解释相关句法约束和远程单词依赖的问题. 韩虎等^[24]提出交互图注意力网络模型，考虑了方面词和上下文单词的位置信息，解决了注意力权重分配不合理的问题. 夏鸿斌等^[25]将注意-过度注意机制引入图卷积神经网络中，以发掘居中长距离单词与相关句法约束间的依存关系. 上文中基于句法的深度学习方法并未有效利用依存解析产生的关系类型信息，并且性能易受依存解析准确性的影响.

2. 注意力增强的关系门控图卷积网络模型

改进GCN不能使用关系类型的问题，提出 RG-GCN，设计AAN辅助RG-GCN捕获情感特征，降低依存解析准确性对模型整体性能的影响，使整个模型更加稳定和鲁棒. 将 RG-GCN与AAN结合，提出ARGCN模型，其整体架构如图2所示. 图中， $\sigma $为Sigmoid激活函数， ${{\rm{Average}}}$为应用在方面词节点表示上的平均池化函数.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 注意力增强的关系门控图卷积网络的架构

Fig.2 Architecture of attention augmented relation gated graph convolutional network

方面级情感分析任务定义如下：给定长度为 $ n $的句子 $s = \{ {w_1}, {w_2},\cdots,{w_n}\}$以及长度为 $ m $的方面词 $a = \{ {a_1},{a_2},\cdots,{a_m}\}$，其中 $ a $为 $ s $的子串，要求方面级情感分析方法能够正确地预测方面词 $ a $在句子 $ s $中的情感极性（正面、中性、负面）. 对于1个句子中存在多个方面词的情况，可以转化为多个句子-方面词对进行处理. ARGCN模型可以分为词嵌入与上下文语义提取层、关系门控图卷积神经网络、注意力增强网络以及情感分类层.

2.1. 词嵌入与上下文语义提取层

通过词嵌入矩阵 ${{\boldsymbol{E}}_{1}} \in {{\bf{R}}^{\left| V \right| \times {d_{\rm{e}}}}}$将句子 $s = \{ {w_1}, {w_2},\cdots, {w_n}\}$表示成词嵌入向量 ${\boldsymbol{x}} = \left[ {{{\boldsymbol{x}}_{1}},{{\boldsymbol{x}}_{2}}, \cdots ,{{\boldsymbol{x}}_n}} \right]$，其中 $\left| V \right|$为词表的大小， ${d_{\rm{e}}}$为词嵌入的维度.将句子的词嵌入向量送入BiLSTM，生成隐藏状态向量 ${\boldsymbol{H}} = \left[ {{{\boldsymbol{h}}_{1}}, {{\boldsymbol{h}}_{2}}, \cdots ,{{\boldsymbol{h}}_n}} \right]$，其中 $ {{\boldsymbol{h}}_i} \in {{\bf{R}}^{2d}} $为BiLSTM在时间 $t$的隐藏状态向量， $ d $为单向LSTM输出的隐藏状态向量的维度.将隐藏状态向量输入RG-GCN和AAN中，得到方面词的情感特征.

2.2. 关系门控图卷积神经网络

将BiLSTM生成的隐藏状态向量送入RG-GCN，利用句法信息得到方面词的情感特征. RG-GCN将隐藏状态向量与依存树结合构建文本图，并在图上应用卷积操作得到方面词的情感特征.

顺序结构的句子经依存解析后可以表示成图，根据依存解析技术的不同，该图可以表示为依存概率矩阵（dependency probability matrix）或邻接矩阵（adjacent matrix）. 相较于邻接矩阵，依存概率矩阵能够捕获更丰富的句法特征并揭示潜藏的句法结构，因此依存概率矩阵能够有效地减弱依存解析不准确的影响。RG-GCN在依存概率矩阵上进行卷积操作. 依存概率矩阵和邻接矩阵的对比如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 依存概率矩阵和邻接矩阵的对比

Fig.3 Comparison of dependency probability matrix and adjacency matrix

RG-GCN在GCN的基础上，根据节点之间的关系类型，通过门机制赋予节点对应的特征信息合理的权重. 给定具有 $n$个节点的文本图，该图可以用依存概率矩阵 ${\boldsymbol{A}} \in {{\bf{R}}^{n \times n}}$表示. ${\boldsymbol{A}}$中元素 ${A_{ij}}$表示第 $i$个节点与第 $ j $个节点的依存关系， ${A_{ij}} \in \left[ {0,1.0} \right]$，其中 ${A_{ij}}$的数值越大，表示节点之间的依存关系越强，反之则越小. 假定由依存解析生成的关系类型为 $r = \left\{ {{r_1},{r_2}, \cdots,{r_3}} \right\}$，经过关系嵌入矩阵 ${{\boldsymbol{E}}_{2}} \in {{\bf{R}}^{\left| D \right| \times {d_{\rm{r}}}}}$将关系类型表示成向量 ${\boldsymbol{y}} = \left[ {{{\boldsymbol{y}}_{1}},{{\boldsymbol{y}}_{2}}, \cdots ,{{\boldsymbol{y}}_{n}}} \right]$. 其中 $\left| D \right|$为依存解析生成的关系类型总数， ${d_{\rm{r}}}$为关系嵌入的维度.RG-GCN第 $ l $层第 $i$个节点的特征向量更新过程为

(1) $ \begin{array}{*{20}{c}} {{\boldsymbol{h}}_{i}^{{(}{l}{)}} = \displaystyle \phi \left( \displaystyle {\frac{1}{{{d_i}}}\mathop \sum \limits_{j = 1}^n {D_{ij}}\left( {{{\boldsymbol{W}}^{{(}{l}{ - 1)}}}{\boldsymbol{h}}_{i}^{{(}{l}{ - 1)}}+{{\boldsymbol{b}}^{{(}{l}{ - 1)}}}} \right)} \right)} \end{array} , $

(2) $ \begin{array}{*{20}{c}} {{D_{ij}} = {A_{ij}}{k_i}} \end{array}, $

(3) $ \begin{array}{*{20}{c}} {{\boldsymbol{k}} = {\text{Softmax}}\left( {\sigma \left( {{{\boldsymbol{W}}^{k}}{\boldsymbol{y}}+{{\boldsymbol{b}}^{k}}} \right)} \right)} \end{array}. $

式中： $ {\boldsymbol{h}}_{i}^{{(}{l}{)}} $为第 $l$层第 $i$个节点的特征向量， $\phi \left( \cdot \right)$为Relu激活函数， ${d_i}$为第 $i$个节点的度数， $ {{\boldsymbol{W}}^{{(}{l}{ - 1)}}} $、 ${{\boldsymbol{W}}^{k}}$为可训练的参数矩阵， $ {{\boldsymbol{b}}^{{(}{l}{ - 1)}}} $、 ${{\boldsymbol{b}}^{k}}$为可训练的偏向， $ {\boldsymbol{h}}_i^{{(0)}} $被初始化为BiLSTM第 $i$个节点的输出， ${k_i}$为向量 ${\boldsymbol{k}} \in {{\bf{R}}^{n \times 1}}$的第 $i$个元素.

2.3. 注意力增强网络

将BiLSTM生成的隐藏状态向量输入AAN中，使用注意力机制捕获RG-GCN可能遗漏的情感特征表示. AAN在设计上参考并简化Transformer的结构，AAN的具体结构如图4所示. AAN由N层注意力模块构成，每个模块由以自注意力（self-attention）为核心的多头注意力（multi-head attention）、全连接层、Relu激活函数顺序连接构成.与Transformer的编码器模块比较，AAN的注意力模块在保留核心的多头注意力机制的同时使多层注意力机制的权值矩阵共享参数，减少了参数量，提升了模型性能.在方面级情感分析任务中，现有研究的模型层数较浅，未出现模型难以训练的现象，因此AAN没有采用Transformer中的skip连接. 假设有3个输入矩阵 $ {\boldsymbol{Q}} \in {{\bf{R}}^{n \times {d_{\text{k}}}}} $、 ${\boldsymbol{K}} \in {{\bf{R}}^{n \times {d_{\text{k}}}}}$、 ${\boldsymbol{V}} \in {{\bf{R}}^{n \times {d_{\text{v}}}}}$，分别代表queries、keys和values，其中 $n$为输入的长度，d_v、d_k均为所设置的参数，则自注意力计算过程为

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 注意力增强网络的架构

Fig.4 Architecture of attention augmentation network

(4) $ {\text{Attention}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {\text{Softmax}}\left( {\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\text{T}}}}}{{\sqrt {{d_{\text{k}}}} }}} \right){\boldsymbol{V}}. $

多头注意力对单个注意力进行集成，使每个注意力都有独立的参数矩阵，其性能往往优于单个注意力. 多头注意力计算式为

(5) $ {\text{MultiHead}}\;\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {\bf{Head}}\cdot {{\boldsymbol{W}}^{{\rm{O}}}}, $

(6) $ {\bf{Head}} = {\text{Concat}}\;\left( {{{\bf{head}}_1}, \cdots ,{{\bf{head}}_{n}}} \right), $

(7) $ \begin{array}{*{20}{c}} {{{\bf{head}}_{i}} = {\text{Attention}}\left( {{\boldsymbol{QW}}_{i}^{{\rm{Q}}},{\boldsymbol{KW}}_{i}^{{\rm{K}}},{\boldsymbol{VW}}_{i}^{{\rm{V}}}} \right)} \end{array}. $

式中： ${{\boldsymbol{W}}^{{\rm{O}}}}$、 ${\boldsymbol{W}}_{i}^{{\rm{Q}}}$、 ${\boldsymbol{W}}_{i}^{{\rm{K}}}$、 ${\boldsymbol{W}}_{i}^{{\rm{V}}}$均为可学习的参数矩阵. 将多头注意力的输出送入全连接层，进行非线性变换，得到注意力模块的输出，计算式为

(8) $ \begin{array}{*{20}{c}} {{{\boldsymbol{m}}^{{(}{l}{ - 1)}}} = {\text{MultiHead}}\left( {{{\boldsymbol{h}}^{{(}{l}{ - 1)}}},{{\boldsymbol{h}}^{{(}{l}{ - 1)}}}{\text{,}}{{\boldsymbol{h}}^{{(}{l}{ - 1)}}}} \right)} \end{array} , $

(9) $ \begin{array}{*{20}{c}} {{{\boldsymbol{h}}^{{(}{l}{)}}} = \phi \left( {{{\boldsymbol{W}}^{{(}{l}{ - 1)}}}{{\boldsymbol{m}}^{{(}{l}{ - 1)}}}+{{\boldsymbol{b}}^{{(}{l}{ - 1)}}}} \right)} \end{array}. $

式中： ${{\boldsymbol{W}}^{{(}{l}{ - 1)}}}$、 ${{\boldsymbol{b}}^{{(}{l}{ - 1)}}}$分别为可学习的参数矩阵和偏向， ${{\boldsymbol{h}}^{{(}{l}{)}}}$为AAN第 $l$层注意力模块的输出， $ {\boldsymbol{h}}_i^{{(0)}} $被初始化为BiLSTM第 $i$个节点的输出.

2.4. 情感分类层

对RG-GCN和AAN捕获的情感特征向量进行平均池化操作，获取方面词对应的特征表示并进行拼接作为最终特征向量. 设 $\left[ {{\boldsymbol{h}}_1^{{{\rm{GCN}}}},{\boldsymbol{h}}_2^{{{\rm{GCN}}}}, \cdots , {\boldsymbol{h}}_m^{{{\rm{GCN}}}}} \right]$和 $\left[ {{\boldsymbol{h}}_1^{{{\rm{MHA}}}},{\boldsymbol{h}}_2^{{\rm{{MHA}}}}, \cdots ,{\boldsymbol{h}}_m^{{{\rm{MHA}}}}} \right]$分别为RG-GCN和AAN最终层的输出结果中与方面词对应的隐藏状态向量. 最终的特征向量计算过程为

(10) $ \begin{array}{*{20}{c}} {{{\boldsymbol{H}}_{{\text{fin}}}} = {{\rm{Concat}}}\left( {{{\boldsymbol{H}}_{{\text{GCN}}}},{{\boldsymbol{H}}_{{\text{MHA}}}}} \right)} \end{array}, $

(11) $ \begin{array}{*{20}{c}} {{{\boldsymbol{H}}_{{\text{GCN}}}} = {\text{Average}}\left( {{\boldsymbol{h}}_1^{{\text{GCN}}}, \cdots ,{\boldsymbol{h}}_m^{{\text{GCN}}}} \right)} \end{array} , $

(12) $ {{\boldsymbol{H}}_{{\text{MHA}}}} = {\text{Average}}\left( {{\boldsymbol{h}}_1^{{\text{MHA}}}, \cdots ,{\boldsymbol{h}}_m^{{\text{MHA}}}} \right) , $

(13) $ \begin{array}{*{20}{c}} {{\text{Average}}\;\left( {{{\boldsymbol{n}}_{1}},{{\boldsymbol{n}}_{2}}, \cdots ,{{\boldsymbol{n}}_{m}}} \right) = \displaystyle \frac{1}{m}\mathop \sum \limits_{i = 1}^m {{\boldsymbol{n}}_{i}}} \end{array} . $

将获取的表示 ${{\boldsymbol{H}}_{{\text{fin}}}}$送入紧跟着Softmax函数的线性层，生成情感极性概率分布P，作为ARGCN模型的输出，计算过程为

(14) $ \begin{array}{*{20}{c}} {{\boldsymbol{P}} = {{\rm{Softmax}}}\left( {{{\boldsymbol{W}}_{\text{p}}}{{\boldsymbol{H}}_{{\text{fin}}}}+{{\boldsymbol{b}}_{\text{p}}}} \right)} \end{array} . $

式中： ${{\boldsymbol{W}}_{\text{p}}}$、 ${\boldsymbol{b}}_{\text{p}}$分别为可学习的参数矩阵和偏向.

2.5. 损失函数

为了让 ARGCN 有更好的性能，RG-GCN 和 AAN 捕获的特征应该尽可能不相同.为此，引入差异正则化器^[21]（differential regulazier）对特征进行约束，计算过程为

(15) $ {R_{\text{D}}} = \frac{1}{{||{{\boldsymbol{A}}_{{\text{GCN}}}} - {{\boldsymbol{A}}_{{\rm{MHA}}}}|{|_{\text{F}}}}}. $

式中： ${{\boldsymbol{A}}_{{\text{GCN}}}}$为通过依存树生成的邻接矩阵， ${{\boldsymbol{A}}_{{\text{MHA}}}}$为平均化的多头注意力分数矩阵.最终的损失函数为

(16) $ \begin{array}{*{20}{c}} {L = {L_{\text{C}}}+{\lambda _1}{R_{\text{D}}}+{\lambda _2}{\text{||}}{\boldsymbol{\varTheta}} {\text{|}}{{\text{|}}_2}} \end{array}, $

(17) $ \begin{array}{*{20}{c}} {L_{\text{C}}} = - \mathop \sum \limits_{\left( {{\boldsymbol{s}},{\boldsymbol{a}}} \right) \in { T}} \mathop \sum \limits_{{\boldsymbol{c}} \in { Z}} y({\boldsymbol{s,a,c}}){\rm{ln}}\,P({\boldsymbol{s,a,c}}) \end{array} . $

式中： $ {\lambda }_{1}、{\lambda }_{2} $均为正则系数， ${\boldsymbol{\varTheta }}$为模型中所有的可训练参数， ${L_{\rm{C}}}$为标准的交叉熵损失函数， ${T}$包含所有的句子-方面词对，其中 $ {\boldsymbol{s}} $为句子向量， ${\boldsymbol{a }}$为方面词向量. ${ Z}$为不同情感极性的集合， ${\boldsymbol{c}}$为具体的情感极性向量. 当c为a在s中正确的情感极性时，取 $y({\boldsymbol{s,a,c}}) $=1，否则为0. $P({\boldsymbol{s,a,c}}) $为 ${\boldsymbol{a}} $在 ${\boldsymbol{s }}$中情感极性为c的概率.

3. 实验结果与分析

3.1. 数据集

在数据集SemEval 2014^[26]、Twitter^[27]上评估模型的性能，其中SemEval 2014包含2个数据集：Restaurant、Laptop. 数据集的样本标签分布如表1所示. 表中，N_tr为训练集样本标签的数量；N_te为测试集样本标签的数量.

表 1 数据集的样本标签分布

Tab.1 Sample label distribution for each dataset

数据集	N_tr			N_te
数据集	正面	中性	负面	正面	中性	负面
Restaurant	2164	637	807	727	196	196
Laptop	976	455	851	337	167	128
Twitter	1507	3016	1528	172	336	169

新窗口打开| 下载CSV

3.2. 参数设置

使用LAL-Parser^[28]作为依存解析器，300维的GLoVe^[29]词嵌入向量用于初始化词嵌入矩阵. 在实验中不仅使用词嵌入，还使用位置嵌入、词性嵌入和关系嵌入，其中关系嵌入被RG-GCN用于计算节点信息的权重，这3个嵌入向量的维度均设置为30. 拼接词嵌入、位置嵌入和词性嵌入中获得的向量作为嵌入层的输出和 BiLSTM 的输入. BiLSTM、RG-GCN和AAN输出的隐藏状态向量的维度均设置为100. 为了缓解过拟合，将BiLSTM、RG-GCN和AAN的随机失活（dropout）参数设置为 0.7. 实验全程保持 RG-GCN 和 AAN 的层数相同. 对于数据集Restaurant 、 Laptop，设置RG-GCN 和 AAN 的层数为 6；对于 Twitter 数据集，设置层数为 2. 模型中所有参数的初始化值服从均匀分布. 使用 Adam 优化器并设置其学习率为 ${1.0 \times 10^{ - 3}}$. 设置模型训练轮数为50，批次大小为16. 设置正则化系数 ${\lambda _1}$=0.2、 ${\lambda _2}$= ${1.0 \times 10^{ - 4}}$. 对于ARGCN +BERT^[30]，使用英文版的“bert-base-uncased”预训练模型，设置RG-GCN和AAN的层数为6，其余参数与ARGCN模型的参数一致.

3.3. 基线模型

将 ARGCN 模型与先进的基线模型进行比较：1）CDT^[15]在依存解析器生成的依存树上应用GCN提取方面词的情感特征；2）R-GAT^[18]重构依存树，去除冗余信息的同时使方面词作为依存树的根节点，扩展原始的GAN添加关系注意力机制；3）DGEDT^[19]使用GCN处理图特征并使用Transfor-mer处理平面特征，使用BiAffine机制融合2个模块的特征；4）DualGCN^[21]使用SynGCN捕获句法信息，利用SemGCN捕获语义信息，设计差异化正则器和正交正则器以提升模型性能；5）IGATs^[24]使用图注意力网络捕获句法依存信息，通过交互注意力机制对方面词和上下文单词之间的语义关系进行建模.

3.4. 对比实验

以准确率Acc和宏观平均 F1 分数MF1作为衡量模型性能的指标，将ARGCN与基线模型进行对比实验（基线模型的实验结果取自原文献中提供的数据），结果如表2 所示. 实验结果证明ARGCN 模型在数据集Restaurant、Laptop和 Twitter上优于所有基线模型. 与CDT、R-GAT 和 DGEDT等基于句法使用 GNN 的模型相比，ARGCN利用句法信息的同时考虑了关系类型，同时使用注意力机制降低了依存解析不准确的影响.

表 2 不同模型在3个数据集上的分类准确率和宏观F1分数对比

Tab.2 Comparison of classification accuracy and macro-F1 score of different models on three datasets

%
模型	Restaurant		Laptop		Twitter
模型	Acc	MF1	Acc	MF1	Acc	MF1
CDT	82.30	74.02	77.19	72.99	74.66	73.66
IGATs	82.32	73.99	76.02	72.05	75.29	73.40
R-GAT	83.30	76.08	77.42	73.76	75.57	73.82
DGEDT	83.90	75.10	76.80	72.30	74.80	73.40
DualGCN	84.27	78.08	78.48	74.74	75.92	74.29
ARGCN	84.63	78.14	79.27	75.68	76.07	74.58
ARGCN+BERT	86.60	77.73	81.01	77.73	77.10	76.07

新窗口打开| 下载CSV

3.5. 消融实验

为了找出 RG-GCN 和 AAN 对 ARGCN整体性能的影响，以及 RG-GCN 和 GCN 之间的性能差异，在3个数据集上以准确率为指标进行消融实验，结果如表3所示. 与 GCN 相比，RG-GCN可以充分利用关系类型以减少噪声的影响，因此RG-GCN 在3个数据集上均有更优表现. 由于数据集Twitter中的推文数据存在句法结构不规范的情况，导致依存解析的准确性降低. 不借助于句法信息的AAN 的性能优于依赖句法信息的 RG-GCN 和 GCN. 当将 RG-GCN 和 AAN 结合起来形成 ARGCN 模型时，结合模型在所有3个数据集上的性能均明显优于单个网络的性能.

表 3 方面级情感分析与预测消融实验结果对比

Tab.3 Comparison of aspect-level sentiment analysis and prediction ablation experimental results

模型	Acc/%
模型	Restaurant	Laptop	Twitter
GCN	82.31	75.95	74.59
RG-GCN	83.20	77.22	74.89
AAN	83.47	78.32	75.33
ARGCN	84.63	79.27	76.06

新窗口打开| 下载CSV

3.6. 样例分析

为了更详细地探究RG-GCN和 AAN 对ARGCN模型的影响，从测试集中搜集真实样例，分别使用GCN、RG-GCN、AAN、ARGCN 预测模型的情感极性，结果如表4所示. 表中，使用下划线来表示句子中的方面词，用“P”、“O”、“N”分别表示模型预测的结果是正面、中性、负面；用“√”、“×”分别表示模型是否正确地预测样例的情感极性.

表 4 来自测试集的样例及各个模型的预测结果

Tab.4 Examples from test dataset and predictions of each model

序号	例句	GCN	RG-GCN	AAN	ARGCN
1	The $\underline{{\rm{food}}}$ not worth the price.	P×	N√	N√	N√
2	The $\underline{{\rm{settings}}}$ are not user-friendly either.	P×	P×	N√	N√
3	I thought that is will be fine, if I do some $\underline{{\rm{settings}}}$.	O√	O√	P×	O√

新窗口打开| 下载CSV

对于例句1，只有 GCN 无法预测正确的结果. 因为依存树中的“food”在句法上更接近表示正面情感的“worth”，所以GCN给出了错误的预测. AAN使用自注意力而不使用句法信息，因此AAN很好地理解了句子的语义并给出正确的预测.RG-GCN通过关系类型信息增加了“not”的权重，降低了“worth”的权重，因此能够预测正确.ARGCN是RG-GCN和AAN的结合，因此能够正确地预测情感极性.

从例句2的预测结果可以看出，AAN能够有效减弱依赖解析带来的负面影响. 为了进一步说明，绘制例句2的依存树以及AAN中的注意力权重，如图5所示. 在依存树中方面词“setting”与具有正面意义的“user-friendly”直接相连，使得基于句法的RG-GCN给出错误的预测（正面）.AAN基于注意力机制，能够更好地捕获语义信息，“not”被赋予更高的权重，使得AAN能够进行正确的预测（负面）. ARGCN在整合了RG-GCN和AAN的特征信息后也能够做出正确地预测.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 样例2的依存树和注意力权重

Fig.5 Dependency tree and attention weight of example 2

例句3与例句2相反，在依存树中，“settings”没有与表示正面意义的“fine”相连，使得基于句法的RG-GCN模型能够给出正确的答案. 在AAN的注意力权重矩阵中，由于“fine”具有较高的权重，致使AAN分类错误. 同样地，在结合了RG-GCN和AAN的特征信息后，ARGCN依旧能够给出正确地预测. 3个样例证明了ARGCN的有效性.

3.7. 模型大小对比

为了进一步分析模型的性能，统计方面级情感分析中常见基线模型的可训练参数η并与ARGCN模型的可训练参数进行对比，如表5所示. 可以看出，ARGCN模型的可训练参数量偏少，为0.64×10⁶. CDT只使用单个图卷积神经网络，未引入其他机制，可训练参数最少，为ARGCN的2/3. 与使用双Transformer架构可训练参数最多的DGEDT相比，ARGCN中的AAN使用简化的Transformer结构，使多层的注意力头共享权重矩阵，因此ARGCN可训练参数为DGEDT的1/3.

表 5 常见模型的可训练参数量

Tab.5 Number of trainable parameters for common models

模型	η/10⁶	模型	η/10⁶
CDT	0.41	RGAT	1.10
DualGCN	0.61	IGATs	1.81
ARGCN	0.64	DGEDT	2.15

新窗口打开| 下载CSV

3.8. 模型层数对模型性能的影响

为了探究 ARGCN 模型的层数对性能的影响，找到能够达到最优性能的模型层数N_l，设计在3个数据集上的对比实验，记录当层数从1增加到7时模型性能的变化，结果如图6所示. 数据集Restaurant、Laptop均来SemEval 2014，具有标准的句法结构，因此ARGCN模型的性能变化趋势在这2个数据集上基本相同. 当设置N_l= 6 时，ARGCN在2个数据集上达到最佳性能. 对于句法结构不标准的数据集Twitter，ARGCN模型的性能变化趋势与前2个数据集不同，当设置N_l=2时，模型性能达到最佳.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 注意力增强的关系门控图卷积网络模型在3个数据集上的性能随着层数的变化

Fig.6 Performance of attention augmented relation gated graph convolutional network model varies with number of layers on three datasets

3.9. 正则系数对模型性能的影响

分别选取不同的 $ {\lambda _1} $、 $ {\lambda _2} $在数据集Laptop上进行实验，记录模型的性能指标变化，结果如图7所示. $ {\lambda _1} $在损失函数中是损失项 $ {R_{\text{D}}} $的系数， $ {R_{\text{D}}} $能够在一定程度上使RG-GCN和AAN学习到的特征相异，使AAN更好发挥对RG-GCN的辅助作用. $ {\lambda _2} $是正则惩罚项的系数，正则惩罚项使得模型具有更好的泛化能力. 由实验结果可知，当 $ {\lambda _2} $=1.0×10⁻³、1.0×10⁻⁴时，合适的 $ {\lambda _1} $（0.2或0.3）能够有效提升模型的性能，进一步验证了 $ {R_{\text{D}}} $的有效性.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 注意力增强的关系门控图卷积网络模型的性能随正则系数的变化

Fig.7 Performance of attention augmented relation gated graph convolutional network model varies with regularization factors

4. 结　语

在方面级情感分析中，为了解决基于图神经网络的方法忽视关系类型以及性能受到依存解析准确性影响的问题，本研究提出将RG-GCN和AAN集成的ARGCN 模型. 其中RG-GCN利用门机制能够有效利用由依存解析生成的关系类型信息，AAN能够使用注意力机制捕获RG-GCN因依存解析不准确而遗漏的情感特征. ARGCN在有效利用句法信息的同时能够减弱依存解析不准确性对其性能的影响. 虽然在3个基准数据集上进行的实验表明，ARGCN 模型可以充分利用关系类型，有效降低依存解析不准确的影响. 但是本研究只是简单地将ANN和RG-GCN输出的特征向量进行拼接，忽略了词性特征. 未来考虑设计能够有效利用词性特征的模块，使用更加优秀的模块融合方法将各个模块融合，最终进行实验分析.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2017-02-22)[2022-04-01]. https://arxiv.org/pdf/1609.02907.pdf.