基于多依赖图和知识融合的方面级情感分析模型

doi:10.3785/j.issn.1008-973X.2024.04.009

基于多依赖图和知识融合的方面级情感分析模型

何勇禧^,, 韩虎^,, 孔博

1. 兰州交通大学电子与信息工程学院，甘肃兰州 730070

Aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion

HE Yongxi^,, HAN Hu^,, KONG Bo

1. School of Electronics and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 韩虎，男，教授. orcid.org/0000-0002-1184-284X. E-mail：hanhu_lzjtu@mail.lzjtu.cn

收稿日期: 2023-04-13

基金资助:

国家自然科学基金资助项目（62166024）.

Received: 2023-04-13

Fund supported:

国家自然科学基金资助项目（62166024）.

作者简介 About authors

何勇禧（1996—），男，硕士生，从事自然语言处理研究.orcid.org/0009-0009-2367-4650.E-mail：kuyuweixun@163.com , E-mail：kuyuweixun@163.com

摘要

方面级情感分析存在以下问题：句法依赖解析方式单一，语法信息的提取和利用不完善；外部知识库使用有限，无法提供足以判断情感的背景知识与信息；引入的知识过多，导致结论出现偏差. 为此提出新的方面级情感分析模型，使用2种不同的句法解析方式对句子构建2种句法依赖图. 依据外部情感知识构建情感关系图，引入概念知识图谱增强句子中的方面词本体，构建与经过概念知识图谱增强的句子对应的可见矩阵. 使用双通道图卷积神经网络处理依赖图、情感关系图与可视矩阵，融合依赖图与情感关系图，对特定方面的特征表示进行语义、句法双交互. 实验结果表明，所提模型在多个数据集上的准确率和宏F1值均显著优于主流模型.

关键词： 方面级情感分析 ; 多依赖图 ; 知识图谱 ; 图卷积网络 ; 情感知识 ; 概念知识

Abstract

The problems existing in aspect-based sentiment analysis include: a singular approach to syntactic dependency parsing, incomplete extraction and utilization of grammatical information; limited use of external knowledge bases, which failed to provide sufficient background knowledge and information for judging sentiment; and an excess of introduced knowledge, leading to biased conclusions. A new aspect-based sentiment analysis model was proposed, and two different syntactic parsing methods were utilized to construct two types of syntactic dependency graphs for sentences. Emotional dependency graphs were built based on external emotional knowledge, incorporating conceptual knowledge graphs to enhance aspect terms in sentences, constructing visible matrices corresponding to the sentences enhanced through conceptual knowledge graphs. A dual-channel graph convolutional neural network was employed to process the dependency graphs, the emotional dependency graphs and the visible matrices, integrating the dependency graphs with the emotional dependency graphs to perform semantic and syntactic dual interactions on specific aspect feature representations. Experimental results showed that the proposed model significantly outperformed the mainstream models in terms of accuracy and macro F1 score on multiple datasets.

Keywords： aspect-based sentiment analysis ; multi-dependency graph ; knowledge graph ; graph convolution network ; affective knowledge ; conceptual knowledge

PDF (1258KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

何勇禧, 韩虎, 孔博. 基于多依赖图和知识融合的方面级情感分析模型. 浙江大学学报(工学版)[J], 2024, 58(4): 737-747 doi:10.3785/j.issn.1008-973X.2024.04.009

HE Yongxi, HAN Hu, KONG Bo. Aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(4): 737-747 doi:10.3785/j.issn.1008-973X.2024.04.009

方面级情感分析(aspect-based sentiment analysis，ABSA)旨在对文本中给定的方面词进行情感极性分类，包括正面、中立和负面^[1]，是自然语言处理 (natural language processing，NLP) 领域的重要研究方向. 如“The food was great and tasty, but the sitting space was too small.”，ABSA能够将方面词 “food”和“sitting space”分别分类为积极和消极.

图卷积网络(graph convolutional networks，GCN)^[2]因具有有效处理非结构化数据，特别是句子句法依赖树方面的优点，已经被广泛应用于方面情感分析^[3-5]. Zhang等^[6]证明如依赖树的句法信息在捕获从表面形式看不清楚的长距离句法关系方面非常有效. 有许多成功的方法在依赖树上使用GCN模型进行方面级情感分类，如王汝言等^[7] 利用依存树中的语法距离特征对GCN的邻接矩阵进行加权，以减少与方面词语法上不相关的信息干扰；Zhang等^[8]将句子的依存关系树输入GCN，以充分利用句法信息和单词的依存关系；Sun等^[9]在句法依赖树上构建GCN，并结合BiLSTM来捕获关于词序的上下文信息；Wang等^[10]提出新型的面向方面的依赖树结构，将方面词作为新的根节点，通过重新构建原始依赖树并进行修剪，消除了不必要的关联，实现了更高效的结构. 上述方法表明，句法信息有助于将方面词与相关意见词直接关联，以提高情感分类的鲁棒性；但Wang等^[10]同时发现，现有的方法容易出现解析错误. 尽管在标准基准测试上具有很高的边缘解析性能，但先进的依赖解析器通常难以预测完美的解析树. He等^[11]证明深度模型能够恢复远距离依存关系，但会产生明显错误，语法解析器仍有改善的空间；Sachan注入语法后的Transformer性能是否提升在很大程度上取决于依存关系解析^[12]. 这对基于依赖的方法提出了巨大挑战，即句法结构的额外好处并不总是能抵消模型句法解析带来的噪声.

尽管GCN对语法和语义进行了协同开发，但仍存在局限性：GCN通常用于处理全局语法信息，掩码操作最后用于隐藏上下文单词，决定了方面词的情感分类. 增强文本的语义信息须融合外部知识，在实际应用中，上下文噪声的引入可能会导致方面词的重要性下降. 为了增强文本的语义信息，部分研究者利用先验信息，如知识图谱、情感词典的外部知识，为模型提供监督信号^[13]. 外部知识在情感分析中被广泛应用，以提升情感特征的表达能力^[14]. Ren等^[15]利用情感词典来提取句子中的情感信息进行注意力权重计算. 对比传统的情感词典，SenticNet可以更好地捕捉词汇之间的相关性^[16]. SenticNet是公开的、用于意见挖掘和情感分析的工具，提供了语义、情感和极性之间的相关概念^[17-19]. Bian等^[18]使用多头注意力机制有效结合方面词和上下文，将外部知识库中的概念知识整合到模型中，以提升模型的性能. Liang等^[20]将SenticNet的情感信息与依赖树相结合，增强了文本的情感极性. Microsoft Concept Graph^[21]显式知识库丰富了上下文和目标的语义表示.

受上述工作启发，本研究提出基于多依赖图和知识融合的方面级情感分析模型(aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion，MDKGCN). 该模型是基于知识的多依存关系融合方法，能够帮助基于依存关系的模型减轻解析错误带来的影响. 由于不同的解析器尤其是具有不同归纳偏差的解析器，往往会以不同的方式出错. 为了不对多个解析结果产生干扰，本研究给定来自多个解析器的依赖图，为外部情感知识单独建立情感图，并为每个图分配单独的模型参数和同一输入的模型表示，在应用表示学习器(如GCN)之后，将不同的图的高维特征组合起来. 使用概念知识图谱增强方面词的本体信息，为了减少引入概念知识时产生的噪声，使用可视矩阵对经过概念知识图谱增强的句子进行掩码；对融合后的文本特征进行分类.

1. 基于多依赖图和知识融合的方面级情感分析模型

如图1所示，MDKGCN由嵌入层、语义提取层、双通道图卷积网络层、多特征融合层、掩码层、多交互层以及输出层构成. 模型中， s = {w₁, w₂,···, w_a1, w_a2,···,w_am,···, w_n−1, w_n}表示输入长度为$n$的句子，包括长度为m的方面词a = { w_a1, w_a2,···, w_am }，即方面词a是句子s的子序列.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于多依赖图和知识融合的方面级情感分析模型的框架图

Fig.1 Framework diagram of aspect-based sentiment analysis model based on multi-dependency graph and knowledge fusion

1.1. 嵌入层

使用GloVe^[22]或BERT^[23]预训练词典，将每个单词映射到低维实值向量空间，构建由低维实数向量组成的词向量：

(1)$ \begin{array}{*{20}{c}} {{{\boldsymbol{v}}_i} = {\text{GloVe}}\left( {{w_i}} \right)} \end{array}, $

(2)$ \begin{array}{*{20}{c}} {{{\boldsymbol{v}}_i} = {\text{BERT}}\left( {{w_i}} \right)} \end{array}. $

嵌入完成后的句子表示为V = [v₁, v₂, ···, v_a1, v_a2, ···, v_am−1, v_am, ···, v_n−1, v_n].

1.2. 语义提取层

BiLSTM利用反向传播算法，通过句子的正反输入分别建立正向和反向的上下文依存关系，能够比单向LSTM^[24]提取出更多的上下文信息. BERT不再依赖传统的单向语言模型，而是采用掩码语言模型(masked language model，MLM)实现更深层次的双向语言表征. 通过将初始化的向量输入BiLSTM或BERT，提取句子中的隐藏信息，得到双向语言表征H = [h₁, h₂, ···, h_n].

1.3. 双通道图卷积网络层

为了充分利用句子单词间的依存关系，分别采用句法依赖构建工具spaCy^[25]和Stanza^[26]，为每个输入句子的构建2个不同的依赖图. 相比单个依赖图，2个依赖图可以在依存关系方面进行互补，使依赖错误问题减少. 推导出句子的2个邻接矩阵D∈R^n×n，$\tilde {\boldsymbol{D}} $∈R^n×n，其中D为spaCy构建的依赖图，$\tilde {\boldsymbol{D}} $为Stanza构建的依赖图，相应矩阵元素的表达式为

(3)$ \begin{array}{c}{D}_{i,j}^{n}={f}_{\text{spa}}(x)=\left\{\begin{array}{l} 1,\;({w}_{i},{w}_{j})\in {\mathrm{{\boldsymbol{R}}}}\;或\;i=j;\\ 0,\;其他.\end{array}\right.\end{array} $

(4)$ \begin{array}{c}{\tilde{D}}_{i,j}^{n}={f}_{\text{sta}}(x)=\left\{\begin{array}{l} 1,\;({w}_{i},{w}_{j})\in {\mathrm{{\boldsymbol{R}}}}\;或\;i=j;\\ 0,\;其他.\end{array}\right.\end{array} $

1.3.1. 情感知识

外部情感知识在情感分析任务中被广泛应用^[19]，以提升特征表示的准确性和可靠性. 为了使情感信息不对某个单独的依赖图产生影响，引入SenticNet的情感评分，使情感评分独立成图：

(5)$ \begin{array}{*{20}{c}} {{S_{i,j}} = {{\mathrm{SN}}} \left( {{w_i}} \right)+{{\mathrm{SN}}} \left( {{w_j}} \right)} \end{array}. $

其中SN(w_i)∈[−1,1]表示单词w_i在SenticNet中的情感评分. SN(w_i) = 0表示w_i为中性词或在SenticNet中不存在. 在句子的依赖树中突出方面词的情感表示，用T_{i, j}表示，即模型倾向于从方面词中学习相关情感信息.

(6)$ \begin{array}{c}{T}_{i,j}=\left\{\begin{array}{l} 1,\;({w}_{i},{w}_{j})\in a;\\ 0,\;其他.\end{array}\right. \end{array} $

为了避免模型偏向于识别积极的方面词而忽略消极的方面词，对情感矩阵元素S_i,j的值+1，最终得到句子的增强邻接矩阵A的元素表达式为

(7)$ \begin{array}{c}{A}_{i,j} ={S}_{i,j} +{T}_{i,j} +1\end{array}. $

1.3.2. 概念知识

Microsoft Concept Graph^[21]使用isA关系，通过概念化的方法将目标词即实例与实例的相关概念联系起来，称为单实例概念化. 本研究将k个概念知识插入对应的方面词后，通过嵌入层可以得到表示V = [v₁, v₂, ···, v_a1, v_a2, ···, v_am, ···, v_c1, v_c2, ···, v_ck−1, v_ck, ···, v_n−1, v_n]，再由语义提取层得到句子的双向语言表征H^c = [h₁, h₂, ···, h_n].

如图2所示，在句子树中，假设k=2，“food”为方面词，即知识图谱中的实例(instance)，则可从知识图谱中获得实例“food”的概念知识：“item”与“industry”. 知识有导致原句的意思发生变化的风险，即知识噪声问题. 在句子树中，概念“item”只修饰了实例“food”，与概念“pedestrian amenity”没有任何关系. 因此，概念“item”的特征表示不应受到概念“pedestrian amenity”的影响. 本研究使用可见矩阵M来限制每个词元的可见面积，这样“item”和“pedestrian amenity”彼此都不可见. 定义矩阵M的元素为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 引入概念知识的例句与对应的可见矩阵

Fig.2 Example sentences introducing conceptual knowledge and corresponding visible matrix

(8)$ \begin{array}{c}{M}_{i,j} = \left\{\begin{array}{l} 1,\;({w}_{i},{w}_{j})\in R;\\ 1,\;({w}_{i},{w}_{j})\in S;\\ 0,\;其他.\end{array}\right.\end{array} $

其中R表示w_i和w_j是实例和概念的关系，S表示w_i和w_j都是原句中的词.

1.3.3. 双通道图卷积网络层

基于方面的情感分类旨在从方面的角度判断情感，需要面向方面的特征提取策略，为此提出双通道图卷积网络层，如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 双通道图卷积网络层

Fig.3 Dual-channel graph convolutional network layer

对图D、$\tilde {\boldsymbol{D}} $、A、M使用图卷积运算更新每个节点的表示：

(9)$ \begin{array}{*{20}{c}} {{\boldsymbol{h}}{{_i^{lA}}} = {\mathrm{RELU}}\left( {\dfrac{1}{{{d_i}+1}}{\displaystyle\mathop \sum \nolimits_{j = 1}^n {A_{ij}}{\boldsymbol{g}}_j^{l - 1}{{\boldsymbol{W}}^l}}+{{\boldsymbol{b}}^l}} \right)} \end{array}, $

(10)$ \begin{array}{*{20}{c}} {{\boldsymbol{h}}{{_i^{lD}}} = {\mathrm{RELU}}\left( {\dfrac{1}{{{d_i}+1}}{\displaystyle\mathop \sum \nolimits_{j = 1}^n {D_{ij}}{\boldsymbol{g}}_j^{l - 1}{{{\boldsymbol{\overline {\boldsymbol{W}}}}}^l}}+{{{{\overline {\boldsymbol{b}}}}}^l}} \right)} \end{array}, $

(11)$ \begin{array}{*{20}{c}} {{\boldsymbol{h}}{{_i^{l{\tilde D}}}} = {\mathrm{RELU}}\left( {\dfrac{1}{{{d_i}+1}}{\displaystyle\mathop \sum \nolimits_{j = 1}^n {{\tilde D}_{ij}}{\boldsymbol{g}}_j^{l - 1}{{{\boldsymbol{\tilde W}}}^l}}+{{{\boldsymbol{\tilde b}}}^l}} \right)} \end{array}, $

(12)$ \begin{array}{*{20}{c}} {{\boldsymbol{h}}{{_i^{lM}}} = {\mathrm{RELU}}\left( {\dfrac{1}{{{d_i}+1}}{\displaystyle\mathop \sum \nolimits_{j = 1}^n {M_{ij}}{\boldsymbol{g}}_j^{l - 1}{{{\boldsymbol{\hat W}}}^l}}+{{{\boldsymbol{\hat b}}}^l}} \right)} \end{array}. $

式中：D_ij、$\tilde D_{ij} $分别为spaCy、Stanza句法依存分析获得的邻接矩阵D、>$\tilde {\boldsymbol{D}} $中的元素，A_ij为SenticNet情感分析的邻接矩阵A中的元素，M_ij为对概念知识进行掩码操作的可见矩阵M中的元素，$ {d_i} = \sum\nolimits_{j = 1}^n {{A_{ij}}} $为依赖树中第$i$个单词节点的度，${\boldsymbol{h}}_i^l $为第$l$层节点v_i的网络输出，${\boldsymbol{g}}_j^{l-1} $为前一层图卷积网络输出结果，W^l、b^l分别为权重矩阵和偏置项.

(13)$ \begin{array}{*{20}{c}} {{p_i} = \left\{ {\begin{array}{*{20}{c}} {1 - \dfrac{{a+1 - i}}{n}, \;\;\;\;1 \leqslant i < a+1 {\kern 1pt}{\kern 1pt}; {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}{\kern 1pt} {\kern 1pt}{\kern 1pt}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} } \\ { 0,\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} a+1 \leqslant i \leqslant a+m{\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt}{\kern 1pt}{\kern 1pt} {\kern 1pt} {\kern 1pt} } \\ { 1 - \dfrac{{i - a - m}}{n}, \;\;\; a+m < i \leqslant n{\kern 1pt} {\kern 1pt} .{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} } \end{array}} \right.} \end{array} $

式中：p_i为第$i$个单词的位置权重；a+1、a+m分别为方面项开始和结束的位置，若有概念知识，则a+1和a+m分别是方面项开始和概念知识结束的位置. 值得注意的是，本研究没有直接将${\boldsymbol{h}}_i^l $输入连续GCN层，每层网络输出都利用式(13)计算句子中单词间的位置距离特征p_i，以增强距离方面词较近的单词信息，减弱距离较远的信息. 利用位置权重函数F(∙)将位置距离特征融入每层图卷积网络的输出向量中，

(14)$ \begin{array}{*{20}{c}} {{\boldsymbol{g}}_i^l = F\left( {{\boldsymbol{h}}_i^l} \right) = {p_i}{\boldsymbol{h}}_i^l} \end{array}. $

第L层GCN的输出分别为${\boldsymbol{h}}_A^L$、${\boldsymbol{h}}_D^L$、${\boldsymbol{h}}_{\tilde D}^L$、${\boldsymbol{h}}_M^L$，

(15)$ \begin{array}{*{20}{c}} {{{\boldsymbol{h}}^L} = \left[ {{\boldsymbol{h}}_1^L,{\boldsymbol{h}}_2^L, \cdots ,{\boldsymbol{h}}_n^L} \right]} \end{array}. $

1.3.4. 多特征融合层

由图卷积层得到多个特征向量，由于${\boldsymbol{h}}_M^L$在原有文本中加入了概念知识，使得${\boldsymbol{h}}_M^L$的维度和其余向量不同，须进行单独处理. 这里将${\boldsymbol{h}}_A^L$、${\boldsymbol{h}}_D^L$、${\boldsymbol{h}}_{\tilde D}^L$进行特征融合，表达式为

(16)$ \begin{array}{*{20}{c}} {{\boldsymbol{H}}_f^L = \displaystyle\mathop \sum \limits_{i = 1}^n {{\tilde a}_i}{{\boldsymbol{h}}_i}} \end{array}, $

(17)$ \begin{array}{*{20}{c}} {{{\tilde a}_i} = \dfrac{{\exp {w_i}}}{{\displaystyle\mathop \sum \nolimits_{j = 1}^n \exp {w_j}}}} \end{array}. $

式中：$ {\tilde a_i} $为归一化权重，$\sum {\tilde a_i} = 1$；w_i为初始化权重系数. 在初始化时，令每个w_i=1，使${\tilde a_i} $能自主学习到合适的参数.

1.4. 掩码层

使用掩码矩阵N对融合后的特征${\boldsymbol{H}}{_{f}^L} $进行掩码，在屏蔽非方面词的隐藏状态向量的同时保持方面词的向量${\boldsymbol{h}}_{a} $不变；对于引入知识后的文本${\boldsymbol{h}}^{lm} $，也进行相同的处理. 经过掩码层的操作保留方面的特征信息${\boldsymbol{H}}^{L} $：

(18)$ \begin{array}{*{20}{c}} {N_i^L = \left\{ {\begin{array}{*{20}{c}} { 0; \;1 \leqslant i < a,\;a+m < i \leqslant n{\kern 1pt} {\kern 1pt} .{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}} \\ { 1; \; a+1 \leqslant i \leqslant a+m{\kern 1pt} .{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}{\kern 1pt}{\kern 1pt}{\kern 1pt}} \end{array}} \right.} \end{array} $

(19)$ {{\boldsymbol{H}}^{{L_{{\mathrm{m}}}}}} = N_i^L{\boldsymbol{H}}{_{fi}^L} = \left[ {0, \cdots ,{\boldsymbol{h}}_{a1}^{{L_{{\mathrm{m}}}}}, \cdots ,{\boldsymbol{h}}_{am}^{{L_{{\mathrm{m}}}}}, \cdots ,0} \right]. $

(20)$ {\boldsymbol{H}}_c^{{L_{{\mathrm{m}}}}} = N_{{c_i}}^L{\boldsymbol{h}}{_i^{lM}} = \left[ {0, \cdots ,{\boldsymbol{h}}_{a1}^{{L_{{\mathrm{m}}}}}, \cdots ,{\boldsymbol{h}}_{am}^{{L_{{\mathrm{m}}}}}, \cdots ,0} \right]. $

1.5. 交互注意力层

1.5.1. 语义交互

经过语义提取层后可以获得文本中隐含语义特征的上下文表示H，与掩码之后的隐藏状态${{\boldsymbol{H}}^{{L_{{\mathrm{m}}}}}}$之间进行注意力交互：

(21)$ \begin{array}{*{20}{c}} {s{_{{\mathrm{se}}}} = \displaystyle\mathop \sum \limits_{i = 1}^n {{\boldsymbol{H}}^{\mathrm{T}}}{\boldsymbol{H}}_i^{{L_{{\mathrm{m}}}}}} \end{array}, $

(22)$ \begin{array}{*{20}{c}} {\alpha = \dfrac{{\exp {{s_{{\mathrm{se}}}}} }}{{\displaystyle\mathop \sum \nolimits_{i = 1}^n \exp {s_{{\mathrm{se}}}^i} }}} \end{array}, $

(23)$ \begin{array}{*{20}{c}} {{{\boldsymbol{h}}_{{\mathrm{se}}}} = \displaystyle\mathop \sum \limits_{j = 1}^n {\alpha _j}{{\boldsymbol{H}}_j}} \end{array}. $

基于语义的h_se由式(21)~式(23)得到.

1.5.2. 语法交互

将经过多特征融合层后隐含语法特征的上下文表示${\boldsymbol{H}}_f^L$与掩码之后的隐藏状态${{\boldsymbol{H}}^{{L_{{\mathrm{m}}}}}}$之间进行注意力交互：

(24)$ {{s_{{\mathrm{sy}}}} = \mathop \sum \limits_{i = 1}^n {\boldsymbol{H}}{{_f^L}^{\mathrm{T}}}{\boldsymbol{H}}_i^{{L_{{\mathrm{m}}}}}} , $

(25)$ \begin{array}{*{20}{c}} {\beta = \dfrac{{\exp {{s_{{\mathrm{sy}}}}} }}{{\displaystyle\mathop \sum \nolimits_{i = 1}^n \exp {s_{{\mathrm{sy}}}^i} }}} \end{array}, $

(26)$ {{{\boldsymbol{h}}_{{\mathrm{sy}}}} = \displaystyle\mathop \sum \limits_{j = 1}^n {\beta _j}{\boldsymbol{H}}{{_{fj}^L}}} . $

同时对于引入概念知识的分支采用相同的方式进行特征提取，得到语义向量${\boldsymbol{h}}_{{\mathrm{se}}}^c $以及语法向量${\boldsymbol{h}}_{{\mathrm{sy}}}^c $. 在经过不同的交互注意力后，得到2组不同分支的特征向量，将各自的特征向量进行融合，得到2个分支的结果：

(27)$ {{{\boldsymbol{h}}_a} = \mathop \sum \limits_{i = 1}^n {{\boldsymbol{h}}_i}_{_{{\mathrm{se}}}}{{\boldsymbol{h}}_{{i_{{\mathrm{sy}}}}}}} , $

(28)$ {{{\boldsymbol{h}}_c} = \mathop \sum \limits_{i = 1}^n {\boldsymbol{h}}_{{i_{{\mathrm{se}}}}}^c{\boldsymbol{h}}_{{i_{{\mathrm{sy}}}}}^c} . $

1.6. 输出层

将2个分支的最终输出h_a、h_c输入多特征融合层，使其平衡不同分支的权重，得到文本向量的最终表示：

(29)$ {{{\boldsymbol{H}}_{{\mathrm{fin}}}} = \mathop \sum \limits_{i = 1}^n {{\hat a}_i}{{{\boldsymbol{\overline {\boldsymbol{h}}}}}_i}} ， $

(30)$ \begin{array}{*{20}{c}} {{{\hat a}_i} = \dfrac{{\exp \;{{\overline w}_i}}}{{\displaystyle\mathop \sum \nolimits_{j = 1}^n \exp \;{{\overline w}_j}}}} \end{array}. $

再经过全连接层后，由softmax函数输出情感极性：

(31)$ \begin{array}{*{20}{c}} {y = {{\mathrm{softmax}}} \left( {{{\boldsymbol{W}}_{\mathrm{f}}}{{\boldsymbol{H}}_{{\mathrm{fin}}}}+{{\boldsymbol{b}}_{\mathrm{f}}}} \right)} \end{array}. $

式中：W_f为全连接层的权重项，${\boldsymbol{b}}_{\mathrm{f}} $为偏置项. 通过最小化交叉熵损失函数，对模型的参数进行优化和更新：

(32)$ {{\mathrm{loss}} = - \mathop \sum \limits_{i = 1}^D \mathop \sum \limits_{j = 1}^C y_i^j \cdot \ln {\hat y_i^j} +\lambda {{\left| {\left| {\boldsymbol{\theta }} \right|} \right|}_2}} . $

式中：$\lambda $为L₂正则化的系数，C为情感极性标签的数量，D为训练样本的数量，y为模型预测的极性类别，$\hat y$为方面词真实的极性类别.

2. 实验及结果分析

2.1. 实验数据

使用Twitter、Restaurant14、Laptop14、Restaurant15、Restaurant16数据集^[27-30]来验证模型有效性. 每个数据集都由1组训练模型和1组测试模型组成，每个句子都是独立的样本，其中包括评论文本、方面词以及与之相关的情绪标签. 训练集和测试集以及标签分布如表1所示，其中N_pos、N_neu、N_neg分别为积极、中性和消极标签的数量.

表 1 数据集的样本标签分布

Tab.1 Sample label distribution for each dataset

数据集	N_pos		N_neu		N_neg
数据集	训练	测试	训练	测试	训练	测试
Twitter	1 561	173	3 127	346	1 560	173
Laptop14	994	341	464	169	870	128
Restaurant14	2 164	728	637	196	807	196
Restaurant15	912	326	36	34	256	182
Restaurant16	1 260	469	69	30	439	117

新窗口打开| 下载CSV

2.2. 参数设置与评价指标

实验采用300维的预训练GloVe初始化词嵌入，单向LSTM输出的隐藏状态维度设置为300；使用BERT预训练模型时，隐藏状态维度为768. 模型中的权重采用均匀分布进行初始化，GCN的层数设置为2，此时模型的性能表现最好. 在模型训练过程中，采用Adam优化器作为求解算法，以实现对模型参数的高效更新与优化. 模型的具体超参数如表2所示.

表 2 所提模型基于2种词嵌入的实验参数设置

Tab.2 Experimental parameter settings for proposed model based on two types of word embeddings

超参数	数值
超参数	GloVe	BERT
批量训练样本数	32	16
训练迭代次数	100	100
学习率	10⁻³	10⁻⁵
丢失率	0.3	0.2
L2正则化系数	10⁻⁵	10⁻³

新窗口打开| 下载CSV

模型采用准确率Acc与宏平均F1值MF1作为评价指标，其中MF1为分类问题的衡量指标，由精确率与召回率的调和平均数得到. 2项指标的计算式分别为

(33)$ {{\mathrm{Acc}} = \frac{T}{N}} , $

(34)$ {{\mathrm{MF}}1 = \frac{{2 \times P \times R}}{{P+R}}} . $

式中：$T$为正确预测的样本数量，$N$为样本总数，$P$为预测为正的样本中预测正确的概率，$R$为正样本中预测正确的概率.

2.3. 对比实验

对比MDKGCN与多种情感分析方法探究方法的差异. 参与对比的其他方法如下. 1）LSTM^[24]：使用单向的LSTM编码上下文信息，用于方面级情感分析. 2）IAN^[31]：使用BiLSTM编码上下文信息，利用注意力机制交互学习目标词和上下文之间的关系. 3）ASGCN^[8]：通过句法依赖树加权的图卷积操作，以学习相关句法信息与依存关系. 4）kumaGCN^[32]：将依赖图与自我注意力相结合，提出新的门控机制，以发掘潜在的语义依赖，补充受到监管的句法特性. 5）SKGCN^[33]：使用图卷积融合句法依赖树和常识知识，以提升句子对特定方面的表达能力. 6）CDT^[9]：将句子的依赖树与图神经网络结合，学习方面特征表示. 7）MI-GCN^[7]：通过多交互图卷积融合语法与语义特征，同时利用语义信息补充句法结构，以解决依赖解析错误的问题. 8）DGAT^[34]：利用BiLSTM提取语义信息，根据句法依赖树构建句法图注意力网络表示依存关系重要程度，建立目标与情感词之间的关系. 9）BERT-BASE^[23]：使用双向Transformers网络结构的预训练模型，可以生成融合左右上下文信息的深层双向语言表征. 10）SSEMGAT-BERT^[35]：引入成分树和方面感知的注意来分配上下文之间特定方面的注意权重，以增强的语法和语义特征. 11）WGAT-BERT^[36]：根据不同依赖关系的重要程度构造依赖加权邻接矩阵，在图注意力网络中进行特征提取. 12）MFSGC-BERT^[37]：使用SenticNet增强句法依赖树，并输入GCN进行特征融合，以丰富情感特征.

2.4. 实验结果与分析

如表3所示，基于不同的词嵌入方法，将对比模型分为GloVe和BERT组. 在GloVe组中，对比基线模型(LSTM、IAN)，MDKGCN在5个数据集上的Acc均有较大提升，情感分类效果优秀，证明了语义交互和语法交互的有效性；对比其他GCN模型（如ASGCN模型），MDKGCN在Restaurant15和Restaurant16数据集上的MF1分别提升了4.96与8.04个百分点，在其他数据集上也均能提升超过2个百分点以上. MDKGCN使用多个依赖解析因此比于单一依赖解析的模型更加优异；此外，MDKGCN引入外部知识增强相关情感信息，使得模型在一定程度上能够得到更加准确的情感分类. 在BERT组中，相较于原始的BERT-BASE模型，MDKGCN-BERT在5个数据集上的准确率和宏F1值平均提升了3.15与6.60个百分点，尤其在Restaurant15数据集，MF1提升了8.97个百分点. 对比引入单一解析器与单一知识的SK-GCN-BERT、MFSGC-BERT，MDKGCN均有所提升；对比图注意力模型WGAT-BERT、SSEMGAT-BERT，MDKGCN在其中3个数据集上互有胜负，说明Twitter数据集对语法依赖关系不敏感，证明了多依赖解析与多知识的有效性. 可以看出，MDKGCN在5个数据集上的表现均优于新型GCN模型（MI-GCN、MFSGC-BERT）；对比图注意力模型（DGAT），仅在Restaurant14数据集上Acc和MF1较小. 实验结果证明了MDKGCN的优越性.

表 3 不同模型在5个数据集上的分类准确率和宏观F1 分数对比

Tab.3 Comparison of classification accuracy and macro F1 score of different models in five datasets

%
类别	模型	Twitter		Laptop14		Restaurant14		Restaurant15		Restaurant16
类别	模型	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1
GloVe	LSTM	69.56	67.70	69.28	63.09	78.13	67.47	77.37	55.17	86.80	63.88
	IAN	72.50	70.81	72.05	67.38	79.26	70.09	78.54	52.65	84.74	55.21
	ASGCN	72.15	70.40	75.55	71.05	80.77	72.02	79.89	61.89	88.99	67.48
	kumaGCN	72.45	70.77	76.12	72.42	81.43	73.64	80.69	65.99	89.39	73.19
	SKGCN	71.97	70.22	73.20	69.18	80.36	70.43	80.12	60.70	85.17	68.08
	CDT	72.87	71.40	75.89	71.84	81.46	73.59	80.25	61.92	86.65	70.18
	MI-GCN	73.31	72.12	76.59	72.44	82.32	74.31	80.81	64.21	89.50	71.97
	DGAT	73.99	72.53	76.49	72.75	82.68	75.53	—	—	—	—
	MDKGCN	74.28	72.68	78.06	74.61	82.41	74.34	81.92	66.85	90.26	75.52
BERT	BERT-BASE	73.70	71.50	77.74	73.30	82.68	73.54	81.34	63.57	88.89	68.19
	SK-GCN-BERT	75.00	73.01	79.00	75.57	83.48	75.19	83.20	66.78	87.19	72.02
	WGAT-BERT	76.25	74.56	80.49	77.21	85.71	80.23	—	—	—	—
	SSEMGAT-BERT	76.81	76.10	80.06	76.78	86.42	79.70	—	—	—	—
	MFSGC-BERT	75.41	72.98	78.53	74.91	85.71	79.55	83.58	68.37	91.07	76.09
	MDKGCN-BERT	76.30	75.31	80.41	77.60	86.70	80.93	85.61	72.54	91.07	76.70

新窗口打开| 下载CSV

2.5. 消融实验

为了明确MDKGCN中各组件对模型性能的独立影响，设计MDKGCN组件的拆解实验，并进行双知识的融合对比、概念知识的融合方式对比以及GCN层数对模型的影响可视化分析.

如表4所示为所提模型在5个数据集上的消融实验结果. 表中，W/O Concept表示删除概念知识分支，W/O MS_Matrix表示不使用可见矩阵对引入的知识进行遮蔽，W/O Stanza表示仅删除Stanza依赖解析，W/O spaCy表示仅删除spaCy依赖解析器，W/O Sentic表示仅删除SenticNet情感知识. 可以看出，在去除Stanza依赖图后，准确率与宏F1值平均下降1.12和2.13个百分点；在去除spaCy依赖图后，准确率与宏F1值平均下降1.56和2.32个百分点. 证明spaCy依赖解析器的性能虽然强于Stanza，但是无法解析出完美的依赖图. 在去除其他组件或模块后，模型性能也都有一定程度的下降，表明模型中均为有效组件.

表 4 所提模型在5个数据集上的消融实验结果

Tab.4 Ablation experimental results of proposed model in five datasets

%
模型	Twitter		Laptop14		Restaurant14		Restaurant15		Restaurant16
模型	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1
W/O Concept	73.55	71.79	76.65	72.72	82.32	73.94	81.73	64.38	89.77	73.34
W/O MS_Matrix	73.84	71.82	76.49	72.60	82.23	73.77	80.07	65.00	89.94	72.86
W/O Stanza	72.98	71.61	76.49	71.77	81.96	73.39	80.44	63.80	89.45	72.96
W/O spaCy	73.27	71.75	76.18	72.54	81.16	73.59	79.70	64.19	88.80	70.50
W/O Sentic	72.98	71.08	76.65	72.99	81.70	73.23	79.70	64.41	89.29	73.26
MDKGCN	74.28	72.68	78.06	74.61	82.41	74.51	81.92	66.85	90.26	75.52

新窗口打开| 下载CSV

对基于BERT的MDKGCN进行模块消融实验，如表5所示. 表中，GCN表示将多通道GCN层的换为普通GCN模块，只使用基于spaCy的依赖树. S表示模型不引入概念知识的单分支模型，D代表引入概念知识的双分支模型. 相较于不引入概念知识的单分支BERT，引入GCN后准确率和宏F1值平均提升0.96与3.07个百分点；引入MDKGCN后准确率和宏F1值平均提升2.04与5.05个百分点. 对比引入概念知识后的双分支BERT，引入GCN后的准确率和宏F1值平均提升0.26与2.59个百分点；引入MDKGCN后的准确率和宏F1值平均提升1.78与4.56个百分点. 对比2种结构的MDKGCN-BERT模型，双分支比单分支在准确率与宏F1值上平均提升1.10与1.55个百分点. 结果表明了多依赖信息以及多知识的有效性.

表 5 所提模型使用BERT时在5个数据集上的消融实验结果

Tab.5 Ablation experimental results for proposed model with BERT in five different datasets

%
模型	Twitter		Laptop14		Restaurant14		Restaurant15		Restaurant16
模型	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1	Acc	MF1
BERT-BASE(S)	73.70	71.50	77.74	73.30	82.68	73.54	81.34	63.57	88.89	68.19
+GCN	75.72	74.39	79.00	74.82	83.57	75.59	81.92	68.67	88.96	71.97
+MDKGCN	76.16	74.57	79.31	74.96	85.45	78.30	83.39	71.68	90.26	75.82
BERT-BASE (D)	75.00	72.53	78.68	74.64	84.55	77.34	83.40	65.28	89.54	70.47
+GCN	75.14	73.83	79.15	75.56	84.29	77.68	84.13	69.49	89.77	76.64
+MDKGCN	76.30	75.31	80.41	77.60	86.70	80.93	85.61	72.54	91.07	76.70

新窗口打开| 下载CSV

如表6所示，跟踪GPT-3系列大型语言模型，对Davinci^[38]、Text-Davinci-001^[39]、Code-Davinci-002^[40]、Text-Davinci-002、Text-Davinci-003和GPT-3.5-Turbo进行对比分析. 可以发现，尽管大语言模型的优势较为明显，但两者的参数量级不在同一水平线上. BERT拥有1.10×10⁸的参数量，仅为情感分析能力最强的Code-Davinci-002模型1.75×10¹³参数量的0.63‰，在情感分析任务中拥有其超过85%的性能，微调后的MDKGCN-BERT更是拥有其超过88%的性能.

表 6 所提模型与大型语言模型的对比实验结果

Tab.6 Comparative experimental results between proposed model and large language models

%
类别	模型	Acc
类别	模型	Laptop14	Restaurant14
GPT-3	Davinci	79.00	10.00
	Text-Davinci-001	83.91	89.73
	Code-Davinci-002	90.72	93.00
	Text-Davinci-002	86.48	91.26
	Text-Davinci-003	84.12	88.78
	GPT-3.5-Turbo	85.11	91.02
BERT	BERT-BASE	77.74	82.68
BERT	MDKGCN-BERT	80.41	86.70

新窗口打开| 下载CSV

2.5.1. GCN层数对实验结果的影响

实验将GCN层数分别设置为L = {1, 2, 3, ···, 10}，在5个公开数据集上对应的准确率和宏F1如图4所示. 从总体效果看，MDKGCN在GCN层数L=2时达到最优的性能，当GCN网络深度增加，准确率与宏F1值随之波动，但整体性能呈现下降趋势. 当L=10层时，相较于最佳性能，准确率平均下降了2.13个百分点，宏F1值平均下降了3.09个百分点，由于网络层数增加，模型引入过多参数，产生过拟合现象.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 图卷积网络层数对准确率和宏F1值的影响

Fig.4 Effect of graph convolutional networks layers on accuracy and macro F1 score

2.5.2. 双知识的融合对比实验

为了验证外部知识对所提模型的影响，针对MDKGCN引入的SenticNet情感知识、概念知识设计对比实验，结果如图5所示. 图中，S_C表示融合概念知识，S_S表示融合SenticNet情感知识；S_C+S_S表示融合双知识. 可以看出，单独引入SenticNet情感知识比单独引入概念知识有接近或更好的性能，准确率和宏F1值平均提升0.74与0.24个百分点，表明对方面词进行解释比赋予情感词相关情感得分能够更好地解决一词多义问题. 在引入双知识后，模型性能有明显提升. 对比单情感知识，准确率和宏F1值平均提升0.58与1.60个百分点；相较于单概念知识，准确率和宏F1值平均提升1.32与1.84个百分点. 证明引入双知识可以有效提升模型性能.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 外部知识对准确率和宏F1值的影响

Fig.5 Effect of external knowledge on accuracy and macro F1 score

2.5.3. 概念知识的融合方式对比实验

为了验证概念知识融合方式的有效性，比较3种经典的信息融合方式，结果如图6所示. 图中，S_Ma表示在掩码层只对方面词进行掩码操作，之后不使用可见矩阵对其特征进行掩码；S_Mu表示只使用可见矩阵对特征进行筛选，不使用掩码层对方面词进行掩码；Ma_Mu表示引入概念知识的文本与概念知识可见矩阵直接做矩阵乘法；GCN表示将引入概念知识的文本与遮蔽概念知识的可见矩阵输入GCN. 可以看出，与其他融合策略相比，本研究使用的GCN方式在准确率与宏F1指标上均优于其他3种融合方式. 分别对比S_Ma、S_Mu、Ma_Mu，准确率平均提升0.87、0.71、1.10个百分点；宏F1值平均提升1.56、1.48、2.36个百分点. 该实验结果证明了GCN在处理非结构化数据的优势.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 概念知识融合方式对准确率和宏F1值的影响

Fig.6 Effect of concept knowledge fusion method on accuracy and macro F1 score

2.6. 样例分析

选取评论语句，对所提模型进行注意力可视化分析. 颜色深浅反映该词在句子中的重要性，颜色越深表明该词越重要. 在句子“The food was great and tasty , but the sitting space was too small.”中，有2个方面词，分别为“food”和“sitting space”. 如图7所示，对于“food”，在不引入概念知识时，注意力完全在“great”上，“tasty”理应分得部分注意力，这样更符合人类的正常思维；引入概念知识后，注意力分别给了“great”和“tasty”，符合现实情况. 如图8所示，对于方面词“sitting space”，在没有概念知识时注意力更多在“was”上，按照正常逻辑，“too”这个词也应该分到不小的注意力分值，而且将“sitting space”割裂开来，使注意力分布不同；在引入概念知识后，更符合现实的注意力得分.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 方面词“food”注意力权重对比

Fig.7 Comparison of attention weights for aspect word "food"

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 方面词“sitting space”注意力权重对比

Fig.8 Comparison of attention weights for aspect word “sitting space”

综上所述，使用MDKGCN可以得到更符合常识的注意力得分. 即使在含有多个方面词的文本中，该模型仍然能够计算出正确的注意力权重，判断方面词的情感极性.

3. 结　语

本研究使用2种不同的句法解析方式对句子构建2种句法关系依赖图，依据SenticNet情感知识图谱构建情感关系图，使用图卷积神经网络将2种依赖图与情感关系图相融合. 引入概念知识图谱增强句子中的方面词本体，构建对应的可视矩阵，遮蔽引入的概念知识，避免由于大量知识后引入导致句子偏离其本意的情况. 将这2种融合后的特征表示进行语义、语法双交互，融合多种不同的特征表示，有效地利用所有信息实现了多特征的共享与互补. 通过5个基准数据集的验证，所提模型的准确率和宏F1值都显著优于传统的单解析模型和当前的主流模型. 也应注意到，虽然SenticNet和概念知识图谱为模型提供了丰富的语义和情感信息，但知识图谱本身的完备性和时效性可能会影响最终结果. 此外，本研究对知识图谱中实体关联关系的深度挖掘和利用不够充分，未来将引入更多类型和更全面的知识图谱，并探索更为有效的知识融合和推理机制，以提高模型对复杂文本的理解能力和泛化性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

余传明

基于深度循环神经网络的跨领域文本情感分析

[J]. 图书情报工作, 2018, 62 (11): 23- 34