基于多任务学习与层叠 Transformer 的多模态情感分析模型

doi:10.3785/j.issn.1008-973X.2023.12.009

基于多任务学习与层叠 Transformer 的多模态情感分析模型

陈巧红^,, 孙佳锦, 漏杨波, 方志坚

浙江理工大学计算机科学与技术学院，浙江杭州 310018

Multimodal sentiment analysis model based on multi-task learning and stacked cross-modal Transformer

CHEN Qiao-hong^,, SUN Jia-jin, LOU Yang-bo, FANG Zhi-jian

School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

收稿日期: 2023-02-11

基金资助:

浙江理工大学中青年骨干人才培养经费项目

Received: 2023-02-11

Fund supported:

浙江理工大学中青年骨干人才培养经费项目

作者简介 About authors

陈巧红（1978—），女，教授，从事并联机器人智能优化设计及机器学习技术研究.orcid.org/0000-0003-0595-341X.E-mail：chen_lisa@zstu.edu.cn , E-mail：chen_lisa@zstu.edu.cn

摘要

针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题，基于跨模态Transformer，提出新的多模态情感分析模型（MTSA）. 使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息，通过累加辅助模态任务损失以筛除噪声并保留模态特征异质性. 使用多任务门控机制调整跨模态特征融合，通过层叠Transformer结构融合文本、音频与视觉模态特征，提升融合深度，避免融合特征冗余. 在2个公开数据集MOSEI和SIMS上的实验结果表明，相较于其他先进模型，MTSA的整体性能表现更好，二分类准确率分别达到83.51%和84.18%.

关键词： 多模态情感分析 ; 长短时记忆(LSTM) ; Transformer ; 多任务学习 ; 跨模态特征融合

Abstract

A new multimodal sentiment analysis model (MTSA) was proposed on the basis of cross-modal Transformer, aiming at the difficult retention of the modal feature heterogeneity for single-modal feature extraction and feature redundancy for cross-modal feature fusion. Long short-term memory (LSTM) and multi-task learning framework were used to extract single-modal contextual semantic information, the noise was removed and the modal feature heterogeneity was preserved by adding up auxiliary modal task losses. Multi-tasking gating mechanism was used to adjust cross-modal feature fusion. Text, audio and visual modal features were fused in a stacked cross-modal Transformer structure to improve fusion depth and avoid feature redundancy. MTSA was evaluated in the MOSEI and SIMS data sets, results show that compared with other advanced models, MTSA has better overall performance, the accuracy of binary classification reached 83.51% and 84.18% respectively.

Keywords： multimodal sentiment analysis ; long short-term memory (LSTM) ; Transformer ; multi-task learning ; cross-modal feature fusion

PDF (1171KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈巧红, 孙佳锦, 漏杨波, 方志坚. 基于多任务学习与层叠 Transformer 的多模态情感分析模型. 浙江大学学报(工学版)[J], 2023, 57(12): 2421-2429 doi:10.3785/j.issn.1008-973X.2023.12.009

CHEN Qiao-hong, SUN Jia-jin, LOU Yang-bo, FANG Zhi-jian. Multimodal sentiment analysis model based on multi-task learning and stacked cross-modal Transformer. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(12): 2421-2429 doi:10.3785/j.issn.1008-973X.2023.12.009

多模态情感分析是新兴的深度学习技术，不仅应用于视频的情感极性识别，也是用户行为分析、对话生成的基础. 作为文本情感分析的延伸，数据源不仅有文本模态，还包含音频与视觉模态，同一数据段中的不同模态往往相互补充，为语义和情感消歧提供额外的线索^[1]. 任何话语的每个模态都包含着独特的信息^[2]，这些独特的信息可能与其他模态信息相互冲突，并被认为是噪声，但它们在预测情感极性方面可能是有用的. 多模态情感分析现存两大挑战：1）如何模拟人类接受多模态信息的过程，对模态内特征进行有效建模，以便保留模态的异质性，并尽可能筛除噪声；2）在跨模态建模时，能够有效地集成异构数据，提取并整合有意义的信息.

多模态融合方式主要分为3种：早期融合^[3]、后期融合^[4]与中期融合^[5]. 早期融合是在模型的初期通过特征拼接融合不同模态的特征. 后期融合为每个模态建立单独的模型，再使用多数投票或加权平均方法将输出集成. 中期融合将不同模态的数据先转化为高维特征表达，再于模型的中间层进行融合. 根据输入模态的特征是否按时间步对齐，多模态融合又分为时序融合与非时序融合. 时序融合模型根据时间对不同模态进行连续建模，须先将不同模态特征对齐，再按时序依次融合每个时间步的特征. Wang等^[6]通过时序融合，将每个时间步的文本特征作为主模态，将音频和视觉特征作为辅助模态对词表征进行动态调整，再将调整后的特征序列输入长短时记忆(LSTM)网络. 在非时序融合研究方面，Zadeh等^[7]提出基于张量融合的方法，将经过时序网络提取的单模态特征，使用笛卡尔积进行融合. Yu等^[8]通过创建多标签数据集SIMS，并在情感分析中利用多任务学习来指导单模态特征提取，后续Yu等^[9]又提出SELF-MM,通过自监督学习策略生成伪单模态标签来适应传统单标签数据集. Tsai等^[10]分别将不同模态特征输入Transformer的编码器结构，实现非对齐特征的注意力交互. 其他方法（如图胶囊网络）也被提出并取得了良好的效果^[11-13].

上述模型只利用多模态整体情感标签，且整体采用三元对称结构^[14]，轮流对3个模态中的每对模态进行建模，平等的计算每个模态对最终情感的贡献. 在情感交流的过程中，不同模态所携带的信息量不同，文本模态是多模态情感的主要载体，音频和视觉信息起辅助作用. 本研究提出层叠跨模态Transformer结构，将文本模态作为目标模态，并将音频模态与视觉模态依次与文本模态融合，通过模拟人类接受多模态信息的过程来平衡不同模态的情感贡献；引入多任务学习与门控机制，根据模态异质性调整跨模态特征融合，更有效地集成异构数据，提取并整合有意义的信息；通过Gradnorm与子任务动态权重衰减来调优多任务损失，指导单模态异质性特征提取.

1. 基于多任务学习和层叠Transformer的多模态情感分析模型

1.1. 算法架构

本研究算法架构如图1所示，该框架共分为4个步骤：单模态特征提取、跨模态特征融合、情感预测和多任务损失调优. 1）将给定视频片段作为输入，分别使用 BERT^[15]、LibROSA^[16]、openface2.0^[17]提取文本特征 $ {\boldsymbol{X}}_{\mathrm{T}} $、音频特征 $ {\boldsymbol{X}}_{\mathrm{A}} $与视觉特征 $ {\boldsymbol{X}}_{\mathrm{V}} $. 2）采用LSTM^[18]网络作为单模态特征提取的基础框架，对于不同模态的初始特征，分别通过对应模态的单向LSTM网络，将特征映射到同一维度，令每一时间步特征能感知当前特征的上下文. 通过将最终时间步特征输入前馈层得到单模态预测，并在训练阶段与真实标签计算分类损失，引导时序特征的提取，以保证输出的特征能在过滤噪声的同时最大程度保存模态异质性. 3）通过跨模态特征融合模块，将3个模态的特征依次输入层叠的跨模态Transformer网络得到融合特征，并将对应模态的高级语义特征间的相似度作为Transformer残差连接的门控，指导模态间的注意力交互. 4）将融合特征通过特征补充后输入前馈层，得到情感预测.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于多任务学习和层叠Transformer的多模态情感分析模型结构图

Fig.1 Structure of multimodal sentiment analysis model based on multi-task learning and stacked cross-modal Transformer

1.2. 单模态特征提取模块

单模态特征提取模块旨在从初始特征序列中学习模态内表示. 本研究使用LSTM网络对原始输入特征进行提取,即

(1) $ {{\boldsymbol{H}}_m} = {\text{LST}}{{\text{M}}_m}({{\boldsymbol{X}}_m}) . $

式中： $ {\boldsymbol{X}}_{m}\in {\bf{R}}^{{{l}}_{m}\times {{d}}_{m}} $为模态m的原始输入特征，l表示特征序列的长度，d表示特征维度，模态分别标记为文本T、音频A、视觉V； $ {\boldsymbol{H}}_{m}\in {\bf{R}}^{{{l}}_{m}\times {{d}}_{{\rm{h}}}} $为模态m经过LSTM网络提取后的隐藏层特征， $ {\mathrm{L}\mathrm{T}\mathrm{S}\mathrm{M}}_{m} $为使用单向LSTM网络对模态m进行特征提取. 不同模态的LSTM特征提取网络的输入维度不同，因此本研究将各个LSTM网络的隐藏层维度统一为 $ {d}_{{\rm{h}}} $，以适应之后的跨模态特征融合. $ {\boldsymbol{H}}_{m} $被用作跨模态特征融合模块的输入，将 $ {\boldsymbol{H}}_{m} $的末尾时间序列特征 $ {\boldsymbol{H}}_{m}^{\mathrm{L}} $通过多层感知机(MLP)得到高级语义特征 $ {\boldsymbol{G}}_{m} $，作为跨模态特征融合模块的门控输入来指导跨模态特征融合，即

(2) $ {{\boldsymbol{G}}_m} = {\text{MLP}}({\boldsymbol{H}}_m^{\text{L}}) . $

以往的模型采用CNN、GRU或者LSTM提取不同子模态内部特征，由于这类模型只以多模态整体情感标签为训练目标，在训练过程中，为了筛除原始特征中的噪声，模型会将对跨模态特征融合至关重要的单模态异质性特征一并筛除，只保留模态中的共性特征. 受Yu等^[8]启发，本研究引入多任务学习机制，以保留单模态特征的异质性，通过将 $ {\boldsymbol{G}}_{m} $输入至前馈层得到单模态分类结果，并在训练时结合真实标签计算交叉熵损失，以指导LSTM网络提取单模态特征，使模型在有效表征单模态情感的基础上进行特征融合，进而识别多模态整体情感，计算式为

(3) $ {y'_m} = {{f}}({{\boldsymbol{G}}_m}) , $

(4) $ {\rm{Los}}{{\rm{s}}_m} = \frac{1}{D}\sum\limits_{k = {\text{1}}}^N {{y_{m,i,k}}\ln \;({y'_{m,i,k}})} , $

(5) $ {\rm{Los}}{{\rm{s}}_m} = \frac{1}{D}\sum\limits_{{\text{i}} = 1}^N {{{({y_{m,i}} - {y'_{m,i}})}^2}} . $

式中：f()为前馈层，D为图文评论样本总数，N为情感类别数， $ {y}_{m,i} $为第i个视频片段对m模态的真实情感分值， $y'_{m,i}$为预测情感分值， $y'_{m,i,k}$为第i个视频片段对模态m预测为第k类情感的概率. $ {y}_{m,i,k} $为指示变量，若与真实样本类别相同，则 $ {y}_{m,i,k} $为1，不同则为0. 式（3）表示将高级语义特征 $ {\boldsymbol{G}}_{m} $通过前馈层得到情感预测 $y'_{m}$，式（4）用于分类任务计算损失值，式（5）用于回归任务计算损失值.

1.3. 跨模态特征融合模块

在大脑识别多模态信息的过程中，听觉器官反馈给大脑的是经过融合后的文本与音频特征，之后该特征再与视觉器官接收的特征进行交互^[19]. 基于这点启发，本研究提出层叠Transformer结构，将文本特征与音频特征先进行跨模态Transformer融合，得到语言特征后，再将语言特征与视觉特征进行融合.

跨模态特征融合模块由跨模态Transformer堆叠组成，跨模态Transformer的原理是利用多头自注意力机制^[20]，通过将目标模态的查询值与辅助模态的键值进行相似度对比，在低层特征级别增强目标模态特征. 此前的MULT模型^[10]通过跨模态Transformer将文本、音频和视觉特征进行两两组合后，再将得到的6组经过注意力机制增强的融合特征进行拼接，作为3个模态的融合特征，如图2所示. 这种融合方式，本质上只是对2个模态进行注意力增强，融合程度不足，且当模态扩充到更高维数时，该融合方式的参数量与训练时间都会呈指数级上升. 本研究所提模块通过堆叠跨模态Transformer，将文本特征依次与音频、视觉特征融合，可以有效解决上述缺陷. 此外，本研究在跨模态Transformer中加入各模态的高级语义特征G_m，通过比较2个模态高级语义特征的余弦相似度 ${s}_{{\alpha },{{\; \beta}}}$，作为Transformer残差连接的门控，以指导目标模态接受或拒绝辅助模态的引导.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 2种融合结构的对比

Fig.2 Comparison of two fusion architecture

对于从单模态特征提取子网中得到的序列特征 $ {\boldsymbol{H}}_{\mathrm{T}} $、 $ {\boldsymbol{H}}_{\mathrm{A}} $、 $ {\boldsymbol{H}}_{\mathrm{V}} $与高级语义特征 $ {\boldsymbol{G}}_{\mathrm{T}} $、 $ {\boldsymbol{G}}_{\mathrm{A}} $、 $ {\boldsymbol{G}}_{\mathrm{V}} $，先将 $ {\boldsymbol{H}}_{\mathrm{T}} $、 $ {\boldsymbol{H}}_{\mathrm{A}} $、 $ {\boldsymbol{G}}_{\mathrm{T}} $、 $ {\boldsymbol{G}}_{\mathrm{A}} $输入至跨模态Transformer网络，得到经过音频特征加强的文本特征 $ {\boldsymbol{H}}_{\mathrm{T}\mathrm{A}} $，融合了音频特征的模式更接近语言. 将 $ {\boldsymbol{H}}_{\mathrm{T}\mathrm{A}} $的尾部特征 $ {\boldsymbol{H}}_{\mathrm{T}\mathrm{A}}^{\mathrm{L}} $输入前馈层，得到高级语义特征 $ {\boldsymbol{G}}_{\mathrm{T}\mathrm{A}} $，作为下一次跨模态Transformer的门控输入. 为了能让模型保留语言特征的异质性，将 $ {\boldsymbol{G}}_{\mathrm{T}\mathrm{A}} $通过前馈层，得到语言情感分类结果，并在训练阶段计算与真实标签的交叉熵损失，指导本层的跨模态融合. 将 $ {\boldsymbol{H}}_{\mathrm{T}\mathrm{A}} $、 $ {\boldsymbol{H}}_{\mathrm{V}} $、 $ {\boldsymbol{G}}_{\mathrm{T}\mathrm{A}} $、 $ {\boldsymbol{G}}_{\mathrm{V}} $输入跨模态门控Transformer网络，得到多模态情感特征 $ {\boldsymbol{H}}_{\mathrm{T}\mathrm{A}\mathrm{V}} $. 跨模态门控Transformer如图3所示. 对于主模态 ${\text{α} } $与辅助模态 $ {{\; \text{β}}} $， $ {\mathrm{T}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}\mathrm{f}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{e}\mathrm{r}}_{{{\; \text{β}}}\to{\text{α} }} $表示将模态 $ {{\; \text{β}}} $对模态 ${\text{α} } $做引导注意力， $ {\mathrm{T}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}\mathrm{f}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{e}\mathrm{r}}_{{{\; \text{β}}}\to{\text{α} }} $中包含n层跨模态注意力块，向每层跨模态注意力块输入目标模态 $ {\boldsymbol{H}}_{\mathrm{\text{α} }}^{\left[k\right]} $、 $ {\boldsymbol{H}}_{{{\; \text{β}}}} $，经过层归一化和映射后得到Query、Key和Value，表达式分别为

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 跨模态门控Transformer结构图

Fig.3 Structure of cross-modal gated Transformer

(6) $ {\boldsymbol{Q}}_{_{\text{α}}}^{[k]} = {\rm{LN}}{\text{(}}{\boldsymbol{H}}_{\text{α}}^{[k]}){\boldsymbol{W}}_{{{{\rm{q}},\text{α} }}}^{[k]} , $

(7) $ {{\boldsymbol{K}}_ \text{β}} = {\rm{LN}}{\text{(}}{\boldsymbol{H}}_{ \text{β}}^{}){{\boldsymbol{W}}_{{{{\rm{k}},{\; \text{β}}}}}} , $

(8) $ {{\boldsymbol{V}}_{{ \text{β}}}} = {\rm{LN}}{\text{(}}{\boldsymbol{H}}_{{ \text{β}}}^{}){{\boldsymbol{W}}_{{{{\rm{v}},{\; \text{β}}}}}} . $

式中：k为当前层数， ${\boldsymbol{W}}_{{\rm{q}},\text{α} }^{\left[k\right]}\in {\bf{R}}^{{{d}}_{{\text{α} }}\times {{d}}_{k}}$、 ${\boldsymbol{W}}_{\mathrm{k},{{\; \text{β}}}}\in {\bf{R}}^{{{d}}_{{{\text{β}}}}\times {{d}}_{k}}$、 ${\boldsymbol{W}}_{\mathrm{v},{{\; \text{β}}}}\in {\bf{R}}^{{{d}}_{{{\text{β}}}}\times {{d}}_{k}}$为映射矩阵，LN为归一化层. 定义d_u为隐藏层特征维度. 将辅助模态β对目标模态α进行多头注意力引导，得到引导后的融合特征 $ {\boldsymbol{F}}_{\alpha \to { \beta}}^{[k+1]} $，计算式为

(9) $ {\boldsymbol{F}}_{\alpha \to {\beta}}^{[k+1]}{\text{ = }}{\rm{softmax}} \left(\frac{{{\boldsymbol{Q}}_{_\alpha }^{[k]}{{\boldsymbol{K}}_{ \beta}}}}{{\sqrt {{d_{\rm{u}}}} }}\right){{\boldsymbol{V}}_{ \beta}} . $

Transformer为了强化目标模态的特征信息，通过残差连接的方式使原目标模态 $ {\boldsymbol{H}}_{\text{α}} $得到辅助模态的补充. 传统的Transformer是针对单模态与自注意力机制设计的，其目标模态与辅助模态的来源相同. 跨模态Transformer与传统Transformer不同，当目标模态与辅助模态的差异性过大，导致难以有效融合时，应该降低辅助模态对目标模态的影响与干扰；当目标模态与辅助模态的差异性较小时，应该增强跨模态融合的强度. 本研究在跨模态Transformer的残差连接中加入门控机制，通过将目标模态与辅助模态对应的高层特征进行余弦相似度对比，得到相似度 $ {s}_{\text{α},\text{β}} $作为残差连接的门控，指导跨模态Transformer融合,得到本层跨模态融合特征 $ {\boldsymbol{H}}_{\text{α}}^{[k+1]} $，作为下一Transformer层的目标模态输入，计算式为

(10) $ {\boldsymbol{G}}_{{\text{α}}}^{\rm{{new}}} = {{\boldsymbol{G}}_{{\text{α}}}}{\boldsymbol{W}}_{{\text{α}}}^{{\rm{gate}}} , $

(11) $ {\boldsymbol{G}}_{{{\text{β}}}}^{{\rm{new}}} = {{\boldsymbol{G}}_{{{\text{β}}}}}{\boldsymbol{W}}_{{{\text{β}}}}^{{\rm{gate}}} , $

(12) $ {s_{{{\text{α} ,{\; \text{β}}}}}}{\text{ = }}\frac{{\displaystyle\sum\limits_{{{i}} = 1}^{d} {{\boldsymbol{G}}_{{\text{α}},i}^{{\text{new}}} \times {\boldsymbol{G}}_{{{\; \text{β}}},i}^{{\text{new}}}} }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^{d} {{\text{(}}{\boldsymbol{G}}_{{\text{α}},i}^{{\text{new}}}} {)^2}} \times \sqrt {\displaystyle\sum\limits_{i = 1}^{d} {{\text{(}}{\boldsymbol{G}}_{{{\; \text{β}}},i}^{{\text{new}}}} {)^2}} }}， $

(13) $ {\boldsymbol{\tilde H}}_{{\text{α}} \to {{\; \text{β}}}}^{[k+1]} = {\boldsymbol{H}}_{\text{α}}^{[k]}{\text+}{s_{{\text{α}},{{\; \text{β}}}}} \times {\boldsymbol{F}}_{{\text{α}} \to {{\; \text{β}}}}^{[k+1]} , $

(14) $ {\boldsymbol{H}}_{\text{α}}^{[k+1]} = {\boldsymbol{\tilde H}}_{{\text{α}} \to {{\; \text{β}}}}^{[k+1]}{\text+}{\rm{LN}}{\text{(}}{{f}}{\text{(}}{\boldsymbol{\tilde H}}_{{\text{α}} \to {{\; \text{β}}}}^{[k+1]}{\text{))}} . $

式中： $ {\boldsymbol{G}}_{\mathrm{\text{α}}} $, $ {\boldsymbol{G}}_{{{\; \text{β}}}} $为目标模态与辅助模态的高层特征， $ {\boldsymbol{W}}_{\mathrm{\text{α}}}^{\mathrm{g}\mathrm{a}\mathrm{t}\mathrm{e}} $与 $ {\boldsymbol{W}}_{{{\; \text{β}}}}^{\mathrm{g}\mathrm{a}\mathrm{t}\mathrm{e}} $为学习矩阵. 式（10）、（11）表示将 $ {\boldsymbol{G}}_{\mathrm{\text{α}}} $、 $ {\boldsymbol{G}}_{{{\; \text{β}}}} $经过学习矩阵进行映射，得到 $ {\boldsymbol{G}}_{\mathrm{\text{α}}}^{\mathrm{n}\mathrm{e}\mathrm{w}} $、 $ {\boldsymbol{G}}_{{{\; \text{β}}}}^{\mathrm{n}\mathrm{e}\mathrm{w}} $. 式（12）为对 $ {\boldsymbol{G}}_{\mathrm{\text{α}}}^{\mathrm{n}\mathrm{e}\mathrm{w}} $、 $ {\boldsymbol{G}}_{{{\; \text{β}}}}^{\mathrm{n}\mathrm{e}\mathrm{w}} $进行余弦相似度计算，式（13）表示将得到的相似度 $ {s}_{\mathrm{\text{α}},{{\; \text{β}}}} $对跨模态Transformer的残差连接进行调整，式（14）表示将中间状态 $\widetilde{\boldsymbol{H}}_{\mathrm{\text{α}}}^{[k+1]} $再次通过层归一化与残差连接得到本层跨模态融合输出 $ {\boldsymbol{H}}_{\mathrm{\text{α}}}^{[k+1]} $.

1.4. 情感预测

在情感预测前，再将不同模态的高层特征整合，以提高模型的稳健性. 取出经过音频、视觉特征引导的文本特征 $ {{\boldsymbol{H}}}_{\mathrm{T}\mathrm{A}\mathrm{V}} $的尾部特征 $ {{\boldsymbol{H}}}_{\mathrm{T}\mathrm{A}\mathrm{V}}^{\mathrm{L}} $，将文本高层特征 $ {{\boldsymbol{G}}}_{\mathrm{T}} $、视觉高层特征 $ {{\boldsymbol{G}}}_{\mathrm{V}} $，与 $ {{\boldsymbol{H}}}_{\mathrm{T}\mathrm{A}\mathrm{V}}^{\mathrm{L}} $拼接，再输入前馈层得到分类结果 $ {y}_{\mathrm{T}\mathrm{A}\mathrm{V}}{'} $，计算过程式为

(15) $ {{\boldsymbol{F}}_{{\rm{all}}}}{\text{ = }}{{\boldsymbol{G}}_{\text{T}}} \oplus {{\boldsymbol{G}}_{\text{V}}} \oplus {\boldsymbol{H}}_{{\text{TAV}}}^{\text{L}} , $

(16) $ {{\text{y}}'_m}{\text{ = MLP(}}{{\boldsymbol{F}}_{{\rm{all}}}}{\text{)}} . $

特征整合时没有拼接音频高层特征与语言高层特征，原因是音频伪标签与真实标签存在差异，虽然能指导音频特征的提取，但音频特征高层特征的可信度不高，经过实验证明，将音频特征加入拼接会降低多模态情感预测的性能. 此外，语言高层特征与文本高层特征 $ {\boldsymbol{G}}_{\mathrm{T}} $、经过引导的文本尾部特征 $ {{\boldsymbol{H}}}_{\mathrm{T}\mathrm{A}\mathrm{V}}^{\mathrm{L}} $存在较多冗余，将它们补充至整合特征的意义不大.

1.5. 多任务损失调优

在训练阶段，将不同模态的损失值加权求和，得到损失函数，即

(17) $ {\text{Loss = }}\sum\limits_m {{w _m}{\rm{Los}}{{\rm{s}}_m}}. $

式中： $ {w}_{m} $为不同模态m损失占总体损失的权重，模态分别标记为文本T、音频A、视觉V、文本融合音频TA和多模态M. 在训练过程中发现，不同子任务的收敛速度与损失值体量不同，这将导致任务的不平衡进而阻碍模型的训练. 这种阻碍体现在反向传播时参数的梯度不平衡，为此基于Gradnorm^[21]自适应平衡多个任务之间的损失权重，计算过程式为

(18) $ G_{\rm{w}}^m(t) = ||{w_m}(t){{\boldsymbol{L}}_m}(t)|{|_2} , $

(19) $ \overline G _{\rm{w}}^{}(t) = {\rm{Avg}}\;(G_{\rm{w}}^m(t)) , $

(20) $ {\tilde L_m}(t) = \frac{\|{{{\boldsymbol{L}}_m}(t)}\|}{\|{{{\boldsymbol{L}}_m}(0)}\|} , $

(21) $ {r_m}(t) = \frac{{{{\tilde L}_m}(t)}}{{{\rm{Avg}}\;({{\tilde L}_m}(t))}} , $

(22) $ {{\rm{GL}}_{m,t}} = \sum\limits_m {[G_w^m(t) - {{\overline G }_w}(t){{\left[ {{r_m}(t)} \right]}^\alpha }]}, $

(23) $ {w_m}(t+1) = {w_m}(t)+\varphi {{\rm{GL}}_{m,t}} . $

式中： $ {L}_{m}\left(t\right) $、 $ {w}_{m}\left(t\right) $分别为t时刻子任务m的损失梯度与损失权重. 实际梯度范数 $ {G}_{{\rm{w}}}^{m}\left(t\right) $为任务m的带权损失 $ {w}_{m}\left(t\right){L}_{m}\left(t\right) $对要更新的神经网络参数的梯度的L2范数； $ \mathrm{理}\mathrm{想} \mathrm{梯}\mathrm{度}\mathrm{范}\mathrm{式}{\overline{G}}_{{\rm{w}}}\left(t\right) $为每项子任务 $ {G}_{{\rm{w}}}^{m}\left(t\right) $的平均， $ {G}_{{\rm{w}}}^{m}\left(t\right) $和 $ {\overline{G}}_{{\rm{w}}}\left(t\right) $被用来平衡损失值的量级；子任务m的训练速度 $ {\widetilde L}_{m}\left(t\right) $为t时刻任务m的损失与初始时刻的比值，比值越大，任务m的训练速度将被调整得越慢； $ {r}_{m}\left(t\right) $为任务m的相对训练速度： $ {{\rm{GL}}}_{m,t} $为各个任务实际的梯度范数与理想的梯度范数的差的绝对值和， $ {\left[{r}_{m}\right(t\left)\right]}^{\alpha } $用来平衡损失值的训练速度， $ \alpha $为平衡训练速度的超参数；下一轮训练时子任务的损失权重w_m(t+1)会根据 $ {{\rm{GL}}}_{m,t} $做出调整， $ \varphi $为学习率.

子任务对总体情感的训练起辅助作用，随着训练的推进，子任务在多任务损失函数中的占比应该逐渐降低，因此每经过一轮训练，计算所有子任务的学习完成率并衰减它的权值，新增权值 $ {c}_{m} $调整子任务权重，计算过程式为

(24) $ {\text{Loss = }}\sum\limits_m {{c_m}{w _m}{{\rm{Loss}}_m}} , $

(25) $ {c_m} = \frac{{\ln {p_m}}}{{\ln {p_m} - 1}} . $

式中： $ {c}_{m} $为任务m的完成度系数； $ {p}_{m} $为任务m在该轮测试集中的准确率， $ {p}_{m} $越大，训练完成度越高，对应的完成度系数越小. 式（24）表示总损失值由每个子任务的损失与 $ {c}_{m} $、 $ {w}_{m} $相乘得到，式（25）表示 $ {c}_{m} $与 $ {p}_{m} $间的数量关系.

2. 实验及结果分析

2.1. 数据集与评价指标介绍

数据集CMU-MOSEI^[22]的23 000 多段对话提取自某视频网站的1 000 多条视频，标记每段对话的情感极性值范围为[−3, 3]. SIMS^[8]是针对中文多模态情感分析的数据集，相比如MOSI^[23]与MOSEI的单标签数据集，SIMS额外提供文本、音频与视觉单模态标签，本研究的完整模型依赖于该数据集提供的细粒度单模态标签. 该数据集为从60个原始视频中提取的2 281个视频片段，令标记者在仅接受单一模态输入的情况下给出该模态的情感得分. 实验过程中数据集分别按60%、20%和20%的比例划分为训练集、测试集和验证集.

为了公平地评估模型性能，在2个数据集上分别执行回归和分类任务. 回归任务的指标包括平均绝对误差MAE和皮尔逊相关系数Corr,分类任务将二分类准确率Acc2，三分类准确率Acc3和F1值作为评价指标.

2.2. 实验细节与参数设置

本研究模型在Nvidia 3090GPU上进行进行训练，操作系统为Windows 10，使用python3.8为编程语言，深度学习框架为pytorch1.2.0，完整实验参数设置如表1所示.

表 1 所提模型在2个数据集上的实验参数设置

Tab.1 Experimental parameter settings of proposed model in two datasets

参数	数值
参数	SIMS	MOSEI
训练批度	32	16
学习率	0.001	0.001
文本特征维度	768	768
音频特征维度	33	74
视觉特征维度	709	35
文本特征长度音频特征长度视觉特征长度	39 400 55	50 500 375
文本LSTM隐藏层维度	100	100
音频LSTM隐藏层维度	100	100
视觉LSTM隐藏层维度	100	100
Transformer编码层维度	100	100
多头注意力头数	10	10
Transformer层数	2	2
Droupout率	0.1	0.1

新窗口打开| 下载CSV

2.3. 基准模型

为了验证所提出的模型，选择性能优异、代码开源且复现后性能与原文接近的6个模型进行对比. 1）TFN^[7]：张量融合网络通过对提取的单模态特征进行交替的笛卡儿积，得到多维张量，以对模态内与模态间动态进行建模，M_TFN^[8]：TFN的多任务版本. 2）LMF^[24]：TFN的改进版本，通过使用特定模态因子进行低秩多模态融合来产生多模态输出表示，使用多模态表示来生成预测任务，M_LMF^[8]为LMF的多任务版本. 3）MFN^[25]：通过提取不同子模态的相邻时序特征，实现特点视图与跨视图的交互，通过特殊的注意力机制构造多视图门控记忆模块，以增加模型的可解释性. 4）MISA^[26]：结合包括分布相似性、正交损失、重构损失和任务预测损失在内的损失组合来学习模态不变和模态特定表示，通过将每个模态投射到模态共性（modality-invariant）与模态特性（modality-specific）2个不同的子空间，以保存模态特征的异质性与统一性. 5）MULT^[10]：利用跨模态Transformer，将辅助模态融入目标模态，得到多组跨模态融合特征后，再通过特征拼接进行整合. 6）CMFIB^[27]：从信息瓶颈理论出发，通过互信息估计器的互信息估计模块，优化多模态表示向量与真实标签之间的互信息下界，获得具有较好预测能力的多模态表示向量.

2.4. 结果对比分析

本研究所提模型和基准模型在2个数据集上的实验结果如表2、3所示, 其中，T为训练时间，N为参数量. 在MOSEI与SIMS数据集上的结果显示，MTSA在去除多任务标签的辅助后，性能依然能高于传统模型TFN、MFN，且与MULT这类基于跨模态Transformer结构的模型相比，性能仍有提升. 虽然MTSA在MOSEI数据集上略低于MISA与CMFIB，但在SIMS数据集上，MTSA通过多任务机制利用数据集中额外的单模态精细标签，相比CMFIB、MISA有了较大的性能提升，说明MTSA对不同数据集的泛化能力更强；此外，MTSA对比多任务框架M_TFN与M_LMF也有明显的提升，这些结果初步证明了MTSA在多模态情感分析中的有效性. 在模型参数量、训练时间与计算速度方面，MTSA的指标明显低于MFN、MISA与CMFIB这些性能较优但构造比较复杂的模型. 与MULT相比，层叠的跨模态融合结构相比三元对称的跨模态融合结构能够显著减少参数冗余并加快模型的训练与运算速度.

表 2 SIMS数据集上不同模型的性能对比结果

Tab.2 Performance comparison of results with different models in SIMS dataset

对比模型	Acc2/%	F1/%	Acc3/%	MAE	Corr	T/s	N/MB
TFN	77.63	77.67	66.39	42.91	58.04	40.5	3.7
MFN	80.0	79.74	68.01	43.63	57.74	123	5.3
LMF	77.78	76.22	65.99	44.13	56.96	13	5.5
MULT	81.03	80.44	68.67	45.32	56.41	164	40.5
MISA	77.73	77.31	66.13	41.94	56.74	314	15.2
M_TFN	82.21	81.1	70.46	40.27	63.96	65	3.7
M_MFN	82.22	81.96	70.85	41.42	63.60	21	5.5
CMFIB	80.28	80.27	—	40.93	59.82	137	7.9
MTSA	84.18	83.98	71.42	38.85	64.89	111	4.9

新窗口打开| 下载CSV

表 3 MOSEI数据集上不同模型的性能对比结果

Tab.3 Performance comparison of results with different models in MOSEI dataset

对比模型	Acc2/%	F1/%	Acc3/%	MAE	Corr	T/s	N/MB
TFN	81.89	81.74	66.63	57.26	71.74	175	3.7
MFN	82.86	82.85	66.59	57.33	71.82	354	5.3
LMF	83.48	83.36	66.59	57.57	71.69	68	5.5
MULT	83.43	83.32	67.04	55.93	73.71	402	40.5
MISA	84.64	84.66	67.63	55.75	75.15	1101	15.2
CMFIB	85.72	85.72	67.89	58.36	79.37	705	7.9
MTSA	83.51	83.38	67.13	55.67	73.46	351	4.9

新窗口打开| 下载CSV

2.5. 消融实验

将MTSA与4种模型变体进行消融实验. 1) MTSA+WA：在MTSA模型的基础上，添加自适应权重调整，通过Gradnorm实现多任务损失调优，并根据子任务的学习完成率衰减该任务的权值. 2)MTSA-G：在MTSA模型的基础上，删去跨模态门控模块，不再根据2个模态高层特征的相似度改变跨模态Transformer残差连接系数. 3) MTSA-GMT：在MTSA-G的基础上，仅使用整体任务标签进行训练，不再将单任务损失值加入总损失值. 4) MTSA-SMT：在MTSA-GMT的基础上，将层叠Transformer结构修改为三元对称的并行Transformer结构，再将融合后的6组Transformer头部特征进行拼接后输入多层感知机，得到情感分类.

消融实验在SIMS数据集上进行，采用准确率、F1值、MAE与Corr作为评估指标，实验结果如表4所示. 实验结果显示，MTSA+WA的实验效果最好,缺少不同模块会对实验结果造成不同影响. MTSA-G相比MTSA省去了跨模态相似度门控模块，其总体性能略低于MTSA-G，这是由于通过将2个模态高层特征的余弦相似度作为跨模态融合时残差连接的门控，可以更好地融合不同模态的特征. MTSA+WA与MTSA的消融实验结果表明，对多任务损失函数进行动态调优能有效提高模型的性能. 此外，MTSA-SMT未采用层叠的Transformer结构，而是将3个输入模态两两组合，进行跨模态Transformer，并将得到的6组双模态融合特征拼接，因此MTSA-SMT的参数量与运算时间都远高于MTSA-SMT的，在SIMS数据集上，MTSA-GMT的性能明显高于MTSA-SMT，进一步说明层叠Transformer结构的优越性. MTSA-G与MTSA-GMT的实验结果表明，通过利用单模态特征标签指导多任务学习，能够有效提升模型对单模态异质性的保留能力，进而提高多模态情感分析性能.

表 4 所提模型在SIMS数据集上的消融实验结果

Tab.4 Results of ablation experiments of proposed model in SIMS dataset

对比模型	Acc2/%	F1/%	Acc3/%	MAE	Corr
MTSA	84.18	83.98	71.42	38.85	64.89
MTSA+WA	84.36	84.11	71.57	38.71	64.72
MTSA-G	82.32	82.08	71.06	40.17	61.31
MTSA-GMT	82.27	81.98	70.37	42.91	58.04
MTSA-SMT	81.08	81.03	70.11	43.63	57.74

新窗口打开| 下载CSV

为了进一步探讨不同层叠顺序与主辅模态的选择对多模态情感分析的影响，分别以文本、音频、视觉作为主模态，并按不同的层叠顺序依次将剩余模态作为辅助模态进行跨模态融合，消融实验结果如表5所示. 可以看出，以文本为主模态进行跨模态融合的模型比以音频或视觉为主模态的模型在实验中取得的效果好，证明文字在多模态情感分析中是作为支点的. 此外，文本模态先与音频模态进行融合，再与视觉模态融合的顺序，其性能优于其他层叠融合顺序的性能，这可能是这种融合方式与人脑识别多模态情感的过程更接近导致的.

表 5 SIMS数据集上的模态融合顺序实验结果

Tab.5 Results of mode fusion sequence in SIMS dataset

模态融合顺序	Acc2/%	F1/%	Acc3/%	MAE	Corr
V→(A→T)	84.18	83.89	71.42	38.85	64.89
A→(V→T)	83.04	83.02	70.41	43.74	57.35
V→(T→A)	83.04	82.82	70.55	43.33	58.55
T→(V→A)	83.82	83.63	70.59	43.08	59.62
T→(A→V)	82.94	83.02	70.41	42.92	58.42
A→(T→V)	83.71	83.88	71.07	41.08	61.16

新窗口打开| 下载CSV

2.6. 样例分析

如表6所示，为了体现MTSA的泛化性能与其对单模态情感预测的准确率，从SIMS数据集中选取典型样例进行模型测试. 表中分别列出每个实例的文本、音频、视觉信息，原视频编号，MTSA对不同模态的情感预测结果以及不同模态的真实情感标签. 可以看出，本研究所提模型能够有效提取文本、音频和视觉等单模态信息，在能够识别单模态情感的基础上，进一步实施跨模态融合，识别多模态整体情感.

表 6 所提模型在SIMS数据集的样例分析

Tab.6 Sample analysis of proposed model in SIMS dataset

视频编号	多模态信息	视频画面	情感预测结果	真实情感
video_0001/0001	T：我不想嫁给李茶 A：语速较快，语气低沉 V：皱眉，表情沮丧，生气		T：消极 A：消极 V：消极 M：消极	T：消极 A：消极 V：消极 M：消极
video_0009/0002	T：妹妹不敢有任何非分之想 A：语气平静 V：低头，微笑		T：消极 A：中性 V：积极 M：消极	T：消极 A：积极 V：积极 M：消极
video_0054/0032	T：特别尊贵的感觉，感觉很害怕，怎么和他对戏啊，也不熟两个人也没有演过戏 A：语气紧张 V：微笑，紧握双手		T：积极 A：中性 V：积极 M：积极	T：积极 A：消极 V：积极 M：积极
video_0056/0051	T：拿他护照干吗你又用不了 A：语气平静 V：先皱眉，后微笑，挠头		T：消极 A：中性 V：积极 M：中性	T：中性 A：消极 V：积极 M：中性

新窗口打开| 下载CSV

3. 结　语

本研究提出的MTSA在多模态情感分析任务中有较好的性能. MTSA利用LSTM与多任务学习在一定程度上解决单模态特征异质性难以提取的问题，通过累加辅助模态任务损失避免了模型在训练过程中单模态特征坍缩；将各模态的高级语义特征的相似度计算，作为门控指导跨模态特征融合；通过层叠Transformer结构进行特征融合，提升融合深度并避免融合特征冗余. MTSA在2个数据集上的对比实验结果显示了模型的有效性；消融实验和定性分析证明了MTSA的性能. 由于SIMS数据集中受试者提供的音频标签并不准确，通过计算偏移量的方式模拟纯音频标签不足. 在之后的工作中将继续研究如何更好地提取各模态的特征，尤其是音频和视觉模态，更有效地融合模态信息.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HUANG Y, DU C, XUE Z, et al. What makes multi-modal learning better than single [C]// Advances in Neural Information Processing Systems. [S.l.]: NIPS, 2021: 10944-10956.