浙江大学学报(工学版), 2025, 59(8): 1653-1661 doi: 10.3785/j.issn.1008-973X.2025.08.012

计算机技术、控制工程、通信技术

基于多头自注意力机制与MLP-Interactor的多模态情感分析

林宜山,, 左景, 卢树华,

1. 中国人民公安大学 信息网络安全学院,北京 102600

2. 公安部安全防范技术与风险评估重点实验室,北京 102600

Multimodal sentiment analysis based on multi-head self-attention mechanism and MLP-Interactor

LIN Yishan,, ZUO Jing, LU Shuhua,

1. College of Information and Cyber Security, People’s Public Security University of China, Beijing 102600, China

2. Key Laboratory of Security Technology and Risk Assessment, Ministry of Public Security, Beijing 102600, China

通讯作者: 卢树华,男,副教授. orcid.org/0000-0000-0000-0000. E-mail: lushuhua@ppsuc.edu.cn

收稿日期: 2024-08-22  

基金资助: 中国人民公安大学安全防范工程双一流创新研究专项项目(2023SYL08);2024年基科费−跨模态数据融合及智能讯问技术研究资助项目(2024JKF10).

Received: 2024-08-22  

Fund supported: 中国人民公安大学安全防范工程双一流创新研究专项项目(2023SYL08);2024年基科费−跨模态数据融合及智能讯问技术研究资助项目(2024JKF10).

作者简介 About authors

林宜山(1999—),男,硕士生,从事多模态情感分析的研究.orcid.org/0000-0000-0000-0000.E-mail:375568222@qq.com , E-mail:375568222@qq.com

摘要

针对多模态情感分析中单模态特征质量较差及多模态特征交互不够充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法. 通过基于多头自注意力机制的模态内特征交互模块,实现单模态内的特征交互,提高单模态特征的质量. 通过MLP-Interactor机制实现多模态特征之间的充分交互,学习不同模态之间的一致性信息. 利用提出方法,在CMU-MOSI和CMU-MOSEI 2个公开数据集上进行大量的实验验证与测试. 结果表明,提出方法超越了当前诸多的先进方法,可以有效地提升多模态情感分析的准确性.

关键词: 多模态情感分析 ; MLP-Interactor ; 多头自注意力机制 ; 特征交互

Abstract

A multimodal sentiment analysis method based on multi-head self-attention mechanism and MLP-Interactor was proposed in order to solve the problems of poor quality of unimodal features and insufficient interaction of multimodal features in multimodal sentiment analysis. The intra-modal feature interaction was realized and the quality of single-modal features was improved through the intramodal feature interaction module based on the multi-head self-attention mechanism. The MLP-Interactor mechanism was used to realize the full interaction between multimodal features and learn the consistency information between different modalities. A large number of experiments were verified and tested on two public datasets, CMU-MOSI and CMU-MOSEI by using the proposed method. Results show that the proposed method surpasses many advanced methods and can effectively improve the accuracy of multimodal sentiment analysis.

Keywords: multimodal sentiment analysis ; MLP-Interactor ; multi-head self-attention mechanism ; feature interaction

PDF (1431KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

林宜山, 左景, 卢树华. 基于多头自注意力机制与MLP-Interactor的多模态情感分析. 浙江大学学报(工学版)[J], 2025, 59(8): 1653-1661 doi:10.3785/j.issn.1008-973X.2025.08.012

LIN Yishan, ZUO Jing, LU Shuhua. Multimodal sentiment analysis based on multi-head self-attention mechanism and MLP-Interactor. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1653-1661 doi:10.3785/j.issn.1008-973X.2025.08.012

随着社交网络的迅猛发展,人们越来越乐于在快手、抖音、小红书等平台上发布表达个人观点的短视频,这些包含多模态信息的视频数据为多模态情感分析研究提供了良好的数据基础[1]. 多模态情感分析主要是利用文本、音频和视频等多模态数据,判断人们的情感倾向是积极、中性还是消极,在人机交互、商品推荐系统与市场预测等诸多领域得到广泛的应用[2].

如何实现多模态特征有效融合及提高单模态特征质量是多模态情感分析领域的主要挑战[3-5]. 根据文本、音频和视频3种模态在融合过程中所占的比重,可以将融合方法划分为以下2类. 第1类方法采用三元对称方式在融合过程中等比例分配3种模态所占的比重,如MMIM[6]、MISA[7]、BAFN[8]等. 上述方法在多模态情感分析任务中均取得良好的效果,然而不同模态情感信息的分布不均衡,与音频、视频模态相比,文本模态含有更丰富的情感信息. 在多模态情感分析任务中,若不考虑不同模态的相对重要性,则会影响多模态情感分析任务的准确性. 第2类方法通过增大文本模态的比重,突出文本模态在多模态情感分析任务中的相对重要性,如TCSP[9]、AOBERT[10]、BBFN[11]等.

为了解决多模态情感分析中单模态特征质量较差及不同模态之间融合不充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法. 通过提高单模态特征质量及实现多模态特征之间的充分交互,提高多模态情感分析的准确性.

1. 相关工作

1.1. 多模态情感分析

多模态情感分析是自然语言处理中的一项重要任务,通过从文本、音频和视频3种模态中提取情感信息,判断人的情感极性. 多模态情感分析主要分为特征提取、特征融合、情感预测3个阶段. 其中,多模态特征融合是多模态情感分析任务的关键. 当前,多模态特征融合方法主要包括早期融合方法、晚期融合方法、基于Transformer的融合方法、基于多任务学习的融合方法等[12].

早期融合方法是指将从文本、音频和视频模态提取的特征融合为1个多模态特征,将多模态特征输入到分类模型中进行情感极性预测,如Tri-Modal HMM[13]、MARN[14]、MKL[15]等. 早期融合能够更快地实现文本、音频和视频模态特征的融合,从而更快地进行多模态情感预测,但是早期融合直接将3种模态特征融合为多模态特征,忽略不同模态特征之间的巨大差异,可能会增强多模态特征的信息冗余度,影响多模态情感分析的准确性. 晚期融合的关键在于对文本、音频及视频模态特征分别进行独立分类器训练,将3个分类结果融合为1个决策向量,进行多模态情感预测,如Ref[16]、Multi-CNN[17]、LF-LSTM[18]等. 晚期融合使得每个模态都能选用最优的分类器,从而更有效地对单模态特征进行处理和分类,但是在训练过程中无法使不同模态之间进行有效交互,影响情感预测的效果.

Transformer[19]作为当前广泛采用的深度学习模型架构,在诸多任务中都取得了优异表现,被广泛应用于计算机视觉、自然语言处理、语音处理等领域. 近年来,很多研究者采用Transformer进行多模态情感分析任务,如MulT[20]、TCDN[21]、TFR-Net[22]、MCMulT[23]等. 上述方法采用Transformer架构能够有效地实现文本、音频和视频模态特征之间的交互,学习不同模态特征之间的一致性信息,但是该类方法没有考虑单模态特征自身的特性对多模态情感分析的影响. 多模态表征学习的主要目标是学习不同模态特征之间的一致性信息及每个模态各自特征的差异性,有助于提高多模态情感分析的准确性[5]. Yu等[24-25]提出基于多任务学习的多模态情感分析方法,如Self-MM[24]、TETFN[25]. 利用上述方法,既学习了不同模态之间的一致性信息,又学习了每个模态自身的差异性信息,从而提高了多模态表征的质量.

1.2. 多层感知器

近期,研究者们开始尝试使用多层感知器(multilayer perceptron,MLP)以替代注意力机制,开展图像分类的任务. Melas-Kyriazi[26]提出使用MLP来取代注意力机制,进行图像分类. Tolstikhin等[27]提出MLP-mixer框架,通过实验发现,在图像分类任务中,基于MLP的模型性能不低于传统的基于注意力机制和卷积神经网络架构的模型性能. Touvron等[28]提出ResMLP的图像分类方法. 该方法包含2个MLP模块,一个负责处理Channel,另一个负责处理Token. 此后,Nie等[29]将MLP引入多模态特征融合领域,Lin等[30]设计基于MLP的PS-Mixer框架,用于多模态情感分析. Sun等[31]提出基于MLP的CubeMLP多模态情感分析架构,CubeMLP由3个独立的MLP模块构成,具备在序列、模态和通道3个轴线上融合特征的能力,使得模型能够有效地传输和共享不同模态的信息,从而精准地提取含有情感信息的特征. Bairavel等[32]提出运用对抗草蜂优化算法来进行特征提取的基于多层感知器的多模态情感分析方法,该方法能够从文本、音频和视频3种模态中提取质量更优的特征.

2. 方法简介

多模态数据包括文本t、音频a和视频v 3种模态数据,其模态特征可以表示为$ {{\boldsymbol{S}}_t} \in {{\bf{R}}^{{N_t} \times {d_t}}} $$ {{\boldsymbol{S}}_a} \in {{\bf{R}}^{{N_a} \times {d_a}}} $$ {{\boldsymbol{S}}_v} \in {{\bf{R}}^{{N_v} \times {d_v}}} $. 提出模型的整体结构如图1所示. 该模型分为特征提取、模态内特征交互、模态间特征交互、 多模态特征融合及情感检测5个部分.

图 1

图 1   所提多模态情感分析模型的整体结构

Fig.1   Overall structure of proposed multimodal sentiment analysis model


2.1. 特征提取

1)文本特征提取:使用SentiLARE[33]预训练语言模型来提取文本特征. SentiLARE是在RoBERTa[34]的基础上融入情感极性和词性标签的预训练语言模型,能够提取含有更丰富情感信息的文本特征.

2)音频特征提取:使用COVAREP[35]来提取音频特征. 在CMU-MOSI[36]和CMU-MOSEI[37]数据集上所提取的音频特征维度都为74.

3)视频特征提取. 在CMU-MOSI数据集上,使用Py-Feat[38]来提取视频特征,视频特征维度为27. 在CMU-MOSEI数据集上,使用Feat来提取视频特征,视频特征维度为35.

2.2. 模态内特征交互机制

使用BiLSTM来捕获文本、音频、视频特征的上下文的语义信息,将3种模态特征投影到同一特征空间.

$ {{\boldsymbol{U}}_{{m}}} = {{\mathrm{Linear}}}\,\, ({{\mathrm{BiLSTM}}}\,\, ({{\boldsymbol{S}}_{{m}}},\delta ));\;m \in \{ t,a,v\} . $

式中: $ {{\boldsymbol{S}}_m} \in {{{\bf{R}}}^{{N_m} \times {d_m}}} $为原始的特征向量,$ {{\boldsymbol{U}}_{{m}}} \in {{{\bf{R}}}^{{N_m} \times d}} $为原始特征向量$ {\boldsymbol{S}}_{m} $经过BiLSTM所生成的特征向量,$ \delta $为可学习参数.

在多头自注意力机制(multi-head Attention)[39]中,Q(Query)、 K(Key)与V(Value)作为输入,使用激活函数Tanh对输入特征进行编码. 通过计算Q和所有K的点积,除以$ \sqrt{{d}_{K}} $,采用Softmax函数计算相应的权重,与V相乘得到最终输出,如下所示.

$ {{\boldsymbol{Q}}^{\boldsymbol{'}}} = {\boldsymbol{Q}}+{{\mathrm{Tanh}}}\,\, ({\boldsymbol{Q}}). $

$ {{\boldsymbol{K}}^{\boldsymbol{'}}} = {\boldsymbol{K}}+{{\mathrm{Tanh}}}\,\, ({\boldsymbol{K}}). $

$ {{\boldsymbol{V}}^{\boldsymbol{'}}} = {\boldsymbol{V}}+{{\mathrm{Tanh}}}\,\, ({\boldsymbol{V}}). $

$\begin{split} & {{\mathrm{MultiHeadAttention}}} ({{\boldsymbol{Q}}^{'}},{{\boldsymbol{K}}^{'}},{{\boldsymbol{V}}^{'}}) = \\& \qquad \qquad {{\mathrm{Concat}}} ({\mathrm{hea}}{{\mathrm{d}}_1},{\mathrm{hea}}{{\mathrm{d}}_2},\cdots,{\mathrm{hea}}{{\mathrm{d}}_n}). \end{split} $

$ {{{\mathrm{head}}} _n} = {{\mathrm{Attention}}} ({{\boldsymbol{Q}}^{'}},{{\boldsymbol{K}}^{'}},{{\boldsymbol{V}}^{'}}) = {{\mathrm{Softmax}}} \left(\frac{{{{\boldsymbol{Q}}^{'}}{{\boldsymbol{K}}^{'}}^{{\mathrm{T}}} }}{{\sqrt {{d_k}} }}\right){{\boldsymbol{V}}^{'}}.$

图2所示,通过设计基于多头自注意力机制的模态内特征交互机制,实现单模态与自身的特征交互,捕获单模态与自身的复杂关系,学习单模态自身的特性,提高单模态特征的质量. 具体的工作原理如下所示.

图 2

图 2   多头注意力机制

Fig.2   Multi-head Attention mechanism


$ {\boldsymbol{U}}_{{m}}^{{'}} = {{\boldsymbol{U}}_{{m}}}+{{\mathrm{Tanh}}}\; ({{\boldsymbol{U}}_{{m}}});\,\,m \in \{ t,a,v\} . $

$\begin{split} {\dot{{\boldsymbol{U}}}}_{m}^{\alpha }=\,\,&\mathrm{MultiheadAttention}\;({{\boldsymbol{U}}}_{m}^{{'}},{{\boldsymbol{U}}}_{m}^{{'}},{{\boldsymbol{U}}}_{m}^{{'}})=\\&\mathrm{Concat}\,\,({\mathrm{hea}}{{\mathrm{d}}}_{1},{\mathrm{hea}}{{\mathrm{d}}}_{2},\cdots,{\mathrm{hea}}{{\mathrm{d}}}_{i});\\ &\alpha \in \{1,2\}\text{,}m\in \{t,a,v\}.\end{split}$

$\begin{split} {\mathrm{hea}}{{\mathrm{d}}_n} = & {{\mathrm{Attention}}}\,\, ({\boldsymbol{U}}_m^{'},{\boldsymbol{U}}_m^{'},{\boldsymbol{U}}_m^{'})= \\ &{{\mathrm{Softmax}}} \left(\frac{{{\boldsymbol{U}}_m^{'}{{\boldsymbol{W}}_m}{\boldsymbol{W}}_m^{{\mathrm{T}}} {\boldsymbol{U}}{{_m^{'}}^{{\mathrm{T}}} }}}{{\sqrt {{d_k}} }}\right){\boldsymbol{U}}_{{m}}^{\boldsymbol{'}}{{\boldsymbol{W}}_m}. \end{split}$

$ {{\boldsymbol{H}}_{{m}}} = {\boldsymbol{\dot U}}_{{m}}^1+{\boldsymbol{\dot U}}_{{m}}^2;m \in \{ t,a,v\} . $

式中: $ {\boldsymbol{U}}_{m} \in {{\bf{R}}^{{N_m} \times d}} $为原始输入向量,$ {\boldsymbol{U}}_m^{'} $$ {\boldsymbol{\dot U}}_{{m}}^1 $$ {\boldsymbol{\dot U}}_{{m}}^2 $为中间向量,$ {{{{\boldsymbol{W}}}}_m} \in {{\bf{R}}^{d \times d}} $为权重矩阵,$ {\boldsymbol{H}}_{m} \in {{\bf{R}}^{{N_m} \times d}} $为输出向量,$ {\boldsymbol{U}}_m^{'}{\boldsymbol{U}}{_m{'}^{\mathrm{T}}} $为模态内的特征交互矩阵.

2.3. 模态间的特征交互、模态融合与情感极性预测

图3所示,通过设计MLP-Interactor机制来实现不同模态特征间的交互,促进不同模态间的情感信息交流,学习文本、音频和视频模态的一致性信息. MLP-Interactor由多个MLP-Interactor Layer堆叠而成,每个MLP-Interactor Layer由Modality-Mixer 和Channel-Mixer组成. Modality-Mixer 用于处理输入特征的模态维度,使得不同的模态能够彼此交互. 利用Channel-Mixer模块,实现不同特征通道之间的交互. 假设输入的特征$ {\boldsymbol{X}} \in {{\bf{R}}^{M \times D}} $,其中M为模态的数量,D为特征通道数. MLP由2个全连接层和1个非线性激活函数ReLU组成,Modality-Mixer和Channel-Mixer由2个MLP组成,可以表示如下.

图 3

图 3   MLP-Interactor

Fig.3   MLP-Interactor


$ {\boldsymbol{X}} = {{\mathrm{Stack}}} \,\,({{\boldsymbol{H}}_{{t}}},{{\boldsymbol{H}}_{{m}}});m \in \{ a,v\} . $

$ {\boldsymbol{S}} = {{\mathrm{BN}}}\,\, ({{\boldsymbol{w}}_2}\partial ({{\boldsymbol{w}}_1}{\boldsymbol{X}}+{{\boldsymbol{b}}_1})+{{\boldsymbol{b}}_2}). $

$ {\boldsymbol{Z}} = {{\mathrm{BN}}}\,\, ({{\boldsymbol{w}}_4}\partial ({{\boldsymbol{w}}_3}{\boldsymbol{S}}+{{\boldsymbol{b}}_3})+{{\boldsymbol{b}}_4}). $

式中:${\boldsymbol{X}} \in {{\bf{R}}^{N_{\rm{f}}\times M \times d}}$为输入特征,其中Nf为特征长度,d为特征维度;Stack为拼接函数;BN为BatchNorm; $ \partial $为ReLU激活函数. 输入特征X经过第1个MLP模块,得到输出特征S ;特征S作为输入经过第2个MLP模块,得到输出特征Z. MLP-Interactor Layer的工作原理表示如下.

$ {\boldsymbol{R}}_{{{i,j}}}^1 = {{\boldsymbol{X}}_{{{i,j}}}}+{{\mathrm{Channel}}}\text{-}{\mathrm{Mixer}}\;({{\boldsymbol{X}}_{{{i,j}}}}). $

$ {\boldsymbol{R}}_{{{i,j}}}^2 = {{\boldsymbol{X}}_{{{i,j}}}}+{{\mathrm{Channel}}}\text{-} {\mathrm{Mixer}}\;({{\boldsymbol{X}}_{{{i,j}}}}). $

$ {\boldsymbol{U}}_{{{j,i}}}^1 = {\boldsymbol{R}}_{{{j,i}}}^1+{{\mathrm{Modality}}}\text{-} {\mathrm{Mixer}}\;({\boldsymbol{R}}_{{{j,i}}}^1). $

$ {\boldsymbol{U}}_{{{j,i}}}^2 = {\boldsymbol{R}}_{{{j,i}}}^2+{{\mathrm{Modality}}} \text{-} {\mathrm{Mixer}}\;({\boldsymbol{R}}_{{{j,i}}}^2). $

$ {{\boldsymbol{U}}_{{{i,j}}}} = {\boldsymbol{U}}_{{{i,j}}}^1 \times {\boldsymbol{U}}_{{{i,j}}}^2+{\boldsymbol{U}}_{{{i,j}}}^2. $

式中: $ i \in [1,M] $$ j \in [1,d] $. 特征$ {{\boldsymbol{X}}_{{{i,j}}}} $分别通过Channel-Mixer产生中间特征向量,通过残差连接得到$ {\boldsymbol{R}}_{{{i,j}}}^1 $$ {\boldsymbol{R}}_{{{i,j}}}^2 $,通过这种方式实现不同模态的特征通道交互. $ {\boldsymbol{R}}_{{{i,j}}}^1 $$ {\boldsymbol{R}}_{{{i,j}}}^2 $交换特征通道维度和模态维度得到$ {\boldsymbol{R}}_{{{j,i}}}^1 $$ {\boldsymbol{R}}_{{{j,i}}}^2 $,通过Modality-Mixer产生中间特征向量,再经过残差连接分别得到$ {\boldsymbol{U}}_{{{j,i}}}^1 $$ {\boldsymbol{U}}_{{{j,i}}}^2 $. $ {\boldsymbol{U}}_{{{j,i}}}^1 $$ {\boldsymbol{U}}_{{{j,i}}}^2 $分别交换特征通道维度和模态维度,通过式(18)得到输出向量$ {{\boldsymbol{U}}_{{{i,j}}}} $.

文本-视频模态、文本-音频模态分别通过MLP-Interactor模块来实现模态间的两两交互,形成融合向量PVSV. 具体过程如下:

$ {\bf{PV}} = {{\mathrm{MLP}}} \text{-} {\mathrm{Interactor}}\,\,({{\mathrm{Stack}}} \,\,({{\boldsymbol{H}}_t},{{\boldsymbol{H}}_v})), $

$ {\bf{SV}} = {{\mathrm{MLP}}} \text{-} {\mathrm{Interactor}}\,\,({{\mathrm{Stack}}} \,\,({{\boldsymbol{H}}_t},{{\boldsymbol{H}}_a})). $

通过中间向量PVSV来形成最终的融合向量,通过多层感知器形成最终预测. 具体过程如下.

$ {\boldsymbol{M}} = {{\mathrm{Softmax}}}\,\, ({\bf{SV}}+{\bf{PV}}). $

$ {\boldsymbol{F}} = {\boldsymbol{M}} \times ({\bf{SV}}+{\bf{PV}})+{{\mathrm{Stack}}} \,\,({{\boldsymbol{H}}_t},{{\boldsymbol{H}}_{t} }). $

$ \hat{\boldsymbol{ Y }}= {{\mathrm{MLP}}}\,\, ({\boldsymbol{F}}). $

式中: $\hat{\boldsymbol{ Y}}$为最终的预测结果,${{\boldsymbol{H}}_t}$为文本模态特征,$ {\boldsymbol{M}} $$ {\boldsymbol{F}} $为中间向量.

2.4. 损失函数

整个模型在学习过程中不断缩小损失函数,当损失函数达到最小时,模型达到最优. 损失函数表示如下:

$ {L_{{\mathrm{All}}}} = {\alpha _1}{L_{{\mathrm{Task}}}}+{\alpha _2}{L_{{\mathrm{S}}} }+{\alpha _3}{L_{\mathrm{P}}}. $

式中:LTask为任务损失,LS为强度损失,$ {L_{\mathrm{P}}} $为极性损失,$ {\alpha _1} $$ {\alpha _2} $$ {\alpha _3} $为权重.

特定任务损失用于在训练期间估计情感预测的准确性. 使用均方差(MSE)损失函数,计算预测值和真实标签的差距.

$ {L_{{\mathrm{Task}}}} = \frac{1}{N_{\rm{s}}}\sum\limits_{i = 0}^{N_{\rm{s}}} { |{{Y_i} - {{\hat Y}_i}}| } . $

式中:Ns为样本总数,$ {Y_i} $为真实标签值,$ {\hat Y_i} $为预测值.

采用相关系数距离函数(correlation coefficient distance),计算强度损失.

$ {{D} _{{\mathrm{corr}}}}\,\,(X,Y) = 1 - \frac{{{{\mathrm{Cov}}} \,\,(X,Y)}}{{\sqrt {{{\mathrm{Var}}} \;(X){\rm{Var}}\;(Y)} }}. $

$ {L_{{\mathrm{S}}} } = {{D} _{{\mathrm{Corr}}}}\,\,(\left| Y \right|,\left| {\hat Y} \right|). $

式中:Cov为协方差函数,Var为方差函数,$ Y $为真实标签值,$ \hat Y $为预测值.

采用余弦相似度函数CS(cosine similarity),计算极性损失.

$\begin{split} {L_{\mathrm{P}}} = & 1 - {\beta _1}{{\mathrm{CS}}} ({Y^+},{{\hat Y}^+}) - {\beta _2}{{\mathrm{CS}}} ({Y^ - },{{\hat Y}^ - }). \end{split} $

式中: $ {\beta _1} $$ {\beta _2} $为权重,+和−表示正值和负值.

3. 实验分析

在2个公开数据集CMU-MOSI和CMU-MOSEI上进行实验,以评估所提模型的性能. 1) CMU-MOSI数据集在多模态情感分析领域中应用广泛,它是含有文本、音频、视频3种模态的数据集. 该数据集由93个Youtube视频组成,将上述视频划分为2 199个小片段,并将每个片段都用[−3, 3]的情感分数进行标注. 2) CMU-MOSEI数据集具有比CMU-MOSI数据集更丰富的数据量,将5 000个视频划分为23 453个片段,用[−3, 3]的情感分数对前述片段进行标注.

3.1. 基准模型

为了验证所提模型的有效性,将其与以下基准模型进行对比.

TFN[40]:张量融合网络. 使用三重笛卡尔积,模拟单模态、双模态、三模态之间的相互作用.

LMF[41]. 将高阶张量分解为低秩因子进行多模态融合,降低计算量.

BBFN[11]. 因为不同模态的情感信息分布不均衡,采用文本-音频、文本-视频模态对作为输入,实现模态之间情感信息的互补,避免多模态融合出现信息的冗余.

PS-Mixer[30]是基于MLP的模型. 通过设计情感极性向量来预测情感的极性,通过强度向量来判断情感强度.

CubeMLP[31]由3个独立的MLP模块组成,将所有模态特征作为输入,在序列、模态、通道3个轴线上进行特征融合.

MFN[42]是记忆融合网络. 该网络由特殊的注意力机制(delta-memory attention network)、多视图门控记忆模块(multi-view gated memory)和长短期记忆递归神经网络组成.

MulT[20]采用双向跨模态注意力机制,实现不同时间步模态序列之间的交互.

Self-MM[24]. 提出基于Transformer的单模态特征融合架构,提出基于自监督策略的单模态标签生成模块来生成单模态情感标签.

MISA[7]. 将模态投影到2个不同子空间. 一个子空间用于学习模态之间的共性,减小模态之间的差距;另一个子空间学习每个模态各自的特征.

MAG-Bert[43]. 使用BERT和XLNet,获取视频和音频特征.

MTSA[44]. 通过将视频与音频模态翻译为文本模态,开展情感预测任务.

AOBERT[10]. 设计Single-Stream Transformer方法,解决传统模态融合过程中模态特性难以保持的问题. 通过多模态掩码建模(multimodal masked language modeling,MMLM)和对齐预测(alignment prediction,AP)2个预训练任务,学习不同模态之间的依赖关系.

TETFN[25]. 提出文本增强的Transformer融合网络,在多模态融合过程中增大文本模态的权重,减少冗余信息,提高多模态情感分析的准确性.

TMRN[45]. 提出面向文本的多模态融合网络,该网络以文本模态为主,通过加强与音频和视频模态的交互,获取质量更高的模态表征.

MTAMW[46]. 设计新的多模态自适应权重矩阵,根据每个模态在情感分析中的贡献为每个模态分配合适的权重,使得情感分析的结果更准确.

MIBSA[47]. 将文本、音频与视频3种模态分别投影到模态不变子空间与模态特定子空间中. 在模态不变子空间中学习不同模态之间的一致性信息,在模态特定子空间中学习单模态的独特信息,并运用信息瓶颈原理来控制信息流.

FRDIN[48]. 在多模态特征交互阶段,运用动态路由技术,实现模态内特征交互,学习单模态的内在信息. 通过不同模态间的交互,学习多模态的一致性信息.

CRNet[49]. 将不同模态特征投射到模态不变子空间和模态特定子空间中,通过基于梯度的特征增强机制来提高2个子空间中特征的质量,从而更精确地学习不同模态的一致性信息与单模态自身的差异性信息,提高多模态情感分析的准确性.

3.2. 实验设置和评价指标

所提方法运行的操作系统为Ubuntu16.04LTS,处理器型号为Intel® core™i7-8700,显卡为NVIDIA GeForce RTX2080Ti,实验参数如表1所示. 表中,rL为学习率,S为批次大小,Lmax为最大序列长度,N为MLP-Interactor层数.

表 1   多头自注意力机制与MLP-Interactor 的多模态情感分析实验参数的设置

Tab.1  Experimental parameter setting of mutimodal sentiment analysis based on multi-head self-attention mechanism and MLP-Interactor

数据集rLSLmaxN
CMU-MOSI3.146×10−532503
CMU-MOSEI7.600×10−632503

新窗口打开| 下载CSV


在实验中,采用5种评价指标,评估所提模型的效果. 平均绝对误差(MAE)用于计算情感预测值和真实值之间的误差,MAE越小表示模型效果越好. 七分类准确率A7为预测值与相应的真实值落在相同的[−3,+3] 7个区间的比值. 二分类准确率A2有以下2种计算方式. 一种是A2(non-negative/negative)[40],该指标在计算情感预测值时将标签值为零的中性情感数据归入非消极分类中. 另一种是A2(positive/negative)[20],该指标在计算情感预测值时排除了标签值为零的中性情感数据. 皮尔逊相关系数(corr)用于衡量预测值和真实标签之间的相关性,F1分数(F1-score)用来衡量模型的精确度.

3.3. 结果与分析

3.3.1. 与基准模型的对比

1)在CMU-MOSI数据集上的对比结果如表2所示. 对于A2F1而言,‘/’左边采用negative/non-negative的方法,‘/’右边采用negative/positive的方法.

表 2   在CMU-MOSI数据集上和其他基准模型性能的对比结果

Tab.2  Comparison of performance on CMU-MOSI dataset with other benchmark models

模型MAEcorrA2A7F1
TFN[40](2017)0.9010.698— / 80.834.9—/ 80.7
LMF[41](2018)0.9170.695— / 82.533.2—/ 82.4
MFN[42](2018)0.9650.63277.4 / —34.177.3 / —
MulT[20](2019)0.8710.698— / 83.040.0— / 82.8
BBFN[11](2021)0.7760.755—/84.345.0—/84.3
Self-MM[24](2021)0.7130.79884.0/85.9884.42/85.95
MISA[7](2020)0.7830.76181.8/83.442.381.7/83.6
MAG-BERT[43](2020)0.7310.79882.5/84.382.6/84.3
CubeMLP[31](2022)0.7700.767—/ 85.645.5—/85.5
PS-Mixer[30](2023)0.7940.74880.3/82.144.3180.3/82.1
MTSA[44](2022)0.6960.806—/86.846.4—/86.8
AOBERT[10](2023)0.8560.70085.2/85.640.285.4/86.4
TETFN[25](2023)
TMRN[45](2023)
0.717
0.704
0.800
0.784
84.05/86.10
83.67/85.67

48.68
83.83/86.07
83.45/85.52
MTAMW[46](2024)0.7120.79484.40/86.5946.8484.20/86.46
MIBSA[47](2024)0.7280.798—/87.0043.10—/87.20
FRDIN[48](2024)0.6820.81385.8/87.446.5985.3/87.5
CRNet[49](2024)0.7120.797—/86.447.40—/86.4
本文模型0.5750.86887.6/89.652.2387.7/89.6

新窗口打开| 下载CSV


与基于张量的多模态情感分析方法TFN、LMF、MFN相比,所提方法在所有评价指标上均取得更优的结果. 与基于MLP的多模态情感分析方法CubeMLP、PS-Mixer相比,所提方法在各个评价指标上均得到有效的提高,尤其是在MAE指标上提升的效果最明显. 原因可能是利用基于多头注意力机制的模态内特征交互模块能够提高单模态特征质量,利用SentiLARE预训练语言模型能够提取含有更丰富情感信息的文本特征,有效提高多模态情感分析的准确性. 与基于Transformer的方法AOBERT、MTSA、TETFN、MAG-BERT、BBFN等相比,所提方法在所有评价指标上均取得了最优的结果. 原因可能是利用模态内特征交互机制能够有效地提高单模态特征的质量,采用MLP-Interactor机制能够更有效地实现不同模态之间的充分融合,利用SentiLARE预训练语言模型能够提取含有更丰富情感信息的文本特征. 与现有的先进模型MTAMW、MIBSA、FRDIN、CRNet等相比,所提方法在所有评价指标上取得最优的效果.

2)在CMU-MOSEI数据集上的对比结果如表3所示. 与基于张量的多模态情感分析方法TFN、LMF、MFN相比,所提方法在所有评价指标上均取得更良好的效果. 原因可能是所提模型采用基于多头自注意力机制的模态内特征交互模块,能够提高单模态特征的质量,以及采用MLP-Interactor机制能够更好地实现不同模态之间的交互,使得所提模型的表现更优异. 与基于MLP的方法(如PS-Mixer)相比,所提方法在所有的评价指标上都取得了最优的效果,尤其是在MAE和A7 2个指标上效果提升最明显. 这可能是因为所提方法采用基于多头自注意力机制的模态内特征交互机制,提高了单模态特征的质量和模型的性能. 与CubeMLP相比,所提方法在除了A7之外的所有评价指标上都取得了最优的效果. 原因可能是七分类任务中情感分类的类别更细致, 与CMU-MOSI数据集相比,CMU-MOSEI数据集有更丰富的数据量,冗余信息更多,影响了所提模型在七分类任务中的表现. 与基于Transformer的多模态情感分析方法MTSA、TFTN、MAG-BERT、BBFN等相比,所提方法在所有的评价指标上都取得了更好的效果;与AOBERT相比,所提方法在除了A2(negative/non-negative)、F1(negative/non-negative)外的所有评价指标上均取得了最优的结果. 原因可能是与CMU-MOSI数据集相比,CMU-MOSEI的数据量更大,冗余信息更多,所提模型对中性情感数据的识别能力较弱,导致在这项指标上的表现较差. 与现有的先进模型MTAMW、MIBSA、FRDIN、CRNet等相比,所提方法在所有评价指标上均取得了最优的效果.

表 3   在CMU-MOSEI数据集上和其他基准模型性能的对比结果

Tab.3  Comparison of performance on CMU-MOSEI dataset with other benchmark models

模型MAEcorrA2A7F1
TFN[40](2017)0.5930.700—/82.550.2—/82.1
LMF[41](2018)0.6230.677—/82.048.0—/82.1
MulT[20](2019)0.5800.703—/82.551.8—/82.3
BBFN[11](2021)0.5290.767—/86.254.8—/86.1
Self-MM[24](2021)0.5300.76582.81/85.1782.53/85.30
MISA[7](2020)0.5550.75683.6/85.552.283.8/85.3
MAG-BERT[43](2020)0.5430.75582.51/84.8282.77/84.71
CubeMLP[31](2022)0.5290.760—/85.154.9—/84.5
PS-Mixer[30](2023)0.5370.76583.1/86.153.083.1/86.1
MTSA[44](2022)0.5410.774—/85.552.9—/85.3
AOBERT[10](2023)0.5150.76384.9/86.254.585.0/85.9
TETFN[25](2023)
TMRN[45](2023)
0.551
0.535
0.748
0.762
84.25/85.18
83.39/86.19

53.65
84.18/85.27
83.67/86.08
MTAMW[46](2024)0.5250.78283.09/86.4953.7383.48/86.45
MIBSA[47](2024)0.5680.753—/86.7052.40—/85.80
FRDIN[48](2024)0.5250.77883.30/86.3054.4083.70/86.20
CRNet[49](2024)0.5410.771—/86.2053.80—/86.10
本文模型0.5120.79483.0/86.854.582.5/86.8

新窗口打开| 下载CSV


3.3.2. 消融实验

为了探究每个模块对模型的贡献,在CMU-MOSI数据集上进行消融实验,实验结果如表4所示. 在多模态情感分析中,与音频、视频模态相比,文本模态具有更高的贡献度. 当前大多数研究主要使用BERT预训练语言模型来提取文本特征. 为了提取含有更丰富情感信息的文本特征,引入其他预训练语言模型. 通过实验发现,SentiLARE预训练语言模型的效果更优异,当用BERT、DeBERT、RoBERTa、DistilBERT、ALBERT预训练模型来替换SentiLARE预训练模型时,大部分评价指标都出现明显的下降,这表明与BERT、DeBERT、RoBERTa、DistilBERT、ALBERT预训练语言模型相比,利用SentiLARE预训练语言模型能够提取更高质量的文本特征. 当移除模态内特征交互机制(intra-modality interaction)时,MAE上升,corr、A7A2F1均下降,表明利用所提的模态内特征交互机制,能够有效地提高单模态特征的质量和后续多模态情感分析的准确性. 当删去MLP-Interactor机制时,所有指标均下降,这表明MLP-Interactor机制能够增强不同模态之间的交互,学习不同模态之间的一致性信息,提高多模态情感分析的准确性.

表 4   在CMU-MOSI数据集上的消融实验结果

Tab.4  Result of ablation experiment on CMU-MOSI dataset

方法MAEcorrA2A7F1
BERT0.7990.74680.80/82.8740.7780.91/82.90
DeBERTa1.1540.48666.96/68.0628.8666.93/67.93
RoBERTa0.6640.82483.63/85.6545.5383.65/85.64
DistilBERT0.7540.76881.40/83.5440.4881.48/83.55
ALBERT0.9280.67076.93/79.0034.6777.10/79.08
w/o Intra-Modality
Interaction
0.6130.85186.90/89.1047.9286.90/89.10
w/o MLP-Interactor0.5900.86885.57/87.5450.0085.66/87.59
w/o audio0.6350.85386.46/88.1644.7986.48/88.15
w/o video0.5830.86187.35/89.4249.5587.45/89.47
w/o text1.4600.05245.95/47.4714.5850.86/52.50
本文模型0.5750.86887.60/89.6052.2387.70/89.60

新窗口打开| 下载CSV


在分别移除文本、音频与视频模态后,所有的评价指标均有不同程度的下降,说明3种模态都有助于提高情感分析的准确性. 相较于移除音频与视频模态而言,移除文本模态之后,所有评价指标下降得更显著,这表明与音频和视频模态相比,文本模态对情感分析具有更高的贡献度.

在CMU-MOSI测试集中,使用T-SNE工具对所提方法的多模态特征进行可视化,如图4所示. 可以看出,利用所提方法,能够很好地区分消极特征与积极特征.

图 4

图 4   特征可视化

Fig.4   Feature visualization


4. 结 语

本文提出基于多头注意力机制和MLP-Interactor的多模态情感分析的模型. 引入预训练语言模型SentiLARE,提取文本特征. SentiLARE融合了情感极性和词性标签语言知识,能够提取含有更丰富情感信息的文本特征,有助于多模态特征的融合和情感极性的预测. 设计基于多头自注意力机制的模态内特征交互机制. 利用该机制,能够实现模态内的特征交互,有助于提高模态特征的质量. 设计MLP-Interactor模块来实现不同模态之间的特征交互和不同模态之间情感信息的交流,学习不同模态之间的一致性信息. 在CMU-MOSI和CMU-MOSEI 2个数据集上进行实验. 结果表明,所提方法在大部分评价指标上均取得了最优的效果,是性能良好的多模态情感分析模型. 本文未能充分考虑模态融合中随机模态的缺失,以及由于音频和视频模态存在数据稀疏性、信息密度相对较低以及特征提取复杂度较高等特性,其模态表征往往难以充分捕捉细粒度的情感语义信息,这种模态间的表征能力差异导致音频与视频模态对最终情感预测的贡献度显著低于具有更强语义表达能力的文本模态. 在未来的工作中,将针对该问题进行更深入的研究.

参考文献

ZHU L, ZHU Z, ZHANG C, et al

Multimodal sentiment analysis based on fusion methods: a survey

[J]. Information Fusion, 2023, 95: 306- 325

DOI:10.1016/j.inffus.2023.02.028      [本文引用: 1]

GANDHI A, ADHVARYU K, PORIA S, et al

Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions

[J]. Information Fusion, 2023, 91: 424- 444

DOI:10.1016/j.inffus.2022.09.025      [本文引用: 1]

CAO R, YE C, ZHOU H. Multimodal sentiment analysis with self-attention [C]// Proceedings of the Future Technologies Conference. [S. l. ]: Springer, 2021: 16-26.

[本文引用: 1]

BALTRUSAITIS T, AHUJA C, MORENCY L P

Multimodal machine learning: a survey and taxonomy

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41 (2): 423- 443

GUO W, WANG J, WANG S

Deep multimodal representation learning: a survey

[J]. IEEE Access, 2019, 7: 63373- 63394

DOI:10.1109/ACCESS.2019.2916887      [本文引用: 2]

HAN W, CHEN H, PORIA S. Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis [EB/OL]. (2021-09-16)[2025-05-28]. https://arxiv.org/pdf/2109.00412.

[本文引用: 1]

HAZARIKA D, ZIMMERMANN R, PORIA S. Misa: modality-invariant and specific representations for multimodal sentiment analysis [C]// Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1122-1131.

[本文引用: 4]

TANG J, LIU D, JIN X, et al

Bafn: bi-direction attention based fusion network for multimodal sentiment analysis

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 33 (4): 1966- 1978

[本文引用: 1]

WU Y, LIN Z, ZHAO Y, et al. A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis [C]// Findings of the Association for Computational Linguistics. [S. l.]: ACL, 2021: 4730-4738.

[本文引用: 1]

KIM K, PARK S

AOBERT: all-modalities-in-one BERT for multimodal sentiment analysis

[J]. Information Fusion, 2023, 92: 37- 45

DOI:10.1016/j.inffus.2022.11.022      [本文引用: 4]

HAN W, CHEN H, GELBUKH A, et al. Bi-bimodal modality fusion for correlation-controlled multimodal sentiment analysis [C]// Proceedings of the 2021 International Conference on Multimodal Interaction. Montréal: ACM, 2021: 6-15.

[本文引用: 4]

LI Z, GUO Q, PAN Y, et al

Multi-level correlation mining framework with self-supervised label generation for multimodal sentiment analysis

[J]. Information Fusion, 2023, 99: 101891

DOI:10.1016/j.inffus.2023.101891      [本文引用: 1]

MORENCY L P, MIHALCEA R, DOSHI P. Towards multimodal sentiment analysis: harvesting opinions from the web [C]// Proceedings of the 13th International Conference on Multimodal Interfaces. Alicante: ACM, 2011: 169-176.

[本文引用: 1]

ZADEH A, LIANG P P, PORIA S, et al. Multi-attention recurrent network for human communication comprehension [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans: AAAI Press, 2018: 5642-5649.

[本文引用: 1]

PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis [C]//IEEE 16th International Conference on Data Mining. Barcelona: IEEE, 2016: 439-448.

[本文引用: 1]

ALAM F, RICCARDI G. Predicting personality traits using multimodal information [C]// Proceedings of the 2014 ACM Multimedia on Workshop on Computational Personality Recognition. Orlando: ACM, 2014: 15-18.

[本文引用: 1]

CAI G, XIA B. Convolutional neural networks for multimedia sentiment analysis [C]// Natural Language Processing and Chinese Computing: 4th CCF Conference. Nanchang: Springer, 2015: 159-167.

[本文引用: 1]

GKOUMAS D, LI Q, LIOMA C, et al

What makes the difference? an empirical comparison of fusion strategies for multimodal language analysis

[J]. Information Fusion, 2021, 66: 184- 197

DOI:10.1016/j.inffus.2020.09.005      [本文引用: 1]

LIN T, WANG Y, LIU X, et al

A survey of transformers

[J]. AI Open, 2022, 3: 111- 132

DOI:10.1016/j.aiopen.2022.10.001      [本文引用: 1]

TSAI Y H H, BAI S, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 6558-6569.

[本文引用: 5]

CHEN C, HONG H, GUO J, et al

Inter-intra modal representation augmentation with trimodal collaborative disentanglement network for multimodal sentiment analysis

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023, 31: 1476- 1488

DOI:10.1109/TASLP.2023.3263801      [本文引用: 1]

YUAN Z, LI W, XU H, et al. Transformer-based feature reconstruction network for robust multimodal sentiment analysis [C]// Proceedings of the 29th ACM International Conference on Multimedia. Chengdu: ACM, 2021: 4400-4407.

[本文引用: 1]

MA L, YAO Y, LIANG T, et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos [EB/OL]. (2022-06-17)[2025-05-28]. https://arxiv.org/pdf/2206.07981.

[本文引用: 1]

YU W, XU H, YUAN Z, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2021: 10790-10797.

[本文引用: 5]

WANG D, GUO X, TIAN Y, et al

TETFN: a text enhanced transformer fusion network for multimodal sentiment analysis

[J]. Pattern Recognition, 2023, 136: 109259

DOI:10.1016/j.patcog.2022.109259      [本文引用: 5]

MELAS-KYRIAZI L. Do you even need attention? a stack of feed-forward layers does surprisingly well on imagenet [EB/OL]. (2021-05-06)[2025-05-28]. https://arxiv.org/pdf/2105.02723.

[本文引用: 1]

TOLSTIKHIN I O, HOULSBY N, KOLESNIKOV A, et al

Mlp-mixer: an all-mlp architecture for vision

[J]. Advances in Neural Information Processing Systems, 2021, 34: 24261- 24272

[本文引用: 1]

TOUVRON H, BOJANOWSKI P, CARON M, et al

Resmlp: feedforward networks for image classification with data-efficient training

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45 (4): 5314- 5321

[本文引用: 1]

NIE Y, LI L, GAN Z, et al. Mlp architectures for vision-and-language modeling: an empirical study [EB/OL]. (2021-12-08)[2025-05-28]. https://arxiv.org/pdf/2112.04453.

[本文引用: 1]

LIN H, ZHANG P, LING J, et al

PS-mixer: a polar-vector and strength-vector mixer model for multimodal sentiment analysis

[J]. Information Processing and Management, 2023, 60 (2): 103229

DOI:10.1016/j.ipm.2022.103229      [本文引用: 4]

SUN H, WANG H, LIU J, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation [C]// Proceedings of the 30th ACM International Conference on Multimedia. Lisboa: ACM, 2022: 3722-3729.

[本文引用: 4]

BAIRAVEL S, KRISHNAMURTHY M

Novel OGBEE-based feature selection and feature-level fusion with MLP neural network for social media multimodal sentiment analysis

[J]. Soft Computing, 2020, 24 (24): 18431- 18445

DOI:10.1007/s00500-020-05049-6      [本文引用: 1]

KE P, JI H, LIU S, et al. SentiLARE: sentiment-aware language representation learning with linguistic knowledge [EB/OL]. (2020-09-24)[2025-05-28]. https://arxiv.org/pdf/1911.02493.

[本文引用: 1]

LIU Y, OTT M, GOYAL N, et al. Roberta: a robustly optimized bert pretraining approach [EB/OL]. (2019-07-26)[2025-05-28]. https://arxiv.org/pdf/1907.11692.

[本文引用: 1]

DEGOTTEX G, KANE J, DRUGMAN T, et al. COVAREP: a collaborative voice analysis repository for speech technologies [C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Florence: IEEE, 2014: 960-964.

[本文引用: 1]

ZADEH A, ZELLERS R, PINCUS E, et al. Mosi: multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos [EB/OL]. (2016-08-11)[2025-05-28]. https://arxiv.org/pdf/1606.06259.

[本文引用: 1]

ZADEH A A B, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018: 2236-2246.

[本文引用: 1]

CHEONG J H, JOLLY E, XIE T, et al

Py-feat: Python facial expression analysis toolbox

[J]. Affective Science, 2023, 4 (4): 781- 796

DOI:10.1007/s42761-023-00191-4      [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. California: Curran Associates Inc , 2017: 5998-6008.

[本文引用: 1]

ZZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis [EB/OL]. (2017-07-23)[2025-05-28]. https://arxiv.org/pdf/1707.07250.

[本文引用: 4]

LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors [EB/OL]. (2018-05-31)[2025-05-28]. https://arxiv.org/pdf/1806.00064.

[本文引用: 3]

ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans: AAAI Press, 2018: 5634-5641.

[本文引用: 2]

RAHMAN W, HASAN M K, LEE S, et al. Integrating multimodal information in large pretrained Transformers [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S. l.]: ACL, 2020: 2359-2369.

[本文引用: 3]

YANG B, SHAO B, WU L, et al

Multimodal sentiment analysis with unidirectional modality translation

[J]. Neurocomputing, 2022, 467: 130- 137

DOI:10.1016/j.neucom.2021.09.041      [本文引用: 3]

LEI Y, YANG D, LI M, et al. Text-oriented modality reinforcement network for multimodal sentiment analysis from unaligned multimodal sequences [C]// CAAI International Conference on Artificial Intelligence. Singapore: Springer, 2023: 189-200.

[本文引用: 3]

WANG Y, HE J, WANG D, et al

Multimodal transformer with adaptive modality weighting for multimodal sentiment analysis

[J]. Neurocomputing, 2024, 572: 127181

DOI:10.1016/j.neucom.2023.127181      [本文引用: 3]

LIU W, CAO S, ZHANG S

Multimodal consistency-specificity fusion based on information bottleneck for sentiment analysis

[J]. Journal of King Saud University-Computer and Information Sciences, 2024, 36 (2): 101943

DOI:10.1016/j.jksuci.2024.101943      [本文引用: 3]

ZENG Y, LI Z, CHEN Z, et al

A feature-based restoration dynamic interaction network for multimodal sentiment analysis

[J]. Engineering Applications of Artificial Intelligence, 2024, 127: 107335

DOI:10.1016/j.engappai.2023.107335      [本文引用: 3]

SHI H, PU Y, ZHAO Z, et al

Co-space representation interaction network for multimodal sentiment analysis

[J]. Knowledge-Based Systems, 2024, 283: 111149

DOI:10.1016/j.knosys.2023.111149      [本文引用: 3]

/