浙江大学学报(工学版), 2023, 57(10): 1987-1997 doi: 10.3785/j.issn.1008-973X.2023.10.008

计算机技术、自动化技术

基于模态注意力图卷积特征融合的EEG和fNIRS情感识别

赵卿,, 张雪英,, 陈桂军, 张静

太原理工大学 信息与计算机学院,山西 太原 030024

EEG and fNIRS emotion recognition based on modality attention graph convolution feature fusion

ZHAO Qing,, ZHANG Xue-ying,, CHEN Gui-jun, ZHANG Jing

College of Information and Computer, Taiyuan University of Technology, Taiyuan 030024, China

通讯作者: 张雪英,女,教授. orcid.org/0000-0002-2035-0329. E-mail: zhangxy@tyut.edu.cn

收稿日期: 2022-11-26  

基金资助: 国家自然科学基金资助项目(62271342,62201377);山西省回国留学人员科研资助项目(HGKY2019025,2022-072);山西省基础研究计划资助项目(202203021211174)

Received: 2022-11-26  

Fund supported: 国家自然科学基金资助项目(62271342,62201377);山西省回国留学人员科研资助项目(HGKY2019025,2022-072);山西省基础研究计划资助项目(202203021211174)

作者简介 About authors

赵卿(1998—),男,硕士生,从事EEG-fNIRS情感识别研究.orcid.org/0000-0003-3035-9420.E-mail:zqmailofficial@163.com , E-mail:zqmailofficial@163.com

摘要

为了提升情感识别的准确率,从情绪视频引起的脑电(EEG)和功能近红外(fNIRS)数据中提取每个通道的信号之间的联系,并提出基于模态注意力多路图卷积神经网络(MA-MP-GF)的特征融合情感识别方法. 将EEG和fNIRS数据构建为图结构数据,通过多路图卷积分别对每种模态的信号进行特征提取;利用模态注意力图卷积层融合不同模态通道间的连接信息. 模态注意力机制可以赋予不同模态节点不同权重,使得图卷积层能够更加充分提取不同模态节点间连接关系. 对采集的30个被试的4类情感数据进行实验测试,与仅EEG和仅fNIRS单模态识别结果相比,所提出的图卷积融合方法能够获得更高的识别准确率,分别提升了8.06%、22.90%;与当前常用的EEG-fNIRS融合方法相比,所提出的图卷积融合方法的平均识别准确率提升了2.76%~7.36%;图卷积融合方法在加入模态注意力后识别率最高提升了1.68%.

关键词: 图卷积神经网络 ; 脑电 ; 功能近红外 ; 模态注意力 ; 多模态融合 ; 情感识别

Abstract

A feature fusion emotion recognition method based on modality attention multi-path convolutional neural network was proposed, extracting the connection between the signals of each channel from the electroencephalogram (EEG) and functional near infrared spectroscopy (fNIRS) data induced by emotional video to improve the accuracy of emotion recognition. The EEG and fNIRS data were constructed as graph structure data, and the feature of each mode signal was extracted by multi-path graph convolution. The information of connection between different modal channels was fused by modality attention graph convolution. The modality attention mechanism can give different weights to different modal nodes, thus the graph convolution layer can more fully extract the connection relationship between different modal nodes. Experimental tests were carried out on four types of emotional data collected from 30 subjects. Compared with the results of EEG only and fNIRS only, the recognition accuracy of the proposed graph convolution fusion method was higher, which increased by 8.06% and 22.90% respectively. Compared with the current commonly used EEG and fNIRS fusion method, the average recognition accuracy of the proposed graph convolution fusion method was improved by 2.76%~7.36%. The recognition rate of graph convolution fusion method increased by 1.68% after adding modality attention.

Keywords: graph convolution neural network ; electroencephalogram ; functional near infrared spectroscopy ; modality attention ; multi-modal fusion ; emotion recognition

PDF (1285KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵卿, 张雪英, 陈桂军, 张静. 基于模态注意力图卷积特征融合的EEG和fNIRS情感识别. 浙江大学学报(工学版)[J], 2023, 57(10): 1987-1997 doi:10.3785/j.issn.1008-973X.2023.10.008

ZHAO Qing, ZHANG Xue-ying, CHEN Gui-jun, ZHANG Jing. EEG and fNIRS emotion recognition based on modality attention graph convolution feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(10): 1987-1997 doi:10.3785/j.issn.1008-973X.2023.10.008

情感识别在人机交互领域具有广阔的应用前景,当前基于大脑信号进行情感识别及交互的研究得到广泛关注[1]. 情感的产生变化和大脑皮层的神经活动[2]以及血氧浓度变化具有一定关联[3]. 脑电(electroencephalogram, EEG)和功能近红外(functional near infrared spectroscopy, fNIRS)具有相对便携、灵活和廉价的特性,可以同时采集互不干扰,应用前景广泛[4]. EEG信号可以反映大脑皮层神经元的电活动,fNIRS信号反映出大脑皮层的血氧浓度变化,这2种信号反映了大脑神经活动的不同方面,两者皆可客观地表征大脑的情感认知过程.

脑电情感识别领域的研究主要基于公开的DEAP[5]与SEED[6]情感数据库. Shen等[7]提出四维卷积递归神经网络方法;Cui等[8]将CNN与BiLSTM相结合,在SEED数据集上的准确率达到94.82%;fNIRS情感识别研究主要基于自建非公开数据库;Bandara等[9]使用与DEAP相同的刺激材料建立fNIRS情感数据库;Hu等[10]使用视频片段刺激建立了fNIRS数据库,对离散情感进行两两分类聚类,证明fNIRS可以区分细分的积极情绪. 单模态情感识别仍存在特征提取不足及识别准确率不高的问题。因此将EEG与fNIRS进行融合,挖掘二者之间的相关性和互补性[11]是后期研究的重点.

Sun等[12]提出P阶多项式方法融合EEG和fNIRS信号,对运动想象和心算的二分类识别率相比单模态有明显提升;Deligani等[13]提出基于互信息的特征选择方法,将EEG和fNIRS特征进行筛选得到融合特征集,并对ALS患者与健康者进行分类;王恩慧[14]使用fNIRS特征对EEG信号进行筛选,得到新特征集后进行情感分类;Sun等[15]将EEG和fNIRS特征直接拼接之后使用SVM进行分类;吴文一[16]使用主成分分析法对拼接的EEG和fNIRS特征矩阵进行降维。以上研究中双模态融合后分类识别率均显著提高.

EEG和fNIRS是多通道信号,若将各通道作为节点,各通道特征作为节点特征,相关通道之间的关系看作边,则EEG与fNIRS实质上是图结构数据. 图卷积神经网络(graph convolutional neural networks, GCN)是一类专门处理图结构数据的神经网络. Li等[17]提出自组织图卷积模型,根据不同卷积层自动提取出脑电特征生成脑电连接图,实现情感分类. Song等[18]提出动态图卷积情感识别模型,图的结构可以进行动态变化,使得图卷积层可以更好地提取EEG电极之间的连接信息. 以上研究表明,图卷积神经网络能够有效地提取EEG信号各通道间连接信息. 图卷积神经网络可以分为频谱域图卷积(如GCN[19]、ChebNet[20])以及空间域图卷积(如GraphSAGE[21]、GAT[22]). 频域图卷积是从频域出发,参考传统的信号处理方法,引入滤波器来定义图卷积. 空间域图卷积对每个节点的邻居节点进行某种方式的加权求和,得到新的节点特征. 注意力机制通过对信号特征中与情感显著相关的信息分配较大的权重,来提高情感识别性能. 张静等[23]提出频-空注意力机制,综合脑电信号在时间、空间和频率3个维度的信息,提高情感识别的准确率. Song等[24]提出注意力LSTM,将注意力系数分别加在LSTM的不同结构上,对3种生理信号分别进行特征提取,最终拼接实现多模态融合. 本研究将模态注意力机制加入图卷积融合方法中,来学习不同模态不同通道信号的权重.

当前EEG-fNIRS特征级融合方法大多使用拼接、张量融合的方法,这些方法仅仅考虑不同模态特征向量整体间的融合,而忽略了EEG和fNIRS各通道信号之间的差异与联系. 针对当前没有公开的EEG-fNIRS情感数据库的现状,本研究设计实验并采集了30名被试在情感视频诱发下的EEG和fNIRS数据,在提出模态注意力多路图卷积模态融合方法. 在GraphSAGE图卷积层中,引入所提的模态注意力机制,并利用GraphSAGE图卷积层融合EEG和fNIRS信号各通道特征. 在融合时,赋予EEG和fNIRS的不同通道以不同的权重,更加有针对性地进行模态融合,从而提升情感识别率.

1. 方法介绍

1.1. 数据采集

图1所示为数据采集与特征提取的流程图,主要包括情感电影片段选取、数据采集、信号预处理以及特征提取.

图 1

图 1   EEG-fNIRS数据采集与处理的流程图

Fig.1   Flowchart of EEG-fNIRS data acquisition and processing


Schaefer等[25]研究了电影片段在诱发情绪方面的可靠性和效率,表明带有情感的电影片段可以使受试者产生代入感,并引发情感共鸣,是良好的情感激发材料. 本研究初步选取包含悲伤、高兴、中性和恐惧这4种情感的80个电影片段,每种情感有20个电影片段. 通过观看者填写SAM问卷的方式[26],在愉悦度(pleasure, P)、激活度(arousal, A)和支配度(dominance, D)3个维度对每个视频片段进行打分,选择每种情感下与目标情感得分距离最小的前15个视频,经过筛选最终得到60个视频. 共有30名被试(15男,15女,平均年龄24.1±1.5岁,视听力均正常,均为右利手)参与实验数据录制. 参与录制前每位受试者均填写了个人基本信息以及知情同意书. 受试者被要求头上佩戴脑电-功能近红外测量帽,坐姿调整到舒适的位置,认真观看即将开始的电影片段,并尽可能避免明显的动作.

实验在屏蔽室中进行. 根据国际10-20系统,使用ESI NeuroScan系统从62通道电极帽以1 000 Hz的采样率记录脑电信号;根据设计的光极位置,使用慧创医疗设备公司研发的NirSmart便携式近红外脑功能成像系统以11 Hz的采样率记录受试者额叶和颞叶的功能近红外信号. 2种信号记录同时进行. 如图2所示,一个受试者的实验总共有60次. 每次试验中播放一段视频,视频时长1~2 min,视频结束之后的30 s填写自我评估表,以确认视频片段是否成功激发对应情感.

图 2

图 2   EEG-fNIRS情感数据的采集流程

Fig.2   Collection process of EEG-fNIRS emotional data


1.2. 特征提取

对于采集的脑电信号和功能近红外信号,需要预处理后才能进行下一步的特征提取. 对于脑电信号要进行信号重参考、去基线以及0.1~50.0 Hz滤波处理,再使用独立成分分析(independent component analysis, ICA)去除脑电信号中的伪迹,并将信号降采样至200 Hz. 将脑电信号划分为5个频段:δ(1~4 Hz),θ(4~8 Hz),α(8~14 Hz),β(14~30 Hz),γ(30~50 Hz),随后对每个频段的脑电信号提取特征. 对于采集的fNIRS原始光密度信号进行基线校正以及0.01~0.20 Hz带通滤波,通过修正的Beer-Lambert定律[27]计算得到氧合血红蛋白(HbO)以及脱氧血红蛋白(HbR)浓度变化.

分别计算每个频段的特征. 功率谱密度(power spectral density, PSD)[28]表示脑电信号在不同频段的平均能量:

$ \text{PSD}={{\left| \int_{-\infty }^{+\infty }{\textit{z}(\tau )\text{exp\;(}-j2\text{π} f\tau \text{)d}\tau } \right|}^{2}}. $

式中: $ \textit{z} $为脑电信号, $ \tau $为时间, $ f $为频率.

使用快速傅里叶变换(fast fourier transform, FFT)计算信号的离散傅里叶变换(discrete fourier transform, DFT),使用200个采样点的窗估计得到每个频段的功率谱密度. 微分熵(differential entropy, DE)[29]是脑电信号的一种非线性特征,是香农信息熵在连续变量上的推广形式,即

$ {\text{DE}} = - \int_{ - \infty }^{+\infty } {P(\textit{z})\ln (P(\textit{z})){\text{d}}\textit{z}} . $

式中: $ P(\textit{z}) $为概率密度函数.

假设脑电信号服从正态分布: $\textit{z} \sim N(\mu ,{\sigma ^2})$,微分熵特征计算式为

$ \begin{split} \text{DE}& = - \displaystyle\int_{-\infty }^{+\infty } {\dfrac{1}{\sqrt{2\text{ } \text{π} \text{ }\sigma }}}\text{exp} \left( \frac{{{(\textit{z}-\mu )}^{2}}}{2{{\sigma }^{2}}}\text{} \right) \ln \left( \dfrac{1}{\sqrt{2\text{ } \text{π} \text{ }\sigma }}\text{exp} \left( \dfrac{{{(\textit{z}-\mu )}^{2}}}{2{{\sigma }^{2}}}\text{} \right) \right) \text{d}\textit{z} \\ & =\dfrac{1}{2}\ln 2\text{ } \text{π} \text{ }e{{\sigma }^{2}}.\\[-15pt] \end{split} $

式中: σ为标准差,μ为均值,e为常数。

与脑电信号不同,fNIRS信号的变化是相对缓慢的. 为了适应这一特点,采用均值、最大值、最小值、线性回归斜率以及方差这5个统计特征点作为fNIRS信号的特征集. 均值反映HbO/HbR浓度水平;最大值、最小值反映HbO/HbR浓度曲线本身的特点;方差反映HbO/HbR浓度的波动情况;线性回归斜率则反映HbO/HbR浓度整体变化趋势. EEG与fNIRS信号均按1 s分段,最后得到EEG的特征矩阵大小为4845×62×5,得到fNIRS的HbO/HbR特征矩阵大小为4845×18×5.

1.3. EEG-fNIRS图数据构建

为了能够将数据输入图卷积神经网络,必须将EEG和fNIRS信号转为图结构数据. 图结构数据是节点和边的集合,记为G=(V, E),其中V为节点的集合,E为边的集合. 将EEG和fNIRS信号的每个通道看作节点,每个通道求得的特征作为节点特征,得到特征矩阵X;将通道与通道之间的连接关系作为边,求得邻接矩阵 $ {\boldsymbol{A}} $,这样就将EEG和fNIRS信号抽象为图结构数据.

图结构数据的特征矩阵X由提取的脑电DE、PSD特征以及fNIRS统计特征所构成. 邻接矩阵 $ {\boldsymbol{A}} $通过计算两两通道信号之间的皮尔逊相关系数得到. Bao等[30]将皮尔逊相关系数作为图卷积网络的邻接矩阵,在EEG情感识别中取得较好效果.

皮尔逊相关系数可以度量2个时间序列之间的相关性,计算式为

$ {{\rho }_{{\boldsymbol{a}},{\boldsymbol{b}}}}=\frac{\operatorname{Cov}\;({\boldsymbol{a}},{\boldsymbol{b}})}{{{\sigma }_{{\boldsymbol{a}}}}{{\sigma }_{{\boldsymbol{b}}}}}=\frac{\displaystyle\sum\nolimits_{i=1}^{g}{[({{{\boldsymbol{a}}}_{i}}-{{\mu }_{{\boldsymbol{a}}}})({{{\boldsymbol{b}}}_{i}}-{{\mu }_{{\boldsymbol{b}}}})]}}{g{{\sigma }_{{\boldsymbol{a}}}}{{\sigma }_{{\boldsymbol{b}}}}}. $

式中: ρ为相关系数,ab分别为2个通道的特征向量,Cov (ab)为向量ab的协方差,g为向量中元素的个数.

由于EEG和fNIRS是2种不同采样率的信号,对EEG原始信号进行平均降采样至11 Hz,使之与fNIRS信号的采样率一致;利用皮尔逊相关系数计算每1 s信号两两通道之间的相关性,并构建EEG-fNIRS通道邻接矩阵. Achard等[31]指出在稀疏的fMRI脑网络中,当实际连接数等于全部可能连接数的20%时,通常会最大限度地提高网络拓扑的效率;当选择保留EEG-fNIRS邻接矩阵全部连接的20%时,由于直接选取全局最相关的20%连接,连接可能会聚集于某个区域,同样重要但相关系数稍微较弱的区域可能被忽略. 整个邻接矩阵分为EEG-EEG、fNIRS-fNIRS以及EEG-fNIRS子矩阵,分别在每个子矩阵中选取相关系数最大的前20%连接进行保留,最终得到图数据特征矩阵X(4845×98×5),邻接矩阵A(4845×98×98),两者之间一一对应.

1.4. 图卷积融合模型

图3所示为MA-MP-GF(modality attention-multi path-graph convolution fusion)双模态融合情感识别框架. 将EEG和fNIRS构建为图结构数据,计算各通道特征和各通道的相关性关系,分别以节点特征矩阵和邻接矩阵的形式输入MA-MP-GF模型中实现2种模态的融合情感识别. 本研究提出基于多路模态注意力图卷积融合的情感识别模型MA-MP-GF,如图4所示,依次由图特征提取、图特征融合以及分类器模块构成.

图 3

图 3   双模态融合情感识别框架

Fig.3   Framework of bimodal fusion emotion recognition


图 4

图 4   MA-MP-GF-2D-CNN双模态融合情感识别模型

Fig.4   MA-MP-GF-2D-CNN bimodal fusion emotion recognition model


1.4.1. 图特征提取模块

GraphSAGE[21]图卷积是一种空间域图卷积,其算法的核心在于对邻居节点的采样与聚合.

GraphSAGE图卷积可以有效地聚合邻居节点特征,实现对图结构数据的数据特征提取. 对于采用均值聚合的GraphSAGE图卷积,其节点更新的计算式为

$ {\boldsymbol{x}}_{i}^{(k)}={\rm{ReLU}}\left({\boldsymbol{W}}\cdot \text{Mean}\left({\boldsymbol{x}}_{i}^{(k-1)}\bigcup {\boldsymbol{x}}_{j}^{(k-1)}\right)\right). $

式中: xi为第i通道的节点特征; xj为对 xi的邻居节点采样得到的节点特征;k为神经网络层序号;ReLU为激活函数;W为权重矩阵,训练时通过梯度下降法进行更新;Mean为向量求均值操作。式(5)是对图上每个节点的邻居节点进行采样,将本节点与每个采样得到的邻居节点进行拼接后求取平均值,再对得到的向量进行非线性变换,得到新的节点特征.

由于GraphSAGE图卷积层能够根据邻接矩阵聚合不同邻居节点的特征,并生成新的节点特征,可以通过它对不同通道EEG和fNIRS节点进行聚合,实现特征融合. 将EEG、HbO以及HbR图结构数据分别输入GraphSAGE图卷积层中,通过图卷积层分别提取特征,得到EEG、HbO和HbR各自的图卷积特征矩阵. GraphSAGE图卷积层通过聚合邻居节点特征实现新节点特征的生成,新节点特征与原来特征相比,包含了更多相关节点的信息,有利于下一模块不同模态节点之间的特征融合.

1.4.2. 图特征融合模块

针对不同模态节点的特征融合,提出模态注意力机制(modality attention, MA)来对GraphSAGE图卷积进行改进,如图5所示,图中Mmod为模态权重,M为模态注意力系数. 当赋予不同模态节点以不同的权重时,改进后的图卷积层能够更加有效地进行特征融合.

图 5

图 5   模态注意力图卷积层

Fig.5   Modality attention graph convolutional layer


本研究提出的模态注意力机制由2条支路构成,分别为模态权重支路与节点权重支路. 前者计算得到EEG、HbO和HbR这3种信号各自的权重;后者计算得到所有信号总计98个节点各自的权重. 将模态权重与节点权重对应相加,得到最终的权重. 将权重赋给原始信号,并输入到GraphSAGE图卷积层当中,这样图卷积层在计算当中能够考虑到每个节点不同的权重,同时在每一次的训练中通过反向传播更新注意力系数与图卷积参数. 注意力系数的计算式为

$ {{{\boldsymbol{M}}}_{{\rm{mod}}}}=\text{Sigmoid}(\text{F}{{\text{C}}_{0}}(\text{pool}({\boldsymbol{X}}))), $

$ {{{\boldsymbol{M}}}_{{\rm{nod}}}}=\text{Sigmoid}(\text{F}{{\text{C}}_{1}}(\text{F}{{\text{C}}_{2}}(\text{pool}({\boldsymbol{X}})))), $

$ {{{\boldsymbol{X}}}_{\text{out}}}={\boldsymbol{M}}\cdot {\boldsymbol{X}}\text{=}{{{\boldsymbol{M}}}_{{\rm{mod}}}}\cdot {\boldsymbol{X}}+{{{\boldsymbol{M}}}_{{\rm{nod}}}}\cdot {\boldsymbol{X}}. $

式中: M为最终的注意力系数向量, X为输入特征矩阵,Mout为输出特征矩阵,FC1、FC2分别为第1、2层全连接层,pool为全局平均池化层,Sigmoid为非线性激活函数。

在加入注意力机制之后,输入图卷积层的每个节点均具有不同的权重系数,每个节点与其采样得到的邻居节点进行聚合,而邻居节点包含EEG节点与fNIRS节点,因此对每个节点进行聚合的过程相当于2种模态进行特征融合的过程. 每个节点的聚合式(式(5))可以重新表示为

$ \begin{split} {\boldsymbol{x}}_{i}^{(k)}=&\sigma \left(\dfrac{{\boldsymbol{W}}}{n}\left(\sum\limits_{p}^{{}}{{{m}_{i}}{\boldsymbol{x}}_{i}^{(k-1)}\bigcup {{m}_{p}}{{{\boldsymbol{x}}}_{({\rm{EEG}})}}_{p}^{(k-1)}}\right)+ \right.\\ &\left. \text{ }\sum\limits_{q}^{{}}{{{m}_{i}}{\boldsymbol{x}}_{i}^{(k-1)}\bigcup {{m}_{q}}{{{\boldsymbol{x}}}_{({\rm{fNIRS}})}}_{q}^{(k-1)})}\text{ }\right).\end{split} $

式中:x(EEG)px(fNIRS)q分别为EEG和fNIRS节点特征,是对邻居节点xi采样得到的节点特征;p为EEG节点特征的序号;q为fNIRS节点特征的序号;n为采样节点的个数;mpmq为对应节点的注意力系数.

1.4.3. 2D-CNN分类模块

经过图卷积融合之后每个节点生成的新节点特征融合了原节点以及与原节点相关的其他通道的信息. 由于包含原节点信息,生成新的节点之间仍然具有一定的空间位置关系. EEG-fNIRS空间排布矩阵如图6所示. 将新的节点特征映射到空间排布矩阵中,通过2D-CNN进行情感分类. 2D-CNN的参数如表1所示,包括单模态与双模态分类时模型的参数.

图 6

图 6   EEG-fNIRS空间位置映射矩阵

Fig.6   EEG-fNIRS spatial position mapping matrix


表 1   2D-CNN网络的参数

Tab.1  Parameters of 2D-CNN network

网络类型 输入(滤波器)大小 步长 填充
EEG fNIRS fusion
Conv2D 3*3 2*3 4*4 1 0
ReLU
Conv2D 3*3 2*3 4*4 1 0
ReLU
AvePool2D 2*2 2*2 2*2 2 0
Linear 120 60 180
ReLU
Linear 32 20 32
Softmax 4 4 4

新窗口打开| 下载CSV


将转换得到的空间位置特征矩阵输入2D-CNN进行卷积池化操作,以双模态分类器为例,连续2次4*4卷积相当于1次7*7卷积,在扩大感受野的同时,能够更好地提取通道间特征,同时减少参数量;卷积之后的特征矩阵经过平均池化进行降维. 具体计算式如下:

$ {\boldsymbol{y}}=\text{ReLU}(\text{Avepool}(\text{Con}{{\text{v}}_{2}}(\text{Con}{{\text{v}}_{1}}({\boldsymbol{s}}))). $

式中:s为经过处理后的输入特征,Conv1、Conv2分别为第1、2层卷积层, Avepool为平均池化层,y为整个网络的输出向量.

接下来将池化得到的特征向量输入全连接层中进一步降维,最后经过Softmax层进行分类.

2. 实验与结果分析

2.1. 实验参数设置

实验运行所使用的软件环境为Windows10操作系统,深度学习框架为Pytorch,图卷积神经网络包为PyTorch Geometric;所使用的硬件环境CPU为Intel Xeon Silver 4214R 2.40 GHz,GPU为Nivida Telsa T4. 深度学习优化器使用SGD优化器,采用交叉熵损失函数,学习率设置为0.01. 数据按1 s分段,每名被试的实验均进行5折交叉验证,以30名被试的平均识别率以及标准差作为评价标准.

为了比较单模态与多模态融合的识别结果,使用2D-CNN作为情绪识别的基线分类器. 为了比较不同情感识别模型的识别结果,同时验证所提图卷积融合方法的有效性,使用10种融合方法进行对比实验.

2.2. 实验模型介绍

图卷积融合(graphconv fusion, GF)为基础的图卷积融合模型,只包含1层图卷积;模态注意力图卷积融合(modality attention graphconv-fusion, MA-GF)在GF模型的图卷积层中添加了注意力机制;多路图卷积融合 (multi-path graphconv-fusion, MP-GF)将不同模态的特征分别经过图卷积之后再进行整体图卷积;MA-MP-GF为同时添加多路图卷积与模态注意力的图卷积融合模型. 最后将经过融合的特征向量输入2D-CNN.

拼接融合(concat-fusion, CF)在文献[12]中被称为线性融合(linear fusion,LF). 将不同模态经过2D-CNN从池化层输出的特征向量进行直接拼接,从而实现不同模态的融合识别. 空间融合(space fusion, SF)为空间融合方法,相当于去掉图卷积层之后的模型. 它将不同模态的特征映射到同一个EEG-fNIRS空间位置排布矩阵之中,输入2D-CNN实现分类.

SVM[15]是将不同模态的特征矩阵进行拼接后输入SVM进行分类的特征融合方法. 张量融合(tensor fusion, TF)[12]是将不同模态的特征向量进行外积得到多维矩阵后,使用可训练权重矩阵加权求和得到新融合特征向量的方法. P阶多项式融合(Pth order polynomial fusion, PF)[12]将不同模态的特征向量拼接为长向量,将长向量进行复制,同时将这些长向量进行外积得到多维矩阵,最后使用可训练的权重矩阵进行加权求和得到新的融合特征向量. 低阶多模融合(low rank multimodal fusion, LMF)[32]通过对每个模态设定低阶权重向量,利用各自模态的特征向量进行加权求和生成新的融合特征. 将以上3种特征向量融合方法应用于2D-CNN池化层输出的特征向量中,随后将融合后的向量输入全连接层以及softmax层进行分类.

2.3. 实验结果分析

使用EEG信号的特征以及fNIRS中HbO和HbR的统计特征进行单模态识别实验,研究不同模态情感识别的效果;同时使用所提的图卷积融合模型进行实验,用以研究模态融合情感识别的有效性. 实验在30名被试下进行. 如表2所示为30名被试使用2D-CNN和MA-MP-GF-2D-CNN在不同模态下的平均识别率Acc以及标准差Std,加粗部分表示的是最高Acc值以及最低Std值. 可以看出,多模态相对于单模态,在识别率上有明显提升.

表 2   不同模态平均情感识别结果

Tab.2  Average emotion recognition results of different modalities

模态 Acc/% Std/%
EEG(DE) 88.77 6.16
EEG(PSD) 81.56 10.56
HbO 73.93 6.37
HbR 73.41 8.42
EEG(DE)+HbO+HbR 96.83 2.13
EEG(PSD)+HbO+HbR 95.71 2.14

新窗口打开| 下载CSV


图7所示为30名被试使用2D-CNN和MA-MP-GF-2D-CNN进行单模态与多模态情感识别的识别率. 图中,No为被试序号,Ave为总体平均,Acc为识别率. 可以看出,不同被试的情感识别率存在差异,但是EEG的DE特征的识别率均显著高于fNIRS的HbO和HbR信号的统计特征的识别率,fNIRS的HbO与HbR识别率无显著差距,使用图卷积融合以上3种信号的识别率均显著高于单模态的识别率. 由此可以证明所提的图卷积融合的情感识别方法对于单模态情感识别有显著提升.

图 7

图 7   不同被试单模态以及模态融合的情感识别结果

Fig.7   Emotional recognition results of different subjects in single mode and mode fusion


图8所示为单模态与图卷积融合情感识别的混淆矩阵. 可以看出,在单模态情感识别中各类情感的识别率存在微小差异,EEG(DE)的混淆矩阵显示,中性情感的识别率略低于其他情感,另外3种情感识别率相近;fNIRS信号的HbO和HbR的混淆矩阵也显示,中性情感的识别率略低于其他情感,高兴情感的识别率略高于其他情感;图卷积融合的混淆矩阵相比单模态,各类情感的识别率都有明显提升,各类情感的识别率之间的差距也缩小.

图 8

图 8   情感分类的混淆矩阵

Fig.8   Confusion matrix of emotion classification


使用EEG信号的DE特征和PSD特征以及fNIRS的HbO和HbR信号统计特征,研究不同特征组合下的融合情感识别效果,结果如图9所示. 在不同的特征组合下,模态融合的识别率有所不同;不同融合方法中不同特征组合的识别结果呈现相似的趋势. 总体上看,包含EEG(DE)特征的融合识别率要优于EEG(PSD)的,DE+HbO+HbR的识别效果最好,DE+HbR效果次之,PSD+HbO的效果最差. 为了验证模型各部分的作用,使用拼接融合CF、空间融合SF、基础图卷积融合GF、仅加入模态注意力的MA-GF、仅加入多路图卷积的MP-GF模型以及同时加入模态注意力和多路图卷积的MA-MP-GF模型,分别对不同的特征组合进行模态融合对比消融实验,用以验证图卷积融合、模态注意力机制以及多路图卷积结构对于情感识别的有效性. 同时,对所提的模态注意力机制也进行消融实验,分别分析只保留节点权重、只保留模态权重、去除dropout层之后的注意力机制的效果,验证所提的注意力机制结构的必要性与有效性.

图 9

图 9   不同特征组合下各融合方法情感识别结果对比

Fig.9   Comparison of emotion recognition results of different fusion methods under different feature combinations


消融实验结果如表3所示. 可以看出,所提图卷积融合模型在不同特征组合下的平均识别率均高于拼接融合以及空间融合模型的,标准差也小于另外2种模型的. 表明图卷积融合模型的识别效果与稳定性更好,证明了图卷积融合的有效性. 同时添加模态注意力(MA)与多路图卷积结构(MP)的融合方法的识别率要明显高于不添加或者只添加MA和MP中的一种的图卷积融合方法的,且单独添加MA或MP识别率均有提升,证明MA与MP对于提升情感识别率的有效性. 另外相比使用EEG、HbO与HbR这3种信号进行融合,只使用其中2种信号进行融合的识别率要略低,但仍可以实现比单模态更高的识别率,因此在情感识别中可以选用HbO与HbR中的一种信号与EEG结合,在减少模态数量的同时依然可以保持较好的效果.

表 3   模态注意力多路图卷积融合模型消融实验结果

Tab.3  Experimental results of ablation of modality attention multi-path graph convolution fusion model

特征组合 Acc(Std)/%
CF SF GF MA-GF MP-GF MA-MP-GF
EEG(DE)+HbO+HbR 91.77(4.31) 92.39(4.27) 94.93(3.12) 95.81(2.78) 96.11(2.50) 96.83(2.13)
EEG(PSD)+HbO+HbR 89.87(3.84) 89.11(4.91) 92.15(3.99) 93.83(3.34) 94.80(2.44) 95.71(2.14)
EEG(DE)+HbO 90.92(4.90) 90.39(5.09) 94.45(3.48) 94.90(3.37) 95.04(3.24) 95.62(3.12)
EEG(DE)+HbR 91.30(4.71) 90.63(4.94) 94.59(3.23) 95.03(3.33) 95.21(2.98) 95.76(2.89)
EEG(PSD)+HbO 87.05(6.03) 85.97(7.14) 90.57(4.99) 91.36(4.52) 92.28(3.70) 92.94(3.48)
EEG(PSD)+HbR 87.96(5.46) 86.24(6.16) 90.63(4.72) 91.82(4.15) 92.88(3.48) 93.60(3.25)

新窗口打开| 下载CSV


表3所示,SF为未添加图卷积的2D-CNN分类模块,识别率较低. MA-GF为添加图特征融合模块的模型,MP-GF为添加图特征提取模块的模型,MA-MP-GF为完整的模型. 以EEG(DE)+ HbO+HbR特征组合为例,后3种模型相比于SF,在识别率上分别提升3.42%、3.72%、4.44%,表明各模块的添加能够有效提升情感识别率.

图特征融合模块中使用了模态注意力机制,在训练过程中可赋予不同模态不同通道以不同的权重,使之能够更好地体现各通道对情感识别的贡献. 如图10所示,以全部30名被试为例,绘制了各通道的平均注意力权重图. 通道位置与图6中的EEG-fNIRS空间位置映射矩阵的相对应. 可以看出,不同通道被赋予不同的权重. 在情感识别中,额叶和颞叶的EEG与fNIRS通道发挥了较大的作用,而顶叶和枕叶的通道作用较小. 其中右额叶的权重高于左额叶的,右颞叶的要略高于左颞叶的. Li等[33]的结论中也反映出额叶和颞叶区域在EEG情绪识别中很重要. 模态注意力机制的消融实验使用效果最好的EEG(DE)+HbO+HbR特征组合,结果如表4中,MA1为只保留节点权重的注意力机制,MA2为只保留模态权重的注意力机制,MA3为去掉了dropout保留模态和节点权重支路的注意力机制. 在2种图卷积融合模型上,所提出的模态注意力机制的结果均为最优.

图 10

图 10   注意力权重分布图

Fig.10   Distribution map of attention weight


表 4   模态注意力机制消融实验结果

Tab.4  Experimental results of ablation of modality attention mechanism

模型 Acc(Std)/%
MA1 MA2 MA3 MA
GF
MP-GF
94.93(3.12)
96.11(2.50)
95.52(2.87)
96.36(2.46)
95.47(2.88)
96.05(2.42)
95.81(2.78)
96.83(2.13)

新窗口打开| 下载CSV


不同的融合模型在三模态融合时效果更好,因此对比其他论文的融合方法时均采用三模态进行实验,结果如表5所示. 可以看出,在2种不同特征组合下所提出的图卷积融合方法效果均要优于所引论文中的融合方法.

表 5   不同融合方法在EEG-fNIRS数据集上的结果

Tab.5  Results of different fusion methods on EEG-fNIRS dataset

模型 Acc(Std)/%
EEG(DE)+HbO+HbR EEG(PSD)+HbO+HbR
SVM[15]
CF[12]
PF[12]
90.36(5.97)
91.77(4.31)
93.74(3.45)
81.47(13.29)
89.87(3.84)
91.13(4.02)
TF[12] 92.91(3.22) 90.58(3.91)
LMF[32] 94.07(3.84) 90.69(4.53)
GF(本研究) 94.93(3.12) 92.15(3.99)
MA-GF(本研究) 95.81(2.78) 93.83(3.34)
MP-GF(本研究) 96.11(2.50) 94.80(2.44)
MA-MP-GF(本研究) 96.83(2.13) 95.71(2.14)

新窗口打开| 下载CSV


为了全面验证模型的效果,本研究进行跨受试者的实验,采用留一折验证,即29名被试的数据作为训练集,1名被试的数据作为测试集,特征组合采用效果更好的EEG(DE)+HbO+HbR,结果如表6所示. 可以看出,在跨受试者的实验中,本研究所提的4种图卷积融合方法的识别准确率均要强于其他论文方法的,且添加模态注意力机制能够提升图卷积融合的跨被试识别率. 由于跨受试者实验中训练与测试数据分布差异较大,结果要低于被试依赖的实验. 目前主流的跨受试者情感识别方法均涉及迁移学习,将在以后的研究中加以应用.

表 6   不同融合方法在EEG-fNIRS数据集的跨被试结果

Tab.6  Cross-subject results of different fusion methods on EEG-fNIRS data set

模型 Acc(Std)/%
SVM[15]
CF[12]
PF[12]
48.08(11.47)
53.24(11.57)
52.30(11.28)
TF[12] 51.03(10.45)
LMF[33] 52.52(11.41)
GF(本研究) 53.82(13.02)
MA-GF(本研究) 54.41(12.73)
MP-GF(本研究) 53.86(13.56)
MA-MP-GF(本研究) 54.44(13.12)

新窗口打开| 下载CSV


3. 结 语

本研究提出基于模态注意力多路图卷积(MA-MP-GF)的EEG和fNIRS融合情感识别方法. 与单模态相比,图卷积融合MP-MA-GF对情感识别准确率的提升明显;所提模态注意力机制对于情感识别率也有一定提升效果;与其他对比方法以及其他论文的多模态融合方法相比,本研究的图卷积融合方法具有更高的准确率和更好的稳定性.

在未来的工作中,计划使用不同类型的图卷积层以及新的EEG和fNIRS特征进行融合实验,以获得更高的情感识别准确率;对于邻接矩阵的选取进行更深入的研究,会考虑PLV、互信息方法计算邻接矩阵;在跨受试者的实验中,会使用迁移学习与所提模型结合,提升模型的跨受试者识别效果.

参考文献

吴朝晖

类脑研究: 为人类构建超级大脑

[J]. 浙江大学学报: 工学版, 2020, 54 (3): 425- 426

[本文引用: 1]

WU Zhao-hui

Cybrain: building superbrain for humans

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (3): 425- 426

[本文引用: 1]

PANKSEPP J

Neuro-psychoanalysis may enliven the mind brain sciences

[J]. Cortex, 2007, 8 (43): 1106- 1107

[本文引用: 1]

BRUN N C, MOEN A, BORCH K, et al

Near-infrared monitoring of cerebral tissue oxygen saturation and blood volume in newborn piglets

[J]. American Journal of Physiology-Heart and Circulatory Physiology, 1997, 273 (2): 682- 686

DOI:10.1152/ajpheart.1997.273.2.H682      [本文引用: 1]

QIU L, ZHONG Y, XIE Q, et al. Multi-modal integration of EEG-fNIRS for characterization of brain activity evoked by preferred music [EB/OL]. [2022-01-31]. https://doi.org/10.3389/fnbot.2022.823435.

[本文引用: 1]

KOELSTRA S, MUHL C, SOLEYMANI M, et al

Deap: a database for emotion analysis, using physiological signals

[J]. IEEE Transactions on Affective Computing, 2011, 3 (1): 18- 31

[本文引用: 1]

ZHENG W L, LU B L

Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks

[J]. IEEE Transactions on Autonomous Mental Development, 2015, 7 (3): 162- 175

DOI:10.1109/TAMD.2015.2431497      [本文引用: 1]

SHEN F, DAI G, LIN G, et al

EEG-based emotion recognition using 4D convolutional recurrent neural network

[J]. Cognitive Neurodynamics, 2020, 14 (6): 815- 828

DOI:10.1007/s11571-020-09634-1      [本文引用: 1]

CUI F, WANG R, DING W, et al

A novel DE-CNN-BiLSTM multi-fusion model for EEG emotion recognition

[J]. Mathematics, 2022, 10 (4): 582

DOI:10.3390/math10040582      [本文引用: 1]

BANDARA D, VELIPASALAR S, BRATT S, et al

Building predictive models of emotion with functional near-infrared spectroscopy

[J]. International Journal of Human-Computer Studies, 2018, 110: 75- 85

DOI:10.1016/j.ijhcs.2017.10.001      [本文引用: 1]

HU X, ZHUANG C, WANG F, et al

fNIRS evidence for recognizably different positive emotions

[J]. Frontiers in Human Neuroscience, 2019, 13: 120

DOI:10.3389/fnhum.2019.00120      [本文引用: 1]

高宇航, 司娟宁, 何江弘, 等

脑电与功能近红外光谱技术在脑机接口中的应用

[J]. 北京生物医学工程, 2022, 41 (3): 318- 325

DOI:10.3969/j.issn.1002-3208.2022.03.019      [本文引用: 1]

GAO Yu-hang, SI Juan-ning, HE Jiang-hong, et al

Applications of EEG and fNIRS in brain computer interface

[J]. Beijing Biomedical Engineering, 2022, 41 (3): 318- 325

DOI:10.3969/j.issn.1002-3208.2022.03.019      [本文引用: 1]

SUN Z, HUANG Z, DUAN F, et al

A novel multimodal approach for hybrid brain–computer interface

[J]. IEEE Access, 2020, 8: 89909- 89918

DOI:10.1109/ACCESS.2020.2994226      [本文引用: 10]

DELIGANI R J, BORGHEAI S B, MCLINDEN J, et al

Multimodal fusion of EEG-fNIRS: a mutual information-based hybrid classification framework

[J]. Biomedical Optics Express, 2021, 12 (3): 1635- 1650

DOI:10.1364/BOE.413666      [本文引用: 1]

王恩慧. 基于EEG-fNIRS的情绪识别系统研究[D]. 长春: 吉林大学, 2020: 48-50.

[本文引用: 1]

WANG En-hui. Research of emotion recognition system based on EEG-fNIRS [D]. Changchun: Jilin University, 2020: 48-50.

[本文引用: 1]

SUN Y, AYAZ H, AKANSU A N

Multimodal affective state assessment using fNIRS+EEG and spontaneous facial expression

[J]. Brain Sciences, 2020, 10 (2): 85- 105

DOI:10.3390/brainsci10020085      [本文引用: 4]

吴文一. 基于EEG-fNIRS特征融合的多强度负性情绪识别研究[D]. 天津: 天津大学, 2021: 35-47.

[本文引用: 1]

WU Wen-yi. Research on multi-intensity negative emotion recognition based on EEG-fNIRS feature fusion [D]. Tianjin: Tianjin University, 2021: 35-47.

[本文引用: 1]

LI J, LI S, PAN J, et al. Cross-subject EEG emotion recognition with self-organized graph neural network [EB/OL]. [2021-06-09]. https://doi.org/10.3389/fnins.2021.611653.

[本文引用: 1]

SONG T, ZHENG W, SONG P, et al

EEG emotion recognition using dynamical graph convolutional neural networks

[J]. IEEE Transactions on Affective Computing, 2018, 11 (3): 532- 541

[本文引用: 1]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. [2016-09-09]. http://doi.org/10.48550/arxiv.1609.02907.

[本文引用: 1]

DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering [EB/OL]. [2016-06-30]. https://doi.org/10.48550/arXiv.1606.09375.

[本文引用: 1]

HAMILTON W, YING Z, LESKOVEC J. Inductive representation learning on large graphs[EB/OL]. [2017-06-07]. https://doi.org/10.48550/arXiv.1706.02216.

[本文引用: 2]

VELIKOVI P , CUCURULL G , CASANOVA A , et al. Graph attention networks[EB/OL]. 2017. /arxiv. 1710.10903.

[本文引用: 1]

张静, 张雪英, 陈桂军, 等

结合3D-CNN和频-空注意力机制的EEG情感识别

[J]. 西安电子科技大学学报, 2022, 49 (3): 191- 198

[本文引用: 1]

ZHANG Jing, ZHANG Xue-ying, CHEN Gui-jun, et al

EEG emotion recognition based on the 3D-CNN and spatial-frequency attention mechanism

[J]. Journal of Xidian University, 2022, 49 (3): 191- 198

[本文引用: 1]

SONG T, ZHENG W, LU C, et al

MPED: a multi-modal physiological emotion database for discrete emotion recognition

[J]. IEEE Access, 2019, 7: 12177- 12191

DOI:10.1109/ACCESS.2019.2891579      [本文引用: 1]

SCHAEFER A, NILS F, SANCHEZ X, et al

Assessing the effectiveness of a large database of emotion-eliciting films: a new tool for emotion researchers

[J]. Cognition and Emotion, 2010, 24 (7): 1153- 1172

DOI:10.1080/02699930903274322      [本文引用: 1]

BRADLEY M M, LANG P J

Measuring emotion: the self-assessment manikin and the semantic differential

[J]. Journal of Behavior Therapy and Experimental Psychiatry, 1994, 25 (1): 49- 59

DOI:10.1016/0005-7916(94)90063-9      [本文引用: 1]

SCHOLKMANN F, KLEISER S, METZ A J, et al

A review on continuous wave functional near-infrared spectroscopy and imaging instrumentation and methodology

[J]. Neuroimage, 2014, 85: 6- 27

DOI:10.1016/j.neuroimage.2013.05.004      [本文引用: 1]

ZHANG G, YU M, LIU Y J, et al. SparseDGCNN: recognizing emotion from multichannel EEG signals [EB/OL]. [2021-01-13]. https://doi.org/10.1109/TAFFC.2021.3051332.

[本文引用: 1]

DUAN R N, ZHU J Y, LU B L. Differential entropy feature for EEG-based emotion classification [C]// 6th International IEEE/EMBS Conference on Neural Engineering(NER). San Diego: IEEE, 2013: 81-84.

[本文引用: 1]

BAO G, YANG K, TONG L, et al. Linking multi-layer dynamical GCN with style-based recalibration CNN for EEG-based emotion recognition [EB/OL].[2022-02-24]. https://doi.org/10.3389/fnbot.2022.834952.

[本文引用: 1]

ACHARD S, BULLMORE E

Efficiency and cost of economical brain functional networks

[J]. PLoS Computational Biology, 2007, 3 (2): 174- 183

[本文引用: 1]

LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018: 2247-2256.

[本文引用: 2]

LI Y, ZHENG W, WANG L, et al

From regional to global brain: a novel hierarchical spatial-temporal neural network model for EEG emotion recognition

[J]. IEEE Transactions on Affective Computing, 2019, 13 (2): 568- 578

[本文引用: 2]

/