<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 EEG和fNIRS情感识别框图

Fig.1 EEG and fNIRS emotion recognition block diagram

1.1. EEG和fNIRS情感数据库

筛选4种情感类型的60段视频片段，采集50名被试的EEG和fNIRS信号，构建情感数据集TYUT3.0.

EEG数据由62通道的NeuroScan设备以1 000 Hz的采样频率采集，fNIRS数据由18通道的NirSmart设备以11 Hz的采样频率采集，同时记录这2种信号，EEG和fNIRS的通道分布如图2所示. 实验范式如图3所示，每次实验包含60个试次，每个试次由2个部分组成：观看视频片段（1.0~2.0 min）、自我评估（30 s）.

图 2

图 2 EEG和fNIRS通道分布图

Fig.2 EEG and fNIRS channel distribution map

图 3

图 3 EEG-fNIRS情感识别的实验范式

Fig.3 Experimental paradigm for EEG-fNIRS emotion recognition

对于EEG信号，经过滤波、重参考、降采样、去除伪迹等操作，对于fNIRS信号，经过滤波和基线校正操作.

1.2. 特征提取

对于EEG信号，将预处理后的EEG信号采用窗长为3 s、步长为1.5 s的方式进行分段，分成长度为3 s的数据，通过傅里叶变化提取δ（0.5~4.0 Hz）、θ（4~8 Hz）、α（8~12 Hz）、β（13~30 Hz）、γ（30~45 Hz）5个频段的EEG信号. 相较于其他EEG信号情感特征，微分熵（differential entropy，DE）特征在情感识别领域有着更广泛的应用和更好的性能^[23]，计算每段EEG信号每个频段上的DE特征，获得3 132×62×5（样本数×通道数×特征数）的矩阵. 设x是EEG信号，p(x)表示概率密度函数，公式如下：

(1)$ {\mathrm{DE}}(x) = - \int\limits_{ - \infty }^\infty {p(x){\mathrm{ln}}\; p(x){\mathrm{d}}x} . $

EEG信号经过预处理后符合高斯分布^[24]，则EEG信号的概率密度函数p(x)为

(2)$ p(x) = \frac{1}{{\sqrt {2{\text{π}} } \sigma }}\exp \left[ { - \frac{{{{(x - \mu )}^2}}}{{2{\sigma ^2}}}} \right]. $

将式（2）代入DE的计算公式，可得

(3)$ \begin{split} \operatorname{DE}(x)= & -\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 {\text{π}}} \sigma} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) \ln \left[\left(\frac{1}{\sqrt{2 {\text{π}}} \sigma}\times \right.\right. \\& \left. \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)\right] \mathrm{d} x =\frac{1}{2} \ln \left(2 {\text{π}} \mathrm{e} \sigma^2\right).\\[-1pt]\end{split}$

对于fNIRS信号，为了获得和EEG特征相同的数据格式，采用和EEG信号相同的分段方式，提取相同数量的特征. 提取每段fNIRS信号的方差、平均值、偏度、DE、功率谱密度（power spectrum density, PSD）特征，获得3 132×18×5（样本数×通道数×特征数）的矩阵. 基本计算公式如下.

(4)$ {\sigma ^2}(Y) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(y(i) - \overline y )}^2}} . $

(5)$ \overline y = \frac{1}{N}\sum\limits_{i = 1}^N {\left| {y(i)} \right|} . $

(6)$ {f_{\text{s}}} = \frac{1}{{{\sigma ^3}}}\left[(E(y(i)))^3 - 3\overline y {\sigma ^2} - {\overline y ^3}\right]. $

(7)$ {\mathrm{DE}}(y) = \frac{1}{2}\ln\; (2{\text{π}} {\mathrm{e}}{\sigma ^2}). $

(8)$ {\mathrm{PSD}}(y）=\frac{1}{N}\left|{\mathrm{FFT}}(y(i))\right|. $

式中：y为每段fNIRS信号，N为每段fNIRS信号所包含的样本点数.

如图4所示，按照EEG和fNIRS的脑区分布，将EEG和fNIRS信号映射到二维矩阵中的通道分布图，对于没有值的位置填充为0，得到3132×9×10×5（样本数×长×宽×特征数）的数据，矩阵包含EEG和fNIRS信号的时间、空间、频率信息.

图 4

图 4 EEG和fNIRS通道映射的矩阵

Fig.4 Matrix of EEG and fNIRS channel mapping

1.3. MBA-CF-cCapsNet模型

多脑区注意力机制和胶囊融合模块的胶囊网络 (multi brain attention-capsule fusion-conv CapsNet, MBA-CF-cCapsNet)模型主要包括多脑区注意力机制模块、卷积层、初级胶囊模块、胶囊融合模块、分类胶囊模块，具体的模型结构如图5所示.

图 5

图 5 MBA-CF-cCapsNet模型

Fig.5 MBA-CF-cCapsNet model

1.3.1. 多脑区注意力机制

注意力在人类感知中起着重要作用. 受人类注意力的启发，各种注意力机制被提出并用于计算机视觉领域，如通道注意力、空间注意力、语义注意力等^[25]. 现有的研究表明，现代认知神经科学将大脑按照功能划分为额叶、颞叶、顶叶、枕叶及中央区，揭示了与情绪有关的脑区，如图6所示为脑区分布图. 加入多脑区注意力机制，对于不同的脑区给予不同的关注，在卷积过程中提取质量更高的初级胶囊.

图 6

图 6 脑区分布图

Fig.6 Brain area distribution map

多脑区注意力机制包括2个阶段：融合阶段和转换阶段. 融合阶段的作用是各个脑区中的EEG和fNIRS电极通道相互融合，获得脑区的代表性通道. 融合阶段主要采用图卷积（GCN）和最大池化，如图7所示为多脑区注意力机制融合阶段的具体实现.

图 7

图 7 多脑区注意力机制的融合阶段

Fig.7 Fusion phase of multi brain attention mechanism

GCN通过节点迭代聚合学习节点特征，在网络隐藏层中计算新的节点特征向量^[26]. GCN的输入是图数据，图的定义为G = (V,E)，其中V为节点的集合，E为边的集合. 对于每一个节点i，具有D维的节点特征，则V可用矩阵X_N×D表示，其中N为节点数；集合E中，元素e_ij表示节点i和j之间的边.

将EEG和fNIRS的特征转换为图结构，以额叶脑区为例，在EEG和fNIRS数据构建的特征矩阵中，将额叶脑区的电极数据作为节点特征，C为额叶脑区电极通道数，F为每个电极通道的特征向量的维度，节点特征X^k的数据大小是C×F. Guang等^[27]发现，利用皮尔森相关系数构建邻接矩阵，在EEG情感识别中获得较好的结果，所以用额叶脑区两两电极之间的皮尔森系数来构建边，即邻接矩阵，大小为C×C，用来描述额叶电极之间的相关性. 采用Hamilton等^[28]提出的具有聚合特征的Graph SAGE图卷积模块，对于给定的节点，将第k+1层的节点v表示为：k层的节点v特征与第k层节点v的所有邻接节点特征聚合的拼接，求平均值，经过非线性变换后得到. 使用一次图卷积运算，输出数据大小是C×F.

(9)$ {\boldsymbol{X}}_v^{k+1} \leftarrow \sigma ({\boldsymbol{W}} \cdot {\mathrm{MEAN}}(\{ {\boldsymbol{X}}_v^k\} \cup \{ {\boldsymbol{X}}_u^k,\forall u \in N(v)\} ). $

式中：$ {\boldsymbol{X}}_v^{k+1} $为第k+1层节点v的特征，$ {\boldsymbol{X}}_v^k $为第k层节点v的特征，$ {\boldsymbol{X}}_u^k $(u∈N(v))为第k层中节点v的邻接节点，W为参数矩阵，$ \sigma $为非线性函数.

采用图卷积将脑区内的EEG和fNIRS特征进行融合后，使用最大池化消除数据的电极通道维，生成脑区内的特征向量：

(10)$ {\boldsymbol{X}}' = \max\; ({\boldsymbol{X}}(C,F)). $

转换阶段的主要作用是将每个脑区生成的特征向量转换成概率，作为每个脑区分配得到的权重；再乘以原始数据，作为脑区注意力机制的输出. 具体的实现过程如图8所示. 通过2层全连接层和ReLu函数、Sigmoid函数实现转换阶段，得到6个脑区的权重系数W_MBA.

图 8

图 8 多脑区注意力机制的转换阶段

Fig.8 Transition stage of multibrain region attention mechanism

(11)$ {{\boldsymbol{W}}_{{\text{MBA}}}} = {F_{{\mathrm{Sigmoid}}}}({f_2}({F_{{{\mathrm{Relu}}}}}({f_1}({\boldsymbol{X}}')))). $

式中：f₁和f₂分别表示2个全连接层，F_Relu为Relu激活函数，F_Sigmoid为Sigmoid激活函数.

1.3.2. 卷积层和初级胶囊模块

卷积层包含Conv1_1和Conv1_2这2部分卷积，分别采用不同卷积核尺寸，提取不同视野的特征. Conv1_1卷积核的尺寸是3×3×128，步长是1；Conv1_2卷积核的尺寸是5×5×128，步长是1. 为了使这2部分卷积输出相同尺寸的特征图，Conv1_1和Conv1_2的padding分别设置为0和1.

初级胶囊模块的目的是生成初级胶囊. 在本模块中，在生成初级胶囊的过程中结合了不同视野的特征和不同深度的特征. 从卷积层的输出提取更深层次的特征. Conv2_1的输入是卷积层中Conv1_1的输出，Conv2_1采用和Conv1_1相同的卷积核尺寸，将参数stride和padding设置为1，确保生成的特征图和上层特征图有相同尺寸. Conv2_2的输入是卷积层中Conv1_2的输出，Conv2_2采用和Conv1_2相同的卷积核尺寸，将步长和填充分别设为1和2，确保和上层特征图有相同的尺寸. 将Conv1_1、Conv2_1、Conv1_2、Conv2_2的输出拼接在一起得到512个特征图，融合不同深度和不同视野的特征. 为了减少计算量，在Conv3中通过采用大小为1×1的256个卷积核，将特征通道数从512减少到256.

1.3.3. 胶囊融合模块

将EEG和fNIRS信号映射到矩阵中，没有电极的位置填0，所以经过卷积之后得到的特征图中包含许多背景信息. 由于胶囊网络中动态路由机制采用向量进行运算，经过多次迭代产生分类胶囊，计算量较大. 针对上述2方面问题，设计胶囊融合模块. 胶囊模块可以减少生成胶囊中的背景信息和生成的胶囊数量，进而减少计算量，具体的实现过程如图9所示.

图 9

图 9 胶囊融合模块

Fig.9 Capsule fusion module

胶囊融合模块位于初级胶囊模块之后，将相同位置的多个胶囊融合到一起. 初级胶囊模块的输出特征图的大小是8×7，特征图的输出通道数C=256，胶囊的维度D_c = 8，则输出的特征图被切分成K份，K = C/D_c=32，共有M=H×W×K = 1 792个胶囊. 胶囊在每个像素点(x, y)的集合可以表示为

(12)$ {{\boldsymbol{U}}_{(x,y)}} = \left[ {{{\boldsymbol{u}}_1}_{(x,y)},{{\boldsymbol{u}}_2}_{(x,y)}, \cdots ,{{\boldsymbol{u}}_K}_{(x,y)}} \right]. $

式中：$ {{\boldsymbol{U}}_{(x,y)}} \in {{\bf{R}}^{B \times M \times {D_{\text{c}}}}} $，其中B为batchsize的大小. 因为胶囊的长度表示类存在的概率，对于输入的胶囊经过最大池化，得到每个胶囊所有维度的最大值max_k.

(13)$ {{\max} _k} = \max {\mathrm{pooling}}\;({{\boldsymbol{u}}_{k(x,y)}}). $

将每个胶囊的最大值进行拼接，则将同一个元素位置(x, y)的胶囊融合在一起得到$ {\boldsymbol{U}}_{(x,y)}^{'} $.

(14)$ {\boldsymbol{U}}_{(x,y)}^{'} = {\mathrm{contact}}\;\{{{\max} _1},{{\max} _2}, \cdots ,{{\max} _k}\}. $

$ {\boldsymbol{U}}_{(x,y)}^{'} \in {{\bf{R}}^{B \times M \times 1}} $，之后将融合得到的$ {\boldsymbol{U}}_{(x,y)}^{'} $通过2层非线性函数，分别是ReLu和Tanh函数，得到$ {\boldsymbol{U}}_{(x,y)}^{''} $.

(15)$ {\boldsymbol{U}}_{(x,y)}^{''} = {{{\mathrm{Tanh}}}}\;({{{\text{ReLu}}}}\;({\boldsymbol{U}}_{(x,y)}^{'})). $

将融合得到的$ {\boldsymbol{U}}_{(x,y)}^{''} $重新进行分割，设置分割后每个胶囊的维度为8，生成P = K/8 = 4个胶囊. 同一个元素位置原本生成32个胶囊，经过胶囊融合模块后，融合生成了4个胶囊.

胶囊融合模块减少了输入动态路由机制的胶囊数量和计算量，但是初级胶囊模块的每一个元素位置都经过胶囊融合模块，保留了位置信息.

1.3.4. 分类胶囊模块

在胶囊融合模块后，相同元素位置产生的胶囊数变为原来的1/4，生成的胶囊数是1 792/4=224，胶囊的维度是8，作为分类胶囊的输入. 分类胶囊模块的作用是进行四分类任务，区分悲伤、高兴、平静、恐惧这4类情感. 如图10所示，将8D的初级胶囊通过动态路由机制生成4个16D的分类胶囊，分类胶囊的长度表示每种情绪存在的程度，用于后续损失函数的计算.

图 10

图 10 动态路由机制

Fig.10 Dynamic routing mechanism

具体的计算过程如下. 将输入的胶囊$ {\boldsymbol{u}}_i^{''} $（i =1, 2$,\cdots , $k₁）乘以权重矩阵W_ij（j=1,2$,\cdots , $k₂），得到预测向量$ {\hat {\boldsymbol{u}}_{j\left| i \right.}} $（高级情感特征）的公式如下：

(16)$ {\hat {\boldsymbol{u}}_{j\left| i \right.}} = {{\boldsymbol{W}}_{ij}}{\boldsymbol{u}}_i^{''}. $

式中：W_ij为初级胶囊$ {\boldsymbol{u}}_i^{''} $和预测向量$ {\hat {\boldsymbol{u}}_{j\left| i \right.}} $之间的转换矩阵，描述初级胶囊和预测向量之间的空间关系，即低级情感特征和高级情感特征的相对空间关系.

将预测向量分别乘以耦合系数c_ij，然后相加求和，计算公式如下：

(17)$ {{\boldsymbol{s}}_j} = \sum\limits_i {{c_{ij}}} {\hat {\boldsymbol{u}}_{j\left| i \right.}}. $

式中：c_ij为低层（l层）的第i个胶囊和高层l+1层的第j个胶囊之间的耦合系数，且c_ij相加之和为1， c_ij= 0表示第l层的胶囊i和第l+1层的胶囊j之间没有任何信息传递，c_ij= 1表示第l层的胶囊i的所有信息都传递给了第l+1层的胶囊j. c_ij的计算公式如下所示：

(18)$ {c_{ij}} = \frac{{\exp \;{b_{ij}}}}{{\displaystyle \sum\nolimits_k {\exp\; {b_{ik}}} }}. $

式中：$ {b_{ij}} $为第i个初级胶囊投票至第j个分类胶囊的概率，$ {b_{ij}} $的初始值设为0，后续根据式（20）进行迭代更新.

为了保证分类胶囊的长度为0~1.0，且方向不变，使用激活函数Squash得到v_j，使得短向量被压缩更加接近0，长向量被压缩更加接近1. 公式如下：

(19)$ {{\boldsymbol{v}}_j} = \frac{{{{\left\| {{{\boldsymbol{s}}_j}} \right\|}^2}}}{{1+{{\left\| {{{\boldsymbol{s}}_j}} \right\|}^2}}}\frac{{{{\boldsymbol{s}}_j}}}{{\left\| {{{\boldsymbol{s}}_j}} \right\|}}. $

将得到的v_j与预测向量$ {\hat {\boldsymbol{u}}_{j\left| i \right.}} $进行乘积得到标量，使用该标量去更新迭代b_ij，直至达到设置的迭代次数，公式如下：

(20)$ {b_{ij}} \leftarrow {b_{ij}}+{{\boldsymbol{v}}_j} \cdot {\hat {\boldsymbol{u}}_{j\left| i \right.}}. $

可以看出，当较低级别的胶囊和较高级别的胶囊预测一致时，b_ij变大，从而导致c_ij上升. 当预测不一致时，c_ij下降，通过调整耦合系数，确保较低级别的胶囊将其信息发送到与它预测一致的分类胶囊.

该模型对每一个分类胶囊使用单独的边际损失，边际损失L_k公式如下：

(21)$ \begin{split} {L_k} =& {T_k}(\max {\{0,\;{m^+} - \left\| {{{\boldsymbol{v}}_k}} \right\|\})^2} +\\&\lambda (1 - {T_k})(\max {\{0,\;\left\| {{{\boldsymbol{v}}_k}} \right\| - {m^ - }\})^2}.\end{split} $

式中：T_k为第k个目标标签；$ \left\| {{{\boldsymbol{v}}_k}} \right\| $为胶囊向量的模长；m⁺=0.9和m⁻=0.1分别为最大与最小边缘阈值；$ \lambda $为用于阻止网络陷入局部最优的权重系数，通常为0.5.

2. 实验结果分析

2.1. 实验参数的设置

实验采用相同的数据集、软硬件条件、模型参数和评价指标. 搭建基于pytorch3.7的运行框架，采用5折交叉验证，取5折平均值作为每个被试的测试结果. 使用TYUT3.0数据集中50个被试的平均识别率和每种情感的识别率、标准差及F1分数作为评测指标，对模型的计算量和运行时间进行对比分析.

如表1所示为MBA-CF-cCapsNet模型的参数，分为多脑区注意力机制模块、卷积层模块、初级胶囊模块、胶囊融合模块和分类胶囊模块5部分. 将多脑区注意力机制中的Graph SAGE和max pooling模块应用于每个单独的脑区，额叶、左颞叶、右颞叶、中央区、顶叶、枕叶的电极通道数分别为20、14、14、15、5、12.

表 1 MBA-CF-cCapsNet模型的实验参数

Tab.1 Experimental parameter of MBA-CF-cCapsNet model

模型	层	参数	尺寸
多脑区注意力机制	Graph SAGE	in_channels	5
	Graph SAGE	out_channels	5
	Maxpooling	Kernel	C
	FC₁	in_features	30
	FC₁	out_features	20
	FC₂	in_features	20
	FC₂	out_features	6
	ReLu	—	—
	Sigmoid	—	—
卷积层	Conv1_1	Kernel	3×3×128
卷积层	Conv1_2	Kernel	5×5×128
初级胶囊模块	Conv2_1	Kernel	3×3×128
	Conv2_2	Kernel	5×5×128
	Conv3	Kernel	1×1×256
胶囊融合模块	Maxpooling	Kernel	8
	ReLu	—	—
	Tanh	—	—
分类胶囊模块	动态路由机制	W_ij	8×16

EEG信号和fNIRS信号都是时间序列信号，在进行分段时，不同时间长度的样本所包含的信息量不同，对情感识别结果有一定的影响. 分别开展分段长度为1、3、5、7 s的实验，对比情感分类的识别率. 表2中，t为分段长度，A_cc为识别率. 从表2可以看出，当分段长度为3 s时，4类情感分类的识别率最高. 在后续的实验过程中，EEG信号和fNIRS信号的分段长度为3 s，共获得3132个样本.

表 2 不同分段长度下的情感识别结果

Tab.2 Emotion recognition result at different segment length

t/s	A_cc/%
t/s	平均值	Sad	Happy	Calm	Fear
1	96.41	96.39	96.84	94.97	97.44
3	96.67	96.57	97.31	95.02	97.76
5	96.32	96.35	96.79	94.88	97.26
7	95.89	95.96	96.16	94.71	96.71

2.2. 消融实验

为了验证提出的MBA-CF-cCapsNet模型的有效性，分别验证多脑区注意力机制模块和胶囊融合模块的作用效果，开展对比实验. 分别测试CapsNet模型、cCapsNet模型、MBA-cCapsNet模型及MBA-CF-cCapsNet模型，如表3所示为不同分类模型情感识别的性能. 表中，N_p为参数量，t_e为平均每一个被试每一折实验所需要的时间. 原始的CapsNet模型加入了多尺度和多层次卷积层后，即为cCapsNet模型，平均识别率上升了3.26%. 在cCapsNet的基础上，加入多脑区注意力机制，对大脑不同脑区的特征给予不同的权重，即MBA-cCapsNet模型，识别率上升了1.36%，说明加入多脑区注意力机制后，提取了质量更高的初级胶囊. 在上述模型的基础上加入胶囊融合模块，将特征图中相同元素位置生成的胶囊进行融合，即MBA-CF-cCapsNet模型，不同情感的识别率有了小幅提升；由于减少了进入动态路由机制的胶囊的数量，只有原本初级胶囊数量的1/8，模型的参数量和时间减少.

表 3 MBA-CF-cCapsNet模型的消融实验

Tab.3 Ablation experiments of MBA-CF-cCapsNet model

模型	A_cc/%					N_p	t_e/s
模型	平均值（标准差）	Sad	Happy	Calm	Fear	N_p	t_e/s
CapsNet	91.69(5.45)	91.27	92.71	90.34	92.42	2897155	1814
cCapsNet	94.95(5.3)	95.96	94.28	94.27	95.27	3270403	2278
MBA-cCapsNet	96.30(3.04)	96.48	96.26	94.95	97.52	3296227	3312
MBA-CF-cCapsNet	96.67(2.68)	96.57	97.31	95.02	97.76	2181043	1574

因为数据库中每种情感的样本数量不一致，采用F1分数（F1-score）这个评价指标衡量模型的有效性. F1分数是精确率P和召回率R的调和平均数，最大为1，最小为0，F1分数越高，说明模型的质量越好. F1分数的计算公式如下：

(24)$ {\text{F1 }} = 2 \times \frac{{{{PR}} }}{P+{{{R}}}}. $

表4中，计算量每种模型每种情感的F1分数，进一步计算了Macro-F1. 从表4可知，与原始的CapsNet模型相比，提出的MBA-CF-cCapsNet模型在Sad、Happy、Calm、Fear 4类情感上，F1分数分别增大了0.04、0.05、0.05、0.06，整体的Macro-F1增大了0.05. F1分数越大，说明模型的质量越好，这说明提出的脑区注意力机制和胶囊融合模块是有效的.

表 4 不同模型的F1分数

Tab.4 F1 score for different model

模型	F1
模型	Macro-F1	Sad	Happy	Calm	Fear
CapsNet	0.92	0.93	0.92	0.91	0.92
cCapsNet	0.95	0.96	0.94	0.95	0.96
MBA-cCapsNet	0.96	0.97	0.96	0.96	0.97
MBA-CF-cCapsNet	0.97	0.97	0.97	0.96	0.98

在MBA-CF-cCapsNet模型中加入了多脑区注意力机制，对不同的脑区赋予了不同的权重，体现了不同的脑区在情感识别过程中的贡献不同. 如图11所示为TYUT3.0数据库中50个被试的平均脑区权重分布示意图. 可知，在情感识别中，左颞叶和额叶脑区被赋予较大的权重，脑区内的EEG和fNIRS通道发挥了较大的作用，枕叶脑区的权重较小，电极通道发挥的作用较小. Li等^[29]的结论反映出额叶和颞叶区域在EEG情绪识别中很重要.

图 11

图 11 脑区权重分布图

Fig.11 Brain region weight distribution map

2.3. 不同模态数据的识别性能

采用EEG和fNIRS数据构建的特征作为输入，结合EEG和fNIRS 2种模态的数据进行情感识别. 为了验证2种模态数据结合的必要性和有效性，分别将单独的EEG数据和fNIRS数据作为输入数据，利用MBA-CF-cCapsNet模型进行情感识别.

从表5可以看出，结合EEG和fNIRS数据进行情感识别，识别效果最好，与使用单独的EEG信号进行情感识别的结果相比，平均识别率提升了1.52%，Happy、Sad、Calm、Fear 4种情感识别率分别提升了1.79%、0.97%、1.85%、1.48%. 与单独使用fNIRS信号进行情感识别的结果相比，平均识别率提高了14.35%. 可见，结合EEG和fNIRS 2种模态信号进行情感识别，两者在时空形成互补，较大地提升了情感识别性能.

表 5 不同模态数据的情感分类性能

Tab.5 Sentiment classification performance for data with different modality

模型	A_cc/%
模型	平均值（标准差）	Sad	Happy	Calm	Fear
MBA-CF-cCapsNet(EEG)	95.14(3.95)	95.60	95.52	93.17	96.28
MBA-CF-cCapsNet(fNIRS)	82.32(7.53)	81.57	83.07	80.05	84.58
MBA-CF-cCapsNet (EEG-fNIRS)	96.67(2.68)	96.57	97.31	95.02	97.76

图12~14给出不同单模态与双模态融合情感识别的混淆矩阵. 从图12、13可知，单模态情感识别中，各类情感的识别率存在较大差异，EEG的混淆矩阵显示，中性情感的识别率显著低于其他情感. fNIRS的混淆矩阵显示，中性情感的识别率均低于其他情感，高兴和恐惧情感的识别率均高于其他情感. 与单模态相比，EEG和fNIRS融合的混淆矩阵中各类情感的识别率都有明显提升，各类情感的识别率之间的差距缩小.

图 12

图 12 EEG情感分类混淆矩阵

Fig.12 EEG sentiment classification confusion matrix

图 13

图 13 fNIRS情感分类混淆矩阵

Fig.13 fNIRS sentiment classification confusion matrix

图 14

图 14 EEG-fNIRS情感分类混淆矩阵

Fig.14 EEG-fNIRS sentiment classification confusion matrix

2.4. 不同情感识别模型的情感识别性能对比

为了验证提出模型的有效性，分别将该模型与传统的情感识别模型和其他用于情感识别的CapsNet模型比较，每种模型的识别率和标准差如表6所示. 为了保证实验具有可对比性，所有模型输入相同的EEG和fNIRS特征，每个模型都采用5折交叉验证，保证最终结果的可靠性. SVM、CNN、GCN、Transformer、和gcForest是常见的用于情感识别的方法，MFM-CapsNet、MLF- CapsNet和ST-CapsNet模型是在原始CapsNet模型上进行改进后的模型，用于情感识别.

表 6 与其他情感识别模型对比

Tab.6 Contrast with other emotion that recognition models

模型	A_cc/%
模型	平均值（标准差）	Sad	Happy	Calm	Fear
SVM	89.60(6.59)	90.98	89.13	88.96	89.31
2DCNN	90.56(4.96)	90.48	90.20	89.63	91.93
gcForest	81.91(8.63)	82.76	80.27	82.43	82.17
Transformer	86.84(9.25)	85.62	89.35	83.84	88.54
GCN	90.16(5.10)	90.15	90.71	88.45	91.33
MFM-CapsNet^[10]	92.74(3.14)	92.1	93.52	91.61	93.73
MLF-CapsNet^[11]	94.65(3.80)	94.48	94.79	93.46	95.86
ST-CapsNet^[12]	94.01(2.95)	93.57	95.02	93.04	94.42
MBA-CF-cCapsNet	96.67(2.68)	96.57	97.31	95.02	97.76

从表6可以看出，与传统识别模型相比，提出模型的平均识别率上升了6.0%~7.0%. 与传统模型中平均识别率最高的2DCNN模型相比，Sad、Happy、Calm、Fear 4种情感的识别率分别上升了6.09%、7.11%、5.39%、5.83%，标准差更小. 这表明提出的MBA-CF-cCapsNet模型的识别效果和稳定性都优于其他模型.

为了验证提出的多脑区注意力机制的有效性，将MBA-CF-cCapsNet模型与ST-CapsNet模型进行比较，ST-CapsNet模型在原始CapsNet模型的基础上加入了时间和空间注意力机制. 实验结果表明，MBA-CF-cCapsNet的平均识别率比ST-CapsNet上升了约2.66%，4种情感的识别率分别上升了3%、2.29%、1.98%、3.34%. 多脑区注意力机制可以关注不同情感状态下不同脑区情感表达的差异性，提升整体的识别性能.

与MFM-CapsNet和MLF- CapsNet模型相比，提出的MBA-CF-cCapsNet模型在情感识别上的平均识别率分别上升了3.93%、2.02%，四类情感的识别率提升了2%~5%，验证了所提出的情感识别模型的有效性.

2.5. 结果分析

分析实验结果得出，在EEG和fNIRS情感识别领域，本文模型优于其他情感识别模型，利用本文模型获得较优的情感识别性能的原因如下.

(1) 情绪状态和大脑功能区的连接模式有很强的联系. 具体而言，不同情绪状态会导致大脑不同功能区不同的活动，不同功能区产生特定的联系^[30-31]. 设计的多脑区注意力机制在不同情感状态下给予不同脑区不同的权重，有利于提取不同情感状态下不同脑区内最具有鉴别能力的特征. 采用胶囊网络，特征之间通过向量形式的转换，保留了大脑不同脑区之间的空间关系.

(2) EEG和fNIRS双模态的信号内部包含更丰富的、与情绪有关的信息，使用多级和多尺度的卷积框架，结合不同层次的信息，增强了特征所包含的信息.

(3) 双模态信号的数据量通常比较大，为了减少参数量和计算量，设计胶囊融合模块. 胶囊融合模块一方面可以减少进入动态路由机制的胶囊的数量，另一方面可以减少特征映射到矩阵的过程中产生的背景信息.

3. 结　语

本文提出基于多脑区注意力机制胶囊融合网络MBA-CF-cCapsNet模型，用于EEG和fNIRS的情感识别. 考虑不同脑区与不同的情绪有关，设计多脑区注意力机制，给予不同脑区不同的权重. 为了尽可能地提取EEG和fNIRS的特征，使用不同尺度和不同深度的卷积. 提出胶囊融合模块，减少了进入动态路由机制的胶囊的数量以及模型的参数量和运行时间. 利用提出的模型，在TYUT3.0数据库上进行实验. 实验结果表明，4类情感的平均识别率可以达到96.67%，与用于情感识别的其他CapsNet模型相比，提出的模型拥有更好的识别性能. 在未来工作中，可以考虑EEG和fNIRS不同频率的特征，提高情感识别性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

吴朝晖

类脑研究: 为人类构建超级大脑

[J]. 浙江大学学报: 工学版, 2020, 54 (3): 425- 426

WU Zhaohui

Cybrain: building superbrain for humans

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (3): 425- 426

[2]

QIU L, ZHONG Y, XIE Q, et al

Multi-modal integration of EEG-fNIRS for characterization of brain activity evoked by preferred music

[J]. Frontiers in Neurorobotics, 2022, 16: 823435

DOI:10.3389/fnbot.2022.823435 [本文引用: 1]

[3]

MAJID R M, JONG H L

EEG based emotion recognition from human brain using Hjorth parameters and SVM

[J]. International Journal of Bio-Science and Bio-Technology, 2015, 7 (3): 23- 32

DOI:10.14257/ijbsbt.2015.7.3.03 [本文引用: 1]

[4]

LI T Y, FU B L, WU Z X, et al

EEG-based emotion recognition using spatial-temporal-connective features via multi-scale CNN

[J]. IEEE Access, 2023, 11: 41859- 41867

DOI:10.1109/ACCESS.2023.3270317 [本文引用: 1]

[5]

DU G L, SU J S, ZHANG L L, et al

A multi-dimensional graph convolution network for EEG emotion recognition

[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1- 11

DOI:10.1016/j.measurement.2022.111948 [本文引用: 1]

[6]

LI C, HUANG X Y, SONG R C, et al

EEG-based seizure prediction via Transformer guided CNN

[J]. Measurement, 2022, 203: 111948

[7]

CHENG J, CHEN M Y, LI C, et al

Emotion recognition from multi-channel EEG via deep forest

[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 25 (2): 453- 464

[8]

BANDARA D, VELIPASALAR S, BRATT S, et al

Building predictive models of emotion with functional near-infrared spectroscopy

[J]. International Journal of Human-Computer Studies, 2018, 110: 75- 85

DOI:10.1016/j.ijhcs.2017.10.001 [本文引用: 1]

[9]

HU X, ZHUANG C, WANG F, et al

fNIRS evidence for recognizably different positive emotions

[J]. Frontiers in Human Neuroscience, 2019, 13: 120

DOI:10.3389/fnhum.2019.00120 [本文引用: 1]

[10]

SUN Y, AYAZ H, AKANSU AN

Multimodal affective state assessment using fNIRS+EEG and spontaneous facial expression

[J]. Brain Sciences, 2020, 10 (2): 85- 104

DOI:10.3390/brainsci10020085 [本文引用: 2]

[11]

BECKER H, FLEUREAU J, GUILLOTEL P, et al

Emotion recognition based on high-resolution EEG recordings and reconstructed brain sources

[J]. IEEE Transactions on Affective Computing, 2020, 11 (2): 244- 257

DOI:10.1109/TAFFC.2017.2768030 [本文引用: 2]

[12]

ZHE S, ZIHAO H, FENG D, et al

A novel multimodal approach for hybrid brain–computer interface

[J]. IEEE Access, 2020, 8: 89909- 89918

DOI:10.1109/ACCESS.2020.2994226 [本文引用: 2]

[13]

DELIGANI R J, BORGHEAI S B, MCLINDEN J, et al

Multimodal fusion of EEG-fNIRS: a mutual information-based hybrid classification framework

[J]. Biomedical Optics Express, 2021, 12 (3): 1635- 1650

[14]

KWAK Y C, SONG W J, KIM S E

FGANet: fNIRS-guided attention network for hybrid EEG-fNIRS brain-computer interfaces

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2022, 30: 329- 339

DOI:10.1109/TNSRE.2022.3149899 [本文引用: 1]

[15]

王颖, 高胜

轻量型胶囊网络语音情感识别方法

[J]. 电子科技大学学报, 2023, 52 (3): 423- 429

DOI:10.12178/1001-0548.2022086 [本文引用: 1]

WANG Ying, GAO Sheng

A speech emotion recognition method based on lightweight capsule network

[J]. Journal of University of Electronic Science and Technology of China, 2023, 52 (3): 423- 429

DOI:10.12178/1001-0548.2022086 [本文引用: 1]

[16]

杨巨成, 韩书杰, 毛磊, 等

胶囊网络模型综述

[J]. 山东大学学报: 工学版, 2019, 49 (6): 1- 10

YANG Jucheng, HAN Shujie, MAO Lei, et al

Review of capsule network

[J]. Journal of Shandong University: Engineering Science, 2019, 49 (6): 1- 10

[17]

HINTON G E, OSINDERO S, TEH Y W

A fast-learning algorithm for deep belief nets

[J]. Neural Computation, 2006, 18 (7): 1527- 1554

DOI:10.3778/j.issn.1002-8331.2010-0263 [本文引用: 1]

[18]

ZHANG Y, CHENG C, ZHANG Y

Multimodal emotion recognition using a hierarchical fusion convolutional neural network

[J]. IEEE Access, 2021, 9: 7943- 7951

DOI:10.1109/ACCESS.2021.3049516 [本文引用: 1]

[19]

谌鈫, 陈兰岚, 江润强

集成胶囊网络的脑电情绪识别

[J]. 计算机工程与应用, 2022, 58 (8): 175- 184

CHEN Qin, CHEN Lanlan, JIANG Runqiang

Emotion recognition of EEG based on ensemble CapsNet

[J]. Computer Engineering and Applications, 2022, 58 (8): 175- 184

DOI:10.3778/j.issn.1002-8331.2010-0263 [本文引用: 1]

[20]

YU L, DING Y F, CHANG L, et al

Multi-channel EEG-based emotion recognition via a multi-level features guided capsule network

[J]. Computers in Biology and Medicine, 2020, 123: 103927

DOI:10.1016/j.compbiomed.2020.103927 [本文引用: 1]

[21]

WANG Z H, CHEN C, LI J, et al

ST-CapsNet: linking spatial and temporal attention with capsule network for P300 detection improvement

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2023, 31: 991- 1000

DOI:10.1109/TNSRE.2023.3237319 [本文引用: 1]

[22]

LI C, WANG B, ZHANG S L, et al

Emotion recognition from EEG based on multi-task learning with capsule network and attention mechanism

[J]. Computers in Biology and Medicine, 2022, 143: 105303

DOI:10.1016/j.compbiomed.2022.105303 [本文引用: 1]

[23]

张静, 张雪英, 陈桂军, 等

结合3D-CNN和频-空注意力机制的EEG情感识别

[J]. 西安电子科技大学学报, 2022, 49 (3): 191- 198

ZHANG Jing, ZHANG Xueying, CHEN Guijun, et al

EEG emotion recognition based on the 3D-CNN and spatial-frequency attention mechanism

[J]. Journal of Xidian University, 2022, 49 (3): 191- 198

DOI:10.3778/j.issn.1002-8331.2009-0364 [本文引用: 1]

[24]

GUIDO N, EDGAR L G, ZHENG L, et al

Mathematical relations between measures of brain connectivity estimated from electrophysiological recordings for gaussian distributed data

[J]. Frontiers in Neuroscience, 2020, 14: 577574

DOI:10.3389/fnins.2020.577574 [本文引用: 1]

[25]

HAO M G, XING T X, JIANG J L, et al

Attention mechanisms in computer vision: a survey

[J]. Computational Visual Media, 2022, 8 (3): 331- 368

DOI:10.1007/s41095-022-0271-y [本文引用: 1]

[26]

崔浩阳, 丁偕, 张敬谊

基于细胞图卷积的组织病理图像分类研究

[J]. 计算机工程与应用, 2020, 56 (24): 223- 228

CUI Haoyang, DING Xie, ZHANG Jingyi

Research on classification of histopathological image based on cell graph convolutional network

[J]. Computer Engineering and Applications, 2020, 56 (24): 223- 228

DOI:10.3778/j.issn.1002-8331.2009-0364 [本文引用: 1]

[27]

GUANG B, KAI Y, LI T, et al

Linking multi-layer dynamical GCN with style-based recalibration CNN for EEG-based emotion recognition

[J]. Frontiers in Neurorobotics, 2022, 16: 834952

DOI:10.3389/fnbot.2022.834952 [本文引用: 1]

[28]

HAMILTON W, YING Z, LESKOVEC J. Inductive representation learning on large graphs [J]. Advances in Neural Information Processing Systems, 2017(12): 1024-1034.

[29]

LI Y, ZHENG W, WANG L, et al

From regional to global brain: a novel hierarchical spatial-temporal neural network model for EEG emotion recognition

[J]. IEEE Transactions on Affective Computing, 2019, 13 (2): 568- 578

[30]

MOON S E, JANG S B, LEE J S. Convolutional neural network approach for EEG-based emotion recognition using brain connectivity and its spatial information [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary: IEEE, 2018: 2556–2560.