浙江大学学报(工学版), 2025, 59(9): 1872-1880 doi: 10.3785/j.issn.1008-973X.2025.09.011

计算机技术

基于电极排列和Transformer的脑电情感识别

孟璇,, 张雪英,, 孙颖, 周雅茹

太原理工大学 电子信息工程学院,山西 太原 030024

EEG emotion recognition based on electrode arrangement and Transformer

MENG Xuan,, ZHANG Xueying,, SUN Ying, ZHOU Yaru

College of Electronic Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China

通讯作者: 张雪英,女,教授,博士. orcid.org/0000-0002-2035-0329. E-mail:tyzhangxy@163.com

收稿日期: 2024-09-12  

基金资助: 国家自然科学基金资助项目(62271342).

Received: 2024-09-12  

Fund supported: 国家自然科学基金资助项目(62271342).

作者简介 About authors

孟璇(1999—),女,硕士生,从事情感识别研究.orcid.org/0009-0002-7879-3963.E-mail:mengxuan202109@163.com , E-mail:mengxuan202109@163.com

摘要

为了探索脑电通道所表征信息流的真正顺序以提升情感识别效果,提出基于黎曼流形空间的RM-STC模型. 计算脑电信号的空间协方差矩阵特征,将其映射到黎曼流形空间,计算得出脑电通道之间的黎曼距离矩阵;将该距离矩阵进行非度量型多维尺度变换运算获得通道的一维排序;按照计算得出的通道相对远近顺序重新排列皮尔逊相关系数特征矩阵,使CNN网络可以更好地卷积学习局部特征. 利用Transformer网络建模长距离依赖的优势学习全局特征补充CNN网络视角,并将基于黎曼流形空间计算的电极通道顺序映射为向量编码嵌入到Transformer-CNN分支网络的位置编码处,为该网络添加额外的空间位置编码信息. 在DEAP数据库上,本研究所提方法的效价维和唤醒维的平均识别率分别达到90.51%和90.98%,实验结果证明,基于黎曼流形空间的电极排列和有效的空间位置编码可以有效提升情感识别的准确率.

关键词: 脑电信号 ; 黎曼流形 ; 电极排列 ; Transformer ; 情感识别

Abstract

The RM-STC (Riemannian Manifold Space Transformer CNN) model based on Riemannian manifold space was proposed to explore the true order of information flow represented by Electroencephalogram (EEG) channels and improve emotion recognition performance. Firstly, the spatial covariance matrix features of EEG signals were calculated and mapped to Riemannian manifold space. The Riemannian distance matrix between EEG channels was then computed and subjected to a non-metric multidimensional scale transformation operation to obtain the one-dimensional ranking of the channels. The Pearson correlation coefficient feature matrix was rearranged according to the calculated relative distance order of the channels, allowing the CNN network to better convolve and learn local features. The advantage of modeling long-range dependencies in Transformer networks was utilized to learn global features to supplement the CNN network perspective, and the electrode channel order based on Riemannian manifold space computation was mapped into vector encoding embedded in the position encoding of the Transformer-CNN branch network, adding additional spatial position encoding information to the network. On the DEAP database, the average recognition rates of the valence dimension and arousal dimension by the proposed method reached 90.51% and 90.98%, respectively. The experimental results demonstrated that electrode arrangement based on Riemannian manifold space and effective spatial position encoding could effectively improve the accuracy of emotion recognition.

Keywords: EEG signal ; Riemannian manifold ; electrode arrangement ; Transformer ; emotion recognition

PDF (1081KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孟璇, 张雪英, 孙颖, 周雅茹. 基于电极排列和Transformer的脑电情感识别. 浙江大学学报(工学版)[J], 2025, 59(9): 1872-1880 doi:10.3785/j.issn.1008-973X.2025.09.011

MENG Xuan, ZHANG Xueying, SUN Ying, ZHOU Yaru. EEG emotion recognition based on electrode arrangement and Transformer. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1872-1880 doi:10.3785/j.issn.1008-973X.2025.09.011

情感识别指通过文本语言、行为表现和生理信号等信息估计或预测情绪状态[1],相较声音[2-3]、文本[4]和面部图像[5]等可伪装的情感信号,生理信号更能客观反应人的情感,脑电图(electroencephalogram, EEG)信号由于具有高时间分辨率、低成本和非侵入性等优点[6],成为基于生理信号的情感识别研究领域的热点.

大脑的高级认知过程不仅反映在振幅和功率指标上,更关键的是体现在大脑不同区域之间的信息交流与协作中. 这种区域间的连通互动对于理解复杂的认知功能至关重要[7]. 现代认知神经科学表明,人类在产生与大脑相关的认知活动及行为时,大脑区域间的连通性起着至关重要的作用[8-9]. EEG信号的不同电极通道放置在头皮的不同位置,代表着不同空间位置的信息,所以连通性特征矩阵中电极位置的不同排列方式构成的不同空间连通矩阵,会对情感识别网络的性能产生不同的影响. 因此,构建有效的空间连通矩阵的核心是设计合适的电极排列方式.

目前,基于DEAP (database for emotion analysis using physiological signals)的研究大多数采用数据库给出的电极通道顺序作为特征矩阵的排列顺序. Wang[10]提出由于信号的容积传导效应,从电极Fp1开始将最靠近当前电极通道的电极作为顺序排列的下一个电极. Cheng等[11]从左右脑半球的不对称性出发,提出从左额叶区域的电极位置开始,选择最靠近当前电极且位于同脑区半球的电极作为顺序排列的下一电极. Moon等[12]利用深度优先遍历和回溯算法产生多条哈密顿路径,将一定数量的路径作为电极通道的特征矩阵排列顺序. Moon等[13]认为基于物理距离的电极顺序合理但并不是最优解,通过对连通性矩阵进行视差函数降维得到新的电极排列顺序. 以上研究大多使用基于欧氏空间的电极排列顺序,然而脑电信号具有复杂、高维的特点,更适合在黎曼空间进行电极通道所表征的信息流顺序的学习. Chen等[14]提出解剖学视角相距较远的区域可能在生理视角连通性较高. 因此,为了寻找脑电信号传递过程中的真正通路,本研究于黎曼空间中计算电极的排列顺序.

卷积神经网络(CNN)[15]在全局特征探索方面存在一定缺陷,因此如何建立同时具有局部和全局视野的深度学习网络成为值得探讨的问题. Guo等[16]提出基于深度卷积和Transformer编码器的混合网络模型. Zheng等[17]提出端到端的STS-Transformer模型,直接从原始EEG信号中学习信息进行情感识别. Hu等[18]提出基于CNN和Transformer的自监督预训练模型,具有优秀的泛化能力. 以上研究对于识别网络中的位置编码模块关注较少,然而位置编码可以为识别网络提供额外的空间信息. 对此,本研究将基于黎曼空间的电极排列顺序作为额外的空间位置信息映射到Transformer网络以便其可以更好地进行情感分类.

综上,本研究提出基于黎曼流形空间降维的电极排列算法,构建基于黎曼流形空间位置编码的RM-STC神经网络模型.

1. 模型和方法

本研究提出的RM-STC模型整体结构如图1所示. 针对DEAP脑电情感数据库的EEG信号进行128 Hz下采样、带通滤波预处理. 将预处理后的脑电信号分别送入3个模块进行相关运算:在PCC (Pearson correlation coefficient)特征矩阵模块计算皮尔逊相关系数;在DE (differential entropy)、PSD (power spectrum density)特征模块计算微分熵和功率谱密度;在基于黎曼流形的电极排列模块参与计算一维电极通道的排列顺序. 其中,基于黎曼流形的电极排列模块对预处理后的EEG信号进行计算,通过空间协方差矩阵将其映射到黎曼流形空间,进而在黎曼空间计算脑电通道之间的黎曼距离,获得两两电极通道之间的黎曼距离矩阵;将该距离矩阵进行非度量型多维尺度变换算法(non-metric multidimensional scaling, NMDS)[19]降维处理,得到电极通道的一维排序. 这一顺序在2个模块中发挥作用:与PCC特征矩阵结合,作为黎曼顺序排列模块的输入,参与特征重排列;作用于空间位置编码映射模块,为识别网络添加电极间的空间关系信息. 将黎曼顺序排列的输出作为CNN分支网络的输入以便其更好地卷积学习局部信息,同时利用Transformer网络可以捕获长距离依赖的特点, 学习DE、PSD特征以补充全局视角,并将位置编码映射得到的电极空间位置关系添加到Transformer-CNN分支网络的向量维度进行空间编码信息嵌入,进一步丰富模型的空间编码信息. 将2个分支网络的输出进行拼接,进行二分类情感预测.

图 1

图 1   所提算法整体框架

Fig.1   Overall framework of proposed algorithm


1.1. DEAP情感脑电数据库及预处理

DEAP数据库是由Kulkarni等[20]建立的公开情感数据库,包含32名被试观看音乐视频片段时所产生的生理信号以及多个维度(唤醒、效价、喜欢、主导和熟悉程度)所对应的情感标签. 40个电极通道中包含32个脑电信号通道,本实验采用该32通道的EEG数据相关信息,在效价维度和唤醒维度进行二分类情感识别.

1.2. 基于黎曼流形的电极排列

基于黎曼流形的电极排列模块相关算法如下.

算法1  基于黎曼流形的电极排列.

输入:EEG信号X = [x1, x2, x3, ···],低维空间数d',最大迭代次数maxiter,收敛阈值k

输出:EEG电极通道在低维空间的投影顺序E = [e1, e2, e3, ···]

1: for i = 1, 2, ···, do

2:  计算空间协方差矩阵SCMs

3:  通过计算算数平均得到S作为黎曼均值的初值

4:  while (迭代次数<maxiter且收敛值>k)

5:  for index, Si in enumerate(SCMs) do

6:   根据S矩阵计算每个Si的切空间映射并对其先求和再求平均得到J

7:   更新映射到流形空间后的加权黎曼均值矩阵S

8:  end for

9:  计算J的Frobenius范数并判断其是否小于收敛阈值

10:  end while

11:  return S

12:  根据S计算SCMs矩阵之间的黎曼距离

13: end for

14: 获得两两电极通道之间的距离矩阵RMDist (xi, xj)

15: 将RMDist (xi, xj)黎曼距离矩阵作为NMDS降维算法输入

16: return E = [e1, e2, e3, ···]

原始脑电信号计算得到的空间协方差矩阵(spatial covariance matrices, SCMs)是对称正定(symmetric positive definite, SPD)矩阵,分布在黎曼流形空间. 为了更准确地衡量不同脑电电极通道之间的生理学距离,本研究计算其SCMs特征在黎曼空间的黎曼距离(又称测地线距离).

1.2.1. 黎曼流形

黎曼流形是描述多维空间结构,局部具有欧氏空间性质的空间. 其研究空间不一定满足欧几里得公设,而是由度量张量的概念所描述的,此概念可以用来定义黎曼空间中2点之间的距离和角度度量概念以及测地线几何概念.

图2所示,设${{M}}$为高维可微的流形空间,${T_X}M$表示${{M}}$${\boldsymbol{X }}\in {{M}}$位置处的切空间映射[21].

图 2

图 2   黎曼流形空间与切空间

Fig.2   Riemannian manifold space and tangent space


黎曼几何内积空间定义如下:

$ \lt \boldsymbol{S}_1^{\prime}, \boldsymbol{S}_2^{\prime}\gt _{\boldsymbol{X}}=\operatorname{tr}\;\left(\boldsymbol{X}^{-1 / 2} \boldsymbol{S}_1^{\prime} \boldsymbol{X}^{-1} \boldsymbol{S}_2^{\prime} \boldsymbol{X}^{-1 / 2}\right) . $

式中:$\boldsymbol{S}_1^{\prime}, \boldsymbol{S}_2^{\prime} \in T_X M $.

$\boldsymbol{S}^{\prime}$的范数计算公式如下:

$ \left\|\boldsymbol{S}^{\prime}\right\|_{\boldsymbol{X}}=\left(\operatorname{tr}\left(\boldsymbol{X}^{-1 / 2} \boldsymbol{S}^{\prime} \boldsymbol{X}^{-1} \boldsymbol{S}^{\prime} \boldsymbol{X}^{-1 / 2}\right)\right)^{1 / 2} . $

式中:$\boldsymbol{S}^{\prime} \in T_X M $${\mathrm{tr}}\;(\cdot )$为阵的迹运算.

基于${\boldsymbol{X}}$${\mathrm{Log}}(\cdot )$对数映射将${\boldsymbol{S}}$从流形空间${{M}}$映射到切平面${T_X}M$${\text{Exp}}\;(\cdot )$指数映射将${\boldsymbol{S}}$从切平面回退到流形空间,计算公式如下:

$ \log _{\boldsymbol{X}}: {M} \rightarrow T_X M, \quad \boldsymbol{S} \rightarrow \log\; (\boldsymbol{S})=\boldsymbol{S}^{\prime}. $

$ \operatorname{Exp}_{\boldsymbol{X}}: T_X M \rightarrow {M}, \quad \boldsymbol{S}^{\prime} \rightarrow \operatorname{Exp}\left(\boldsymbol{S}^{\prime}\right)=\boldsymbol{S} . $

黎曼距离是基于流形的几何结构和黎曼度量定义的黎曼空间中的距离度量. 定义流形空间${{M}}$上的最短测地线的长度为连接这2点所有测地线中最短的一条. 计算测地线距离的公式如下:

$ \operatorname{dist}\;(\boldsymbol{X}, \boldsymbol{S})=\left\|\log _{\boldsymbol{X}}\;(\boldsymbol{S})\right\|_{\boldsymbol{X}}=\left\|\boldsymbol{S}^{\prime}\right\|_{\boldsymbol{X}}, $

$ \operatorname{dist}\;\left(\boldsymbol{S}_1, \boldsymbol{S}_2\right) = \left[ {\left(\left\|\log _{\boldsymbol{X}}\;\left(\boldsymbol{S}_1\right)\right\|_{\boldsymbol{X}} - \left\|\log _{\boldsymbol{X}}\;\left(\boldsymbol{S}_2\right)\right\|_{\boldsymbol{X}}\right)^2} \right]^{1/2} . $

黎曼均值是一组数据点在流形空间中的中心点. 因为流形空间特有的几何结构,黎曼均值的计算不能简单地通过求取平均值得到,通常须通过迭代法计算得到[22].

黎曼距离的计算须以黎曼均值作为参考. 以计算的黎曼均值矩阵作为参考平面,计算两两电极矩阵之间的距离. 首先分别计算${{\boldsymbol{S}}_i}$${{\boldsymbol{S}}_j}$与黎曼均值矩阵的对数映射结果,然后计算对数映射结果差的平方和,最后开方作为最终两矩阵间的黎曼距离的度量.

1.2.2. 非度量型多维尺度变换算法

为了讨论脑电电极通道携带特征之间的信息流距离远近问题,用非度量型多维尺度变换算法衡量其距离关系.

NMDS是将数据从高维映射到低维,既保留原始数据关系,又方便进行定性分析的一种降维算法. 与度量算法不同,非度量算法不刻画具体位置,仅对脑电电极的相对位置做出排序. 输入为电极通道之间的黎曼距离矩阵,根据距离矩阵NMDS算法计算获得电极通道的单调关系,使得黎曼空间中相邻的电极在输出顺序中距离尽可能相近.

电极之间的黎曼距离与排序后的距离相近性计算公式如下:

$ \operatorname{stress}\;\left({\boldsymbol{e}}_1, {\boldsymbol{e}}_2, \cdots, {\boldsymbol{e}}_n\right)=\left[{\dfrac{\displaystyle {\sum}_{i\lt j}\left(\left|{\boldsymbol{e}}_i-{\boldsymbol{e}}_j\right|-r_{i j}\right)^2}{\displaystyle {\sum}_{i \lt j} r_{i j}^2}}\right]^{1/2} . $

式中:$ \left| {{{\boldsymbol{e}}_i} - {{\boldsymbol{e}}_j}} \right| $为通过NMDS算法降维到一维空间后得到的电极i和电极j之间的欧氏距离,${r_{ij}}$为电极$i$和电极$j$之间的黎曼距离,$ {\rm{stress}} $为降维后的距离与降维前的距离的差值. 通过最小化$ {\rm{stress}} $得到的$ {{\boldsymbol{e}}_1},{{\boldsymbol{e}}_2},\cdots,{{\boldsymbol{e}}_n} $即为一维空间中的电极排列顺序,电极$i$和电极$j$黎曼距离越近,降维后的排序距离也越近.

NMDS算法是迭代优化${\rm{stress}}$的过程,为了取得较好的排序方式,本研究选取的终止条件为最大迭代次数为3000或者收敛阈值达到1×10−12. 为了防止陷入局部最优的问题,多次初始化该算法初值,选择最小的${\rm{stress}}$对应的顺序作为最好的排序输出.

1.3. 特征提取及处理

提取脑电信号的PCC作为CNN分支网络的特征,相关性计算公式如下:

$ \operatorname{PCC}(i, j)=\dfrac{\dfrac{1}{T} \displaystyle {\sum}_{t=1}^T\left(x_i^t-\mu_i\right)\left(x_j^t-\mu_j\right)}{\sigma_i \sigma_k} . $

式中:${x_i}$为第$i$个电极的EEG信号,$\mu $为均值,$\sigma $为标准差.

由于卷积具有局部视野,因此须考虑PCC矩阵电极之间的相邻位置. 用基于黎曼流形距离映射后的排序作为PCC矩阵的电极通道相邻位置编码,对特征矩阵进行重新排列分布. 以32个被试中某片段PCC部分数据为例,算法前后特征对比如图3,为了简单区分,规定PCC$\geqslant $0.5为橙色,<0.5为蓝色. 可以看出,相较于图3(a),经过重排列后,图3(b)中具有强连通性的电极通道在左上角和右下角区域分布更加集中.

图 3

图 3   PCC局部特征图

Fig.3   PCC local feature map


脑电电极通道完整顺序如图4所示,图4(a)为目前常用排序方式,图4(b)为本研究提出的基于黎曼流形的电极排列方式. 可以看出,本研究提出的电极排列方式增加了更多跨区的连接关系.

图 4

图 4   电极排列方式

Fig.4   Electrode arrangement method


为了补充不同视角信息使网络可以更好地进行情感识别,选取DE和PSD特征作为Transformer分支网络的输入.

DE特征是脑电的一种非线性特征,是香农信息熵在连续变量上的推广形式,计算公式如下:

$ \begin{split}{\mathrm{D E}}=&-\int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2 {\text{π}} \sigma^2}} \mathrm{exp}\;\left({-\dfrac{(x-\mu)^2}{2 \sigma^2}}\right) \times\\ &\log _2\;\left(\frac{1}{\sqrt{2 {\text{π}} \sigma^2}} \mathrm{exp}\;\left({-\dfrac{(x-\mu)^2}{2 \sigma^2}}\right)\right) {\mathrm{d}} x .\end{split} $

PSD特征表示脑电信号不同频段的平均能量,通过对时域信号$x$进行离散傅里叶变换(DFT),可计算各频段的功率谱密度,其表达式如下:

$ {\text{PSD}} = {\left| {\int_{ - \infty }^{+\infty } {x\left( \tau \right){{\text{exp}}\left({ - {\text{j}}2{\text{π}}f\tau }\right)}{\mathrm{d}}\tau } } \right|^2}. $

式中:f为频率.

1.4. STC网络

STC网络主要由2部分组成:CNN网络和Space Transformer CNN混合网络,如图5所示. CNN分支网络从基于黎曼距离排列的脑电通道PCC特征中进行局部视野学习,Transformer-CNN分支网络从DE和PSD特征中进行时间序列的全局视野学习,并利用基于黎曼距离的脑电通道顺序添加空间位置编码信息.

图 5

图 5   基于黎曼流形位置编码的识别网络

Fig.5   Recognition network based on Riemannian manifold position encoding


1) CNN网络:由卷积层、最大池化层和全连接层组成. Dropout设置为0.5防止网络过拟合,并添加正则化层防止网络波动. 采用Adam算法进行网络模型训练,交叉熵作为评估指标的损失函数. 学习率设置为0.0001. 以上网络在PyTorch深度学习框架中实现.

2) Space Transformer CNN网络:Transformer模型无法自己建立输入序列的空间关系,但是脑电信号具有较强的空间维度关联特性,为了使模型能更好地学习脑电信号的输入特征,本研究将基于黎曼流形空间的脑电通道位置进行编码添加到Transformer网络. 具体计算公式如下:

$ {\text{pos}} = {\text{Sort}}\left( {{\text{RMDist}}\left( {{\text{Fp1}},{\text{E}}{{\text{L}}_i}} \right)} \right). $

式中:$ {\text{RMDist}}\left( {{\text{Fp}}1,{\text{E}}{{\text{L}}_i}} \right) $为电极${\text{Fp}}1$与其他电极通道的黎曼距离矩阵;${\text{Sort}}$为黎曼距离对应的空间位置编码映射,按照其他电极与${\text{Fp}}1$的距离远近按顺序排列,距离${\text{Fp}}1$最近的电极排在${\text{Fp}}1$的下一个位置,距离${\text{Fp}}1$最远的电极排在最后一个位置.

$ {\text{PE}}\left( {{\text{pos,2}k}} \right) = \sin \left( {{\text{pos}}/10\;00{0^{2k/{d_{{\text{model}}}}}}} \right), $

$ {\text{PE}}\left( {{\text{pos}},2k+1} \right) = \sin \left( {{\text{pos}}/10\;00{0^{2k/{d_{{\text{model}}}}}}} \right). $

式中:${d_{{\text{model}}}}$为嵌入向量维度,${\text{pos}}$为基于黎曼距离的脑电电极通道的编码顺序,$k$为位置编码的维度,计算得出${\text{PE}}\left( {{\text{pos}},2k} \right)$${\text{PE}}({\text{pos}},2k+1)$${\text{pos}}$位置$k$分量处的位置编码.

Transformer网络的核心架构是多头自注意力模型[17],该机制能够同时关注输入序列的不同位置,从而有效捕捉长距离依赖关系,具体计算公式如下:

$ \operatorname{MHA}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{Concat}\;\left({{\bf{head}}}_1, {{\bf{head}}}_2, \cdots, {{\bf{head}}}_n\right) \boldsymbol{W}^{\mathrm{O}} , $

$ {{\bf{head}}}_i=\operatorname{Attention}\;\left(\boldsymbol{Q} \boldsymbol{W}_i^{\boldsymbol{Q}}, \boldsymbol{K} \boldsymbol{W}_i^{\boldsymbol{K}}, \boldsymbol{V} \boldsymbol{W}_i^{\boldsymbol{V}}\right) , $

$ \text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{Softmax}\;\left(\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}} / \sqrt{d_{\boldsymbol{K}}}\right) \boldsymbol{V} \text {. } $

式中:${{\bf{head}}_i}$为第$i$个自注意力模块,$ {\text{Concat}} $为多个自注意力模块输出的拼接,$ {{\boldsymbol{W}}^{\text{O}}} $${{\boldsymbol{W}}_i}^{\boldsymbol{Q}}$${{\boldsymbol{W}}_i}^{\boldsymbol{K}}$${{\boldsymbol{W}}_i}^{\boldsymbol{V}}$为不同的权重矩阵,${\boldsymbol{Q}}$${\boldsymbol{K}}$${\boldsymbol{V}}$为经过对应权重矩阵映射后计算得出的向量,$ {\text{Attention}} $计算注意力分数并生成加权的向量,$ {\text{Softmax}} $将注意力分数转化为和为1.0的概率分布值. 其中${\boldsymbol{Q}}$${\boldsymbol{K}}$矩阵进行点积运算计算相关性,须除以$\sqrt {{d_{\boldsymbol{K}}}} $防止数据波动对网络造成影响.

1.5. 配对t检验

配对t检验是一种常见的t检验方法,指同一个样本,在不同环境下进行分析,以评价环境对样本的影响,计算公式如下:

$ t = \frac{{\bar d - {\mu _d}}}{{{s_d}/\sqrt n }}. $

式中:$ t $为计算得出的统计量,会与t分布表中的临界值进行比较,以确定在给定显著性水平下,是否统计显著;$ \bar d $为配对差值的样本均值;$ {\mu _d} $为配对差值的总体均值;$ {s_d} $为配对插值的样本标准差;$ n $为配对样本的数量.

2. 实验与结果分析

2.1. 不同情感识别模型的性能对比

将提出的RM-STC网络与具有代表性的EEG情绪识别方法进行对比. 不同方法在DEAP数据库的平均准确率如表1所示,除RM-LSTM方法外,所有对比方法的结果均来自于原文献. 其中,A1A2分别为效价维、唤醒维识别准确率. Yin等[23]使用 MESAE 对多模态信号进行二分类情感识别,Piho等[24]通过KNN模型学习统计特征并进行情感分类, Garg等[25]使用 Merged LSTM 模型建模特征关系进行情感识别,Moon等[13]通过CNN模型学习连通性特征进而进行情感识别,Zhou等[26]通过离散小波变化计算特征并通过KNN分类器进行情感识别,Zheng等[17]通过STS-Transformer模型学习端到端特征进行情感识别. Zhang等[22]提出黎曼流形和欧几里德空间的时空脑电表征学习,表中RM-LSTM方法为笔者复现结果.

表 1   不同情感识别模型的性能对比结果

Tab.1  Performance comparison results of different emotion recognition models %

模型A1A2
MESAE[23]76.1777.19
KNN[24]82.7682.77
Merged LSTM[25]84.8983.85
CNN[13]80.28
DWT-KNN[26]89.5087.20
STS-Transformer[17]89.8686.83
RM-LSTM[22]89.9588.73
RM- STC90.5190.98

新窗口打开| 下载CSV


表1对比结果可见,本研究提出的RM-STC网络模型优于对比模型. 相较于机器学习中的KNN、DWT-KNN,在效价维分别提升7.75和1.01个百分点,在唤醒维分别提升8.21和3.78个百分点. 相较于深度学习MESAE、Merged LSTM、CNN、STS-Transformer、RM-LSTM模型,在效价维分别提升14.34、5.62、10.23、0.65和0.56个百分点,在唤醒维分别提升13.79、7.13、4.15和2.25个百分点. 验证了提出方法的有效性.

2.2. 基于黎曼流形的电极排列性能

为了验证基于黎曼的电极排列对于CNN网络学习脑电EEG信息的有效性,进行以下消融实验,将本研究的电极排列方式与目前通用的几种排列方式进行对比. 为了更好地与文献[13]所提出的电极排列方式对比,识别模型均采用CNN单分支结构,具体结构见表2. 其中,kern表示核的大小,step表示步长.

表 2   CNN网络架构

Tab.2  CNN network architecture

类型输出形状kernstep
Convolution32×2×3231
Convolution32×32×6431
Max-pooling16×16×642×22
Convolution16×16×12831
Convolution16×16×25631
Max-pooling8×8×2562×22
Dense256
Softmax2

新窗口打开| 下载CSV


不同排列方式的识别性能如表3所示,除电极排列方式外,其他条件均相同,$K$表示卷积核大小. dist和dist-restr实验结果为本研究作者复现结果. ES-PER (Euclidean Space-Person)、ES-SUM (Euclidean Space-SUM)是在欧氏空间中的电极距离下计算的电极排列顺序,ES-PER是每个被试均有自己的排列顺序,ES-SUM是所有被试共用一个排列顺序. RM-PER (Riemannian Manifold Person)和RM-SUM (Riemannian Manif-old SUM)是在黎曼流形空间中的电极距离下计算的电极排列顺序,RM-PER是每个被试均有自己的黎曼排列方式,RM-SUM是所有被试共用一个黎曼排列顺序. RM-PER和RM-SUM的识别网络相较于RM-STC,只采用了CNN,没有融合Transformer.

表 3   不同电极排列方式消融实验结果

Tab.3  Results of ablation experiment with different electrode arrangements

电极排列方式A2/%
K = 3K = 5K = 7
dist[13]84.5486.9086.82
dist-restr[13]84.6587.0187.04
ES-PER84.2487.2687.30
ES-SUM84.9887.1387.37
RM-PER85.7387.3887.49
RM-SUM85.8487.7987.88

新窗口打开| 下载CSV


表3对比结果可见,相较于文献[13]提出的dist和dist-restr方法,本研究提出的RM-SUM和RM-PER方法在不同卷积核大小的条件下均有一定提升. 本研究提出的ES-SUM相较于dist和dist-restr方法略有提升. 经过配对t检验发现,基于黎曼流形的排序方法结果显著性高于基于欧氏空间的排序方法结果显著性(p<0.05)和基于常规的排序方法结果显著性(p<0.05). 表明黎曼空间更适合表征电极通道所携带的脑电信号特征,说明基于黎曼的电极排列方式可以较好地模拟脑内信息的流向,使CNN网络可以更好地卷积学习到EEG信号知识. 同时,从表中可以看出,所有被试共用同一电极排列顺序的识别率,高于为每个被试单独训练顺序的情况,可能是因为单独训练时,每个被试的样本数量较少,导致模型难以学习到最优的电极排列顺序.

2.3. RM-STC模型识别性能

对RM-STC模型进行消融实验,结果如表4所示. 其中,std1、std2分别表示效价维、唤醒维识别准确率的标准差. CNN为卷积核大小为7,未添加Transformer、黎曼顺序排列、位置编码模块的识别网络模型;TC为未添加黎曼顺序排列、位置编码的识别网络模型;RM-STC为本研究提出的最终模型.可以看出,单分支CNN网络在效价维和唤醒维识别率都最低. TC相较CNN,在效价和唤醒维上分别提升2.19和2.35个百分点. RM-STC相较于CNN,在效价维和唤醒维分别提升3.31和3.54个百分点. 验证了本研究提出方法的有效性.

表 4   RM-STC模型消融实验结果

Tab.4  Ablation experiment results of RM-STC model %

模型A1 (std1)A2 (std2)
CNN87.20(4.22)87.44(4.15)
TC89.39(3.98)89.79(3.58)
RM-STC90.51(3.82)90.98(3.80)

新窗口打开| 下载CSV


32个被试在不同网络模型的效价维识别准确率A1图6所示,本研究提出的RM-STC相较于CNN在每个被试的表现上都有不同程度的提高,在第22个被试和第30个被试提升最明显,分别提升8.25和10.11个百分点.

图 6

图 6   不同模型每个被试结果(效价维)

Fig.6   Results of each subject in different models (valence)


32个被试在不同网络模型的唤醒维识别准确率A2图7所示,相较于CNN,本研究提出的RM-STC在每个被试的表现上都有不同程度的提高,在第14个被试和28个被试上提升最明显,分别提升6.36和6.71个百分点.

图 7

图 7   不同模型每个被试结果(唤醒维)

Fig.7   Results of each subject in different models (arousal)


3. 结 语

为了更好地利用EEG情感信号实际流向与脑电通道的空间位置进行情感识别,本研究提出RM-STC识别网络. 该网络通过计算脑电通道的黎曼距离重新排列通道顺序,获得新的特征顺序. 为了补充视角,在原始CNN网络引入Transformer-CNN混合网络分支,利用Transformer网络擅长捕获全局关联的优点,补充识别网络的全局视角,并将基于黎曼流形的空间顺序映射为位置编码信息嵌入Transformer-CNN网络为其提供额外的空间位置信息.

本研究提出的RM-STC网络在DEAP数据集上的实验结果证明该方法的有效性,消融实验证明各部分对于该识别效果的贡献. 与现有研究相比,本研究对于脑电信息流的流动方向与空间位置有进一步的探索. 在未来的工作中,将考虑脑电信号的多方向信息流向;进行多模态的情感识别研究;探索电极排列方法在跨被试情感识别上的潜力.

参考文献

LI Y, GUO W, WANG Y

Emotion recognition with attention mechanism-guided dual-feature multi-path interaction network

[J]. Signal, Image and Video Processing, 2024, 18 (1): 617- 626

[本文引用: 1]

RANA A, JHA S. Emotion based hate speech detection using multimodal learning [EB/OL]. (2022-02-13) [2024-9-17]. https://arxiv.org/abs/2202.06218v1.

[本文引用: 1]

ZHANG S, ZHAO X, TIAN Q

Spontaneous speech emotion recognition using multiscale deep convolutional LSTM

[J]. IEEE Transactions on Affective Computing, 2022, 13 (2): 680- 688

DOI:10.1109/TAFFC.2019.2947464      [本文引用: 1]

ZHANG S, YANG Y, CHEN C, et al

Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: a systematic review of recent advancements and future prospects

[J]. Expert Systems with Applications, 2024, 237: 121692

DOI:10.1016/j.eswa.2023.121692      [本文引用: 1]

TOISOUL A, KOSSAIFI J, BULAT A, et al

Estimation of continuous valence and arousal levels from faces in naturalistic conditions

[J]. Nature Machine Intelligence, 2021, 3 (1): 42- 50

DOI:10.1038/s42256-020-00280-0      [本文引用: 1]

HAN L, ZHANG X, YIN J

EEG emotion recognition based on the TimesNet fusion model

[J]. Applied Soft Computing, 2024, 159: 111635

DOI:10.1016/j.asoc.2024.111635      [本文引用: 1]

HERRMANN C S, STRÜBER D, HELFRICH R F, et al

EEG oscillations: from correlation to causality

[J]. International Journal of Psychophysiology, 2016, 103: 12- 21

DOI:10.1016/j.ijpsycho.2015.02.003      [本文引用: 1]

WU X, ZHENG W L, LI Z, et al

Investigating EEG-based functional connectivity patterns for multimodal emotion recognition

[J]. Journal of Neural Engineering, 2022, 19 (1): 016012

DOI:10.1088/1741-2552/ac49a7      [本文引用: 1]

WYCZESANY M, CAPOTOSTO P, ZAPPASODI F, et al

Hemispheric asymmetries and emotions: evidence from effective connectivity

[J]. Neuropsychologia, 2018, 121: 98- 105

DOI:10.1016/j.neuropsychologia.2018.10.007      [本文引用: 1]

WANG W

Brain network features based on theta-gamma cross-frequency coupling connections in EEG for emotion recognition

[J]. Neuroscience Letters, 2021, 761: 136106

DOI:10.1016/j.neulet.2021.136106      [本文引用: 1]

CHENG C, ZHANG Y, LIU L, et al

Multi-domain encoding of spatiotemporal dynamics in EEG for emotion recognition

[J]. IEEE Journal of Biomedical and Health Informatics, 2023, 27 (3): 1342- 1353

DOI:10.1109/JBHI.2022.3232497      [本文引用: 1]

MOON S, MOON S E, LEE J S. Resting-state fNIRS classification using connectivity and convolutional neural networks [C]// IEEE International Conference on Systems, Man, and Cybernetics. Prague: IEEE, 2022: 1724–1729.

[本文引用: 1]

MOON S E, CHEN C J, HSIEH C J, et al

Emotional EEG classification using connectivity features and convolutional neural networks

[J]. Neural Networks, 2020, 132: 96- 107

DOI:10.1016/j.neunet.2020.08.009      [本文引用: 7]

CHEN C J, WANG J L

A new approach for functional connectivity via alignment of blood oxygen level-dependent signals

[J]. Brain Connectivity, 2019, 9 (6): 464- 474

DOI:10.1089/brain.2018.0636      [本文引用: 1]

DOSE H, MØLLER J S, IVERSEN H K, et al

An end-to-end deep learning approach to MI-EEG signal classification for BCIs

[J]. Expert Systems with Applications, 2018, 114: 532- 542

DOI:10.1016/j.eswa.2018.08.031      [本文引用: 1]

GUO J Y, CAI Q, AN J P, et al

A Transformer based neural network for emotion recognition and visualizations of crucial EEG channels

[J]. Physica A: Statistical Mechanics and Its Applications, 2022, 603: 127700

DOI:10.1016/j.physa.2022.127700      [本文引用: 1]

ZHENG W, PAN B

A spatiotemporal symmetrical transformer structure for EEG emotion recognition

[J]. Biomedical Signal Processing and Control, 2024, 87: 105487

DOI:10.1016/j.bspc.2023.105487      [本文引用: 4]

HU X, CHEN Y, YAN J, et al

Masked self-supervised pre-training model for EEG-based emotion recognition

[J]. Computational Intelligence, 2024, 40 (3): e12659

DOI:10.1111/coin.12659      [本文引用: 1]

DEXTER E, ROLLWAGEN-BOLLENS G, BOLLENS S M

The trouble with stress: a flexible method for the evaluation of nonmetric multidimensional scaling

[J]. Limnology and Oceanography: Methods, 2018, 16 (7): 434- 443

DOI:10.1002/lom3.10257      [本文引用: 1]

KULKARNI S, PATIL P R. Analysis of DEAP dataset for emotion recognition [C]// International Conference on Intelligent and Smart Computing in Data Analytics: ISCDA 2020. Singapore: Springer Singapore, 2021: 67–76.

[本文引用: 1]

KOBLER R J, HIRAYAMA J I, ZHAO Q, et al. SPD domain-specific batch normalization to crack interpretable unsupervised domain adaptation in EEG [EB/OL]. (2022-10-12)[2024-09-12]. https://arxiv.org/abs/2206.01323v2.

[本文引用: 1]

ZHANG G, ETEMAD A

Spatio-temporal EEG representation learning on Riemannian manifold and euclidean space

[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2024, 8 (2): 1469- 1483

DOI:10.1109/TETCI.2023.3332549      [本文引用: 3]

YIN Z, ZHAO M, WANG Y, et al

Recognition of emotions using multimodal physiological signals and an ensemble deep learning model

[J]. Computer Methods and Programs in Biomedicine, 2017, 140: 93- 110

DOI:10.1016/j.cmpb.2016.12.005      [本文引用: 2]

PIHO L, TJAHJADI T

A mutual information based adaptive windowing of informative EEG for emotion recognition

[J]. IEEE Transactions on Affective Computing, 2020, 11 (4): 722- 735

DOI:10.1109/TAFFC.2018.2840973      [本文引用: 2]

GARG A, KAPOOR A, BEDI A K, et al. Merged LSTM Model for emotion classification using EEG signals [C]// International Conference on Data Science and Engineering. Patna: IEEE, 2019: 139-143.

[本文引用: 2]

ZHOU Z, ASGHAR M A, NAZIR D, et al

An AI-empowered affect recognition model for healthcare and emotional well-being using physiological signals

[J]. Cluster Computing, 2023, 26 (2): 1253- 1266

DOI:10.1007/s10586-022-03705-0      [本文引用: 2]

/