基于电极排列和Transformer的脑电情感识别
EEG emotion recognition based on electrode arrangement and Transformer
通讯作者:
收稿日期: 2024-09-12
基金资助: |
|
Received: 2024-09-12
Fund supported: | 国家自然科学基金资助项目(62271342). |
作者简介 About authors
孟璇(1999—),女,硕士生,从事情感识别研究.orcid.org/0009-0002-7879-3963.E-mail:
为了探索脑电通道所表征信息流的真正顺序以提升情感识别效果,提出基于黎曼流形空间的RM-STC模型. 计算脑电信号的空间协方差矩阵特征,将其映射到黎曼流形空间,计算得出脑电通道之间的黎曼距离矩阵;将该距离矩阵进行非度量型多维尺度变换运算获得通道的一维排序;按照计算得出的通道相对远近顺序重新排列皮尔逊相关系数特征矩阵,使CNN网络可以更好地卷积学习局部特征. 利用Transformer网络建模长距离依赖的优势学习全局特征补充CNN网络视角,并将基于黎曼流形空间计算的电极通道顺序映射为向量编码嵌入到Transformer-CNN分支网络的位置编码处,为该网络添加额外的空间位置编码信息. 在DEAP数据库上,本研究所提方法的效价维和唤醒维的平均识别率分别达到90.51%和90.98%,实验结果证明,基于黎曼流形空间的电极排列和有效的空间位置编码可以有效提升情感识别的准确率.
关键词:
The RM-STC (Riemannian Manifold Space Transformer CNN) model based on Riemannian manifold space was proposed to explore the true order of information flow represented by Electroencephalogram (EEG) channels and improve emotion recognition performance. Firstly, the spatial covariance matrix features of EEG signals were calculated and mapped to Riemannian manifold space. The Riemannian distance matrix between EEG channels was then computed and subjected to a non-metric multidimensional scale transformation operation to obtain the one-dimensional ranking of the channels. The Pearson correlation coefficient feature matrix was rearranged according to the calculated relative distance order of the channels, allowing the CNN network to better convolve and learn local features. The advantage of modeling long-range dependencies in Transformer networks was utilized to learn global features to supplement the CNN network perspective, and the electrode channel order based on Riemannian manifold space computation was mapped into vector encoding embedded in the position encoding of the Transformer-CNN branch network, adding additional spatial position encoding information to the network. On the DEAP database, the average recognition rates of the valence dimension and arousal dimension by the proposed method reached 90.51% and 90.98%, respectively. The experimental results demonstrated that electrode arrangement based on Riemannian manifold space and effective spatial position encoding could effectively improve the accuracy of emotion recognition.
Keywords:
本文引用格式
孟璇, 张雪英, 孙颖, 周雅茹.
MENG Xuan, ZHANG Xueying, SUN Ying, ZHOU Yaru.
目前,基于DEAP (database for emotion analysis using physiological signals)的研究大多数采用数据库给出的电极通道顺序作为特征矩阵的排列顺序. Wang[10]提出由于信号的容积传导效应,从电极Fp1开始将最靠近当前电极通道的电极作为顺序排列的下一个电极. Cheng等[11]从左右脑半球的不对称性出发,提出从左额叶区域的电极位置开始,选择最靠近当前电极且位于同脑区半球的电极作为顺序排列的下一电极. Moon等[12]利用深度优先遍历和回溯算法产生多条哈密顿路径,将一定数量的路径作为电极通道的特征矩阵排列顺序. Moon等[13]认为基于物理距离的电极顺序合理但并不是最优解,通过对连通性矩阵进行视差函数降维得到新的电极排列顺序. 以上研究大多使用基于欧氏空间的电极排列顺序,然而脑电信号具有复杂、高维的特点,更适合在黎曼空间进行电极通道所表征的信息流顺序的学习. Chen等[14]提出解剖学视角相距较远的区域可能在生理视角连通性较高. 因此,为了寻找脑电信号传递过程中的真正通路,本研究于黎曼空间中计算电极的排列顺序.
卷积神经网络(CNN)[15]在全局特征探索方面存在一定缺陷,因此如何建立同时具有局部和全局视野的深度学习网络成为值得探讨的问题. Guo等[16]提出基于深度卷积和Transformer编码器的混合网络模型. Zheng等[17]提出端到端的STS-Transformer模型,直接从原始EEG信号中学习信息进行情感识别. Hu等[18]提出基于CNN和Transformer的自监督预训练模型,具有优秀的泛化能力. 以上研究对于识别网络中的位置编码模块关注较少,然而位置编码可以为识别网络提供额外的空间信息. 对此,本研究将基于黎曼空间的电极排列顺序作为额外的空间位置信息映射到Transformer网络以便其可以更好地进行情感分类.
综上,本研究提出基于黎曼流形空间降维的电极排列算法,构建基于黎曼流形空间位置编码的RM-STC神经网络模型.
1. 模型和方法
本研究提出的RM-STC模型整体结构如图1所示. 针对DEAP脑电情感数据库的EEG信号进行128 Hz下采样、带通滤波预处理. 将预处理后的脑电信号分别送入3个模块进行相关运算:在PCC (Pearson correlation coefficient)特征矩阵模块计算皮尔逊相关系数;在DE (differential entropy)、PSD (power spectrum density)特征模块计算微分熵和功率谱密度;在基于黎曼流形的电极排列模块参与计算一维电极通道的排列顺序. 其中,基于黎曼流形的电极排列模块对预处理后的EEG信号进行计算,通过空间协方差矩阵将其映射到黎曼流形空间,进而在黎曼空间计算脑电通道之间的黎曼距离,获得两两电极通道之间的黎曼距离矩阵;将该距离矩阵进行非度量型多维尺度变换算法(non-metric multidimensional scaling, NMDS)[19]降维处理,得到电极通道的一维排序. 这一顺序在2个模块中发挥作用:与PCC特征矩阵结合,作为黎曼顺序排列模块的输入,参与特征重排列;作用于空间位置编码映射模块,为识别网络添加电极间的空间关系信息. 将黎曼顺序排列的输出作为CNN分支网络的输入以便其更好地卷积学习局部信息,同时利用Transformer网络可以捕获长距离依赖的特点, 学习DE、PSD特征以补充全局视角,并将位置编码映射得到的电极空间位置关系添加到Transformer-CNN分支网络的向量维度进行空间编码信息嵌入,进一步丰富模型的空间编码信息. 将2个分支网络的输出进行拼接,进行二分类情感预测.
图 1
1.1. DEAP情感脑电数据库及预处理
DEAP数据库是由Kulkarni等[20]建立的公开情感数据库,包含32名被试观看音乐视频片段时所产生的生理信号以及多个维度(唤醒、效价、喜欢、主导和熟悉程度)所对应的情感标签. 40个电极通道中包含32个脑电信号通道,本实验采用该32通道的EEG数据相关信息,在效价维度和唤醒维度进行二分类情感识别.
1.2. 基于黎曼流形的电极排列
基于黎曼流形的电极排列模块相关算法如下.
算法1 基于黎曼流形的电极排列.
输入:EEG信号X = [x1, x2, x3, ···],低维空间数d',最大迭代次数maxiter,收敛阈值k
输出:EEG电极通道在低维空间的投影顺序E = [e1, e2, e3, ···]
1: for i = 1, 2, ···, do
2: 计算空间协方差矩阵SCMs
3: 通过计算算数平均得到S作为黎曼均值的初值
4: while (迭代次数<maxiter且收敛值>k)
5: for index, Si in enumerate(SCMs) do
6: 根据S矩阵计算每个Si的切空间映射并对其先求和再求平均得到J
7: 更新映射到流形空间后的加权黎曼均值矩阵S
8: end for
9: 计算J的Frobenius范数并判断其是否小于收敛阈值
10: end while
11: return S
12: 根据S计算SCMs矩阵之间的黎曼距离
13: end for
14: 获得两两电极通道之间的距离矩阵RMDist (xi, xj)
15: 将RMDist (xi, xj)黎曼距离矩阵作为NMDS降维算法输入
16: return E = [e1, e2, e3, ···]
原始脑电信号计算得到的空间协方差矩阵(spatial covariance matrices, SCMs)是对称正定(symmetric positive definite, SPD)矩阵,分布在黎曼流形空间. 为了更准确地衡量不同脑电电极通道之间的生理学距离,本研究计算其SCMs特征在黎曼空间的黎曼距离(又称测地线距离).
1.2.1. 黎曼流形
黎曼流形是描述多维空间结构,局部具有欧氏空间性质的空间. 其研究空间不一定满足欧几里得公设,而是由度量张量的概念所描述的,此概念可以用来定义黎曼空间中2点之间的距离和角度度量概念以及测地线几何概念.
图 2
黎曼几何内积空间定义如下:
式中:
式中:
基于
黎曼距离是基于流形的几何结构和黎曼度量定义的黎曼空间中的距离度量. 定义流形空间
黎曼均值是一组数据点在流形空间中的中心点. 因为流形空间特有的几何结构,黎曼均值的计算不能简单地通过求取平均值得到,通常须通过迭代法计算得到[22].
黎曼距离的计算须以黎曼均值作为参考. 以计算的黎曼均值矩阵作为参考平面,计算两两电极矩阵之间的距离. 首先分别计算
1.2.2. 非度量型多维尺度变换算法
为了讨论脑电电极通道携带特征之间的信息流距离远近问题,用非度量型多维尺度变换算法衡量其距离关系.
NMDS是将数据从高维映射到低维,既保留原始数据关系,又方便进行定性分析的一种降维算法. 与度量算法不同,非度量算法不刻画具体位置,仅对脑电电极的相对位置做出排序. 输入为电极通道之间的黎曼距离矩阵,根据距离矩阵NMDS算法计算获得电极通道的单调关系,使得黎曼空间中相邻的电极在输出顺序中距离尽可能相近.
电极之间的黎曼距离与排序后的距离相近性计算公式如下:
式中:
NMDS算法是迭代优化
1.3. 特征提取及处理
提取脑电信号的PCC作为CNN分支网络的特征,相关性计算公式如下:
式中:
图 3
图 4
为了补充不同视角信息使网络可以更好地进行情感识别,选取DE和PSD特征作为Transformer分支网络的输入.
DE特征是脑电的一种非线性特征,是香农信息熵在连续变量上的推广形式,计算公式如下:
PSD特征表示脑电信号不同频段的平均能量,通过对时域信号
式中:f为频率.
1.4. STC网络
STC网络主要由2部分组成:CNN网络和Space Transformer CNN混合网络,如图5所示. CNN分支网络从基于黎曼距离排列的脑电通道PCC特征中进行局部视野学习,Transformer-CNN分支网络从DE和PSD特征中进行时间序列的全局视野学习,并利用基于黎曼距离的脑电通道顺序添加空间位置编码信息.
图 5
图 5 基于黎曼流形位置编码的识别网络
Fig.5 Recognition network based on Riemannian manifold position encoding
1) CNN网络:由卷积层、最大池化层和全连接层组成. Dropout设置为0.5防止网络过拟合,并添加正则化层防止网络波动. 采用Adam算法进行网络模型训练,交叉熵作为评估指标的损失函数. 学习率设置为
2) Space Transformer CNN网络:Transformer模型无法自己建立输入序列的空间关系,但是脑电信号具有较强的空间维度关联特性,为了使模型能更好地学习脑电信号的输入特征,本研究将基于黎曼流形空间的脑电通道位置进行编码添加到Transformer网络. 具体计算公式如下:
式中:
式中:
Transformer网络的核心架构是多头自注意力模型[17],该机制能够同时关注输入序列的不同位置,从而有效捕捉长距离依赖关系,具体计算公式如下:
式中:
1.5. 配对t检验
配对t检验是一种常见的t检验方法,指同一个样本,在不同环境下进行分析,以评价环境对样本的影响,计算公式如下:
式中:
2. 实验与结果分析
2.1. 不同情感识别模型的性能对比
将提出的RM-STC网络与具有代表性的EEG情绪识别方法进行对比. 不同方法在DEAP数据库的平均准确率如表1所示,除RM-LSTM方法外,所有对比方法的结果均来自于原文献. 其中,A1、A2分别为效价维、唤醒维识别准确率. Yin等[23]使用 MESAE 对多模态信号进行二分类情感识别,Piho等[24]通过KNN模型学习统计特征并进行情感分类, Garg等[25]使用 Merged LSTM 模型建模特征关系进行情感识别,Moon等[13]通过CNN模型学习连通性特征进而进行情感识别,Zhou等[26]通过离散小波变化计算特征并通过KNN分类器进行情感识别,Zheng等[17]通过STS-Transformer模型学习端到端特征进行情感识别. Zhang等[22]提出黎曼流形和欧几里德空间的时空脑电表征学习,表中RM-LSTM方法为笔者复现结果.
表 1 不同情感识别模型的性能对比结果
Tab.1
从表1对比结果可见,本研究提出的RM-STC网络模型优于对比模型. 相较于机器学习中的KNN、DWT-KNN,在效价维分别提升7.75和1.01个百分点,在唤醒维分别提升8.21和3.78个百分点. 相较于深度学习MESAE、Merged LSTM、CNN、STS-Transformer、RM-LSTM模型,在效价维分别提升14.34、5.62、10.23、0.65和0.56个百分点,在唤醒维分别提升13.79、7.13、4.15和2.25个百分点. 验证了提出方法的有效性.
2.2. 基于黎曼流形的电极排列性能
表 2 CNN网络架构
Tab.2
类型 | 输出形状 | kern | step |
Convolution | 32×2×32 | 3 | 1 |
Convolution | 32×32×64 | 3 | 1 |
Max-pooling | 16×16×64 | 2×2 | 2 |
Convolution | 16×16×128 | 3 | 1 |
Convolution | 16×16×256 | 3 | 1 |
Max-pooling | 8×8×256 | 2×2 | 2 |
Dense | 256 | — | — |
Softmax | 2 | — | — |
不同排列方式的识别性能如表3所示,除电极排列方式外,其他条件均相同,
表 3 不同电极排列方式消融实验结果
Tab.3
从表3对比结果可见,相较于文献[13]提出的dist和dist-restr方法,本研究提出的RM-SUM和RM-PER方法在不同卷积核大小的条件下均有一定提升. 本研究提出的ES-SUM相较于dist和dist-restr方法略有提升. 经过配对t检验发现,基于黎曼流形的排序方法结果显著性高于基于欧氏空间的排序方法结果显著性(p<0.05)和基于常规的排序方法结果显著性(p<0.05). 表明黎曼空间更适合表征电极通道所携带的脑电信号特征,说明基于黎曼的电极排列方式可以较好地模拟脑内信息的流向,使CNN网络可以更好地卷积学习到EEG信号知识. 同时,从表中可以看出,所有被试共用同一电极排列顺序的识别率,高于为每个被试单独训练顺序的情况,可能是因为单独训练时,每个被试的样本数量较少,导致模型难以学习到最优的电极排列顺序.
2.3. RM-STC模型识别性能
对RM-STC模型进行消融实验,结果如表4所示. 其中,std1、std2分别表示效价维、唤醒维识别准确率的标准差. CNN为卷积核大小为7,未添加Transformer、黎曼顺序排列、位置编码模块的识别网络模型;TC为未添加黎曼顺序排列、位置编码的识别网络模型;RM-STC为本研究提出的最终模型.可以看出,单分支CNN网络在效价维和唤醒维识别率都最低. TC相较CNN,在效价和唤醒维上分别提升2.19和2.35个百分点. RM-STC相较于CNN,在效价维和唤醒维分别提升3.31和3.54个百分点. 验证了本研究提出方法的有效性.
表 4 RM-STC模型消融实验结果
Tab.4
模型 | A1 (std1) | A2 (std2) |
CNN | 87.20(4.22) | 87.44(4.15) |
TC | 89.39(3.98) | 89.79(3.58) |
RM-STC | 90.51(3.82) | 90.98(3.80) |
32个被试在不同网络模型的效价维识别准确率A1如图6所示,本研究提出的RM-STC相较于CNN在每个被试的表现上都有不同程度的提高,在第22个被试和第30个被试提升最明显,分别提升8.25和10.11个百分点.
图 6
图 6 不同模型每个被试结果(效价维)
Fig.6 Results of each subject in different models (valence)
32个被试在不同网络模型的唤醒维识别准确率A2如图7所示,相较于CNN,本研究提出的RM-STC在每个被试的表现上都有不同程度的提高,在第14个被试和28个被试上提升最明显,分别提升6.36和6.71个百分点.
图 7
图 7 不同模型每个被试结果(唤醒维)
Fig.7 Results of each subject in different models (arousal)
3. 结 语
为了更好地利用EEG情感信号实际流向与脑电通道的空间位置进行情感识别,本研究提出RM-STC识别网络. 该网络通过计算脑电通道的黎曼距离重新排列通道顺序,获得新的特征顺序. 为了补充视角,在原始CNN网络引入Transformer-CNN混合网络分支,利用Transformer网络擅长捕获全局关联的优点,补充识别网络的全局视角,并将基于黎曼流形的空间顺序映射为位置编码信息嵌入Transformer-CNN网络为其提供额外的空间位置信息.
本研究提出的RM-STC网络在DEAP数据集上的实验结果证明该方法的有效性,消融实验证明各部分对于该识别效果的贡献. 与现有研究相比,本研究对于脑电信息流的流动方向与空间位置有进一步的探索. 在未来的工作中,将考虑脑电信号的多方向信息流向;进行多模态的情感识别研究;探索电极排列方法在跨被试情感识别上的潜力.
参考文献
Emotion recognition with attention mechanism-guided dual-feature multi-path interaction network
[J].
Spontaneous speech emotion recognition using multiscale deep convolutional LSTM
[J].DOI:10.1109/TAFFC.2019.2947464 [本文引用: 1]
Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: a systematic review of recent advancements and future prospects
[J].DOI:10.1016/j.eswa.2023.121692 [本文引用: 1]
Estimation of continuous valence and arousal levels from faces in naturalistic conditions
[J].DOI:10.1038/s42256-020-00280-0 [本文引用: 1]
EEG emotion recognition based on the TimesNet fusion model
[J].DOI:10.1016/j.asoc.2024.111635 [本文引用: 1]
EEG oscillations: from correlation to causality
[J].DOI:10.1016/j.ijpsycho.2015.02.003 [本文引用: 1]
Investigating EEG-based functional connectivity patterns for multimodal emotion recognition
[J].DOI:10.1088/1741-2552/ac49a7 [本文引用: 1]
Hemispheric asymmetries and emotions: evidence from effective connectivity
[J].DOI:10.1016/j.neuropsychologia.2018.10.007 [本文引用: 1]
Brain network features based on theta-gamma cross-frequency coupling connections in EEG for emotion recognition
[J].DOI:10.1016/j.neulet.2021.136106 [本文引用: 1]
Multi-domain encoding of spatiotemporal dynamics in EEG for emotion recognition
[J].DOI:10.1109/JBHI.2022.3232497 [本文引用: 1]
Emotional EEG classification using connectivity features and convolutional neural networks
[J].DOI:10.1016/j.neunet.2020.08.009 [本文引用: 7]
A new approach for functional connectivity via alignment of blood oxygen level-dependent signals
[J].DOI:10.1089/brain.2018.0636 [本文引用: 1]
An end-to-end deep learning approach to MI-EEG signal classification for BCIs
[J].DOI:10.1016/j.eswa.2018.08.031 [本文引用: 1]
A Transformer based neural network for emotion recognition and visualizations of crucial EEG channels
[J].DOI:10.1016/j.physa.2022.127700 [本文引用: 1]
A spatiotemporal symmetrical transformer structure for EEG emotion recognition
[J].DOI:10.1016/j.bspc.2023.105487 [本文引用: 4]
Masked self-supervised pre-training model for EEG-based emotion recognition
[J].DOI:10.1111/coin.12659 [本文引用: 1]
The trouble with stress: a flexible method for the evaluation of nonmetric multidimensional scaling
[J].DOI:10.1002/lom3.10257 [本文引用: 1]
Spatio-temporal EEG representation learning on Riemannian manifold and euclidean space
[J].DOI:10.1109/TETCI.2023.3332549 [本文引用: 3]
Recognition of emotions using multimodal physiological signals and an ensemble deep learning model
[J].DOI:10.1016/j.cmpb.2016.12.005 [本文引用: 2]
A mutual information based adaptive windowing of informative EEG for emotion recognition
[J].DOI:10.1109/TAFFC.2018.2840973 [本文引用: 2]
An AI-empowered affect recognition model for healthcare and emotional well-being using physiological signals
[J].DOI:10.1007/s10586-022-03705-0 [本文引用: 2]
/
〈 |
|
〉 |
