基于注意力机制和深度学习的群体语言想象脑电信号分类
Classification of group speech imagined EEG signals based on attention mechanism and deep learning
通讯作者:
收稿日期: 2023-10-17
基金资助: |
|
Received: 2023-10-17
Fund supported: | 中国航空研究院首批揭榜挂帅项目(F2021109);上海航天科技创新基金资助项目(SAST2019-121);南京航空航天大学科研与实践创新计划资助项目(xcxjh20210104);江苏高校优势学科建设工程资助项目(PAPD). |
作者简介 About authors
周逸凡(2000—),男,硕士生,从事脑-机接口研究.orcid.org/0009-0004-4981-0132.E-mail:
为了提高群体语言想象脑电信号的分类准确率,提出基于卷积块注意力模块(CBAM)和Inception-V4卷积神经网络的分类方法,其中CBAM被用于关注重要的局部区域,从卷积神经网络(CNN)输出的特征图中提取更加独特的特征,从而提升群体语言想象脑电信号的分类性能. 该方法首先利用短时傅里叶变换将群体语言想象脑电信号转换为时频图,然后使用这些图片对融合了CBAM机制的Inception-V4网络进行训练. 开源数据集上的实验结果表明,所提出的方法使得6类短词的分类准确率达到了52.2%,与基于Inception-V4的分类方法相比,分类准确率提高了4.1个百分点,与基于VGG-16的分类方法相比,分类准确率提高了5.9个百分点. 使用迁移学习也能够大幅缩短训练所需的时间.
关键词:
A classification method based on convolutional block attention module (CBAM) and Inception-V4 convolutional neural network was proposed to improve the classification accuracy of group EEG signals of imagined speech. CBAM was used to emphasize significant localized areas and extract distinctive features from the output feature map of convolutional neural network (CNN), so as to improve the classification performance of group EEG signals of imagined speech. The group EEG signals of imagined speech were converted into time-frequency images by short-time Fourier transform, then the images were used to train the Inception-V4 network incorporating with CBAM. Experiments on an open-accessed dataset showed that the proposed method achieved an accuracy of 52.2% in classifying six types of short words, which was 4.1 percentage points higher than that with Inception-V4 and was 5.9 percentage points higher than that with VGG-16. Furthermore, the training time can be reduced greatly with transfer learning.
Keywords:
本文引用格式
周逸凡, 张灵维, 周正东, 蔡智, 袁梦瑶, 袁晓曦, 杨泽毅.
ZHOU Yifan, ZHANG Lingwei, ZHOU Zhengdong, CAI Zhi, YUAN Mengyao, YUAN Xiaoxi, YANG Zeyi.
脑机接口(brain-computer interface,BCI)旨在提供一种与外界环境互动的沟通媒介[1]. 脑电图(electroencephalogram ,EEG)具有经济、便携、时间分辨率高等特点,在智能控制[2]、疲劳检测[3]、情绪识别[4-5]等领域具有广泛的应用. 目前,比较流行的BCI范式包括运动想象(motor imagery,MI)[6]和语言想象(speech imagery,SI)[7]. SI是最新出现的BCI范式之一,它表示在不发出声音或清晰地做出面部动作的情况下想象单词发音的心理过程. 相比于其他的BCI范式,SI是最接近自然的一种沟通通路,因此成为当前的研究热点之一[8]. Van Den Berg等 [9]提出基于EEGnet架构的二维卷积神经网络模型,该模型对单词进行4分类,具有29.7%的平均准确率. Rusnac等[10]提出CNN模型,在7个音节与4个单词的群体语言想象脑电信号分类中实现了37.1%的平均准确率. Lee等[11]提出基于瞬时频率和谱熵的Siamese神经网络框架,对群体语言想象脑电信号进行6分类,平均准确率为45.0%. 尽管针对群体语言想象脑电信号的分类准确率取得了较大进步,但离实际应用仍有一定距离,主要原因在于个体的脑电信号之间存在显著差异.
本研究提出结合卷积块注意力模块(convolutional block attention module,CBAM)与 Inception-V4 神经网络的群体语言想象脑电信号解码方法. 该方法通过引入 CBAM 来突出关键特征,从而提高对脑电信号的解码精度,并利用 Inception-V4 的深度学习架构进行高效的信息提取与处理.
1. 材料与方法
1.1. 数据集与信号预处理
使用的数据集由Coretto[12]记录,该数据集包含元音和单词想象发音过程中的脑电图信号. 该实验包含了6个西班牙单词,“arriba”、“abajo”、“derecha”、“izquierda”、“adelante” 和 “atras” (分别对应上、下、左、右、后、前6个中文单词). 研究对象包括15名健康的志愿者(7名女性和8名男性).
该公开数据集采用国际10-20标准(
图 1
图 1 脑电信号采集的电极分布位置
Fig.1 Position of electrode for electroencephalogram signal acquisition
1.2. 短时傅里叶变换
脑电信号是一维时域信号,难以直接用于信号分类. 为此,运用短时傅里叶变换(short-time Fourier transform,STFT)将每个通道采集的脑电信号转化为对应的时频图[14]. 设原始连续信号为s(τ),给定一个时间长度较短的窗口,令其沿时间轴移动,则s(τ)的STFT定义如下:
式中:
针对短时傅里叶变换窗函数窗口长度的选择,须同时兼顾时间和频率分辨率,因此设窗函数g(t)的有效时宽为
图 2
本研究使用的语言想象脑电信号数据集采集了6个通道的脑电信号,分别对其进行STFT,每段想象语言的EEG生成6张时频图. 将变换后的6个通道的时频图按照2×3的矩阵进行拼接,第1行从左到右依次是F3、C3、P3通道的时频图,第2行是F4、C4、P4通道的时频图. 最后将6通道的6张时频图融合为1张,如图2(b)所示,并将其作为卷积神经网络(convolutional neural network,CNN)的数据集.
1.3. 卷积神经网络
CNN是一种包含卷积计算且具有深度结构的前馈网络,是深度学习领域的代表算法之一,通常由输入层、隐藏层和输出层组成. 输入层包含做好标记的图片集;隐藏层,也被叫做卷积层,包含各种大小的卷积核用来提取输入层中图片的特征;输出层是一个比输入图像具有更小维度的特征映射.
图 3
1.4. 注意力机制
注意力在人类视觉系统中起着至关重要的作用[17],人类不会一次性处理所有的场景. 因此,注意力机制的核心思想是分别通过学习通道注意和空间注意来细化三维特征图,不仅可以告诉神经网络模型须关注的地方,还可以改善特征的表示、抵抗噪音干扰并专注于有效信息.
图 4
当一张图片输入CBAM后,同时使用平均池化和最大池化提取特征,然后再将该特征送入到一个共享的多层感知机网络中产生最终的通道注意力特征图. 随后在2个通道上分别进行平均池化和最大池化,然后将他们产生的特征图进行拼接,在拼接后的特征图上使用卷积操作形成最终的空间注意力特征图.
2. 基于CBAM和Inception-V4的脑电解码
2.1. 基于CBAM和Inception-V4的脑电信号解码模型
CBAM注意力机制被嵌入到Inception-V4网络中,模型结构如图5所示. 将拼接后的时频图输入模型,首先经过Inception-V4的STEM模块初步提取特征,接着将特征图片输入到Inception-V4网络中的多个Inception和Reduction模块进一步提取特征,图中使用Conv Layer代替. 随后将图片输入至CBAM注意力模块以定位特征. 最后使用Softmax输出分类结果.
图 5
图 5 融合了CBAM的Inception-V4网络结构图
Fig.5 Structure of Inception-V4 network incorporating CBAM
2.2. 基于CBAM和Inception-V4的脑电信号解码流程
基于CBAM和Inception-V4的脑电信号解码方法流程图如图6所示. 整体结构分为4大部分:
图 6
图 6 基于CBAM和Inception-V4的群体语言想象脑电信号分类方法流程图
Fig.6 Flow chart of classification method of group EEG signals of imagined speech based on CBAM and Inception-V4
1) 获取原始数据集并提取其中需要的部分;
2) 数据预处理. 在获得数据集中原始数据后,对数据集中数据采用0~40 Hz的巴特沃斯带通滤波器对原始脑电信号进行滤波;
3) 使用STFT时频分析方法将一维时间序列信号转变为二维的时间-频率图像;
4) 使用融合了注意力机制的Inception-V4网络训练数据集得到网络参数,对信号进行分类.
3. 实验结果与讨论
3.1. 实验环境
所提出的卷积神经网络模型在Windows10系统环境下进行训练,服务器采用8核Intel(R) Xeon(R) W-
3.2. 时频变换窗口长度对分类性能的影响
STFT中不同的窗口长度w会对分类结果产生较大的影响,因此本研究根据每段语言想象脑电信号的采样点数4 096,分别使用1/32、1/8和1/4的信号长度,即w=128、512和1 024进行测试,对生成的时频图进行拼接后形成的图像如图7所示.
图 7
对不同窗口长度生成的图像使用Inception-V4网络进行分类,其损失函数的Loss值l随着训练步数s的变化曲线如图8所示. 其中w=512、
图 8
图 8 不同窗口长度下群体语言想象脑电信号损失函数的Loss值随训练步数的变化曲线
Fig.8 Loss function curve with training steps for group EEG signals of imagined speech under different window lengths
将不同窗口长度生成的短时傅里叶变换图像训练集与验证集输入到Inception-V4神经网络中进行训练,并对测试集进行分类. 实验结果表明:当w=512时,运用Inception-V4神经网络分类的准确率A最高,达到48.1%,平衡了时间分辨率和频率分辨率. 当w=128时,分类准确率较低,仅为43.3%,且收敛较慢. 当w=1 024时,分类准确率为45.6%,略低于w=512时的准确率,而且收敛速度稍慢于w=512时的STFT. 故采用w=512时的STFT生成时频图.
图 9
3.3. 不同类型网络的分类性能对比
在相同数据集下,Inception-V4网络的群体语言想象脑电信号分类准确率最高,为48.1%. 该准确率高于与LeNet-5网络的23.1%和Inception-V3网络的39.5%,也高于Inception ResNet-V2网络的42.7%和VGG-16网络的46.3%.
如图10所示给出了运用Inception-V4网络进行群体语言想象脑电信号分类的混淆矩阵,更直观展示出了该网络的分类效果. 推测Inception-V4优于其他网络的原因是该网络中的Stem模块快速缩减了图像的大小,适合脑电信号这样特征较为明显且对分辨率要求较低的情况. 因此本模型选择Inception-V4网络作为接下来优化的对象.
图 10
图 10 基于Inception-V4的群体语言想象脑电信号分类混淆矩阵
Fig.10 Classification confusion matrix of group EEG signals of imagined speech based on Inception-V4
3.4. 结合注意力机制的Inception-V4网络分类性能讨论
注意力机制的种类和插入的位置对分类准确率有一定影响,考虑到注意力模块的输入与输出为图像形式,同时为了保证Inception-V4网络结构的完整性,选择在Inception-V4网络的Average Pooling模块之前和STEM模块之后2个位置分别插入CBAM、STN和ECANet这3种注意力机制对比其分类效果,得到的结果如表1所示.
表 1 不同注意力机制不同插入位置下的分类准确率比较
Tab.1
位置 | 注意力机制 | |||
STN | ECANet | CBAM | 不使用 | |
STEM后 | 20.7% | 22.4% | 39.6% | 48.1% |
Avg Pooling前 | 49.3% | 49.5% | 52.2% |
5折交叉验证后的结果表明,在Average Pooling模块之前插入注意力模块的模型准确率显著高于在STEM模块之后插入注意力模块的模型. 而加入卷积块注意力模块(CBAM)的模型达到了52.2%的最高准确率,相较于未应用注意力机制的模型提高了4.1个百分点. 这一发现不仅彰显了注意力机制在脑电信号解码任务中的重要性,而且显示出不同插入位置和模块组合对模型性能的显著影响.
如表2所示给出了使用相同的数据集、不同网络模型的分类准确率A. 可以看出,本研究提出的融合了CBAM注意力机制的Inception-V4网络取得了最高的准确率,相较于仅使用VGG-16网络的分类准确率提高了5.9个百分点. 与其他方法相比,本研究所提模型的准确率有显著提升的原因主要有2点:1)Inception-V4网络结构优势. Stem模块快速减小图像分辨率定位特征,Inception模块在一个卷积层中把不同大小的卷积核组合在一起,不仅可以增大感受野,而且还可以提高神经网络的鲁棒性,十分适合脑电信号图像分类. 2)CBAM注意力机制的优势. 空间注意力可使神经网络更加关注图像中对分类起重要作用的像素区域,通道注意力则用于处理特征图通道的分配关系,同时对2个维度进行注意力分配,增强了注意力机制对模型性能的提升.
表 2 群体语言想象EEG信号分类准确率的比较
Tab.2
3.5. 结合迁移学习的Inception-v4网络分类性能讨论
如表3所示为使用迁移学习情况下的训练时间tt和分类准确率A. “源域”一栏若为“无”表示未使用迁移学习,“使用网络”一栏若为“改Inception-V4”表示使用的网络是本研究提出的融合注意力机制后的Inception-V4模型.
表 3 迁移学习下信号分类准确率对比
Tab.3
编号 | 源域(已训练数据集) | 目标域(要训练数据集) | 使用网络 | tt/h | A/% |
1 | 无 | Correto公开数据集 | Inception-V4 | 168 | 48.1 |
2 | ImageNet- | Correto公开数据集 | Inception-V4 | 171 | 47.7 |
3 | 无 | Correto公开数据集 | 改Inception-V4 | 172 | 52.2 |
4 | BCI Competition IV-2b数据集[25] | Correto公开数据集 | 改Inception-V4 | 69 | 51.8 |
ImageNet-
4. 结 语
为了提高群体语言想象脑电信号的分类精度,提出融合CBAM注意力机制的Inception-V4神经网络的语言想象脑电信号分类模型. 此模型首先对数据集进行预处理,接着对群体语言想象脑电信号进行短时傅里叶变换,生成6个通道的时频图,并对6通道的时频图进行拼接形成信息完整的图像,然后将此类图像作为数据集输入至融合了CBAM的Inception-V4卷积神经网络中进行训练. 实验结果表明,在窗口长度为512时使用Inception-V4网络并在全连接层前插入CBAM注意力机制的分类方法准确率最高,达到了52.2%,使得群体语言想象脑电信号分类的准确率大幅提高,高出六分类问题的机会水平16.7个百分点. 同时也证明在类似数据集间使用迁移学习能够有效减少训练时间.
随着项目的进行,计划在未来的探索中进一步改进脑电信号处理方法,更高效地提取信号中的有效信息. 同时,也将寻找样本数量更大的数据集以提高分类效果.
参考文献
Evaluation of hyperparameter optimization in machine and deep learning methods for decoding imagined speech EEG
[J].DOI:10.3390/s20164629 [本文引用: 1]
Determination of effective signal processing stages for brain computer interface on BCI competition IV data set 2b: a review study
[J].DOI:10.1080/03772063.2021.1914204 [本文引用: 1]
Inferring imagined speech using EEG signals: a new approach using Riemannian manifold features
[J].
EEG control of a virtual helicopter in 3-dimensional space using intelligent control strategies
[J].DOI:10.1109/TNSRE.2010.2077654 [本文引用: 1]
Statistical channel selection method for detecting drowsiness through single-channel EEG-based BCI system
[J].
Adaptive tunable Q wavelet transform-based emotion identification
[J].DOI:10.1109/TIM.2020.3006611 [本文引用: 1]
Ensemble machine learning-based affective computing for emotion recognition using dual-decomposed EEG signals
[J].
Most popular signal processing methods in motor-imagery BCI: a review and meta-analysis
[J].
基于言语想象的脑机交互关键技术
[J].DOI:10.7507/1001-5515.202107018 [本文引用: 1]
Key technology of brain-computer interaction based on speech imagery
[J].DOI:10.7507/1001-5515.202107018 [本文引用: 1]
CNN architectures and feature extraction methods for EEG imaginary speech recognition
[J].DOI:10.3390/s22134679 [本文引用: 1]
Decoding imagined speech based on deep metric learning for intuitive BCI communication
[J].
Are alpha and beta oscillations spatially dissociated over the cortex in context-driven spoken-word production?
[J].DOI:10.1111/psyp.13999 [本文引用: 1]
Comparative performance analysis of hamming, hanning and blackman window
[J].DOI:10.5120/16891-6927 [本文引用: 1]
Unconscious number discrimination in the human visual system
[J].DOI:10.1093/cercor/bhaa155 [本文引用: 1]
/
〈 |
|
〉 |
