基于注意力机制和深度学习的群体语言想象脑电信号分类

doi:10.3785/j.issn.1008-973X.2024.12.013

基于注意力机制和深度学习的群体语言想象脑电信号分类

周逸凡^,, 张灵维, 周正东^,, 蔡智, 袁梦瑶, 袁晓曦, 杨泽毅

1. 南京航空航天大学航空航天结构力学及控制国家重点实验室，江苏南京 210016

2. 芯原微电子（南京）有限公司，江苏南京 210000

Classification of group speech imagined EEG signals based on attention mechanism and deep learning

ZHOU Yifan^,, ZHANG Lingwei, ZHOU Zhengdong^,, CAI Zhi, YUAN Mengyao, YUAN Xiaoxi, YANG Zeyi

1. State Key Laboratory of Mechanics and Control for Aerospace Structures, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

2. VeriSilicon Holdings (Nanjing) Co. Ltd, Nanjing 210000, China

通讯作者: 周正东，男，副教授. orcid.org/0000-0002-1277-9782. E-mail：zzd_msc@nuaa.edu.cn

收稿日期: 2023-10-17

基金资助:

中国航空研究院首批揭榜挂帅项目（F2021109）；上海航天科技创新基金资助项目 (SAST2019-121）；南京航空航天大学科研与实践创新计划资助项目（xcxjh20210104）；江苏高校优势学科建设工程资助项目（PAPD）.

Received: 2023-10-17

Fund supported:

中国航空研究院首批揭榜挂帅项目（F2021109）；上海航天科技创新基金资助项目(SAST2019-121）；南京航空航天大学科研与实践创新计划资助项目（xcxjh20210104）；江苏高校优势学科建设工程资助项目（PAPD）.

作者简介 About authors

周逸凡（2000—），男，硕士生，从事脑-机接口研究.orcid.org/0009-0004-4981-0132.E-mail：sz2201046@nuaa.edu.cn , E-mail：sz2201046@nuaa.edu.cn

摘要

为了提高群体语言想象脑电信号的分类准确率，提出基于卷积块注意力模块（CBAM）和Inception-V4卷积神经网络的分类方法，其中CBAM被用于关注重要的局部区域，从卷积神经网络（CNN）输出的特征图中提取更加独特的特征，从而提升群体语言想象脑电信号的分类性能. 该方法首先利用短时傅里叶变换将群体语言想象脑电信号转换为时频图，然后使用这些图片对融合了CBAM机制的Inception-V4网络进行训练. 开源数据集上的实验结果表明，所提出的方法使得6类短词的分类准确率达到了52.2%，与基于Inception-V4的分类方法相比，分类准确率提高了4.1个百分点，与基于VGG-16的分类方法相比，分类准确率提高了5.9个百分点. 使用迁移学习也能够大幅缩短训练所需的时间.

关键词： 脑-机接口 ; 脑电图 ; 语言想象 ; 深度学习 ; 注意力机制

Abstract

A classification method based on convolutional block attention module (CBAM) and Inception-V4 convolutional neural network was proposed to improve the classification accuracy of group EEG signals of imagined speech. CBAM was used to emphasize significant localized areas and extract distinctive features from the output feature map of convolutional neural network (CNN), so as to improve the classification performance of group EEG signals of imagined speech. The group EEG signals of imagined speech were converted into time-frequency images by short-time Fourier transform, then the images were used to train the Inception-V4 network incorporating with CBAM. Experiments on an open-accessed dataset showed that the proposed method achieved an accuracy of 52.2% in classifying six types of short words, which was 4.1 percentage points higher than that with Inception-V4 and was 5.9 percentage points higher than that with VGG-16. Furthermore, the training time can be reduced greatly with transfer learning.

Keywords： brain-computer interface ; electroencephalogram ; speech imagery ; deep learning ; attention mechanism

PDF (1087KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

周逸凡, 张灵维, 周正东, 蔡智, 袁梦瑶, 袁晓曦, 杨泽毅. 基于注意力机制和深度学习的群体语言想象脑电信号分类. 浙江大学学报(工学版)[J], 2024, 58(12): 2540-2546 doi:10.3785/j.issn.1008-973X.2024.12.013

ZHOU Yifan, ZHANG Lingwei, ZHOU Zhengdong, CAI Zhi, YUAN Mengyao, YUAN Xiaoxi, YANG Zeyi. Classification of group speech imagined EEG signals based on attention mechanism and deep learning. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2540-2546 doi:10.3785/j.issn.1008-973X.2024.12.013

脑机接口（brain-computer interface，BCI）旨在提供一种与外界环境互动的沟通媒介^[1]. 脑电图（electroencephalogram ，EEG）具有经济、便携、时间分辨率高等特点，在智能控制^[2]、疲劳检测^[3]、情绪识别^[4-5]等领域具有广泛的应用. 目前，比较流行的BCI范式包括运动想象（motor imagery，MI）^[6]和语言想象（speech imagery，SI）^[7]. SI是最新出现的BCI范式之一，它表示在不发出声音或清晰地做出面部动作的情况下想象单词发音的心理过程. 相比于其他的BCI范式，SI是最接近自然的一种沟通通路，因此成为当前的研究热点之一^[8]. Van Den Berg等^[9]提出基于EEGnet架构的二维卷积神经网络模型，该模型对单词进行4分类，具有29.7%的平均准确率. Rusnac等^[10]提出CNN模型，在7个音节与4个单词的群体语言想象脑电信号分类中实现了37.1%的平均准确率. Lee等^[11]提出基于瞬时频率和谱熵的Siamese神经网络框架，对群体语言想象脑电信号进行6分类，平均准确率为45.0%. 尽管针对群体语言想象脑电信号的分类准确率取得了较大进步，但离实际应用仍有一定距离，主要原因在于个体的脑电信号之间存在显著差异.

本研究提出结合卷积块注意力模块（convolutional block attention module，CBAM）与 Inception-V4 神经网络的群体语言想象脑电信号解码方法. 该方法通过引入 CBAM 来突出关键特征，从而提高对脑电信号的解码精度，并利用 Inception-V4 的深度学习架构进行高效的信息提取与处理.

1. 材料与方法

1.1. 数据集与信号预处理

使用的数据集由Coretto^[12]记录，该数据集包含元音和单词想象发音过程中的脑电图信号. 该实验包含了6个西班牙单词，“arriba”、“abajo”、“derecha”、“izquierda”、“adelante” 和 “atras” （分别对应上、下、左、右、后、前6个中文单词）. 研究对象包括15名健康的志愿者（7名女性和8名男性）.

该公开数据集采用国际10-20标准（https://pubmed.ncbi.nlm.nih.gov/10590970/），采集电极被置于大脑代表语言区域的F3、F4、C3、C4、P3和P4位置，如图1所示. 数据集采集了被试者语言想象时上述6个通道的脑电信号，采样频率为1024 Hz，每个样本采样时长为4 s，每个样本共记录了24576个采样数据. 15名被试者共有2852个样本.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 脑电信号采集的电极分布位置

Fig.1 Position of electrode for electroencephalogram signal acquisition

脑电信号是非常微弱的生物电信号，易受眨眼、吞咽、晃动等肌肉活动以及电源和声音的干扰. 由于采集设备自带陷波滤波器^[12]，而且数据集中的脑电信号已进行了去基线的操作，基线漂移问题已经被解决，因此当受试者想象说话时，大脑语言区域的α和β节律频段会出现明显振荡^[13]. α和β节律频段为8~30 Hz，同时对语言想象的研究主要集中在EEG信号的40 Hz以下的频带中，因此采用0~40 Hz的巴特沃斯带通滤波器对原始脑电信号进行滤波.

1.2. 短时傅里叶变换

脑电信号是一维时域信号，难以直接用于信号分类. 为此，运用短时傅里叶变换（short-time Fourier transform，STFT）将每个通道采集的脑电信号转化为对应的时频图^[14]. 设原始连续信号为s(τ)，给定一个时间长度较短的窗口，令其沿时间轴移动，则s(τ)的STFT定义如下：

(1)$ {\mathrm{S}\mathrm{T}\mathrm{F}\mathrm{T}}_{\mathrm{s}}\left(\tau ,f\right)=\displaystyle\int_{-\infty }^{\infty }\left[s\left(\tau\right){g}^{*}(\tau -t)\right]{\mathrm{exp}}\;\;({-{\mathrm{j}}2\mathrm{{\text{π}} }f\tau })\;{\rm{d}}\tau . $

式中：$ {\mathrm{S}\mathrm{T}\mathrm{F}\mathrm{T}}_{\mathrm{s}}(t,f) $表示频谱，g(t)表示窗函数，*表示复数共轭，$ t $表示时间，f表示频率.

针对短时傅里叶变换窗函数窗口长度的选择，须同时兼顾时间和频率分辨率，因此设窗函数g(t)的有效时宽为$ \Delta t $，带宽为$ \Delta f $，则两者的乘积服从Heisenberg不等式，表达式如下：

(2)$ \Delta t \cdot \Delta f \geqslant \frac{1}{2} . $

选择具有较好的频率分辨率且能减少频谱泄露的Hamming窗函数^[15]，如图2(a)所示显示了一个单通道脑电信号的时频图. 该图像原始大小为20$ \times $15，随后将其拉伸至299$ \times $299. 图中，t为信号时间，f为频率（0~40 Hz）.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 时间-频率图像

Fig.2 Time-frequency graph

本研究使用的语言想象脑电信号数据集采集了6个通道的脑电信号，分别对其进行STFT，每段想象语言的EEG生成6张时频图. 将变换后的6个通道的时频图按照2×3的矩阵进行拼接，第1行从左到右依次是F3、C3、P3通道的时频图，第2行是F4、C4、P4通道的时频图. 最后将6通道的6张时频图融合为1张，如图2(b)所示，并将其作为卷积神经网络（convolutional neural network，CNN）的数据集.

1.3. 卷积神经网络

CNN是一种包含卷积计算且具有深度结构的前馈网络，是深度学习领域的代表算法之一，通常由输入层、隐藏层和输出层组成. 输入层包含做好标记的图片集；隐藏层，也被叫做卷积层，包含各种大小的卷积核用来提取输入层中图片的特征；输出层是一个比输入图像具有更小维度的特征映射.

与VGG16、ResNet、LeNet等其他卷积神经网络相比，Inception-V4^[16]网络在2个隐藏层之间嵌入了多个卷积核，这种设计在减少参数量的同时有效提高了网络性能. Inception-V4网络包括Stem、Inception-A、Inception-B、Inception-C、Reduction-A、Reduction-B等关键模块，共有76层，如图3所示. 其中，Stem模块能够快速降低分辨率，减少后续模块计算量；Inception模块用来学习图片特征；Reduction模块用来改变网络的宽度和高度.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 Inception-V4网络框架^[16]

Fig.3 Network framework of Inception-V4^[16]

1.4. 注意力机制

注意力在人类视觉系统中起着至关重要的作用^[17]，人类不会一次性处理所有的场景. 因此，注意力机制的核心思想是分别通过学习通道注意和空间注意来细化三维特征图，不仅可以告诉神经网络模型须关注的地方，还可以改善特征的表示、抵抗噪音干扰并专注于有效信息.

Woo等^[18]提出一种新的卷积注意力模块CBAM，它包含2个连续的子模块：通道注意力模块（channel attention module，CAM）和空间注意力模块（spatial attention module，SAM）. 如图4所示显示了CBAM与CAM和SAM的总体关系.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 CBAM注意力结构^[18]

Fig.4 Attention structure of CBAM^[18]

当一张图片输入CBAM后，同时使用平均池化和最大池化提取特征，然后再将该特征送入到一个共享的多层感知机网络中产生最终的通道注意力特征图. 随后在2个通道上分别进行平均池化和最大池化，然后将他们产生的特征图进行拼接，在拼接后的特征图上使用卷积操作形成最终的空间注意力特征图.

除了上述的CBAM注意力机制，常见的还有STN空间变换网络^[19]，它通过学习输入的形变，从而完成适合任务的预处理操作，是一种基于空间的注意力模块. 另一个流行的通道注意力机制ECANet^[20]的核心思想是在卷积操作中引入通道注意力机制，以捕捉不同通道之间的关系，从而提升特征表示的能力.

2. 基于CBAM和Inception-V4的脑电解码

2.1. 基于CBAM和Inception-V4的脑电信号解码模型

CBAM注意力机制被嵌入到Inception-V4网络中，模型结构如图5所示. 将拼接后的时频图输入模型，首先经过Inception-V4的STEM模块初步提取特征，接着将特征图片输入到Inception-V4网络中的多个Inception和Reduction模块进一步提取特征，图中使用Conv Layer代替. 随后将图片输入至CBAM注意力模块以定位特征. 最后使用Softmax输出分类结果.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 融合了CBAM的Inception-V4网络结构图

Fig.5 Structure of Inception-V4 network incorporating CBAM

2.2. 基于CBAM和Inception-V4的脑电信号解码流程

基于CBAM和Inception-V4的脑电信号解码方法流程图如图6所示. 整体结构分为4大部分：

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 基于CBAM和Inception-V4的群体语言想象脑电信号分类方法流程图

Fig.6 Flow chart of classification method of group EEG signals of imagined speech based on CBAM and Inception-V4

1) 获取原始数据集并提取其中需要的部分；

2) 数据预处理. 在获得数据集中原始数据后，对数据集中数据采用0~40 Hz的巴特沃斯带通滤波器对原始脑电信号进行滤波；

3) 使用STFT时频分析方法将一维时间序列信号转变为二维的时间-频率图像；

4) 使用融合了注意力机制的Inception-V4网络训练数据集得到网络参数，对信号进行分类.

3. 实验结果与讨论

3.1. 实验环境

所提出的卷积神经网络模型在Windows10系统环境下进行训练，服务器采用8核Intel（R） Xeon（R） W-2245 CPU 3.90 GHz，配有NVIDIA Quadro P2200 GPU. 软件配置方面采用Pycharm2020.2.1编译器、Python3.6解释器和TensorFlow2.0深度学习框架.

3.2. 时频变换窗口长度对分类性能的影响

STFT中不同的窗口长度w会对分类结果产生较大的影响，因此本研究根据每段语言想象脑电信号的采样点数4 096，分别使用1/32、1/8和1/4的信号长度，即w=128、512和1 024进行测试，对生成的时频图进行拼接后形成的图像如图7所示.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同窗长下的时频图

Fig.7 Time-frequency diagram with different window lengths

对不同窗口长度生成的图像使用Inception-V4网络进行分类，其损失函数的Loss值l随着训练步数s的变化曲线如图8所示. 其中w=512、1024时损失曲线相近，且下降速度相对较快，说明从此时的数据集中能够较为有效地提取出有用的特征进行分类.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 不同窗口长度下群体语言想象脑电信号损失函数的Loss值随训练步数的变化曲线

Fig.8 Loss function curve with training steps for group EEG signals of imagined speech under different window lengths

将不同窗口长度生成的短时傅里叶变换图像训练集与验证集输入到Inception-V4神经网络中进行训练，并对测试集进行分类. 实验结果表明：当w=512时，运用Inception-V4神经网络分类的准确率A最高，达到48.1%，平衡了时间分辨率和频率分辨率. 当w=128时，分类准确率较低，仅为43.3%，且收敛较慢. 当w=1 024时，分类准确率为45.6%，略低于w=512时的准确率，而且收敛速度稍慢于w=512时的STFT. 故采用w=512时的STFT生成时频图.

为了验证窗口长度选取的合理性，如图9所示给出了使用Grad-CAM的特征可视化^[21]后的结果. 图9(a)为用户想象“上”时的脑电信号经过STFT后的原始图像，图9(b)为采用Grad-CAM方法提取的加权后的特征图在原始图像上叠加生成的图像. 由图可知特征定位准确明显，窗长选择合理.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 Grad-CAM图像

Fig.9 Images through Grad-CAM

3.3. 不同类型网络的分类性能对比

在相同数据集下，Inception-V4网络的群体语言想象脑电信号分类准确率最高，为48.1%. 该准确率高于与LeNet-5网络的23.1%和Inception-V3网络的39.5%，也高于Inception ResNet-V2网络的42.7%和VGG-16网络的46.3%.

如图10所示给出了运用Inception-V4网络进行群体语言想象脑电信号分类的混淆矩阵，更直观展示出了该网络的分类效果. 推测Inception-V4优于其他网络的原因是该网络中的Stem模块快速缩减了图像的大小，适合脑电信号这样特征较为明显且对分辨率要求较低的情况. 因此本模型选择Inception-V4网络作为接下来优化的对象.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 基于Inception-V4的群体语言想象脑电信号分类混淆矩阵

Fig.10 Classification confusion matrix of group EEG signals of imagined speech based on Inception-V4

3.4. 结合注意力机制的Inception-V4网络分类性能讨论

注意力机制的种类和插入的位置对分类准确率有一定影响，考虑到注意力模块的输入与输出为图像形式，同时为了保证Inception-V4网络结构的完整性，选择在Inception-V4网络的Average Pooling模块之前和STEM模块之后2个位置分别插入CBAM、STN和ECANet这3种注意力机制对比其分类效果，得到的结果如表1所示.

表 1 不同注意力机制不同插入位置下的分类准确率比较

Tab.1 Comparison of accuracy of different attention mechanisms in different positions

位置	注意力机制
位置	STN	ECANet	CBAM	不使用
STEM后	20.7%	22.4%	39.6%	48.1%
Avg Pooling前	49.3%	49.5%	52.2%	48.1%

新窗口打开| 下载CSV

5折交叉验证后的结果表明，在Average Pooling模块之前插入注意力模块的模型准确率显著高于在STEM模块之后插入注意力模块的模型. 而加入卷积块注意力模块（CBAM）的模型达到了52.2%的最高准确率，相较于未应用注意力机制的模型提高了4.1个百分点. 这一发现不仅彰显了注意力机制在脑电信号解码任务中的重要性，而且显示出不同插入位置和模块组合对模型性能的显著影响.

如表2所示给出了使用相同的数据集、不同网络模型的分类准确率A. 可以看出，本研究提出的融合了CBAM注意力机制的Inception-V4网络取得了最高的准确率，相较于仅使用VGG-16网络的分类准确率提高了5.9个百分点. 与其他方法相比，本研究所提模型的准确率有显著提升的原因主要有2点：1）Inception-V4网络结构优势. Stem模块快速减小图像分辨率定位特征，Inception模块在一个卷积层中把不同大小的卷积核组合在一起，不仅可以增大感受野，而且还可以提高神经网络的鲁棒性，十分适合脑电信号图像分类. 2）CBAM注意力机制的优势. 空间注意力可使神经网络更加关注图像中对分类起重要作用的像素区域，通道注意力则用于处理特征图通道的分配关系，同时对2个维度进行注意力分配，增强了注意力机制对模型性能的提升.

表 2 群体语言想象EEG信号分类准确率的比较

Tab.2 Comparison of classification accuracy of group EEG signals of imagined speech

网络模型	分类形式	A/%
VMD-RWE+SVM with RBF kernel^[22]	6分类	38.2
Siamese neural network framework^[11]	6分类	44.1
end-to-end Siamese neural network^[23]	6分类	31.4
Deep CNN^[24]	6分类	28.4
VGG-16	6分类	46.3
本研究提出的融合CBAM的Inception-V4模型	6分类	52.2

新窗口打开| 下载CSV

3.5. 结合迁移学习的Inception-v4网络分类性能讨论

如表3所示为使用迁移学习情况下的训练时间t_t和分类准确率A. “源域”一栏若为“无”表示未使用迁移学习，“使用网络”一栏若为“改Inception-V4”表示使用的网络是本研究提出的融合注意力机制后的Inception-V4模型.

表 3 迁移学习下信号分类准确率对比

Tab.3 Comparison of signal classification accuracy using transfer learning

编号	源域（已训练数据集）	目标域（要训练数据集）	使用网络	t_t/h	A/%
1	无	Correto公开数据集	Inception-V4	168	48.1
2	ImageNet-1000数据集	Correto公开数据集	Inception-V4	171	47.7
3	无	Correto公开数据集	改Inception-V4	172	52.2
4	BCI Competition IV-2b数据集^[25]	Correto公开数据集	改Inception-V4	69	51.8

新窗口打开| 下载CSV

ImageNet-1000数据集中为实物图片，Correto公开数据集中为转换后的时频图，两者差异较大，因此对比编号1和2的实验结果可以得出，在图片类型相差较大的数据集之间使用迁移学习不能够有效缩短训练时间. 比较编号3和4的实验结果可知，在数据类型相似的数据集上使用迁移学习能够提高训练效率. 由表3可以看出，采样类似的数据集进行迁移学习可有效提升训练效率.

4. 结　语

为了提高群体语言想象脑电信号的分类精度，提出融合CBAM注意力机制的Inception-V4神经网络的语言想象脑电信号分类模型. 此模型首先对数据集进行预处理，接着对群体语言想象脑电信号进行短时傅里叶变换，生成6个通道的时频图，并对6通道的时频图进行拼接形成信息完整的图像，然后将此类图像作为数据集输入至融合了CBAM的Inception-V4卷积神经网络中进行训练. 实验结果表明，在窗口长度为512时使用Inception-V4网络并在全连接层前插入CBAM注意力机制的分类方法准确率最高，达到了52.2%，使得群体语言想象脑电信号分类的准确率大幅提高，高出六分类问题的机会水平16.7个百分点. 同时也证明在类似数据集间使用迁移学习能够有效减少训练时间.

随着项目的进行，计划在未来的探索中进一步改进脑电信号处理方法，更高效地提取信号中的有效信息. 同时，也将寻找样本数量更大的数据集以提高分类效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[18]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer Cham, 2018: 3−19.

[本文引用: 3]

[19]

JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems . Montreal: MIT Press, 2015: 2017−2025.

[本文引用: 1]

[20]

WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11534−11542.

[本文引用: 1]

[21]

SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 618−626.

[本文引用: 1]

[22]

BISWAS S, SINHA R. Lateralization of brain during EEG based covert speech classification [C]// 2018 15th IEEE India Council International Conference . Coimbatore: IEEE, 2018: 1−5.

[本文引用: 1]

[23]

LEE D Y, LEE M, LEE S W. Classification of imagined speech using Siamese neural network [C]// 2020 IEEE International Conference on Systems, Man, and Cybernetics . Toronto: IEEE, 2020: 2979−2984.

[本文引用: 1]

[24]

COONEY C, KORIK A, FOLLI R, et al

Evaluation of hyperparameter optimization in machine and deep learning methods for decoding imagined speech EEG

[J]. Sensors, 2020, 20 (16): 4629

DOI:10.3390/s20164629 [本文引用: 1]

[25]

DAGDEVIR E, TOKMAKCI M

Determination of effective signal processing stages for brain computer interface on BCI competition IV data set 2b: a review study

[J]. IETE Journal of Research, 2023, 69 (6): 3144- 3155

DOI:10.1080/03772063.2021.1914204 [本文引用: 1]

[1]

NGUYEN C H, KARAVAS G K, ARTEMIADIS P

Inferring imagined speech using EEG signals: a new approach using Riemannian manifold features

[J]. Journal of Neural Engineering, 2017, 15 (1): 016002

[本文引用: 1]

[2]

ROYER A S, DOUD A J, ROSE M L

EEG control of a virtual helicopter in 3-dimensional space using intelligent control strategies

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2010, 18 (6): 581- 589

DOI:10.1109/TNSRE.2010.2077654 [本文引用: 1]

[3]

BALAM V P, CHINARA S

Statistical channel selection method for detecting drowsiness through single-channel EEG-based BCI system

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70 (7): 1- 9

[本文引用: 1]

[4]

KHARE S K, BAJAJ V, SINHA G R

Adaptive tunable Q wavelet transform-based emotion identification

[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69 (12): 9609- 9617

DOI:10.1109/TIM.2020.3006611 [本文引用: 1]

[5]

KAMBLE K S, SENGUPTA J

Ensemble machine learning-based affective computing for emotion recognition using dual-decomposed EEG signals

[J]. IEEE Sensors Journal, 2021, 22 (3): 2496- 2507

[本文引用: 1]

[6]

WIERZGAŁA P, ZAPAŁA D, WOJCIK G M

Most popular signal processing methods in motor-imagery BCI: a review and meta-analysis

[J]. Frontiers in Neuroinformatics, 2018, 12 (11): 78

[本文引用: 1]

[7]

LEE S H, LEE M, LEE S W. EEG representations of spatial and temporal features in imagined speech and overt speech [C]// Pattern Recognition: 5th Asian Conference . Auckland: Springer International Publishing, 2020: 387−400.

[本文引用: 1]

[8]

刘艳鹏, 龚安民, 丁鹏, 等

基于言语想象的脑机交互关键技术

[J]. 生物医学工程学杂志, 2022, 39 (3): 596- 611

DOI:10.7507/1001-5515.202107018 [本文引用: 1]

LIU Yanpeng, GONG Anmin, DING Peng, et al

Key technology of brain-computer interaction based on speech imagery

[J]. Journal of Biomedical Engineering, 2022, 39 (3): 596- 611

DOI:10.7507/1001-5515.202107018 [本文引用: 1]

[9]

VAN DEN BERG B, VAN DONKELAAR S, ALIMARDANI M. Inner speech classification using EEG signals: a deep learning approach [C]// 2021 IEEE 2nd International Conference on Human-Machine Systems . Magdeburg: IEEE, 2021: 1−4.

[本文引用: 1]

[10]

RUSNAC A L, GRIGORE O

CNN architectures and feature extraction methods for EEG imaginary speech recognition

[J]. Sensors, 2022, 22 (13): 4679- 4698

DOI:10.3390/s22134679 [本文引用: 1]

[11]

LEE D Y, LEE M, LEE S W

Decoding imagined speech based on deep metric learning for intuitive BCI communication

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2021, 29 (7): 1363- 1374

[本文引用: 2]

[12]

CORETTO G A P, GAREIS I E, RUFINER H L. Open access database of EEG signals recorded during imagined speech [C]// 12th International Symposium on Medical Information Processing and Analysis . Munich: SPIE, 2017: 1016002.

[本文引用: 2]

[13]

CAO Y, OOSTENVELD R, ALDAY P M, et al

Are alpha and beta oscillations spatially dissociated over the cortex in context-driven spoken-word production?

[J]. Psychophysiology, 2022, 59 (6): e13999

DOI:10.1111/psyp.13999 [本文引用: 1]

[14]

WEI X, SUN T, ZHENG L, et al. Diagnosis of loose core fault in saturable reactor of thyristor valve based on vibration signal time-frequency analysis and CNN [C]// 5th International Conference on Energy Systems and Electrical Power . Changsha: Journal of Physics: Conference Series, 2023, 2584(1): 012079.

[本文引用: 1]

[15]

PODDER P, KHAN T Z, KHAN M H, et al

Comparative performance analysis of hamming, hanning and blackman window

[J]. International Journal of Computer Applications, 2014, 96 (18): 1- 7

DOI:10.5120/16891-6927 [本文引用: 1]

[16]

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-V4, inception-resnet and the impact of residual connections on learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence . San Francisco: AAAI, 2017, 31(1): 4278−4284.

[本文引用: 3]

[17]

LUCERO C, BROOKSHIRE G, SAVA-SEGAL C, et al

Unconscious number discrimination in the human visual system

[J]. Cerebral Cortex, 2020, 30 (11): 5821- 5829

DOI:10.1093/cercor/bhaa155 [本文引用: 1]

... Woo等^[18]提出一种新的卷积注意力模块CBAM，它包含2个连续的子模块：通道注意力模块（channel attention module，CAM）和空间注意力模块（spatial attention module，SAM）. 如图4所示显示了CBAM与CAM和SAM的总体关系. ...

... CBAM注意力结构^[18] ...

... Attention structure of CBAM^[18] ...

... 除了上述的CBAM注意力机制，常见的还有STN空间变换网络^[19]，它通过学习输入的形变，从而完成适合任务的预处理操作，是一种基于空间的注意力模块. 另一个流行的通道注意力机制ECANet^[20]的核心思想是在卷积操作中引入通道注意力机制，以捕捉不同通道之间的关系，从而提升特征表示的能力. ...

... 为了验证窗口长度选取的合理性，如图9所示给出了使用Grad-CAM的特征可视化^[21]后的结果. 图9(a)为用户想象“上”时的脑电信号经过STFT后的原始图像，图9(b)为采用Grad-CAM方法提取的加权后的特征图在原始图像上叠加生成的图像. 由图可知特征定位准确明显，窗长选择合理. ...

... Comparison of classification accuracy of group EEG signals of imagined speech

Tab.2

网络模型	分类形式	A/%
VMD-RWE+SVM with RBF kernel^[22]	6分类	38.2
Siamese neural network framework^[11]	6分类	44.1
end-to-end Siamese neural network^[23]	6分类	31.4
Deep CNN^[24]	6分类	28.4
VGG-16	6分类	46.3
本研究提出的融合CBAM的Inception-V4模型	6分类	52.2

3.5. 结合迁移学习的Inception-v4网络分类性能讨论

如表3所示为使用迁移学习情况下的训练时间t_t和分类准确率A. “源域”一栏若为“无”表示未使用迁移学习，“使用网络”一栏若为“改Inception-V4”表示使用的网络是本研究提出的融合注意力机制后的Inception-V4模型. ...

... Comparison of classification accuracy of group EEG signals of imagined speech

Tab.2

网络模型	分类形式	A/%
VMD-RWE+SVM with RBF kernel^[22]	6分类	38.2
Siamese neural network framework^[11]	6分类	44.1
end-to-end Siamese neural network^[23]	6分类	31.4
Deep CNN^[24]	6分类	28.4
VGG-16	6分类	46.3
本研究提出的融合CBAM的Inception-V4模型	6分类	52.2

3.5. 结合迁移学习的Inception-v4网络分类性能讨论

Evaluation of hyperparameter optimization in machine and deep learning methods for decoding imagined speech EEG

2020

... Comparison of classification accuracy of group EEG signals of imagined speech

Tab.2

网络模型	分类形式	A/%
VMD-RWE+SVM with RBF kernel^[22]	6分类	38.2
Siamese neural network framework^[11]	6分类	44.1
end-to-end Siamese neural network^[23]	6分类	31.4
Deep CNN^[24]	6分类	28.4
VGG-16	6分类	46.3
本研究提出的融合CBAM的Inception-V4模型	6分类	52.2

3.5. 结合迁移学习的Inception-v4网络分类性能讨论

Determination of effective signal processing stages for brain computer interface on BCI competition IV data set 2b: a review study

2023

... Comparison of signal classification accuracy using transfer learning

Tab.3

编号	源域（已训练数据集）	目标域（要训练数据集）	使用网络	t_t/h	A/%
1	无	Correto公开数据集	Inception-V4	168	48.1
2	ImageNet-1000数据集	Correto公开数据集	Inception-V4	171	47.7
3	无	Correto公开数据集	改Inception-V4	172	52.2
4	BCI Competition IV-2b数据集^[25]	Correto公开数据集	改Inception-V4	69	51.8

Inferring imagined speech using EEG signals: a new approach using Riemannian manifold features

2017

... 脑机接口（brain-computer interface，BCI）旨在提供一种与外界环境互动的沟通媒介^[1]. 脑电图（electroencephalogram ，EEG）具有经济、便携、时间分辨率高等特点，在智能控制^[2]、疲劳检测^[3]、情绪识别^[4-5]等领域具有广泛的应用. 目前，比较流行的BCI范式包括运动想象（motor imagery，MI）^[6]和语言想象（speech imagery，SI）^[7]. SI是最新出现的BCI范式之一，它表示在不发出声音或清晰地做出面部动作的情况下想象单词发音的心理过程. 相比于其他的BCI范式，SI是最接近自然的一种沟通通路，因此成为当前的研究热点之一^[8]. Van Den Berg等^[9]提出基于EEGnet架构的二维卷积神经网络模型，该模型对单词进行4分类，具有29.7%的平均准确率. Rusnac等^[10]提出CNN模型，在7个音节与4个单词的群体语言想象脑电信号分类中实现了37.1%的平均准确率. Lee等^[11]提出基于瞬时频率和谱熵的Siamese神经网络框架，对群体语言想象脑电信号进行6分类，平均准确率为45.0%. 尽管针对群体语言想象脑电信号的分类准确率取得了较大进步，但离实际应用仍有一定距离，主要原因在于个体的脑电信号之间存在显著差异. ...

EEG control of a virtual helicopter in 3-dimensional space using intelligent control strategies

2010

Statistical channel selection method for detecting drowsiness through single-channel EEG-based BCI system

2021

Adaptive tunable Q wavelet transform-based emotion identification

2020

Ensemble machine learning-based affective computing for emotion recognition using dual-decomposed EEG signals

2021

Most popular signal processing methods in motor-imagery BCI: a review and meta-analysis

2018

基于言语想象的脑机交互关键技术

2022

基于言语想象的脑机交互关键技术

2022

CNN architectures and feature extraction methods for EEG imaginary speech recognition

2022

Decoding imagined speech based on deep metric learning for intuitive BCI communication

2021

... Comparison of classification accuracy of group EEG signals of imagined speech

Tab.2

网络模型	分类形式	A/%
VMD-RWE+SVM with RBF kernel^[22]	6分类	38.2
Siamese neural network framework^[11]	6分类	44.1
end-to-end Siamese neural network^[23]	6分类	31.4
Deep CNN^[24]	6分类	28.4
VGG-16	6分类	46.3
本研究提出的融合CBAM的Inception-V4模型	6分类	52.2

3.5. 结合迁移学习的Inception-v4网络分类性能讨论

... 使用的数据集由Coretto^[12]记录，该数据集包含元音和单词想象发音过程中的脑电图信号. 该实验包含了6个西班牙单词，“arriba”、“abajo”、“derecha”、“izquierda”、“adelante” 和 “atras” （分别对应上、下、左、右、后、前6个中文单词）. 研究对象包括15名健康的志愿者（7名女性和8名男性）. ...

... 脑电信号是非常微弱的生物电信号，易受眨眼、吞咽、晃动等肌肉活动以及电源和声音的干扰. 由于采集设备自带陷波滤波器^[12]，而且数据集中的脑电信号已进行了去基线的操作，基线漂移问题已经被解决，因此当受试者想象说话时，大脑语言区域的α和β节律频段会出现明显振荡^[13]. α和β节律频段为8~30 Hz，同时对语言想象的研究主要集中在EEG信号的40 Hz以下的频带中，因此采用0~40 Hz的巴特沃斯带通滤波器对原始脑电信号进行滤波. ...

Are alpha and beta oscillations spatially dissociated over the cortex in context-driven spoken-word production?

2022

... 脑电信号是一维时域信号，难以直接用于信号分类. 为此，运用短时傅里叶变换（short-time Fourier transform，STFT）将每个通道采集的脑电信号转化为对应的时频图^[14]. 设原始连续信号为s(τ)，给定一个时间长度较短的窗口，令其沿时间轴移动，则s(τ)的STFT定义如下： ...

Comparative performance analysis of hamming, hanning and blackman window

2014

... 选择具有较好的频率分辨率且能减少频谱泄露的Hamming窗函数^[15]，如图2(a)所示显示了一个单通道脑电信号的时频图. 该图像原始大小为20

$ \times $

15，随后将其拉伸至299

$ \times $

299. 图中，t为信号时间，f为频率（0~40 Hz）. ...

... 与VGG16、ResNet、LeNet等其他卷积神经网络相比，Inception-V4^[16]网络在2个隐藏层之间嵌入了多个卷积核，这种设计在减少参数量的同时有效提高了网络性能. Inception-V4网络包括Stem、Inception-A、Inception-B、Inception-C、Reduction-A、Reduction-B等关键模块，共有76层，如图3所示. 其中，Stem模块能够快速降低分辨率，减少后续模块计算量；Inception模块用来学习图片特征；Reduction模块用来改变网络的宽度和高度. ...

... Inception-V4网络框架^[16] ...

... Network framework of Inception-V4^[16] ...

Unconscious number discrimination in the human visual system

2020

... 注意力在人类视觉系统中起着至关重要的作用^[17]，人类不会一次性处理所有的场景. 因此，注意力机制的核心思想是分别通过学习通道注意和空间注意来细化三维特征图，不仅可以告诉神经网络模型须关注的地方，还可以改善特征的表示、抵抗噪音干扰并专注于有效信息. ...

〈

〉