浙江大学学报(工学版), 2026, 60(2): 370-378 doi: 10.3785/j.issn.1008-973X.2026.02.015

计算机技术与控制工程

基于多尺度滑窗注意力时序卷积网络的脑电信号分类

李宪华,, 杜鹏飞, 宋韬, 邱洵, 蔡钰

1. 安徽理工大学第一附属医院,安徽 淮南 232001

2. 安徽理工大学 机电工程学院,安徽 淮南 232001

3. 安徽理工大学 人工智能学院,安徽 淮南 232001

4. 上海大学 机电工程与自动化学院,上海 200444

EEG signal classification based on multi-scale sliding-window attention temporal convolutional networks

LI Xianhua,, DU Pengfei, SONG Tao, QIU Xun, CAI Yu

1. The First Hospital of Anhui University of Science and Technology, Huainan 232001, China

2. School of Mechatronics Engineering, Anhui University of Science and Technology, Huainan 232001, China

3. School of Artificial Intelligence, Anhui University of Science and Technology, Huainan 232001, China

4. School of Electrical and Mechanical Engineering, Shanghai University, Shanghai 200444, China

收稿日期: 2025-02-25  

基金资助: 安徽省重点研究与开发计划项目(2022i01020015);安徽理工大学医学专项项目(YZ2023H2B013).

Received: 2025-02-25  

Fund supported: 安徽省重点研究与开发计划项目(2022i01020015);安徽理工大学医学专项项目(YZ2023H2B013).

作者简介 About authors

李宪华(1980—),男,教授,从事机器人技术、脑-机接口研究.orcid.org/0000-0002-0524-2469.E-mail:xhli01@163.com , E-mail:xhli01@163.com

摘要

为了提升运动想象脑电(MI-EEG)信号的分类精度,提出多尺度滑窗注意力时序卷积网络(MSWATCN),充分挖掘MI-EEG信号的时空信息. 结合多尺度双流分组卷积、滑动窗口多头注意力机制和窗口化时间卷积模块,实现对MI-EEG信号复杂时空特性的精准解码. 利用多尺度卷积模块提取信号的底层时空特征,通过滑动窗口注意力机制聚焦局部关键特征,突出对分类任务重要的信息. 窗口化时间卷积模块通过建模时间序列中的长期依赖关系,增强模型处理时序信息的能力. 实验结果表明,MSWATCN在BCI Competition IV 2a和2b数据集上的分类准确率和一致性优于对比网络和基准模型.

关键词: 运动想象 ; 多尺度卷积 ; 多头注意力机制 ; 滑动窗口 ; 时序卷积网络

Abstract

A multi-scale sliding-window attention temporal convolutional network (MSWATCN) was proposed to fully exploit the spatio-temporal information of motor imagery electroencephalography (MI-EEG) signals for enhanced classification accuracy. Accurate decoding of the complex spatio-temporal characteristics of MI-EEG signals was achieved by combining multiscale two-stream group convolution, a sliding-window multi-head attention mechanism, and a windowed temporal convolution module. The underlying spatio-temporal features of the signal were first extracted using the multi-scale convolution module, followed by a focus on local key features through the sliding-window attention mechanism to highlight information crucial for classification. The windowed temporal convolution module was employed to model long-term dependencies in the time series, whereby the model’s ability to encode sequential information was significantly improved. Experimental results showed that MSWATCN outperformed all comparison networks and benchmark models in terms of classification accuracy and consistency on the BCI Competition IV 2a and 2b datasets.

Keywords: motion imagery ; multi-scale convolution ; multi-head attention mechanism ; sliding window ; temporal convolutional network

PDF (3347KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李宪华, 杜鹏飞, 宋韬, 邱洵, 蔡钰. 基于多尺度滑窗注意力时序卷积网络的脑电信号分类. 浙江大学学报(工学版)[J], 2026, 60(2): 370-378 doi:10.3785/j.issn.1008-973X.2026.02.015

LI Xianhua, DU Pengfei, SONG Tao, QIU Xun, CAI Yu. EEG signal classification based on multi-scale sliding-window attention temporal convolutional networks. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(2): 370-378 doi:10.3785/j.issn.1008-973X.2026.02.015

脑机接口(brain-computer interface, BCI)是通过直接连接人脑与计算机或其他外部设备,实现大脑活动的检测和解码,使人类能够进行思维控制或脑波信息传输的技术系统[1-2]. BCI技术的广泛应用为神经肌肉功能障碍患者或失去肢体运动控制能力的患者提供了新的交流和控制方式[3-4]. 基于运动想象脑电(motor imagery electroencephalography, MI-EEG)信号的BCI系统不依赖外部刺激,能够真实地反映个体的思维活动,成为理想的脑机接口范式,特别适用于患者的主动控制和信息传输.

传统的多类MI-EEG信号识别方法依赖繁琐的信号预处理和手动特征提取(如小波变换(wavelet transform, WT)[5]、独立成分分析[6])来消除噪声,在特征提取阶段采用共同空间模式[7]及其改进算法[8]. 这些传统方法耗时且高度依赖领域专家的经验,难以有效应对个体差异问题. 因此,设计端到端的学习方法,以减少人工干预并提升分类精度与鲁棒性,已成为BCI技术研究中的一大挑战. 深度学习技术快速发展,其在MI-EEG信号识别中的应用引起广泛关注. 受滤波器组共空间模式(filter bank common spatial pattern,FBCSP)算法的启发,Schirrmeister等[9]提出以卷积神经网络为核心的ConvNet模型,通过深度学习框架提取脑电信号的时间和空间特征. 尽管ConvNet在特征提取方面优势突出,但其计算复杂度高,在资源受限的设备上难以高效运行. 针对这一问题,Lawhern等[10]提出EEGNet,通过巧妙的轻量化设计,将深度可分离卷积与空间滤波结合,不仅显著降低了模型的计算复杂度,还增强了对低信噪比脑电信号的适应能力. EEG-TCNet[11]进一步扩展了EEGNet的能力,引入的时间卷积网络(temporal convolutional network, TCN)能够显著提升模型建模时间动态特性的能力,保留轻量化结构的优势. 上述方法存在瓶颈:1)传统卷积操作受限于局部感受野(receptive field size, RFS),难以全面捕捉MI-EEG信号中跨时间尺度的节律同步性,2)固定频带划分与静态参数设计导致模型对跨受试者数据泛化性能下降. 研究者开始探索注意力机制与动态建模的融合策略. Li等[12]设计融合注意力机制的卷积模型MS-AMF,通过空间和时间多尺度模块提取多脑区的特征,并结合密集融合策略和注意力模块,显著提高了信号分类性能. Altaheri等[13]提出动态注意力时间卷积网络D-ATCNet解码MI-EEG信号,模型通过动态卷积和多级注意力机制,在使用相对较少参数的同时提高模型对MI-EEG信号分类的准确性. 动态卷积的权重更新机制仍依赖离线训练,难以适应在线脑电信号的时变特性. Han等[14]引入元学习框架,实现跨受试者的动态参数调整,克服不同受试者间特异性带来的挑战. Zhang等[15]研究表明,人工设计的固定频带划分可能忽略个体特异性频段特征,其提出的动态滤波器组网络通过端到端学习频段权重,为自适应频段选择提供了新思路.

本研究提出多尺度滑窗注意力时序卷积网络(multi-scale sliding-window attention temporal convolutional network, MSWATCN). 借鉴传统卷积神经网络与注意力机制的优点,通过多尺度双流分组卷积模块提取底层时空特征,引入滑动窗口多头注意力模块精准捕捉局部关键信息,结合窗口化时间卷积模块有效建模长期依赖关系,通过多层次特征融合、动态局部和全局建模优化,实现高效精准的MI-EEG信号解码.

1. 模型介绍

图1所示,MSWATCN由3个主要模块构成:多尺度双流分组卷积模块、滑动窗口多头注意力模块及窗口化时间卷积模块. 多尺度双流分组卷积模块接收原始MI-EEG信号,通过多尺度时间卷积提取底层时空特征,输出维度为(64, T/64)的特征序列,其中T为采样点数量. 滑动窗口多头注意力模块将输入序列划分为多个局部窗口,${T_w}$为窗口长度,w为窗口索引,每个窗口内通过多头自注意力机制动态分配权重,突出关键特征并抑制噪声,输出维度保持为(64,${T_w}$). 窗口化时间卷积模块对每个窗口的特征进行因果膨胀卷积,建模时间序列的长期依赖关系,最终输出每个窗口的时序特征维度为(64, 1). 每个滑动窗口的特征通过全连接层和Softmax激活,将所有窗口的概率结果在类别维度上取均值,综合多个窗口的信息生成全局预测结果. MSWATCN通过层次递进的特征提取与高效注意力机制,能够准确捕捉MI-EEG信号中的多尺度时空模式.

图 1

图 1   多尺度滑窗注意力时序卷积网络的整体架构图

Fig.1   Overall architecture of multi-scale sliding-window attention temporal convolutional network


1.1. 多尺度双流分组卷积模块

1.1.1. 模块输入

MI-EEG信号实验的数据由电极通道C和采样点T组成,表示为$ {\boldsymbol{X}} = [ {{\boldsymbol{x}}_1}, {{\boldsymbol{x}}_2},\cdots, {{\boldsymbol{x}}_n} ] \in {{\bf{R}}^{n \times C \times T}} $,其中n为实验的样本个数. 在MSWATCN中,单独的MI-EEG信号样本${\boldsymbol{X}} \in {{\bf{R}}^{C \times T}}$会被拓展1个维度,即${\boldsymbol{X}} \in {{\bf{R}}^{1 \times C \times T}}$,作为多尺度双流分组卷积模块的输入.

1.1.2. 模块组成

图2所示,多尺度双流分组卷积模块由3种卷积层构成,包括时间卷积、分组卷积和空间卷积. 1)脑电信号的采用频率为250 Hz,考虑到运动想象相关频段(4~30 Hz)的时域特性,为了提取超过4 Hz的频率相关时间信息,时间卷积层设置了2组卷积核,尺寸分别为 (1, 64) 和 (1, 32),每组卷积核的数量均为16. 这样的设计能够在时间轴上捕捉αβ波段的节律性特征,并最终生成 32 个具有多尺度信息的时间特征图. 通过多尺度卷积捕获信号的层次化时间特性,增强特征表达能力. 将2层时间卷积的输出在通道维度拼接,融合多尺度时间特征,形成包含32个特征图的丰富信息流. 2)中间层采用分组卷积以高效提取特征图的特征关系,输入特征通过大小为(C,1)的分组卷积将32张特征图分为每组2张特征图独立卷积,经批量归一化和指数线性单元(exponential linear unit,ELU)激活函数处理,以引入非线性特性并稳定训练过程. 由池化核大小为(1,8)的平均池化层进一步压缩时间维度,输出的特征图表示为$ {\boldsymbol{X}} \in {{\bf{R}}^{32 \times 1 \times T/8}} $. 3)空间卷积层通过2组32个大小分别为(1,8)和(1,16)的卷积核提取时空特征,并在通道维度上拼接生成64张特征图;卷积输出经过批归一化层和ELU激活函数处理,并利用大小为(1,8)的平均池化层增强非线性表达能力;重塑输出的特征图表示为$ {\boldsymbol{X}} \in {{\bf{R}}^{64 \times T/64}} $. 每次池化操作后引入随机失活率为0.6的随机失活层对部分特征进行随机失活,以缓解过拟合风险.

图 2

图 2   多尺度双流分组卷积模块

Fig.2   Multiscale two-stream group convolution module


1.2. 滑动窗口多头注意力模块
1.2.1. 滑动窗口

在时间序列处理过程中,采用滑动窗口方法捕捉局部时间特征,将经过多尺度双流分组卷积和池化处理后的时间序列${{\boldsymbol{X}}_i} \in {{\bf{R}}^{64 \times {T_{\text{c}}}}}$划分为多个窗口${{\boldsymbol{X}}_w} \in {{\bf{R}}^{64 \times {T_w}}}$,其中滑动步长为1,确保窗口间重叠最大化,避免遗漏关键时序信息. ${T_{\text{c}}} = T/64$为输入的时间序列长度, m为滑动窗口总数,窗口划分的关系表达式为

$ {T}_{w}={T}_{\text{c}}-m+1\text{,}{T}_{\text{c}} > m\geqslant 1. $

滑动窗口机制将长时间序列分为多个连续的小窗口,聚焦于数据的细粒度局部特征;注意力机制自适应地调整窗口内特征的权重,增强重要特征的表示. 滑动窗口和注意力机制的结合使得模型能够适应不同长度的时间序列数据,捕捉变量间的相互依赖以及时间维度上的局部特征,多头注意力的可并行性使模型能够高效扩展到更大规模的数据.

1.2.2. 多头注意力模块

多头注意力机制借鉴了人类大脑在视觉世界中选择性关注关键元素、忽略其他信息的现象[16]. 这种机制模拟了人类通过任务依赖的自愿性线索和基于环境显著性或突显性的非自愿性线索来聚焦注意力的过程. 如图3所示,多头注意力机制由3个核心组件构成:值(value)、键(key)和查询(query). 通过查询向量与键向量的相互作用,生成注意力权重,用以构建注意力池,这些权重用于加权值向量,突出与当前任务或目标高度相关的特征. 这种突出高度相关特征的方法有效模拟人类通过任务导向的注意力选择行为,使模型能够动态地聚焦于输入数据中最为重要的信息,实现了选择性信息处理的功能.

图 3

图 3   多头注意力模块结构

Fig.3   Structure of multi-head attention module


输入滑动窗口后的时间序列矩阵${{\boldsymbol{X}}_w} \in {{\bf{R}}^{64 \times {T_w}}}$,为了生成多头注意力所需的查询、键和值矩阵QKV构造,提取局部时间步之间的依赖关系,对输入矩阵${{\boldsymbol{X}}_w}$进行线性映射,得到

$ {\boldsymbol{Q}}={{\boldsymbol{W}}}^{{\boldsymbol{Q}}}{{\boldsymbol{X}}}_{w}\text{,}{\boldsymbol{K}}={{\boldsymbol{W}}}^{{\boldsymbol{K}}}{{\boldsymbol{X}}}_{w}\text{,}{\boldsymbol{V}}={{\boldsymbol{W}}}^{{\boldsymbol{V}}}{{\boldsymbol{X}}}_{w}. $

式中:$ {{\boldsymbol{W}}}^{{\boldsymbol{Q}}},{{\boldsymbol{W}}}^{{\boldsymbol{K}}},{{\boldsymbol{W}}}^{{\boldsymbol{V}}}\in {{\bf{R}}}^{{d}_{\text{m}}\times 64} $分别为查询、键和值的映射权重矩阵,其中${d_{{\text{m}}}}$为模型特征维度的大小,映射后的矩阵形状为${\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}} \in {{\bf{R}}^{{d_{{\text{m}}}} \times {T_w}}}$. 注意力头hQK映射到第h个头的子空间[17]

$ {{\boldsymbol{Q}}}_{h}={{\boldsymbol{QW}}}_{h}^{{\boldsymbol{Q}}}\text{,}{{\boldsymbol{K}}}_{h}={{\boldsymbol{KW}}}_{h}^{{\boldsymbol{K}}}\text{,}{{\boldsymbol{V}}}_{h}={{\boldsymbol{VW}}}_{h}^{{\boldsymbol{V}}}. $

式中:$ {\boldsymbol{W}}_h^{\boldsymbol{Q}},{\boldsymbol{W}}_h^{\boldsymbol{K}},{\boldsymbol{W}}_h^{\boldsymbol{V}} \in {{\bf{R}}^{{d_{{\text{m}}}} \times {d_k}}} $分别为每个注意头查询、键和值的权重矩阵,其中${d_k} = {d_{{\text{m}}}}/h$,为每个头的特征维度,映射后$ {{\boldsymbol{Q}}_h},{{\boldsymbol{K}}_h},{{\boldsymbol{Q}}_h} \in {{\bf{R}}^{{T_w} \times {d_k}}} $. 计算每个注意力头对应的注意力权重矩阵${{\boldsymbol{a}}^h}$

$ {{\boldsymbol{a}}^h} = {\text{softmax}}\left( {\frac{{{{\boldsymbol{Q}}_h}{\boldsymbol{K}}_h^{\mathrm{T}}}}{{\sqrt {{d_k}} }}} \right). $

缩放因子$1/\sqrt {{d_k}} $为对点积结果归一化,softmax函数将相关性矩阵转为概率分布. 通过注意力权重矩阵${{\boldsymbol{a}}^h}$对值矩阵$ {{\boldsymbol{V}}_h} $进行加权求和,得到第h个注意力头的输出为

$ {{\boldsymbol{O}}^h} = {{\boldsymbol{a}}^h}{{\boldsymbol{V}}_h}. $

将注意力头的输出${{\boldsymbol{O}}^1},{{\boldsymbol{O}}^2},{{\boldsymbol{O}}^3},\cdots, {{\boldsymbol{O}}^h}$拼接后,通过线性变换处理,得到最终结果为

$ {{A}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {\text{Concat}}\left( {{{\boldsymbol{O}}^1},{{\boldsymbol{O}}^2},{{\boldsymbol{O}}^3},\cdots , {{\boldsymbol{O}}^h}} \right). $

线性映射矩阵$ {{\boldsymbol{W}}^{\boldsymbol{O}}} \in {{\bf{R}}^{\left( {h \cdot {d_k}} \right) \times {d_{{\text{m}}}}}} $将拼接后的矩阵映射回$ {d_{{\text{m}}}} $维度,得到多头注意力输出为

${\mathrm{MHA}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {{\boldsymbol{W}}^{\boldsymbol{O}}} \cdot {{A}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right).$

1.3. 窗口化时间卷积模块

在MSWATCN中,时间卷积网络模块作为滑动窗口多头注意力机制后的关键组件,用于进一步建模局部时间序列的依赖关系. 时间卷积网络[18]通过堆叠膨胀因果卷积层,逐步扩大感受野,使得模型能够有效捕获长时间范围内的依赖关系. 同时,时间卷积网络结合滑动窗口机制,加强对局部时间特征的提取能力. 膨胀因果卷积是时间卷积模块的核心,能够有效建模长时间依赖关系并保持计算效率. 如图4(a)所示,因果卷积确保时间步t的输出仅依赖当前及之前时间步的输入,严格遵循时间因果性,避免未来信息泄露. 膨胀卷积通过引入膨胀因子D扩展卷积核的覆盖范围,使感受野RFS随着网络深度的增加以指数级扩展[19]

图 4

图 4   时间卷积网络模块

Fig.4   Temporal convolutional network module


$ {R_{{\text{FS}}}} = 2\left( {{K_{\text{T}}} - 1} \right)({2^L} - 1)+1. $

式中:${K_{\text{T}}}$为卷积核大小,L为残差块层数. 时间卷积网络残差块如图4(b)所示,取L=2、${K_{\text{T}}} = 4$以满足${R_{{\text{FS}}}} \geqslant {T_t}$,其中$ {T_t} $为输入时序信号长度,每个时间步的特征表示为大小为64的向量. TCN的输出为序列中最后一个时间步的特征向量,其大小同样为64. 将所有窗口的输出拼接后输入全连接层,经过Softmax分类器完成分类,在窗口维度上对分类结果取平均以生成最终输出.

2. 实验设计

2.1. 数据集介绍及预处理

BCI-2a是德国格拉茨理工大学于2008年发布的公共MI-EEG数据集,被广泛用于MI-EEG解码研究,是该领域的基准数据集. 选用脑机接口竞赛(BCI Competition IV)公开数据集中的2a和2b 数据集进行模型的有效性实验评估. 数据集2a包含9名受试者的脑电数据,涉及4类运动想象任务:左手、右手、双脚和舌头. 将每名受试者的实验分为训练集和测试集,分别采集于不同日期,每个阶段包含288次实验,共576次实验. 脑电数据通过22个电极采集,采样频率为250 Hz,对采集的数据进行0.50~100.00 Hz的带通滤波处理和50.00 Hz的陷波处理. 受试者的训练和测试的实验流程包括2 s的注意力集中阶段,随后1 s的任务提示时间和4 s的运动想象过程,结束后有1.5 s的休息时间. 数据集2b包含9名受试者的脑电数据,涉及2类运动想象任务:左手和右手. 实验分为无反馈和有反馈2种条件,共5个记录阶段,总计720次实验,其中前3个阶段数据作为训练集,后2个阶段数据作为测试集. 脑电数据通过3个电极采集,采样频率同样为250 Hz. 受试者的训练和测试的实验流程为受试者前2 s坐在显示屏前呈安静状态,2 s 时听到提示音后做好实验准备;3~7 s时,显示屏随机出现带有方向的箭头,同时被试做相应的想象动作,持续 4 s;受试者有2 s的休息时间,等待下一轮实验的开始. 运动想象相关的脑电活动主要集中在α波段(8~13 Hz)和β波段(14~30 Hz)[20]. 在数据预处理中,2a数据集选取2~6 s的脑电信号作为样本, 2b数据集选取3~7 s的脑电信号作为样本. 使用Hamming窗有限冲激响应(finite impulse response,FIR)滤波器[21]对信号进行1~30 Hz的带通滤波,有效保留与任务相关的关键信号. 采用公共平均参考方法(common average reference, CAR),以减少实验过程中乳突通道记录信号可能受到触变误差的影响.

2.2. 实验环境

本研究模型使用Python语言编写,基于PyTorch深度学习框架构建,实验在搭载NVIDIA GeForce RTX 3060 Laptop GPU的计算环境中完成. 训练过程中使用自适应矩估计(Adam)优化器,初始学习率设定为0.001. 在2a数据集上,模型训练进行1 000次迭代;在2b数据集上,迭代次数为500,批量大小统一为32. 使用5折交叉验证并采用分层抽样策略,确保每折中各类别样本比例与原始数据一致,准确率为5次训练准确率的平均值. 优化目标选用交叉熵损失函数,通过最小化损失来优化模型性能. 引入早停策略,当模型连续200次迭代准确率无提高时,停止训练.

2.3. 评估指标

为了全面评估模型的分类性能,选用分类准确率Acc和Kappa系数作为评价指标. 分类准确率衡量模型在测试集上的总体分类正确性,计算式为

$ {\text{Acc}} = \frac{{{\text{TP+TN}}}}{{{\text{TP+TN+FP+FN}}}} \times 100{\text{%}} . $

式中:TP、TN、FP和FN分别为真阳性、真阴性、假阳性和假阴性样本数. 为了进一步排除由于随机猜测造成的偶然一致性影响,引入Kappa系数. Kappa系数是常用于分类任务的统计学一致性评价指标,计算式为

$ {\text{Kap}} = \frac{{{P_{\mathrm{o}}} - {P_{\text{e}}}}}{{1 - {P_{\text{e}}}}},\;\;{P_{\mathrm{o}}} = \left( {{\text{TP+TN}}} \right)/n. $

式中:${P_{\mathrm{o}}} $为观察到的一致性,表示测试集中正确分类的比例;${P_{\text{e}}}$为基于真实类别分布和预测类别分布计算的预期一致性,

$ {P_{\text{e}}} = \sum\limits_{i = 1}^k {\dfrac{{{c_i} \cdot {v_i}}}{{n^2}}} . $

式中:${c_i}$${v_i}$分别为类别i的真实样本数和预测样本数,n为样本总数,k为类别总数.

3. 实验结果与分析

3.1. 分类方法对比

为了验证MSWATCN在MI-EEG分类任务中的优势,选取多个在该数据集上表现优异的分类模型进行对比分析. 1)FBCSP[22]:将脑电信号分解为多个频带并结合共同空间模式 (common spatial pattern,CSP)提取特征,有效解决CSP依赖频带的问题. 2)浅层卷积网络架构ConvNet:时域卷积层提取频段信号,空间卷积层捕捉空间特征,较大的卷积核尺寸增强了信号转换能力,使计算复杂度降低的同时保留了关键特征. 3)紧凑高效的深度学习模型EEGNet:核心创新在于通过深度卷积逐层处理不同频段信号,点卷积整合多维信息,保持特征提取能力. 4)基于迁移学习的深度表示域适配方法DRDA[23]:通过特征提取器学习判别性特征,结合域判别器的对抗学习策略提升目标受试者的分类性能. 5)基于时空频域特征提取的深度学习网络IFBCLNet[24]:结合可解释滤波器组、CNN和长短时记忆网络(LSTM),以多维方式(时间、空间、频率)提取脑电特征. 6)Conformer[25]:结合CNN和 Transformer框架,通过CNN学习局部时间与空间特征,同时利用Transformer的自注意机制捕捉全局时间特征,实现端到端脑电信号处理. 7)结合注意力机制的滤波器组双视图图卷积网络AFB-DVGCN[26]:通过滤波器组多分支网络提取不同频段的时域和空域特征,引入有效通道注意力机制以动态加权方式增强关键特征表达.

不同方法在BCI Competition IV 2a数据集上的9名受试者(A01~A09)的分类准确率如表1所示,MSWATCN的平均分类准确率$\overline{\mathrm{Acc}} $=80.40%,显著高于传统方法FBCSP(67.75%)和经典深度学习模型ConvNet(72.53%)、EEGNet(74.50%). 该结果验证了深度学习的优越性及基于局部和全局依赖特征结合对增强特征表达能力的重要性. 更为先进的模型IFBCLNet、Conformer和滤波器组双视图图卷积网络AFB-DVGCN,平均分类准确率分别为78.79%、 78.66%和77.39%,这些方法通过结合频域、时空特征和注意力机制展现出较好的性能. MSWATCN通过多头滑窗注意力模块和时间卷积网络模块的深度优化,在准确率和一致性(Kap=0.74)上均表现优异.

表 1   不同分类方法在BCI Competition IV 2a数据集上的分类准确率

Tab.1  Classification accuracy of different methods on BCI Competition IV 2a dataset

分类方法Acc/%$\overline{\mathrm{Acc}} $/%Kapp
A01A02A03A04A05A06A07A08A09
FBCSP76.0056.5081.2561.0055.0045.2582.7581.2570.7567.750.570.0001
ConvNet76.3955.2189.2474.6556.9454.1792.7177.0876.3972.530.630.0022
EEGNet85.7661.4688.5467.0155.9052.0889.5883.3379.5174.500.660.0031
DRDA83.1955.1487.4375.2862.2957.1586.1883.6182.0074.750.660.0014
IFBCLNet87.1858.6592.6778.0770.6560.4692.4182.2886.7478.790.720.0960
Conformer88.1961.4693.4078.1352.0865.2892.3688.1988.8978.660.720.5140
MSWATCN89.2464.5893.4074.6573.2662.8593.7585.4286.4680.400.74

新窗口打开| 下载CSV


表2所示为不同方法在数据集2b上的9名受试者(B01~B09)的分类准确率, MSWATCN的$\overline{\mathrm{Acc}} $=87.27%,相较FBCSP、ConvNet和EEGNet提高了接近7个百分点. 高级模型DRDA和Conformer的平均分类准确率分别为83.98%和84.63%,表现出较强的适应能力,但MSWATCN在几乎所有受试者上的分类性能均有所提升,显示了滑窗注意力机制对局部和全局特征的高效建模能力.

表 2   不同分类方法在BCI Competition IV 2b数据集上的分类准确率

Tab.2  Classification accuracy of different methods on BCI Competition IV 2b dataset

分类方法Acc /%$\overline{\mathrm{Acc}} $/%Kapp
B01B02B03B04B05B06B07B08B09
FBCSP70.0060.3660.9497.5093.1280.6378.1392.5086.8880.000.600.0100
ConvNet78.5650.0051.5696.8893.1385.3183.7591.5685.6279.370.590.0039
EEGNet75.9457.6458.4398.1381.2588.7584.0693.4489.6980.480.610.0039
DRDA83.3762.8663.6395.9493.5688.1985.0095.2590.0083.980.680.0273
IFBCLNet79.8280.4073.0497.7196.3388.8490.0893.4790.2087.760.760.4961
Conformer82.5065.7163.7598.4486.5690.3187.8194.3892.1984.630.691.0000
MSWATCN84.0663.2180.9398.1596.2589.6987.5093.7591.8887.270.75

新窗口打开| 下载CSV


对不同方法进行统计显著性检验,量化方法的性能差异是由随机因素引起,还是真实存在的情况. 根据表1表2的显著性检验结果可知,模型FBCSP、ConvNet、EEGNet、DRDA的p值均远小于0.05,验证了所提方法的性能显著优于对比算法. IFBCLNet和Conformer的统计检验未发现显著差异,这可能是样本量限制以及模型性能接近造成的.

3.2. 多尺度双流分组卷积结构选择

为了突出多尺度双流分组卷积模块时空特征提取能力的优势,将其与使用较多的多分支模型Inception结构进行对比. Inception结构如图5所示,在不改变其他层的基础上,使用与多尺度双流分组卷积模块相同大小的卷积核,最大程度上保持参数相同而只改变多分支结构组成. 比较2种多尺度结构对分类准确率的影响,在相同实验环境下,BCI Competition IV 2a数据集9名受试者的平均分类准确率为70.60%,BCI Competition IV 2b数据集9名受试者的平均分类准确率为83.52%,相较于多尺度双流分组卷积结构的模型平均分类准确率分别低9.8个百分点和3.75个百分点,证明所选的多尺度双流分组卷积模块在脑电信号的时空特征提取方面更具优势.

图 5

图 5   多尺度卷积结构

Fig.5   Structure of multi-scale convolution


3.3. 可视化结果分析

观察多尺度滑窗注意力时序卷积网络模型的分类效果,使用t-分布随机近邻嵌入(t-SNE)[27]对提取的高维特征进行降维和可视化. 实验分别从数据集BCI Competition IV 2a和2b中选择受试者A01和B01的信号数据进行特征可视化,提取不同模块的特征向量,分别展示原始数据、模块1(多尺度双流分组卷积模块)、模块2(滑动窗口多头注意力模块)和模块3(窗口化时间卷积模块)的t-SNE可视化结果如图6图7所示.

图 6

图 6   BCI Competition IV 2a数据集中不同模块的t-SNE特征可视化结果

Fig.6   Visualization results of t-SNE features of different modules for BCI Competition IV 2a dataset


图 7

图 7   BCI Competition IV 2b数据集中不同模块的t-SNE特征可视化结果

Fig.7   Visualization results of t-SNE features of different modules for BCI Competition IV 2b dataset


BCI Competition IV 2a和2b原始数据的类别分布较为混乱,类别间重叠严重,样本的可分性较差,为此通过类间可分性指标轮廓系数量化评估各模块输出特征的可分性. 轮廓系数的计算式为

$ {S_{i}} = \frac{{{b_i} - {a_i}}}{{\max \left( {{a_i},{b_i}} \right)}}. $

式中:${a_i}$为样本i到同簇其他样本的平均距离,${b_i}$为样本i到最近其他簇所有样本平均距离. ${S_i}$的取值范围为[−1,1],${S_i}$越趋近于1表示类内样本越紧密,类间分离度越高. 经过模块1处理后,A01不同类别的样本开始逐渐分离,${S_i}$从−0.037提升至0.055,B01类别分布仍不清晰,${S_i}$从0.003提升至0.021. 随着网络深度的增加,模块2通过滑动窗口多头注意力机制进一步强化了类别特征,${S_i}$提升到0.252,较大提高了A01的类别间边界,B01的${S_i}$也提高到0.225,2名受试者的样本间区分程度明显增强. 模块3对时序特征进一步提取和优化,样本的分布更加聚集,类别之间的分离效果达到最佳,其中A01的${S_i}$提升至0.314,B01的${S_i}$提升至0.288. 综上可知,相对于多尺度双流分组卷积和窗口化时间卷积,滑动窗口多头注意力机制的轮廓系数${S_i}$在A01和B01分别增加了0.197和0.204,对样本特征分离度影响更大.

3.4. 滑动窗口数量对分类性能的影响

经多尺度双流分组卷积模块输出的时间序列${T_{\text{c}}}$被划分为m个窗口的${T_w}$,每个时间点包含原始MI-EEG的高维特征. 滑动窗口的大小和数量对解码性能产生重要影响,不同大小的窗口表示对原始MI-EEG高维时间特征的不同聚合方式. 如图8所示,研究滑动窗口数量m对MI-EEG解码性能的影响,m=1表示不使用滑动窗口,5折交叉验证后的结果表明,增加滑动窗口的数量显著提升了解码性能. 在2a数据集中,分类准确率随滑动窗口数量增加整体上升,在滑动窗口数量为6时达到峰值80.40%,此时窗口长度为10,覆盖运动想象任务的执行阶段2.5 s,随后虽有波动但总体保持稳定,表明滑动窗口数量的增加对分类性能的负面影响较小. 在2b数据集中,分类准确率在m=4时达到峰值87.27%,根据式(1)可知窗口长度与窗口数量之间的对应关系,此时窗口长度为12,覆盖运动想象任务的执行阶段3 s,显示过度分割导致短窗口信息不足,丢失信号低频成分,限制了模型对关键特征的学习能力. 多尺度双流分组卷积模块执行了2次核大小为(1,8)的平均池化,滑动窗口每执行一步滑动相当于在原始信号中进行64个时间采用点滑动,提取超过4 Hz的相关频谱信息. 综合来看,滑动窗口数量的合理选择至关重要,既要确保模型能够有效提取局部特征,又要避免过度分割带来的信息损失与计算复杂度的提升.

图 8

图 8   滑动窗口数量与分类准确率的关系分析

Fig.8   Analysis of relationship between number of sliding windows and classification accuracy


3.5. 消融实验

系统地移除MSWATCN中的关键模块,评估每个模块对模型整体性能的贡献,实验结果如表3所示. 移除模块包括1)滑动窗口:去除模型中处理局部时间特征的滑动窗口机制. 2)注意力机制:移除多头注意力模块在增强关键特征表示中的作用. 3)时间卷积:移除时间卷积模块在捕捉时间依赖性方面的重要性. 4)滑动窗口和注意力机制:评估模型局部时间特征处理与关键特征增强的协同作用. 5)滑动窗口和时间卷积:测试局部和全局时间特征提取的重要性. 实验结果表明,滑动窗口、多头注意力机制和时间卷积是模型性能的核心组成部分,其中滑动窗口对局部时间特征的提取起关键作用,移除后准确率大幅下降,尤其在2a数据集上影响更为显著,移除后准确率降低了接近10个百分点;多头注意力机制和时间卷积模块分别在强化关键特征表示和捕捉时间依赖性方面起重要作用,移除后均导致模型性能明显退化. 联合移除实验进一步揭示模块间的协同作用. 当滑动窗口和注意力机制同时被移除时,模型性能出现最大降幅,其中2a数据集的平均准确率降低了24.43个百分点,2b数据集降低了9个百分点,表明两者在局部时间特征提取与关键信息强化中的协作尤为重要. 相比之下,滑动窗口与时间卷积的联合移除对性能的影响略小. 综合来看,完整模型通过各模块的高效协作,实现时间特征的全面建模和关键信息的充分表达,达到最佳性能. 实验结果验证了模块设计的合理性及其协同优化的必要性,为模型的整体性能提升提供了坚实支持.

表 3   多尺度滑窗注意力时序卷积网络的模块消融实验

Tab.3  Ablation experiment on modules of multi-scale sliding-window attention temporal convolutional network

移除模块Acc/%
2a数据集2b数据集
滑动窗口70.8681.84
注意力机制76.6686.53
时间卷积78.5185.02
滑动窗口和注意力机制55.9778.27
滑动窗口和时间卷积77.4787.26
MSWATCN80.4087.27

新窗口打开| 下载CSV


4. 结 语

本研究提出基于多尺度滑窗注意力时序卷积网络的运动想象脑电分类模型,有效解决了多尺度时空特征提取问题. 实验结果表明,所提模型在BCI Competition IV 2a和2b数据集上表现优异,其分类准确率和一致性优于多种基准模型;滑窗注意力机制与时间卷积在局部和全局特征建模中有效. 滑窗参数对分类性能的影响因数据集而异,部分特征表征能力较弱,仍需进一步优化. 所提模型在理论上深化了对时间序列多尺度特征与注意力机制的理解,在应用上为脑机接口提供了高效、准确的分类方法. 未来研究计划优化滑窗机制,探索动态分割以减少超参数调节需求,增强模型对高噪声信号的鲁棒性,同时结合可解释性分析工具改进模型透明性,验证模型在其他生物信号分析中的通用性和扩展性.

参考文献

刘近贞, 叶方方, 熊慧

基于卷积神经网络的多类运动想象脑电信号识别

[J]. 浙江大学学报: 工学版, 2021, 55 (11): 2054- 2066

[本文引用: 1]

LIU Jinzhen, YE Fangfang, XIONG Hui

Recognition of multi-class motor imagery EEG signals based on convolutional neural network

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (11): 2054- 2066

[本文引用: 1]

WANG X, LIESAPUTRA V, LIU Z, et al

An in-depth survey on deep learning-based motor imagery electroencephalogram (EEG) classification

[J]. Artificial Intelligence in Medicine, 2024, 147: 102738

DOI:10.1016/j.artmed.2023.102738      [本文引用: 1]

METZGER S L, LITTLEJOHN K T, SILVA A B, et al

A high-performance neuroprosthesis for speech decoding and avatar control

[J]. Nature, 2023, 620 (7976): 1037- 1046

DOI:10.1038/s41586-023-06443-4      [本文引用: 1]

WILLETT F R, KUNZ E M, FAN C, et al

A high-performance speech neuroprosthesis

[J]. Nature, 2023, 620 (7976): 1031- 1036

DOI:10.1038/s41586-023-06377-x      [本文引用: 1]

YOU Y, CHEN W, ZHANG T

Motor imagery EEG classification based on flexible analytic wavelet transform

[J]. Biomedical Signal Processing and Control, 2020, 62: 102069

DOI:10.1016/j.bspc.2020.102069      [本文引用: 1]

ANOWAR F, SADAOUI S, SELIM B

Conceptual and empirical comparison of dimensionality reduction algorithms (PCA, KPCA, LDA, MDS, SVD, LLE, ISOMAP, LE, ICA, t-SNE)

[J]. Computer Science Review, 2021, 40: 100378

DOI:10.1016/j.cosrev.2021.100378      [本文引用: 1]

THOMAS K P, GUAN C, LAU C T, et al

A new discriminative common spatial pattern method for motor imagery brain–computer interfaces

[J]. IEEE Transactions on Biomedical Engineering, 2009, 56 (11): 2730- 2733

DOI:10.1109/TBME.2009.2026181      [本文引用: 1]

SAKHAVI S, GUAN C, YAN S

Learning temporal information for brain-computer interface using convolutional neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29 (11): 5619- 5629

DOI:10.1109/TNNLS.2018.2789927      [本文引用: 1]

SCHIRRMEISTER R T, SPRINGENBERG J T, FIEDERER L D J, et al

Deep learning with convolutional neural networks for EEG decoding and visualization

[J]. Human Brain Mapping, 2017, 38 (11): 5391- 5420

DOI:10.1002/hbm.23730      [本文引用: 1]

LAWHERN V J, SOLON A J, WAYTOWICH N R, et al

EEGNet: a compact convolutional neural network for EEG-based brain–computer interfaces

[J]. Journal of Neural Engineering, 2018, 15 (5): 056013

DOI:10.1088/1741-2552/aace8c      [本文引用: 1]

INGOLFSSON T M, HERSCHE M, WANG X, et al. EEG-TCNet: an accurate temporal convolutional network for embedded motor-imagery brain–machine interfaces [C]// Proceedings of the 2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC). [S.l.]: ACM, 2020: 2958–2965.

[本文引用: 1]

LI D, XU J, WANG J, et al

A multi-scale fusion convolutional neural network based on attention mechanism for the visualization analysis of EEG signals decoding

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2020, 28 (12): 2615- 2626

DOI:10.1109/TNSRE.2020.3037326      [本文引用: 1]

ALTAHERI H, MUHAMMAD G, ALSULAIMAN M

Dynamic convolution with multilevel attention for EEG-based motor imagery decoding

[J]. IEEE Internet of Things Journal, 2023, 10 (21): 18579- 18588

DOI:10.1109/JIOT.2023.3281911      [本文引用: 1]

HAN J W, BAK S, KIM J M, et al

META-EEG: meta-learning-based class-relevant EEG representation learning for zero-calibration brain–computer interfaces

[J]. Expert Systems with Applications, 2024, 238: 121986

DOI:10.1016/j.eswa.2023.121986      [本文引用: 1]

ZHANG Y, QIU S, WEI W, et al

Dynamic weighted filter bank domain adaptation for motor imagery brain–computer interfaces

[J]. IEEE Transactions on Cognitive and Developmental Systems, 2023, 15 (3): 1348- 1359

DOI:10.1109/TCDS.2022.3209801      [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: [s.n.], 2017: 5998–6008.

[本文引用: 1]

MUSALLAM Y K, ALFASSAM N I, MUHAMMAD G, et al

Electroencephalography-based motor imagery classification using temporal convolutional network fusion

[J]. Biomedical Signal Processing and Control, 2021, 69: 102826

DOI:10.1016/j.bspc.2021.102826      [本文引用: 1]

DING Y F, JIA M P, MIAO Q H, et al

A novel time–frequency transformer based on self–attention mechanism and its application in fault diagnosis of rolling bearings

[J]. Mechanical Systems and Signal Processing, 2022, 168: 108616

DOI:10.1016/j.ymssp.2021.108616      [本文引用: 1]

ALTAHERI H, MUHAMMAD G, ALSULAIMAN M

Physics-informed attention temporal convolutional network for EEG-based motor imagery classification

[J]. IEEE Transactions on Industrial Informatics, 2023, 19 (2): 2249- 2258

DOI:10.1109/TII.2022.3197419      [本文引用: 1]

施锦河, 沈继忠, 王攀

四类运动想象脑电信号特征提取与分类算法

[J]. 浙江大学学报: 工学版, 2012, 46 (2): 338- 344

[本文引用: 1]

SHI Jinhe, SHEN Jizhong, WANG Pan

Feature extraction and classification of four-class motor imagery EEG data

[J]. Journal of Zhejiang University: Engineering Science, 2012, 46 (2): 338- 344

[本文引用: 1]

HE H, WU D

Transfer learning for brain–computer interfaces: a euclidean space data alignment approach

[J]. IEEE Transactions on Biomedical Engineering, 2020, 67 (2): 399- 410

DOI:10.1109/TBME.2019.2913914      [本文引用: 1]

ANG K K, CHIN Z Y, ZHANG H, et al. Filter bank common spatial pattern (FBCSP) in brain-computer interface [C]// Proceedings of the IEEE International Joint Conference on Neural Networks. Hong Kong: IEEE, 2008: 2390–2397.

[本文引用: 1]

ZHAO H, ZHENG Q, MA K, et al

Deep representation-based domain adaptation for nonstationary EEG classification

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (2): 535- 545

DOI:10.1109/TNNLS.2020.3010780      [本文引用: 1]

CAO J, LI G, SHEN J, et al

IFBCLNet: spatio-temporal frequency feature extraction-based MI-EEG classification convolutional network

[J]. Biomedical Signal Processing and Control, 2024, 92: 106092

DOI:10.1016/j.bspc.2024.106092      [本文引用: 1]

SONG Y, ZHENG Q, LIU B, et al

EEG conformer: convolutional transformer for EEG decoding and visualization

[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2023, 31: 710- 719

DOI:10.1109/TNSRE.2022.3230250      [本文引用: 1]

吴书晗, 王丹, 陈远方, 等

融合注意力的滤波器组双视图图卷积运动想象脑电分类

[J]. 浙江大学学报: 工学版, 2024, 58 (7): 1326- 1335

[本文引用: 1]

WU Shuhan, WANG Dan, CHEN Yuanfang, et al

Attention-fused filter bank dual-view graph convolution motor imagery EEG classification

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (7): 1326- 1335

[本文引用: 1]

VAN DER MAATEN L, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9: 2579- 2605

[本文引用: 1]

/