浙江大学学报(工学版), 2026, 60(4): 887-895 doi: 10.3785/j.issn.1008-973X.2026.04.020

电子与信息工程

基于频段特异性时空频融合的听觉注意力解码分析

王春丽,, 高玉鑫, 李金絮

兰州交通大学 电子与信息工程学院,甘肃 兰州 730000

Auditory attention decoding analysis based on band-specific spatial-temporal frequency fusion

WANG Chunli,, GAO Yuxin, LI Jinxu

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730000, China

收稿日期: 2025-04-26  

基金资助: 兰州交通大学-天津大学高校联合创新基金资助项目(LH2023002);天津市自然科学基金资助项目(21JCZXJC00190).

Received: 2025-04-26  

Fund supported: 兰州交通大学-天津大学高校联合创新基金资助项目(LH2023002);天津市自然科学基金资助项目(21JCZXJC00190).

作者简介 About authors

王春丽(1981—),女,副教授,从事脑电听觉注意力检测研究.orcid.org/0009-0000-8095-4485.E-mail:gyx12172105@163.com , E-mail:gyx12172105@163.com

摘要

针对听觉注意力检测方法忽视脑电信号频段特异性贡献的问题,提出时空频特征融合框架(SSF-ConvLSTM). 该框架系统评估$\delta $(1~4 Hz)、$\theta $(4~8 Hz)、$\alpha $(8~13 Hz)、$\beta $(13~30 Hz)和$\gamma $(30~50 Hz)频段的差异化贡献,从而实现关键频段的定量筛选与动态耦合建模. 通过脑地形图揭示不同频段神经活动的空间权重分布,筛选与目标语音编码密切相关的频段. 构建SSF-ConvLSTM模型,通过卷积层提取频带空间特征,并融合长短时记忆网络(LSTM)对注意力时变动态的建模能力,从而实现跨频段时空动态特征的联合解码. 在公开KUL和DTU数据集上进行算法验证,结果表明:随着频率不断增高,与听觉注意解码相关的额叶和颞叶权重在$ \alpha$频带达到峰值,随后至$\gamma $频带逐渐降低;在KUL数据集上,低频带$\alpha $在5 s决策窗口具有最优解码精确度93.38%,较基线模型提高了9.78个百分点;在DTU数据集上,$\alpha $频带解码精度较基线模型显著提高5.5个百分点. 本研究证实了频段特异性特征对AAD解码的关键作用,为开发基于特征优化的新型频段-时空耦合脑机接口提供了理论依据.

关键词: 脑电图 (EEG) ; 听觉注意力检测 (AAD) ; 频带分析 ; 解码精度 ; 鸡尾酒会效应

Abstract

A spatial-temporal frequency feature fusion framework (SSF-ConvLSTM) was proposed, in order to address the issue that auditory attention detection methods ignore the band-specific contribution of EEG signals. This framework systematically evaluated the differentiated contributions of the $\delta $(1~4 Hz), $\theta $(4~8 Hz), $\alpha $(8~13 Hz), $\beta $(13~30 Hz), and $\gamma $(30~50 Hz) frequency bands, thereby achieving quantitative screening and dynamic coupling modeling of key frequency bands. Firstly, the spatial weight distribution of neural activities in different frequency bands was revealed through brain topographic maps, thereby screening those closely related to target speech encoding. Secondly, the SSF-ConvLSTM model was constructed. The spatial features of the frequency bands were extracted through convolutional layers, and the modeling ability of the Long Short-Term Memory (LSTM) network for the time-varying dynamics of attention was integrated, thereby enabling the joint decoding of spatial-temporal dynamic features across frequency bands. The algorithm was verified on the public KUL and DTU datasets. The results showed that as the frequency continuously increased, the weights of the frontal and temporal lobes related to auditory attention decoding reached their peak in the $\alpha $ band and then gradually decreased in the $\gamma $ band. Through model analysis on the KUL dataset, the $\alpha $ low-frequency band had the optimal decoding accuracy of 93.38% in the 5-second decision window, which was 9.78 percentage points higher than that of the baseline model. On the DTU dataset, the decoding accuracy of the α band was significantly improved by 5.5 percentage points compared with the baseline model. This study confirmed the key role of band-specific features in AAD decoding, thereby providing a theoretical basis for the development of a new type of band-spatial-temporal coupled brain-computer interface based on feature optimization.

Keywords: electroencephalogram (EEG) ; auditory attention detection (AAD) ; band analysis ; decoding accuracy ; cocktail party effect

PDF (2409KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王春丽, 高玉鑫, 李金絮. 基于频段特异性时空频融合的听觉注意力解码分析. 浙江大学学报(工学版)[J], 2026, 60(4): 887-895 doi:10.3785/j.issn.1008-973X.2026.04.020

WANG Chunli, GAO Yuxin, LI Jinxu. Auditory attention decoding analysis based on band-specific spatial-temporal frequency fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 887-895 doi:10.3785/j.issn.1008-973X.2026.04.020

在复杂声学场景中,人类大脑能够通过选择性听觉注意力从多声源混合信号中精准分离并跟踪目标语音,这种能力对日常交流至关重要[1-3]. 解码听觉注意力的神经机制不仅是认知神经科学的核心问题,更为开发脑机接口(brain-computer interface,BCI)辅助设备(如智能助听器)提供了理论基础[4-5]. 近年来,基于脑电图的听觉注意力检测技术通过分析语音包络追踪取得显著进展[6-7]. Somers等[8]提出一种周期性中断电刺激的创新方法,在刺激间隙采集无伪迹EEG信号并训练线性解码器,首次在持续电刺激条件下验证了语音包络的神经追踪信号. Wang等[9]提出分段AAD方法解码来自不同均方根级别的语音片段的目标语音包络方法,与统一解码器相比,所提出分段解码方法有更高的信息传输速率和更短的切换时间. Xu等[10]提出基于LSTM的AAD框架,通过优化EEG通道选择与频带增强来提升注意力识别的准确性,在17通道构建的LSTM模型通过语音包络重建实现了74.29%的注意力解码精度. Zhu等[11]提出脑电驱动的参与说话者检测方法(E-ASD),通过对比脑电图的语音包络与音频包络的相关性从而确定目标话者,在0.5 s决策窗口,达到最优解码精度. 王春丽等[12]提出时空频多维特征的短时窗口脑电听觉注意解码网络,在1.0 s决策窗口下解码精度效果达到最佳. Cai等[13]提出SSF-CNN架构,在5.0 s的决策窗口,解码精度达到81.7%. Xie等[14]提出时频注意机制,采集受试者在真实场景中的脑电信号,在0.1 s时解码精度达到最好91.8%. 然而,这些方法普遍依赖全频段EEG信号解码,忽视了不同频段对听觉注意表征的特异性贡献. 传统AAD研究多基于宽频信号(如1~50 Hz)构建解码模型,但神经科学证据表明,听觉注意力的动态调控与特定频段的神经振荡密切相关[15]. 例如,$\alpha $频段(8~12 Hz)通过颞顶叶区域能量增强抑制背景噪声[16-17],而$\theta $频段(4~8 Hz)可能通过韵律同步机制编码语音时域特征. 此外,额顶叶网络在$\beta $频段(13~30 Hz)的持续激活,被认为是维持注意焦点的“自上而下”调控信号. 尽管上述理论揭示了频段分工的可能性,但如何量化各频段对AAD解码的差异化贡献,仍是尚未解决的关键问题.

针对这一挑战,本研究提出时空频特征融合框架(SSF-ConvLSTM),系统探究不同EEG频段对听觉注意力解码的特异性作用. 1)利用脑地形图分析揭示$\delta $(1~4 Hz)、$\theta $(4~8 Hz)、$\alpha $(8~13 Hz)、$\beta $(13~30 Hz)和$\gamma $(30~50 Hz)频段的空间权重分布,识别与目标语音编码相关的关键脑区. 2)提出SSF-ConvLSTM模型,通过卷积神经网络提取频带特异性空间模式,并融合LSTM对时序动态的建模能力,实现跨频段的解码精度对比. 3)针对单一频带EEG信号解码精度进行分析,提出沿通道维度对目标频带数据进行5次复制,构建五通道输入结构,以确保模型输入维度与原始架构保持兼容.

1. 模型与方法

传统AAD模型通常直接混合全频段EEG信号,从而导致关键频段的特征被全频段所掩盖,同时产生模型冗余问题. 本研究提出时空频特征融合框架将EEG 信号分解为$\delta $$\theta $$\alpha $$\beta $$\gamma $共5个频段,消除跨频段干扰;在每条分支中嵌入可学习空间注意力模块量化各频段对AAD的权重贡献,并通过门控机制动态融合多频段输出,抑制相关频段噪声. 为了更近一步验证不同频段对AAD解码精度的影响,构建SSF-ConvLSTM模型,在KUL和DTU数据集上对频带在不同决策窗口下的解码精度进行验证. SSF-ConvLSTM模型如图1所示,主要由多频段特征提取、时空频特征提取、特征融合及分类3部分组成.

图 1

图 1   SSF-ConvLSTM框架图

Fig.1   Framework of SSF-ConvLSTM


1.1. 多频段特征提取

将原始EEG信号划分为多个决策窗口,通过带通滤波将决策窗口划分为5个不同的频带[18]. 在时间维度上,决策窗口采用 50% 重叠的滑动窗设计,以确保时间序列分析的连续性与数据完整性;频带维度则为固定频带划分,各频带间不存在重叠情况,以此实现频域特征的独立提取与分析. 对每个频带的时域信号进行快速傅里叶变换(fast Fourier transform,FFT),得到频域表示. 为了充分利用EEG信号的空间特性,将这些测量值映射到32×32的网格,堆叠5个频带的图形数据,从而形成时空频三维特征. 利用方位角投影技术将EEG电极从3D投影到2D来获取坐标的位置信息[19],为了确保所有点从中心精确散布,设置头顶中心为切点,保持中心点到所有投影的方位角与距离不变,以此来保留电极空间的相对位置;然后通过插值法将离散的功率谱测量值转换为连续信号平面;将平面划分为32×32的均匀网格,在每个网格点评估插值结果,形成二维图像. 由于获得的2D平面包含频谱和空间信息,称之为SSF图,这里总共生成5×32×32个SSF图.

$ P_{t,c}^m=\dfrac{1}{\mathit{\Delta}}\displaystyle\sum_{f\in{m}}^{ }\left|{\mathrm{FFT}}\left({e}_{t,c}^m\right)[f]\right|^2, $

$ h_{t, c}^m=\log _2\;P_{t, c}^m . $

式中:FFT表示快速傅里叶变换,$ e_{t,c}^{m} $为第m个频带在第t个时间窗口、第c个电极的该频带滤波后的时域信号,$ P_{t,c}^{m} $为该频带内所有频率分量的能量和,$ {\mathit{\Delta}} $为该时间窗口下的样本数,f为频率点,m表示第m个频带所对应的所有频率点的集合.

1.2. 时空频特征提取

将生成的5×32×32空间谱图表示为$ {\boldsymbol{X}}\in {{{\bf{R}}}}^{5\times 32\times 32\times 1} $(5个频段×32×32空间分辨率)首先输入Conv3D层,通过3×3×3卷积核在频段、空间维度联合滑动,提取跨频段与局部空间的融合特征,输出形状为$ {\boldsymbol{Y}}\in {{{\bf{R}}}}^{5\times 32\times 32\times 32} $(保持原频段和空间维度,扩展至32通道);随后,ConvLSTM2D层将5个频段序列视为时间步,每个时间步接收一个32×32×32特征图(空间×通道),利用3×3卷积核动态更新输入门、遗忘门和输出门的权重,逐频带传递并更新隐层状态,最终输出第5个频带的隐层状态(32×32×32),实现频段间动态演化特征与空间结构的统一建模.

$ {{{Y}}}_{t,x,y,k}=\sum\limits_{i\text{=−1}}^{1}\sum\limits_{j{=-1}}^{1}\sum\limits_{d{=-1}}^{1}{X}_{t+i,x+j,y+d,c}\cdot {W}_{i+1,j+1,d+1,k}+{b}_{k}. $

式中:$ t、x、y $为输入的空间和频段维度,$ k $为输出通道,$ {b}_{k} $为第k个卷积核的偏置.

$ {{\boldsymbol{i}}}_{t}={\sigma}({{\boldsymbol{W}}}_{{\mathrm{xi}}}\ast {{\boldsymbol{X}}}_{t}+{{\boldsymbol{W}}}_{{\mathrm{hi}}}\ast {{\boldsymbol{H}}}_{t-1}+{{\boldsymbol{b}}}_{{\mathrm{i}}}), $

$ {{\boldsymbol{f}}}_{t}={\sigma}({{\boldsymbol{W}}}_{{\mathrm{xf}}}\ast {{\boldsymbol{X}}}_{t}+{{\boldsymbol{W}}}_{{\mathrm{hf}}}\ast {{\boldsymbol{H}}}_{t-1}+{{\boldsymbol{b}}}_{{\mathrm{f}}}), $

$ \tilde{{{\boldsymbol{C}}}_{t}}=\text{tanh}\;({{\boldsymbol{W}}}_{{\mathrm{xc}}}\ast {{\boldsymbol{X}}}_{t}+{{\boldsymbol{W}}}_{{\mathrm{hc}}}\ast {{\boldsymbol{H}}}_{t-1}+{{\boldsymbol{b}}}_{{\mathrm{c}}}), $

$ {{\boldsymbol{C}}}_{t}={{\boldsymbol{f}}}_{t}\odot {{\boldsymbol{C}}}_{t-1}+{{\boldsymbol{i}}}_{t}\odot \tilde{{{\boldsymbol{C}}}_{t}}, $

$ {{\boldsymbol{o}}}_{t}={\sigma}({{\boldsymbol{W}}}_{{\mathrm{xo}}}\ast {{\boldsymbol{X}}}_{t}+{{\boldsymbol{W}}}_{{\mathrm{ho}}}*{{\boldsymbol{H}}}_{t-1}+{{\boldsymbol{b}}}_{{\mathrm{o}}}), $

$ {{\boldsymbol{H}}}_{t}={{\boldsymbol{o}}}_{t}\odot \text{tanh}\;{{\boldsymbol{C}}}_{t}. $

式中:$ {{\boldsymbol{i}}}_{t} $为输入门,$ {{\boldsymbol{f}}}_{t} $为遗忘门, $ \tilde{{{\boldsymbol{C}}}_{t}} $为候选细胞状态,$ {{\boldsymbol{C}}}_{t} $为更新后状态,$ {{\boldsymbol{o}}}_{t} $为输出门,$ {{\boldsymbol{H}}}_{t} $为隐层状态输出;ifoc分别代表input gate(输入门)、forget gate(遗忘门)、output gate(输出门)和cell state(细胞状态,用于候选状态的计算;$ {\sigma}(\cdot ) $$ \text{sigmoid} $激活函数;$ \odot $为逐元素乘法;$ \ast $为2D卷积操作;$ {{\boldsymbol{W}}}_{{\mathrm{x}}} $$ {{\boldsymbol{W}}}_{{\mathrm{h}}} $为输入和隐藏状态的卷积核权重.

1.3. 特征融合及分类

通过Flatten层将(N,32,32,32)展平为(N,32×32×32),输入到全连接层,softmax激活函数输出二分类概率. 为了防止过拟合并提高模型性能,应用批归一化处理和Relu激活函数,选择交叉熵作为损失函数,$ 1\times {10}^{-3} $为初始学习率,$ 3\times {10}^{-4} $为衰减率,迭代次数为100次,批大小为32.

2. 实验设置与处理

2.1. 数据集

1) KUL数据集[20-21]. 在此数据集中,采用BioSemi ActiveTwo系统收集16名听力正常的受试者(8名男性和8名女性)的64通道脑电信号,采样率为8192 Hz. 言语刺激由4个荷兰语故事构成,并由3名男性佛兰德语发音者叙述,所有刺激语音都被标准化为具有相同的均方根(root mean square,RMS)强度,被认为具有相同音效. 为了模拟真实场景中声音的方向性,采用2种方法来处理音频信号:一是通过头部相关传递函数(head related transfer functions,HRTF)进行滤波;二是采用二分法技术,即每只耳朵通过一个单独的扬声器播放,声源分别在受试者±90°方向. 实验中,每位受试者同时聆听2个不同说话者录制的语音,并被明确指示仅专注于其中一个说话者的语音,2个说话者的语音呈现顺序对于不同受试者是随机的. 每个受试者收听 8 次语音,每次试验的长度为 6 min,详细信息如表1所示. 其中,N为受试者的数量,ts为每名受试者进行测试的时间,T为16名受试者测试总时间.

表 1   数据集详细信息表

Tab.1  Dataset details table

数据集N言语刺激方向ts/minT/h
KUL16佛兰德语90°左和90°右4812.8
DTU18丹麦语60°左和60°右5015.0

新窗口打开| 下载CSV


2) DTU数据集[22-23]. 采用Biosemi系统以512 Hz采样率收集18名受试者的64通道EEG数据,电极定位遵循10/20系统. 言语刺激由同时在无声或混响房间的3位男性和3位女性母语说话者语音组成,采用空间分离的双语音流刺激范式,2个独立音源分别呈现于受试者±60°水平方向,听觉刺激是通过ER-2耳机设置在60 db的,目标说话者的位置和性别在整个实验中都是随机分配的. 对每个受试者收集60次试验,每次50 s,详细信息见表1.

2.2. 数据预处理

为了公平地评估所提出模型的有效性,在多个数据集上,对提出的模型和各基线模型均采用相同的预处理方法进行实验. 对于KUL数据集,首先对每个通道的EEG数据进行共同平均重参考,以降低噪声;随后使用0.1~50.0 Hz带通滤波器滤除低频漂移与高频干扰;随后将EEG信号降采样至128.0 Hz以降低计算复杂度;最终对EEG各通道进行标准化处理,确保每个试次内所有通道数据均满足零均值与单位方差,消除个体与试次间的基线偏移干扰. 对于DTU数据集,通过带通滤波消除50.0 Hz干扰及谐波成分;采用联合去相关算法对眼电伪迹进行系统性去除;执行信号重参考乳突电极的平均响应,用2.0 Hz和32.0 Hz之间的带通滤波器过滤,然后将数据下采样至70.0 Hz以满足分析要求.

2.3. 实验配置

本实验使用配有 Windows10 64 位操作系统、 GPU 为 RTX 4090显卡的计算机. 实验运行在以 PyTorch 为训练框架、Python 语言进行编译的平台, 开发工具使用 PyCharm 和 Anaconda3. 采用RMSprop优化器进行模型训练,数据集按时间窗口划分,每个试次通过滑动窗口生成样本,随机选取10%的窗口作为独立测试集,剩余90%作为训练集,并在训练过程中进一步划分10%作为验证集,重叠率为50%. 在相同的超参数下进行训练、验证和测试. 本研究构建的神经网络模型总参数量为16870690,其中可训练参数占16869538. 模型通过三层批归一化(batch normalization,BN)实现特征稳定,其不可训练参数具体分布为:第1层处理32通道,对应64个不可训练参数;第2层处理512通道,累积1024个参数;第3层再次处理32通道,生成64个参数,最终批归一化层总计不可训练参数为1152个. 实验中各模块的详细配置如表2所示. 其中,din为输入维度,dout为输出维度,n为参数数量. 所有超参数在训练、验证与测试阶段保持一致,确保方法有效性验证的严谨性.

表 2   模块详细配置参数表

Tab.2  Module detailed configuration parameters table

层名dindoutn
三维卷积层5×32×32×15×32×32×32320
批归一化层5×32×32×325×32×32×32128
卷积长短期记忆5×32×32×3232×32×3273856
压缩层32×32×32327680
全连接层327685121677728
批归一化层5125122048
全连接层5123216416
归一化指数函数32266

新窗口打开| 下载CSV


2.4. 单一频带处理策略

为了确定某单一频带解码精度分析,以$\alpha $频带为例,其余频带相同. 首先注释原始五频带数据中$\beta $$\gamma $$\theta $$\delta $这4个频段的生成代码,仅保留$\alpha $频带数据模块;通过沿通道维度复制该频带数据5次构建(5,32,32,1)的输入结构,保持与原始模型输入维度的兼容性. 随后将首层Conv3D的卷积核深度从3调整为1,使其适应单一频带的频谱维度特征,同时维持32×32×1的空间维度参数和后续网络结构不变. 该方法通过数据重构与局部参数适配,在避免维度不匹配错误的前提下完整保留模型架构,既实现了单频带特征的有效提取,又确保了跨频带实验对比的基准一致性.

3. 实验结果

为了系统评估不同频带对听觉注意力的影响,采用多维度分析策略. 通过构建脑地形图,揭示各频段神经活动的空间权重分布,以定位与AAD解码关联紧密的频段;运用分频段特征融合与独立验证相结合的方法展开研究. 具体而言,先基于五频段融合特征构建AAD模型在0.1、1.0、2.0、5.0、10.0 s这5个不同决策窗口下的解码精度;随后对各频段特征进行独立解码实验,量化各频段分类准确度;最后结合脑地形图呈现的神经活动空间分布模式,综合判定对听觉注意解码具有显著贡献的关键频段.

3.1. 多频段EEG信号脑地形图构建

利用64通道EEG数据进行解码虽然高效但也增加了计算复杂度,因此,提出基于频段特异性的解码优化框架. 实验是在MATLAB环境中调用EEGLAB工具包进行分析的,这个过程包括频带提取、权重计算、组水平分析和可视化. 基于EEGLAB加载每个受试者脑电数据并进行重参考和滤波以消除噪声干扰;通过离散傅里叶变换逐通道计算$\delta $(1~4 Hz)、$\theta $(4~8 Hz)、$\alpha $(8~13 Hz)、$\beta $(13~30 Hz)、$\gamma $(30~50 Hz)这5个特征频段的功率谱密度(power spectral density,PSD),并对各频段内PSD进行时域平均,获得反映通道重要性的频段特异性权重;整合所有受试者的权重数据构建组水平矩阵,通过算术平均生成频段权重分布;利用标准化电极坐标绘制具有临床解释性的平均脑地形图.

采用分批次处理策略以克服计算资源限制,具体实施方法如下:在KUL数据集(见图2)中,每次加载4名受试者数据,共进行4次独立计算;同理,在DTU数据集(见图3)处理中,每次加载5名受试者数据,同样完成4次独立计算流程. 其中,PSD表示,在该特定频带内,不同脑区位置(如顶部左侧、顶部中央)计算出的平均功率谱密度. 为了验证该分批处理方法的科学性,特别进行方差分析(F(3,12)=0.82, p=0.51),结果显示各批次间未产生显著组间变异,这从统计学角度证实了实验设计的合理性和结果的可靠性.

图 2

图 2   KUL数据集上的脑地形图分布

Fig.2   Brain topographic map distribution on KUL dataset


图 3

图 3   DTU数据集上的脑地形图分布

Fig.3   Brain topographic map distribution on DTU dataset


在脑地形图中,黑点代表电极的位置,用于采集大脑不同区域的电活动,脑电活动的强度可通过颜色来呈现,其中颜色的深浅与脑区活动强度成正比,即颜色越深,表明对应脑区的活动强度越大. 空间维度分析结果显示,低频段($\delta $$\theta $$\alpha $)在前额叶和颞叶区域呈现显著激活,其中$\alpha $频段在枕叶和顶叶皮层同步表现出高功率特征;高频段($\beta $$\gamma $)则在前额叶和颞叶区域形成与听觉注意力解码密切相关的权重聚集区,该现象与听觉信息处理的层级加工理论相吻合. 从频率梯度演变来看,前额叶与颞叶权重随频率升高呈现非线性变换的趋势,其权重在$\alpha $频段达到峰值,其后随着频率向$\gamma $频段延伸而逐渐递减,表明$\alpha $频段在听觉注意资源分配中具有核心作用. 额叶和颞叶区域通常被认为与听觉注意力控制密切相关,先前的几项听觉注意力检测研究[24-27]也发现了这一区域的显著性. 也有一些研究发现了听觉注意过程中顶叶区域表现得较为活跃,这与本研究结果一致[26,28].

3.2. 解码精度分析

图45所示,采用箱线图叠加散点图的复合可视化方法,系统解析全频带与单一频带解码精度的时空特征. 图中,P为解码精度;每个小菱形点代表单个受试者在特定决策窗口下于不同频带上得到的解码精度;箱型图展示了该指标在群体中的分布情况,其中箱体中央的小长方形表示群体均值,箱内的横线则表示中位数. 为了清晰区分不同时间窗口的结果,采用不同的颜色进行标识. SSF-ConvLSTM代表全频段脑电信号的解码精度,$\delta $则代表模型在$\delta $频带上的解码精度,其余单一频带($\theta $$\alpha $$\beta $$\gamma $)的精度表示方法同理. 结果显示,EEG解码精度随决策窗口延长在2个数据集中均呈线性增长,但频段特异性与窗口长度存在显著交互作用. 在KUL数据集中,如图4所示,低频带($\delta $$\theta $$\alpha $)因高信噪比和抗干扰性,整体优于易受肌电伪迹及噪声干扰的高频带($\beta $$\gamma $);其中$\delta $$\beta $$\gamma $频带在1.0 s决策窗口下的解码精度较0.5 s下出现反常现象,这可能是由于窗口延长导致高频瞬态特征被平滑,同时增加了非稳态噪声的累积效应. 在DTU数据集上,如图5所示,$\alpha $频段凭借感觉运动皮层的空间特异性在短窗口(0.5、1.0、2.0 s)表现更优,全频段则在长窗口(5.0、10.0 s)因信息整合优势反超$\alpha $频段. 值得注意的是,$\gamma $频带在2个数据集中均呈现高异常值比例,这可能与微运动伪迹和注意力波动密切相关,而$\alpha $频带数据分布集中且增长趋势稳定. 基于此,融合$\alpha $频带时空频特征优化与自适应窗口调节机制,有望提升脑机接口系统的解码鲁棒性.

图 4

图 4   KUL数据集不同频带解码精度图

Fig.4   Decoding accuracy plots of different frequency bands in KUL dataset


图 5

图 5   DTU数据集不同频带解码精度图

Fig.5   Decoding accuracy plots of different frequency bands in DTU dataset


与此同时,构建五频带解码精度在KUL和DTU数据集上的演变趋势图,如图6所示,揭示神经振荡频段与时间分辨间的动态耦合机制. 具体而言,$\alpha $频带在2个数据集中均表现出最优解码性能,在DTU数据集上平均解码精度达到62.7%(SD:0.94%),这里的平均解码精度是对0.5、1.0、2.0、5.0、10.0 s 这5个不同决策窗口下的解码精度取算术平均值所得结果;在KUL数据集上平均解码精度达到88.7%(SD:4%). $\delta $频带在DTU数据集上呈现最低性能,仅为52.3%(SD:1.4%);$\beta $频段在KUL数据集上表现最弱,平均解码精度为67.25%(SD:1%). 值得注意的是,$\alpha $频带的优异表现可能与其作为注意力资源分配的“门控信号”这一生理机制密切相关[29]. 进一步研究发现,延长决策窗口长度可有效抑制$\alpha $频带的瞬时波动,这一技术手段为提升解码稳定性提供了重要启示.

图 6

图 6   不同频带的解码精度趋势图

Fig.6   Trend of decoding accuracy in different frequency bands


3.3. $\alpha $频段结果对比

通过对比CNN[26]、CNN-CM[30]、SSF-CNN[13]、NI-AAD[31]、SSF-ConvLSTM这5种模型在2个数据集下$\alpha $频段的听觉注意力检测性能,系统分析0.5、1.0、2.0、5.0、10.0 s这5个决策窗口对解码精度的影响,如图7所示. 结果表明,KUL数据集上的解码精度相比于DTU整体较高. 在KUL数据集上,CNN模型平均解码精度为82.26%(SD:1.87%),在0.5 s下的解码精度达到最低仅为79.2%(SD:2.34%),在10.0 s下达到85.6%(SD:1.98%)的解码精度;SSF-CNN平均准确率为86.02%(SD:4.42%),NI-AAD模型平均准确率为85.26(SD:5.85%),本研究提出的SSF-ConvLSTM平均准确率为88.66%(SD:3.80%),在10.0 s的决策窗口下达到最高的解码精度92.1%(SD:5%),较CNN提高6.40个百分点,较SSF-CNN提高2.64个百分点;在DTU数据集上,SSF-CNN模型平均准确率为59.10%(SD:1.24%),NI-AAD平均准确率为62.04%(SD:1.13%),而SSF-ConvLSTM平均解码精度达到63.04%(SD:0.85%),在10.0 s决策窗口下达到64.6%(SD:3.32%),较CNN提升5.5个百分点. 综合2个数据集实验结果,$\alpha $频段在听觉注意力检测中表现出最优解码精度,其中融合时空特征的SSF-ConvLSTM模型在不同窗口条件下均保持显著优势,验证了结合卷积操作与长短时记忆网络的有效性. 本研究为脑电信号解码提供了重要的时间窗口选择依据,同时证实$\alpha $频段可作为听觉注意力检测的优选特征频段.

图 7

图 7   $\alpha $频段结果分析图

Fig.7   Result analysis diagram of $\alpha $ band


4. 结 语

针对目前听觉注意力检测中全频段EEG信号解码存在的效率低与频段贡献模糊问题,提出两阶段优化框架. 基于脑地形图筛选$\alpha $频段为额叶-颞叶神经编码的核心频带,通过频段压缩缩短预处理时间;利用改进SSF-ConvLSTM模型,分频段提取时空特征,验证$\alpha $与其余频段对解码精度的关键贡献;结合动态窗口机制,提升解码效率,为脑机接口系统提供可落地的频段优化方案,指导嵌入式设备优先提取$\alpha $频带特征以平衡计算效率与复杂场景适应性. 未来工作将结合听觉诱发电位(auditory evoked potential, AEP)开发个性化频段调谐的嵌入式解码系统,并设计轻量化嵌入式模型以支持噪声环境下的实时脑机接口应用,推动实验室算法向助听器、智能耳戴设备的实用化进程.

参考文献

HAN C, O’SULLIVAN J, LUO Y, et al

Speaker-independent auditory attention decoding without access to clean speech sources

[J]. Science Advances, 2019, 5 (5): eaav6134

DOI:10.1126/sciadv.aav6134      [本文引用: 1]

MONESI M J, ACCOU B, MONTOYA-MARTINEZ J, et al. An LSTM based architecture to relate speech stimulus to eeg [C]// ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona: IEEE, 2020: 941–945.

CAI S, SU E, XIE L, et al

EEG-based auditory attention detection via frequency and channel neural attention

[J]. IEEE Transactions on Human-Machine Systems, 2021, 52 (2): 256- 266

[本文引用: 1]

HWANG H J, KIM S, CHOI S, et al

EEG-based brain-computer interfaces: a thorough literature survey

[J]. International Journal of Human-Computer Interaction, 2013, 29 (12): 814- 826

DOI:10.1080/10447318.2013.780869      [本文引用: 1]

CEOLINI E, HJORTKJÆR J, WONG D D E, et al

Brain-informed speech separation (BISS) for enhancement of target speaker in multitalker speech perception

[J]. NeuroImage, 2020, 223: 117282

DOI:10.1016/j.neuroimage.2020.117282      [本文引用: 1]

DE TAILLEZ T, KOLLMEIER B, MEYER B T

Machine learning for decoding listeners’ attention from electroencephalography evoked by continuous speech

[J]. European Journal of Neuroscience, 2020, 51 (5): 1234- 1241

DOI:10.1111/ejn.13790      [本文引用: 1]

THORNTON M, MANDIC D, REICHENBACH T

Robust decoding of the speech envelope from EEG recordings through deep neural networks

[J]. Journal of Neural Engineering, 2022, 19 (4): 046007

DOI:10.1088/1741-2552/ac7976      [本文引用: 1]

SOMERS B, VERSCHUEREN E, FRANCART T

Neural tracking of the speech envelope in cochlear implant users

[J]. Journal of Neural Engineering, 2019, 16 (1): 016003

DOI:10.1088/1741-2552/aae6b9      [本文引用: 1]

WANG L, WU E X, CHEN F

EEG-based auditory attention decoding using speech-level-based segmented computational models

[J]. Journal of Neural Engineering, 2021, 18 (4): 046066

DOI:10.1088/1741-2552/abfeba      [本文引用: 1]

XU Z, BAI Y, ZHAO R, et al

Auditory attention decoding from EEG-based Mandarin speech envelope reconstruction

[J]. Hearing Research, 2022, 422: 108552

DOI:10.1016/j.heares.2022.108552      [本文引用: 1]

ZHU H, CAI S, JIANG Y, et al. EEG-derived voice signature for attended speaker detection [EB/OL]. (2023−08−29) [2025−12−25]. https://doi.org/10.48550/arXiv.2308.14774.

[本文引用: 1]

王春丽, 李金絮, 高玉鑫, 等

一种基于时空频多维特征的短时窗口脑电听觉注意解码网络

[J]. 电子与信息学报, 2025, 47 (3): 814- 824

DOI:10.11999/JEIT240867      [本文引用: 1]

WANG Chunli, LI Jinxu, GAO Yuxin, et al

A short-time window ElectroEncephaloGram auditory attention decoding network based on multi-dimensional characteristics of temporal-spatial-frequency

[J]. Journal of Electronics and Information Technology, 2025, 47 (3): 814- 824

DOI:10.11999/JEIT240867      [本文引用: 1]

CAI S, SUN P, SCHULTZ T, et al. Low-latency auditory spatial attention detection based on spectro-spatial features from EEG [C]// 43rd Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Mexico: IEEE, 2021: 5812-5815.

[本文引用: 2]

XIE Z, WEI J, LU W, et al. EEG-based fast auditory attention detection in real-life scenarios using time-frequency attention mechanism [C]// 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: IEEE, 2024: 1741–1745.

[本文引用: 1]

JIANG Z, AN X, LIU S, et al

Neural oscillations reflect the individual differences in the temporal perception of audiovisual speech

[J]. Cerebral Cortex, 2023, 33 (20): 10575- 10583

DOI:10.1093/cercor/bhad304      [本文引用: 1]

FRIESE U, DAUME J, GÖSCHL F, et al

Oscillatory brain activity during multisensory attention reflects activation, disinhibition, and cognitive control

[J]. Scientific Reports, 2016, 6: 32775

DOI:10.1038/srep32775      [本文引用: 1]

POPOV T, KASTNER S, JENSEN O

FEF-controlled alpha delay activity precedes stimulus-induced gamma-band activity in visual cortex

[J]. The Journal of Neuroscience, 2017, 37 (15): 4117- 4127

DOI:10.1523/JNEUROSCI.3015-16.2017      [本文引用: 1]

LIU Y J, YU M, ZHAO G, et al

Real-time movie-induced discrete emotion recognition from EEG signals

[J]. IEEE Transactions on Affective Computing, 2018, 9 (4): 550- 562

DOI:10.1109/TAFFC.2017.2660485      [本文引用: 1]

KAUSAR T, LU Y, ASGHAR M A, et al

Auditory-GAN: deep learning framework for improved auditory spatial attention detection

[J]. PeerJ Computer Science, 2024, 10: e2394

DOI:10.7717/peerj-cs.2394      [本文引用: 1]

DAS N, FRANCART T, BERTRAND A

Auditory attention detection dataset KUL euven

[J]. Zenodo, 2020, 25 (5): 402- 412

[本文引用: 1]

GEIRNAERT S, FRANCART T, BERTRAND A

Fast EEG-based decoding of the directional focus of auditory attention using common spatial patterns

[J]. IEEE Transactions on Bio-Medical Engineering, 2021, 68 (5): 1557- 1568

DOI:10.1109/TBME.2020.3033446      [本文引用: 1]

FUGLSANG S A, DAU T, HJORTKJÆR J

Noise-robust cortical tracking of attended speech in real-world acoustic scenes

[J]. NeuroImage, 2017, 156: 435- 444

DOI:10.1016/j.neuroimage.2017.04.026      [本文引用: 1]

FUGLSANG S A, WONG D D E, HJORTKJAER J. EEG audio dataset for auditory attention decoding [EB/OL]. [2025−12−25]. https://doi.org/10.5281/zenodo. 1199011.

[本文引用: 1]

CICCARELLI G, NOLAN M, PERRICONE J, et al

Comparison of two-talker attention decoding from EEG with nonlinear neural networks and linear methods

[J]. Scientific Reports, 2019, 9: 11538

DOI:10.1038/s41598-019-47795-0      [本文引用: 1]

ZHANG Z, ZHANG G, DANG J, et al. EEG-based short-time auditory attention detection using multi-task deep learning [C]// Interspeech 2020. ISCA: 2020: 2517-2521.

VANDECAPPELLE S, DECKERS L, DAS N, et al

EEG-based detection of the locus of auditory attention with convolutional neural networks

[J]. eLife, 2021, 10: e56481

DOI:10.7554/eLife.56481      [本文引用: 2]

FU Z, WANG B, WU X, et al. Auditory attention decoding from EEG using convolutional recurrent neural network [C]// 29th European Signal Processing Conference. Dublin: IEEE, 2021: 970–974.

[本文引用: 1]

ZION GOLUMBIC E M, DING N, BICKEL S, et al

Mechanisms underlying selective neuronal tracking of attended speech at a “cocktail party”

[J]. Neuron, 2013, 77 (5): 980- 991

DOI:10.1016/j.neuron.2012.12.037      [本文引用: 1]

MIZOKUCHI K, TANAKA T, SATO T G, et al

Alpha band modulation caused by selective attention to music enables EEG classification

[J]. Cognitive Neurodynamics, 2024, 18 (3): 1005- 1020

DOI:10.1007/s11571-023-09955-x      [本文引用: 1]

SU E, CAI S, LI P, et al. Auditory attention detection with EEG channel attention [C]// 43rd Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Mexico: IEEE, 2021: 5804−5807.

[本文引用: 1]

CAI S, LI P, SU E, et al

A neural-inspired architecture for EEG-based auditory attention detection

[J]. IEEE Transactions on Human-Machine Systems, 2022, 52 (4): 668- 676

DOI:10.1109/THMS.2022.3176212      [本文引用: 1]

/