基于通道加权的多模态特征融合用于EEG疲劳驾驶检测

doi:10.3785/j.issn.1008-973X.2025.09.001

基于通道加权的多模态特征融合用于EEG疲劳驾驶检测

程文鑫^,, 闫光辉^,, 常文文, 吴佰靖, 黄亚宁

兰州交通大学电子与信息工程学院，甘肃兰州 730070

Channel-weighted multimodal feature fusion for EEG-based fatigue driving detection

CHENG Wenxin^,, YAN Guanghui^,, CHANG Wenwen, WU Baijing, HUANG Yaning

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 闫光辉，男，教授. orcid.org/0000-0002-1979-4862. E-mail：yanguanghui@mail.lzjtu.cn

收稿日期: 2024-11-20

基金资助:

国家自然科学基金资助项目（62466032, 62366028, 62062049）；甘肃省自然科学基金资助项目（24JRRA256）；甘肃省教育厅青年博士项目（2023QB-038）；青海省昆仑英才高端创新创业人才计划资助项目（QHKLYC-GDCXCY-2022-171）.

Received: 2024-11-20

Fund supported:

国家自然科学基金资助项目（62466032,62366028,62062049）；甘肃省自然科学基金资助项目（24JRRA256）；甘肃省教育厅青年博士项目（2023QB-038）；青海省昆仑英才高端创新创业人才计划资助项目（QHKLYC-GDCXCY-2022-171）.

作者简介 About authors

程文鑫（1990—），男，博士生，从事脑机接口研究.orcid.org/0009-0005-0695-2015.E-mail：xncycwx@163.com , E-mail：xncycwx@163.com

摘要

针对疲劳驾驶检测方法泛化能力差、特征提取模式单一、模型不可解释等问题，提出多模态特征融合模型nsNMF-PCNN-GRU-MSA，通过分析驾驶员脑电图（EEG）信号实现疲劳程度的检测. 在网络浅层设计通道加权模块，引入非平滑非负矩阵分解（nsNMF）算法计算电极通道的贡献度；在网络中层设计多模态特征融合模块，引入格拉姆角场成像方法将一维EEG数据映射成二维图像，并采用PCNN-GRU并行方式融合不同模态的时空特征；在网络深层融合多头自注意力机制（MSA），完成疲劳驾驶状态分类任务. 实验结果表明，该模型在数据集SEED-VIG和SAD的混合样本上的疲劳检测准确率分别为93.37%、90.78%，单个被试数据准确率最低分别为86.60%、85.59%，高于近年先进模型. 将特征激活值映射到大脑拓扑图上的分析方法不仅提高了模型的可解释性，而且为疲劳驾驶检测提供了新视角.

关键词： EEG ; 疲劳驾驶检测 ; nsNMF ; 格拉姆角场 ; 多模态特征融合 ; 模型可解释性

Abstract

A multimodal feature fusion model based on non-smooth non-negative matrix factorization (nsNMF-PCNN-GRU-MSA) was proposed to address the problems of poor generalisation ability, single feature extraction mode and model uninterpretability in the fatigue driving detection methods. This model detected the level of driver fatigue by analyzing electroencephalogram (EEG) signals. A channel weighting module was designed in the shallow layer of the network, and the non-smooth non-negative matrix factorization (nsNMF) algorithm was introduced to compute the contribution of the electrode channels. A multimodal feature fusion module was designed in the middle layer of the network, where the Gramian angular field imaging method was introduced to map the 1D EEG data into a 2D image, and the spatio-temporal features of different modes were fused in parallel with the PCNN-GRU module. The multi-head self-attention (MSA) mechanism was fused in the deep layer of the network to complete the task of fatigue driving state classification. The experimental results showed that the fatigue detection accuracies of the model on the mixed samples of the SEED-VIG and SAD datasets were 93.37% and 90.78%, respectively, and the lowest accuracies for single-subject data were 86.60% and 85.59%, respectively, which were higher than those of the state-of-the-art models. The analysis method of mapping the feature activation values onto the brain topology map not only improves the interpretability of the model, but also provides a new perspective on fatigue driving detection.

Keywords： EEG ; fatigue driving detection ; nsNMF ; Gramian angular field ; multimodal feature fusion ; model interpretability

PDF (1789KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

程文鑫, 闫光辉, 常文文, 吴佰靖, 黄亚宁. 基于通道加权的多模态特征融合用于EEG疲劳驾驶检测. 浙江大学学报(工学版)[J], 2025, 59(9): 1775-1783 doi:10.3785/j.issn.1008-973X.2025.09.001

CHENG Wenxin, YAN Guanghui, CHANG Wenwen, WU Baijing, HUANG Yaning. Channel-weighted multimodal feature fusion for EEG-based fatigue driving detection. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1775-1783 doi:10.3785/j.issn.1008-973X.2025.09.001

根据美国交通部国家公路管理局发布的《全国机动车碰撞事故原因调查》报告，高达 94%的交通事故由驾驶员的不当行为造成^[1-2]. 当今社会生活节奏加快，人们常常因为加班、生活压力或长时间驾驶而陷入疲劳状态. 疲劳不仅会降低驾驶员的警觉性和反应灵敏度，还会降低驾驶员执行驾驶任务的意愿，最终导致失控和事故的发生. 研究表明，如果能及时提醒驾驶员注意危险驾驶，90%的交通事故是可以避免的^[3]. 因此，开发一种能够准确检测疲劳驾驶状态的方法，对于减少因警觉性降低而导致的交通事故具有重要意义.

用于检测疲劳驾驶的主要方法包括主观量表法、行为测量法、车辆状态测量法和生理信号测量法^[4]. 主观量表法往往容易受到主观偏差的影响，如驾驶员的个人情绪和认知偏差. 行为方法会受到驾驶员行为和疲劳反应个体差异的影响，而这些差异又可能受到药物和噪音等因素的影响. 车辆状态检测往往会受到车辆类型和道路拥堵等外部因素的影响，从而出现测量偏差. 与上述方法相比，基于脑电图（electroencephalogram, EEG）的生理信号测量方法可以直接测量大脑的电活动，从而有效避免主观评价和行为特征可能带来的偏差. 此外，由于脑电信号具有高时间分辨率的特点，基于脑电信号的疲劳检测方法可以实时准确地反映驾驶员的精神状态和疲劳程度^[5]，更加客观、灵敏.

从脑电信号中提取有用特征并准确识别疲劳驾驶状态的过程面临许多挑战^[6]. 人们通常从脑电信号的不同数据维度入手来解决这一问题. 例如，一些研究使用时频分析和非线性方法对一维脑电信号序列进行解码^[7-8]，其他研究则使用二维或三维脑成像方法来提取和表示信号特征^[9-10]. 特征提取后，通常采用机器学习或深度学习等方法对其进行分类. 例如，研究人员使用支持向量机（SVM）、高斯混杂模型（Gaussian mixture model, GMM）等机器学习方法对脑电图信号特征进行驾驶状态分类^[11-13]. 与机器学习相比，深度学习方法在处理信号和图像等非结构化数据方面具有显著优势而被广泛应用^[14]. 例如，Gao等^[15]提出高斯时域网络和纯卷积空间频域网络来融合脑电信号的时空频域多维特征，以用于疲劳驾驶状态的检测. Shi等^[16]利用卷积自动编码器融合多模态生理信号特征，并采用递归神经网络进行驾驶行为识别. Jia等^[17]提出一种端到端的深度学习策略，利用多尺度注意力时空卷积块直接从原始脑电信号中提取特征.

总之，目前基于脑电信号的疲劳驾驶检测方法主要分为两大类：一类是通过先进的信号处理技术提取EEG的时域、频域和空域特征，采用机器学习或深度学习模型识别疲劳驾驶状态；另一类是采用端到端的深度学习方法，直接从原始EEG中自动提取特征来进行驾驶状态识别. 然而，上述研究提取特征的方式比较单一，考虑特征级多模态融合的研究成果较少. 同时，由于被试个体差异较大，大多数研究成果的泛化性能较差. 此外，深度学习模型的“黑盒子”性质给模型的可解释性带来了挑战，限制了人们对模型决策过程的理解.

针对上述问题，提出用于EEG疲劳驾驶检测的nsNMF-PCNN-GRU-MSA模型. 使用非平滑非负矩阵分解（non-smooth non-negative matrix factorization, nsNMF）进行通道加权，有效融合电极通道在疲劳驾驶检测中的贡献度；使用格拉姆角场成像方法将一维EEG数据映射为二维图像，并设计PCNN-GRU并行处理模块提取不同模态的时空特征；使用多头自注意力（multi-head self-attention, MSA）机制进一步获取EEG疲劳特征，有效提高疲劳驾驶检测准确率. 最后，通过对不同脑区疲劳程度的贡献度分析，证明模型的可解释性.

1. 实验数据

1.1. 数据集

1.1.1. SEED-VIG数据集

SEED-VIG是上海交通大学BCMI中心提供的用于警戒评估的数据集^[18]. 数据集采用虚拟现实模拟驾驶系统和17通道的脑电帽进行采集，经过分析和处理共收集到23组可用数据. 每个被试进行实验和数据采集的时间是118 min，由于原始数据降采样至200 Hz，每组数据由1 416 000个采样点组成. 此外，实验采用疲劳度量指数PERCLOS^[19]进行数据标记，即每单位时间的闭眼时间百分比，计算公式如下：

(1)$ {\text{PERCLOS}} = \frac{{{t_{\text{c}}}+{t_{\text{b}}}}}{{{t_{\text{c}}}+{t_{\text{b}}}+{t_{\text{f}}}+{t_{\text{s}}}}}. $

式中：t_c和t_b表示闭眼和眨眼时间，t_f和t_s表示凝视时间和扫视时间. 数据集每8 s记录1次PERCLOS指数值，标记值介于0到1.0之间，值越大表示被试者疲劳程度越高，值越小表示越清醒. 本研究根据PERCLOS值，以0.35和0.70为阈值将标签分为警觉状态、疲劳状态和困倦状态.

1.1.2. SAD数据集

SAD是台湾交通大学提供的持续注意力驾驶数据集^[20]. 数据集采用虚拟现实模拟驾驶系统和32通道的脑电帽进行采集，共采集到26组可用数据. 实验通过随机诱导车道偏移事件，使汽车等概率地从原来的车道向左车道或向右车道偏移. 被试者通过操作方向盘来快速补偿这种扰动（即反应开始），使汽车返回到中心车道（即反应结束）. 一个完整的样本包括偏移开始、反应开始和反应结束3种状态，数据集根据反应时间将样本划分为正常状态和疲劳状态. 由于采样率为500 Hz，且每个被试的样本数不一致，每个被试的数据由600 000个采样点及对应的样本数组成.

1.2. 滤波

为了减少噪声对疲劳检测效果的影响，对原始数据进行滤波处理，得到δ (1~4 Hz)、θ (4~8 Hz)、α (8~14 Hz)、β (14~31 Hz)和γ (31~50 Hz) 5个频带. 频带划分后，SEED-VIG数据集原始数据维度由17×1 416 000（通道数×采样点）分解为17×1 416 000×5（通道数×采样点×频带数）. SAD数据集原始数据维度则由32×样本数×600 000分解为32×样本数×600 000×5.

1.3. 频域特征提取

脑电信号是非稳态随机信号，分析其频域特征对于了解大脑活动至关重要. 在各种频域特征分析方法中，微分熵作为一种定量工具，能够有效捕捉脑电信号的复杂性，在疲劳驾驶检测系统中已被证明是有效的^[21]. 因此，本研究将微分熵作为连续脑电信号中警觉性的衡量指标. 特定频带的微分熵的计算公式为

(2)$ {{\mathrm{DE}}_b}(x) = \frac{1}{2}\log \;(2{\text{πe}}{\sigma _b}^2). $

式中：$ {\sigma _b}^2 $表示频带b对应的方差. 每8 s对EEG信号计算1次微分熵，获得SEED-VIG数据集中每个被试提取频域特征后的维度为17×885×5（通道数×样本数×频带数），对于SAD数据集则根据每个被试的实际样本数得到不同维度的特征数据.

2. 方　法

2.1. 基于nsNMF的通道加权算法

为了获取各电极通道的贡献度，采用nsNMF算法计算每个被试的通道权重. nsNMF是非负矩阵分解（NMF）的一种变体. Li等^[22]的研究结果显示nsNMF在脑电信号处理方面效果更好. 对于任意给定的矩阵V，NMF的目的是将其分解为2个低秩矩阵：基矩阵（W）和编码矩阵（H）.

(3)$ {\boldsymbol{V}}\approx {\boldsymbol{W}}\cdot {\boldsymbol{H}}. $

为了获取EEG通道的更有意义的信息，引入非光滑和非线性约束的非负矩阵分解（nsNMF）技术，将其应用于脑电通道的权重计算. 将被试者的EEG数据表示为$ {\boldsymbol{F}} \in {{\bf{R}}^{c \times n \times b}} $，其中c为通道，n为样本数. 每个通道的协方差矩阵R_cov表示为

(4)$ {{\boldsymbol{R}}_{{\text{cov}}}} = \left[ {\begin{array}{*{20}{c}} {{s_1}}&{{\sigma _{1,2}}}& \cdots &{{\sigma _{1,c}}} \\ {{\sigma _{2,1}}}&{{s_2}}& \cdots &{{\sigma _{2,c}}} \\ \vdots & \vdots &{}& \vdots \\ {{\sigma _{c,1}}}&{{\sigma _{c,2}}}& \cdots &{{s_c}} \end{array}} \right]. $

式中：R_cov描述了各通道之间的相关性，其中主对角线表示每个通道的方差，非对角线元素表示不同通道之间的协方差. 将R_cov作为nsNMF算法中的V，可分解为

(5)$ {{\boldsymbol{R}}_c} = {{\boldsymbol{V}}^{c{{ \times }}c}} \approx {{\boldsymbol{W}}^{c{{ \times }}r}}{{\boldsymbol{S}}^{r{{ \times }}r}}{{\boldsymbol{H}}^{r{{ \times }}c}}. $

式中：r表示激活模式的数量，当$ r\geqslant 2 $时，通过改变r的值可以获得通道的多组基矩阵和编码矩阵，即多组权重值；$ {\boldsymbol{W}} \in {{\bf{R}}^{c \times r}} $的列表示通道上的激活水平；$ {\boldsymbol{H}} \in {{\bf{R}}^{r \times c}} $为编码矩阵，其行表示通道上激活水平的系数向量；$ {\boldsymbol{S}} \in {{\bf{R}}^{r \times r}} $为非平滑约束矩阵. 将${\boldsymbol{S}}$定义为正定矩阵：

(6)$ {{\boldsymbol{S}}^{r \times r}} = (1 - \theta ){\boldsymbol{I}}+\frac{\theta }{r}{\bf{1}}{{\bf{1}}^{\text{T}}}. $

式中：1表示全1向量，T表示转置操作，I表示单位矩阵. 参数$ \theta \in [0,1.0] $，通过调整$ \theta $的值可以控制约束矩阵S的平滑度，从而影响W和H的稀疏性，即强平滑度会导致W和H的强稀疏性.

以被试者的EEG数据为例，首先初始化通道权重，将r的值设置为2，获得2组权重值. 然后，计算每个被试每次实验数据的协方差矩阵，并更新基矩阵和编码矩阵. 在一定次数的迭代之后，输出基矩阵W和编码矩阵H. 另外，使用下式所示的方法归一化编码矩阵H：

(7)$ {\bf{weight}} = \frac{{{\boldsymbol{H}} - {{\boldsymbol{\mu}} _{\boldsymbol{H}}}}}{{{{\boldsymbol{\sigma}} _{\boldsymbol{H}}}}}. $

式中：${{\boldsymbol{\mu }}_{\boldsymbol{H}}}$表示H矩阵的均值，${{\boldsymbol{\sigma }}_{\boldsymbol{H}}}$表示H矩阵的标准差，当${{\boldsymbol{\sigma}} _{\boldsymbol{H}}}$=0时通道权重也是0.

最后，将获得的EEG数据的权重值乘以相应的通道，并返回每个被试的通道所得权重.

2.2. EEG信号成像方法

EEG数据成像通常指将一维EEG时间序列映射到二维图像上的方法. 格拉姆角场、马尔科夫转移场及递归图等常用于EEG数据成像^[23]，其中格拉姆角场可以极大程度地保留原始脑电信号的时间特性，避免有用信息的丢失. 采用笛卡尔坐标系将一维脑电信号转换到极坐标系上，得到时间相关性的特征表示，再利用反三角函数对极坐标系下的特征进行解码，生成格拉姆角场矩阵并映射至二维图像. 具体成像过程如下.

1) 将n个时间点的一维时间序列表示为${\boldsymbol{X}} = [ {x_1},{x_2}, \cdots ,{x_n}] $，按照如下公式进行归一化：

(8)$ {\tilde x_i} = \frac{{[{x_i} - \max\; ({\boldsymbol{X}})]+[{x_i} - \min\; ({\boldsymbol{X}})]}}{{\max\; ({\boldsymbol{X}}) - \min\; ({\boldsymbol{X}})}}. $

式中：$ {x_i} $表示时刻i的信号，$ {\tilde x_i} $表示时刻i归一化后的信号，max (X)和min (X)表示时间序列X中的最大值和最小值.

2) 通过反三角函数将归一化后的值进行极坐标表示：

(9)$ \left. \begin{array}{ll}\varphi = \arccos \;({\tilde x_i}), &- 1 \leqslant {{\tilde x}_i} \leqslant 1; \\ r = \dfrac{{{t_i}}}{N}, & {t_i} \in {\bf{N}}. \\ \end{array} \right\} $

式中：$ \varphi \in \left[0,\;{{\text{π}} }/{2}\right] $表示极角，t_i为时间戳，r为极轴，N为调节极坐标径向跨度的常数因子.

3) 根据不同的编码方式得到格拉姆角和场（Gramian angular summation field, GASF）与格拉姆角差场（Gramian angular difference field, GADF）2种矩阵. 编码方法如下：

(10)$ {I_{{\text{GASF}}}} = \left[ {\begin{array}{*{20}{c}} {{\text{cos}}\;({\varphi _1}+{\varphi _1})}& \cdots &{{\text{cos}}\;({\varphi _1}+{\varphi _n})} \\ {{\text{cos}}\;({\varphi _2}+{\varphi _1})}& \cdots &{{\text{cos}}\;({\varphi _2}+{\varphi _n})} \\ \vdots &{}& \vdots \\ {{\text{cos}}\;({\varphi _n}+{\varphi _1})}& \cdots &{{\text{cos}}\;({\varphi _n}+{\varphi _n})} \end{array}} \right], $

(11)$ {I_{{\text{GADF}}}} = \left[ {\begin{array}{*{20}{c}} {\sin \;({\varphi _1} - {\varphi _1})}& \cdots &{\sin\; ({\varphi _1} - {\varphi _n})} \\ {\sin\; ({\varphi _2} - {\varphi _1})}& \cdots &{\sin \;({\varphi _2} - {\varphi _n})} \\ \vdots &{}& \vdots \\ {\sin\; ({\varphi _n} - {\varphi _1})}& \cdots &{\sin \;({\varphi _n} - {\varphi _n})} \end{array}} \right]. $

4) 随着时间的推移，脑电信号在跨度圆上的不同角度点处弯曲，一维时间序列被转化为二维图像.

2.3. 基于通道加权的特征级多模态数据融合模型

将nsNMF算法与特征级多模态数据相结合，形成一种处理EEG信号的创新方法. 这种集成能够全面和有效地捕获EEG信号的关键信息，增强时空特征的提取，从而提高疲劳状态的准确识别能力. 如图1所示，模型框架由数据处理、通道贡献度计算和多模态数据融合3个组件构成. 数据处理组件对原始EEG信号滤波后得到5个频段，利用微分熵提取各频段的频域特征；通道贡献度计算组件使用改进后的nsNMF算法计算每个被试的电极通道权重，将权重值乘以通道数据得到加权值；特征级多模态数据融合组件通过并行方式结合了双通道卷积神经网络（parallel convolutional neural network, PCNN）和门控循环单元（gated recurrent unit, GRU）的优点，融合不同模态数据的空间信息和时间信息，将融合后的时空特征送入多头自注意力模块中，获得更有利于疲劳驾驶检测的信息. 输出模块通过全连接网络得到警觉状态、疲劳状态和困倦状态三分类准确性.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 多模态特征融合模型nsNMF-PCNN-GRU-MSA 框架图

Fig.1 Framework diagram of multimodal feature fusion model nsNMF-PCNN-GRU-MSA

PCNN可以避免单通道卷积神经网络对格拉姆角场生成的2类图像选择的问题，克服了特征提取不全面的缺陷. 将GASF和GADF图像同时输入PCNN中，经过二维卷积、最大池化操作后分别得到一维特征向量. 之后，将2组特征向量进行拼接，获取不同图像权重值来增强空间特征. GRU通过门控机制对当前时间步进行预测，可以解决反向传播中的梯度问题，在一维时序数据的时间特征提取方面具有显著优势. 在PCNN-GRU模块之后，采用Concat方法^[24]进行特征融合：

(12)$ {\boldsymbol{F}} = {\mathrm{Concat}}\;({{\boldsymbol{F}}_{{\text{PCNN}}}},{{\boldsymbol{F}}_{{\text{GRU}}}}). $

式中：F_PCNN和F_GRU分别表示由PCNN-GRU模块提取的空间特征和时间特征，两者的维度大小为1×样本数. 经过多模态特征融合后，将特征送入融合了多头自注意力机制的输出模块，深度挖掘特征在多个不同关注点上对应的依赖关系，获取多组注意力结果并进行拼接和线性投影. 多头自注意力机制是Transformer模型的核心组成部分之一^[25]. 本研究融入Transformer模型的设计思想，结构如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 多头自注意力结构

Fig.2 Multi-head self-attention structure

将式(12)中融合后的特征F映射到查询Q、键K和值V的子空间中进行线性变换，然后通过缩放点积和Softmax函数计算每个特征的注意力权重，并根据权重对特征进行加权求和，得到对应的输出Y_i. 最后，通过拼接操作将多个输出结果合并在一起. 上述过程可以表示为

(13)$ {\boldsymbol{Q}}={\boldsymbol{X}} \cdot {{\boldsymbol{W}}}_{\boldsymbol{Q}}=[{{\boldsymbol{q}}}_{1},{{\boldsymbol{q}}}_{2},\cdots ,{{\boldsymbol{q}}}_{\lambda }]\text{，} $

(14)$ {\boldsymbol{K}}={\boldsymbol{X}} \cdot {{\boldsymbol{W}}}_{\boldsymbol{K}}=[{{\boldsymbol{k}}}_{1},{{\boldsymbol{k}}}_{2},\cdots ,{{\boldsymbol{k}}}_{\mu }]\text{，} $

(15)$ {\boldsymbol{V}}={\boldsymbol{X}} \cdot {{\boldsymbol{W}}}_{\boldsymbol{V}}=[{{\boldsymbol{v}}}_{1},{{\boldsymbol{v}}}_{2},\cdots ,{{\boldsymbol{v}}}_{\mu }]\text{，} $

(16)$ {\boldsymbol{s}}({{\boldsymbol{q}}}_{i},{{\boldsymbol{k}}}_{j})=\frac{{{\boldsymbol{QK}}}^{\text{T}}}{\sqrt{{{\boldsymbol{D}}}_{k}}}\text{，} $

(17)$ {{\boldsymbol{Y}}}_{i} = {\displaystyle \sum _{j=1}^{\mu }{g}_{\text{soft}\mathrm{max}}}[{\boldsymbol{s}}({{\boldsymbol{q}}}_{i},{{\boldsymbol{k}}}_{j})] \cdot {{\boldsymbol{v}}}_{j} = {g}_{\text{soft}\mathrm{max}}\left(\frac{{{\boldsymbol{QK}}}^{\text{T}}}{\sqrt{{{\boldsymbol{D}}}_{k}}}\right) \cdot {\boldsymbol{V}}， $

(18)$ {\boldsymbol{Y}} = {g_{{\text{concat}}}}({{\boldsymbol{Y}}_1},{{\boldsymbol{Y}}_2}, \cdots ,{{\boldsymbol{Y}}_\lambda }). $

式中：W_Q、W_K、W_V分别表示查询空间、键空间和值空间对应的线性变换参数；q_i、k_i、v_i分别为查询空间、键空间和值空间中的元素向量；λ表示查询的向量个数；μ表示线性变换后的维数；s(q_i,k_j)表示查询向量q_i与每个输入特征对应的键向量k_j之间的相关性得分，本研究使用缩放点积模型进行相关性打分；D_k为每个键的维度数组成的矩阵；g_softmax(·) 、g_concat(·)分别表示Softmax函数和特征拼接函数.

3. 实验与分析

将1.1节介绍的2个公开数据集中所有被试的数据样本混合，并按7∶3的比例划分为训练集和验证集，开展大量实验，以验证所提方法在疲劳驾驶识别中的综合性能. 为了确保深度学习模型训练的算力支持，实验中工作站配备了Intel(R) Core(TM) i9-10940X CPU和NVIDIA GeForce RTX4080 GPU.

3.1. 评估指标

使用的模型评估指标计算方法如表1所示. 准确率（A）指正确预测样本数占样本总数的概率；精确度（P）指预测的阳性样本中正确预测的概率；灵敏度（S）指所有阳性样本中准确预测的概率；错误率（M）指预测错误的样本数占总样本数的概率；将P和S的调和平均值作为F1分数. 表中，TP为真正例，FP为假正例，FN为假负例，TN为真负例.

表 1 评估指标的计算方法

Tab.1 Calculation of evaluation indicators

评估指标	计算方法
A	(TP+TN)/(TP+FP+FN+TN)×100%
P	TP/(TP+FP)×100%
S	TP/(TP+FN)×100%
M	1–A
F1	2×P×S/(P+S)×100%

新窗口打开| 下载CSV

3.2. 激活模式的数量选择

在nsNMF通道加权算法中，激活模式参数r的选择决定了通道激活水平和权值的维度，从而影响非平滑约束矩阵S的平滑度，以及基矩阵W和编码矩阵H的稀疏性. 因此，本研究选择不同r值开展疲劳驾驶检测实验，并对准确率结果进行对比，如表2所示. 结果显示，当r=2时，2个数据集上的疲劳驾驶检测准确率均高于其他情况. 因此，在后续实验中将r设置为2.

表 2 选择不同r值时疲劳驾驶识别准确率对比结果

Tab.2 Comparison of fatigue driving recognition accuracy when choosing different r-values

r	SEED-VIG		SAD
r	权重维度	A	权重维度	A
1	17×1	0.930 1	32×1	0.901 7
2	17×2	0.933 7	32×2	0.907 8
3	17×3	0.932 1	32×3	0.895 3
4	17×4	0.928 2	32×4	0.902 4
5	17×5	0.929 7	32×5	0.900 5

新窗口打开| 下载CSV

3.3. 消融实验

为了评估模型的各组件及方法是否都有利于疲劳驾驶状态的识别，在2个混合所有被试数据的数据集上开展大量消融实验，分别验证频域特征提取、通道贡献度、特征级多模态数据融合及多头自注意力机制等组件对分类结果的影响. 实验结果如表3所示. 表中，D1表示SEED-VIG数据集，D2表示SAD数据集. 在2个公开数据集上，未提取DE特征的原始脑电信号在通道加权后被直接送入模型，这种情况下的准确率仅为66.51%和70.24%，其他评估指标值也都明显较低. 可以看出，伪影和噪声对疲劳驾驶检测的结果影响较大. 其次，基于nsNMF计算通道贡献度对疲劳状态的识别准确率分别提高了7.18和8.23个百分点. 如果使用单通道的CNN分别对GASF和GADF图像进行训练分类，各项评估指标值均低于使用PCNN融合2类图像空间特征的方法. 另外，使用GRU融合特征级多模态脑电数据，以及在输出层加入多头自注意力机制的方法均能有效地提高疲劳驾驶检测的准确性，优化检测效率.

表 3 混合所有被试数据的消融实验结果

Tab.3 Ablation experimental results using mixed data from all subjects

方法	A		P		S		M		F1
方法	D1	D2	D1	D2	D1	D2	D1	D2	D1	D2
未计算DE特征	0.665 1	0.702 4	0.801 5	0.777 1	0.702 2	0.731 9	0.334 9	0.297 6	0.755 3	0.731 0
未计算通道贡献度	0.861 9	0.825 5	0.896 4	0.865 1	0.876 6	0.799 0	0.138 1	0.174 5	0.889 5	0.878 9
仅使用GASF	0.917 4	0.891 7	0.951 1	0.904 4	0.917 6	0.867 4	0.082 6	0.108 3	0.934 1	0.920 7
仅使用GADF	0.897 2	0.902 2	0.908 7	0.912 5	0.923 0	0.903 3	0.102 8	0.097 8	0.915 8	0.902 2
未融合GRU	0.906 4	0.899 3	0.922 9	0.909 9	0.924 7	0.895 4	0.093 6	0.100 7	0.923 9	0.914 8
未加入MSA	0.904 0	0.882 4	0.925 9	0.921 3	0.915 6	0.908 7	0.096 0	0.117 6	0.921 1	0.907 7
本研究方法	0.933 7	0.907 8	0.955 9	0.924 6	0.934 5	0.919 7	0.066 3	0.092 2	0.945 1	0.922 1

新窗口打开| 下载CSV

3.4. 对比实验

3.4.1. 单被试对比

在PCNN、GRU和PCNN-GRU这3种模式下，对2个公开数据集的每个被试的数据按7∶3的比例划分训练集和验证集，以验证特征级多模态数据融合在疲劳驾驶检测方面的优势以及该方法的泛化性和鲁棒性. 实验结果如表4所示. PCNN-GRU方法在SEED-VIG数据集的23个单被试数据中准确率最低为86.60%，高于PCNN方法8.29个百分点，高于GRU方法6.86个百分点；在SAD数据集的26个单被试数据中准确率最低为85.59%，高于PCNN方法2.28个百分点，高于GRU方法4.20个百分点. 此外，SEED-VIG数据集中除了被试3、10、20和23，SAD数据集中除了被试10、16和24，其他所有被试在PCNN-GRU模式下的检测准确率均高于单模态模式，这可能是由被试个体差异、噪声干扰、实验设计及数据采集误差等原因导致的. 被试个体的差异性对基于EEG的驾驶状态检测实验的设计和模式识别研究提出了新的挑战，这也将是今后研究的突破点.

表 4 单被试数据的疲劳驾驶检测准确率对比结果

Tab.4 Comparison of fatigue driving detection accuracy for single-subject data

D1				D2
被试	PCNN	GRU	PCNN-GRU	被试	PCNN	GRU	PCNN-GRU
1	0.956 7	0.917 9	0.951 8	1	0.862 5	0.852 5	0.885 8
2	0.947 7	0.932 2	0.971 4	2	0.900 6	0.910 7	0.919 0
3	0.977 4	0.978 9	0.963 9	3	0.880 4	0.899 2	0.908 6
4	0.783 1	0.797 4	0.908 9	4	0.872 5	0.888 1	0.890 2
5	0.865 2	0.882 5	0.912 7	5	0.920 1	0.910 9	0.922 6
6	0.819 3	0.790 7	0.874 3	6	0.862 2	0.854 4	0.865 6
7	0.893 1	0.856 9	0.941 3	7	0.901 4	0.900 9	0.919 4
8	0.910 8	0.923 2	0.942 8	8	0.833 1	0.829 9	0.855 9
9	0.939 8	0.956 3	0.970 6	9	0.921 8	0.919 1	0.930 5
10	0.982 7	0.985 7	0.970 6	10	0.882 5	0.878 9	0.870 6
11	0.878 8	0.881 8	0.936 8	11	0.939 8	0.946 0	0.947 3
12	0.825 0	0.820 0	0.872 0	12	0.860 1	0.855 5	0.866 3
13	0.896 1	0.914 9	0.923 2	13	0.921 7	0.933 9	0.948 8
14	0.920 9	0.925 5	0.931 5	14	0.844 8	0.858 5	0.868 7
15	0.980 0	0.970 0	0.990 0	15	0.931 5	0.933 1	0.945 4
16	0.839 9	0.838 1	0.875 0	16	0.939 9	0.928 7	0.932 6
17	0.817 4	0.832 8	0.908 9	17	0.845 8	0.813 9	0.881 1
18	0.874 3	0.917 9	0.929 2	18	0.877 2	0.892 5	0.904 8
19	0.978 2	0.985 7	0.987 9	19	0.910 5	0.909 1	0.914 5
20	0.951 1	0.930 7	0.869 7	20	0.862 2	0.844 2	0.874 8
21	0.959 0	0.941 3	0.988 0	21	0.939 3	0.940 1	0.949 6
22	0.991 7	0.991 0	0.988 7	22	0.909 9	0.912 9	0.937 8
23	0.952 6	0.939 8	0.866 0	23	0.948 8	0.932 4	0.956 6
平均准确率	0.910 5	0.909 2	0.933 7	24	0.890 1	0.909 3	0.898 6
标准差	0.061 3	0.059 8	0.041 1	25	0.878 7	0.856 7	0.904 4
—	—	—	—	26	0.889 4	0.848 4	0.903 1
—	—	—	—	平均准确率	0.893 3	0.890 8	0.907 8
—	—	—	—	标准差	0.032 4	0.036 8	0.029 9

新窗口打开| 下载CSV

从单被试数据对比结果可以看出，本研究提出的方法具有较强的泛化能力，以及更稳定、更鲁棒的检测性能，更有利于疲劳驾驶状态的识别.

3.4.2. 其他经典模型对比

为了进一步评估模型预测性能，将提出的方法与目前流行的基线方法进行对比. 表5的结果显示，提出的方法无论在预测准确率还是其他各类评估指标上，均比目前流行的典型方法表现更优. 在SEED-VIG数据集上预测准确率比次好的LSTM高出5.24个百分点，在SAD数据集上预测准确率比次好的T-A-MFFNet高出4.24个百分点，表明此方法可以更高效地分析脑电信号数据，并以稳定的预测性能准确地完成疲劳驾驶识别任务.

表 5 相同数据集及相同分类任务下不同模型的对比实验结果

Tab.5 Comparative experimental results of different models with the same dataset and the same classification task

方法	A		P		S		M		F1
方法	D1	D2	D1	D2	D1	D2	D1	D2	D1	D2
RF^[26]	0.740 0	0.668 0	0.740 0	0.698 9	0.540 0	0.639 8	0.260 0	0.332 0	0.540 0	0.611 1
LSTM^[27]	0.881 3	0.853 5	0.914 7	0.889 0	0.884 6	0.877 4	0.118 7	0.146 5	0.898 2	0.857 7
EEG-Conv^[28]	0.779 6	0.802 2	0.853 9	0.882 6	0.585 3	0.662 5	0.220 4	0.197 8	0.632 7	0.652 4
EEG-TCNet^[29]	0.813 3	0.851 5	0.697 7	0.800 5	0.674 3	0.700 4	0.186 7	0.148 5	0.674 3	0.708 8
EEGNet^[30]	0.798 9	0.643 5	0.745 2	0.625 5	0.752 2	0.653 1	0.201 1	0.356 5	0.744 2	0.621 1
ESTCNN^[31]	0.790 6	0.772 4	0.767 1	0.797 9	0.789 8	0.766 5	0.209 4	0.227 6	0.779 6	0.795 8
CSF-GTNet^[15]	0.821 1	0.841 5	0.772 3	0.833 4	0.843 3	0.841 9	0.178 9	0.158 5	0.780 9	0.814 9
T-A-MFFNet^[5]	0.858 6	0.865 4	0.733 9	0.892 3	0.826 5	0.843 7	0.141 4	0.134 6	0.777 4	0.800 5
本研究方法	0.933 7	0.907 8	0.955 9	0.924 6	0.934 5	0.919 7	0.066 3	0.092 2	0.945 1	0.922 1

新窗口打开| 下载CSV

4. 讨　论

大量研究证实，深度学习模型具有强大的数据处理能力^[32]. 然而，由于决策过程不透明，模型通常难以解读，其可解释性一直是科学研究中最复杂的问题之一^[33]. 目前，大多数研究通过可视化特征来分析模型的可解释性^[15,34]. 受这些研究的启发，本研究将模型在疲劳驾驶和警觉驾驶状态下学习到的特征激活值映射到大脑拓扑图上，分析不同脑区对疲劳状态检测的贡献，从而提高了基于生物特征的模型可解释性.

图3展示了模型在2个数据集上学习到的每个电极通道的特征激活值映射到大脑拓扑图上的热力图. 图中，黄色表示高特征激活值，蓝色表示低特征激活值，特征激活值越高表明该脑区越活跃. 从结果可以看出，各通道的激活值在不同被试之间存在差异，对疲劳驾驶检测的贡献也因人而异. 具体来说，在疲劳状态下，被试者的枕叶（视觉处理区）和顶叶（空间注意调控区）活跃度显著升高，这一现象涉及双重机制：一方面，疲劳时眼球运动减少，引发枕叶代偿性激活以维持视觉信息处理；另一方面，顶叶活跃反映大脑通过增强注意力分配来补偿认知功能的下降.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同驾驶状态下的电极通道特征激活值脑地形图

Fig.3 Brain topography of electrode channel characteristic activation values in different driving states

结合脑成像与行为数据分析，这种特征性激活模式本质上是疲劳驾驶中大脑为了维持操作表现的神经代偿机制. 在警觉状态下，大多数被试的大脑额叶较为活跃，这是由眼球频繁运动产生的伪影导致的. 结果还显示警觉性与颞叶区密切相关，在额叶表现出注意力的被试者也在颞叶区表现出注意力，这可能是因为人类大脑的颞叶区控制着注意力等心理活动. 另外，个别被试在警觉状态下也会表现出疲劳现象，例如SEED-VIG数据集的被试7和SAD数据集的被试6，在警觉状态下的额叶和枕叶区域都比较活跃，这与驾驶员的早期疲劳状态一致.

5. 结　语

本研究提出基于驾驶员脑电信号的疲劳状态检测框架. 该框架借助nsNMF矩阵分解算法计算通道贡献度，并使用特征级多模态融合方法进行疲劳驾驶检测. 在SAD和SEED-VIG这2个数据集上的实验结果表明，模型具有准确率高、泛化性强、更稳定、更鲁棒的优势. 同时，将疲劳和警觉驾驶状态下模型学习到的特征激活值映射到大脑拓扑图，发现不同脑区对疲劳驾驶状态检测的贡献度有所不同，这对于基于生物特征的模型可解释性研究具有重要作用，为基于生理信号的危险驾驶行为识别研究提供了新见解，对智能辅助驾驶系统和脑控驾驶系统的设计也具有一定的参考意义.

综上所述，提出的方法取得了较好的结果，但仍然存在一定的局限性，例如，被试的个体差异性会影响预测的准确性，数据采集设备的便携程度也将影响成果的实际应用. 因此，在智能驾驶辅助系统中通过头枕等脑电信号检测设备，可以尝试将该方法嵌入到实时疲劳检测系统中，以便快速准确地提示驾驶员安全驾驶. 后续研究将重点考虑实车驾驶实验的设计与验证，并结合无监督自适应特征提取方法及扩散模型等先进技术，弥补生理信号数据采集过程中的噪声影响、个体差异等. 最后，脑控驾驶领域的研发尚处于起步阶段，该方法将为便携式脑机接口驾驶安全智能防控系统的设计提供一定的理论参考价值.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HAN W, ZHAO J

Driver behaviour and traffic accident involvement among professional urban bus drivers in China

[J]. Transportation Research Part F: Traffic Psychology and Behaviour, 2020, 74 (1): 184- 197