浙江大学学报(工学版), 2024, 58(12): 2547-2555 doi: 10.3785/j.issn.1008-973X.2024.12.014

生物医学工程

基于单通道ECG信号与INFO-ABCLogitBoost模型的睡眠分期

朱炳洋,, 吴建锋,, 王柯, 王章权, 刘半藤

1. 湖州师范学院 信息工程学院,浙江 湖州 313000

2. 浙江树人学院 信息科技学院,浙江 杭州 310015

3. 浙江大学 工业控制技术国家重点实验室,浙江 杭州 310027

Sleep staging based on single-channel ECG signal and INFO-ABCLogitBoost model

ZHU Bingyang,, WU Jianfeng,, WANG Ke, WANG Zhangquan, LIU Banteng

1. School of Information Engineering, Huzhou University, Huzhou 313000, China

2. College of Information Science and Technology, Zhejiang Shuren University, Hangzhou 310015, China

3. State Key Laboratory of Industrial Control Technology, Zhejiang University, Hangzhou 310027, China

通讯作者: 吴建锋,男,副教授. orcid.org/0009-0005-8843-4667. E-mail: wujianfeng@zjsru.edu.cn

收稿日期: 2023-11-16  

基金资助: 浙江省自然科学基金资助项目(LY20H090001,LQ23F030002);浙江省“领雁”研发攻关计划资助项目(2022C03122);浙江大学工业控制技术国家重点实验室开放课题资助项目(ICT2022B34).

Received: 2023-11-16  

Fund supported: 浙江省自然科学基金资助项目(LY20H090001,LQ23F030002);浙江省“领雁”研发攻关计划资助项目(2022C03122);浙江大学工业控制技术国家重点实验室开放课题资助项目(ICT2022B34).

作者简介 About authors

朱炳洋(2000—),男,硕士生,从事生物信号研究.orcid.org/0009-0000-3530-2293.E-mail:zhubingyang2024@163.com , E-mail:zhubingyang2024@163.com

摘要

为了减少对传统多导睡眠图(PSG)系统的依赖,基于单通道心电图(ECG)信号,设计了一种简单高效的睡眠分析算法. 采用最大重叠离散小波变换(MODWT)对原始信号进行多分辨分析,再进一步提取峰值信息;根据峰值位置的一阶偏差,提取多维度的心率变异性(HRV)特征. 为了进一步筛选与不同睡眠阶段具有强关联性的HRV特征,提出基于ReliefF算法与Gini指数的特征提取方法. 在此基础上,采用INFO-ABCLogitBoost方法挖掘HRV与不同睡眠阶段之间的关联性,从而实现睡眠阶段的精细分类. 在实际公开数据集上的实验结果表明,所提出的模型在睡眠分期任务中,总体精度为83.67%,准确率为82.59%,Kappa系数为77.94%,F1-Score为82.97%. 相比于睡眠分期任务中的常规模型,所提方法展现出更加高效便捷的睡眠质量评估性能,有助于实现家庭或移动医疗场景下的睡眠监测.

关键词: 睡眠分析 ; 心电图(ECG) ; 最大重叠离散小波变换(MODWT) ; 心率变异性(HRV) ; INFO-ABCLogitBoost

Abstract

A simple and efficient sleep analysis algorithm was designed based on single-channel electrocardiogram (ECG) signals, in order to reduce the dependence on polysomnography (PSG) system. First, maximum overlap discrete wavelet transform(MODWT)was used to perform multi-resolution analysis on the original signal, then to furture extract peak information. Then, the multi-dimensional heart rate variability(HRV)features were extracted based on the first-order deviation of the peak position. To further screen the HRV features with a strong correlation with different sleep stages, a feature extraction method was proposed based on the ReliefF algorithm and Gini index. On this basis, the INFO-ABCLogitBoost method was used to mine the correlation between HRV and different sleep stages, thereby achieving a fine classification of sleep stages. Experimental results on actual public data sets showed that the proposed model had an overall accuracy of 83.67%, an accuracy rate of 82.59%, a Kappa coefficient of 77.94%, and an F1-Score value of 82.97% in the sleep staging task. Compared with conventional models in sleep staging tasks, the proposed method shows more efficient and convenient sleep quality assessment performance, which helps realize sleep monitoring in home or mobile medical scenarios.

Keywords: sleep analysis ; electrocardiogram (ECG) ; maximum overlap discrete wavelet transform (MODWT) ; heart rate variability (HRV) ; INFO-ABCLogitBoost

PDF (1139KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

朱炳洋, 吴建锋, 王柯, 王章权, 刘半藤. 基于单通道ECG信号与INFO-ABCLogitBoost模型的睡眠分期. 浙江大学学报(工学版)[J], 2024, 58(12): 2547-2555 doi:10.3785/j.issn.1008-973X.2024.12.014

ZHU Bingyang, WU Jianfeng, WANG Ke, WANG Zhangquan, LIU Banteng. Sleep staging based on single-channel ECG signal and INFO-ABCLogitBoost model. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2547-2555 doi:10.3785/j.issn.1008-973X.2024.12.014

睡眠是人体生理活动中至关重要的昼夜节律之一,睡眠质量的好坏与健康状况紧密相关[1]. 随着生活节奏的加快,个体睡眠模式也发生了深刻变化[2],导致睡眠相关疾病层出不穷[3]. 临床上,通常依据不同睡眠阶段的生理指标,来辅助诊断和监测睡眠障碍,并为睡眠治疗和优化策略提供指导. 因此,有效区分不同睡眠阶段对深入分析睡眠质量至关重要.

美国睡眠医学会(American Academy of Sleep Medicine, AASM)于2007年发布了最新版的睡眠分期标准. 该标准将睡眠分为5个阶段:觉醒(wakefulness, W)阶段、快速眼动(rapid eye movement, REM)睡眠阶段,以及3个非快速眼动睡眠(nonrapid eye movement, NREM)阶段(NREM1、NREM2、NREM3)[4].

目前,PSG系统被认为是评价睡眠结构的“金标准”[5]. 然而在实际应用中,传统多导睡眠图(polysomnography,PSG)技术采用多电极和多传感器连接身体多部位的数据采集方法,容易干扰睡眠过程,导致测量结果偏离实际情况. 此外,PSG测量过程须在专业实验室中进行,成本昂贵,难以普及. 为了改善舒适性,降低睡眠检测成本,一些研究者尝试基于心电图(electrocardiogram, ECG)信号,通过心率变异性(heart rate variability, HRV)特征分析睡眠过程. HRV特征是指相邻心搏之间的瞬时心率存在微小差异或逐次心跳周期的变化情况[6],反映了交感和副交感神经系统的活动. 目前已有不少针对HRV特征指标的生理可解释性及其随睡眠阶段的变化规律的相关研究[7-16].

在基于单通道ECG信号的睡眠分期任务中,早期研究将睡眠划分为3个阶段(W、REM、NREM). 如Erdenebayar等[8]采用门控循环单元(gated recurrent cell, GRU)模型将睡眠以3个阶段进行分期,实验精度为80.43%. 同时,有部分研究将睡眠划分为4个阶段(W、REM、NREM1/NREM2、NREM3). 例如,Radha等[9]与Fonseca等[10]分别使用长短期记忆(long short-term memory, LSTM)模型与双向长短期记忆网络(bidirectional long short-term memory, BiLSTM)模型对睡眠的4个阶段进行分期,分别取得了77.0%±8.9%与75.9%的实验精度. Geng等[11]通过构建卷积神经网络(convolutional neural network, CNN)分类器取得了91.72%的实验精度. 然而,当前研究通常根据最新的AASM标准将睡眠以5个阶段进行分期处理. 例如,Sun等[12]使用CNN-LSTM架构对5个睡眠阶段进行分期, 实验精度为72.54%. Wang等[13]采用梯度提升决策树(gradient boosting decision tree, GBDT)模型进行睡眠分期,取得了82.02%的实验精度. 同时,Mathunjwa等[14]采用残差网络(residual network, ResNet)模型在睡眠分期研究中取得了77.34%的实验精度. Chakraborty等[15]用随机森林(random forest, RF)模型取得了75.9%的实验精度. 此外,Surantha等[16]采用粒子群优化(particle swarm optimization, PSO)算法结合极限学习机(extreme learning machine, ELM)分类器,在6个阶段、4个阶段、3个阶段睡眠分类中分别取得62.66%、71.52%、76.77%的实验精度.

虽然先前的研究已经在使用HRV特征和不同分类器模型进行睡眠阶段分类方面取得了一些进展,但是睡眠分期研究仍然面临着一系列挑战:首先,采用不同特征和模型的组合形式导致了睡眠分期方法的多样性,然而这并未显著改善其效果. 其次,一些方法在健康受试者中表现良好,但在患者身上效果不佳,缺乏普遍性和稳健性;同时,最先进的睡眠分期方法精度相对较低,难以实际应用.

为了解决上述问题,本研究采用不同睡眠障碍情况患者的整夜睡眠数据作为研究基础,提出基于HRV特征与向量加权平均值(weighted mean of vectors, INFO)优化算法结合ABCLogitBoost模型的自动睡眠分期方法.

1. 自动睡眠分期方法

1.1. 概述

所提出的方法框架如图1所示,主要包含如下3个部分.

图 1

图 1   基于INFO-ABCLogitBoost模型的自动睡眠分期方法总框图

Fig.1   Diagram of automatic sleep stage classification method based on INFO-ABCLogitBoost model


1)通过最大重叠离散小波变换(maximum overlap discrete wavelet transform, MODWT)分解原始心电信号,选择特定频率段进行重构,并提取峰值位置信息以计算一阶偏差构成RRi序列.

2)基于RRi序列,通过数学分析计算,从而多维度计算提取HRV特征. 然后采用Gini指数与ReliefF算法相结合的方式,来去除噪声和冗余特征,从而实现对HRV特征数据的降维.

3)采用INFO-ABCLogitBoost模型对睡眠障碍情况患者整夜睡眠数据进行睡眠分期.

1.2. 预处理

1.2.1. 信号处理

心电信号的特征不仅受个体间差异的影响,而且同一人的心电信号也会随着时间的推移而发生变化,导致出现差异,使其无法仅通过时间函数表示. 同时心电信号在采集过程中常受到大量噪声的干扰,容易导致数据污染,甚至被淹没[17].

为了减少噪声干扰,采用最大重叠离散小波变换将原始ECG信号分解为不同的频率成分,并利用较高频率成分作为主要特征信息重构原始信号[18],如图2所示. 图中,T为时间,As为信号振幅. 离散小波分解和重构有助于提高信号的可解释性、准确性和适用性.

图 2

图 2   原始ECG信号重构可视化图

Fig.2   Visualization of reconstructed original ECG signal


为了精确定位R峰的位置,首先将重构信号进行归一化处理,以确保R峰的振幅范围不会影响后续处理,并保证算法能够适应不同患者在不同条件下的心电信号. 其次,将信号进行半波整流处理,将信号中的负周期数据归零,仅保留正半周期,从而消除负值对信号的影响,以突显正半周期的信息. 接着,将信号进行算术平方操作,以突出信号中R峰高振幅部分. 最后,设定最低峰值高度和峰值之间的距离阈值,实现R峰定位,如图3所示. 图中,$\bar A_{\rm{s}} $为归一化后的ECG信号.

图 3

图 3   提取特征R峰可视化图

Fig.3   Visualization of R-peak feature extraction


1.2.2. 信号矫正

为了消除由电极接触问题所引起的随机误差,采用粗大误差分析方法. 首先,对获取的所有R峰的位置进行一阶偏差计算,生成RRi序列,然后计算该序列的平均值. 接着,剔除所有小于RRi序列平均值的0.3倍和大于1.5倍的异常点,并用序列平均值进行补全. 最后,根据拉依达准则剔除异常点[19],并进行均值填充.

$ {\text{|}}{v_i}| = |{x_i} - x| > 3\sigma . $

式中:xi表示RRi序列中的元素,x表示RRi序列的平均值,$ \sigma $表示RRi序列的准偏差,vi表示RRi序列中的异常点.

1.2.3. HRV特征处理

基于RRi序列,可进行HRV特征的提取. 特征中存在噪声与冗余. 一方面,部分单一特征对模型性能的贡献度较低,甚至可能导致性能下降,可以被视为噪声特征. 另一方面,不同HRV特征在相同类型的睡眠阶段中可能表现出相似的变化趋势,导致特征冗余. 为了解决噪声和冗余特征问题,采用ReliefF算法和Gini指数来评估所提取的HRV特征的重要性,Gini指数主要关注特征对分类任务的影响[20],而ReliefF算法主要关注特征之间的关联性[21]. 通过2种方法的结合,能够更全面地评估特征重要性,提高对噪声和异常值的抗干扰能力,减少漏筛,错筛.

首先计算每个特征的Gini指数:

$ {\text{Gini}}\;(D) = 1 - {2^K}p_i^2 . $

式中:Gini (D)表示数据集D的基尼不纯度,用来衡量数据集中样本的混杂程度;K表示数据集D中的类别数量;pi表示数据集D中第i个类别的样本占比. 通过设置阈值来筛选重要性高的特征,来去除噪声特征.

为了进一步清洗冗余特征,通过ReliefF算法计算每一个特征权重:

$W(a)=W(a)-\displaystyle{\sum}_{j=1}^k \frac{\operatorname{dis}\left(a, R_i, H_j\right)}{m k}+A, $

${A=\dfrac{\displaystyle{\sum}_{C \neq \operatorname{class}\;(R_i)}\Big[\dfrac{P\;(C)}{1-P\;\left(\operatorname{class}\;\left(R_i\right)\right)} \displaystyle{\sum}_{j=1}^k \operatorname{dis}\left(a, R_i, M_j\;(C)\Big]\right.}{m k}.} $

式中:dis (a, Ri, Hj)表示样本RiHj在特征a下的距离;mk分别表示临近样本数与迭代次数;class (Ri)表示样本Ri所属的类别;P (C)表示类别C出现的概率;Mj (C)表示第C类中的第j个临近样本;W(a)由样本间的类别距离与同一类样本内的距离之差决定,值越大说明特征对样本区分能力越强. 通过设置阈值来筛选高权重的特征,可以消除特征冗余.

1.3. ABCLogitBoost模型
1.3.1. 零和约束

ABCLogitBoost模型以多类别逻辑回归为基础,结合零和(sum-to-zero)约束进行建模[22].

$ L = \sum\nolimits_{i = 1}^N {{L_i}} , $

$ {L_i} = - \sum\nolimits_{k = 0}^{K - 1} {{r_{i,k}}} \log\;\; {p_{i,k}} , $

$ {p_{i,k}} = \Pr\; ({y_i} = k|{{\boldsymbol{x}}_i}) = \frac{{{\exp\;{{F_{i,k}}({{\boldsymbol{x}}_i})}}}}{{ \displaystyle\sum\nolimits_{s = 0}^{K - 1} {{\exp{{F_{i,s}}({{\boldsymbol{x}}_i})}}} }} . $

式中:L表示单个样本的损失Li之和;N表示样本数量;i表示样本索引;$ {K}-1 $表示样本类别数量;ri,kpi,k分别表示第i个样本在类别k的真实标签与预测概率;$ {\text{Pr}}\;({y_i} = k|{{\boldsymbol{x}}_i}) $表示在特征向量xi下,样本的真实标签是类别$ k $的概率;$ {{({\exp\;{{F_{i,k}}({{\boldsymbol{x}}_i})}})}}/{{ \displaystyle\sum\nolimits_{s = 0}^{K - 1} {{\exp\;{{F_{i,s}}({{\boldsymbol{x}}_i})}}} }} $表示基类别权重Fi,k在特征向量xi上的归一化指数,确保所有类别的预测概率之和为1.0,模型以概率分布输出.

在该损失函数中,Li以交叉熵的形式度量预测概率pi,k与真实标签ri,k之间的差异. 相较于平方损失之类的常规损失函数,它对错误判别的惩罚更大,从而助于减轻梯度消失问题,提高算法分类性能.

1.3.2. 基类别选择

该模型是一种集成算法,通过集成一系列弱分类器(回归树),并在迭代过程中选择最优基类别,从而实现强分类性能.

$ \frac{{\partial {L_i}}}{{\partial {F_{i,k}}}} = \left( {{r_{i,o}} - {p_{i,o}}} \right) - \left( {{r_{i,k}} - {p_{i,k}}} \right) , $

$ \frac{{{\partial ^2}{L_i}}}{{\partial F_{i,k}^2}} = {p_{i,o}}(1 - {p_{i,o}})+{p_{i,k}}(1 - {p_{i,k}})+2{p_{i,o}}{p_{i,k}} . $

式中:$ \dfrac{{\partial {L_i}}}{{\partial {F_{i,k}}}} $表示损失函数Li对基类别分类器权重Fi,k的偏导数,反馈了损失函数在当前权重下的梯度信息,能调整算法的梯度方向,从而减小模型损失;$ \dfrac{{{\partial ^2}{L_i}}}{{\partial F_{i,k}^2}} $表示损失函数Li对基类别分类器权重$ {F_{i,k}} $的二阶导数,反馈了损失函数在该点的曲率信息,能调整算法在参数空间的步长选择,使算法有效收敛;ri,opi,o分别表示第i个样本对应非目标类别o的真实标签与预测概率.

同时,该模型在训练过程中通过采用贪婪策略来提升模型基类别选择的效率. 即在每次迭代中,将每个类别依次作为基类别,并选择使训练中损失最小化的类别作为有效的基类别继续迭代,从而提升整体训练速率.

1.3.3. 搜索策略

为了更好地捕捉类别之间的复杂关系,该模型遍历类别集合,并为每个类别构建基于回归树的模型(除了当前选择的基类别)[23]. 其次,为每棵树节点分配精确的权重,使得模型能够更好地适应不同样本的变化. 这一策略目的是在模型中综合考虑类别关系和样本特征,以提高模型的性能和泛化能力.

$ {\beta _{j,k,m}} = \frac{{ \displaystyle\sum\nolimits_{{{\boldsymbol{x}}_i} \in {R_{j,k,m}}} \left[{ - ({r_{i,b}} - {p_{i,b}})+({r_{i,k}} - {p_{i,k}})}\right] }}{{ \displaystyle\sum\nolimits_{{{\boldsymbol{x}}_i} \in {R_{j,k,m}}} {{p_{i,b}}(1 - {p_{i,b}})+{p_{i,k}}(1 - {p_{i,k}})+2{p_{i,b}}{p_{i,k}}} }} , $

$ G_{i, k, b}=F_{i, k}+v {\sum}_{j=1}^J \beta_{j, k, m} l_{{\boldsymbol{x}}_i \in R_{j, k, m}} . $

式中:v为权值,控制额外加权项对原始得分的影响;J为所有节点的总数;βj,k,m表示每个节点j对应目标类别k与对比类别m的权重,该计算考虑了在当前回归树节点上模型预测与实际值之间的差异,以及每个类别在该节点上的概率分布; $ l_{{\boldsymbol{x}}_i}\in R_{j,k,m} $为指示函数,判断样本xi是否属于集合Rj, k, m; Gi,k,b表示在当前节点b上,对于类别k的总增益,该增益用于调整模型的输出,使其更接近训练数据的实际值,以逐步减小损失函数.

$ {G_{i,b,b}} = - \sum\nolimits_{k \ne b} {{G_{i,k,b}}} , $

$ {q_{i,k}} = (\exp \;{G_{i,k,b}})/\sum\nolimits_{s = 0}^{K - 1} {\exp\; {G_{i,s,b}}} , $

$ {L^{(b)}} = - \sum\nolimits_{i = 1}^N {\sum\nolimits_{k = 0}^{K - 1} {{r_{i,k}}\log \;{q_{i,k}}} } . $

式中:Gi,b,b表示在节点b中不属于类别k的总增益的相反数;qi,k表示在节点b上属于类别k的概率,通过对增益进行指数化及归一化,得到各个类别的概率以评估模型在训练中对不同类别的置信度;$ {L^{(b)}} $表示节点b上的损失函数,以反馈模型在节点b上对训练数据的拟合程度.

$ B(m) = \mathop {{\mathrm{argmin}}\;{L^{(b)}}}\limits_b , $

$ {F_{i,k}} = {G_{i,k,B(m)}} , $

$ {p_{i,k}} = (\exp\; {F_{i,k}})/\sum\nolimits_{s = 0}^{K - 1} {\exp\; {F_{i,s}}} . $

式中:B(m)表示选择在第m次迭代中使损失函数$ {L^{(b)}} $最小化的节点b,以构建下一个回归树而选择的最优节点;pi,k表示模型在样本i属于类别k的概率,其通过将Fi,k的指数型式进行归一化处理,使模型的原始输出转换为概率分布,同时确保概率之和为1.0.

1.4. INFO优化算法

采用向量加权平均值(INFO)算法解决ABCLogitBoost模型参数的优化问题. 该算法基于加权均值,通过3个核心步骤来更新向量的位置:数据更新、向量组合和局部搜索[24]. 在数据更新阶段采用均值法和收敛加速原理生成新的向量. 在向量组合阶段将已获得的向量与新生成的向量进行组合,从而优化信息拓展与开发能力,以提升整体效能. 最后在局部搜索阶段,利用全局位置和平均值策略来避免信息误导,陷入局部最优解,从而提高开发和搜索性能,达到全局最优.

2. 实验工作

2.1. 数据集描述

采用HMC(Haaglanden Medisch Centrum)数据集对本研究所提出的睡眠分期方法进行验证评估. 该数据集由荷兰Haaglanden Medisch Centrum睡眠中心于2018年采集. 该数据集覆盖了不同睡眠障碍情况下人群的PSG睡眠数据. 数据记录包含了EEG、EOG、EMG、ECG等信号信息,及由HMC的睡眠技术员进行的睡眠阶段评分的事件注释. 本研究采用文献[15]所提出的方法,通过异常搏动在独立记录中的占比,筛选出15组独立记录,共13 668个睡眠片段数据. 各阶段数量如表1所示. 表中,Ns为睡眠片段数量,Ps为占比.

表 1   HMC数据集中的各睡眠阶段样本数量统计

Tab.1  Statistical analysis of sample counts for each sleep stage in HMC dataset

睡眠阶段Ns/个Ps/%
W3 94828.88
REM1 87713.73
NREM11 29609.48
NREM24 70034.39
NREM31 84713.51
总体13 668100.00

新窗口打开| 下载CSV


采用意大利帕尔马Ospedale Maggiore睡眠障碍中心提供的CAP(Cyclic Alternating Pattern)数据库,针对不同睡眠障碍患者人群的睡眠样本数据进行分期实验,以评估模型的泛化能力. 该数据库包含了不同睡眠障碍患者的PSG记录,如夜间额叶癫痫(nocturnal frontal lobe epilepsy, NFLE)、快速眼动期行为障碍(rapid eye movement behavior disorder, RBD)、周期性肢体运动(periodic limb movements, PLM)、睡眠呼吸暂停(sleep disordered breathing, SDB)、失眠(Insomnia)和嗜睡症(Narcolepsy)等. 该记录提供了ECG信号在内的多种生物信号,同时配备了参考睡眠阶段注释. 为了保证数据样本量的平衡性,实验所采用的不同类别的数据片段数量如表2所示. 表中,Nn为记录条数,No pathology表示无病症人群.

表 2   CAP数据集中的各睡眠阶段样本数量统计

Tab.2  Statistical analysis of sample counts for each sleep stage in CAP dataset

数据类别Nn/条Ns/个
No pathology55 114
NFLE55 178
RBD55 596
PLM54 726
SDB42 687
Insomnia55 813
Narcolepsy55 516

新窗口打开| 下载CSV


2.2. 评价指标

为了验证睡眠分类任务中的模型性能,采用精度(accuracy, ACC)、准确率(precision, PRE)、召回率(Recall)、F1(F1-Score)、Kappa作为评价指标. 评价指标表达式如下:

$ {\text{ACC}} = \frac{{{\text{TP+TN}}}}{{{\text{TP+FP+TN+FN}}}} , $

$ {\text{PRE}} = \frac{{{\text{TP}}}}{{{\text{TP+FP}}}} , $

$ {\text{Recall}} = \frac{{{\text{TP}}}}{{{\text{TP+FN}}}} , $

$ {\text{F1}} = \frac{{{\text{2TP}}}}{{{\text{2TP+FP+FN}}}} , $

$ {\text{Kappa}} = \frac{{{{{p}}_{\text{0}}} - {{{p}}_{\text{e}}}}}{{1 - {{{p}}_{\text{e}}}}} , $

$ {p_{\text{0}}} = \frac{{{\text{TP+TN}}}}{{{\text{TP+FP+TN+FN}}}} , $

$ {p_{\text{e}}} = \frac{{{\text{(TP+FN)(TP+FP)+(TN+FP)(TN+FN)}}}}{{{{{\text{(TP+FP+TN+FN)}}}^{\text{2}}}}} . $

式中:TP为真阳性,表示被正确判断为类别i的样本数;FN为假阴性,表示实际为类别i的样本被判断为其他类别的样本数;FP为假阳性,表示实际不是类别i的样本被判断为类别i的样本数;TN为真阴性,表示被正确判断为非类别i的样本数. 其中,类别i为当前睡觉阶段的类别.

真实的整夜睡眠数据样本,存在数据不均衡问题. 本研究为了更全面、公平地反映模型的整体性能,采用加权平均的PRE与F1评估方法. 其中,权重由当前类别数量与总类别数量的比值确定.

3. 实验结果

3.1. 特征筛选

以HRV特征为基础,并综合考虑RR序列的其他特性,包括时域、频域、非线性域、复杂度指数、庞加莱图几何以及心率碎片指数等,共计77种HRV特征,如表3所示. 表中,n为特征数量.

表 3   睡眠分期任务中所提取的HRV特征统计

Tab.3  HRV feature statistics extracted from sleep stage task

特征n/个
时域特征28
MeanNN、MedianNN、ModeNN
MaxNN、MinNN、MadNN
6
RMSSD、SDNN、SDSD、CVNN、CVSD、RMSA6
SDANN1、SDANN2、SDANN5
SDNNI1、SDNNI2、SDNNI5
6
NN20、PNN20、NN50、PNN504
MeanHR、MinHR、MaxHR、StdHR4
TINN、HTI2
频域特征24
LF、HF、MF、TF、VLF、TLF、ULF、Ttlpwr8
LFf、HFf、MFf、TFf、TLFf5
LFn、HFn、MFn、TLFn4
LFHF、MFLF、TLFLF3
pHF、pLF2
HFmaxf、HFamp2
庞加莱图几何7
SD1、SD2、SD1SD2、S4
CVI、CSI、CSI_Modified3
心率碎片指数17
PIP、SI、AI、GI、C1d、C1a、SD1d、SD1a、C2d、C2a
SD2d、SD2a、SD2I、Cd、Ca、SDNNd、SDNNa
17
复杂度指数1
SampEn1

新窗口打开| 下载CSV


为了确保最终使用的特征集合具有代表性,结合Gini指数和ReliefF算法对HRV特征进行筛选. 首先,计算每个特征的Gini指数;然后,去除Gini指数及其标准差之和低于所有特征的Gini指数均值(0.266)的特征[15],以排除重要性较低的噪声特征. 被保留特征的重要性如图4所示. 图中,D表示特征名称,Gini (D)表示根据Gini指数所计算的相应特征的重要性.

图 4

图 4   根据Gini指数计算的HRV特征的重要性均值与标准差

Fig.4   Mean and standard deviation of importance of HRV features calculated based on Gini index


为了进一步消除冗余特征,采用ReliefF算法计算每个特征的权重,并筛选特征权重及其标准差之和大于权重均值(0.013)的特征,以消除潜在的冗余信息. 最终保留的特征及其权重如图5所示. 图中,a表示筛选过的特征名称,W (a)表示根据ReliefF算法所计算的相应特征的权重.

图 5

图 5   根据ReliefF算法计算的HRV特征的权重均值与标准差

Fig.5   Mean and standard deviation of HRV feature weights calculated based on ReliefF algorithm


综合考虑,最终选取38个最具代表性的HRV特征为睡眠分期建模的基础.

为了验证特征筛选的必要性,在本地设备(内存为 16 G,处理器为Intel Core i7-8750H CPU @ 2.20 GHz 2.21 GHz)上将特征筛选后的特征集合通过本研究所提出的分类器进行验证评估,实验结果如表4所示. 表中,t为运行时间. 在共计77个HRV特征基础上,通过Gini指数剔除25个低重要性HRV特征. 基于所保留的52个特征训练的分类器在睡眠分期任务中取得了83.35%的精度,相较采用未降维特征训练的分类器精度(82.43%)提高了0.92个百分点. 同时,运行时间从632.95 min降低到379.06 min,性能提升40.11%. 在此基础上使用ReliefF算法进一步剔除14个低权重特征. 最后含所保留的38个特征的集合使分类器在睡眠分期任务中的精度进一步提升0.32个百分点,且运行时间降低到261.83 min,性能提升30.93%,从而证明了本研究所提出的特征筛选方法能够有效提升分类器鲁棒性和运行效能.

表 4   特征降维实验结果

Tab.4  Experimental results of feature dimensionality reduction

算法n/个t/minACC/%Kappa/%F1/%
77632.9582.4376.2281.39
Gini52379.0683.3577.5182.66
ReliefF38261.8383.6777.9482.97

新窗口打开| 下载CSV


3.2. 模型性能评估

为了验证INFO-ABCLogitBoost模型在睡眠阶段分类上的有效性,以主流睡眠分类特征模型作为对照. 同时为了确保实验结果的可靠性,以7∶3的比例将数据集随机划分为训练集和测试集,各模型的性能如表5所示. 其中本研究提出的模型在睡眠分期任务中的ACC、PRE、Kappa和F1分别达到83.67%、82.59%、77.94%和82.97%. 其中模型精度相较于次优的GBDT模型在精度上提升2.94个百分点,较性能较弱的ELM模型在精度上提升17.91个百分点. 同时,相较于睡眠分期任务中主流的神经网络架构(GRU、LSTM、BiLSTM、CNN、CNN-LSTM、ResNet)的精度均值 (71.94%)提升11.73个百分点,较同类别集成模型(XGBoost、Bag、RF、GBDT)的精度均值 (77.99%)提升5.68个百分点. 结果表明,本研究提出的模型架构所取得的预测结果与真实数据标签之间存在高度一致性. 相较于传统的神经网络架构以及同类别集成模型性能有显著提升.

表 5   睡眠分期任务模型性能测试结果

Tab.5  Test results of performance of sleep stage classification model

方法ACC/%PRE/%Kappa/%F1/%
ELM65.7665.4253.8165.37
SVM69.8968.4058.4367.98
GRU70.7168.8359.8469.05
LSTM70.6468.8559.6668.91
BiLSTM71.4969.7761.0370.06
CNN72.2671.9762.7472.08
CNN-LSTM72.0571.4562.3971.65
ResNet73.5473.2864.4873.34
XGBoost70.7168.8359.8469.05
Bag79.1377.8971.6578.19
RF80.3779.1073.3879.45
GBDT80.7379.4373.9079.82
本研究83.6782.5977.9482.97

新窗口打开| 下载CSV


为了进一步验证本模型在睡眠分期任务上性能的优越性,将睡眠各阶段的召回率结果汇总于表6. 可以看出,本研究模型在W阶段精度较高,达到91.49%,同时在NREM2、NREM3、REM这3个阶段精度均高于80.00%,表明本研究所提出的模型对每个类别的分类性能较为均衡,总体精度显著优于其他主流的睡眠分期模型. 由于NREM1阶段在真实睡眠中所占比例较小,NREM1阶段数据量相对较少,从而导致分期精度不高,然而本研究所提出的模型在NREM1阶段精度为29.03%,仍取得了最优分期结果.

表 6   睡眠分期任务中不同睡眠阶段的模型召回率

Tab.6  Recall rates of models for different sleep stages in sleep staging task

方法Recall/%
NREM1NREM2NREM3REMW
ELM18.7774.5961.7063.3171.67
SVM11.1480.6662.9155.4083.55
GRU12.0278.7361.0164.3985.07
LSTM12.3278.5261.7061.1586.12
BiLSTM14.9677.8764.1265.4785.87
CNN25.8176.1672.9667.8182.26
CNN-LSTM24.6877.0568.0165.3384.71
ResNet26.4177.4871.2870.6784.71
XGBoost12.0278.7361.0164.3985.07
Bag24.6385.0876.7875.9089.89
RF24.9385.8779.3878.7890.53
GBDT25.2285.9481.8079.5090.13
本研究29.0389.0886.3183.2791.49

新窗口打开| 下载CSV


为了验证模型的泛化性能,对CAP数据库中不同睡眠障碍患者人群的睡眠样本数据进行验证评估,实验结果如表7所示. 其中No pathology、RBD、PLM和Insomnia类别数据的实验精度均高于85.00%,而所有类别的平均实验精度达到了83.60%,标准差为4.51%,证明了本研究所提模型具有较好的泛化性能.

表 7   不同类别样本验证结果

Tab.7  Validation results of samples from different categories

数据类别ACC/%PRE/%Kappa/%F1/%
No pathology86.7886.2881.1086.19
NFLE77.9477.7668.2177.31
RBD88.0788.1683.5287.98
PLM85.7885.8979.7185.40
SDB74.6373.9758.3273.09
Insomnia87.9888.0982.4687.72
Narcolepsy84.2283.9079.1183.76

新窗口打开| 下载CSV


最后,将本研究与近些年的基于ECG信号进行睡眠分期研究的文献进行比较,数据汇总如表8所示. 本研究基于一组与不同睡眠阶段有强关联的HRV特征集合,提出创新的IFNO-ABCLogitBoost模型架构,以更好地完成睡眠分期任务,在最新公布的HMC数据集上进行验证评估,本研究于5分期实验中取得了83.67%的实验精度,优于其他相关文献实验结果. 证明了本研究所提方法的优越性.

表 8   先进研究与所提出模型的结果对比

Tab.8  Comparison of advanced research results with results of proposed model

文献方法睡眠阶段ACC/%Kappa/%F1/%
[8]GRU380.4380.07
[9]LSTM477.0061.00
[10]BiLSTM475.9060.00
[11]CNN491.7288.4488.50
[12]CNN-
LSTM
572.5458.5070.10
[13]GBDT582.0272.88
[14]ResNet5
4
77.34
85.32
67.58
77.11
68.03
81.87
[15]RF575.9066.3076.00
[16]PSO-
ELM
6
4
62.66
71.52


本研究INFO-
ABC-
LogitBoost
583.6777.9482.97

新窗口打开| 下载CSV


4. 结 语

基于ECG信号的HRV特征对睡眠分期开展相关研究. 针对传统睡眠分期方法在处理新的数据集或不同类别数据时泛化性能不足的问题以及特征模型结构不够优化,睡眠分期精度不足的问题,提出基于INFO-ABCLogitBoost方法的睡眠分期方法. 在信号处理中,采用离散小波变换分解原始信号,选择特定频率段进行心电信号重构,从而提取峰值信息以定位R峰,从而构成RRi序列. 在此基础上,提取多维度HRV特征,并通过Gini指数和ReliefF算法筛选不同睡眠阶段的强相关特征. 最后以所提出的INFO-ABCLogitBoost模型和筛选后的HRV特征为基础,对数据样本进行睡眠分期.

在公开数据集上的实验结果表明,所提出的INFO-ABCLogitBoost模型在睡眠分期研究领域展现出卓越的潜力和优越性,相较于主流的基于心率变异性进行睡眠分期的特征模型,其性能更为突出. 因此,这种基于单通道ECG的睡眠分期算法有望应用于家庭和移动场景下,为睡眠疾病的辅助诊断和治疗提供全新、便捷的方案.

在睡眠分期中采用的ECG信号虽然是非侵入式,但在采集睡眠数据样本时依然无法避免传感器与人体的直接接触,这有可能影响真实数据. 为此后续将进一步研究非接触式BCG信号与睡眠分期的映射关系,以实现更准确、可靠的睡眠分期.

参考文献

PANDA S, HOGENESCH J B, KAY S A

Circadian rhythms from flies to human

[J]. Nature, 2002, 417 (6886): 329- 335

DOI:10.1038/417329a      [本文引用: 1]

SHOCHAT T

Impact of lifestyle and technology developments on sleep

[J]. Nature and Science of Sleep, 2012, 4 (6): 19- 31

[本文引用: 1]

KILLICK R, STRANKS L, HOYOS C M

Sleep deficiency and cardiometabolic disease

[J]. Clinics in Chest Medicine, 2022, 43 (2): 319- 336

DOI:10.1016/j.ccm.2022.02.011      [本文引用: 1]

BERRY R B, BROOKS R, GAMALDO C, et al

AASM scoring manual updates for 2017 (version 2.4)

[J]. Journal of Clinical Sleep Medicine, 2017, 13 (5): 665- 666

DOI:10.5664/jcsm.6576      [本文引用: 1]

MADOR M J, KUFEL T J, MAGALANG U J, et al

Prevalence of positional sleep apnea in patients undergoing polysomnography

[J]. Chest, 2005, 128 (4): 2130- 2137

DOI:10.1378/chest.128.4.2130      [本文引用: 1]

GULLETT N, ZAJKOWSKA Z, WALSH A, et al

Heart rate variability (HRV) as a way to understand associations between the autonomic nervous system (ANS) and affective states: a critical review of the literature

[J]. International Journal of Psychophysiology, 2023, 192 (5): 35- 42

[本文引用: 1]

GONZALES J U, ELAVSKY S, CIPRYAN L, et al

Influence of sleep duration and sex on age-related differences in heart rate variability: findings from program 4 of the HAIE study

[J]. Sleep Medicine, 2023, 106 (14): 69- 77

[本文引用: 1]

ERDENEBAYAR U, KIM Y, PARK J U, et al

Automatic classification of sleep stage from an ecg signal using a gated-recurrent unit

[J]. International Journal of Fuzzy Logic and Intelligent Systems, 2020, 20 (3): 181- 187

DOI:10.5391/IJFIS.2020.20.3.181      [本文引用: 2]

RADHA M, FONSECA P, MOREAU A, et al

Sleep stage classification from heart-rate variability using long short-term memory neural networks

[J]. Scientific Reports, 2019, 9 (1): 14149

DOI:10.1038/s41598-019-49703-y      [本文引用: 2]

FONSECA P, VAN GILST M M, RADHA M, et al

Automatic sleep staging using heart rate variability, body movements, and recurrent neural networks in a sleep disordered population

[J]. Sleep, 2020, 43 (9): 48

[本文引用: 2]

GENG D Y, WANG J X, WANG Y, et al

Convolutional neural network is a good technique for sleep staging based on HRV: a comparative analysis

[J]. Neuroscience Letters, 2022, 779: 136550

DOI:10.1016/j.neulet.2022.136550      [本文引用: 2]

SUN H, GANGLBERGER W, PANNEERSELVAM E, et al

Sleep staging from electrocardiography and respiration with deep learning

[J]. Sleep, 2020, 43 (7): 306

DOI:10.1093/sleep/zsz306      [本文引用: 2]

WANG W B, QIN D, FANG Y, et al

Automatic multi-class sleep staging method based on novel hybrid features

[J]. Journal of Electrical Engineering and Technology, 2024, 19 (1): 709- 722

DOI:10.1007/s42835-023-01570-4      [本文引用: 2]

MATHUNJWA B M, LIN Y T, LIN C H, et al

Automatic IHR-based sleep stage detection using features of residual neural network

[J]. Biomedical Signal Processing and Control, 2023, 85: 105070

DOI:10.1016/j.bspc.2023.105070      [本文引用: 2]

CHAKRABORTY S, GOYAL M, GOYAL P, et al. A machine learning approach for automatic sleep staging using heart rate variability [EB/OL]. (2022-05-13)[2023-08-08]. https://www.biorxiv.org/content/10.1101/2022.05.13.491872v2.full.pdf.

[本文引用: 4]

SURANTHA N, LESMANA T F, ISA S M

Sleep stage classification using extreme learning machine and particle swarm optimization for healthcare big data

[J]. Journal of Big Data, 2021, 8 (1): 1- 17

DOI:10.1186/s40537-020-00387-6      [本文引用: 3]

彭向东, 潘从成, 柯泽浚, 等

基于并行架构和时空注意力机制的心电分类方法

[J]. 浙江大学学报: 工学版, 2022, 56 (10): 1912- 1923

[本文引用: 1]

PENG Xiangdong, PAN Congcheng, KE Zejun, et al

Classification method for electrocardiograph signals based on parallel architecture model and spatial-temporal attention mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (10): 1912- 1923

[本文引用: 1]

CHANDRA S, SHARMA A, SINGH G K

Feature extraction of ECG signal

[J]. Journal of Medical Engineering and Technology, 2018, 42 (4): 306- 316

DOI:10.1080/03091902.2018.1492039      [本文引用: 1]

张敏, 袁辉. 拉依达(PauTa)准则与异常值剔除[EB/OL]. [2023-10-01]. https://www.docin.com/p-773376606.html.

[本文引用: 1]

MENG F, ZHAO D, ZHANG X

A fair consensus adjustment mechanism for large-scale group decision making in term of Gini coefficient

[J]. Engineering Applications of Artificial Intelligence, 2023, 126 (23): 106962

[本文引用: 1]

ZHANG B, LI Y, CHAI Z

A novel random multi-subspace based ReliefF for feature selection

[J]. Knowledge-based Systems, 2022, 252 (12): 109400

[本文引用: 1]

LI P. Abc-boost: adaptive base class boost for multi-class classification [C] // Proceedings of the 26th Annual international conference on Machine Learning . New York: Association for Computing Machinery, 2009: 625-632.

[本文引用: 1]

PONOMAREVA N, COLTHURST T, HENDRY G, et al. Compact multi-class boosted trees [C] // 2017 IEEE International Conference on Big Data . Boston: IEEE, 2017: 47-56.

[本文引用: 1]

AHMADIANFAR I, HEIDARI A A, NOSHADIAN S, et al

INFO: an efficient optimization algorithm based on weighted mean of vectors

[J]. Expert Systems with Applications, 2022, 195: 116516

DOI:10.1016/j.eswa.2022.116516      [本文引用: 1]

/