基于多尺度特征与注意力机制的轴承寿命预测
Bearing life prediction based on multi-scale features and attention mechanism
通讯作者:
收稿日期: 2021-07-6
基金资助: |
|
Received: 2021-07-6
Fund supported: | 国家自然科学基金资助项目(61773386,62073336);国家自然科学基金优秀青年资助项目(61922089) |
作者简介 About authors
莫仁鹏(1997—),男,硕士生,从事深度学习与剩余寿命预测的研究.orcid.org/0000-0002-4332-625X.E-mail:
针对以往剩余使用寿命(RUL)预测方法对轴承退化信息挖掘不充分、忽视不同特征贡献度差异,影响预测准确性的问题,提出基于多尺度特征与注意力机制的轴承RUL预测方法. 在多个尺度下计算轴承原始振动信号的若干时域和频域特征,作为输入特征集. 将多尺度特征集输入到网络中,以注意力模块为不同特征自适应地分配最佳权重,以卷积神经网络(CNN)模块进行深层特征提取与多尺度特征融合,通过前馈神经网络(FNN)模块映射得到RUL预测值. 通过公开的轴承数据集进行实验验证,与其他RUL预测方法相比,所提方法的预测性能更优越.
关键词:
A bearing RUL prediction method based on multi-scale features and attention mechanism was proposed aiming at the problem that the previous remaining useful life (RUL) prediction methods were insufficient in mining bearing degradation information and ignored the difference in the contribution of different features, which affected the prediction accuracy. Several time-domain and frequency-domain features of the original bearing vibration signal at multiple scales were calculated as the input feature set. The multi-scale feature set was input into the network, and the attention module was used to adaptively assign the best weights to different features. Then the convolutional neural network (CNN) module was used for deep feature extraction and multi-scale feature fusion. The RUL prediction value was obtained through the feedforward neural network (FNN) module mapping. The proposed method was applied to the public bearing datasets for comparative studies. Results showed the superior prediction performance of the proposed method.
Keywords:
本文引用格式
莫仁鹏, 司小胜, 李天梅, 朱旭.
MO Ren-peng, SI Xiao-sheng, LI Tian-mei, ZHU Xu.
近年来,基于深度学习的数据驱动方法以强大的特征提取能力,在RUL预测领域引起了广大研究者的关注. 唐旭等[11]选用15个时域特征作为轴承退化特征,将这些特征输入到长短期记忆网络(long-short term memory, LSTM)中进行RUL预测. 王玉静等[12]使用频域特征作为输入特征集,结合卷积神经网络(convolution neural network, CNN)和LSTM预测轴承的RUL. 张刚等[13]基于单调性选取特定频段信息作为健康因子,利用受限玻尔兹曼机融合得到虚拟健康因子,表征轴承的退化状态. Chen等[14]以垂直和水平方向的5个通道能量作为输入,利用编码器-解码器结构构建健康指标,通过线性回归计算轴承的RUL.
以上深度学习方法在对轴承进行RUL预测时取得了较好的效果,但存在一些问题. 仅进行单一尺度的特征提取,不可避免地会忽略某些重要信息. 没有考虑不同特征对RUL预测任务的贡献度差异,这将给预测结果带来不利的影响,因为在学习过程中更重要的特征应受到更多的关注.
为了克服以上缺陷,本文提出基于多尺度特征与注意力机制的轴承RUL预测方法. 1)在多个尺度下提取轴承的若干时域特征和频域特征作为输入特征集,弥补单一尺度特征提取的信息不充分的缺陷. 2)利用注意力机制,为输入特征集中更重要的特征赋予更大的权重. 3)基于CNN和前馈神经网络(feedforward neural network,FNN)进行深层特征提取与融合,得到轴承的RUL预测值.
1. 基于多尺度特征与注意力机制的RUL预测方法
提出的RUL预测方法整体框架如图1所示,主要包括预处理和网络预测2个部分. 预处理包括多尺度特征提取、标准化及时间窗处理. 将预处理后的特征集输入到网络中,可得轴承的RUL预测值.
图 1
1.1. 多尺度特征提取
选取20个特征指标来表征轴承的退化状态,包括最大值、最小值、峰值、峰峰值、绝对均值、方根幅值、方差、标准差、有效值、峭度、偏度、波形因子、峰值因子、脉冲因子、裕度因子、余隙因子这16个时域特征,以及频率均值、重心频率、频率均方根、频率标准差这4个频域特征. 这些特征的变化趋势几乎涵盖了轴承退化过程中的所有阶段,能够较好地反映轴承健康状态的退化过程. 这些特征的计算公式如下.
1)时域特征:
2)频域特征:
式中:
针对现有的RUL预测研究在进行特征提取时大多只对原始信号进行单一尺度的特征提取的问题,在特征提取时对采样点数据进行多个尺度的分段,计算每一个子分段的若干时域特征和频域特征,实现对原始信号的多尺度特征提取. 所提取的多尺度特征蕴含更丰富的退化信息,兼顾了采样点数据的全局特征和局部特征,能够有效地抑制单一尺度下特征提取所造成的信息丢失.
多尺度特征提取的具体过程如图2所示. 设轴承原始信号的长度为2 560,分别进行不分段(尺度1)、二分段(尺度2)、四分段(尺度4). 计算每个子段内的20个特征指标,得到3个尺度的输入特征集
图 2
不同的时域特征和频域特征之间存在数量级相差太大的情况,使用min-max方法[15]对所有特征向量进行标准化处理,如下所示:
式中:K为特征个数,K = 20、40、80.
假设在轴承运行过程中共进行了
图 3
1.2. 整体网络结构
整体网络模型由注意力模块、CNN特征提取与融合模块及FNN预测模块组成,如图4所示. 基于注意力模块为每个尺度下的输入特征集自适应地分配最佳特征权重,利用CNN模块自动提取和融合得到多尺度深层特征,多尺度深层融合特征通过FNN模块映射得到RUL预测值.
图 4
1.2.1. 注意力模块
图 5
假设某时间窗内第
式中:
对于每一个特征向量,在时间窗内将权重平均值作为总权重系数,得到时间窗内所有特征向量的总权重系数
将特征集
1.2.2. CNN特征提取与融合模块
CNN网络的核心模块是卷积层. 卷积层通过多个卷积核对输入信息进行卷积运算,可以有效地提取输入信息的深层特征. 卷积层的运算公式如下:
式中:
基于3个并行的卷积通道,分别对3个尺度的输入特征集进行深层特征学习,每个卷积通道中都含有3个卷积层. 3个卷积通道的超参数完全一致. 通过拼接操作合并3个卷积通道的输出,将合并特征输入到另一个卷积层中,同时学习来自不同尺度的深层特征,得到融合特征.
1.2.3. FNN寿命预测模块
在得到多尺度融合特征后,对这些高维特征进行拉平处理,以便输进FNN模块中进行RUL预测. FNN模块中的信息传播公式如下:
式中:
本文的FNN预测模块包括2个隐藏层和1个输出层,输出层只含有1个神经元,以便能够映射得到1个单值数据,即RUL预测值. 为了降低预测结果的过拟合风险并提高模型的泛化能力,在首个隐藏层后面采用随机丢弃(dropout)机制.
利用训练样本
2. 实验分析
2.1. 数据来源
表 1 实验数据工况详情
Tab.1
工况 | nr/(r·min−1) | F/N |
1 | 1 800 | 4 000 |
2 | 1 650 | 4 200 |
3 | 1 500 | 5 000 |
图 6
图 6 轴承全寿命的振动加速度幅值
Fig.6 Vibration acceleration amplitudes of bearing full-life
轴承数据集中含有水平加速度数据和垂直加速度数据,与垂直加速度数据相比,水平加速度数据能够提供更多的有效退化信息[23],因此使用水平方向的加速度数据进行实验. 将轴承1-1、1-2、1-4作为训练集,轴承1-3作为测试集.
为了降低训练难度,将样本数据
2.2. 评价指标
采用RUL预测值和RUL真实值之间的均方根误差(RMSE)和平均绝对误差(MAE)作为2个评价指标,对所提方法的预测效果进行评价,计算公式如下:
式中:
从图6可知,轴承的前半段采样点包含了大量的正常阶段数据,因此在对测试集预测的结果进行评估时,只取用后半段的预测值来计算2个评价指标,即主要基于退化阶段的数据验证模型的有效性. 为了降低网络模型预测的随机性,每项实验都进行10次,取10次评价指标的均值对预测性能进行最终的评估.
2.3. 实验参数
基于深度学习的RUL预测方法应用于实际数据时,网络超参数的设置对预测效果往往有较大的影响,如神经元个数、卷积核尺寸这些参数. 若这些参数太小,则会导致网络的学习能力不足,不能提取到足够充分的特征,影响预测性能;若这些参数太大,则会造成算法的复杂性和计算量大大增加,使得网络训练困难. 需要在这两者之间取得平衡才能达到理想的实验效果,经过多次交叉验证和反复试验对比,确定的网络超参数设置如表2所示. 表中, k为尺寸, s为步长, r为丢弃率.
表 2 网络超参数
Tab.2
网络模块 | 网络层 | 超参数设置 |
注意力模块 | 全连接层 | U = K |
CNN模块 | 卷积层1 | n = 32,k = 6,s = 1 |
CNN模块 | 卷积层2 | n = 64,k = 6,s = 1 |
CNN模块 | 卷积层3 | n = 64,k = 6,s = 1 |
CNN模块 | 卷积层4 | n = 64,k = 6,s = 1 |
FNN模块 | 隐藏层1 | U = 100 |
FNN模块 | dropout层 | r = 0.2 |
FNN模块 | 隐藏层2 | U = 20 |
FNN模块 | 输出层 | U = 1 |
除了网络超参数外,不同时间窗尺寸
图 7
从图7可以看出,刚开始随着时间窗尺寸的增大,评价指标大致呈下降趋势,这是由于更大尺寸的时间窗能够捕获更多的退化信息,有利于预测性能的提高. 随着时间窗尺寸的继续提高,
2.4. 消融实验
表 3 消融实验的评价指标
Tab.3
评价指标 | RMSE | MAE |
尺度1 | 0.034 0 | 0.029 5 |
尺度1+注意力 | 0.031 7 | 0.027 3 |
尺度2 | 0.032 2 | 0.028 5 |
尺度2+注意力 | 0.030 3 | 0.026 4 |
尺度4 | 0.027 4 | 0.023 4 |
尺度4+注意力 | 0.026 8 | 0.021 9 |
多尺度 | 0.024 4 | 0.019 9 |
多尺度+注意力 | 0.021 2 | 0.016 7 |
图 8
图 8 消融实验的评价指标对比
Fig.8 Comparison of evaluation metrics for ablation experiments
从图8可以看出,基于多尺度特征融合模型的预测效果优于单尺度特征模型,说明多尺度融合特征蕴含了更丰富的退化信息,能够有效地提高模型的预测性能. 无论是在单尺度特征实验还是在多尺度特征融合实验中,引入注意力机制都有助于提高模型的预测性能,验证了注意力机制的有效性.
图 9
表4给出不同多尺度组合的预测效果. 表中,训练时间ttr为网络模型训练一个迭代所需要的时间, tte为测试时间. 实验结果表明,当多尺度模型中添加更多的尺度时,输入特征集中蕴含的退化信息存在冗余现象,预测性能改善不明显. 更多尺度的组合带来的参数量更大,所耗费的训练和测试时间更长,不值得继续采用更多尺度组合的模型进行预测.
表 4 不同多尺度组合的预测效果
Tab.4
多尺度组合 | RMSE | MAE | ttr/s | tte/s |
1-2-4 | 0.021 2 | 0.016 7 | 4.64 | 2.73 |
1-2-4-8 | 0.022 6 | 0.019 3 | 7.15 | 3.99 |
1-2-4-8-16 | 0.021 1 | 0.017 4 | 11.20 | 5.20 |
2.5. 对比实验
表 5 各方法的评价指标
Tab.5
网络 | RMSE | MAE | ttr/s | tte/s |
DNN | 0.065 6 | 0.057 7 | 1.32 | 0.91 |
CNN | 0.030 7 | 0.026 0 | 5.05 | 2.47 |
MSCNN | 0.023 1 | 0.018 6 | 52.00 | 8.69 |
BiLSTM | 0.058 4 | 0.045 1 | 4.49 | 11.45 |
CNN-LSTM | 0.056 0 | 0.046 2 | 51.00 | 44.48 |
本文方法 | 0.021 2 | 0.016 7 | 4.64 | 2.73 |
图 10
通过比较发现,本文方法在与其他方法的评价指标对比中取得了最佳结果,RUL预测曲线在退化阶段的拟合效果表现优异,具有较高的预测精度. 本文方法所耗费的训练时间和测试时间较短,在对RUL预测实时性要求较高的情形中具有实际的应用价值. MSCNN网络和本文方法都采用多尺度特征的策略,预测效果比单一尺度的CNN网络更好,说明在进行RUL预测时采用多尺度策略的成功性. MSCNN网络及CNN-LSTM网络中的参数规模较大,在训练和测试时的耗时太长,不利于实时预测,因此这2种方法不参与后续泛化实验的对比.
2.6. 泛化实验
表 6 不同工况轴承的预测性能
Tab.6
网络 | 轴承2-3 | 轴承3-1 | |||
RMSE | MAE | RMSE | MAE | ||
DNN | 0.360 7 | 0.330 0 | 0.348 9 | 0.322 6 | |
CNN | 0.118 4 | 0.103 8 | 0.341 7 | 0.334 7 | |
BiLSTM | 0.165 8 | 0.135 9 | 0.229 4 | 0.210 1 | |
本文方法 | 0.044 1 | 0.034 6 | 0.075 8 | 0.061 8 | |
原训练集 | 0.448 6 | 0.426 8 | 0.438 9 | 0.420 9 |
图 11
图 11 不同工况下的轴承RUL预测曲线
Fig.11 RUL prediction curve of bearing under different operating conditions
表 7 不同方法在XJTU-SY轴承数据集上的预测效果
Tab.7
网络 | 轴承1-1 | 轴承2-2 | 轴承3-2 | |||||
RMSE | MAE | RMSE | MAE | RMSE | MAE | |||
DNN | 0.205 2 | 0.176 9 | 0.249 1 | 0.206 1 | 0.303 2 | 0.246 7 | ||
CNN | 0.153 4 | 0.125 3 | 0.113 4 | 0.088 7 | 0.228 7 | 0.203 9 | ||
BiLSTM | 0.144 8 | 0.123 5 | 0.102 6 | 0.088 7 | 0.207 9 | 0.164 9 | ||
本文方法 | 0.098 6 | 0.083 6 | 0.054 8 | 0.045 3 | 0.104 4 | 0.077 6 |
图 12
图 12 测试集轴承的RUL预测曲线(XJTU-SY)
Fig.12 RUL prediction curve of test-set bearings (XJTU-SY)
实验结果表明,本文方法在XTJU-SY轴承数据集上具有一定的预测效果,较其他对比方法的预测性能更佳,验证了本文方法的鲁棒性.
2.7. 不确定性度量
图 13
图 13 轴承1-3的RUL预测不确定性度量(FEMTO-st)
Fig.13 RUL prediction uncertainty measurement of bearing 1-3 (FEMTO-st)
从图13可以看出,轴承的RUL预测结果在后半段退化阶段较稳定,但在前期正常运行的阶段,RUL预测结果的不确定性较大. 这是因为在正常阶段,网络难以捕捉到轴承的退化特征,预测结果波动较大. 利用蒙特卡洛方法得到轴承RUL预测结果的95%置信区间,有助于将RUL预测信息应用于维修决策优化时量化决策风险.
3. 结 论
(1)对轴承原始振动信号进行多尺度的特征提取,将多尺度特征输入到CNN网络中进行深层学习和融合. 得到的融合特征蕴含了更丰富的轴承退化信息,兼顾了采样点数据的局部特征和全局特征,能够有效地提高模型的预测精度.
(2)引入注意力机制,为输入特征集中的时域特征和频域特征自适应地分配权重,强化更重要的特征,抑制相对不重要的特征,有利于提高模型的预测性能.
(3)与其他网络的对比实验结果表明,本文方法的预测性能更优越,预测精度更高,训练和测试时所耗费的时间较短,具有实际应用价值. 在不同工况和不同数据集上的泛化实验表明,本文方法具有较好的稳定性与鲁棒性. 采用蒙特卡洛仿真技术,对RUL预测结果的不确定性进行量化,有助于在将RUL预测信息应用于维修决策优化时量化决策风险.
参考文献
基于改进稀疏滤波与深度网络融合的轴承故障诊断
[J].
Bearing fault diagnosis based on improved sparse filtering and deep network fusion
[J].
用于滚动轴承转频估计的 EMD 软阈值降噪算法
[J].
EMD soft-thresholding denoising algorithm for rolling element bearing rotational frequency estimation
[J].
Using degradation measures to estimate a time-to-failure distribution
[J].DOI:10.1080/00401706.1993.10485038 [本文引用: 1]
Remaining useful life prediction for multi-phase deteriorating process based on Wiener process
[J].DOI:10.1016/j.ress.2020.107361 [本文引用: 1]
Prognostics for linear stochastic degrading systems with survival measurements
[J].
基于复合非齐次泊松过程的不完美维修设备剩余寿命预测
[J].
Prediction of remaining life of imperfect maintenance equipment based on compound inhomogeneous Poisson process
[J].
Weibull accelerated failure time regression model for remaining useful life prediction of bearing working under multiple operating conditions
[J].
基于机器学习的设备剩余寿命预测方法综述
[J].DOI:10.3901/JME.2019.08.001 [本文引用: 1]
Overview of equipment remaining life prediction methods based on machine learning
[J].DOI:10.3901/JME.2019.08.001 [本文引用: 1]
结合CNN和LSTM的滚动轴承剩余使用寿命预测方法
[J].
Combining CNN and LSTM to predict the remaining service life of rolling bearings
[J].
一种基于特定频段信息熵和RBM的健康因子构建方法
[J].
A health factor construction method based on information entropy and RBM in specific frequency bands
[J].
A novel deep learning method based on attention mechanism for bearing remaining useful life prediction
[J].DOI:10.1016/j.asoc.2019.105919 [本文引用: 1]
Remaining useful life estimation in prognostics using deep convolution neural networks
[J].DOI:10.1016/j.ress.2017.11.021 [本文引用: 1]
采用词向量注意力机制的双路卷积神经网络句子分类模型
[J].
Two-way convolutional neural network sentence classification model using word vector attention mechanism
[J].
融入注意力机制的弱监督水下图像增强算法
[J].
Weakly supervised underwater image enhancement algorithm incorporating attention mechanism
[J].
Distributed Attention-based temporal convolutional network for remaining useful life prediction
[J].
Bearing health monitoring based on Hilbert–Huang transform, support vector machine, and regression
[J].
Multi-bearing remaining useful life collaborative prediction: a deep learning approach
[J].DOI:10.1016/j.jmsy.2017.02.013 [本文引用: 1]
基于全卷积层神经网络的轴承剩余寿命预测
[J].
Bearing remaining life prediction based on fully convolutional neural network
[J].
基于多尺度卷积神经网络的轴承剩余寿命预测
[J].
Prediction of bearing remaining life based on multi-scale convolutional neural network
[J].
基于BiLSTM的滚动轴承剩余使用寿命预测
[J].DOI:10.3969/j.issn.1009-0134.2020.05.011 [本文引用: 1]
Prediction of remaining service life of rolling bearing based on BiLSTM
[J].DOI:10.3969/j.issn.1009-0134.2020.05.011 [本文引用: 1]
基于并联CNN-SE-Bi-LSTM的轴承剩余使用寿命预测
[J].
Bearing remaining service life prediction based on parallel CNN-SE-Bi-LSTM
[J].
A hybrid prognostics approach for estimating remaining useful life of rolling element bearings
[J].
/
〈 |
|
〉 |
