浙江大学学报(工学版), 2022, 56(7): 1447-1456 doi: 10.3785/j.issn.1008-973X.2022.07.020

电气工程、机械工程

基于多尺度特征与注意力机制的轴承寿命预测

莫仁鹏,, 司小胜,, 李天梅, 朱旭

火箭军工程大学 导弹工程学院,陕西 西安 710025

Bearing life prediction based on multi-scale features and attention mechanism

MO Ren-peng,, SI Xiao-sheng,, LI Tian-mei, ZHU Xu

College of Missile Engineering, Rocket Force University of Engineering, Xi’an 710025, China

通讯作者: 司小胜,男,教授. orcid.org/0000-0002-4282-3262. E-mail: sxs09@mails.tsinghua.edu.cn

收稿日期: 2021-07-6  

基金资助: 国家自然科学基金资助项目(61773386,62073336);国家自然科学基金优秀青年资助项目(61922089)

Received: 2021-07-6  

Fund supported: 国家自然科学基金资助项目(61773386,62073336);国家自然科学基金优秀青年资助项目(61922089)

作者简介 About authors

莫仁鹏(1997—),男,硕士生,从事深度学习与剩余寿命预测的研究.orcid.org/0000-0002-4332-625X.E-mail:renpengmo@163.com , E-mail:renpengmo@163.com

摘要

针对以往剩余使用寿命(RUL)预测方法对轴承退化信息挖掘不充分、忽视不同特征贡献度差异,影响预测准确性的问题,提出基于多尺度特征与注意力机制的轴承RUL预测方法. 在多个尺度下计算轴承原始振动信号的若干时域和频域特征,作为输入特征集. 将多尺度特征集输入到网络中,以注意力模块为不同特征自适应地分配最佳权重,以卷积神经网络(CNN)模块进行深层特征提取与多尺度特征融合,通过前馈神经网络(FNN)模块映射得到RUL预测值. 通过公开的轴承数据集进行实验验证,与其他RUL预测方法相比,所提方法的预测性能更优越.

关键词: 剩余使用寿命预测 ; 多尺度特征 ; 注意力机制 ; 卷积神经网络(CNN) ; 轴承

Abstract

A bearing RUL prediction method based on multi-scale features and attention mechanism was proposed aiming at the problem that the previous remaining useful life (RUL) prediction methods were insufficient in mining bearing degradation information and ignored the difference in the contribution of different features, which affected the prediction accuracy. Several time-domain and frequency-domain features of the original bearing vibration signal at multiple scales were calculated as the input feature set. The multi-scale feature set was input into the network, and the attention module was used to adaptively assign the best weights to different features. Then the convolutional neural network (CNN) module was used for deep feature extraction and multi-scale feature fusion. The RUL prediction value was obtained through the feedforward neural network (FNN) module mapping. The proposed method was applied to the public bearing datasets for comparative studies. Results showed the superior prediction performance of the proposed method.

Keywords: remaining useful life prediction ; multi-scale feature ; attention mechanism ; convolutional neural network (CNN) ; bearing

PDF (1709KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

莫仁鹏, 司小胜, 李天梅, 朱旭. 基于多尺度特征与注意力机制的轴承寿命预测. 浙江大学学报(工学版)[J], 2022, 56(7): 1447-1456 doi:10.3785/j.issn.1008-973X.2022.07.020

MO Ren-peng, SI Xiao-sheng, LI Tian-mei, ZHU Xu. Bearing life prediction based on multi-scale features and attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(7): 1447-1456 doi:10.3785/j.issn.1008-973X.2022.07.020

由于过载、冲击、疲劳、磨损等影响,轴承在使用过程中会不可避免地发生故障退化,对机械设备的安全可靠运行产生严重的影响[1-2]. 在轴承退化失效前进行剩余使用寿命(remaining useful life,RUL)预测,根据剩余使用寿命安排合理的维修计划,可以有效地避免潜在的经济损失和安全隐患,具有重要的实际意义.

现有的RUL预测方法主要分为基于机理建模的方法和数据驱动的方法[3]. 基于机理建模的方法主要根据设备的失效机理建立模型,但对一些机理较复杂的设备进行建模非常困难[4]. 数据驱动的方法可以在设备的监测数据和RUL之间建立对应的关系[5],如传统数据驱动方法基于统计学知识建立设备退化模型,根据退化模型预测设备的RUL[6-9],但这类方法需要充分的先验知识和较多的模型假设,且退化模型选择不当会大幅降低预测准确性[10].

近年来,基于深度学习的数据驱动方法以强大的特征提取能力,在RUL预测领域引起了广大研究者的关注. 唐旭等[11]选用15个时域特征作为轴承退化特征,将这些特征输入到长短期记忆网络(long-short term memory, LSTM)中进行RUL预测. 王玉静等[12]使用频域特征作为输入特征集,结合卷积神经网络(convolution neural network, CNN)和LSTM预测轴承的RUL. 张刚等[13]基于单调性选取特定频段信息作为健康因子,利用受限玻尔兹曼机融合得到虚拟健康因子,表征轴承的退化状态. Chen等[14]以垂直和水平方向的5个通道能量作为输入,利用编码器-解码器结构构建健康指标,通过线性回归计算轴承的RUL.

以上深度学习方法在对轴承进行RUL预测时取得了较好的效果,但存在一些问题. 仅进行单一尺度的特征提取,不可避免地会忽略某些重要信息. 没有考虑不同特征对RUL预测任务的贡献度差异,这将给预测结果带来不利的影响,因为在学习过程中更重要的特征应受到更多的关注.

为了克服以上缺陷,本文提出基于多尺度特征与注意力机制的轴承RUL预测方法. 1)在多个尺度下提取轴承的若干时域特征和频域特征作为输入特征集,弥补单一尺度特征提取的信息不充分的缺陷. 2)利用注意力机制,为输入特征集中更重要的特征赋予更大的权重. 3)基于CNN和前馈神经网络(feedforward neural network,FNN)进行深层特征提取与融合,得到轴承的RUL预测值.

1. 基于多尺度特征与注意力机制的RUL预测方法

提出的RUL预测方法整体框架如图1所示,主要包括预处理和网络预测2个部分. 预处理包括多尺度特征提取、标准化及时间窗处理. 将预处理后的特征集输入到网络中,可得轴承的RUL预测值.

图 1

图 1   剩余寿命预测的步骤

Fig.1   Procedure of remaining life prediction


1.1. 多尺度特征提取

选取20个特征指标来表征轴承的退化状态,包括最大值、最小值、峰值、峰峰值、绝对均值、方根幅值、方差、标准差、有效值、峭度、偏度、波形因子、峰值因子、脉冲因子、裕度因子、余隙因子这16个时域特征,以及频率均值、重心频率、频率均方根、频率标准差这4个频域特征. 这些特征的变化趋势几乎涵盖了轴承退化过程中的所有阶段,能够较好地反映轴承健康状态的退化过程. 这些特征的计算公式如下.

1)时域特征:

$ p_{1}=\max \;x(i),$ $p_{2}=\min\; x(i),$ $p_{3}=\max\; |x(i)|,$ $p_{4}= \max\; x(i)- \min\; x(i) ,$ $p_{5} = \dfrac{1}{N} \displaystyle\sum_{i=1}^{N}|x(i)|,$ $p_{6} = \left(\dfrac{1}{N} \sqrt{\displaystyle\sum_{i=1}^{N}|x(i)|}\right)^{2}$, $p_{7}=\dfrac{1}{N-1} \displaystyle\sum_{i=1}^{N}[x(i)-\bar{x}]^{2},$ $ p_{8}=\sqrt{\dfrac{1}{N} \displaystyle\sum_{i=1}^{N}[x(i)-\bar{x}]^{2}},$ $p_{9}= \sqrt{\dfrac{1}{N} \displaystyle\sum_{i=1}^{N}[x(i)]^{2}}$, $p_{10}=\dfrac{\displaystyle\sum\nolimits_{i=1}^{N}[x(i)-\bar{x}]^{3}}{(N-1) p_{8}^{3}}$, $p_{11}=\dfrac{N p_{9}}{\displaystyle\sum\nolimits_{i=1}^{N}|x(i)|},$ $p_{12}= \dfrac{p_{9}}{p_{5}}$, $ p_{13}=\dfrac{p_{3}}{p_{9}}$, $ p_{14}=\dfrac{p_{3}}{p_{5}}$, $ p_{15}=\dfrac{p_{3}}{p_{6}}$, $ p_{16}=\dfrac{p_{3}}{p_{9}^{2}}$.

2)频域特征:

$p_{17}=\dfrac{1}{M} \displaystyle\sum{_{j=1}^{M}} s(j)$, $p_{18} = \dfrac{\displaystyle\sum\nolimits_{j=1}^{M} f_{j} s(j)}{\displaystyle\sum\nolimits_{j=1}^{M} s(j)}$, $p_{19}=\sqrt{\dfrac{\displaystyle\sum\nolimits_{j=1}^{M} f_{j}^{2} s(j)}{\displaystyle\sum\nolimits_{j=1}^{M} s(j)}}$, $p_{20}=\sqrt{\dfrac{\displaystyle\sum\nolimits_{j=1}^{M}\left(f_{j}-p_{18}\right)^{2} s(j)}{\displaystyle\sum\nolimits_{j=1}^{M} s(j)}}$.

式中: $N$为单个采样点所包含的数据个数, $x\left( i \right)$为采样点内的第 $i$个数据, $\bar x$为该采样点所有数据的平均值. 对采样点内的数据序列进行傅里叶变换后, $M$为频谱线的总数, $f\left( j \right)$为第 $j$条频谱线的频率, $s\left( j \right)$为第 $j$个频谱幅值.

针对现有的RUL预测研究在进行特征提取时大多只对原始信号进行单一尺度的特征提取的问题,在特征提取时对采样点数据进行多个尺度的分段,计算每一个子分段的若干时域特征和频域特征,实现对原始信号的多尺度特征提取. 所提取的多尺度特征蕴含更丰富的退化信息,兼顾了采样点数据的全局特征和局部特征,能够有效地抑制单一尺度下特征提取所造成的信息丢失.

多尺度特征提取的具体过程如图2所示. 设轴承原始信号的长度为2 560,分别进行不分段(尺度1)、二分段(尺度2)、四分段(尺度4). 计算每个子段内的20个特征指标,得到3个尺度的输入特征集 ${Z_1}$${Z_2}$${Z_4}$,长度分别为20、40、80.

图 2

图 2   多尺度特征的提取

Fig.2   Extraction of multi-scale feature


不同的时域特征和频域特征之间存在数量级相差太大的情况,使用min-max方法[15]对所有特征向量进行标准化处理,如下所示:

$ {x_i} = \frac{{{z_i} - \min\; {{z_i}} }}{{\max \; {{z_i}} - \min\; {{z_i}} }};\;i = 1,2,\cdots,K. $

式中:K为特征个数,K = 20、40、80.

假设在轴承运行过程中共进行了 $C$次采样,开展特征提取后得到 $C$组特征,每组特征里含有 $K$个特征值. 为了扩充模型的训练样本数据并考虑到相邻采样点之间具有时间依赖性,将标准化后的输入特征集进行逐步重叠滑动的时间窗处理,设时间窗尺寸为 $T$,则最后可得 $\left( {C - T+1} \right)$个时间窗序列,具体过程如图3所示.

图 3

图 3   时间窗示意图

Fig.3   Schematic diagram of time window


1.2. 整体网络结构

整体网络模型由注意力模块、CNN特征提取与融合模块及FNN预测模块组成,如图4所示. 基于注意力模块为每个尺度下的输入特征集自适应地分配最佳特征权重,利用CNN模块自动提取和融合得到多尺度深层特征,多尺度深层融合特征通过FNN模块映射得到RUL预测值.

图 4

图 4   整体网络结构

Fig.4   Overall network structure


1.2.1. 注意力模块

注意力机制借鉴了人类视觉处理信息的思想,即快速扫描全局信息;将注意力集中在对当前任务更重要的信息,抑制无用信息的干扰. 目前,注意力机制在机器翻译[16-17]、语音识别[18]及图像处理[19-20]等领域得到了广泛的应用.

本文方法的注意力模块包括3个注意力层,分别嵌入在整体网络每个尺度支路的前端,基于注意力机制为每个尺度的输入特征集分配最佳特征权重. 注意力机制的计算主要分为以下2步. 1)计算所有输入信息的重要性,即注意力分布. 2)根据注意力分布为输入信息赋予相应的权重. 借鉴文献[21]的处理方法,以时间窗为单位,对每一个尺度下的输入特征集均采用注意力机制进行加权,原理如图5所示.

图 5

图 5   注意力机制

Fig.5   Attention mechanism


假设某时间窗内第 $ {t} $个采样点的特征集为 $X_{t}=\left\{{\boldsymbol{x}}_{1, t}, {\boldsymbol{x}}_{2, t}, {\boldsymbol{x}}_{i, t}, \cdots, {\boldsymbol{x}}_{K, t}\right\}$$ t \in(1, T) $,其中 $ T $为时间窗尺寸, $ K $为该采样点在这一时间窗内所含有的特征向量总数. 通过打分函数 $ S $,对 $ X_{t} $中每一个特征 $ \boldsymbol{x}_{i, t} $的重要性程度 ${\xi _i} $进行评估,如下所示:

$ {\xi _i} = S({{\boldsymbol{x}}_{i,t}}) = \varPhi ({{\boldsymbol{W}}^ {\rm{T}} }{{\boldsymbol{x}}_{i,t}}+{\boldsymbol{b}}). $

式中: $\varPhi$为全连接层的激活函数; ${\boldsymbol{W}}$${\boldsymbol{b}}$分别为全连接层的权重矩阵和偏置向量,在模型的训练过程中得到学习与更新. 利用softmax函数,将 ${\xi _i}$映射到(0, 1)概率空间,得到第 $t$个采样点内每个特征的权重 $ \left\{ {{\beta _{1,t}},{\beta _{2,t}},\cdots,{\beta _{i,t}},\cdots,{\beta _{K,t}}} \right\} $,表达式为

$ {\beta _{i,t}} = {\rm{soft}}\max \left( {{\xi _i}} \right) = \frac{{\exp\; {\xi _i}}}{{\displaystyle\sum\nolimits_{i = 1}^K {\exp\; {\xi _i}} }} . $

对于每一个特征向量,在时间窗内将权重平均值作为总权重系数,得到时间窗内所有特征向量的总权重系数 $\left\{ {{\alpha _1},{\alpha _2},\cdots,{\alpha _i},\cdots,{\alpha _K}} \right\}$,具体计算如下:

$ {\alpha _i} = {\bar \beta _i} = \frac{1}{T}\sum\limits_{t = 1}^T {{\beta _{i,t}}} . $

将特征集 ${X_t}$中的每一个特征向量与相应的总权重系数相乘,得到加权后的特征集 ${X'_t}$,表示为

$ {X'_t} = \left\{ {{{{\boldsymbol{x}}'}_{1,t}},{{{\boldsymbol{x}}'}_{2,t}},\cdots,{{{\boldsymbol{x}}'}_{K,t}}} \right\} = \left\{ {{{\boldsymbol{x}}_{1,t}}{\alpha _{1,t}},{{\boldsymbol{x}}_{2,t}}{\alpha _2},\cdots,{{\boldsymbol{x}}_{K,t}}{\alpha _K}} \right\} . $

1.2.2. CNN特征提取与融合模块

CNN网络的核心模块是卷积层. 卷积层通过多个卷积核对输入信息进行卷积运算,可以有效地提取输入信息的深层特征. 卷积层的运算公式如下:

$ x_{i,j}^{l+1} = f\left( {\sum\limits_{i=1}^{{K}}\sum\limits_{j=1}^{n} {x_i^l \otimes W_j^i+b_i} } \right). $

式中: $ \otimes $为卷积运算, ${{W}}_j^i$为第 $j$个卷积核上的第 $i$个权值,n为卷积核数量, $ f $为ReLU激活函数, ${\boldsymbol{x}}_{i,j}^{l+1}$为第 $l$层的第 $i$个特征 ${\boldsymbol{x}}_i^l$经过卷积核 ${\boldsymbol{W}}_j^i$运算与激活函数激活后得到的第 $l+1$层的第 $i$个特征.

基于3个并行的卷积通道,分别对3个尺度的输入特征集进行深层特征学习,每个卷积通道中都含有3个卷积层. 3个卷积通道的超参数完全一致. 通过拼接操作合并3个卷积通道的输出,将合并特征输入到另一个卷积层中,同时学习来自不同尺度的深层特征,得到融合特征.

1.2.3. FNN寿命预测模块

在得到多尺度融合特征后,对这些高维特征进行拉平处理,以便输进FNN模块中进行RUL预测. FNN模块中的信息传播公式如下:

$ x_i^{l+1} = f \left( {\sum\limits_{j = 1}^U {{W_{i,j}}x_j^l+b_i} } \right) . $

式中: $x_i^{l+1}$为网络第 $l+1$层的第 $i$个神经元的输出,U为第 $l$层的神经元数量, ${W_{i,j}}$为第 $l+1$层第 $i$个神经元与第 $l$层第 $j$个神经元之间的连接权重.

本文的FNN预测模块包括2个隐藏层和1个输出层,输出层只含有1个神经元,以便能够映射得到1个单值数据,即RUL预测值. 为了降低预测结果的过拟合风险并提高模型的泛化能力,在首个隐藏层后面采用随机丢弃(dropout)机制.

利用训练样本 $\left\{ {\left( {{{\boldsymbol{x}}_i},{y_i}} \right)} \right\}$对整体网络进行训练,其中样本数据 ${{\boldsymbol{x}}_i}$为第 $i$个时间窗的多尺度特征,样本标签 ${y_i}$为该时间窗所对应的RUL. 将样本数据 ${{\boldsymbol{x}}_i}$输入到整体网络中,得到RUL预测值 ${\hat y_i} = f\left( {{{\boldsymbol{x}}_i};{\boldsymbol{\theta}} } \right)$(其中θ为网络中的参数),以预测值 $ {\hat y_i} $与真实值 ${y_i}$之间的均方误差作为损失函数. 在训练时,以最小化损失函数为目标,利用Adam算法对整体网络参数进行更新和优化.

2. 实验分析

2.1. 数据来源

实验数据来源于PHM2012数据挑战赛的FEMTO-st轴承数据集[22]. 该数据集采集表1中3个工况下17个轴承的全寿命振动加速度数据. 表中,nr为转速,F为载荷. 在轴承从正常阶段退化至失效时刻的全寿命过程中,振动加速度幅值不断增大,如图6所示. 图中,av为振动加速度. 对轴承振动加速度的采样间隔为10 s,采样时间持续0.1 s,采样频率为25.6 kHz,每个采样点可以采集到2 560个数据.

表 1   实验数据工况详情

Tab.1  Working condition details of experimental data

工况 nr/(r·min−1) F/N
1 1 800 4 000
2 1 650 4 200
3 1 500 5 000

新窗口打开| 下载CSV


图 6

图 6   轴承全寿命的振动加速度幅值

Fig.6   Vibration acceleration amplitudes of bearing full-life


轴承数据集中含有水平加速度数据和垂直加速度数据,与垂直加速度数据相比,水平加速度数据能够提供更多的有效退化信息[23],因此使用水平方向的加速度数据进行实验. 将轴承1-1、1-2、1-4作为训练集,轴承1-3作为测试集.

为了降低训练难度,将样本数据 ${x_i}$对应的RUL归一化到(0,1.0),得到相应的样本标签 ${y_i}$. ${y_i}$越小,表示轴承RUL越小,轴承退化程度越深,故障越严重. 初始时 ${y_i}$为1.0,表示轴承处于正常阶段;当 ${y_i}$降到0时,表示轴承的故障严重程度达到顶峰,即完全失效、不能运行,此时RUL为0.

2.2. 评价指标

采用RUL预测值和RUL真实值之间的均方根误差(RMSE)和平均绝对误差(MAE)作为2个评价指标,对所提方法的预测效果进行评价,计算公式如下:

$ {\rm{RMSE}} = \sqrt {\frac{1}{Q}\sum\limits_{i = 1}^Q {{{\left( {{y_i} - {{\hat y}_i}} \right)}^2}} } , $

$ {\rm{MAE}} = \frac{1}{Q}\sum\limits_{i = 1}^Q {\left| {{y_i} - {{\hat y}_i}} \right|} . $

式中: $Q$为测试集的样本总数. 这2个评价指标越小,说明RUL预测值与真实值之间的差距越小,模型的预测精度越高.

图6可知,轴承的前半段采样点包含了大量的正常阶段数据,因此在对测试集预测的结果进行评估时,只取用后半段的预测值来计算2个评价指标,即主要基于退化阶段的数据验证模型的有效性. 为了降低网络模型预测的随机性,每项实验都进行10次,取10次评价指标的均值对预测性能进行最终的评估.

2.3. 实验参数

基于深度学习的RUL预测方法应用于实际数据时,网络超参数的设置对预测效果往往有较大的影响,如神经元个数、卷积核尺寸这些参数. 若这些参数太小,则会导致网络的学习能力不足,不能提取到足够充分的特征,影响预测性能;若这些参数太大,则会造成算法的复杂性和计算量大大增加,使得网络训练困难. 需要在这两者之间取得平衡才能达到理想的实验效果,经过多次交叉验证和反复试验对比,确定的网络超参数设置如表2所示. 表中, k为尺寸, s为步长, r为丢弃率.

表 2   网络超参数

Tab.2  Network hyperparameters

网络模块 网络层 超参数设置
注意力模块 全连接层 U = K
CNN模块 卷积层1 n = 32,k = 6,s = 1
CNN模块 卷积层2 n = 64,k = 6,s = 1
CNN模块 卷积层3 n = 64,k = 6,s = 1
CNN模块 卷积层4 n = 64,k = 6,s = 1
FNN模块 隐藏层1 U = 100
FNN模块 dropout层 r = 0.2
FNN模块 隐藏层2 U = 20
FNN模块 输出层 U = 1

新窗口打开| 下载CSV


除了网络超参数外,不同时间窗尺寸 $T$的选择直接影响RUL预测的准确性. 为了合理确定时间窗尺寸,考虑如下5个尺寸:30、40、50、60、70. 根据这5个尺寸,对标准化后的输入特征集进行时间窗处理,得到相应的训练集和测试集. 分别对网络模型进行训练和测试,实验结果如图7所示.

图 7

图 7   不同时间窗尺寸下的RMSE和MAE

Fig.7   RMSE and MAE under different time window sizes


图7可以看出,刚开始随着时间窗尺寸的增大,评价指标大致呈下降趋势,这是由于更大尺寸的时间窗能够捕获更多的退化信息,有利于预测性能的提高. 随着时间窗尺寸的继续提高, $T = 60$$T = 70$时的评价指标比 $T = 50$时高,主要原因是时间窗过大,使得信息量太大,造成了过拟合现象,导致了预测性能的下降. 在横向对比后发现,在参与试验的所有时间窗尺寸中, $T = 50$时的2个评价指标都处于最佳,因此后续的实验都将基于 $T = 50$开展. 本文的实验环境如下:Tensorflow2.0,keras2.3.1,python3.6,学习率设置为0.000 1,迭代次数为80.

2.4. 消融实验

通过消融实验,验证多尺度特征融合与注意力机制对提高模型预测性能的有效性. 参与实验对比的子模型有单尺度特征、单尺度加注意力机制、多尺度特征融合、多尺度融合加注意力机制,实验结果如表3图8所示.

表 3   消融实验的评价指标

Tab.3  Evaluation metrics in ablation experiment

评价指标 RMSE MAE
尺度1 0.034 0 0.029 5
尺度1+注意力 0.031 7 0.027 3
尺度2 0.032 2 0.028 5
尺度2+注意力 0.030 3 0.026 4
尺度4 0.027 4 0.023 4
尺度4+注意力 0.026 8 0.021 9
多尺度 0.024 4 0.019 9
多尺度+注意力 0.021 2 0.016 7

新窗口打开| 下载CSV


图 8

图 8   消融实验的评价指标对比

Fig.8   Comparison of evaluation metrics for ablation experiments


图8可以看出,基于多尺度特征融合模型的预测效果优于单尺度特征模型,说明多尺度融合特征蕴含了更丰富的退化信息,能够有效地提高模型的预测性能. 无论是在单尺度特征实验还是在多尺度特征融合实验中,引入注意力机制都有助于提高模型的预测性能,验证了注意力机制的有效性.

图8各单尺度预测模型中,尺度4的预测效果优于尺度2和尺度1. 探讨当尺度进一步划分时,模型是否会具有更好的预测性能. 如图9所示为几个单尺度模型的RMSE指标. 可知,随着尺度的增大,输入特征集内的局部特征更多,蕴含的退化信息更丰富,模型的预测性能逐渐得到改善. 尺度8的预测性能提升不大,这是因为尺度8的特征虽然更多,但存在信息冗余的现象,预测性能将近饱和. 尺度16的预测性能开始变差,这主要是由于模型对训练集产生了过拟合,不利于测试集的RUL预测.

图 9

图 9   不同单尺度模型的预测效果

Fig.9   Prediction effect of different single-scale models


表4给出不同多尺度组合的预测效果. 表中,训练时间ttr为网络模型训练一个迭代所需要的时间, tte为测试时间. 实验结果表明,当多尺度模型中添加更多的尺度时,输入特征集中蕴含的退化信息存在冗余现象,预测性能改善不明显. 更多尺度的组合带来的参数量更大,所耗费的训练和测试时间更长,不值得继续采用更多尺度组合的模型进行预测.

表 4   不同多尺度组合的预测效果

Tab.4  Prediction effect of various multi-scale combinations

多尺度组合 RMSE MAE ttr/s tte/s
1-2-4 0.021 2 0.016 7 4.64 2.73
1-2-4-8 0.022 6 0.019 3 7.15 3.99
1-2-4-8-16 0.021 1 0.017 4 11.20 5.20

新窗口打开| 下载CSV


2.5. 对比实验

为了验证本文方法的优势,将本文方法的预测结果与深度神经网络(deep neural networks,DNN)[24]、卷积神经网络(convolutional neural network, CNN)[25]、多尺度卷积核神经网络(multi-scale convolutional neural network, MSCNN)[26]、双向长短期记忆网络(bi-directional long-short term memory, BiLSTM)[27]及带有挤压激励操作的并联CNN-LSTM网络[28]进行对比,实验结果如表5图10所示.

表 5   各方法的评价指标

Tab.5  Evaluation metrics of various methods

网络 RMSE MAE ttr/s tte/s
DNN 0.065 6 0.057 7 1.32 0.91
CNN 0.030 7 0.026 0 5.05 2.47
MSCNN 0.023 1 0.018 6 52.00 8.69
BiLSTM 0.058 4 0.045 1 4.49 11.45
CNN-LSTM 0.056 0 0.046 2 51.00 44.48
本文方法 0.021 2 0.016 7 4.64 2.73

新窗口打开| 下载CSV


图 10

图 10   各方法的预测结果对比

Fig.10   Comparison of prediction results of various methods


通过比较发现,本文方法在与其他方法的评价指标对比中取得了最佳结果,RUL预测曲线在退化阶段的拟合效果表现优异,具有较高的预测精度. 本文方法所耗费的训练时间和测试时间较短,在对RUL预测实时性要求较高的情形中具有实际的应用价值. MSCNN网络和本文方法都采用多尺度特征的策略,预测效果比单一尺度的CNN网络更好,说明在进行RUL预测时采用多尺度策略的成功性. MSCNN网络及CNN-LSTM网络中的参数规模较大,在训练和测试时的耗时太长,不利于实时预测,因此这2种方法不参与后续泛化实验的对比.

2.6. 泛化实验

在实际的生产活动中,轴承的工况通常不是一成不变的,有必要验证当训练集和测试集所处的转速、载荷不同时本文方法的效果. 为了提高模型的泛化能力,将工况1中的1-5、1-6、1-7轴承加入训练集,将2-3、3-1轴承作为测试集,实验结果如表6图11所示. 表中,最后1行为由原训练集训练得到的本文模型在测试轴承上的预测效果.

表 6   不同工况轴承的预测性能

Tab.6  Prediction performance of bearings under different operating conditions

网络 轴承2-3 轴承3-1
RMSE MAE RMSE MAE
DNN 0.360 7 0.330 0 0.348 9 0.322 6
CNN 0.118 4 0.103 8 0.341 7 0.334 7
BiLSTM 0.165 8 0.135 9 0.229 4 0.210 1
本文方法 0.044 1 0.034 6 0.075 8 0.061 8
原训练集 0.448 6 0.426 8 0.438 9 0.420 9

新窗口打开| 下载CSV


图 11

图 11   不同工况下的轴承RUL预测曲线

Fig.11   RUL prediction curve of bearing under different operating conditions


表6图11可以看出,使用工况1原训练集训练得到的模型不能很好地适应其他工况轴承的退化趋势,减弱了轴承的RUL预测效果. 在训练集的容量扩大之后,模型的泛化性能有了显著的提高,对工况2和工况3的2-3、3-1轴承有较好的RUL预测精度,在与其余方法的对比中保持性能优势. 这说明当转速、载荷这些工况变化时,轴承退化趋势有所差异,本文方法的预测效果受到一定的影响. 在增大训练集容量后,可以有效地克服这种影响,提高模型的泛化能力,保障模型在轴承的工况变化时具有一定的RUL预测能力.

为了进一步验证所提方法的稳定性,在西安交通大学的XJTU-SY轴承数据集上采用本文方法进行RUL预测. 该数据集包含3个工况下15个轴承的全寿命振动加速度数据[29],为了与对比方法的输入维度相匹配且简化实验过程,在振动信号中等间隔地选取2 560个数据进行实验. 设训练集为轴承1-2、2-1、2-4,测试集为轴承1-1、2-2、3-2,考虑到部分轴承采样点总数只有几十个,将时间窗尺寸改为5,模型的其余网络超参数保持不变,实验结果如图12表7所示.

表 7   不同方法在XJTU-SY轴承数据集上的预测效果

Tab.7  Prediction effect of different methods in XJTU-SY bearing data set

网络 轴承1-1 轴承2-2 轴承3-2
RMSE MAE RMSE MAE RMSE MAE
DNN 0.205 2 0.176 9 0.249 1 0.206 1 0.303 2 0.246 7
CNN 0.153 4 0.125 3 0.113 4 0.088 7 0.228 7 0.203 9
BiLSTM 0.144 8 0.123 5 0.102 6 0.088 7 0.207 9 0.164 9
本文方法 0.098 6 0.083 6 0.054 8 0.045 3 0.104 4 0.077 6

新窗口打开| 下载CSV


图 12

图 12   测试集轴承的RUL预测曲线(XJTU-SY)

Fig.12   RUL prediction curve of test-set bearings (XJTU-SY)


实验结果表明,本文方法在XTJU-SY轴承数据集上具有一定的预测效果,较其他对比方法的预测性能更佳,验证了本文方法的鲁棒性.

2.7. 不确定性度量

在FNN寿命预测模块中引入dropout机制,该机制在每次训练时随机关闭一些网络节点,只有部分节点起到传递信息的作用. 这种随机策略等价实现了基于贝叶斯网络的模型随机权重系数变分推理过程[30],可以对RUL预测结果的不确定性进行度量. 如图13所示,对FEMTO-st轴承1-3的RUL预测值进行逆归一化处理后,通过蒙特卡洛仿真技术得到相应的区间估计和概率密度函数[31],其中蒙特卡洛仿真的采样次数设置为200. 图中,p为概率密度.

图 13

图 13   轴承1-3的RUL预测不确定性度量(FEMTO-st)

Fig.13   RUL prediction uncertainty measurement of bearing 1-3 (FEMTO-st)


图13可以看出,轴承的RUL预测结果在后半段退化阶段较稳定,但在前期正常运行的阶段,RUL预测结果的不确定性较大. 这是因为在正常阶段,网络难以捕捉到轴承的退化特征,预测结果波动较大. 利用蒙特卡洛方法得到轴承RUL预测结果的95%置信区间,有助于将RUL预测信息应用于维修决策优化时量化决策风险.

3. 结 论

(1)对轴承原始振动信号进行多尺度的特征提取,将多尺度特征输入到CNN网络中进行深层学习和融合. 得到的融合特征蕴含了更丰富的轴承退化信息,兼顾了采样点数据的局部特征和全局特征,能够有效地提高模型的预测精度.

(2)引入注意力机制,为输入特征集中的时域特征和频域特征自适应地分配权重,强化更重要的特征,抑制相对不重要的特征,有利于提高模型的预测性能.

(3)与其他网络的对比实验结果表明,本文方法的预测性能更优越,预测精度更高,训练和测试时所耗费的时间较短,具有实际应用价值. 在不同工况和不同数据集上的泛化实验表明,本文方法具有较好的稳定性与鲁棒性. 采用蒙特卡洛仿真技术,对RUL预测结果的不确定性进行量化,有助于在将RUL预测信息应用于维修决策优化时量化决策风险.

参考文献

乔美英, 汤夏夏, 闫书豪, 等

基于改进稀疏滤波与深度网络融合的轴承故障诊断

[J]. 浙江大学学报: 工学版, 2020, 54 (12): 2301- 2309

[本文引用: 1]

QIAO Mei-ying, TANG Xia-xia, YAN Shu-hao, et al

Bearing fault diagnosis based on improved sparse filtering and deep network fusion

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (12): 2301- 2309

[本文引用: 1]

程卫东, 赵德尊

用于滚动轴承转频估计的 EMD 软阈值降噪算法

[J]. 浙江大学学报: 工学版, 2016, 50 (3): 428- 435

[本文引用: 1]

CHENG Wei-dong, ZHAO De-zun

EMD soft-thresholding denoising algorithm for rolling element bearing rotational frequency estimation

[J]. Journal of Zhejiang University: Engineering Science, 2016, 50 (3): 428- 435

[本文引用: 1]

PECHT M. Prognostics and health management of electronics [M]. Hoboken: Wiley, 2008.

[本文引用: 1]

李天梅, 司小胜, 刘翔, 等. 大数据下数模联动的随机退化设备剩余寿命预测技术[EB/OL]. [2021-06-30]. https://doi.org/10.16383/j.aas.c201068.

[本文引用: 1]

LI Tian-mei, SI Xiao-sheng, LIU Xiang, et al. Data-model interactive remaining useful life prediction technologies for stochastic degrading devices with big data [EB/OL]. [2021-06-30]. https://doi.org/10. 16383/j.aas.c201068.

[本文引用: 1]

LU C J, MEEKER W O

Using degradation measures to estimate a time-to-failure distribution

[J]. Technometrics, 1993, 35 (2): 161- 174

DOI:10.1080/00401706.1993.10485038      [本文引用: 1]

LIAO G, YIN H, CHEN M, et al

Remaining useful life prediction for multi-phase deteriorating process based on Wiener process

[J]. Reliability Engineering and System Safety, 2021, 207: 107361

DOI:10.1016/j.ress.2020.107361      [本文引用: 1]

SI X S, LI T M, ZANG Q, et al

Prognostics for linear stochastic degrading systems with survival measurements

[J]. IEEE Transactions on Industrial Electronics, 2020, 67 (4): 3202- 3215

DOI:10.1109/TIE.2019.2908617     

王泽洲, 陈云翔, 蔡忠义, 等

基于复合非齐次泊松过程的不完美维修设备剩余寿命预测

[J]. 机械工程学报, 2020, 56 (22): 14- 23

DOI:10.3901/JME.2020.22.014     

WANG Ze-zhou, CHEN Yun-xiang, CAI Zhong-yi, et al

Prediction of remaining life of imperfect maintenance equipment based on compound inhomogeneous Poisson process

[J]. Journal of Mechanical Engineering, 2020, 56 (22): 14- 23

DOI:10.3901/JME.2020.22.014     

KUNDU P, DARPE A K, KULKARNI M S

Weibull accelerated failure time regression model for remaining useful life prediction of bearing working under multiple operating conditions

[J]. Mechanical Systems and Signal Processing, 2019, 143: 106302

[本文引用: 1]

裴洪, 胡昌华, 司小胜, 等

基于机器学习的设备剩余寿命预测方法综述

[J]. 机械工程学报, 2019, 55 (8): 1- 13

DOI:10.3901/JME.2019.08.001      [本文引用: 1]

PEI Hong, HU Chang-hua, SI Xiao-sheng, et al

Overview of equipment remaining life prediction methods based on machine learning

[J]. Journal of Mechanical Engineering, 2019, 55 (8): 1- 13

DOI:10.3901/JME.2019.08.001      [本文引用: 1]

唐旭, 徐卫晓, 谭继文, 等. 基于LSTM的滚动轴承剩余使用寿命预测 [J]. 机械设计, 2019, 36(增1): 117-119.

[本文引用: 1]

TANG Xu, XU Wei-xiao, TAN Ji-wen, et al. Prediction of remaining service life of rolling bearing based on LSTM [J]. Journal of Machine Design, 2019, 36(supple. 1): 117-119.

[本文引用: 1]

王玉静, 李少鹏, 康守强, 等

结合CNN和LSTM的滚动轴承剩余使用寿命预测方法

[J]. 振动. 测试与诊断, 2021, 41 (3): 439- 446

[本文引用: 1]

WANG Yu-jing, LI Shao-peng, KANG Shou-qiang, et al

Combining CNN and LSTM to predict the remaining service life of rolling bearings

[J]. Journal of Vibration, Measurement and Diagnosis, 2021, 41 (3): 439- 446

[本文引用: 1]

张钢, 田福庆, 佘博, 等

一种基于特定频段信息熵和RBM的健康因子构建方法

[J]. 振动与冲击, 2020, 39 (6): 147- 153

[本文引用: 1]

ZHANG Gang, TIAN Fu-qing, SHE Bo, et al

A health factor construction method based on information entropy and RBM in specific frequency bands

[J]. Journal of Vibration and Shock, 2020, 39 (6): 147- 153

[本文引用: 1]

CHENG Y, PENG G, ZHU Z, et al

A novel deep learning method based on attention mechanism for bearing remaining useful life prediction

[J]. Applied Soft Computing, 2020, 86: 105919

DOI:10.1016/j.asoc.2019.105919      [本文引用: 1]

LI X, DING Q, SUN J Q

Remaining useful life estimation in prognostics using deep convolution neural networks

[J]. Reliability Engineering and System Safety, 2018, 172: 1- 11

DOI:10.1016/j.ress.2017.11.021      [本文引用: 1]

LUONG M T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation [EB/OL]. [2021-06-30]. https://arxiv.org/abs/1508.04025.

[本文引用: 1]

郭宝震, 左万利, 王英

采用词向量注意力机制的双路卷积神经网络句子分类模型

[J]. 浙江大学学报: 工学版, 2018, 52 (9): 1729- 1737

[本文引用: 1]

GUO Bao-zhen, ZUO Wan-li, WANG Ying

Two-way convolutional neural network sentence classification model using word vector attention mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (9): 1729- 1737

[本文引用: 1]

BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. End-to-end attention-based large vocabulary speech recognition [C]// International Conference on Acoustics, Speech and Signal Processing. Shanghai: IEEE, 2016: 4945-4949.

[本文引用: 1]

雍子叶, 郭继昌, 李重仪

融入注意力机制的弱监督水下图像增强算法

[J]. 浙江大学学报: 工学版, 2021, 55 (3): 555- 562

[本文引用: 1]

YONG Zi-ye, GUO Ji-chang, LI Chong-yi

Weakly supervised underwater image enhancement algorithm incorporating attention mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (3): 555- 562

[本文引用: 1]

BA J, MNIH V, KAVUKCUOGLU K. Multiple object recognition with visual attention [EB/OL]. [2021-06-30]. https://arxiv.org/abs/1412.7755.

[本文引用: 1]

SONG Y, GAO S, LI Y, et al

Distributed Attention-based temporal convolutional network for remaining useful life prediction

[J]. IEEE Internet of Things Journal, 2020, 8 (12): 9594- 9602

[本文引用: 1]

NECTOUX P, GOURIVEAU R, MEDJAHER K, et al. PRONOSTIA: an experimental platform for bearings accelerated degradation tests [C]// IEEE International Conference on Prognostics and Health Management. Piscataway: IEEE, 2012: 1-8.

[本文引用: 1]

SOUALHI A, MEDJAHER K, ZERHOUNI N

Bearing health monitoring based on Hilbert–Huang transform, support vector machine, and regression

[J]. IEEE Transactions on Instrumentation and Measurement, 2014, 64 (1): 52- 62

[本文引用: 1]

REN L, CUI J, SUN Y, et al

Multi-bearing remaining useful life collaborative prediction: a deep learning approach

[J]. Journal of Manufacturing Systems, 2017, 43: 248- 256

DOI:10.1016/j.jmsy.2017.02.013      [本文引用: 1]

张继冬, 邹益胜, 邓佳林, 等

基于全卷积层神经网络的轴承剩余寿命预测

[J]. 中国机械工程, 2019, 30 (18): 2231- 2235

[本文引用: 1]

ZHANG Ji-dong, ZOU Yi-sheng, DENG Jia-lin, et al

Bearing remaining life prediction based on fully convolutional neural network

[J]. China Mechanical Engineering, 2019, 30 (18): 2231- 2235

[本文引用: 1]

孙鑫, 孙维堂

基于多尺度卷积神经网络的轴承剩余寿命预测

[J]. 组合机床与自动化加工技术, 2020, (10): 168- 171

[本文引用: 1]

SUN Xin, SUN Wei-tang

Prediction of bearing remaining life based on multi-scale convolutional neural network

[J]. Modular Machine Tool and Automatic Manufacturing Technique, 2020, (10): 168- 171

[本文引用: 1]

韩林洁, 石春鹏, 张建超

基于BiLSTM的滚动轴承剩余使用寿命预测

[J]. 制造业自动化, 2020, 42 (5): 47- 50

DOI:10.3969/j.issn.1009-0134.2020.05.011      [本文引用: 1]

HAN Lin-jie, SHI Chun-peng, ZHANG Jian-chao

Prediction of remaining service life of rolling bearing based on BiLSTM

[J]. Manufacturing Automation, 2020, 42 (5): 47- 50

DOI:10.3969/j.issn.1009-0134.2020.05.011      [本文引用: 1]

曹正志, 叶春明

基于并联CNN-SE-Bi-LSTM的轴承剩余使用寿命预测

[J]. 计算机应用研究, 2021, 38 (7): 2103- 2107

[本文引用: 1]

CAO Zheng-zhi, YE Chun-ming

Bearing remaining service life prediction based on parallel CNN-SE-Bi-LSTM

[J]. Application Research of Computers, 2021, 38 (7): 2103- 2107

[本文引用: 1]

WANG Biao, LEI Ya-guo, LI Nai-peng, et al

A hybrid prognostics approach for estimating remaining useful life of rolling element bearings

[J]. IEEE Transactions on Reliability, 2018, 69 (1): 401- 412

[本文引用: 1]

GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning [C]// International Conference on Machine Learning. New York: [s. n.], 2016: 1050-1059.

[本文引用: 1]

牟含笑, 郑建飞, 胡昌华, 等. 基于CDBN与BiLSTM的多元退化设备剩余寿命预测[EB/OL]. [2021-08-26]. http://kns.cnki.net/kcms/detail/11.1929.v. 20210510.1354.004.html.

[本文引用: 1]

MOU Han-xiao, ZHENG Jian-fei, HU Chang-hua, et al. Residual life prediction of multivariate degraded equipment based on CDBN and BiLSTM [EB/OL]. [2021-08-26]. http://kns.cnki.net/kcms/detail/11.1929.v.20210510.1354.004.html.

[本文引用: 1]

/