浙江大学学报(工学版), 2024, 58(7): 1488-1497 doi: 10.3785/j.issn.1008-973X.2024.07.018

机械工程、能源工程

对失效传感器具备鲁棒性的故障诊断方法

马现伟,, 范朝辉, 聂为之,, 李东, 朱逸群

1. 天津大学 未来技术学院,天津 300072

2. 军事科学院 战略评估咨询中心,北京 100091

3. 天津大学 电气自动化与信息工程学院,天津 300072

4. 天津大学 智能与计算学部,天津 300050

5. 国网天津市电力公司营销服务中心 计量中心,天津 300160

Robust fault diagnosis method for failure sensors

MA Xianwei,, FAN Chaohui, NIE Weizhi,, LI Dong, ZHU Yiqun

1. School of Future Technology, Tianjin University, Tianjin 300072, China

2. Strategic Assessments and Consultation Institute, Academy of Military Science, Beijing 100091, China

3. School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China

4. College of Intelligence and Computing, Tianjin University, Tianjin 300050, China

5. Metrology Center, State Grid Tianjin Marketing Service Center, Tianjin 300160, China

通讯作者: 聂为之,男,副教授,orcid.org/0000-0002-0578-8138. E-mail:weizhinie@tju.edu.cn

收稿日期: 2023-06-12  

基金资助: 国家重点研发计划资助项目(2020YFB1711700).

Received: 2023-06-12  

Fund supported: 国家重点研发计划资助项目(2020YFB1711700).

作者简介 About authors

马现伟(1999—),男,硕士生,从事故障诊断研究.orcid.org/0009-0005-4234-1641.E-mail:hsienwei_ma@tju.edu.cn , E-mail:hsienwei_ma@tju.edu.cn

摘要

针对传感器失效对故障诊断效果的影响,提出带有退化特征惩罚机制的故障诊断方法(FDCFP). 利用卷积神经网络提取局部特征,使用Transformer编码器进一步融合全局信息,缓解局部传感器失效对特征学习的影响. 引入自注意力掩码对传感器失效引入的特征伪关联性进行惩罚,使编码器更关注未受失效影响的传感器数据. 掩码在自注意力层参与权重计算,以较低的复杂度代价提高含有失效数据模型的鲁棒性. 在CWRU、PU、SEU和XJTU-SY数据集上进行FDCFP的性能验证,当数据失效比例为0.7时,FDCFP在CWRU、PU和XJTU-SY数据集上的故障诊断准确率相较于现有方法分别提升了5.9%、3.1%和3.7%.

关键词: 传感器失效 ; 故障诊断 ; 深度学习 ; 注意力机制 ; Transformer

Abstract

A fault diagnosis method with corrupted feature penalties (FDCFP) was proposed to address the impact of sensor failure on fault diagnosis. The convolutional neural network was used to extract local features, and the Transformer encoder was used to further fuse global information, alleviating the influence of local sensor failures on feature learning. The self-attention masks were employed to penalize the pseudo-correlation between features introduced by the sensor failure, making the encoder attentive to the parts of the sensor data unaffected by failures. The masks were weighted at the self-attention layer to improve the model’s robustness to sensor failures in the presence of faulty data at a low complexity cost. The performance of the proposed method was verified in datasets such as CWRU, PU, SEU, and XJTU-SY. Compared to existing methods, the FDCFP achieved accuracy improvements of 5.9%, 3.1%, and 3.7% respectively on the CWRU, PU, and XJTU-SY datasets at a 0.7 data failure ratio.

Keywords: sensor failure ; fault diagnosis ; deep learning ; attention mechanism ; Transformer

PDF (1181KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

马现伟, 范朝辉, 聂为之, 李东, 朱逸群. 对失效传感器具备鲁棒性的故障诊断方法. 浙江大学学报(工学版)[J], 2024, 58(7): 1488-1497 doi:10.3785/j.issn.1008-973X.2024.07.018

MA Xianwei, FAN Chaohui, NIE Weizhi, LI Dong, ZHU Yiqun. Robust fault diagnosis method for failure sensors. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(7): 1488-1497 doi:10.3785/j.issn.1008-973X.2024.07.018

随着传感器技术、新一代通信技术与人工智能的发展,生产制造业的各个环节逐步摆脱对专家经验的高度依赖,转向由数据驱动的发展模式[1]. 基于传感器数据的故障检测与诊断(detection and diagnosis of fault, FDD)在监测设备运行状态和保障系统稳定运行方面起到重要作用,是智能化生产的重点研究方向[2]. 作为数据驱动方法的一种,深度学习方法严重依赖设备的健康监测数据. 在实际生产中,由于传感器可靠性随时间推移下降,传感器失效的情况普遍存在,导致大量无效数据被采集. 传感器失效带来的观测样本的失真,破坏了数据原本的分布,影响了深度学习模型所提取特征的质量,为故障诊断带来了负面影响. 一种处理失效数据的方式是直接剔除[3]或利用数据冗余性对失效部分进行预测[4],此类方法需要失效位置的指示信息,但从海量数据中精确标注出失效位置较为困难. 另一种方式是采取柔性策略提高模型的泛化能力和容错特性[5],深度模型〔如卷积神经网络(convolutional neural network,CNN)〕提取的表征包含故障分类的关键信息,因此具有容错特性,但受深度模型感受野的限制,这种表示学习能力往往难以融合全局信息[6]. 在传感器大范围失效的情况下,局部特征受失效数据干扰的可能性更大,不利于故障的诊断.

本研究提出带有退化特征惩罚机制的故障诊断方法(fault diagnosis method with corrupted feature penalties, FDCFP),使用自注意力机制来融合全局信息,提升FDCFP模型的失效传感器容错能力. 自注意力融合基于特征间相关性的加权求和机制,使输出具有全局性,能够平滑局部失效的影响. 自然语言处理领域的BERT模型[7]在预训练中人为制造缺失,以此来提高模型的学习能力和泛化性能. 自注意力的核心在于特征相关性的表示,但传感器失效引入了不确定的特征关联关系,影响了特征的表示能力. 具体来说,大面积的传感器失效导致特征中的部分信息被损坏(出现特征退化),随着失效比例的增加,退化特征的相关性增大,退化特征与正常特征的相关性相应减小,在注意力层表现为退化特征的注意力权重增大,正常特征的权重减小. 在Transformer模型内,前次迭代权重较高的特征在下次迭代过程中倾向于被分配更大的注意力权重[8],这强化了退化特征的负面影响,加重了Transformer结构存在的过拟合问题[9],使得编码器更关注数据中的失效部分. 在注意力权重的计算过程中,本研究使用掩码操作来随机摒弃一部分注意力权重,对这种失效造成的特征间的伪关联性进行惩罚,缓解学习过程中退化特征相似性增大的问题,使模型更关注全局的优化目标.

1. 相关工作

1.1. 传统的数据驱动故障诊断方法

早期的由数据驱动的故障诊断方法(如短时傅里叶变换、小波变换的时频域分析方法[10])实现复杂度低,在强噪声干扰、大面积故障和变速变载的情况下效果不理想[2]. 多元统计分析方法基于统计建模,且建模和诊断过程分开进行,有着较强的实时性. 实际数据不一定完全满足假定的统计特性,诊断结果可能会有所偏差[11]. 基于机器学习的故障诊断模型,学习从数据空间到标签空间的映射,表达式为

$ {\tilde {\boldsymbol{y}}_i} = {f_\theta }\left( {{{\boldsymbol{d}}_i}} \right). $

式中:${{\boldsymbol{d}}_i}$为第i个数据样本,${\tilde {\boldsymbol{y}}_i}$为样本的预测标签,$\theta $为模型参数. 不同的机器学习算法依托于不同的假设来学习这个映射. 如K最近邻算法(K nearest neighbor, KNN)依据样本在某种距离度量下的邻近点的类别进行诊断,在测试过程中KNN须比对所有的训练数据,对内存的要求较高[12]. 支持向量机(support vector machine, SVM)能够在高维空间中学习不同类别间的最大间隔边界,被广泛用于故障分类[13]. 随机森林(random forest, RF)基于集成学习的思想,选择决策树的多数分类结果作为最终结果. 虽然RF的泛化能力很强,但决策树数量的增多会增加算法的复杂度[14].

1.2. 基于深度学习的故障诊断方法

基于深度学习的故障诊断方法大体分为特征提取和故障分类2个阶段[15]. 在特征提取阶段,通过堆叠多个隐藏层来提高模型的感知能力. 深度学习第k层的模型结构表达式为

$ {\boldsymbol{z}}_i^k = {f_\theta }\left( {{\boldsymbol{z}}_i^{k - 1}} \right). $

式中: ${f_\theta }$为非线性的映射函数;${\boldsymbol{z}}_i^k$为第k层的特征图,当k =1时,${\boldsymbol{z}}_i^k$代表输入模型的原始传感器数据. 在故障分类阶段,由非线性函数将特征图映射到标签空间,获得预测的故障类别,表达式为

$ {\tilde {\boldsymbol{y}}_i} = \varPhi \left( {{\boldsymbol{z}}_i^l} \right). $

基于全连接的自动编码机(autoencoder, AE)[15]及其改进,如堆叠自动编码机(stacked autoencoder, SAE)[16]、去噪自动编码机(denoise autoencoder, DAE)[17],有着出色的特征提取能力,陆续被应用在故障诊断领域中. CNN能够感知空间局部关联,计算量比AE更少,许多方法基于CNN提取故障特征[6,18-20],Wen等[18]将一维信号截断拼接为二维,使用LeNet-5网络进行故障特征提取;Wang等[19]将时频域方法与CNN结合,利用CNN对时频谱图进行特征提取. 这2种方法未考虑信号周期性带来的时频谱图与真实图片的差异,CNN的局部感知特性使模型只能利用全部关联关系的一部分[6]. Liu等[6]提出错位时间序列卷积神经网络(dislocated time series convolutional neural network, DTS-CNN),以距离倍增的方式截取不同时间窗口的信号,并将截取信号拼接为矩阵作为CNN隐藏层的输入,提高了CNN对数据长距离关联的感知能力. 长短时记忆网络(long short term memory, LSTM)[21]和门控循环单元(gate recurrent unit, GRU)[22-23]缓解了循环神经网络(recurrent neural network, RNN)结构固有的长距离依赖关联发掘能力不足的问题,在时序序列的特征提取中被广泛应用. Chen等[20]则将CNN和LSTM相结合,利用2个不同核大小的CNN,提取不同尺度下的故障特征,并将融合后的特征输入LSTM,提高了故障诊断的精度. 注意力机制为长距离关联的利用带来了更多的可能性[24]. 自注意力是注意力机制[24]的分支,基于自注意力的Transformer架构[25],在自然语言处理和计算机视觉领域被广泛应用[26]. Pei等[27]提出将Transformer应用到故障诊断任务的迁移学习中;王誉翔等[28]提出基于改进Transformer的复合故障诊断方法,利用单一故障标签和特征层间的交叉注意力实现复合故障的解耦.

1.3. 失效传感器造成的数据失真

传感器失效的状况(如数据缺失、数值漂移)在实际生产中普遍存在. 对失效数据的故障诊断任务进行建模,表达式为

$ \tilde {\boldsymbol{y}} = {F_\theta }\left( {{\boldsymbol{H}} \odot {\boldsymbol{D}}+{\boldsymbol{N}}} \right). $

式中:$ {\boldsymbol{D}} = [{{\boldsymbol{d}}_1},{{\boldsymbol{d}}_2}, \cdots ,{{\boldsymbol{d}}_n}] $为真实传感器数据,${\boldsymbol{H}}$为指示传感器失效位置的矩阵,N为观测噪声,$\tilde {\boldsymbol{y}}$为各观测样本的预测标签. 传感器失效为数据分析引入干扰因素,使得数据驱动的模型对数据真实分布的拟合存在偏差. 传统失效数据处理方法(如直接删除法)极大降低了数据利用率,插值法基于局部相关的先验假设,不能充分利用数据间的丰富关联[11]. Che等[29]提出GRU-D模型,利用缺失的位置掩码和缺失间隔预测缺失模式,构建了端到端的缺失值填充模型,并将填充结果运用到故障诊断中. 由于GRU-D要求提供失效传感器的位置信息,导致数据分析和处理的工作量大大增加. 传感器失效造成的数据失真可类比目标检测中的遮挡问题,Song等[30]提出对遮挡位置进行学习,并将得到的指示遮挡位置的特征丢弃掩码(feature discarding mask, FDM)保存在字典中,以便在后续检测任务中检索并摒弃遮挡区域. 但这种方法是静态的,不能处理字典中不存在的失效模式. 本研究将利用自注意力机制,在进行深层特征融合转换时直接对深层次特征进行随机摒弃处理. 自注意力层避开失效数据位置信息,直接利用全局信息预测退化特征.

2. 基于自注意力的故障诊断模型

2.1. 模型架构

FDCFP的模型结构如图1所示,其中虚线框内为低层次特征提取模块,点划线框内为融合全局信息的Transformer编码器. 1)使用3层的一维CNN提取低层次特征,这些特征包含局部信息;2)低层次特征被输入Transformer编码器,进一步融合全局信息;通过由2层全连接层和Softmax层组成的分类器对特征进行分类,输出故障诊断结果.

图 1

图 1   带有退化特征惩罚机制的故障诊断方法的模型架构

Fig.1   Architecture of fault diagnosis method with corrupted feature penalties


自注意力层在对局部特征进行融合转换时,利用全局信息对退化特征进行重新预测. 由于退化特征间的伪关联性,2个退化严重的特征之间会有更高的注意力权重,这会造成模型利用退化后的特征进行特征重构,进而降低预测结果的可靠性. FDCFP采用掩码自注意力机制,掩码生成模块以一定的概率随机生成注意力掩码,使得对应位置的注意力权重被置为0,在特征融合时随机摒弃一部分特征,惩罚退化特征间的伪关联性,避免了Transformer过度关注传感器数据失效的部分. FDCFP模型以多分类交叉熵函数作为损失函数,优化目标式为

$ \underset{\theta }{\mathop{\arg \min }}\,-\sum\limits_{i=1}^{{{N}_{\text{C}}}}{{{y}_{i}}\ln {{{\hat{p}}}_{i}}}. $

式中:${N_{\text{C}}}$为类别的总数;${\hat p_i}$为样本为第i个类别的预测概率;${y_i}$为第$i$个类别标签,当样本属于第i个类别时,yi=1, 否则yi=0.

2.2. 特征提取模块

卷积是CNN特征提取能力的核心,从频域角度来看,每个卷积核作为特定的滤波器,从原始信号中筛选出利于故障诊断目标的频谱特征,在反向传播过程中,对各滤波器进行优化调整,以训练出能够获得数据最优表示的特征提取模块. 受限于卷积核大小,CNN提取的关联具有局部性,对更长距离依赖关系的提取要依靠更深层网络的堆叠,这不利于处理长周期的机械振动信号,将CNN与Transformer相结合是解决该问题可行方法[26]. FDCFP将一维CNN用于学习数据的低维特征表示,再由Transformer对故障特征进行进一步融合. 如表1所示,第1层CNN的卷积核大小设置为15,大卷积核有较大的感受野,能够以较低深度获取足够丰富的关联信息,确保不丢掉重要特征. 卷积层后跟随1个线性整流函数(rectified linear unit, ReLU)、批归一化层(batch normalization, BN)和最大池化层. 网络最后的池化层采用自适应最大池化层,以将输出特征保持在固定维度. 特征提取模块的最后通过全连接层与Transformer编码器相连接,最终输出特征图的大小为${\text{64}} \times {\text{8}}$.

表 1   特征提取模块的一维卷积神经网络参数

Tab.1  Parameters of one-dimensional convolutional neural network in feature extraction module

名称输出通道核大小步长
卷积层16151
ReLU/BN
最大池化层22
卷积层3231
ReLU/BN
最大池化层22
卷积层643
自适应最大池化层

新窗口打开| 下载CSV


2.3. 自注意力机制

注意力机制[24]的核心在于使用相关性度量函数计算注意力权重. 在进行注意力权重计算时,1)隐藏层状态分别作为查询(query)、键(key)和值(value);针对当前查询,量化所有键对当前查询的重要程度,作为注意力权重;2)计算下一个查询,直至得到描述所有查询和键之间关联的注意力权重矩阵;3)基于注意力权重矩阵对所有值进行加权求和,使模型动态聚焦输入的关键部分. 每个输入在作为查询的同时也要作为键和值,因此自注意力层首先对输入${\boldsymbol{X}}$施加不同的线性映射:

$ \left. \begin{array}{c}{\boldsymbol{Q}}={\boldsymbol{X}}{{\boldsymbol{W}}}^{Q};\;{{\boldsymbol{W}}}^{Q}\in {\bf{R}}^{d\times {d}_{k}},\;{\boldsymbol{Q}}\in {\bf{R}}^{n\times {d}_{k}}.\\ \begin{array}{c}{\boldsymbol{K}}={\boldsymbol{X}}{{\boldsymbol{W}}}^{K};\;{{\boldsymbol{W}}}^{K}\in {\bf{R}}^{d\times {d}_{k}},\;{\boldsymbol{K}}\in {\bf{R}}^{n\times {d}_{k}}.\\{\boldsymbol{V}}={\boldsymbol{X}}{{\boldsymbol{W}}}^{V};\;{{\boldsymbol{W}}}^{V}\in {\bf{R}}^{d\times {d}_{k}},\;{\boldsymbol{V}}\in {\bf{R}}^{n\times {d}_{k}}.\end{array}\end{array}\right\} $

式中:矩阵${\boldsymbol{X}} = $$ {[{{\boldsymbol{x}}_1},{{\boldsymbol{x}}_2}, \cdots ,{{\boldsymbol{x}}_n}]^{\text{T}}} \in {{{\bf{R}}}^{n \times d}} $为自注意力层的输入;n为输入特征的个数;d为每个输入特征的维度;${\boldsymbol{Q}}$${\boldsymbol{K}}$${\boldsymbol{V}}$均为映射结果;$ {{\boldsymbol{W}}^Q} $$ {{\boldsymbol{W}}^K} $$ {{\boldsymbol{W}}^V} $为线性映射的隐藏层参数;${d_k}$为线性映射后的特征维度,设置${d_k} = 16$. ${\boldsymbol{Q}}$${\boldsymbol{K}}$的关联程度使用缩放点积[25] (scaled dot-product)进行量化处理,并通过Softmax层进行归一化处理,得到注意力权重矩阵${\boldsymbol{A}}$,计算式为

$ {\boldsymbol{A}} = {\text{Softmax}}\left( {\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\mathrm{T}}}}}{{\sqrt {{d_k}} }}} \right). $

式中:矩阵${\boldsymbol{A}} \in {\left[ {0,1} \right]^{n \times n}}$表示2个特征为最关联特征的概率,对所有的${\boldsymbol{V}}$进行加权求和,获得融合全局信息的新特征${\boldsymbol{Z}}$,表达式为

$ {\boldsymbol{Z}} = {\boldsymbol{AV}}. $

对于受失效传感器影响的数据来说,${\boldsymbol{Q}}$${\boldsymbol{K}}$的相似性会随着失效比例的增加而增大,这意味着在加权求和时,受失效影响更大的特征将被分配更高的注意力权重,使模型更关注这些损坏的特征,为此采用基于掩码的自注意力模块惩罚数据失效带来的特征伪关联性. 掩码自注意力计算流程如图2所示,其中M为掩码矩阵.

图 2

图 2   掩码自注意力计算流程

Fig.2   Calculation flow of mask self-attention


2.4. 基于自注意力的全局特征融合

Transformer的编码器部分用于全局特征融合,主要结构包括多头自注意力层和前馈网络(feed-forward network, FFN)[25],它们都通过残差连接[31]. 在计算多头自注意力之前,FDCFP对CNN提取的低层特征进行层归一化,以稳定前向输入的分布. FFN由2层全连接层构成,是编码器拟合能力的核心. FFN层采用随机失活(dropout)避免过拟合,随机失活率设置为0.1. 多头自注意力用于捕获输出特征之间不同的关联,

$ \hat {\boldsymbol{Z}} = {\text{Concat}}\left( {{{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2}, \cdots ,{{\boldsymbol{Z}}_h}} \right) . $

式中:${{\boldsymbol{Z}}_i}$为第i个自注意力头的输出,$\hat {\boldsymbol{Z}}$为拼接后输出的融合特征,h为多头自注意力的头数. 自注意力直接对特征的两两关联进行单独计算,突破了传统深度网络只能提取短距离依赖的局限性. 这种全局感知能力,有利于模型挖掘并利用多种关联对失效部分进行预测,提高了模型对失效传感器的鲁棒性. 两两关联计算忽略了数据的位置信息,可以通过位置编码[25]来补偿. 由于模型缺失类似CNN和RNN的归纳偏置(如CNN的局部性和空间不变性,RNN的时间不变性),这些归纳偏置使模型的学习基于一定的先验性假设,避免了模型过度拟合的倾向,在一定程度上提高了模型的泛化性能. Transformer编码器的主要结构仍为全连接层,对数据特征的拟合完全依赖多头自注意力的引导,在传感器大范围失效的情况下,观测特征间的关联不代表真实数据间的关联,这为模型对数据特征的拟合提供了错误的导向,限制了模型性能的提升.

2.5. 退化特征惩罚机制

图3所示为某段信号计算自注意力后的权重分布热力图. ${A_{ij}}$为第i个和第j个特征之间的注意力权重. 可以看出,与无传感器失效的情况相比,传感器失效比例为0.7时的注意力权重峰值被整体削减,分布更为平均. 原因是高比例的失效突破了数据的冗余限度,再加上传感器失效位置的不确定性,使得CNN所提取的局部故障特征普遍退化,退化程度越高,退化特征间的关联性越强. 自注意力的计算基于两两特征的相似性,退化特征间的伪相似性经Softmax层归一化后,注意力权重分布不再陡峭,Transformer编码器倾向于关注输入的每个特征,并利用退化特征进行特征融合,影响了最终的诊断效果.

图 3

图 3   不同传感器失效比例下的注意力权重分布

Fig.3   Attention weight distribution under different sensor failure ratio


FDCFP在注意力计算时引入掩码矩阵M,调整了注意力的分布,其中${\boldsymbol{M}} \in {\left\{ {0, - \infty} \right\}^{n \times n}}$,待掩蔽位置被设置为负无穷,经Softmax映射后,相应位置的注意力权重被置为0. 因此,FDCFP在对特征进行加权求和时,不再融合被掩蔽掉的特征,掩码自注意力的计算式为

$ {\boldsymbol{Z}} = {\text{Softmax}}\left( {\frac{{{{\boldsymbol{QK}}^{\text{T}}}}}{{\sqrt {{d_k}} }}+{\boldsymbol{M}}} \right){\boldsymbol{V}}{\text{.}} $

由于退化特征在高比例传感器失效的数据中普遍存在,FDCFP的掩码通过伯努利采样以概率p = 0.1随机生成,抵消了特征损坏程度的不确定性,使得注意力权重的分布重新变得陡峭. 随机的掩蔽处理在一定程度上惩罚了退化特征之间较强的关联性,降低了模型使用退化特征构建新特征的倾向.

3. 实验结果

3.1. 数据集与实验设置

3.1.1. 实验数据集

基于如下4个数据集,验证FDCFP的故障诊断性能.

1)凯斯西储大学轴承数据集CWRU [32]提供了4种电机转速下不同滚动轴承故障信号. 本实验基于12 kHz驱动端的故障数据,根据故障位置、负载大小、故障尺寸,划分9种故障类别,加上正常样本,构成十分类任务,每个样本长度N=256.

2)帕德博恩大学轴承数据集PU [33]基于6203型号滚动轴承,包括人为损伤和加速寿命实验获取的真实损伤. 本实验将数据划分为18个类别,包括3类不同工况下的健康数据、6类人为故障数据和9类真实故障数据,每个样本长度N=1024.

3)东南大学齿轮箱数据集SEU [34]包括2种不同转速负载下的轴承数据和齿轮数据,分为4种不同类型的故障数据和1类正常数据,共20个类别,每个样本长度N=1024.

4)西安交通大学轴承数据集XJTU-SY[35]记录了加速寿命实验中3类工况下5种不同轴承的振动信号. 本实验截取轴承彻底损坏前一定时间内的数据用于故障诊断,共15个类别,每个样本长度N=1024.

将所有数据集分为训练集、验证集和测试集3个部分,划分比例为0.6∶0.2∶0.2. 为了提高模型泛化能力,对训练集样本进行如缩放、裁剪的数据增强操作.

3.1.2. 数据集缺失处理

为了验证FDCFP在含有失效传感器数据时的诊断效果,将所有数据集重构,使重构后的数据集包含一定比例的缺失数据. 对于一维信号而言,传感器失效发生与否没有参考特征,为完全随机缺失(missing completely at random, MCAR)[36]. 参照 Che 等[29]的方法,依概率${p_0}$随机舍弃信号中的部分数据. 以模拟传感器在实际生产中的失效情况,${p_0}$可指代缺失数据占所有数据的比例,具体实施如下. 1)设置随机数种子,依${p_0}$生成长度为N的向量$ {\boldsymbol{u}} $$ {\boldsymbol{u}} $中元素服从两点分布:

$ {\boldsymbol{u = }}{[{u_1},{u_2},\cdots,{u_N}]^{\text{T}}},{u_{{i}}} \sim b{{(1, 1 - }}{p_0}{\text{)}}. $

$ {u_{{i}}} = 0 $表示该时刻传感器失效,否则不失效. 2)将样本$ {\boldsymbol{x}} $与向量$ {\boldsymbol{u}} $对应位置元素相乘,得到含有一定比例缺失的信号样本$ \widetilde {\boldsymbol{x}} $.

在数据集CWRU中制造不同比例的传感器失效,信号分布如图4所示,其中i为时间刻度,${A_{\text{m}}}$为信号振动幅度.

图 4

图 4   CWRU数据集在不同传感器失效比例下的信号分布

Fig.4   Distribution of signal under different sensor failure ratio in CWRU dataset


数据缺失可能随机发生在信号的任意时刻. 在实际生产中,一维时序信号的失效模式包括在某一时刻的单点失效(如网络丢包)和持续一段时间的连续失效(如传输中断,接触不良),且2种缺失模式往往共同存在. 如图5所示,实验中采用的数据集缺失处理方法在模拟单点失效的同时,能够生成一定长度的连续失效. 图中,${l_{\text{m}}}$为连续缺失的长度,${N_{\text{m}}}$为对应长度的缺失在样本中存在的数量. 随着失效比例的提高,与单点失效相比,连续失效在信号中更加常见,能够更好地检验在传感器连续失效场景下模型对数据缺失的鲁棒性. 数据缺失的比例一般低于0.5[29,37],更高比例的缺失意味着更多的信息损失和更为复杂的缺失模式,对故障诊断模型的鲁棒性有着更高的要求. 因此,设置失效比例分别为0.1、0.3、0.5、0.7,验证模型在不同程度信息损失和不同缺失模式下的鲁棒性. 本实验设置固定的随机数种子确保实验的可重复性. 挑选验证集中准确率最高的3个模型,在测试集上进行测试,再基于不同的随机数种子模拟不同的失效数据分布,进行多次实验并统计结果,以克服随机因素对诊断结果的影响.

图 5

图 5   不同传感器失效比例下连续缺失长度分布直方图

Fig.5   Histogram of continuous missing length under different sensor failure ratio


3.2. 故障诊断结果

为了验证FDCFP的效果,选择SVM、RF、AE、SAE、DAE、CNN1d、BiLSTM、MCNN-LSTM等故障诊断方法作为对比,故障诊断的准确率Acc(均值$ \pm $标准差)如表2所示. 深度学习算法的特征提取能力更强,因此AE、CNN1d、BiLSTM优于SVM、RF这类传统机器学习算法,在较难的诊断任务中(如数据集PU和SEU)深度学习算法的优势更为明显. AE和SAE的差别不明显, 相比之下,DAE的表现较差,在数据集PU诊断结果中尤为明显. 自动编码机的核心结构是全连接层,相较于CNN,RNN而言,缺少归纳偏置(如局部性、空间不变性或时间不变性)来引导特征学习,更容易拟合与分类目标无关的信息. 因此,自动编码机虽然模型参数更多,却很难提取到最优的特征表示. DAE在学习过程中引入噪声,性能下降比AE和SAE更严重. 归纳偏置的存在,提高了CNN和BiLSTM的特征表示能力,因此这2种方法在所有数据集上都有良好表现. MCNN-LSTM是结合CNN和LSTM的复合方法,该方法能够综合挖掘不同尺度下的时空间关联,诊断精度比单独使用CNN和LSTM更高,但CNN和LSTM的局部结构也限制了MCNN-LSTM对长距离关联关系的利用. FDCFP在以CNN提取低层次局部特征的基础上,利用自注意力机制进一步融合全局信息,一定程度上克服了局部性归纳偏置带来的负影响,在参与比较的方法中取得了最高的诊断精度.

表 2   不同故障诊断方法在4个数据集上的故障诊断准确率

Tab.2  Fault diagnosis accuracy of different fault diagnosis methods in four datasets

方法Acc/%
CWRUPUSEUXJTU-SY
SVM90.43±0.7675.83±0.6764.61±0.8268.16±0.56
RF85.62±0.4560.11±0.6248.39±0.9867.36±0.44
AE92.75±0.1862.81±0.4988.39±0.3692.94±0.33
SAE95.13±0.1862.37±0.5288.31±0.4694.15±0.33
DAE94.15±0.3255.64±0.4387.82±0.5192.29±0.24
BiLSTM98.22±0.1690.39±0.1398.18±0.2798.53±0.18
CNN1d98.49±0.1291.89±0.1598.53±0.4899.23±0.32
MCNN-LSTM99.44±0.1492.55±0.3798.70±0.0899.61±0.12
FDCFP99.81±0.0296.17±0.1699.49±0.0599.93±0.05

新窗口打开| 下载CSV


3.3. 传感器失效对故障诊断的影响

模拟实际生产中未经缺失分析的、可能蕴含大量失效的数据,验证传感器失效对不同方法性能的影响,结果如图6所示. 图中,F1为F1分数. 可以看出,随着失效比例的增加,所有方法诊断精度均有下降. 传感器少量失效时,由于数据具有冗余性,大部分模型仍有着较好的诊断结果;在高失效比例下,传感器数据的信息损失已不可避免,模型性能的下降幅度增加,尤其是在数据集XJTU-SY上. 复合模型MCNN-LSTM利用不同尺度下的CNN,充分提取了数据中不同类型关联,在高失效的比例下的鲁棒性较为优异. FDCFP超越了CNN、LSTM的局部性假设,综合全局信息对失效成分进行预测,平滑了数据失效的影响,在3个数据集上取得了优于MCNN-LSTM的诊断结果. 在数据集SEU上,MCNN-LSTM略优于FDCFP,由于实验中的MCNN-LSTM使用更深的网络层数(3个子模块中包括6个卷积层和2个LSTM层)来提取特征,带来了更多的参数和内存占用,不利于故障诊断的轻量化应用. 在所有方法中,AE的诊断精度下降幅度最大. AE的全连接层缺乏归纳偏置的引导,随着缺失比例的增大,更容易受失效数据影响而学习数据中对失效成分的表示,因此对关键特征的挖掘能力更差. 虽然FDCFP同样基于以全连接层为基础的多层感知结构,但自注意力模块利用特征间的关联引导了故障特征的表示学习;同时掩码机制惩罚了退化特征间的不确定关联,降低了FDCFP拟合失效数据的倾向,取得了对失效传感器更为鲁棒的故障诊断结果.

图 6

图 6   4个数据集上传感器失效对不同故障诊断方法性能的影响

Fig.6   Effects of sensor failure on performance of different fault diagnosis methods in four datasets


3.4. 掩码自注意力效果评估

单独使用自注意力机制和采用掩码自注意力机制的方法在数据集PU和SEU上的故障诊断准确率对比如图7所示,其中CNN模型层数为5层,CNN+SA和FDCFP均为3层CNN加2层自注意力模块. 可以看出,相较于传统一维CNN,更长距离的关联提取使模型能够利用更多信息对失效部分进行预测,带来了更强的特征提取能力,因此基于的自注意力方法在高失效比例下有更出色的表现. 传统的自注意力模块容易受传感器失效引入的特征间不确定关联的影响,限制了模型的学习能力. FDCFP通过掩码操作,随机舍弃一定比例的注意力权重,一定程度上惩罚了失效带来的伪关联性,降低了模型聚焦于数据中失效成分的可能性,在所有数据集上均有优异表现.

图 7

图 7   掩码自注意力对故障诊断准确率的影响

Fig.7   Effects of mask self-attention on fault diagnosis accuracy


3.5. 复杂度与实时性分析

为了验证FDCFP在实际生产中的应用潜力,分析方法的复杂度和实时性. 实验采用每秒十亿次浮点运算(giga floating point operations per second, GFLOPs)来衡量方法的时间复杂度,即算法的实时性能,并计算各模型的参数数量NP来评估方法运行时的内存访问量,结果如表3所示. 相较于对比方法,FDCFP的参数数量更少,且大部分参数源于分类器中的两层全连接层;FDCFP的浮点运算数未超过一维CNN的1.5倍. 设输入一维向量长度为N、卷积核大小为k的CNN来说,每层卷积层的复杂度为${{O({\mathrm{k}}}} \cdot N{\text{)}}$,RNN的每层复杂度为$O(N)$. 自注意力层的输入大小为$N \times d$的矩阵,复杂度应为${{O(}}{{{N}}^2} \cdot {{d)}}$,FDCFP通过特征提取模块提取低层次特征,将输入特征的个数控制在较低水平,减少了模型的参数量和计算时间.

表 3   不同故障诊断方法的复杂度和实时性

Tab.3  Complexity and real-time of different fault diagnosis methods

方法NP/103GFLOPs
CNN1d177.30.2743
BiLSTM948.50.3072
MCNN-LSTM235. 30.4418
FDCFP特征提取模块8.40.4009
自注意力模块20.8
分类器67.2

新窗口打开| 下载CSV


4. 结 语

本研究提出带有退化特征惩罚机制的故障诊断方法,利用注意力对长距离关联的感知能力更好地提取数据局部和全局关联,融合更多信息进行失效数据的预测;采用随机掩码对退化特征伪关联关系进行惩罚,避免退化特征被分配大权重,使Transformer编码器在融合全局信息的同时更关注数据的有效成分,在高比例缺失的情况下,以更低的复杂度取得比传统方法更优的故障诊断结果. 本研究限于一维振动信号的故障诊断问题,在传感器失效模式上仅考虑了常见的完全随机缺失. 在工业实践中,多个不同类型的传感器信号组成的多元时间序列有更复杂的数据关联关系和失效模式,基于多元时间序列的故障诊断方法还有待深入研究. 此外,融合不同模态信号(视频序列、音频序列和文本描述等)能够为故障特征的发掘提供更充分的互补信息,有望进一步提升故障诊断的准确性和模型对传感器失效的容忍度.

参考文献

WANG J, XU C, ZHANG J, et al

Big data analytics for intelligent manufacturing systems: a review

[J]. Journal of Manufacturing Systems, 2022, 62: 738- 752

DOI:10.1016/j.jmsy.2021.03.005      [本文引用: 1]

ZHAO Y, LI T, ZHANG X, et al

Artificial intelligence-based fault detection and diagnosis methods for building energy systems: advantages, challenges and the future

[J]. Renewable and Sustainable Energy Reviews, 2019, 109: 85- 101

DOI:10.1016/j.rser.2019.04.021      [本文引用: 2]

ASKARIAN M, ESCUDERO G, GRAELLS M, et al

Fault diagnosis of chemical processes with incomplete observations: a comparative study

[J]. Computers and Chemical Engineering, 2016, 84: 104- 116

DOI:10.1016/j.compchemeng.2015.08.018      [本文引用: 1]

RAZAVI-FAR R, SAIF M, PALADE V, et al

An integrated framework for diagnosing process faults with incomplete features

[J]. Knowledge and Information Systems, 2022, 64: 75- 93

DOI:10.1007/s10115-021-01625-w      [本文引用: 1]

陈嘉宁, 杨翾, 叶承晋, 等

基于缺失数据修复的变压器在线故障诊断方法

[J]. 电力系统保护与控制, 2019, 47 (15): 86- 92

DOI:10.7667/PSPC20191512      [本文引用: 1]

CHEN Jianing, YANG Xuan, YE Chengjin, et al

On-line fault diagnosis method for power transformer based on missing data repair

[J]. Power System Protection and Control, 2019, 47 (15): 86- 92

DOI:10.7667/PSPC20191512      [本文引用: 1]

LIU R, MENG G, YANG B Y, et al

Dislocated time series convolutional neural architecture: an intelligent fault diagnosis approach for electric machine

[J]. IEEE Transactions on Industrial Informatics, 2017, 13 (3): 1310- 1320

DOI:10.1109/TII.2016.2645238      [本文引用: 4]

DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . Minneapolis: Association for Computational Linguistics, 2019: 4171–4186.

[本文引用: 1]

LI B, HU Y, NIE X, et al. DropKey for Vision Transformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 22700–22709.

[本文引用: 1]

WU Z, WU L, MENG Q, et al. UniDrop: a simple yet effective technique to improve Transformer without extra cost [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . [S.l.]: Association for Computational Linguistics, 2021: 3865–3878.

[本文引用: 1]

FENG Z, LIANG M, CHU F

Recent advances in time–frequency analysis methods for machinery fault diagnosis: a review with application examples

[J]. Mechanical Systems and Signal Processing, 2013, 38 (1): 165- 205

DOI:10.1016/j.ymssp.2013.01.017      [本文引用: 1]

钟凯. 基于多元统计分析的故障检测与诊断研究[D]. 大连: 大连理工大学, 2020.

[本文引用: 2]

ZHONG Kai. Multivariate statistical analysis based fault detection and diagnosis [D]. Dalian: Dalian University of Technology, 2020.

[本文引用: 2]

SINGH V, GANGSAR P, PORWAL R, et al

Artificial intelligence application in fault diagnostics of rotating industrial machines: a state-of-the-art review

[J]. Journal of Intelligent Manufacturing, 2021, 34 (3): 931- 960

[本文引用: 1]

VOS K, PENG Z, JENKINS C, et al

Vibration-based anomaly detection using LSTM/SVM approaches

[J]. Mechanical Systems and Signal Processing, 2022, 169: 108752

DOI:10.1016/j.ymssp.2021.108752      [本文引用: 1]

李兵, 韩睿, 何怡刚, 等

改进随机森林算法在电机轴承故障诊断中的应用

[J]. 中国电机工程学报, 2020, 40 (4): 1310- 1319

[本文引用: 1]

LI Bing, HAN Rui, HE Yigang, et al

Applications of improved random forest algorithm in fault diagnosis of motor bearings

[J]. Proceedings of the CSEE, 2020, 40 (4): 1310- 1319

[本文引用: 1]

ZHU Z, LEI Y, QI G, et al

A review of the application of deep learning in intelligent fault diagnosis of rotating machinery

[J]. Measurement, 2023, 206: 112346

DOI:10.1016/j.measurement.2022.112346      [本文引用: 2]

CUI M, WANG Y, LIN X, et al

Fault diagnosis of rolling bearings based on an improved stack autoencoder and support vector machine

[J]. IEEE Sensors Journal, 2021, 21 (4): 4927- 4937

DOI:10.1109/JSEN.2020.3030910      [本文引用: 1]

GUO X, SHEN C, CHEN L

Deep fault recognizer: an integrated model to denoise and extract features for fault diagnosis in rotating machinery

[J]. Applied Sciences, 2017, 7 (1): 41

[本文引用: 1]

WEN L, LI X, GAO L, et al

A new convolutional neural network-based data-driven fault diagnosis method

[J]. IEEE Transactions on Industrial Electronics, 2018, 65 (7): 5990- 5998

DOI:10.1109/TIE.2017.2774777      [本文引用: 2]

WANG P, ANANYA, YAN R, et al

Virtualization and deep recognition for system fault classification

[J]. Journal of Manufacturing Systems, 2017, 44: 310- 316

DOI:10.1016/j.jmsy.2017.04.012      [本文引用: 1]

CHEN X, ZHANG B, GAO D

Bearing fault diagnosis base on multi-scale CNN and LSTM model

[J]. Journal of Intelligent Manufacturing, 2021, 32: 971- 987

DOI:10.1007/s10845-020-01600-2      [本文引用: 2]

AN Z, LI S, WANG J, et al

A novel bearing intelligent fault diagnosis framework under time-varying working conditions using recurrent neural network

[J]. ISA Transactions, 2020, 100: 155- 170

DOI:10.1016/j.isatra.2019.11.010      [本文引用: 1]

LIU H, ZHOU J, ZHENG Y, et al

Fault diagnosis of rolling bearings with recurrent neural network-based autoencoders

[J]. ISA Transactions, 2018, 77: 167- 178

DOI:10.1016/j.isatra.2018.04.005      [本文引用: 1]

ZHAO R, WANG D, YAN R, et al

Machine health monitoring using local feature-based gated recurrent unit networks

[J]. IEEE Transactions on Industrial Electronics, 2018, 65 (2): 1539- 1548

DOI:10.1109/TIE.2017.2733438      [本文引用: 1]

BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [C]// 3rd International Conference on Learning Representations . San Diego: [s.n.], 2015.

[本文引用: 3]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . La Jolla: [s.n.], 2017: 6000–6010.

[本文引用: 4]

KHAN S, NASEER M, HAYAT M, et al

Transformers in vision: a survey

[J]. ACM Computing Surveys, 2022, 54 (10s): 200

[本文引用: 2]

PEI X, ZHENG X, WU J

Rotating machinery fault diagnosis through a transformer convolution network subjected to transfer learning

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 2515611

[本文引用: 1]

王誉翔, 钟智伟, 夏鹏程, 等

基于改进Transformer的复合故障解耦诊断方法

[J]. 浙江大学学报: 工学版, 2023, 57 (5): 855- 864

[本文引用: 1]

WANG Yuxiang, ZHONG Zhiwei, XIA Pengcheng, et al

Compound fault decoupling diagnosis method based on improved Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (5): 855- 864

[本文引用: 1]

CHE Z, URUSHOTHAM S, CHO K, et al

Recurrent neural networks for multivariate time series with missing values

[J]. Scientific Reports, 2018, 8: 6085

DOI:10.1038/s41598-018-24271-9      [本文引用: 3]

SONG L, GONG D, LI Z, et al. Occlusion robust face recognition based on mask learning with pairwise differential siamese network [C]// 2019 IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 773–782.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

SMITH W A, RANDALL R B, et al

Rolling element bearing diagnostics using the Case Western Reserve University data: a benchmark study

[J]. Mechanical Systems and Signal Processing, 2015, 64/65: 100- 131

DOI:10.1016/j.ymssp.2015.04.021      [本文引用: 1]

LESSMEIER C, KIMOTHO J K, ZIMMER D, et al. Condition monitoring of bearing damage in electromechanical drive systems by using motor current signals of electric motors: a benchmark data set for data-driven classification [C]// European Conference of the Prognostics and Health Management Society . [S.l.]: Prognostics and Health Management Society, 2016.

[本文引用: 1]

SHAO S, MCALEER S, YAN R, et al

Highly accurate machine gault diagnosis using deep transfer learning

[J]. IEEE Transactions on Industrial Informatics, 2019, 15 (4): 2446- 2455

DOI:10.1109/TII.2018.2864759      [本文引用: 1]

WANG B, LEI Y, LI N, et al

A hybrid prognostics approach for estimating remaining useful life of rolling element bearings

[J]. IEEE Transactions on Reliability, 2020, 69 (1): 401- 412

DOI:10.1109/TR.2018.2882682      [本文引用: 1]

LIN W, TSAI C

Missing value imputation: a review and analysis of the literature (2006–2017)

[J]. Artificial Intelligence Review, 2020, 53: 1487- 1509

DOI:10.1007/s10462-019-09709-4      [本文引用: 1]

郭毅博, 牛猛, 王海迪, 等

基于生成对抗网络的飞机燃油数据缺失值填充方法

[J]. 浙江大学学报: 理学版, 2021, 48 (4): 402- 409

[本文引用: 1]

GUO Yibo, NIU Meng, WANG Haidi, et al

An aircraft fuel data missing value filling method with generative adversarial network

[J]. Journal of Zhejiang University: Science Edition, 2021, 48 (4): 402- 409

[本文引用: 1]

/