<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 故障解耦分类器和传统故障分类器的区别

Fig.1 Difference between fault decoupling classifier and traditional fault classifier

设故障分类器的特征值输入为 $\boldsymbol{y}=\left[{y}_{1},{y}_{2},\cdots , {y}_{l}\right]$，通常会先做一步线性映射，得到特征映射结果 $\boldsymbol{x}=\left[{x}_{1},{x}_{2},\cdots ,{x}_{n}\right]$，其中 $ l $为特征值的维度， $ n $为输出标签的个数. 将特征映射结果 $ \boldsymbol{x} $输入 $ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $或者 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $函数. 在传统故障分类器中， $ {y}_{i} $对应的结果为

(1) $ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\,\left({y}_{i}\right)=\frac{{{\rm{e}}}^{{y}_{i}}}{{\displaystyle \sum} _{i}{y}_{i}}. $

最终传统分类器的输出是式（1）输出最大值对应的第i个标签：

在一般的故障解耦分类器中，会预设一个阈值 ${\rm{threshold}}$，如果 $\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left({y}_{i}\right)$大于阈值，则输出第 $ i $个标签，最多可以输出 $ n $个标签：

(2) $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} \; \left({y}_{i}\right)=1/ (1+{{\rm{e}}}^{-{y}_{i}}). $

1.2. 基于改进Transformer的故障解耦分类器

标准Transformer方法最早应用于自然语言处理（natural language processing, NLP）领域^[20]的机器翻译. 与同时期其他深度学习方法相比，Transformer 依赖内部的多头注意力机制，可以精确捕捉到长文本中各个词的位置与含义，因此在机器翻译中具有明显优势. Transformer开始广受学者关注，并被不断改进应用到图像、视觉等^[21]其他领域. Transformer采用编码器-解码器（encoder-decoder）的架构. 编码器主要包含多头注意力层（multi-head attention）和前馈连接层（feed forward module），而解码器相比于编码器增加了遮罩多头注意力层（masked multi-head attention）. 在机器翻译中，标准Transformer的处理方法是先由编码器对长文本进行位置编码和特征提取，而后输入到解码器中，解码器再结合输入词向量对编码器的特征提取结果进行解码，最后得到每个输入词向量的概率并输出完成机器翻译. Transformer结构的成功主要得益于内部的多头注意力机制，这一机制可以使得模型学习到输入的上下文信息，对不同输入的词向量关注到不同长文本的位置. 复合故障解耦的关键在于模型是否能够在复合故障中发现耦合的单一故障，基于标准Transformer结构，设计一种基于改进Transformer的故障解耦分类器.

相比于原生Transformer编码器-解码器的结构不同，本研究仅使用了Transformer中的解码器. 在该故障解耦分类器中，输入特征提取得到的特征层，输出一个或多个故障标签. 具体的工作过程与一般的解耦分类器不同，该故障解耦分类器是通过对提取的特征层进行一次次标签查询（query）来判断是否输出某个标签. 故障解耦分类器会一次次用“点蚀”、“磨损”、“断齿”等标签到特征提取层进行“查询”，进一步通过“查询结果”来判断是否输出“点蚀”、“磨损”、“断齿”等标签，“查询结果”就对应于故障的标签输出概率. （“一次次”只是为了形象介绍解耦分类器的工作原理，实际可以通过矩阵运算一次性得到所有标签的输出概率结果，具体计算公式将在2.3节详细阐述. ）上述功能的实现依赖于Transformer中解码器的交叉多头注意力机制. 之所以称为交叉多头注意力机制，是因为该模块同时连接左侧提取的特征层和下侧的标签查询信息，将标签查询的信息引入到提取的特征层，因此使得解码器可以自适应提取出与标签对应的特征信息，进一步对该标签的输出概率进行预测.

2. 复合故障解耦诊断方法

2.1. 数据处理模块

为了减少噪声干扰，传感器一般安装在被监测设备附近，采集到的原始振动信号如图2所示，其中t为时间， $ A $为振动的幅值. 根据故障机理可知，不同故障的区别在频域比时域更明显. 为了提取出振动信号中的频域信息同时保留一定的时域信息，将先使用时频处理工具对原始振动信号进行预处理. 基于信号处理的稳定性、通用性的考虑，选择STFT作为时频处理工具，STFT的结果如图3所示. 使用Tukey窗函数进行STFT，其中 $ f $为振动的频率，窗函数的长度为255，窗函数重叠数为170.

图 2

图 2 传感器采集的振动信号

Fig.2 Original vibration signal collected from sensors

图 3

图 3 预处理后的STFT图像

Fig.3 Preprocessed STFT spectrum

2.2. 特征提取模块

图4是所提方法的算法流程图，其中左下角部分则为特征提取模块，右侧是故障解耦模块的示意图，计算流程可以分为2个部分，即查询标签更新和概率预测，N为模块个数. 特征提取模块主要用来进一步提取处理后的STFT图像中有效的特征值，由一个三层卷积神经网络组成. 前2层分别包含一个二维的卷积层（Convolutional2d）、ReLU层和最大池化层（Maxpooling2d），最后一层仅包含卷积层和ReLU层，卷积层和ReLU层间通常会进行批归一化处理. 详细的网络模型参数如表1 所示. 其中 $ {d}_{0} $为特征提取模块最终的输出维度，也是所提方法中提取特征值的维度.

图 4

图 4 基于改进Transformer的复合故障解耦诊断方法流程图

Fig.4 Algorithm flowchart of compound fault decoupling diagnosis based on improved Transformer

表 1 特征提取模块的网络模型详细参数

Tab.1 Detailed parameters of network model

层数	类型	核大小	步长	输出通道数
1-1	Convolutional2d	5*5	1*1	512
1-2	ReLU	−	−	512
1-3	Max-pooling	2*2	2*2	512
2-1	Convolutional2d	5*5	1*1	300
2-2	ReLU	−	−	300
2-3	Max-pooling	2*2	2*2	300
3-1	Convolutional2d	5*5	1*1	$ {d}_{0} $
3-2	ReLU	−	−	$ {d}_{0} $

新窗口打开| 下载CSV

2.3. 故障解耦模块

多头注意力机制的主要优势是可以根据不同的标签自适应地关注到与标签对应的局部的判别特征区域^[20]，这一优势也是将其引入到故障解耦模块中的主要原因. 在该模块中，每个查询（query）标签对应一种单一故障类型. 在故障诊断的过程中，用每个查询标签依次判断输入特征中是否包含标签对应的单一故障特征，如果是则输入该单一故障标签. 当所有查询标签轮询判断后，即可实现复合故障的解耦输出. 多头注意力机制可以借助标签信息从不同角度或不同位置观察输入特征，因此复合故障模块可以更有效地关注到各个单一故障相联系的局部判别特征区域.

2.3.1. 查询标签更新

对输入到故障解耦模块的特征值，使用标签进行查询判断是否输出标签对应的单一故障类型. 在判断输出之前，会先将每个标签输入到解耦分类器中和提取的特征一起更新迭代，根据标签更新的结果再判断是否输出. 标签更新的过程可以用矩阵运算表示（使用矩阵可以将多次标签轮询的过程转换为一次计算的过程）. 例如，设被检测设备的常见单一故障种类为 $ K-1 $种，则可输出的标签有 $ K $个（包含正常状态的标签）. 设查询标签矩阵为 $ {\boldsymbol{Q}}_{0}\in {\mathbf{R}}^{K\times d} $，其中 $ d $为每个查询标签的维度， ${（\boldsymbol{Q}}_{0}^{i}\in {\mathbf{R}}^{1\times d}; \,\, i=1,\dots ,K）$则为第 $ i $个查询标签. 将查询标签矩阵输入到故障解耦模块中（如图4右下方），该查询标签矩阵会依次经过2个多头注意力模块（第1个多头注意力模块的输入只包含查询标签矩阵，第2个多头注意力模块的输入包含查询标签矩阵和提取的特征值）和1个前馈连接模块. 该更新过程将重复 $ N $次（ $ N $为解码器堆叠模块的个数）. 2个注意力模块和前馈连接模块的迭代更新为

(3) $ \left. \begin{aligned} &{\mathrm{S}\mathrm{A}\mathrm{M}:\boldsymbol{Q}}_{i}^{\left(1\right)}=\mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{H}\mathrm{e}\mathrm{a}\mathrm{d}\left({\tilde{\boldsymbol{Q}}}_{i-1},{ \tilde{\boldsymbol{Q}}}_{i-1},{\boldsymbol{Q}}_{i-1}\right)\text{，} \\ &{\mathrm{C}\mathrm{A}\mathrm{M}:\boldsymbol{Q}}_{i}^{\left(2\right)}=\mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{H}\mathrm{e}\mathrm{a}\mathrm{d}\left({\tilde{{\boldsymbol{Q}}}}_{i}^{\left(1\right)},\tilde{{\boldsymbol{F}}},{\boldsymbol{F}}\right)\text{，} \\ &\mathrm{F}\mathrm{F}\mathrm{N}:{\boldsymbol{Q}}_{i}=\mathrm{F}\mathrm{F}\mathrm{N}\left({\boldsymbol{Q}}_{i}^{\left(2\right)}\right). \end{aligned}\right\} $

式中： ${\tilde{\boldsymbol{Q}}}$为经过位置编码的 $\boldsymbol{Q}$， $ {\boldsymbol{Q}}_{i}^{\left(1\right)} $ 和 $ {\boldsymbol{Q}}_{i}^{\left(2\right)} $为2个间接变量矩阵， $ \mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{H}\mathrm{e}\mathrm{a}\mathrm{d}(\mathrm{q}\mathrm{u}\mathrm{e}\mathrm{r}\mathrm{y},\mathrm{ }\mathrm{k}\mathrm{e}\mathrm{y},\mathrm{v}\mathrm{a}\mathrm{l}\mathrm{u}\mathrm{e}) $和 $ \mathrm{F}\mathrm{F}\mathrm{N}\left(x\right) $为标准Transformer解码器中多头注意力函数和前馈连接函数， $\boldsymbol{F}$为特征提取模块得到的特征矩阵， $\tilde{\boldsymbol{F}}$是经过位置编码的 $\boldsymbol{F}$. 由于不需要进行自回归预测，所以 $ \mathrm{m}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{H}\mathrm{e}\mathrm{a}\mathrm{d} $函数不再需要进行遮罩. 因此， $ K $个标签在每层的计算中都可以并行计算.

2.3.2. 概率预测

在查询标签迭代更新后，则进行标签输出的概率预测. 根据上文所述，查询标签更新的结果（经过正向前馈模块处理后）为 $ {\boldsymbol{Q}}_{N}\in {\mathbf{R}}^{K\times d} $，为了进行标签输出的概率预测，需要进一步对比查询标签更新的结果进行处理. 如图4右上方所示，将对 $ {{\boldsymbol{Q}}}_{N} $再进行线性化处理，然后输入到 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $层. $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $的输出结果在0~1.0，此处可以视为标签的输出概率. 线性层和 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $层的处理同样可以通过矩阵运算实现：

(4) $ {p}_{k}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(\boldsymbol{W}_{k}^{{\rm{T}}} \boldsymbol{Q}_{N,k}+ \boldsymbol{b}_{k}\right). $

式中： ${\boldsymbol{W}}_{\boldsymbol{k}}\in {\mathbf{R}}^{d},\boldsymbol{W}={[{W}_{1},\cdots ,{W}_{\boldsymbol{k}}]}^{\rm{T}}\in {\mathbf{R}}^{K\times d}$； $\boldsymbol{b}_{k}\in \mathbf{R},\;\boldsymbol{b}= {[{b}_{1}, \cdots ,{b}_{K}]}^{{\rm{T}}}\in {\mathbf{R}}^{K}$是线性层参数; $ \boldsymbol{p}={[{p}_{1},\cdots ,{p}_{K}]}^{\mathrm{T}}\in {\mathbf{R}}^{K} $为 $ K $个标签的预测概率.

2.4. 复合故障解耦诊断流程

所提复合故障解耦算法的流程图如图4所示，主要计算步骤如下.

S1：对传感器直接采集到的原始信号进行预处理，使用短时傅里叶变换（short-time fourier transform, STFT）得到时频域图像.

S2：将时频域图像输入到特征提取模块进行特征提取，并将提取的特征值作为故障解耦模块的输入.

S3：设有 $ K $个故障标签，则初始化 $ K $个查询标签，将特征提取得到的特征值，作为第2个交叉注意力模块的输入. 在训练阶段时，通过端到端的训练可以使得最后模型的每个查询标签都准确代表对应的故障类型. 在测试阶段中，各个标签和提取的特征会经过多头注意力模块、正向前馈模块的迭代更新，最终经过线性层和 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $映射得到对应单一故障的输出概率. 本研究设置输出概率阈值为0.5，当sigmoid映射结果大于阈值时，则输出单一故障对应的标签，反之则不输出. 在所提方法中，每个查询标签都有确定的物理意义，代表着某个对应的故障标签，这也是所提方法与DETR（detection transformer）^[22]的区别所在.

3. 复合故障试验

3.1. 试验说明

为了验证所提方法的有效性，设计了多组复合故障试验进行验证. 数据集采集自动力传动故障诊断综合试验台，如图5所示. 该试验台主要包含1个感应电机，1个行星齿轮箱和1个平行轴齿轮箱. 行星齿轮箱和平行轴齿轮箱主要是由感应电机进行驱动，磁力制动机和负载控制器安装在平行轴齿轮箱右侧，用来施加负载，传感器安装位置如图6所示，用于采集振动信号.

图 5

图 5 动力传动故障诊断综合试验台

Fig.5 Power transmission fault diagnosis test bench

图 6

图 6 动力传动故障诊断综合试验台示意简图

Fig.6 Schematic diagram of power transmission fault diagnosis test bench

本次试验选择9个不同故障状态的行星齿轮，其中包含1个正常状态的齿轮、5个单个故障的齿轮和3个不同故障组合的复合故障齿轮（如图7）. 故障齿轮的位置如图6所示. 9个齿轮的详细的健康状态如表2所示.

图 7

图 7 3个不同故障组合的复合故障行星齿轮

Fig.7 Three different fault combinations of compound fault planetary gear

表 2 本研究实验所用行星齿轮的健康状态

Tab.2 Health status of planetary gear used in test

齿轮序号	健康状态	复合故障标签
1	正常	NR
2	裂纹	RC
3	断齿	CP
4	缺齿	MS
5	磨损	WR
6	点蚀	PT
7	断齿+点蚀	CP+PT
8	裂纹+磨损	RC+WR
9	裂纹+缺齿	RC+MS

新窗口打开| 下载CSV

在试验台运行在900 r/min的轴转速下，制动器负载为1 hp，采样频率为5 120 Hz. 为了采集到充足的数据用以模型验证，每个健康状态的行星齿轮的运行时间为6 min，并截取中间平稳运行部分作为实验验证的数据.

3.2. 数据说明

在本次试验中，时序数据的样本长度设为2 560，因此每个健康状态下的时序数据共有720个样本. 对于单一故障和健康状态的数据，分别选择200个样本作训练集，520个样本作测试集（复合故障数据的训练集和测试集划分将在第3.4节详细说明）. 训练集用来对模型进行训练，测试集用来测试模型的准确率.

在训练过程中，设置正常、裂纹、断齿、缺齿、磨损和点蚀6个查询标签，并初始化6个独热编码向量（one-hot vector），将采集到的时序数据依次经过信号预处理模块和特征提取模块，得到有效的特征矩阵后输入到故障解耦分类器中. 在解耦分类器的第1个解码器中，第1个多头注意力模块的query和key是经过位置编码的查询标签矩阵，value则是查询标签矩阵本身，而第2个多头注意力模块的query是上一个模块的输出，key是经过位置编码的特征矩阵，value则是特征矩阵本身，最后经过一系列迭代过程即可得到每个查询标签的输出概率. 整个训练过程使用的是交叉熵损失函数. 在测试过程中，对于任意健康状态的齿轮，只要输出标签和原标签不是完全相同，则认为是预测错误.

4. 试验结果验证

4.1. 极少量复合故障样本下诊断性能的研究分析

为了更好地模拟实际工业环境，将在训练样本中仅含少量单一故障样本数据和极少量复合故障样本数据的情况下，研究所提方法的故障诊断性能. 为了验证所提方法的诊断效果，对比当前2种广受认可的复合故障诊断算法，下文简称这2种方法为Huang^[23]和Liang^[13]方法. Huang方法使用一维深度卷积神经网络对振动信号进行特征提取，进一步使用多栈式胶囊作为故障解耦分类器进行故障诊断. Liang方法先通过小波变换对振动信号进行处理得到二维时频图，进一步将时频图输入到多标签神经网络进行复合故障分类. 将提出的基于改进Transformer的故障解耦分类器更换为一般的故障解耦分类器，即将特征提取模块的结果直接输入到一维的全连接层，并使用sigmoid函数作为故障概率输出（该方法下文简称STFT-CNN方法），与所提方法进行对比. 考虑到公平性，上述4种方法在训练和测试的过程中均使用相同的数据集. 在训练集方面，对于单一故障类型，每种故障选择200个样本作为训练集；对于复合故障类型，从0~30个逐步增加作为训练集，训练集中样本的选择为随机过程. 为了避免偶然性，针对训练集中各个单一故障和复合故障比例情况，每种情况重复10次（包括随机选择样本作为训练集、模型训练与测试），取10次的测试结果的平均值为最终的诊断准确度. 4种方法的学习率均设为0.001，训练轮数为50，选择Adam作为优化器. 4种方法在不同复合故障样本数训练下的诊断准确度结果如图8所示. 在不同情况下训练集中的单一故障样本数量是相同的，因此随训练集中复合故障样本数量的变化，单一故障的诊断准确度变化不大（均为98%以上），图8仅绘制不同情况下复合故障诊断的准确度，其中 ${N}_{\mathrm{0}}$和 $ \mathrm{A}\mathrm{C}\mathrm{C} $分别为训练集中每种复合故障的样本和复合故障诊断诊断准确度.

图 8

图 8 不同复合故障样本数训练下的复合故障诊断准确度

Fig.8 Diagnosis accuracy with different training samples of compound faults

从图8中看出，当训练集中仅使用极少量的复合故障样本时，所提方法在复合故障诊断准确度上明显高于其他3种方法. 当训练集中每种复合故障的样本数为3个时，所提方法的复合故障诊断诊断准确度达到了59.32%，而Huang方法仅为28.14%，Liang方法仅为12.15%；当训练集中每种复合故障的样本数为5个时，所提方法的复合故障诊断诊断准确度达到了88.29%，而Huang方法仅为45.82%，Liang方法仅为31.91%；当训练集中每种复合故障的样本数为7个以上时，所提方法的复合故障诊断准确度可达到95%以上.

为了进一步对比在训练集仅含极少量复合故障样本时所提方法和其他方法的区别，随机选择一组训练集，其中该训练集中每种复合故障的样本数为5，使用所提方法和Huang方法进行训练和测试，并绘制结果为混淆矩阵，如图9所示. 相较于Huang方法，所提方法在极少量复合故障样本的情况下表现出显著优势. 因为复合故障的正确输出标签应该为单一故障标签的组合，而且必须输出的所有单一故障标签与实际标签都对应才算分类正确，所以这对故障分类器提出较高要求. 如图9（b）所示，Huang方法受到训练集中复合故障样本的干扰，使得除点蚀外的其他标签分类器对点蚀样本比较敏感. 在识别点蚀故障时，将识别为其他所有故障标签组合（下文简称为OC），因此点蚀样本的识别率几乎为0. 这是由于在极少量复合故障样本的情况下，Huang方法的故障解耦分类器并不能很好地对复合故障进行解耦，因此在面对复合故障的情况时，出现了较多的识别错误. 所提方法在训练集中仅含极少量复合故障样本的情况下，则表现出理想的故障诊断效果，复合故障诊断准确率均处于98%以上.

图 9

图 9 每种复合故障的样本数为5时2种方法的诊断结果混淆矩阵

Fig.9 Confusion matrix of two methods when number of samples for each compound fault in training set is 5

对比所提方法与STFT-CNN，2种方法的数据预处理模块和特征提取模块相同，仅故障解耦分类器不同，但是所提方法在极少量复合故障样本的情况下的诊断效果远好于STFT-CNN，这进一步说明基于改进Transformer的故障解耦分类器较一般的故障解耦分类器表现更好. 该故障解耦分类器是所提方法在极少量复合故障样本数据情况下，仍具有理想诊断效果的关键所在.

4.2. 基于改进Transformer的故障解耦分类器的解耦性能研究分析

基于改进Transformer的故障解耦分类器的故障解耦能力主要来源于内部的2大机制：交叉注意力机制和多头注意力机制. 交叉注意力机制是图2中自下而上第2个多头注意力模块，因为同时连接左侧提取的特征层和下侧的标签查询信息，将标签查询的信息引入到提取的特征层. 利用交叉注意力机制，当使用不同的故障标签进行查询（query）操作时，即可自适应提取出与故障标签相对应的特征，从而进一步对该标签的输出概率进行预测. 当输入复合故障的数据时，通过使用单一故障标签进行查询操作，即可依次输出组合复合故障的单一故障标签，以实现故障解耦.

多头注意力机制指的是图2中2个多头注意力模块. 相较于单头注意力模块，多头注意力模块可以从不同角度、不同范围提取与故障标签对应的特征，因而可以更全面地匹配到与故障标签相对应的具备区分度的特征. 为了进一步验证交叉注意力机制和多头注意力机制的作用，随机选取3段代表不同复合故障类型的振动信号进行分析. 对3段振动信号进行STFT变换，得到3段振动信号的STFT图如图10(a)~(c)所示. 故障解耦模块中自下而上的第2个多头注意力模块的输出即为多头注意力矩阵. 其中，(a)、(d)、(g)对应为第1段振动信号的处理结果，(b)、(e)、(h)和(c)、(f)、(i)分别对应第2、3段振动信号的处理结果；(a)-(c) 是3种复合故障对应的STFT图；(d)~(i) 是使用单一故障标签查询时得到的注意力图像. 为了方便分析，将所有的多头注意力矩阵求均值，并可视化为图10(d)~(i). 注意力矩阵中所有元素的取值为0~1.0，在图10 (d)~(i)中，颜色越暗表示该位置的元素越接近0，颜色越亮表示该位置的元素越接近于1.0.

图 10

图 10 对 3 段振动数据处理得到的 STFT 图像和多头注意力图像.

Fig.10 Visualization of cross-attention maps and STFT spectrum of three segments of vibration signals.

从图10可以很直观看到，针对不同的查询标签，注意力矩阵可以准确地关注到每个故障最具区分度的位置区域. 图10(f)为使用断齿标签查询的注意力图像，主要关注区域在1 500 Hz附近，与断齿频谱图中幅值最大的频率相符. 图10(d)~(f)为裂纹标签查询的注意力图像，主要集中在低中频区域，这主要因为裂纹的故障特征往往很小，在齿轮啮合的过程中对低中频区域都有影响，关注区域较大. 图10(i)为点蚀标签查询的注意力图像，主要关注在0~200 Hz的区域，对于点蚀故障，该低频区域的特征与其他故障有较大区分度. 图10表明，经过少量的单一故障样本训练，故障解耦分类器通过多头注意力机制可以捕捉到与故障标签强相关的特征区域，具备一定物理意义. 所提出的解耦分类器通过交叉注意力机制自适应提取出对应的特征值，进行标签输出预测. 复合故障的振动信号中掺杂谐振等复杂的信息，但是仅需要极少量复合故障数据进行注意力模块的修正，可以使得所提方法在面对复合故障时依然具有较好的诊断效果.

5. 结　论

提出一种基于改进Transformer的复合故障解耦诊断方法，在少量单一故障数据和极少量复合故障数据情况下，具有较高复合故障解耦诊断准确度，细化故障分析粒度，有利于作为设备预防维护措施及再设计的依据. 主要得到以下结论.

1）为了充分考虑和利用复合故障与内部单一故障之间的联系，不再将复合故障简单等同于一种新的单一故障类型，而是将解耦输出多个单一故障的标签，提出一种新的故障解耦分类器. 该故障解耦分类器正是因为内部的交叉注意力机制和多头注意力机制，使得在故障解耦的过程中，可以自适应提取出与故障标签相对应的特征，进一步对各个故障标签的输出概率进行预测，从而实现复合故障解耦.

2）基于上述的故障解耦分类器，提出一种基于改进Transformer的故障解耦诊断方法. 当训练集中每种复合故障的样本数为5个时，所提方法的复合故障诊断诊断准确度达到88.29%，而Huang方法仅为45.82%%，Liang方法仅为31.91%. 由于在极少量复合故障样本的情况下，所提方法更好地区分复合故障中耦合的单一故障，因此能实现更好的解耦效果.

3）对所提出的解耦分类器进行深入的分析，并且可视化了多头注意力模块的输出结果. 结果表明，多头注意力模块可以从不同角度、不同范围提取与故障标签对应的特征，因而可以更加全面地匹配到与故障标签强相关的特征区域，具备一定物理意义.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

乔美英, 汤夏夏, 闫书豪, 等

基于改进稀疏滤波与深度网络融合的轴承故障诊断

[J]. 浙江大学学报: 工学版, 2020, 54 (12): 2301- 2309

QIAO Mei-ying, TANG Xia-xia, YAN Shu-hao, et al

Bearing fault diagnosis based on improved sparse filter and deep network fusion

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (12): 2301- 2309

[2]

FENG Z, GAO A, LI K, et al

Planetary gearbox fault diagnosis via rotary encoder signal analysis

[J]. Mechanical Systems and Signal Processing, 2021, 149: 107325

DOI:10.1016/j.ymssp.2020.107325

[3]

XIA P, HUANG Y, XIAO D, et al. Ball screw health indicator construction with limited monitoring data and health assessment based on global context network[C]// 2021 IEEE International Conference on Sensing, Diagnostics, Prognostics and Control (SDPC). Weihai: IEEE, 2021: 168-173.

[4]

姚锡凡, 景轩, 张剑铭, 等

走向新工业革命的智能制造

[J]. 计算机集成制造系统, 2020, 26 (9): 2299- 2320

YAO Xi-fan, JING Xuan, ZHANG Jian-ming, et al

Towarads smart manufacturing for new industrial revolution

[J]. Computer Integrated Manufacturing Systems, 2020, 26 (9): 2299- 2320

[5]

李杰, 李响, 许元铭, 等

工业人工智能及应用研究现状及展望

[J]. 自动化学报, 2020, 46 (10): 2031- 2044

DOI:10.16383/j.aas.200501 [本文引用: 1]

LI Jie, LI Xiang, XU Yuan-ming, et al

Recent advances and prospects in industrial AI and applications

[J]. Acta Automatica Sinica, 2020, 46 (10): 2031- 2044

DOI:10.16383/j.aas.200501 [本文引用: 1]

[6]

吴守军, 冯辅周, 吴春志, 等

复合行星轮系故障诊断方法研究进展

[J]. 机械科学与技术, 2019, 38 (12): 1910- 1920

WU Shou-jun, FENG Fu-zhou, WU Chun-zhi, et al

Research progress on fault diagnosis methods of compound planetary gear train

[J]. Mechanical Science and Technology for Aerospace Engineering, 2019, 38 (12): 1910- 1920

DOI:10.1016/j.measurement.2019.02.071 [本文引用: 1]

[7]

LI G, LIANG X, FANGYI L

Model-based analysis and fault diagnosis of a compound planetary gear set with damaged sun gear

[J]. Journal of Mechanical Science and Technology, 2018, 32: 3081- 3096

DOI:10.1007/s12206-018-0611-0 [本文引用: 1]

[8]

LYU X, HU Z, ZHOU H, et al

Application of improved MCKD method based on QGA in planetary gear compound fault diagnosis

[J]. Measurement, 2019, 139: 236- 248

[9]

陈仁祥, 唐林林, 孙健, 等. 一维深度子领域适配的不同转速下旋转机械复合故障诊断[J]. 仪器仪表学报, 2021, 42(5): 227-234.

CHEN Ren-xiang, TANG Lin-lin, SUN Jian, et al. Composite fault diagnosis of rotating machinery under different speed based on one dimensional deep subdomain adaption [J]. Chinese Journal of Scientific Instrument. 2021, 42(5): 227-234.

[10]

HUANG R, LI W, CUI L. An intelligent compound fault diagnosis method using one-dimensional deep convolutional neural network with multi-label classifier [C]// 2019 IEEE International Instrumentation and Measurement Technology Conference (i2mtc). New York: IEEE. 2019: 97-102.

DOI:10.1016/j.measurement.2020.108500 [本文引用: 1]

[11]

HUANG R, LI J, LI W, et al

Deep ensemble capsule network for intelligent compound fault diagnosis using multisensory data

[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69 (5): 2304- 2314

DOI:10.1109/TIM.2019.2958010 [本文引用: 2]

[12]

JIN Y, QIN C, HUANG Y, et al

Actual bearing compound fault diagnosis based on active learning and decoupling attentional residual network

[J]. Measurement, 2021, 173: 108500

[13]

LIANG P, DENG C, WU J, et al

Compound fault diagnosis of gearboxes via multi-label convolutional neural network and wavelet transform

[J]. Computers in Industry, 2019, 113: 103132

DOI:10.1016/j.compind.2019.103132 [本文引用: 3]

[14]

ZHANG J, ZHANG Q, HE X, et al

Compound fault diagnosis of rotating machinery: a fused imbalance learning method

[J]. IEEE Transactions on Control Systems Technology, 2021, 29 (4): 1462- 1474

DOI:10.1109/TCST.2020.3015514 [本文引用: 1]

[15]

齐咏生, 刘飞, 李永亭, 等

基于MK-MOMEDA和Teager能量算子的风电机组滚动轴承复合故障诊断

[J]. 太阳能学报, 2021, 42 (7): 297- 307

DOI:10.19912/j.0254-0096.tynxb.2019-0276 [本文引用: 1]

QI Yong-sheng, LIU Fei, LI Yong-ting, et al

Compound fault diagnosis of wind turbine rolling bearing based on MK-MOMEDA and teager energy operator

[J]. Journal of Solar Energy, 2021, 42 (7): 297- 307

DOI:10.19912/j.0254-0096.tynxb.2019-0276 [本文引用: 1]

[16]

杜丽君, 丁康, 蒋飞

基于变速工况稀疏调频字典的齿轮复合故障诊断

[J]. 重庆理工大学学报: 自然科学版, 2021, 35 (9): 92- 102

DU Li-jun, DING Kang, JIANG Fei

Gear compound faults diagnosis based on sparse frequency modulation dictionary under variable speed

[J]. Journal of Chongqing University of Technology: Natual Science, 2021, 35 (9): 92- 102

[17]

DIBAJ A, ETTEFAGH M M, HASSANNEJAD R, et al

A hybrid fine-tuned VMD and CNN scheme for untrained compound fault diagnosis of rotating machinery with unequal-severity faults

[J]. Expert Systems with Applications, 2021, 167: 114094

DOI:10.1016/j.eswa.2020.114094 [本文引用: 1]

[18]

LIU S, ZHANG L, YANG X, et al. Query2Label: a simple transformer way to multi-label classification [EB/OL]. [2022-07-01]. https://doi.org//0.48550/arXiv.2017.10834.

[19]

卢昱奇. 基于卷积神经网络的行星齿轮箱复合故障诊断方法研究[D]. 电子科技大学, 2020: 1-20.

LU Yu-qi. Research on Compound Fault Diagnosis Method of Planetary Gearbox Based on Convolutional Neural Network [D]. University of Electronic Science and Technology of China, 2020: 1-20.

[20]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30 (nips 2017). La Jolla: NIPS, 2017: 6000-6010.

[21]

HAN K, WANG Y, CHEN H, et al

A survey on vision transformer

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (1): 87- 110

[22]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers [C]// Computer Vision – ECCV 2020. Cham: SIP, 2020: 213-229.