<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 故障诊断中的因果关系图

Fig.1 Causal relationship diagrams in fault diagnosis

2.2. 因果解耦隐马尔可夫模型

对于DAG中任一节点变量${\boldsymbol{v}}$，规定DAG的因果关系为$ {f_v}\; {{}^{\underline{\underline {{\mathrm{def}}}}}} \left( {{\text{pa}}\left( {\boldsymbol{v}} \right),{\varepsilon _v}} \right) $^[23]，其中${\text{pa}}\left( {\boldsymbol{v}} \right)$为节点${\boldsymbol{v}}$的父变量集合，$ {\varepsilon _v} $为独立的外生变量，由系统外部条件决定，不受观测影响. 图1中变量的相关性表示为

(2)$ \left. {\begin{array}{*{20}{c}} \begin{gathered} {{\boldsymbol{\alpha }}_t} \to f_t^a({{\boldsymbol{x}}_t},{{\boldsymbol{a}}_{t - 1}},{\boldsymbol{\varepsilon }}_t^a), \\ {{\boldsymbol{b}}_t} \to f_t^b({{\boldsymbol{x}}_t},{{\boldsymbol{b}}_{t - 1}},{\boldsymbol{\varepsilon }}_t^b), \\ \end{gathered} \\ {{{{\boldsymbol{\hat x}}}_t} \to f_t^x({{\boldsymbol{\alpha }}_t},{{\boldsymbol{b}}_t},{\boldsymbol{\varepsilon }}_t^x),} \\ {{{{\boldsymbol{\hat y}}}_t} \to f_t^y({{\boldsymbol{\alpha }}_t},{\boldsymbol{\varepsilon }}_t^y),} \\ {{z_t} \to f_t^z({{\boldsymbol{b}}_t},{\boldsymbol{\varepsilon }}_t^z).} \end{array}} \right\} $

因果马尔科夫条件（causal Markov condition，CMC）使得DAG中的因果变量得以解耦^[21]. 因此，原始振动数据${{\boldsymbol{x}}_t}$被分解为故障相关数据${{\boldsymbol{a}}_t}$和故障无关数据${{\boldsymbol{b}}_t}$，作为轴承状态观测的内在驱动因素. 根据CMC，本研究提出的诊断模型的联合分布可以分解为

(3)$ \begin{split}p{\left( {{\boldsymbol{d}}_{t \leqslant T}},{{\boldsymbol{x}}_{t \leqslant T}},{{\boldsymbol{o}}_T} \right)} = p\left( {{{\boldsymbol{o}}_T}\mid {{\boldsymbol{d}}_T}} \right) \times \qquad\qquad\\ \prod\limits_{t \leqslant T} {\left( {p\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)p\left( {{{\boldsymbol{x}}_t}\mid {{\boldsymbol{d}}_t}} \right)} \right)} .\qquad \end{split} $

式中：$p( \cdot )$为概率分布函数，$ {\boldsymbol{d}} \;{{}^{\underline{\underline {{\mathrm{def}}}}}}\; \{ {\boldsymbol{a}},{\boldsymbol{b}}\} $，${\boldsymbol{o}} \;{{}^{\underline{\underline {{\mathrm{def}}}}}}\;\{ {\boldsymbol{y}},z\} $为输出变量.

2.3. 解耦网络

为了分离故障相关变量和故障无关变量，构建序列VAE^[21]对时间序列进行因果解耦. 如图2所示，解耦网络包括1个先验网络和1个后验网络. 先验网络由1个基于LSTM的特征编码器$ {E_{\text{p}}} $^[24]和2个基于全连接层的解耦单元$ E_{\text{p}}^{{a}} $和$ E_{\text{p}}^{{{{b}}}} $构成. 后验网络由编码器$ {E_{\text{q}}} $、解码器$ {E_{\text{r}}} $和2个解耦单元$ E_{\text{q}}^{{a}} $和$ E_{\text{q}}^{{{{b}}}} $构成. 利用序列的时间相关性，VAE通过参数$\theta $参数化隐变量的分布$ {p_\theta }({{\boldsymbol{d}}_t}|{{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}) $. VAE进行信号重建，有分布$ {p_\theta }({{\boldsymbol{x}}_t}\mid {{\boldsymbol{d}}_t}) $，通过参数$\phi $参数化隐变量的后验分布$ {q_\phi }({{\boldsymbol{d}}_t}|{{\boldsymbol{x}}_t},{{\boldsymbol{o}}_T}) $. 故障类型和域标签的学习表示为$ {p_\theta }({{\boldsymbol{o}}_T}|{{\boldsymbol{d}}_{T - 1}}) $.

图 2

图 2 解耦网络结构

Fig.2 Disentangled network architecture

2.3.1. 先验网络

原始输入序列${{\boldsymbol{x}}_t}$通过滑动窗口被划分为$T$个时间片段，然后输入先验网络进行特征编码，获取融合了样本时序信息的先验分布${p_\theta }( {{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}}, {{\boldsymbol{x}}_t} )$. 根据因果关系图和CMC可知，${{\boldsymbol{a}}_t}$和${{\boldsymbol{b}}_t}$在给定${{\boldsymbol{x}}_t}$时条件独立. 解耦隐变量的先验分布${p_\theta }$表示为

(4)$ {p_\theta }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right) = {p_\theta }\left( {{{\boldsymbol{a}}_t}\mid {{\boldsymbol{a}}_{t - 1}},{{\boldsymbol{x}}_t}} \right) \times {p_\theta }\left( {{{\boldsymbol{b}}_t}\mid {{\boldsymbol{b}}_{t - 1}},{{\boldsymbol{x}}_t}} \right). $

为了充分利用序列数据的时间关联性，采用LSTM作为解耦编码器的神经元，以保证每次解耦后的特征表示${\boldsymbol{a}}_t^{\text{p}}$和${\boldsymbol{b}}_t^{\text{p}}$与上一时刻的${\boldsymbol{a}}_{t - 1}^{\text{p}}$和${\boldsymbol{b}}_{t - 1}^{\text{p}}$相关联，上标${\text{p}}$表示先验分布. 信号样本输入由全连接层构成的编码器E_I对输入样本进行初步特征提取与降维处理，提取到的特征输入特征编码器E_p中. $ {E_{\text{p}}} $为由2层LSTM构成的特征编码器，其中LSTM的神经元结构如图3所示. 图中，${f_t}$、${i_t}$和${o_t}$分别为遗忘门、记忆门和输出门的输出，${{\boldsymbol{c}}_t}$为LSTM神经元在$t$时刻的记忆向量，$\sigma $和tanh均为非线性映射函数. $ E_{\text{p}}^{{a}} $和$ E_{\text{p}}^{{{{b}}}} $为解耦单元分支，每个解耦单元由2个全连接层构成，分别学习先验分布${p_\theta }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)$的均值和方差向量.

图 3

图 3 长短时神经网络的神经元结构

Fig.3 Neuron structure of long short-term neural network

2.3.2. 后验网络

后验网络${q_\phi }$不仅考虑数据的时间关联，还通过对观测样本重建、故障分类和域分类等任务的观测值更新对样本分布的先验${p_\theta }$. 后验分布表示为

(5)$ \begin{split} {q_\phi }\left( {{{\boldsymbol{d}}_{t \leqslant T}}\mid {{\boldsymbol{x}}_{t \leqslant T}},{{\boldsymbol{o}}_T}} \right) =& \frac{{{q_\phi }\left( {{{\boldsymbol{y}}_T}\mid {{\boldsymbol{a}}_T}} \right){q_\phi }\left( {{z_T}\mid {{\boldsymbol{b}}_T}} \right)}}{{{q_\phi }\left( {{{\boldsymbol{o}}_T}\mid {{\boldsymbol{x}}_{t \leqslant T}}} \right)}} \times \\ & \prod\limits_{t \leqslant T} {{q_\phi }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)} . \end{split} $

后验网络的编码器$ {E_{\text{q}}} $和解码器$ {E_{\text{r}}} $均由3层全连接层构成，隐变量分布$ p\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right) $通过重参数技巧^[19]从正态分布$ N\left( {{\mu _\theta }\left( {{{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right),{\Sigma _\theta }\left( {{{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)} \right) $中采样，正态分布的均值和方差向量通过$ E_q^{{a}} $和$ E_q^{{{{b}}}} $得到. ${p_\theta }\left( {{{\boldsymbol{o}}_T}\mid {{\boldsymbol{d}}_{T - 1}}} \right)$表示对解耦后的特征进行故障分类和域分类的过程. 故障相关因素${{\boldsymbol{a}}_T}$用于故障的识别和诊断，故障无关因素${{\boldsymbol{b}}_T}$用于数据域的判断. 在重建任务中，解耦后的特征通过1个全连接层后，生成后验分布的均值和对数方差向量，每个时间步的${q_\phi }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},\;{{\boldsymbol{x}}_t}} \right)$均服从高斯分布$ N(\mu_{\phi}(\boldsymbol{d}_{t-1},\boldsymbol{x}_t),\; \mathit{\Sigma}_{\phi} (\boldsymbol{d}_{t-1}, \boldsymbol{x}_t)) $. 在高斯分布中采样后， VAE的解码器$ {E_{\text{r}}} $进行原始序列重建.

2.4. 学习策略

2.4.1. 因果解耦表示学习

因果解耦模块的优化目标是最大化ELBO. 根据式（2）、（4），在因果学习部分的ELBO表示为

(6)$ \begin{split} {L_{{\text{ELBO}}}} =& E\left[ {{E_{{q_\phi }}}\left[ {\ln \left( {\frac{{p\left( {{{\boldsymbol{d}}_{t \leqslant T}},{{\boldsymbol{x}}_{t \leqslant T}},{{\boldsymbol{o}}_T}} \right)}}{{{q_\phi }\left( {{{\boldsymbol{d}}_{t \leqslant T}}\mid {{\boldsymbol{x}}_{t \leqslant T}},{{\boldsymbol{o}}_T}} \right)}}} \right)} \right]} \right] = \\ & E\left[ {\ln \left( {{q_\phi }\left( {{{\boldsymbol{o}}_T}\mid {{\boldsymbol{x}}_{t \leqslant T}}} \right)} \right)+\sum\limits_{t = 1}^T {L_{{q_\phi },{p_\theta }}^t} } \right]. \end{split} $

将$ \ln\;({q_\phi }({{\boldsymbol{o}}_T}\mid {{\boldsymbol{x}}_{t \leqslant T}})) $表示为

(7)$ \int {\left( {\prod\limits _{t = 1}^T{q_\phi }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{x}}_t},{{\boldsymbol{d}}_{t - 1}}} \right)} \right)} {q_\phi }\left( {{{\boldsymbol{y}}_T}\mid {{\boldsymbol{a}}_T}} \right){\mathrm{d}}{{\boldsymbol{d}}_0} \cdots {\mathrm{d}}{{\boldsymbol{d}}_T}. $

第$t$个时间步的损失表示为

(8)$ \begin{split} L_{{q_\phi },{p_\theta }}^t =& {E_{{q_\phi }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)}}\left[ {\ln \left( {{p_\theta }\left( {{{{\boldsymbol{\hat x}}}_t}\mid {{\boldsymbol{d}}_t}} \right)} \right)} \right] -\\ & {D_{KL}}\left[ {{q_\phi }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right),{p_\theta }\left( {{{\boldsymbol{d}}_t}\mid {{\boldsymbol{d}}_{t - 1}},{{\boldsymbol{x}}_t}} \right)} \right]. \end{split} $

式中：第一项为信号的重建损失，第二项为隐变量的推断后验概率分布${q_\phi }$与先验分布间的KL散度，最大化ELBO可视作最小化推断后验概率和先验概率之间的差异. 因此，在因果学习阶段，模型训练的损失函数为

(9)$ L=-L_{\text{ELBO}}. $

2.4.2. 域自适应

由于源域和目标域的设备型号、工作状态、观测条件不同，采集数据之间往往存在域偏移，限制了模型的迁移能力. 解耦学习从采集样本中分离出反映设备工况的故障无关因素${{\boldsymbol{b}}_T}$，提高模型区分数据域的能力，促使模型学习域不变特征，提高迁移性能. 域自适应阶段的流程图如图4所示，模型结合源域和目标域数据同时进行训练，在解耦出故障相关因素${{\boldsymbol{a}}_T}$和故障无关因素${{\boldsymbol{b}}_T}$后，分别经过故障分类器${F_{{\text{cls}}}}$和域判别器${D_{{\text{cls}}}}$输出结果，计算相应的损失函数. ${F_{{\text{cls}}}}$和${D_{{\text{cls}}}}$为带有 softmax函数和 sigmoid 函数的线性分类器，分别用于分类故障和判别域. 采用MK-MMD^[22]充分衡量源域和目标域之间的差异. MK-MMD源于MMD，MMD将低维数据映射到高维的再生核希尔伯特空间（reproducing kernel Hilbert space, RKHS）中，并利用核技巧（核函数与特征映射之间的内积满足$ k({{\boldsymbol{x}}^{\text{s}}},{{\boldsymbol{x}}^{\text{t}}}) = < \varphi ({{\boldsymbol{x}}^{\text{s}}}),\varphi ({{\boldsymbol{x}}^{\text{t}}}) > $）求解特征间的平方距离.

图 4

图 4 域自适应学习流程图

Fig.4 Workflow of domain adaption learning

(10)$ \begin{split}& {L_{{\text{MMD}}}}({X^{\text{s}}},{X^{\text{t}}}) = \left\| {{E_{{\boldsymbol{x}}_i^{\text{s}} \in {X^{\text{s}}}}}[\varphi ({{\boldsymbol{x}}^{\text{s}}})] - {E_{{\boldsymbol{x}}_j^{\text{t}} \in {X^{\text{t}}}}}[\varphi ({{\boldsymbol{x}}^{\text{t}}})]} \right\|_{{H_{\text{K}}}}^2= \\&\qquad \frac{1}{{{N_{\text{s}}}^2}}\sum\limits_{i = 1}^{{N_{\text{s}}}} {\sum\limits_{j = 1}^{{N_{\text{s}}}} k } ({\boldsymbol{x}}_i^{\text{s}},{\boldsymbol{x}}_j^{\text{s}})+\frac{1}{{N_{\text{t}}^{\text{2}}}}\sum\limits_{i = 1}^{{N_{\text{t}}}} {\sum\limits_{j = 1}^{{N_{\text{t}}}} k } ({\boldsymbol{x}}_i^{\text{t}},{\boldsymbol{x}}_j^{\text{t}}) - \\&\qquad \frac{2}{{{N_{\text{s}}}{N_{\text{t}}}}}\sum\limits_{i = 1}^{{N_{\text{s}}}} {\sum\limits_{j = 1}^{{N_{\text{t}}}} k } ({\boldsymbol{x}}_i^{\text{s}},{\boldsymbol{x}}_j^{\text{t}}). \end{split} $

式中：${H_{\text{K}}}$表示RKHS，$\varphi $为特征映射. MK-MMD采用多个核函数的加权和以拟合数据在高维空间的距离提高特征的表示能力：

(11)$ K \;{{}^{\underline{\underline {{\mathrm{def}}}}}}\; \{ k = \sum\limits_{u = 1}^m {{\beta _u}{k_u}} ;\;\;\sum\limits_{u = 1}^m {{\beta _u} = 1,\;\;} \beta \geqslant 0\} . $

式中：$ {\beta _u} $为第$u$个核的权重，$ {k_u} $为采用第$u$个核函数将特征映射到高维空间后的内积，$m$为核函数的数量. 实验中核函数有关参数参照Zhao等^[25]的设置，采用高斯径向基函数，核函数数量$m$=5，权重$ {\beta _u} = 1/m $. 为了准确识别故障，故障相关变量和故障无关变量的后验$ {\boldsymbol{a}}_T^q $和$ {\boldsymbol{b}}_T^q $，分别经过故障分类器和域分类器获得预测结果. 在故障分类方面，采用多分类交叉熵函数衡量分类损失：

(12)$ {L_{\text{c}}} = {E_{{\boldsymbol{x}}_i^{\text{s}} \in {X^{\text{s}}}}}\left[\sum\limits_{c = 0}^{C - 1} {{{{\boldsymbol{1}}}_{[y_i^{\text{s}} = c]}}} \ln\; (\hat y_i^{\text{s}})\right]. $

式中：$C$为故障种类，$ \hat y_i^{\text{s}} $为故障分类器的预测结果，$ {{\boldsymbol{1}}} $为指示函数. 数据域的判别为二分类任务，损失函数为

(13)$ {L_d} = {E_{{\boldsymbol{x}}_i^{\text{s}} \in {X^{\text{s}}}}}[{\boldsymbol{z}}_i^{\text{s}}\ln\; ({\boldsymbol{\hat z}}_i^{\text{s}})]+{E_{{\boldsymbol{x}}_i^{\text{t}} \in {X^{\text{t}}}}}[(1 - {\boldsymbol{z}}_i^{\text{t}})\ln\; (1 - {\boldsymbol{\hat z}}_i^{\text{t}})]. $

式中：$ {\boldsymbol{z}}_i^{\text{s}} $为源域中第$i$个样本$ {\boldsymbol{x}}_i^{\text{s}} $的真实域标签，$ {\boldsymbol{\hat z}}_i^{\text{s}} $为对应的域标签预测. 故障诊断模型的训练流程如算法1所示. 在采用式（9）中的损失学习80个迭代轮次后，结合式（9）~（13）进行训练，此时新的损失函数为

(14)$ L=-L_{\text{ELBO}}+\alpha {L}_{\text{MK-MMD}}+\beta {L}_{\text{c}}+\gamma L_{\text{d}}. $

式中：$ \alpha $、$\beta $、$\gamma $均为超参数. 实验中通过网格搜索确定超参数的值，搜索范围为[0.2, 1.0], 步长为0.1. 最终分别设置$\alpha $=0.5、$\beta $=0.3、$\gamma $=0.3.

算法1　　因果解耦网络算法流程

输入：　源域样本$ {X^{\text{s}}} = \{ {({{\boldsymbol{x}}^{\text{s}}})_i}\} _{i = 1}^{{N_{\text{s}}}} $，源域标签 $ {Y^{\text{s}}} = \{ {({{\boldsymbol{y}}^{\text{s}}})_i}\} _{i = 1}^{{N_{\text{s}}}} $，目标域样本集${X^{\text{t}}} = \{ {({{\boldsymbol{x}}^{\text{t}}})_j}\} _{j = 1}^{{N_{\text{t}}}}$.

输出：　故障预测$ {\boldsymbol{\hat y}} $.

1. 　/* 源域和目标域联合进行训练时，省

2. 　　略样本右上角标*/

3. 　1.数据预处理.

5. 　2.初始化模型参数：

6. 　先验网络：$ {E_{\text{p}}} $, $ E_{\text{p}}^{{a}} $, $ E_{\text{p}}^{{{{b}}}} $.

7. 　后验网络：$ {E_{\text{q}}} $, $ {E_{\text{r}}} $, $ E_{\text{q}}^{{a}} $, $ E_{\text{q}}^{{{{b}}}} $.

8. 　分类器：${F_{{\text{cls}}}}$, ${D_{{\text{cls}}}}$.

10. 3.训练阶段:

11. 　/* epoch = 200 */

12. 　for e = 1 to epoch do:

13. 　　/* 因果解耦表示学习, T = 5. */

14. 　　for t = 1 to T do:

15. 　　　$ {\boldsymbol x}'_t = {E_{\text{p}}}({{\boldsymbol{x}}_t}) $,$ {{\boldsymbol x}''_t} = {E_{\text{q}}}({{\boldsymbol{x}}_t}) $;

16. 　　　$ {\boldsymbol{a}}_t^{\text{p}} = E_{\text{p}}^{{a}}({\text{concat}}\;({\boldsymbol{a}}_{t - 1}^p,{{\boldsymbol{x}}'_t})) $,

17. 　　　$ {\boldsymbol{b}}_t^{\text{p}} = E_{\text{p}}^{{b}}({\text{concat}}\;({\boldsymbol{b}}_{t - 1}^p,{{\boldsymbol{x}}'_t}) $;

18. 　　　$ {\boldsymbol{a}}_t^{\text{q}} = E_{\text{q}}^{{a}}({\text{concat}}\;({\boldsymbol{a}}_{t - 1}^q,{\boldsymbol{x''}})) $,

19. 　　　$ {\boldsymbol{b}}_t^{\text{q}} = E_{\text{q}}^{{b}}({\text{concat}}\;({\boldsymbol{b}}_{t - 1}^q,{\boldsymbol{x''}}) $;

20. 　　　$ {{\boldsymbol{\hat x}}_t} = {E_{\text{r}}}({\boldsymbol{x''}}) $;

21. 　　　$ {L_{{\text{ELBO}}}}({\boldsymbol{a}}_t^{\text{p}},{\boldsymbol{a}}_t^{\text{q}},{\boldsymbol{b}}_t^{\text{p}},{\boldsymbol{b}}_t^{\text{q}},{{\boldsymbol{x}}_t},{{\boldsymbol{\hat x}}_t}) $;

22. 　　end

23.

24. 　　/* 第80个epoch后, 开始域自适

25. 　　　应训练. */

26. 　　if e > 80 do:

27. 　　　$ {\boldsymbol{\hat y}} = {F_{{\text{cls}}}}({\boldsymbol{a}}_T^{\text{q}}) $,$ \hat z = {D_{{\text{cls}}}}({\boldsymbol{b}}_T^{\text{q}}) $;

28. 　　　$ {L_{\text{c}}}({\boldsymbol{\hat y}}{\text{, }}{\boldsymbol{y}}) $,$ {L_{\text{d}}}({\boldsymbol{z}}{\text{, }}{\boldsymbol{\hat z}}) $,$ {L_{{\text{MK-MMD}}}}({\boldsymbol{a}}_T^{{\text{qs}}},{\boldsymbol{a}}_T^{{\text{qt}}}) $;

29. 　　end

30. 　end

31.

32. 4.测试阶段：

33. 　计算$ {\boldsymbol{a}}_T^{\text{q}} $, 预测故障类$ {\boldsymbol{\hat y}} = {F_{{\text{cls}}}}({\boldsymbol{a}}_T^{\text{q}}) $；

3. 实验及结果分析

3.1. 数据集与实验细节

为了评估所提出模型的解耦能力和迁移性能，在凯斯西储大学轴承（Case Western Reserve University，CWRU）数据集^[26]和智能维护系统（intelligent maintenance systems, IMS）数据集^[27]上进行实验验证. 1）CWRU数据集：实验基于12 kHz 的驱动端轴承传感器数据，如表1所示为该数据集工作负载参数，其中$l$为电机负荷，v为转速，N₁为样本数. 在迁移性能验证实验中，根据轴承的工作负载（电动机负荷和电动机转速）的不同，划分为4个数据域；根据故障直径（0.1778 mm、0.3556 mm和0.5334 mm）和故障位置（轴承内圈、滚珠和外圈）的不同，划分为10种故障. 2）IMS数据集包含在一定测试条件下（轴转速为2000 r·min⁻¹，径向载荷为26689.34 N）的4种轴承健康状态：正常样本，以及轴承内圈、滚珠和外圈故障. 在实验中，每个样本长度为1 200个时间步，滑动窗口宽度为400个时间步，滑动步长为200个时间步. 每个样本的时间阶数$T = 5$. 源域和目标域均按8∶2划分训练集和测试集，实验采用Adam优化器进行训练，初始学习率为$1 \times {10^{ - 4}}$，共训练200个迭代轮次.

表 1 CWRU数据集工作负载参数

Tab.1 Operating parameters of CWRU dataset

负载条件	$l$/W	v/(r·min⁻¹)	N₁
1	0	1 797	1 114
2	745.70	1 772	1 313
3	1491.39	1 750	1 313
4	2237.10	1 730	1 315

新窗口打开| 下载CSV

3.2. 迁移性能验证

测试所提方法在不同域之间的迁移性能，以分类准确率作为评估指标. 实验基于6种方法，包括作为比对的基线方法BASE，以及DDC^[9]、CORAL^[10]、DANN^[11]、CDAN^[13]、和SFDA^[14]. 所有对比方法均采用1个1DCNN作为骨干网络，并连接1个线性分类器进行故障分类^[25]. BASE在目标域上直接进行测试，不对域自适应任务进行专门设计. 基于CWRU数据集4种不同工作负载下的轴承数据，设计12组迁移实验，结果如表2所示，其中[1]-[2]表示从第1种到第2种工作负载条件下的迁移，$A$为诊断准确率，即正确诊断的样本数占所有样本数的百分比. 由于工作负载条件关联信号的振动模式，负载变化会导致信号统计特征分布产生一定程度的变化. 具有良好域适应能力的故障诊断模型，能够有效克服弱相关因素变化的影响，从不同工作负载下正确诊断出轴承故障，极大地减少工业实践中的重复操作. 由表可知，BASE在不同迁移条件下的数据存在相关性，模型迁移到目标域后依然能够识别出大部分故障类型；在所有迁移任务中，任务[1]-[4]和[4]-[1]、[2]-[4]和[4]-[2]，在6种实验方法上的整体表现欠佳，说明这2个域存在较大的域偏移，对模型的迁移性能有更高要求. DDC、CORAL对域迁移任务进行特化，通过最小化MMD来缩小2个域的差异，在模型训练时对源域和目标域特征进行对齐. DANN和CDAN都采用域对抗的方法，域偏移进一步缩小，但模型训练时须兼顾故障分类和域判别2个任务，增大了特征学习的难度. SFDA在目标域训练时不使用源域数据的情况下取得了相对较好的结果，但模型训练过程不稳定，很难收敛至最优解. 本研究所提方法基于因果学习，将故障相关特征和域相关特征解耦，提取数据中与故障直接因果相关的部分用于故障诊断，并从故障无关特征中学习不同操作条件下轴承振动信号的特性，同时提高了所学特征在故障诊断和域分类时的判别性能，在参与对比的方法中诊断结果最好.

表 2 不同方法在12种迁移任务中的轴承故障诊断准确率

Tab.2 Bearing fault diagnosis accuracy of different methods in twelve transfer tasks

迁移任务	A/%
迁移任务	BASE	DDC^[9]	CORAL^[10]	DANN^[11]	CDAN^[13]	SFDA^[14]	本研究
[1]-[2]	96.53 ± 0.12	95.71 ± 0.41	94.52 ± 0.51	96.43 ± 0.23	97.59 ± 0.13	96.83 ± 0.79	98.63 ± 0.07
[1]-[3]	92.84 ± 0.49	95.48 ± 0.25	92.34 ± 1.10	96.24 ± 0.53	99.17 ± 0.17	98.63 ± 0.84	99.39 ± 0.13
[1]-[4]	88.91 ± 0.93	92.19 ± 0.58	91.56 ± 2.08	97.82 ± 0.36	98.32 ± 0.21	96.25 ± 0.66	98.69 ± 0.19
[2]-[1]	98.82 ± 0.07	98.96 ± 0.43	98.33 ± 0.24	98.65 ± 0.20	99.10 ± 0.26	98.25 ± 0.45	99.89 ± 0.06
[2]-[3]	98.56 ± 0.21	97.79 ± 0.26	98.82 ± 0.09	99.37 ± 0.18	99.53 ± 0.06	97.22 ± 0.76	99.64 ± 0.09
[2]-[4]	92.67 ± 0.18	93.48 ± 0.91	94.72 ± 1.61	99.15 ± 0.32	98.97 ± 0.21	98.62 ± 0.47	99.23 ± 0.05
[3]-[1]	96.31 ± 0.42	96.99 ± 0.72	97.53 ± 0.14	92.85 ± 0.71	99.12 ± 0.13	96.09 ± 0.77	99.15 ± 0.08
[3]-[2]	97.15 ± 0.29	98.51 ± 0.44	99.49 ± 0.11	95.47 ± 0.93	98.87 ± 0.22	97.53 ± 0.49	99.92 ± 0.03
[3]-[4]	98.88 ± 0.06	99.22 ± 0.34	98.28 ± 0.07	99.64 ± 0.09	99.95 ± 0.13	98.85 ± 0.39	100.0 ± 0.00
[4]-[1]	81.09 ± 1.13	84.35 ± 0.81	88.37 ± 0.13	88.34 ± 0.45	92.23 ± 0.18	95.62 ± 0.42	97.42 ± 0.12
[4]-[2]	84.56 ± 0.75	89.61 ± 0.74	90.43 ± 0.38	87.48 ± 0.73	91.43 ± 0.61	93.26 ± 0.72	95.34 ± 0.21
[4]-[3]	95.93 ± 0.53	96.49 ± 0.63	97.03 ± 0.16	97.42 ± 0.16	98.81 ± 0.09	97.31 ± 0.59	98.82 ± 0.16

新窗口打开| 下载CSV

表2中方法之间的性能差距不显著，原因是不同工作负载的数据间的域偏移不明显. 基于不同平台采集的滚动轴承数据集，轴承型号、工作条件、噪声等因素间存在差异. 为了进一步验证模型的迁移性能，在2个数据集上进行跨数据集的域迁移，实验结果如图5所示. 相较于同一数据集中的域分布，不同轴承数据集间存在更大的域偏移，解耦后的故障相关特征能更好地找到不同数据域之间的故障共性，在所有方法中结果最好. CWRU数据集作为源域数据训练时使用了更多不同工作负载条件下的样本，训练模型的泛化性能更强，因此故障诊断的诊断准确率强于IMS数据集作为源域数据时的准确率.

图 5

图 5 跨数据集迁移性能比较

Fig.5 Comparison of cross-dataset transfer performance

3.3. 实验数据可视化

将DANN与本研究所提方法的实验结果进行可视化分析，如图6所示为2种方法的诊断结果混淆矩阵. 为了提高结果的代表性，采用训练集上最后1个迭代轮次得到的模型，数据基于CWRU数据集上的迁移任务[3]-[1]. 图中，故障类别1为正常类，类别2~4分别表示尺寸为0.1778 mm的内圈、滚珠和外圈故障，类别5~7、8~10分别表示尺寸为0.3556 mm和0.5334 mm的3种故障. 在迁移到目标域数据后，DANN对滚珠处故障识别效果较差，较难区分不同尺寸故障（类别3、类别6和类别9）之间的差异. 滚珠在轴承运转过程中具有复杂的运动轨迹和不断变化的接触点，因而滚珠故障的振动信号表现出更多随机性和复杂频谱成分^{[1, 28]}，在不同工况下对震动信号的域分布影响较大，导致DANN模型在迁移后没有从目标域数据中学习到清晰的决策边界. DANN采用域对抗的训练策略，需要在特征域判别性和类判别性之间寻找平衡，在不同尺寸的故障类间差异较小而域间差异较大的情况下，易受无关因素的干扰，很难达到最优的诊断结果. 本研究的解耦方法能够有效分离出与故障类直接因果相关的信息，降低其他因素的干扰，提高所学特征的类间差异，故障分类结果更好.

图 6

图 6 不同方法故障诊断结果的混淆矩阵

Fig.6 Confusion matrix of fault diagnosis results from different methods

基于t分布随机领域嵌入（t-distributed stochastic neighbor embedding，t-SNE）降维算法^[29]，将迁移任务[3]-[1]中学到的特征映射到二维平面，如图7所示，${d_1}$和${d_2}$分别为降维后的特征维度. 迁移到新的数据域后，2种方法都能利用在源域学到的知识，有效缩小类内间距，聚合同一类型的故障. DANN不同尺寸的滚珠故障在分类阶段易发生混淆，因果解耦后的特征仅在类别9的识别上出现少量误判. 解耦后特征的各个类别之间有足够的决断距离，因此在特征的判别性上强于DANN.

图 7

图 7 不同故障方法的分布随机领域嵌入可视化结果

Fig.7 Visualization results of t-distributed stochastic neighbor embedding for different fault diagnoses

3.4. 损失函数对诊断性能的影响

本研究所提方法采用因果学习和迁移学习策略来实现前述的性能，为了验证这些学习策略的有效性，对损失函数的各项进行实验比较. 实验基于CWRU到IMS的迁移，所有实验均保留必要的源域分类损失$ {L_{{\text{cls}}}} $，分别去除$ {L_{{\text{MK-MMD}}}} $、$ {L_{{\text{ELBO}}}} $和$ {L_{\text{d}}} $，如表3所示. 表中“+”表示损失函数中包含此项损失，“−”号表示不使用该项损失. 不使用$ {L_{{\text{ELBO}}}} $时（实验1和2），采用VAE作为基准，网络结构与所提方法的网络相同，以LSTM学到的特征分布作为先验，但不对所学特征进行因果解耦，训练时以序列重建为代理任务，并对中间特征进行故障分类. $ {L_{\text{d}}} $依赖因果解耦后的故障无关特征，须和$ {L_{{\text{ELBO}}}} $同时使用（实验3）. 不使用$ {L_{{\text{MK-MMD}}}} $时，直接在目标域进行测试（实验2和4）. 单独使用$ {L_{{\text{cls}}}} $的基准实验迁移结果最差. 无论是单独使用$ {L_{{\text{MK-MMD}}}} $拉近源域和目标域数据之间的距离，还是单独采用因果学习策略去除域相关因素在分类时的干扰，均提高了域迁移后的故障诊断准确率. 实验3相对更高的准确率反映出解耦后的故障相关特征有更好的泛化性能，能够平衡域偏移的影响. 结合这3项损失的实验诊断准确性最优，表明因果网络的特征解耦能力可与域自适应方法互相补充，提高模型对数据的泛化性能.

表 3 损失函数对诊断性能的影响

Tab.3 Effect of loss functions on diagnostic performance

实验编号	$ {L_{{\text{ELBO}}}} $	$ {L_{{\text{MK-MMD}}}} $	$ {L_{\text{d}}} $	A/%
1	−	−	−	64.63
2	−	+	−	75.42
3	+	−	+	79.62
4	+	+	+	85.31

新窗口打开| 下载CSV

4. 结　语

本研究提出新的滚动轴承故障诊断方法，结合因果解耦表示学习和域自适应方法，提高了在滚动轴承跨域故障诊断的准确性. 解耦表示学习将所学特征分解为故障相关特征和故障无关特征，分别用于故障分类和域判别，避免了各自任务中无关因素的干扰，提高了所学特征的判别性能. 实验结果表明，所提方法可在跨域迁移时实现比现有的域自适应故障诊断方法更高的准确性，泛化性能更强，降低对标签数据的依赖. 本研究使用单一数据集作为源域和目标域，在工业实践中存在大量不同分布的采集数据，在单一源域数据上训练的故障诊断模型往往难以在所有目标域实现良好的泛化性能，多源域和多目标域的域自适应任务能充分利用不同数据域上的互补信息，提升故障诊断准确率和模型泛化能力，是极具应用潜力的研究方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

高萍. 基于可靠性分析的复杂设备预防性维修决策研究 [D]. 北京: 清华大学, 2008: 1–119.

GAO Ping. The research on preventive maintenance decision of complex equipment based on reliability analysis [D]. Beijing: Tsinghua University, 2008: 1–119.

[2]

GAO Z, CECATI C, DING S X

A survey of fault diagnosis and fault-tolerant techniques: Part II: fault diagnosis with knowledge-based and hybrid/active approaches

[J]. IEEE Transactions on Industrial Electronics, 2015, 62 (6): 3768- 3774

DOI:10.1016/j.compind.2019.01.012 [本文引用: 3]

[3]

YIN S, DING S X, XIE X, et al

A review on basic data-driven approaches for industrial process monitoring

[J]. IEEE Transactions on Industrial Electronics, 2014, 61 (11): 6418- 6428

DOI:10.1109/TIE.2014.2301773 [本文引用: 1]

[4]

CAI B, HUANG L, XIE M

Bayesian networks in fault diagnosis

[J]. IEEE Transactions on Industrial Informatics, 2017, 13 (5): 2227- 2240

DOI:10.1109/TII.2017.2695583

[5]

周策, 白斌, 叶楠

自适应粒子群优化支持向量回归的工程系统可靠性预测

[J]. 机械工程学报, 2023, 59 (14): 328- 338

DOI:10.3901/JME.2023.14.328 [本文引用: 1]

ZHOU Ce, BAI Bin, YE Nan

Reliability prediction of engineering system based on adaptive particle swarm optimization support vector regression

[J]. Journal of Mechanical Engineering, 2023, 59 (14): 328- 338

DOI:10.3901/JME.2023.14.328 [本文引用: 1]

[6]

HAN Y, TANG B, DENG L

An enhanced convolutional neural network with enlarged receptive fields for fault diagnosis of planetary gearboxes

[J]. Computers in Industry, 2019, 107: 50- 58

[7]

AN Z, LI S, WANG J, et al

A novel bearing intelligent fault diagnosis framework under time-varying working conditions using recurrent neural network

[J]. ISA Transactions, 2020, 100: 155- 170

DOI:10.1016/j.isatra.2019.11.010 [本文引用: 2]

[8]

PEI X, ZHENG X, WU J

Rotating machinery fault diagnosis through a transformer convolution network subjected to transfer learning

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 2515611

[9]

TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: maximizing for domain invariance [EB/OL]. (2014–12–10)[2024–06–10]. https://arxiv.org/pdf/1412.3474.

[本文引用: 4]

[10]

SUN B, SAENKO K. Deep CORAL: correlation alignment for deep domain adaptation [C]// Computer Vision – ECCV 2016 Workshops. [S.l.]: Springer, 2016: 443–450.

[11]

GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training of neural networks [M]// CSURKA G. Domain adaptation in computer vision applications. [S.l.]: Springer, 2017: 189–209.

DOI:10.1016/j.knosys.2021.106974 [本文引用: 1]

[12]

CHEN Z, HE G, LI J, et al

Domain adversarial transfer network for cross-domain fault diagnosis of rotary machinery

[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69 (11): 8702- 8712

DOI:10.1109/TIM.2020.2995441 [本文引用: 2]

[13]

LONG M, CAO Z, WANG J, et al. Conditional adversarial domain adaptation [C]// Proceedings of The 32nd International Conference on Neural Information Processing Systems. Montreal: [s.n.], 2018: 1647–1657.

[本文引用: 4]

[14]

JIAO J, LI H, ZHANG T, et al

Source-free adaptation diagnosis for rotating machinery

[J]. IEEE Transactions on Industrial Informatics, 2023, 19 (9): 9586- 9595

DOI:10.1109/TII.2022.3231414 [本文引用: 3]

[15]

LI Y, SONG Y, JIA L, et al

Intelligent fault diagnosis by fusing domain adversarial training and maximum mean discrepancy via ensemble learning

[J]. IEEE Transactions on Industrial Informatics, 2021, 17 (4): 2833- 2841

DOI:10.1109/TII.2020.3008010

[16]

ZHAO K, JIANG H, WANG K, et al

Joint distribution adaptation network with adversarial learning for rolling bearing fault diagnosis

[J]. Knowledge-Based Systems, 2021, 222: 106974

[17]

RAS G, XIE N, VAN GERVEN M, et al

Explainable deep learning: a field guide for the uninitiated

[J]. Journal of Artificial Intelligence Research, 2022, 73: 329- 396

DOI:10.1613/jair.1.13200 [本文引用: 1]

[18]

LOCATELLO F, BAUER S, LUCIC M, et al. Challenging common assumptions in the unsupervised learning of disentangled representations [C]// International Conference on Learning Representations. Long Beach: [s.n.]. 2019, 97: 4114–4124.

[19]

KINGMA D P, WELLING M. Auto-encoding variational Bayes [EB/OL]. (2022–12–10)[2024–06–10]. https://arxiv.org/pdf/1312.6114v11.

[20]

HIGGINS I, MATTHEY L, PAL A, et al. β-VAE: learning basic visual concepts with a constrained variational framework [C]// International Conference on Learning Representations. Puerto Rico: [s.n.]. 2016: 1–13.

[21]

LI J, WU B, SUN X, et al. Causal hidden Markov model for time series disease forecasting [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 12100–12109.

[22]

LONG M, CAO Y, CAO Z, et al

Transferable representation learning with deep adaptation networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41 (12): 3071- 3085

DOI:10.1109/TPAMI.2018.2868685 [本文引用: 2]

[23]

PEARL J. Causality: models, reasoning and inference [M]. New York: Cambridge University Press, 2000: 1–478.

[24]

HOU B, YANG J, WANG P, et al

LSTM-based auto-encoder model for ECG arrhythmias classification

[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69 (4): 1232- 1240

DOI:10.1109/TIM.2019.2910342 [本文引用: 1]

[25]

ZHAO Z, ZHANG Q, YU X, et al

Applications of unsupervised deep transfer learning to intelligent fault diagnosis: a survey and comparative study

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 3525828

[26]

SMITH W A, RANDALL R B

Rolling element bearing diagnostics using the Case Western Reserve University data: a benchmark study

[J]. Mechanical Systems and Signal Processing, 2015, 64: 100- 131

[27]

QIU H, LEE J, LIN J, et al

Wavelet filter-based weak signature detection method and its application on rolling element bearing prognostics

[J]. Journal of Sound and Vibration, 2006, 289 (4/5): 1066- 1090

[28]

RANDALL R B, ANTONI J

Rolling element bearing diagnostics: a tutorial

[J]. Mechanical Systems and Signal Processing, 2011, 25 (2): 485- 520

DOI:10.1016/j.ymssp.2010.07.017 [本文引用: 1]

[29]

VAN DER MAATEN L, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9: 2579- 2605