<img src="https://www.zjujournals.com/gcsjxb/images/1006-754X/images/logo.png" class="img-responsive">

图1 GAN和ACGAN框架

Fig.1 Frames of GAN and ACGAN

GAN的目标函数表示如下^[14]：

\begin{array}{l} \underset{G}{m i n} \underset{D}{m a x} L (D, G) = E_{x ~ P_{r}} [l o g D (x)] + \\ E_{z ~ P_{z}} [l o g (1 - D (G (z)))] \end{array}

(1)

式中： $E [\cdot]$ 为期望函数， $P_{r}$ 为真实样本x的数据分布， $P_{z}$ 为噪声样本z的数据分布， $D (x)$ 为判别器的输出值， $G (z)$ 为生成器的输出结果。

生成器和判别器的目标函数分别为^[21]：

\underset{G}{m i n} L (G) = E_{y ~ P_{g}} [l o g (1 - D (y))]

(2)

\begin{array}{l} \underset{D}{m a x} L (D) = E_{x ~ P_{r}} [l o g D (x)] + \\ E_{y ~ P_{g}} [l o g (1 - D (y))] \end{array}

(3)

式中： $P_{g}$ 为生成样本y的数据分布。

由式(2)和式(3)可知，生成器的目标是生成尽可能真实的数据来欺骗判别器，判别器的目标是最大化目标函数，即尽可能区分样本的真假源。

在模型的实际训练中存在着梯度消失和模型崩溃的问题，其原因是式(1)的度量模式为Jensen-Shannon divergence（JS散度）。在训练之初， $P_{r}$ 与 $P_{g}$ 在高维空间产生重叠，导致JS散度无法产生梯度，即梯度消失，从而导致模型无法得到训练。为此，Arjovsky等^[27]将Wasserstein距离引入目标函数，提出了WGAN，以解决JS散度度量模式无法提供训练梯度的问题。Wasserstein距离的定义如下^[27]：

W (P_{r}, P_{g}) = \underset{γ ~ \prod (P_{r}, P_{g})}{i n f} E_{(x, y) ~ γ} [‖x - y‖]

(4)

式中： $\prod (P_{r}, P_{g})$ 为 $P_{r}$ 与 $P_{g}$ 联合分布的集合， $i n f$ 表示下确界，γ为联合分布， $‖x - y‖$ 为样本距离。

式(4)表示在所有可能的联合分布中取到期望值的下界。

但由于 $\underset{γ ~ \prod (P_{r}, P_{g})}{i n f}$ 不能直接求解，须截断以限制判别器网络权值的取值范围，即满足Lipschitz连续条件，以近似计算Wasserstein距离。采用权值截断会使大部分权值落在截断的边界上，导致无法获得梯度，进而可能导致模式崩溃^[28]。改进WGAN即WGAN-GP^[29]采用由L2梯度惩罚项替换权值截断的方法解决上述问题。L2梯度惩罚项满足WGAN中的Lipschitz连续性条件，同时避免了权值截断导致的权重集中在边界上的问题，提高了模型的训练稳定性和灵活性。

L2梯度惩罚项定义为^[29]：

G_{P} = λ E_{P_{\hat{x}}} [{({‖\nabla_{\hat{x}} D (\hat{x})‖}_{2} - 1)}^{2}]

(5)

式中：G_P为梯度惩罚项， $λ$ 为比例因子， ${‖\cdot‖}_{2}$ 为二范数， $\nabla$ 表示梯度， $P_{\hat{x}}$ 为 $\hat{x}$ 的数据分布， $\hat{x} = t y + (1 - t) x, 0 \leq t \leq 1$ 。

WGAN-GP的目标函数如下^[29]：

\begin{array}{l} L = \underset{x ~ P_{r}}{E} [D (x)] - \underset{y ~ P_{g}}{E} [D (y)] + \\ λ \underset{\hat{x} ~ P_{\hat{x}}}{E} [{({‖\nabla_{\hat{x}} D (\hat{x})‖}_{2} - 1)}^{2}] \end{array}

(6)

1.2　ACGAN的原理

ACGAN是GAN的一种变体，同时具有条件生成对抗网络（conditional GAN, CGAN）^[30]和半监督学习生成对抗网络（semi-supervised learning GAN, SGAN）^[31]的特点，能够在生成符合特定条件的数据时输出其所属的类别。ACGAN的框架如图1(b)所示。生成器的输入噪声嵌入了标签信息，因此能够生成带标签的数据；判别器可判别真假数据源和区分数据类别信息。由于引入了标签信息，ACGAN的目标函数包含两个部分，分别如式(7)和式(8)所示^[19]：

L_{s o u r c e} = \underset{x ~ P_{r}}{E} [l o g D (x)] + \underset{z ~ P_{z}}{E} [l o g (1 - D (G (z)))]

(7)

L_{c l a s s} = E_{c ~ P_{r}} [l o g D (c)] + E_{c ~ P_{z}} [l o g (1 - D (G (c)))]

(8)

式中： $L_{s o u r c e}$ 为数据真假判别引起的损失， $L_{c l a s s}$ 为标签类别判断引起的损失，c为标签数据。

对于生成器而言，需要最大化 $(L_{c l a s s} - L_{s o u r c e})$ ；对于判别器，则最大化损失函数 $(L_{s o u r c e} + L_{c l a s s})$ 。

2 MDACGAN原理

2.1　模型框架设计

ACGAN将标签信息嵌入生成器的输入噪声中，同时进一步扩展了判别器的判别与分类能力。然而，与原始GAN一样，ACGAN同样存在训练不稳定、模型崩溃等问题。模型崩溃即生成器学习到了某种特殊的条件参数，此时生成器生成的假样本可以轻松骗过判别器。实际上生成器并不是真正地拟合真实的数据分布，而仅仅是某种特殊条件促使其生成相同的样本，可能会导致生成样本模式的缺失^[32]。因此，本文提出了MDACGAN模型，通过设计多个判别器来避免生成器学习到欺骗判别器的特殊条件，以解决模型崩溃问题。MDACGAN框架如图2所示。模型设计细节如下：

图2

图2 MDACGAN框架

Fig.2 Frame of MDACGAN

1）构造3个不同的判别器网络和1个生成器网络，进行对抗训练。3个判别器网络分别为2个卷积神经网络和1个全连接神经网络。由于3个网络模型的结构不尽相同，可避免生成器学习到欺骗判别器的特殊条件。

2）在原始的ACGAN中，判别器包含了判断真假源和分类标签两个功能，并且判断与分类部分共享了网络权重。新框架构建了3个判别器网络，若按照原始框架处理，则有3个分类器网络，而设计多判别器的目的主要是为了避免生成器学习到欺骗判别器的特殊条件，即其主要功能是真假源的判断。故MDACGAN模型中判别器的分类功能被独立出去，通过构建分类神经网络来处理标签分类问题。构造了独立的分类器后，既能减轻网络模型的冗余度，同时可以按照深度学习对分类模型的设计思路设计分类器，增强模型的可拓展性。

3）为了进一步提高模型提取特征的能力，在分类器中添加了ECA^[33]。该模块的特点是参数量相比其他注意力模块少。

4）在激活函数方面，判别器采用Leaky ReLU函数，生成器和分类器采用ReLU激活函数。此外，判别器和生成器采用RMSProp优化器来更新网络参数，以提高收敛速度，且避免梯度消失。分类器采用Adam优化器，用来高效处理稀疏梯度，提高训练的效率和稳定性。分类器的输出层采用Softmax函数处理多分类目标。

2.2　损失函数设计

如上文所述，原始的ACGAN存在训练不稳定、模型崩溃等问题，而MDACGAN模型通过设计多判别器的方式解决了模型崩溃的问题。本小节通过对目标函数优化设计来解决模型训练不稳定的问题。

WGAN即基于Wasserstein距离重新设计了GAN的目标函数，WGAN-GP则用梯度惩罚机制代替权重截断以满足LP，进一步优化了模型。这2次改进基本解决了原始GAN模型训练不稳定的问题。基于上述方法的优越性，将Wasserstein距离与梯度惩罚机制引入ACGAN模型的目标函数中。改进的目标函数如下：

\begin{array}{l} L_{D 0} = \underset{x ~ P_{r}}{- E} [D (x)] + \underset{y ~ P_{g}}{E} [D (y)] + \\ λ \underset{\hat{x} ~ P_{\hat{x}}}{E} [{({‖\nabla_{\hat{x}} D (\hat{x})‖}_{2} - 1)}^{2}] \end{array}

(9)

\begin{array}{l} L_{G} = - \frac{1}{3} [\underset{y ~ P_{g}}{E} [D_{0} (y)] + \underset{y ~ P_{g}}{E} [D_{1} (y)] + \\ \underset{y ~ P_{g}}{E} [D_{2} (y)]] + L_{C_{g}} \end{array}

(10)

L_{C_{r}} = \underset{x ~ P_{r}}{E} [- l o g P (c = c_{r} | x)]

(11)

L_{C_{g}} = \underset{y ~ P_{g}}{E} [- l o g P (c = c_{g} | y)]

(12)

L_{C} = \frac{1}{2} (L_{_{C_{r}}} + L_{_{C_{g}}})

(13)

式中： $L_{D}$ 、 $L_{G}$ 和 $L_{C}$ 分别为判别器、生成器和分类器的损失函数， $L_{C_{r}}$ 和 $L_{C_{g}}$ 分别为分类真实样本与生成样本的交叉熵损失函数。其中， $L_{D 0}$ 、 $L_{D 1}$ 和 $L_{D 2}$ 的表达式形式相同，这里只给出了 $L_{D 0}$ 的表达式， $L_{D 1}$ 和 $L_{D 2}$ 的表达式可类似获得。

后续经过实验发现，随着样本类别数量的增加，生成样本的质量会急剧下降，训练不稳定等情况会出现。Petzka等^[34]改进了梯度惩罚机制，提出了单边惩罚方法，只惩罚梯度范数大于1的部分，其定义如下^[34]：

L_{P} = λ E_{p_{\hat{x}}} [m a x \{0, {({‖\nabla_{\hat{x}} D (\hat{x})‖}_{2} - 1)}^{2}\}]

(14)

该方法将原 $G_{P}$ 的硬约束替换为单边软约束，进一步提升了训练的稳定性，并且降低了对超参数的敏感性。MDACGAN将 $L_{P}$ 引入判别器的目标函数中，最终判别器的目标函数如下：

\begin{array}{l} L_{D 0} = \underset{x ~ P_{r}}{- E} [D (x)] + \underset{y ~ P_{g}}{E} [D (y)] + \\ λ \underset{\hat{x} ~ P_{\hat{x}}}{E} [m a x \{0, {({‖\nabla_{\hat{x}} D (\hat{x})‖}_{2} - 1)}^{2}\}] \end{array}

(15)

2.3　模型训练流程

MDACGAN模型中3个判别器和1个生成器均采用RMSProp优化器，分类器采用Adam梯度下降算法，损失函数采用交叉熵损失函数。网络模型的结构和超参数是在ACGAN模型的基础上进行实验后得到的结果，其结构如表1所示。其中生成器学习率为0.000 2，分类器学习率为0.000 02，模型梯度惩罚项的惩罚系数为10，批量尺寸为10，输入生成器的噪声维度为100。

表1 MDACGAN模型的结构

Table 1 Structure of MDACGAN model

网络	结构
Discriminator0	Conv2D(32,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(64,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(128,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(256,3,2,same)+MaxPool2D(2,1,same)
	GlobalAvgpool2D()
	Dense(1)
Discriminator1	Conv2D(64,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(128,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(256,3,2,same)+MaxPool2D(2,1,same)
	Conv2D(512,3,2,same)+MaxPool2D(2,1,same)
	GlobalAvgpool2D()
	Dense(1)
Discriminator2	Flatten()
	Dense(256)+Dropout(0.2)
	Dense(128)+Dropout(0.2)
	Dense(64)+Dropout(0.2)
	Dense(1)
Generator	Dense(8192)
	Conv2Dtranspose(128,5,2,same)+BN()
	Conv2Dtranspose(64,5,2,same)+BN()
	Conv2Dtranspose(32,5,2,same)+BN()
	Conv2Dtranspose(1,5,2,same)
Classifier	Conv2D(32,3,2,same)+BN()+MaxPool2D(2,2,same)
	Conv2D(64,3,2,same)+BN()+MaxPool2D(2,2,same)
	Conv2D(128,3,2,same)+BN()+MaxPool2D(2,2,same)
	Conv2D(256,3,2,same)+BN()+MaxPool2D(2,2,same)
	ECA_block()
	GlobalAvgpool2D()
	Dense(8)
Optimizer of Discriminator0	RMSprop(0.0002,0.5)
Optimizer of Discriminator1	RMSprop(0.0002,0.5)
Optimizer of Discriminator2	RMSprop(0.0002,0.5)
Optimizer of Generator	RMSprop(0.0002,0.5)
Optimizer of Classifier	Adam(0.00002,0.5)

模型训练流程为：

1）生成器将嵌入了标签信息的随机噪声生成带标签的数据，生成数据和真实数据输入3个判别器中进行数据源判断，同时计算判别器网络损失函数，采用优化器更新网络参数。

2）生成器生成的数据和真实数据同样输入分类器中进行分类，并计算分类器损失，更新分类器的网络参数。

3）训练判别器和分类器后，进行组合结构训练。保持判别器和分类器的权重参数不变，基于生成器的损失函数计算损失，并更新参数。

训练完生成器后，即结束了一个轮次训练，进入下一轮迭代。通过足够多的迭代训练，生成器和判别器模型收敛而达到纳什均衡状态，分类器也达到收敛状态。此时，生成器生成的带标签的数据即可用于扩充数据集。

3 实验验证

实验所用PC（personal computer，个人电脑）的中央处理器采用AMD Ryzen 7 4800HS with Radeon Graphics，显存为6 GB的NVIDIA GeForce RTX2060 with Max-Q GPU。MDACGAN模型基于深度学习框架Tensorflow2.7构建。

3.1　实验1

基于凯斯西储大学轴承故障数据集的模型验证

3.1.1　数据集介绍与预处理

采用美国凯斯西储大学（Case Western Reserve University，CWRU）公开的轴承故障数据集^[35]。该数据集包含3种电火花引起的轴承损伤数据，损伤直径分别为0.178，0.356，0.533 mm，损伤点设置在3点钟、6点钟、12点钟等3个位置，包含内圈、滚动体、外圈等3种故障模式及0级、1级、2级、3级等4级负载。振动信号由16通道数据记录仪采集得到，采样频率分别为12, 48 kHz。

本次实验选取了8类驱动端轴承损伤数据，包含内圈、滚动体、外圈等3种故障模式，选取3个不同损伤位置以及0级、1级负载，如表2所示。从每种数据类型中，随机抽取连续的4 096个数据点作为一个样本，选取50个样本用于MDACGAN模型的训练以生成新的样本扩充数据，另取100个样本作为测试集，用于验证该方法的有效性。

表2 实验1的数据标签及故障类型

Table 2 Data labels and their fault types of experiment 1

标签	故障类型
0	12k_Drive_End_B007_0
1	12k_Drive_End_B021_1
2	12k_Drive_End_IR007_0
3	12k_Drive_End_IR021_1
4	12k_Drive_End_OR007@3_0
5	12k_Drive_End_OR007@6_0
6	12k_Drive_End_OR007@12_0
7	12k_Drive_End_OR021@3_1

本文采用一种由一维振动信号转换成二维灰度图的数据预处理方法^[36]。由于将数据信号由一维转换为二维，可以采用在图像领域表现优异的二维卷积核对原始数据进行特征提取。该转换方法可以表示为^[36]：

\begin{array}{l} P (j, k) = \\ r o u n d \{\frac{N [(j - 1) \times M + k] - m i n N}{m a x N - m i n N} \times 255\} \end{array}

(16)

式中： $P (j, k)$ 为转换完成后灰度图矩阵中 $(j, k)$ 位置的值； $M$ 为图像的长度，转换后图像大小为 $M \times M$ ； $N$ 为选择的原始数据点个数； $r o u n d (\cdot)$ 为四舍五入函数，用于保证原始数据值归一化为0~255后仍是整数，0~255即整个灰度图的像素值。

在处理中，将原始数据转换为64×64大小的灰度图，作为MDACGAN的输入。部分故障数据灰度图如图3所示。

图3

图3 实验1的部分故障数据灰度图

Fig.3 Gray scale of partial fault data in experiment 1

3.1.2　实验结果对比

实验所采用的模型结构如表1所示。MDACGAN模型生成的部分样本如图4(a)所示。由图可知，生成样本与真实样本相似但不完全相同，说明生成模型拟合到逼近真实的样本分布，而不是学习到能够欺骗判别器的特殊条件。ACGAN和ACWGAN-GP模型所生成的图片分别如图4(b)和图4(c)所示。

图4

图4 不同模型对CWRU轴承故障数据集生成的样本

Fig.4 Samples generated by different models on CWRU bearing fault data set

当然，肉眼的评判并不全面客观，本文采用弗雷歇感知距离D_FI^[37]和最大均值差异D_MM^[38]两种评价指标来评判所生成图片的质量，同时与ACGAN、ACWGAN-GP^[24]两种模型所生成的图片进行对比。

D_FI为真实图片与生成图片在特征层面的距离，本质上是采用均值和协方差矩阵计算2个分布之间的距离。D_FI表示为^[37]：

\begin{array}{l} D_{F I} = {‖μ_{r} - μ_{g}‖}^{2} + \\ T r (\sum_{r} + \sum_{g} - 2 {(\sum_{r} \sum_{g})}^{\frac{1}{2}}) \end{array}

(17)

式中： $μ_{r}$ 为真实图片特征的均值； $μ_{g}$ 为生成图片特征的均值； $T r$ 表示矩阵对角线上元素的总和，在矩阵论中称为迹（Trace）； $\sum_{r}$ 为真实图片特征的协方差矩阵； $\sum_{g}$ 为生成图片特征的协方差矩阵。

生成图片与真实图片的特征越相近，其均值之差的平方越小，协方差越小，D_FI值也就越小。较小的D_FI值意味着2个分布之间更接近，生成图片的质量较高，多样性更好。ACGAN、ACWGAN-GP、MDACGAN等3种模型以相同训练集作为输入，生成相同数量的数据样本，其D_FI值如表3所示。

表3 CWRU轴承故障数据集真实样本与生成样本之间的 D_FI 值

Table 3 D_FIvalues between real samples and generated samples of CWRU bearing fault data set

模型	类别
模型	0	1	2	3	4	5	6	7
ACGAN	532.10	532.11	532.10	532.11	532.01	532.10	532.11	532.11
ACWGAN-GP	179.08	326.34	488.76	171.87	236.83	199.66	220.80	532.00
MDACGAN	34.31	79.47	220.25	62.28	68.20	82.71	88.68	147.58

同时，引入另一种度量分布差异的指标D_MM，其在希尔伯特空间度量2个分布的差异。所以，可以用D_MM度量真实训练数据集分布 $P_{r}$ 与生成数据集分布 $P_{g}$ 之间的距离。D_MM值越小，则2个分布越接近，从而反映模型的生成效果越好。D_MM表示为^[38]：

D_{M M} (F, P_{r}, P_{g}) = \underset{{‖f‖}_{H} \leq 1}{s u p} E_{P_{r}} [f (x)] - E_{P_{g}} [f (y)]

(18)

式中： $F$ 为所有可能函数的集合， $s u p$ 表示取映射函数 $f$ 在给定范围的上确界即最大值， ${‖f‖}_{H} \leq 1$ 表示函数 $f$ 在再生希尔伯特空间中的范数小于等于1。

同样地，3种模型的D_MM值如表4所示。

表4 CWRU轴承故障数据集真实样本与生成样本之间的 D_MM 值

Table 4 D_MMvalues between real samples and generated samples of CWRU bearing fault data set

模型	类别
模型	0	1	2	3	4	5	6	7
ACGAN	4.330 5	4.873 7	4.661 9	5.337 8	4.445 5	4.761 7	5.637 8	5.071 2
ACWGAN-GP	0.340 6	0.412 0	0.419 7	0.343 7	0.702 4	0.352 2	0.603 9	0.635 6
MDACGAN	0.149 0	0.145 6	0.152 3	0.153 2	0.112 4	0.146 3	0.155 3	0.155 7

由表3和表4可知，MDACGAN模型的D_FI值和D_MM值比其他2种模型小得多，虽然标签2对应的D_FI值明显比其他类高，但根据D_MM值及其与其他2种模型的比较，可知该类生成质量仍然较高。ACGAN模型的D_FI值和D_MM值均较大，D_FI值基本相同，且通过对比可知真实样本图片与生成样本图片相差甚大，但生成的图片基本一样，说明原始的ACGAN模型在训练小样本、多类别数据时会发生崩溃，难以提取特征进行对抗生成工作。虽然ACWGAN-GP模型在目标函数中引入了Wasserstein距离和梯度惩罚项，相比ACGAN模型，其训练稳定性有所改善，但在完成多类别任务中表现效果较差，所生成图片的质量与多样性不高，这进一步验证了对本文所提出的MDACGAN模型框架以及损失函数改进的有效性。

为了进一步验证生成样本与真实样本的相似性，本文采用 $t$ 分布随机邻域嵌入（t-distributed stochastic neighbor embedding，t-SNE）^[39]方法对生成样本和真实样本进行降维可视化。ACGAN模型训练时发生崩溃，生成了相同的图片，因此没有进行比较分析。生成样本和真实样本的可视化结果如图5所示。图中，R_class n表示第n类真实样本（训练样本），G_class n表示第n类生成样本。由图可知，MDACGAN模型生成样本与真实样本的特征更具有相似性。

图5

图5 CWRU轴承故障数据集生成样本和训练样本 t-SNE可视化结果

Fig.5 Generated samples and training samples t-SNE visualization results of CWRU bearing fault data set

生成模型训练完成后，即可生成伪样本扩充故障数据集。CWRU轴承故障数据集的扩充和划分如表5所示。训练集共划分了7个数据集，其中：数据集1和数据集7为真实样本；数据集2至数据集6为混合数据集，即由生成样本与真实样本混合产生，真实样本的基数为50个。采用普通的CNN模型对上述数据集进行测试，其中CNN模型的结构与MDACGAN模型中Classifier模块的网络结构相同。同样由于ACGAN模型所生成图片的问题，只对比了MDACGAN和ACWGAN-GP模型扩充的数据集。其分类结果如表6所示。

表5 CWRU轴承故障数据集扩充和划分

Table 5 Expansion and division of CWRU bearing fault data set

类型	数据集	样本总数/个^①
测试集	数据集0	100
训练集	数据集1	50（0）
	数据集2	100（50）
	数据集3	150（100）
	数据集4	200（150）
	数据集5	250（200）
	数据集6	350（300）
	数据集7	200（0）

①“（）”内为生成样本数量。

表6 CWRU轴承故障数据集分类结果

Table 6 Classification result of CWRU bearing fault data set

模型	准确率/%
模型	数据集1	数据集2	数据集3	数据集4	数据集5	数据集6	数据集7
ACWGAN-GP	78.37	89.37	92.62	91.12	93.85	94.87	99.75
MDACGAN	78.37	90.25	93.75	95.62	97.13	98.00	99.75

由表6可知：数据集的数据量对故障诊断的准确率产生了影响，即使是普通的深度学习模型，在数据量充足的情况下，仍能取得较好的分类效果；通过MDACGAN模型生成数据样本扩充的数据集6已有98.00%的准确率，非常接近数据集7的99.75%的准确率。结果表明，生成对抗网络模型对于故障诊断具有较好的辅助作用，且本文提出的MDACGAN模型具有很好的拟合真实样本数据分布的能力。

3.2　实验2

基于XJTU-SY滚动轴承加速寿命试验数据集的模型验证

3.2.1　数据集介绍与预处理

XJTU-SY数据集是西安交通大学雷亚国教授团队联合浙江长兴昇阳科技有限公司而制作^[40]。该数据集包含了3种工况下滚动轴承全寿命周期振动信号。试验中传感器采样频率为25.6 kHz，采样间隔为1 min，采样时长为1.28 s。

本文实验从XJTU-SY数据集中选取了3种工况下的6种故障数据，包含外圈故障、保持架故障和内圈故障等3种故障模式。其数据标签及故障类型如表7所示。从每种类型的数据样本中，选取水平方向振动信号作为实验数据，数据预处理方法与对CWRU数据集的处理方法相同。将随机抽取连续的4 096个数据点转换为灰度图作为一个样本，选取50个样本用于生成对抗模型的训练，另外选取100个样本作为测试集，用于验证本文方法的有效性。

表7 实验2的数据标签及故障类型

Table 7 Data labels and their fault types of experiment 2

标签	工况	故障类型	失效位置
0	1	Bearing1_1	外圈
1	1	Bearing1_4	保持架
2	2	Bearing2_1	内圈
3	2	Bearing2_2	外圈
4	3	Bearing3_3	内圈
5	3	Bearing3_5	外圈

3.2.2　实验结果对比

与实验1相比，本次实验所采用的模型结构及其参数除了类别和数量不同外，其余完全相同，旨在通过采用不同的数据类别来进一步验证MDACGAN模型对于多故障模式数据样本的生成能力。由于ACGAN模型难以满足本任务要求，只对MDACGAN和ACWGAN-GP模型的生成结果进行对比。2种模型生成的数据样本如图6所示。同样地，采用D_FI和D_MM指标对生成结果进行测试，结果如表8和表9所示。生成样本和真实样本的可视化结果如图7所示。

图6

图6 不同模型对 XJTU-SY数据集生成的样本

Fig.6 Samples generated by different models on XJTU-SY data set

表8 XJTU-SY数据集真实样本与生成样本之间的 D_FI 值

Table 8 D_FIvalues between real samples and generated samples of XJTU-SY data set

模型	类别
模型	0	1	2	3	4	5
ACWGAN-GP	270.87	223.04	220.84	69.56	116.89	111.72
MDACGAN	141.37	178.31	144.87	60.16	110.65	66.07

表9 XJTU-SY数据集真实样本与生成样本之间的 D_MM 值

Table 9 D_MM values between real samples and generated samples of XJTU-SY data set

模型	类别
模型	0	1	2	3	4	5
ACWGAN-GP	0.233 8	0.352 9	0.310 9	0.239 0	0.339 3	0.213 3
MDACGAN	0.164 8	0.198 2	0.160 2	0.115 0	0.178 9	0.122 8

图7

图7 XJTU-SY数据集生成样本和训练样本 t-SNE可视化结果

Fig.7 Generated samples and training samples t-SNE visualization results of XJTU-SY data set

由图6可知，2种模型均较好地拟合了真实样本的数据分布，生成的数据样本与真实样本较为接近。由表8和表9可知，MDACGAN模型的多故障模式数据样本生成能力优于ACWGAN-GP模型。由图7可知：ACWGAN-GP模型的生成样本与真实样本的二维特征各类别之间存在混合现象，没有得到很好区分；MDACGAN模型的生成样本与真实样本较好地得到分类，各类别之间也具有差异性。

本次故障诊断实验的数据集划分与CWRU数据集划分模式相同，采用的故障诊断模型仍为CNN模型，网络结构与实验1的诊断任务相同，分类结果如表10所示。由表可知，数据集的扩充对分类精度有明显的提升作用，同时MDACGAN模型扩充数据集的分类准确率明显高于ACWGAN-GP模型。

表10 XJTU-SY数据集分类结果

Table 10 Classification result of XJTU-SY data set

模型	准确率/%
模型	数据集1	数据集2	数据集3	数据集4	数据集5	数据集6	数据集7
ACWGAN-GP	75.00	83.16	83.50	87.33	90.12	92.16	99.66
MDACGAN	75.00	85.86	88.21	89.66	91.83	95.50	99.66

3.3　实验3

基于IMS轴承数据集的模型验证

3.3.1　数据集介绍与预处理

IMS轴承数据集是美国辛辛那提大学李杰教授团队公开的数据集^[41]。该数据集包含了3组试验数据。每组试验均测试4个轴承，固定转速为2 000 r/min，试验台记录了轴承整个寿命周期的实测数据。当失效试验结束时，试验1中轴承3出现了内圈缺陷，轴承4出现了滚子元件缺陷；试验2中轴承3发生外圈失效；试验3中轴承3发生外圈失效。本实验选取试验1和试验2的各2组数据、试验3的3组数据，共7组数据。其数据标签及数据类型如表11所示。数据预处理方法与上述实验相同。将随机抽取的连续4 096个数据点转换为灰度图作为一个样本，选取50个样本用于生成对抗模型的训练，另选取100个样本作为测试集，用于验证本文方法的有效性。

表11 实验3的数据标签及故障类型

Table 11 Data labels and their fault types of experiment 3

标签	试验序号	测试的轴承	失效位置
0	1	轴承3	内圈
1	1	轴承4	滚动体
2	2	轴承1	外圈
3	2	轴承2	—
4	3	轴承1	—
5		轴承3	外圈
6		轴承4	—

3.3.2　实验结果对比

与上述实验相比，本次实验所采用的模型结构及其参数除了类别数量不同外，其余完全相同。由于ACGAN模型难以满足本任务要求，只对MDACGAN和ACWGAN-GP模型的生成结果进行对比。2种模型生成的数据样本如图8所示。同样地，采用D_FI和D_MM指标对生成结果进行测试，结果如表12和表13所示。生成样本和真实样本的可视化结果如图9所示。

图8

图8 不同模型对IMS数据集生成的样本

Fig.8 Samples generated by different models on IMS data set

表12 IMS数据集真实样本与生成样本之间的 D_FI 值

Table 12 D_FIvalues between real samples and generated samples of IMS data set

模型	类别
模型	0	1	2	3	4	5	6
ACWGAN-GP	255.29	148.21	515.00	195.62	173.14	237.86	106.51
MDACGAN	120.00	23.40	337.67	141.61	88.01	90.92	77.35

表13 IMS数据集真实样本与生成样本的 D_MM 值

Table 13 D_MMvalues between real samples and generated samples of IMS data set

模型	类别
模型	0	1	2	3	4	5	6
ACWGAN-GP	0.366 8	0.323 6	0.321 6	0.344 2	0.311 2	0.332 4	0.324 5
MDACGAN	0.180 5	0.141 5	0.213 3	0.134 2	0.144 3	0.197 0	0.116 3

图9

图9 IMS数据集生成样本和训练样本 t-SNE可视化结果

Fig.9 Generated samples and training samples t-SNE visualization results of IMS data set

由图8可知，2种模型生成的数据样本与真实样本都比较接近，ACWGAN-GP模型的某些类别生成数据与真实样本还存在一定差异。由表12和表13可知，MDACGAN模型的生成能力优于ACWGAN-GP模型。由图9可知，ACWGAN-GP模型的生成样本与真实样本的各类别二维特征并没有很好地聚合在一起，MDACGAN模型的样本区分做得更好。

本次故障诊断实验的数据集划分与上述实验相同，采用的故障诊断模型除分类类别不同外，其余基本相同，分类结果如表14所示。由表可知，MDACGAN模型所生成样本扩充数据的数据集对分类精度的提升幅度高于ACWGAN-GP模型扩充的数据集对分类精度的提升幅度。

表14 IMS数据集分类结果

Table14 Classification result of IMS data set

模型	准确率/%
模型	数据集1	数据集2	数据集3	数据集4	数据集5	数据集6	数据集7
ACWGAN-GP	75.28	86.85	88.71	91.00	89.01	91.85	97.28
MDACGAN	75.28	86.71	88.85	92.71	93.14	95.57	97.28

本文选用3个故障数据集来对比本文所提方法与其他方法的实验效果，其中故障类别包含了8类、7类和6类等3种，来验证模型对多种类故障数据分布的拟合能力。从上述实验结果可知，本文所提出的MDACGAN模型具有较好的故障数据分布拟合能力，能生成与真实样本逼近的数据，从而可以扩充数据集以辅助故障诊断，有效提高了故障诊断的准确率。

4 总结

针对机械设备故障诊断中存在的故障模式复杂、样本缺乏的问题，作者提出了一种多判别器辅助分类器生成对抗网络的数据增强算法。构建了3个判别器、1个生成器和1个分类器作为网络的整体框架；多判别器的设置减小了模型崩溃问题出现的概率；分类器的设置既减小了模型的冗余度，同时进一步增强了分类器的可拓展性。引入Wasserstein距离和LP正则化方法用于设计网络的损失函数，解决了模型训练不稳定的问题；将ECA机制引入分类器，进一步提高了模型的特征提取能力。3个数据集扩充的实验结果表明，MDACGAN模型的数据生成效果优于其他同类型模型，可以用于扩充故障数据集，提高诊断精度。此外，本文所提方法具有较好的拓展性，对于判别器的设计，本文只采用了CNN网络和多层感知器网络，分类器直接采用了CNN网络。对于该网络的设计，可以尝试采用其他深度学习算法，以得到能够满足多种需求的数据生成效果。

作者在未来的研究中，将针对MDACGAN模型在少样本学习和数据不平衡情况下的处理能力进行深入研究，使得其在数据量极少的条件下也能生成较高质量的伪样本，增强模型在特定任务中的有效性。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHONG

， HUANG

Time-frequency representation based on an adaptive short-time Fourier transform

［J］. IEEE Transactions on Signal Processing， 2010， 58（10）： 5118-5128.

[2]

TSE

P W

， PENG

Y H

， YAM R.

Wavelet analysis and envelope detection for rolling element bearing fault diagnosis： Their effectiveness and flexibilities

［J］. Journal of Vibration and Acoustics， 2001， 123（3）： 303-310.

[3]

HUANG

N E

， SHEN

， LONG

S R

， et al.

The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis

［J］. Proceedings of the Royal Society of London Series A： Mathematical， Physical and Engineering Sciences， 1998， 454： 903-995.

[4]

DRAGOMIRETSKIY

， ZOSSO

Variational mode decomposition

［J］. IEEE Transactions on Signal Processing， 2013， 62（3）： 531-544.

[5]

ZHANG

， ZHANG

， CHEN

， et al.

Fault state recognition of rolling bearing based fully convolutional network

［J］. Computing in Science & Engineering， 2019， 21（5）： 55-63.

[6]

WANG

， GUO

， SONG

， et al.

Application of multiscale learning neural network based on CNN in bearing fault diagnosis

［J］. Journal of Signal Processing Systems， 2019， 91（10）： 1205-1217.

[7]

， HE

Deep learning based approach for bearing fault diagnosis

［J］. IEEE Transactions on Industry Applications， 2017， 53（3）： 3057-3065.

[8]

RUAN

， SONG

， GÜHMANN

， et al.

Collaborative optimization of CNN and GAN for bearing fault diagnosis under unbalanced datasets

［J/OL］. Lubricants， 2021， 9（10）： 105［2023-10-20］. .

URL [本文引用: 1]

[9]

XIAO

， HUANG

， QIN

， et al.

Transfer learning with convolutional neural networks for small sample size problem in machinery fault diagnosis

［J］. Proceedings of the Institution of Mechanical Engineers Part C： Journal of Mechanical Engineering Science， 2019， 233（14）： 5131-5143.

DOI:10.3785/j.issn.1006-754X.2022.00.030 [本文引用: 1]

[10]

崔旭浩，郗欣甫，孙以泽.

数据驱动的经编机横移机构故障检测方法研究

［J］.工程设计学报，2022，29（3）：263-271. doi：10.3785/j.issn.1006-754X.2022.00.030

CUI

X H

， XI

X F

， SUN

Y Z

Research on data-driven fault detection method of traverse mechanism of warp knitting machine

［J］. Chinese Journal of Engineering Design， 2022， 29 （3）： 263-271.

DOI:10.3785/j.issn.1006-754X.2022.00.030 [本文引用: 1]

[11]

REN

， ZHU

， LIAO

， et al.

Selection-based resampling ensemble algorithm for nonstationary imbalanced stream data learning

［J］. Knowledge-Based Systems， 2019， 163： 705-722.

[12]

陈保家，陈学力，肖文荣，等.

小样本下滚动轴承故障的多源域迁移诊断方法

［J］.电子测量与仪器学报，2022， 36（2）： 219-228.

CHEN

J B

， CHEN

X L

， XIAO

W R

， et al.

Multi-source domain transfer diagnosis method for rolling bearing faults under small samples

［J］. Journal of Electronic Measurement and Instrumentation， 2022， 36（2）： 219-228.

[13]

吴定会，方钦，吴楚宜.

基于数据生成与迁移学习的轴承小样本故障诊断

［J］.机械传动，2020，44（11）：139-144.

D H

， FANG

， WU

C Y

Bearing small sample fault diagnosis based on data generation and transfer learning

［J］. Journal of Mechanical Transmission， 2020， 44（11）： 139-144.

[14]

GOODFELLOW

， POUGET-ABADIE

， MIRZA

， et al.

Generative adversarial nets

［C］//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal， Canada： MIT Press， 2014： 2672-2680.

[15]

GAO

， DENG

， YUE

Data augmentation in fault diagnosis based on the Wasserstein generative adversarial network with gradient penalty

［J］. Neurocomputing， 2020， 396： 487-494.

[16]

HAN

， LIU

， YANG

， et al.

A novel adversarial learning framework in deep convolutional neural network for intelligent diagnosis of mechanical faults

［J］. Knowledge-Based Systems， 2019， 165： 474-487.

[17]

ZHOU

， YANG

， FUJITA

， et al.

Deep learning fault diagnosis method based on global optimization GAN for unbalanced data

［J］. Knowledge-Based Systems， 2020， 187： 104837.

[18]

LIU

， CHEN

， QU

， et al.

LOSGAN： Latent optimized stable GAN for intelligent fault diagnosis with limited data in rotating machinery

［J］. Measurement Science and Technology， 2021， 32（4）： 045101.

[19]

ODENA

， OLAH

， SHLENS

Conditional image synthesis with auxiliary classifier GANS

［EB/OL］. ［2023-10-20］. .

URL [本文引用: 2]

[20]

SHAO

， WANG

， YAN

Generative adversarial networks for data augmentation in machine fault diagnosis

［J］. Computers in Industry， 2019， 106： 85-93.

[21]

卢锦玲，张祥国，张伟，等.

基于改进辅助分类生成对抗网络的风机主轴承故障诊断

［J］.电力系统自动化，2021， 45（7）：148-154. doi：10.7500/AEPS20200415002

DOI:10.7500/AEPS20200415002 [本文引用: 2]

J L

， ZHANG

X G

， ZHANG

， et al.

Fault diagnosis of main bearing of wind turbine based on improved auxiliary classifier generative adversarial network

［J］. Automation of Electric Power System， 2021， 45（7）： 148-154.

DOI:10.7500/AEPS20200415002 [本文引用: 2]

[22]

HUANG

， CHEN

， CAI

， et al.

Fault diagnosis of bearing in wind turbine gearbox under actual operating conditions driven by limited data with noise labels

［J］. IEEE Transactions on Instrumentation and Measurement， 2021， 70： 1-10.

DOI:10.3969/j.issn.1004-132X.2021.10.004 [本文引用: 1]

[23]

何强，唐向红，李传江，等.

负载不平衡下小样本数据的轴承故障诊断

［J］.中国机械工程，2021，32（10）：1164-1171. doi：10.3969/j.issn.1004-132X.2021.10.004

， TANG

X H

， LI

C J

， et al.

Bearing fault diagnosis method based on small sample data under unbalanced loads

［J］. China Mechanical Engineering， 2021， 32（10）： 1164-1171.

DOI:10.3969/j.issn.1004-132X.2021.10.004 [本文引用: 1]

[24]

YANG

Z K

， BU

L P

， WANG

， et al.

Fire image generation based on ACGAN

［C］//The 31th Chinese Control and Decision Conference， Nanchang， Jiangxi， Jun.， 3-5， 2019.

[25]

DHARANYA

， JOSEPH

RAJ A N

， GOPI

V P

Facial expression recognition through person-wise regeneration of expressions using auxiliary classifier generative adversarial network （AC-GAN） based model

［J］. Journal of Visual Communication and Image Representation， 2021， 77： 103110.

DOI:10.11959/j.issn.2096-109x.2021080 [本文引用: 1]

[26]

， ZHONG

， SHAO

， et al.

Multi-mode data augmentation and fault diagnosis of rotating machinery using modified ACGAN designed with new framework

［J］. Advanced Engineering Informatics， 2022， 52： 101552.

[27]

ARJOVSKY

， CHINTALA

， BOTTOU

Wasserstein generative adversarial networks

［C］//34th International Conference on Machine Learning， Sydney， Australia， Aug. 6-11， 2017.

[本文引用: 3]

[28]

王正龙，张保稳.

生成对抗网络研究综述

［J］.网络与信息安全学报，2021，7（4）：68-85. doi：10.11959/j.issn.2096-109x.2021080

WANG

Z L

， ZHANG

B W

A survey of research on generative adversarial network

［J］. Chinese Journal of Network and Information Security， 2021， 7（4）： 68-85.

DOI:10.11959/j.issn.2096-109x.2021080 [本文引用: 1]

[29]

GULRAJANI

， AHMED

， ARJOVSKY

， et al.

Improved training of Wasserstein GANS

［EB/OL］. ［2023-10-20］. .

URL [本文引用: 3]

[30]

MIRZA

， OSINDERO

Conditional generative adversarial nets

［J］. Computer Science， 2014： 2672-2680.

[31]

ODENA

Semi-supervised learning with generative adversarial networks

［EB/OL］. ［2023-10-20］. .

URL [本文引用: 1]

[32]

MORDIDO

， YANG

， MEINEL

Dropout-GAN： Learning from a dynamic ensemble of discriminators

［J］. arXiv preprint arXiv：， 2018.

[33]

WANG

， WU

， ZHU

， et al.

ECA-Net： Efficient channel attention for deep convolutional neural networks

［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition， Seattle， Washington， USA， Jun. 14-19. 2020.

[34]

PETZKA

， FISCHER

， LUKOVNICOV

On the regularization of Wasserstein GANS

［J］. arXiv preprint arXiv：， 2017.

[35]

SMITH

W A

， RANDALL

R B

Rolling element bearing diagnostics using the Case Western Reserve University data： A benchmark study

［J］. Mechanical Systems and Signal Processing， 2015， 64/65： 100-131.

[36]

WEN

， LI

， GAO

， et al.

A new convolutional neural network-based data-driven fault diagnosis method

［J］. IEEE Transactions on Industrial Electronics， 2018， 65（7）： 5990-5998.

[37]

HEUSEL

， RAMSAUER

， UNTERTHINER

， et al.

GANS trained by a two time-scale update rule converge to a local Nash equilibrium

［C］//NIPS'17： Proceedings of the 31st International Conference on Neural Information Processing Systems， Long Beach， CA， USA， Dec. 4-9， 2017.

[38]

GRETTON

， BORGWARDT

K M

， RASCH

M J

， et al.

A kernel two-sample test

［J］. The Journal of Machine Learning Research， 2012， 13（1）： 723-773.

[39]

PEZZOTTI

， LELOEVELDT

B P

， VAN DER MAATEN

， et al.

Approximated and user steerable tSNE for progressive visual analytics

［J］. IEEE Transactions on Visualization and Computer Graphics， 2016， 23（7）： 1739-1752.