浙江大学学报(工学版), 2021, 55(9): 1643-1651 doi: 10.3785/j.issn.1008-973X.2021.09.005

机械工程、能源工程

注意力卷积GRU自编码器及其在工业过程监控的应用

刘兴,, 余建波,

同济大学 机械与能源工程学院,上海 201804

Attention convolutional GRU-based autoencoder and its application in industrial process monitoring

LIU Xing,, YU Jian-bo,

School of Mechanical Engineering, Tongji University, Shanghai 201804, China

通讯作者: 余建波,男,教授,博导. E-mail: jbyu@tongji.edu.cn

收稿日期: 2020-08-24  

基金资助: 国家自然科学基金资助项目 (71771173);上海市科学技术委员会“科技创新行动计划”高新技术领域资助项目(19511106303)

Received: 2020-08-24  

Fund supported: 国家自然科学基金资助项目(71771173);上海市科学技术委员会“科技创新行动计划”高新技术领域资助项目(19511106303)

作者简介 About authors

刘兴(1996—),男,硕士生,从事过程控制研究.orcid.org/0000-0001-7153-8009.E-mail:953465408@qq.com , E-mail:953465408@qq.com

摘要

针对现有故障检测算法难以深入并准确地提取数据内在信息的问题,提出注意力卷积门控循环单元自编码器(CGRUA-AE)深度神经网络和基于CGRUA-AE的过程故障检测方法. 采用卷积门控循环单元(ConvGRU)有效地提取输入数据的空间和时间特征;建立基于ConvGRU的自编码器,采用无监督学习对时间序列数据进行特征提取,引入注意力机制对相应的特征进行加权计算,实现对关键特征的有效选择;分别在特征空间与残差空间上建立基于T 2、SPE统计量的过程监控模型,实现对多元数据有效的特征提取和故障检测. 数值案例和田纳西−伊士曼过程故障检测结果表明,CGRUA-AE具有良好的特征提取能力和故障检测能力,性能优于常用的过程故障检测方法.

关键词: 过程监控 ; 故障检测 ; 深度学习 ; 自编码器 ; 卷积门控循环单元(ConvGRU) ; 注意力

Abstract

A new deep neural network with attention convolutional gated recurrent unit-based autoencoder (CGRUA-AE) and a process fault detection method based on CGRUA-AE were proposed aiming at the problem that the existing fault detection algorithms were difficult to extract the internal information of data deeply and accurately. First, a convolutional gated recurrent unit (ConvGRU) was effectively extracted the spatial and temporal features of input data. Secondly, an auto-encoder based on ConvGRU was established, using unsupervised learning to extract features from time series data, introducing an attention mechanism to calculate the weight of corresponding features to realize the effective selection of key features. Finally, the process monitoring model based on $ {T}^{2} $ and SPE statistics were established in feature space and residual space respectively to realizes effective feature extraction and fault detection for multivariate data. Numerical case and Tennessee-Eastman process fault detection results show that CGRUA-AE has good feature extraction ability and fault detection ability, and its performance is superior to the common process fault detection methods.

Keywords: process monitoring ; fault detection ; deep learning ; autoencoder ; convolutional gated recurrent unit (ConvGRU) ; attention

PDF (1133KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘兴, 余建波. 注意力卷积GRU自编码器及其在工业过程监控的应用. 浙江大学学报(工学版)[J], 2021, 55(9): 1643-1651 doi:10.3785/j.issn.1008-973X.2021.09.005

LIU Xing, YU Jian-bo. Attention convolutional GRU-based autoencoder and its application in industrial process monitoring. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(9): 1643-1651 doi:10.3785/j.issn.1008-973X.2021.09.005

工业过程系统发生故障会导致产品质量下降,严重影响生产过程的稳定运行,甚至危及人身和企业财产安全. 因此故障检测及过程监控在现代工业过程中发挥着越来越重要的作用,如何从高维非线性的数据中准确并快速地发现并处理故障,对于保证生产过程安全、高效地运行具有重大意义[1-3].

在过去的数十年里,工业过程中的故障检测中最常用的方法主要是多元统计过程控制(multivariate statistical process control, MSPC)[4-6]. 在MSPC中,主成分分析(principal component analysis, PCA)是应用较广泛的技术[7-8],它通过降低维度的方式,使用霍特林 $ {T}^{2} $统计量或者平方预测误差(squared prediction error, SPE)检测工业过程中的故障. MSPC常用的方法还有偏最小二乘法(partial least squares, PLS)[9]、独立成分分析(independent component analysis, ICA)[10]、费希尔判别式分析(Fisher discriminant analysis, FDA)[11]. 传统的多元统计方法只能用于线性系统,因此常规的PCA技术已经扩展出很多的版本,例如核PCA (kernel principal component analysis, KPCA)[12-13]、加权PCA (weighted principal component analysis, WPCA)[14]、动态PCA(dynamic principal component analysis, DPCA)[15]. 这些基于数据投影的方法其性能取决于特征抽取结果,它们从复杂过程提取有效特征的能力有限,因此很难准确地分离正常与异常数据.

有许多学者尝试将机器学习的方法应用到过程监控中,如基于反向传播算法的神经网络[16],支持向量机(support vector machine, SVM)与PCA集成的混合方法[17]. Li等[18]将判别核参数应用到k−近邻规则中,用于间歇过程的故障检测. Kim等[19]通过集成高斯混合模型(Gaussian mixture model, GMM)、子空间模型识别(subspace model identification, SMI)分析对多变量的残差,再对混合过程系统中的故障进行故障检测和隔离. 黄健等[20]采用慢特征分析(slow feature analysis, SFA)提取过程的本质特征,再对嫌疑故障特征进行在线加权,取得了较好的故障检测结果.

近年来,深度学习[21]引起研究人员的极大关注. 深度学习也称为深度神经网络(deep neural network, DNN),它具有强大的特征提取能力[22]. 现在,深度学习已经广泛地应用到图像识别、自然语言处理、视频处理等多个领域中[23-24]. 典型的深度学习方法有深度信念网络(deep belief network, DBN)[24]、卷积神经网络(convolutional neural network, CNN)[25]、循环神经网络(recurrent neural network, RNN)[26]、深度自编码器[27]. 深度学习强大的特征学习能力也适用于工业过程的故障检测和诊断,如采用DBN提取时空域中的各个故障特征,并应用于田纳西−伊士曼过程的故障分类[28-29]. CNN可以有效提取图像数据的特征,在故障检测和诊断的任务上也取得了巨大成功[30-31]. 自编码器采用无监督的学习方式,可以降低高维数据的维度. Zhang等[32]使用堆叠降噪自动编码器(stacked denoising auto-encoders, SDAE)将原始空间的变量映射到特征空间和残差空间,并引入k−近邻规则构建2个新统计量进行过程监控.

目前,工业过程上故障检测用到的过程信号大部分是时间序列数据,上述深度学习中的很多方法并未考虑到时间序列的问题,因此在进行特征提取时往往会忽略重要的历史信息. RNN可以通过链式神经网络架构传播历史信息,适合用来处理时间序列数据,但RNN在训练时会出现梯度消失和梯度爆炸的问题. 门控循环单元(gated recurrent unit,GRU)[33]的更新门和重置门设计,避免了梯度消失和梯度爆炸,实现对长时间序列数据的有效预测.

本文提出基于卷积门控循环单元(convolutional gated recurrent unit, ConvGRU)和注意力的自编码器(CGRUA-AE)模型,并将其应用到工业过程故障检测中. ConvGRU用卷积运算代替GRU中的点乘运算,它融合了CNN的卷积功能,同时有效地集成了GRU记忆历史信息的能力,可以从复杂过程信号中实现更有效的特征提取.

1. 注意力卷积门控循环单元自编码器

1.1. 卷积门控循环单元

RNN能通过链式神经网络架构传播历史信息,但标准的RNN容易出现梯度消失和记忆衰减的问题. Hochreiter等[34]引入长短期记忆网络(long short-term memory, LSTM),LSTM使用3个门结构控制不同时刻的状态和输出,即输入门、输出门、遗忘门,克服梯度消失和梯度爆炸的问题. 为了简化LSTM内部的复杂结构,Cho 等[33]提出GRU. GRU将LSTM简化至2个门,即更新门、重置门.

普通LSTM和GRU的内部结构采用接近于全连接的方式,带来严重的信息冗余问题,且这种连接方式忽略了数据中局部像素之间的空间相关性. ConvGRU[35] 将GRU中的全连接的思想扩展到卷积结构中,用卷积运算代替GRU中的点乘运算,ConvGRU的内部结构如图1所示. 图中,rtzt分别为更新门、重置门, $\sigma $、tanh为激活函数,conv为卷积运算,WcWo分别为更新门、重置门对应的权重. 输入信息 xt经过 ConvGRU 的一系列处理,产生新的输出ht. ConvGRU是GRU的改进,它不仅可以像GRU一样建立时序关系,还可以像CNN一样刻画局部空间特征,处理时空预测的问题. ConvGRU通过卷积计算可以更好地提取数据空间特征,并且可以记住目标数据的历史信息.

图 1

图 1   ConvGRU结构

Fig.1   Structure of ConvGRU


1.2. CGRUA-AE网络结构

图2所示本文提出的CGRUA-AE主要包括编码和解码2个阶段,编码阶段有1个ConvGRU层,解码阶段有1个反卷积GRU(DeconvGRU)层和注意力模块.

图 2

图 2   CGRUA-AE的网络结构

Fig.2   Network structure of CGRUA-AE


1.2.1. 编码器

ConvGRU对输入数据进行编码,采用卷积核的方式代替全连接提取输入层数据的特征. ConvGRU由多个ConvGRU单元循环组成,每个单元的输入不仅包括当前时刻的输入信息xt,还包括上一个单元的隐藏信息ht-1,再生成新的隐藏信息ht. 每个ConvGRU单元由卷积部分、更新门、重置门等组成.

卷积部分采用卷积核提取数据特征,计算公式为

$ \boldsymbol{E} = \boldsymbol{U} \odot {\boldsymbol{h}_{t - 1}} + \boldsymbol{W} \odot {\boldsymbol{x}_t}. $

式中:UW分别为上一时刻各个门的循环权重、输入权重.

更新门可以有选择性地从隐藏状态中丢弃部分信息,并决定加入新的信息到隐藏状态中,计算公式为

$ {\boldsymbol{r}_t} = \sigma \left( {{\boldsymbol{E}_{\rm{r}}} + {\boldsymbol{b}_{\rm{r}}}} \right). $

式中: $\sigma $为sigmoid 函数符号, ${\boldsymbol{E}_{\rm{r}}}$${\boldsymbol{b}_{\rm{r}}}$分别为更新门的卷积结果、偏置参数.

重置门可以控制遗忘情况,决定需要忘记的信息,计算公式为

$ {\boldsymbol{z}_t} = \sigma \left( {{\boldsymbol{E}_{\rm{z}}} + {\boldsymbol{b}_{\rm{z}}}} \right). $

由式(1)~(3)ConvGRU确定最终的输出值

$ {\tilde {\boldsymbol{h}}_t} = {\rm{tanh}}\left( {{\boldsymbol{U}_{\rm{c}}} \odot \left( {{\boldsymbol{r}_t}{\boldsymbol{h}_{t - 1}}} \right) + {\boldsymbol{W}_{\rm{c}}} \odot {\boldsymbol{x}_t} + {\boldsymbol{b}_{\rm{c}}}} \right). $

$ {\boldsymbol{h}_t} = {\boldsymbol{z}_t}{\boldsymbol{h}_{t - 1}} + \left( {1 - {\boldsymbol{z}_t}} \right){\tilde {\boldsymbol{h}}_t}. $

式中: ${\tilde {\boldsymbol{h}}_t}$${{\boldsymbol{h}}_t}$分别为候选状态、最终状态.

1.2.2. 解码器

DeconvGRU的网络结构与ConvGRU相似,只是用反卷积运算替换卷积运算. 它包含多个DeconvGRU单元,每个单元的输入包括输出数据 ${{\boldsymbol{h}}_t} $和前一个单元的输出 $\boldsymbol{h}_{t - 1}'$. 每个单元由反卷积部分、更新门、重置门等组成.

反卷积部分使用反卷积核对输入提取特征,计算公式为

$ \boldsymbol{D} = \boldsymbol{U}' \otimes \boldsymbol{h}_{t - 1}' + \boldsymbol{W}' \otimes \boldsymbol{x}_t'. $

式中: $ {\boldsymbol{U}'} $$\boldsymbol{W}'$分别为上一时刻各个门的循环权重、输入权重.

反卷积得到的计算结果通过更新门和重置门的处理,使用式(2)、(3)产生新的隐藏信息,确定最终的输出结果

$ \widetilde {\boldsymbol{h}_t'} = \tanh \left[ {{\boldsymbol{U}_{\rm{d}}} \otimes \left( {\boldsymbol{r}_t'\boldsymbol{h}_{t - 1}'} \right) + {\boldsymbol{W}_{\rm{d}}} \otimes \boldsymbol{x}_t' + {\boldsymbol{b}_{\rm{d}}}} \right]. $

$ \boldsymbol{h}_t' = \boldsymbol{z}_t'\boldsymbol{h}_{t - 1}' + \left( {1 - \boldsymbol{z}_t'} \right)\widetilde {\boldsymbol{h}_t'}. $

式中: $\widetilde {\boldsymbol{h}_t'}$$\boldsymbol{h}_t'$分别为候选状态、最终状态, ${\boldsymbol U_{\rm d}}$为前一时刻的输出.

1.3. 注意力学习机制

近年来,注意力机制(attention mechanism, AM)被广泛应用于深度学习中[36]. AM通过构建注意力矩阵,使 DNN 在训练时关注重点特征,避免受到非敏感特征的影响. 它的实质是计算注意力的概率分布,对重要的特征分配更多的注意力,突出关键特征对结果的影响.

为了对自编码器提取的特征进行信息筛选,本文采用AM对特征信息动态地调整权重,选择更关键的特征拟合目标函数,如图3所示. 首先采用卷积核大小为N的ConvGRU提取过程信号特征,然后采用DeconvGRU还原特征,最后通过激活函数得到通道注意力图,将其与输入进行矩阵元素依次相乘,得到筛选之后的特征图. AM的计算公式为

$ {\boldsymbol{\alpha} _t} = {\rm{softmax}}\left( {\boldsymbol{Wh}_t^{{'}}} \right). $

$ \boldsymbol{A} = \mathop \sum \limits_t {\boldsymbol{\alpha} _t} \boldsymbol{h}_t^{{'}}. $

式中:softmax为逻辑回归函数, ${\boldsymbol{\alpha} _t}$为计算得到的注意力权重,A为经过注意力机制后的输出向量.

CGRUA-AE模型的最后一层为全连接层,全连接层融合注意力层输出的特征,得到最终的重构结果Y,计算公式为

$ \boldsymbol{Y} = \boldsymbol{WA} + \boldsymbol{B} $

式中:B为全连接层的权重。

图 3

图 3   AM的作用流程

Fig.3   Function process of AM


1.4. CGRUA-AE训练

CGRUA-AE模型采用Adam优化器对网络进行训练,它的输出是对原始数据进行编码解码后的重构数据.

算法:CGRUA-AE的训练和测试

输入:训练数据 ${\boldsymbol{x}}$,测试数据 ${{\boldsymbol{x}}}_{t}$

1) 设定ConvGRU层、DeconvGRU层、注意力层、学习率、全连接层以及批量大小等超参数;

2) 随机初始化CGRUA-AE网络所有权重和偏差;

3) For 训练次数N

4) 输入训练数据x

5) 计算编码阶段ConvGRU输出的特征h

6) 计算解码阶段输出的重构数据 $ \boldsymbol{y} $

7) 计算重构误差 L

8) 对网络进行训练,更新参数;

9) End For;

10) 输入测试数据 $ {\boldsymbol{x}}_{t} $

11) 计算编码阶段ConvGRU输出的特征 $ {\boldsymbol{h}}_{t} $

12) 计算解码阶段输出的重构数据 $ {\boldsymbol{y}}_{t} $

输出:特征h,重构数据y.

CGRUA-AE训练时采用均方差(mean square error, MSE)作为模型的损失函数,计算式为

$ \boldsymbol{L} = \frac{1}{m}\mathop \sum \limits_{t = 1}^m {{\boldsymbol{y}}_t} - {{\boldsymbol{x}}_t}. $

2. 基于CGRUA-AE的监控模型

CGRUA-AE通过编码与解码得到特征数据与重构数据,其计算过程可以简化为

$ \boldsymbol{h}\left( \boldsymbol{x} \right) = {{f}_{\theta 1}}\left( \boldsymbol{x} \right). $

$ \boldsymbol{y} = {{f}_{\theta 2}}\left[ {\boldsymbol{h}\left( \boldsymbol{x} \right)} \right]. $

式中:x表示输入数据, $\theta 1$$\theta 2$分别为 CGRUA-AE编码器、解码器的参数集合, ${{f}_{\theta 1}}$${{f}_{\theta 2}}$分别表示编码器、解码器中的计算, $\boldsymbol{h}\left( \boldsymbol{x} \right)$为编码阶段提取的特征数据,y为重构数据.

${T^2}$统计量和SPE统计量是过程监控和故障检测中常用的统计量,它们分别在特征空间和残差空间中表示重构数据和输入数据之间的差异度量. ${T^2}$统计量计算式为

$ {\boldsymbol{h}^{\rm{T}}}{{\bf{\Phi }}^{ - 1}}\boldsymbol{h}. $

式中:h为编码阶段提取的中间特征; $\boldsymbol{\varPhi} $为中间特征的协方差矩阵

$ \boldsymbol{\varPhi} = \frac{1}{{\left( {n - 1} \right){\boldsymbol{h}^{\rm{T}}}\boldsymbol{h}}}. $

CGRUA-AE网络的预测误差和SPE统计量计算式分别为

$ {{\boldsymbol{r}}_i} = {{\boldsymbol{x}}_i} - {{\boldsymbol{y}}_i}, $

$ {\rm{SPE}} = {\left\| {\boldsymbol{r}} \right\|^2} = {\left\| {{\boldsymbol{x}} - {\boldsymbol{y}}} \right\|^2}. $

控制图的阈值计算采用核密度估计(kernel density estimation, KDE)[37]的方法. KDE是概率论中用来估计未知数的密度函数,属于非参数检验方法之一. KDE函数的输入数据为正常状态下的 ${T^2}$统计量或SPE统计量,置信度水平 $ \alpha $是核密度估计的重要参数,本文中取 $ \alpha $=0.99,以控制正常样本的误警率低于1%.

基于CGRUA-AE的过程监控模型如图4所示. 实验包括离线建模和在线监控.

图 4

图 4   基于CGRUA-AE的过程监控流程

Fig.4   Process monitoring process based on CGRUA-AE


离线建模具体过程如下:1)收集正常状态下的训练数据X,并对X进行归一化处理;2)向CGRUA-AE模型输入训练数据X,使用无监督算法进行训练,保存训练好的模型;3)输入训练数据,提取训练数据的特征和重构数据;4)根据提取的特征数据和重构数据计算 ${T^2}$和SPE,使用核密度估计分别计算2种阈值.

在线监控具体过程如下:1)在线收集测试数据 ${\boldsymbol{X}'}$,并对 ${\boldsymbol{X}'}$进行归一化处理;2)将测试数据输入已经训练好的CGRUA-AE模型,提取测试数据的特征和重构数据;3)根据提取的测试特征和重构数据计算测试样本的 $ {T}^{2} $和SPE,并绘制对应的控制图;4)将计算得到的 ${T^2}$和SPE与阈值进行比较. 若小于阈值,表示数据为正常状态,否则视为出现故障.

3. 实验结果与分析

分别采用数值案例和TEP案例对CGRUA-AE的故障检测性能进行验证. 计算机硬件配置:处理器为Intel(R) Core(TM) i5-9400,GPU显卡为NVIDIA GeForce 1050 Ti,计算机内存8 GB,操作系统为Windows10(64-bit),编程语言为Python(版本为3.7.7),软件框架结构为Keras深度学习工具,以Tensorflow深度学习框架作为后端支持,开发软件为Spyder.

3.1. 数值案例

为了模拟实际工业过程数据,该数值案例由大量基本变量组成,并加入噪声,以更好地测试模型提取特征的能力. 数值案例构建如下

$ \left.\begin{array}{l}{x}_{1}={s}_{1}+{e}_{1},{x}_{2}={s}_{1}+{e}_{2},{x}_{3}=2{s}_{1}+{e}_{3},\\ {x}_{4}={s}_{1}-{s}_{2}+{e}_{4},{x}_{5}={s}_{1}+{s}_{2}+{e}_{5},{x}_{6}={s}_{3}^{2}+{e}_{6},\\ {x}_{7}={s}_{3}{s}_{4}+{e}_{7},{x}_{8}={s}_{4}+{e}_{8},{x}_{9}={s}_{4}+{s}_{5}^{2}+{e}_{9},\\ {x}_{10}={s}_{6}^{2}+{s}_{7}^{2}+{e}_{10},{x}_{11}={s}_{3}{s}_{8}+{e}_{11},{x}_{12}={s}_{7}-{s}_{8}+{e}_{12},\\ {x}_{13}={s}_{7}-{s}_{8}+{e}_{13},{x}_{14}={s}_{7}^{3}-{s}_{8}^{3}+{e}_{14},\\ {x}_{15}={s}_{7}^{3}-{s}_{8}+{e}_{15},{x}_{16}={x}_{1}{x}_{8}+{x}_{9}+{e}_{16}.\end{array}\right\} $

式中: ${x_i}$为过程变量; ${s_i}$为基本变量,共8个,服从0到1的均值分布; ej为系统所增加的噪声,服从均值为0且方差为0.01的高斯分布. 实验一共产生1个正常数据集和2个故障数据集,分别作为CGRUA-AE的训练集和测试集,具体产生过程如下:1)在正常情况下,生成16个过程变量( $ {x}_{1} $$ {x}_{2} $,…, $ {x}_{16} $)的400个样本作为训练集;2)重新生成400个样本,在第201个样本点开始引入异常,向变量 ${x_8}$引入大小为0.8的阶跃故障作为测试集1;3)重新生成400个样本,在第201个样本开始引入异常,向 ${s_8}$引入大小为0.02(i-200)的梯度故障作为测试集2.

CGRUA-AE模型的ConvGRU、DeconvGRU的卷积核数设为16,学习率设为0.001,批次大小为40. 实验中训练200次后损失值趋于稳定,第200次的损失值为0.000 14,训练时间一共为23.25 s.

3.1.1. 可视化分析

采用t-SNE[38]对提取的特征进行降维和可视化呈现,将编码器提取的特征降至二维空间. 如图5所示,(a)、(b)分别表示测试集1的原始数据和CGRUA-AE的编码器所提取的特征. 从图中可以看出,测试集原始数据的二维投影难以分辨正常数据和故障数据;而经过CGRUA-AE编码器提取特征后,正常数据和故障数据可以很好地分开.

图 5

图 5   故障1的特征可视化

Fig.5   Feature visualization of fault 1


3.1.2. 结果比较

为了验证CGRUA-AE方法的有效性,使用PCA、KPCA、GRU-AE故障检测方法对数值案例进行故障检测,并与CGRUA-AE的检测结果进行比较. 其中,KPCA核函数采用高斯核函数;GRU-AE由2个隐藏神经元数为20的GRU组成,学习率设为0.01. 表12分别列出了这4种方法对2种故障的 $ {T}^{2} $统计量和SPE统计量的故障检测率(DR)和误检测率(FDR). DR表示异常情况下故障数据能被检测出来的概率,FDR表示正常情况下的数据被识别为故障数据的概率,它们是评估监控方法有效性和可用性的重要指标. 一般情况下,DR的值越大,说明监控方法性能越好;FDR的值越小,监控方法越准确. 对于T2和SPE,在可接受的误检测范围内,PCA和KPCA的检测效果较差,未检测到大量故障数据. CGRUA-AE方法相对GRU-AE有较大程度的提升,平均故障检测率分别为91%、93%.

表 1   4种故障检测方法在T2统计量下的FDR/DR

Tab.1  FDR/DR of four fault detection methods-based $ {T}^{2} $ statistics

方法 故障1 故障2 平均值
PCA 0.03/0.41 0.03/0.79 0.03/0.60
KPCA 0/0.35 0/0.07 0/0.21
GRU-AE 0.01/0.83 0.01/0.83 0.01/0.83
CGRUA-AE 0.02/0.98 0.02/0.84 0.02/0.91

新窗口打开| 下载CSV


表 2   4种故障检测方法在SPE统计量下的FDR/DR

Tab.2  FDR/DR of four fault detection methods-based SPE statistics

方法 故障1 故障2 平均值
PCA 0.02/0.47 0.01/0.81 0.015/0.64
KPCA 0.03/0.92 0.01/0.85 0.02/0.885
GRU-AE 0.02/0.96 0.02/0.82 0.02/0.89
CGRUA-AE 0.02/0.99 0.02/0.87 0.02/0.93

新窗口打开| 下载CSV


3.2. 田纳西−伊士曼过程

田纳西−伊士曼过程(Tennessee Eastman process, TEP)于1990年,由美国伊士曼化学公司创建,它是基于实际工业过程的过程控制实例. TEP是系统工程研究领域的基石[39],大量文献引用它作为数据源来进行控制、优化、过程监控、故障诊断等方面的研究. TEP共有53个变量,包括12个操作变量,22个连续测量值和19个成分测量值. TEP数据包括1个正常情况下运行的数据集和在21种不同故障情况下运行得到的故障数据集. 这21个故障中包括16个已知故障(故障1~故障15、故障21)和5个未知故障(故障16~故障20),分为4种类型:阶跃变化、随机变化、慢偏移和阀门黏住.

本文中采用的TEP数据集一共有33个变量,包括22个连续测量值和11个操作变量. 采用常用的18个故障数据集检测方法的有效性. 使用正常情况下的正常数据集(500个样本)作为CGRUA-AE模型的训练集,训练完毕后,再使用其他18个故障数据集(960个样本)进行测试并提取特征. 所有故障数据集的故障均是在第161个样本点引入,即前160个样本为正常数据,后800个样本均为故障数据.

CGRUA-AE模型的ConvGRU的卷积核数设为32,学习率设为0.001,批次大小为50. 实验中训练200次后的损失值为0.000 18,总共用时24.87 s.

TEP中故障5发生时,冷凝器冷却入口温度发生变化,但温度变化会随时间增加逐渐平稳,因此后期的故障一般难以检出. 如图6所示为PCA、KPCA、GRU-AE、CGRUA-AE对TEP中故障5的监控效果,测试数据中前160个样本为正常数据,第161个样本及其后的数据为故障数据. KPCA采用高斯核函数;GRU-AE由2个隐藏神经元数为40的GRU组成,学习率设为0.01. PCA、KPCA、GRU-AE对故障5的检测效果都比较差,无法检测出后期的大量故障数据;CGRUA-AE的检测结果最好,可以检测出所有的故障数据,2种控制图的故障检出率都达到了100%.

图 6

图 6   4种故障检测方法对TEP故障5的监控结果

Fig.6   Monitoring results of four fault detection methods on TEP fault 5


TEP包含21种故障,故障类型可分为4种:阶跃(故障1~7)、随机变量(故障8~12)、未知(故障16~20)、其他(故障13~15、21)。表34列出这4种方法对TEP的这4种类型的故障基于 $ {T}^{2} $统计量和SPE统计量的平均故障检测率和误检测率,表格中加粗的数字为该故障的最高检测率,故障检测结果不包括故障3、9、15,因为这3种故障极难被检测出. 从表中结果可以看出,无论是 ${T^2}$统计量还是SPE统计量,对于所有类型的故障,CGRUA-AE方法都表现出最优的检测率,表明CGRUA-AE方法相比于普通的投影方法有更好的故障检测性能.

表 3   4种检测方法在T2统计量的TEP故障FDR/DR

Tab.3  FDR/DR of four fault detection methods-based $ {T}^{2} $ on TEP

方法 故障类型 平均值
阶跃 随机变量 未知 其他
PCA 0.01/0.78 0.01/0.72 0.02/0.51 0.01/0.77 0.014/0.69
KPCA 0.01/0.87 0.01/0.77 0.02/0.53 0.01/0.79 0.011/0.739
GRU-AE 0.02/0.87 0.07/0.85 0.08/0.67 0.04/0.82 0.051/0.803
CGRUA-AE 0.02/1 0.03/0.89 0.02/0.77 0.02/0.82 0.023/0.879

新窗口打开| 下载CSV


表 4   4种检测方法在SPE统计量的TEP故障FDR/DR

Tab.4  FDR/DR of four fault detection methods-based SPE on TEP

方法 故障类型 平均值
阶跃 随机变量 未知 其他
PCA 0.01/0.79 0.06/0.79 0.08/0.57 0.04/0.78 0.046/0.727
KPCA 0.01/0.66 0.01/0.65 0.05/0.45 0.01/0.70 0.023/0.604
GRU-AE 0.02/0.89 0.02/0.86 0.05/0.70 0.03/0.81 0.029/0.817
CGRUA-AE 0.02/0.99 0.03/0.88 0.02/0.86 0.01/0.81 0.02/0.903

新窗口打开| 下载CSV


除了以上方法,还有大量深度学习的方法已经应用到故障检测领域,如DBN、CNN、SDAE等. 由于LSTM与GRU类似,也能解决RNN存在的梯度消失的问题,继续将所提方法的故障检测结果与DBN、CNN、SDAE、LSTM进行比较. 其中,CNN的网络结构参考文献[30];SDAE的网络结构为“33-30-30-2”,学习率为0.5;DBN的故障检测结果来源于文献[28];LSTM由隐藏层为32的LSTM和1个全连接层组成. 它们的故障检测结果如表5所示,其中CNN、LSTM、SDAE( $ {T}^{2} $)以及DBN ( $ {T}^{2} $)的综合故障检测结果较差,基于SDAE和DBN的SPE统计量的故障检测率有较大的提升. CGRUA-AE在大部分故障类型中取得了最好的检测结果,表明CGRUA-AE有更好的特征提取能力和故障检测性能.

表 5   CGRUA-AE与深度学习检测方法的TEP故障FDR/DR

Tab.5  FDR/DR of CGURA-AE and deep learning detection methods on TEP

方法 故障类型 平均值
阶跃 随机变量 未知 其他
CNN 0.02/0.86 0.03/0.79 0.02/0.68 0.03/0.80 0.025/0.785
LSTM 0.02/0.94 0.03/0.79 0.02/0.67 0.02/0.80 0.019/0.809
SDAE (T2) 0.02/0.66 0.04/0.60 0.03/0.45 0.04/0.74 0.028/0.602
SDAE(SPE) 0.03/0.88 0.05/0.87 0.09/0.73 0.07/0.85 0.061/0.832
DBN (T2) 0.01/0.87 0.01/0.79 0.02/0.55 0.02/0.81 0.014/0.75
DBN(SPE) 0.01/0.98 0.01/0.82 0.01/0.78 0.01/0.79 0.011/0.856
CGRUA-AE (T2) 0.02/1 0.03/0.89 0.02/0.77 0.02/0.82 0.023/0.879
CGRUA-AE(SPE) 0.02/0.99 0.03/0.88 0.02/0.86 0.01/0.81 0.02/0.903

新窗口打开| 下载CSV


3.3. 注意力机制分析

为了更好地分析注意力机制对网络模型的影响,实验中分别研究了加入注意力机制前(CGRU-AE)和加入注意力后(CGRUA-AE)的损失函数下降情况. 采用TEP的训练数据对网络模型进行训练,损失函数为原始数据与重构数据之间的均方误差. 如图7所示为CGRUA-AE与CGRU-AE网络前200次训练的损失函数下降情况,CGRUA-AE初始的损失值小于CGRU-AE,且CGRUA-AE的损失函数下降速度更快. 最终完成迭代以后,CGRUA-AE的损失值明显小于CGRU-AE的. 如表6所示为2种网络基于 ${T^2}$和SPE统计量对TEP所有故障(3、9、15除外)的平均检测率R,CGRUA-AE模型在2种统计量的平均检测率均高于CGRU-AE模型. 这表明注意力机制可以帮助网络加快训练速度,降低数据重构的误差并提高故障检测率.

图 7

图 7   CGRUA-AE与CGRU-AE的损失值

Fig.7   Loss of CGRUA-AE and CGRU-AE


表 6   CGRUA-AE与CGRU-AE的故障检测率

Tab.6  Fault detection rates of CGRUA-AE and CGRU-AE

统计量 R/%
CGRU-AE CGRUA-AE
$ {T}^{2} $ 84.3 87.9
SPE 86.6 90.3

新窗口打开| 下载CSV


4. 结 论

(1)采用ConvGRU的设计,有效地提高了对信号数据的特征提取能力. 将卷积GRU与自编码器有效地集成,形成高效的无监督学习网络,避免了RNN遗忘长期信息的问题.

(2)在解码器内嵌入注意力机制,可以选择自编码器的关键特征传递到下一层,有效地加强了模型的学习性能,并提高了数据重构的准确性.

(3)将原始非线性空间映射到特征空间和残差空间,开发 ${T^2}$、SPE统计量表示特征以及原始数据和重构数据之间的差异,对过程故障进行准确检测.

(4)目前无法对过程的故障进行分类,下一步研究应结合分类器进行故障诊断.

参考文献

YIN S, YANG X, KARIMI H R

Data-driven adaptive observer for fault diagnosis

[J]. Mathematical Problems in Engineering, 2012, 2012: 832836

URL     [本文引用: 1]

XIE X, SUN W, CHEUNG K

An advanced PLS approach for key performance indicator-related prediction and diagnosis in case of outliers

[J]. IEEE Transactions on Industrial Electronics, 2016, 63 (4): 2587- 2594

URL    

YANG Q, GE S S, SUN Y

Adaptive actuator fault tolerant control for uncertain nonlinear systems with multiple actuators

[J]. Automatica, 2015, 60: 92- 99

DOI:10.1016/j.automatica.2015.07.006      [本文引用: 1]

WAN Z, LI J, GAO Y

Monitoring and diagnosis process of abnormal consumption on smart power grid

[J]. Neural Computing and Applications, 2018, 30 (1): 21- 28

DOI:10.1007/s00521-016-2719-4      [本文引用: 1]

GE Z Q

Review on data-driven modeling and monitoring for plant wide industrial processes

[J]. Chemometrics and Intelligent Laboratory Systems, 2017, 171: 16- 25

DOI:10.1016/j.chemolab.2017.09.021     

NOR N M, HASSAN C R C, HUSSAIN M A

A review of data-driven fault detection and diagnosis methods: applications in chemical process systems

[J]. Reviews in Chemical Engineering, 2019, 36 (4): 513- 553

URL     [本文引用: 1]

JIANG Q, YAN X, HUANG B

Performance-driven distributed PCA process monitoring based on fault-relevant variable selection and bayesian inference

[J]. IEEE Transactions on Industrial Electronics, 2015, 63 (1): 377- 386

URL     [本文引用: 1]

DENG X, TIAN X, CHEN S, et al

Nonlinear process fault diagnosis based on serial principal component analysis

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29 (3): 560- 572

DOI:10.1109/TNNLS.2016.2635111      [本文引用: 1]

ZHONG B, WANG J, ZHOU J, et al

Quality-related statistical process monitoring method based on global and local partial least-squares projection

[J]. Industrial and Engineering Chemistry Research, 2016, 55 (6): 1609- 1622

DOI:10.1021/acs.iecr.5b02559      [本文引用: 1]

YU G

Fault feature extraction using independent component analysis with reference and its application on fault diagnosis of rotating machinery

[J]. Neural Computing and Applications, 2015, 26 (1): 187- 198

DOI:10.1007/s00521-014-1726-6      [本文引用: 1]

ZHONG S, WEN Q, GE Z

Semi-supervised Fisher discriminant analysis model for fault classification in industrial processes

[J]. Chemometrics and Intelligent Laboratory Systems, 2014, 138: 203- 211

DOI:10.1016/j.chemolab.2014.08.008      [本文引用: 1]

LEE J M, YOO C K, CHOI S W, et al

Nonlinear process monitoring using kernel principal component analysis

[J]. Chemical Engineering Science, 2004, 59 (1): 223- 234

DOI:10.1016/j.ces.2003.09.012      [本文引用: 1]

JIANG Q, YAN X

Parallel PCA–KPCA for nonlinear process monitoring

[J]. Control Engineering Practice, 2018, 80 (9): 17- 25

URL     [本文引用: 1]

DEWI Y N, RIANA D, MANTORO T. Improving nave bayes performance in single image pap smear using weighted principal component analysis (WPCA) [C]// 2017 International Conference on Computing, Engineering, and Design (ICCED). Jakarta: IEEE, 2018: 1-5

[本文引用: 1]

WANG K, JUNG H C, ZHI S

Performance analysis of dynamic PCA for closed-loop process monitoring and its improvement by output oversampling scheme

[J]. IEEE Transactions on Control Systems and Technology, 2019, 27 (1): 378- 85

DOI:10.1109/TCST.2017.2765621      [本文引用: 1]

HEO S, LEE J H

Fault detection and classification using artificial neural networks

[J]. IFAC-PapersOnLine, 2018, 51 (18): 470- 475

DOI:10.1016/j.ifacol.2018.09.380      [本文引用: 1]

YANG C, HOU J

Fed-batch fermentation penicillin process fault diagnosis and detection based on support vector machine

[J]. Neurocomputing, 2016, 190 (19): 117- 123

URL     [本文引用: 1]

LI Y, LIU Y, ZHANG C

Discriminant diffusion maps based K-nearest-neighbour for batch process fault detection

[J]. Canadian Journal of Chemical Engineering, 2018, 96 (2): 484- 496

DOI:10.1002/cjce.23003      [本文引用: 1]

KIM Y, KIM S B

Optimal false alarm-controlled support vector data description for multivariate process monitoring

[J]. Journal of Process Control, 2017, 65: 1- 14

URL     [本文引用: 1]

黄健, 杨旭

基于在线加权慢特征分析的故障检测算法

[J]. 上海交通大学学报, 2020, 54 (11): 1142- 1150

URL     [本文引用: 1]

HUANG Jian, YANG Xu

Online Weighted Based Slow Feature Analysis Fault Detection Algorithm

[J]. Journal of Shanghai Jiao Tong University, 2020, 54 (11): 1142- 1150

URL     [本文引用: 1]

HINTON, G

Reducing the dimensionality of data with neural networks

[J]. Science, 2006, 313 (5786): 504- 507

DOI:10.1126/science.1127647      [本文引用: 1]

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521 (7553): 436- 444

DOI:10.1038/nature14539      [本文引用: 1]

LIU Y, FAN Y, CHEN J

Flame images for oxygen content prediction of combustion systems using DBN

[J]. Energy Fuel, 2017, 31 (8): 8776- 8783

DOI:10.1021/acs.energyfuels.7b00576      [本文引用: 1]

XUAN Q, FANG BW, LIU Y, et al

Automatic pearl classification machine based on a multistream convolutional neural network

[J]. IEEE Transactions on Industrial Electronics, 2018, 65 (8): 6538- 6547

DOI:10.1109/TIE.2017.2784394      [本文引用: 2]

KRIZHEVSKY A, SUTSKEVER I, HINTON G

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386      [本文引用: 1]

ZHANG X Y, YIN F, ZHANG Y M, et al

Drawing and recognizing chinese characters with recurrent neural network

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 849- 862

DOI:10.1109/TPAMI.2017.2695539      [本文引用: 1]

LAULY S, LAROCHELLE H, KHAPRA M, et al

An autoencoder approach to learning bilingual word representations

[J]. Advances in Neural Information Processing Systems, 2014, 3: 1853- 1861

URL     [本文引用: 1]

ZHANG Z P, ZHAO J S

A deep belief network based fault diagnosis model for complex chemical processes

[J]. Computers and Chemical Engineering, 2017, 107: 395- 407

DOI:10.1016/j.compchemeng.2017.02.041      [本文引用: 2]

TANG P, PENG K, ZHANG K

A deep belief network-based fault detection method for nonlinear processes

[J]. IFAC-PapersOnLine, 2018, 51 (24): 9- 14

DOI:10.1016/j.ifacol.2018.09.522      [本文引用: 1]

李元, 冯成成

基于一维卷积神经网络深度学习的工业过程故障检测

[J]. 测控技术, 2019, 38 (9): 36- 40

URL     [本文引用: 2]

LI Yuan, FENG Cheng-cheng

Fault detection of industrial process based on deep learning of one-dimensional convolution neural network

[J]. Measurement and Control Technology, 2019, 38 (9): 36- 40

URL     [本文引用: 2]

WU H, ZHAO J S

Deep convolutional neural network model based chemical process fault diagnosis

[J]. Computers and Chemical Engineering, 2018, 115: 185- 197

DOI:10.1016/j.compchemeng.2018.04.009      [本文引用: 1]

ZHANG Z H, TENG J, LI S H, et al

Automated feature learning for nonlinear process monitoring: an approach using stacked denoising autoencoder and k-nearest neighbor rule

[J]. Journal of Process Control, 2018, 64: 49- 61

DOI:10.1016/j.jprocont.2018.02.004      [本文引用: 1]

CHO K, MERRIENBOER B V, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceeding of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha: [s.n.], 2014: 1724-1734.

[本文引用: 2]

HOCHREITER S, SCHMIDHUBER J

Long short-term memory

[J]. Neural Computation, 1997, 9 (8): 1735- 1780

DOI:10.1162/neco.1997.9.8.1735      [本文引用: 1]

SHI X, GAO Z, LAUSEN L. Deep learning for precipitation nowcasting: a benchmark and a new model [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: [s.n.], 2017: 5617-5627.

[本文引用: 1]

MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention [EB/OL]. [2020-07-24]. http://arxiv. org/pdf/1406.6247.pdf.

[本文引用: 1]

CHEN Q, WYNNE R J, GOULDING P, et al

The application of principal component analysis and kernel density estimation to enhance process monitoring

[J]. Control Engineering Practice, 2000, 8 (5): 531- 543

DOI:10.1016/S0967-0661(99)00191-4      [本文引用: 1]

LAURENS V D M, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9 (86): 2579- 2605

URL     [本文引用: 1]

MCAVOY T J, YE N

Base control for the Tennessee Eastman problem

[J]. Computers and Chemical Engineering, 1994, 18 (5): 383- 412

DOI:10.1016/0098-1354(94)88019-0      [本文引用: 1]

/