基于线性判别分析和分步机器学习的变压器故障诊断

doi:10.3785/j.issn.1008-973X.2020.11.022

基于线性判别分析和分步机器学习的变压器故障诊断

谢乐^,, 衡熙丹, 刘洋, 蒋启龙, 刘东^,

Transformer fault diagnosis based on linear discriminant analysis and step-by-step machine learning

XIE Le^,, HENG Xi-dan, LIU Yang, JIANG Qi-long, LIU Dong^,

通讯作者: 刘东，男，讲师. orcid.org/0000-0001-8683-453X. E-mail： liudong@swjtu.edu.cn

收稿日期: 2019-11-20

Received: 2019-11-20

作者简介 About authors

谢乐（1997—），男，硕士生，从事智能算法与故障诊断研究.orcid.org/0000-0002-5357-648X.E-mail：leohfut@126.com , E-mail：leohfut@126.com

摘要

为了改善当前变压器故障诊断在特征量选取和使用单一诊断模型进行故障诊断上的不足，提高变压器故障诊断的准确率和效率，提出基于线性判别分析（LDA）的特征选取方法，建立基于分步机器学习的诊断模型. 该模型选取16组油中溶解气体体积分数比值的多特征参数，运用线性判别分析对参数进行降维作为输入特征向量；运用概率神经网络对变压器故障做出初步诊断，区分出易混淆故障；使用基于灰狼群算法优化的支持向量机对易混淆故障做进一步的区分. 最终实验诊断准确率为97.27%，诊断时间为4.87 s. 与单一机器学习模型相比，所提出的模型不仅具有更高的准确率，还具有更高的效率. 实例分析表明，本研究方法能有效弥补单一机器学习的缺陷，为故障样本有限情况下的电力变压器故障诊断提供参考.

关键词： 变压器 ; 故障诊断 ; 机器学习 ; 特征参数 ; 线性判别分析(LDA)

Abstract

A feature selection method based on the linear discriminant analysis (LDA) was proposed, and a diagnostic model based on the step-by-step machine learning was established, in order to improve the current shortcomings of transformer fault diagnosis in feature selection and single diagnosis model, as well as the accuracy and the efficiency of transformer fault diagnosis. The multi-characteristic parameters of volume fraction ratio of dissolved gas in 16 groups of oil were selected by this model. And the linear discriminant analysis was performed to apply dimensionality reduction on parameters and the results were used as input eigenvectors. Then the probabilistic neural networks were used to diagnose transformer faults and to distinguish confusing faults. The confusing fault was further distinguished by the support vector machine optimized by the grey wolf swarm algorithm.The final experimental diagnostic accuracy rate was 97.27%, while the diagnostic time was 4.87 s. The proposed model not only has higher accuracy, but also has better efficiency, compared with a single machine learning model. Case analysis shows that this method can make up for the shortcoming of single machine learning, which can provide reference for the fault diagnosis of power transformer with limited fault cases.

Keywords： transformer ; fault diagnosis ; machine learning ; characteristic parameter ; linear discriminant analysis (LDA)

PDF (1346KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

谢乐, 衡熙丹, 刘洋, 蒋启龙, 刘东. 基于线性判别分析和分步机器学习的变压器故障诊断. 浙江大学学报(工学版)[J], 2020, 54(11): 2266-2272 doi:10.3785/j.issn.1008-973X.2020.11.022

XIE Le, HENG Xi-dan, LIU Yang, JIANG Qi-long, LIU Dong. Transformer fault diagnosis based on linear discriminant analysis and step-by-step machine learning. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(11): 2266-2272 doi:10.3785/j.issn.1008-973X.2020.11.022

电力变压器是电力系统中的重要设备，其安全正常工作保障了电力系统的正常运行. 油浸式电力变压器在电力系统中被大量采用. 因此，对油浸式电力变压器的故障进行诊断，及时根据故障类型进行检修，能够减小变压器故障造成的损失和危害^[1].

国内外对油浸式电力变压器的故障诊断工作进行了大量研究，例如三比值法和改良三比值法^[2]，提高了故障诊断率，但由于其编码不全，无法准确识别其中某些故障. 随着对人工智能和机器学习研究的不断深入，国内外学者均把油中溶解气体分析(dissolved gas analysis, DGA)方法和神经网络^[3]、模糊理论^[4]、支持向量机^[5]和决策树^[6]等理论相融合引入变压器的故障诊断中.

在诊断模型的输入特征向量选取上，吐松江·卡日等^[7]采用5种DGA特征气体体积分数作为特征向量，取得了一定效果. 但是相关研究表明，变压器的故障更多与气体之间的体积分数比值有关^[8]. 高杰^[9]采用3组气体体积分数比值作为输入特征向量，该方法在实际运用中取得了较好的效果，但其携带的信息有限，诊断结果的正确率有待进一步提高. 在诊断的模型选取方面，Yang等^[10]采用单一神经网络模型进行故障诊断，神经网络的简洁结构有效提高了故障诊断效率，但其存在着容易陷入局部最优而导致诊断精度不高的问题. 吴广宁等^[11]等采用单一支持向量机进行故障诊断，该模型有效克服了陷入局部最优的缺陷，提高了诊断精度，但其更适合少故障类型，存在面对多故障类型时诊断效率低下的问题.

针对以上问题，本研究提出新的故障诊断方法，构造16组气体体积分数比值作为多特征参数，利用线性判别分析（linear discriminant analysis, LDA）降维来筛选有用的参数作为输入特征向量. 使用基于概率神经网络（probabilistic neural network, PNN）和灰狼群优化支持向量机（gray wolf optimization support vector machine, GWO-SVM）的分步机器学习故障诊断模型进行故障识别. 克服单一机器学习模型容易陷入局部最优和分类效率低下的问题，结合两者优势，提高分类精度和效率.

1. 特征向量的选取

1.1. 特征向量的构造

油浸式电力变压器的故障主要分为电性故障和热性故障2种^[12]. 当电力变压器内部发生故障时，内部的绝缘油和绝缘纸会产生CH₄（甲烷）、C₂H₆（乙烷）、C₂H₄（乙烯）、C₂H₂（乙炔）和H₂（氢气）等特征气体. 相比于气体体积分数，变压器故障类型与特征气体的体积分数比值联系更加紧密，因此改良三比值法^[13]、Doermenbur比值法^[14]、Rogers比值法^[15]和无编码比值法^[16]等比值方法在变压器智能诊断领域得到了广泛运用. 比值法涉及到的特征量选取尚无统一标准，为此本研究采取5种特征气体的体积分数构造出16种气体体积分数比值作为多特征参数^[17]，如表1所示. 表中，总烃表示（CH₄+C₂H₆+C₂H₄+C₂H₂）.

表 1 多特征参数

Tab.1 Multi-feature parameters

编号	特征量	编号	特征量
T₁	$\varphi $(C₂H₂)/ $\varphi $(H₂)	T₉	$\varphi $(C₂H₂)/ $\varphi $(C₂H₄)
T₂	$\varphi $(C₂H₂)/ $\varphi $(CH₄)	T₁₀	$\varphi $(C₂H₄)/ $\varphi $(C₂H₆)
T₃	$\varphi $(C₂H₂)/ $\varphi $(C₂H₆)	T₁₁	$\varphi $(C₂H₂)/ $\varphi $(总烃)
T₄	$\varphi $(C₂H₄)/ $\varphi $(H₂)	T₁₂	$\varphi $(H₂)/ $\varphi $(总烃)
T₅	$\varphi $(C₂H₄)/ $\varphi $(CH₄)	T₁₃	$\varphi $(C₂H₄)/ $\varphi $(总烃)
T₆	$\varphi $(C₂H₆)/ $\varphi $(H₂)	T₁₄	$\varphi $(CH₄)/ $\varphi $(总烃)
T₇	$\varphi $(CH₄)/ $\varphi $(C₂H₆)	T₁₅	$\varphi $(C₂H₆)/ $\varphi $(总烃)
T₈	$\varphi $(CH₄)/ $\varphi $(H₂)	T₁₆	$\varphi $(CH₄+C₂H₄)/ $\varphi $(总烃)

新窗口打开| 下载CSV

1.2. 特征向量的筛选

由于传统机器学习模型都涉及距离计算，过多维度的特征参数会增加大量计算，导致数据样本稀疏和计算困难“维数灾难”^[18]. 本研究采用LDA进行特征向量的降维处理，根据贡献率阈值筛选出故障诊断模型的特征向量. LDA是有监督的线性降维方法，具有目的更明确和更能反映数据间差异的优点.

LDA降维方法具体步骤^[19]如下：1）从数据集计算各类d维平均向量；2）计算散点矩阵；3）计算上述计算的散点矩阵的特征向量(e₁, e₂, ···, e_d)和各自的特征值（λ₁, λ₂, ···, λ_d）；4）对特征向量进行降序排列，选择具有最大特征值的 $k$个特征向量，生成d×k维矩阵M；5）使用所生成的特征向量矩阵M将样本映射到不同的子空间，再通过矩阵乘法得到LDA降维特征向量矩阵Z，Z=X×M，其中X为给定数据矩阵.

2. 分步机器学习模型的建立

2.1. 概率神经网络的结构

PNN是由径向基函数(radial basis function，RBF)网络发展而来的前馈型神经网络，优势在于结构简单、训练简洁^[20]. PNN的结构层次有4层：输入层、模式层、求和层和决策层.

输入层不执行任何计算，只是将接收到的值传递给模式层的神经元. 输入层的神经元数量与输入值的维度相同.

模式层的神经元计算输入值与每个模式之间的对应关系. 每个模式层单元的输出为

(1) $ {\phi }_{i}{}_{j}({{x}})=\frac{1}{{(2\text{π})}^{d/2}{\sigma }^{d}}\mathrm{exp}\;{\left[-\frac{{({{x}}-{{x}}_{ij})}^{\rm T}({{x}}-{{x}}_{ij})}{2{\sigma }^{2}}\right].}$

式中：d为模式向量的维度；σ为平滑参数；x为模式；x_ij为模式层神经元输入.

求和层的神经元计算输入x_ij被分类为C_i的概率，从而得到故障模式的估计概率密度函数：

(2) $ {p}_{i}({{x}})=\frac{1}{{(2\text{π} )}^{d/2}{\sigma }^{d}}\frac{1}{{N}_{i}}{\displaystyle \sum _{j=1}^{{N}_{i}}\mathrm{exp}}\;{\left[-\frac{{({{x}}-{{x}}_{ij})}^{\rm T}({{x}}-{{x}}_{ij})}{2{\sigma }^{2}}\right]}.$

式中：N_i为C_i类中的样本总数.

如果每个类别的先验概率相同，并且与每个类别做出错误决策相关的损失是相同的，那么决策层神经元根据贝叶斯决策规则对所有求和层神经元的输出对模式进行分类：

(3) $\hat C({{x}}) = \arg \max \;\{ {p_i}({{x}})\} ;\quad i = 1,2, \cdots ,m.$

式中： $\hat C({{x}})$为模式x的估计类，m为训练样本中类的总数.

概率神经网络故障诊断是概率统计中广泛使用的决策方法，描述如下：假设有2种已知的故障模式θ_A、θ_B，对于要判断的故障特征样本X=[x₁, x₂, ···, x_n]，有

(4) $ {\text{若}}\;{h_{\rm{A}}}{l_{\rm{A}}}{f_{\rm{A}}}\left( {{X}} \right) \geqslant {h_{\rm{B}}}{l_{\rm{B}}}{f_{\rm{B}}}\left( {{X}} \right),\;\;{\text{则}}\;{{X}} \in {\theta _{\rm{A}}}; $

(5) $ {\text{若}}\;{h_{\rm{A}}}{l_{\rm{A}}}{f_{\rm{A}}}\left( {{X}} \right) < {h_{\rm{B}}}{l_{\rm{B}}}{f_{\rm{B}}}\left( {{X}} \right),\;\;{\text{则}}\;{{X}} \in {\theta _{\rm{B}}}. $

式中：h_A、h_B为故障模式的θ_A、θ_B的先验概率，h_A=N_A/N，h_B=N_B/N，其中N_A、N_B为故障模式θ_A、θ_B的训练样本数，N为训练样本总数；l_A为将本属于θ_A的故障特征样本X错误地划分到模式θ_B的代价因子；l_B为将本属于θ_B的故障特征样本划分到模式θ_A的代价因子；f_A、f_B为故障模式θ_A、θ_B的概率密度函数.

2.2. 灰狼群优化支持向量机

支持向量机(support vector machine, SVM)是区别于神经网络的另一种机器学习方法，其基础是Vapnik创建的统计学习理论^[21]. SVM采用结构风险最小化准则（structure risk minimization, SRM）的二分类器，降低结构风险，减小样本误差，具有较好的泛化能力和鲁棒性,更适合小样本的学习分类.

灰狼群算法（gray wolf optimization, GWO）是根据狼群捕食行为研究提出的仿生群体寻优算法. GWO包括探狼（β狼）游走、头狼（α狼）召唤、猛狼（δ狼）围攻3种行为，“胜者为王”的头狼角逐规则，以及“优胜劣汰”的狼群更新规则^[22]. 采用不同狼种分工合作寻找最优解，因此具有更快的收敛速度和一定的精度. 其中，狼群之间的距离计算和子代狼群个体更新^[23]分别为

(6) $D = \left| {C{X_{\rm{p}}}(t) - X(t)} \right|,$

(7) $ {X(t+1)}={X}_{\rm{{p}}}(t)-A{D}.$

式中：t为当前迭代次数；C为系数，C=2r₁，其中r₁为随机数，r₁∈[0，1.0]；A为系数，A=2ar₂ − a，其中a为收敛因子，a=2 − 2( t/I_max)，I_max为最大迭代次数，r₂为随机数，r₂∈[0，1.0]；X_p为灰狼群的位置；X为灰狼的位置.

狼群的捕食规则如下：

(8) ${D_\alpha } = \left| {{C_1}{X_\alpha }(t) - X(t)} \right|,$

(9) $ {D_\beta } = \left| {{C_2}{X_\beta }(t) - X(t)} \right|, $

(10) $ {D_\delta } = \left| {{C_3}{X_\delta }(t) - X(t)} \right|. $

式中： ${X_\alpha}$、 ${X_\beta} $、 $ {X_\delta}$分别为α、β、δ的当前位置，C₁、C₂、C₃为系数.

狼群的更新规则如下：

(11) ${X_1} = {X_\alpha } - {A_1}{D_\alpha },$

(12) ${X_2} = {X_\beta } - {A_2}{D_\beta },$

(13) ${X_3} = {X_\delta } - {A_3}{D_\delta },$

(14) ${X(t + 1)} = \left({{{X_1} + {X_2} + {X_3}}}\right)/3.$

式中：X₁、X₂、X₃分别为α、β、δ更新位置，X（t+1）为子代灰狼的最终寻优位置.

GWO算法具体流程如下. 1）设置狼群种群数和迭代次数，初始化每只灰狼的位置；2）计算每只灰狼的适应度，将适应度最好的灰狼标记为头狼；适应度次之的标记为探狼；适应度再次之的标记为猛狼；其余狼为人工狼；3）根据狼群捕食规则和更新规则更新每只狼的位置；4）重新计算每只狼的适应度，并角逐出新的头狼、探狼和猛狼；5）计算是否满足迭代要求，若不满足则返回步骤3）；若满足则输出头狼的适应度和位置.

在传统SVM参数设置中，分类性能主要受惩罚因子c和核参数g影响，依靠人为经验设定不具有普适性. 使用GWO优化算法得到c、g的最优值可以规避人为设定的主观性，进而提高故障识别正确率. GWO优化SVM流程图如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 灰狼群优化支持向量机流程图

Fig.1 Gray wolf optimization support vector machine flow chart

2.3. 基于LDA的分步机器学习模型

基于LDA和分步机器学习的变压器故障诊断策略具体的步骤如下. 1）构造16组多特征参数，并用LDA对特征参数进行降维筛选；2）对降维后的数据进行归一化，投影到[0,1.0]，作为输入特征向量；3）将70%作为训练数据训练PNN，设置σ，将30%作为测试数据代入训练好的PNN中；4）将PNN能够判别的故障类型直接得出诊断结果，不能够识别的故障类型标记为“难区分故障”；5）将难区分故障交由GWO-SVM作进一步的故障识别；6）得到故障分类最终结果. 基于LDA的分步机器学习模型流程图如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 分步机器学习诊断模型

Fig.2 Step-by-step machine learning diagnostic model

3. 变压器故障诊断实例

3.1. 数据和特征提取

本研究数据来自IEC-TC10和实验数据，筛选出150组有效数据. 由于变压器的故障类型繁多，故障分类方法没有统一标准. 根据IEC60599^[23]及GB/T7252规则^[24]，将变压器故障主要分为放电型故障和过热型故障. 将故障类型划分为7种状态（6种故障和正常状态），如表2所示. 表中，T为故障标签. 计算机配置如下：处理器，Intel(R) Core(TM) i5-8265U CPU @1.60 GHz；内存8 GB. 程序在MATLAB R2018a 64-bit 条件下运行.

表 2 故障状态标记

Tab.2 Fault status tags

T	故障类型	T	故障类型
1	低温过热	5	低能放电
2	中温过热	6	高能放电
3	高温过热	7	正常
4	局部放电	−	−

新窗口打开| 下载CSV

对试验数据进行分维可视化后结果如图3所示. 图中，V为数值，D₀为维度. 可以看出，原始数据分布较集中、不易区分，故障识别难度较大.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 原始数据的分维可视化图

Fig.3 Fractal dimension visualization of raw data

利用LDA对150组16维数据进行降维处理. 如图4所示为降维后的分维可视化图. 与图3对比可知，不同故障类型的状态数据分布位置有所变化，相对更易区分不同状态.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 原始数据降维后的分维可视化图

Fig.4 Fractal dimensional visualization diagram of original data after dimensionality reduction

LDA所选投影向量对应的特征值在所有可能的特征值中所占的比例为降维贡献率. 降维后的每组维度的贡献率和累计贡献率如图5所示. 图中，P_c为贡献率. 前5维的数据累计贡献率超过95%，因此采用前5维数据作为输入特征向量.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 线性判别分析的降维效果

Fig.5 Dimension reduction effect of linear discriminant analysis

3.2. 分步机器学习诊断

随机选取各种状态下70%的数据作为训练数据，30%的数据作为测试数据代入到PNN中进行初步故障诊断. 根据反复手动寻优，PNN的平滑因子σ设置为0.9. 诊断结果如图6所示. 图中，N_t为测试组样本数目. 可以看出，PNN对故障状态4、5、6、7具有较准确的诊断能力，但是不能准确判故障状态1、2、3，须进一步识别.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 概率神经网络诊断结果

Fig.6 Diagnosis result of probabilistic neural network

将故障状态1、2、3标记为易混淆故障. 代入GWO-SVM做进一步诊断，设置初始狼群数量为20，迭代次数为200. 随机选取50%数据作为训练数据，剩下的50%作为测试数据. 最终结果如图7、8所示，图中，N_it为迭代次数，f为适应度. 由图7可知，GWO-SVM对故障类型1、2能够进行准确的诊断；对故障类型3有2例误诊. 由图8可知，GWO迭代70次即可找到SVM参数的最优解. 此时易混淆故障的分类结果的正确率为95.12%，最终耗时为4.87 s.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 灰狼群优化支持向量机分类结果

Fig.7 Classification results of gray wolf optimization support vector machine

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 灰狼群适应度曲线

Fig.8 Fitness curve of grey wolf optimizer

3.3. 不同诊断算法效果对比

为了对比不同方法效果，从诊断结果和诊断时间进行对比. 对人工神经网络(artificial neural networks，ANN)、反向传播神经网络(back propagation neural network, BPNN)、SVM和粒子群优化支持向量机（particle swarm optimization support vector machine, PSO-SVM）进行对比试验，使用相同数据和仿真环境进行识别试验，结果如表3所示. 表中，A_cc为正确率，t为时间. 可以看出，分步诊断模型在正确率和时间上分别优越于其他方法，本研究方法更具有优势.

表 3 本研究方法与其他故障诊断模型的正确率和时间

Tab.3 Accuracy and time comparison of proposed method with other fault diagnosis models

诊断模型	A_cc /%	t/s
ANN	74.67	9.76
BPNN	84.00	8.31
SVM	78.67	5.32
PSO-SVM	88.14	17.49
本研究方法	97.27	4.87

新窗口打开| 下载CSV

3.4. 实例诊断

为了进一步验证本研究模型的有效性，利用改良三比值法、BPNN、PSO-SVM以及本研究模型对四川某市供电局的5组工作变压器检测到的8组异常数据进行诊断. 其中，BPNN和PSO-SVM的输入特征向量为5种DGA特征气体体积分数. 最终的诊断结果如表4所示. 可以看出，本研究方法无误诊；改良三比值方法有4例误诊，1例无法诊断；BPNN有4例误诊；PSO-SVM有3例误诊. 综上所述，本研究诊断模型能有效克服传统方法的不足，在保证更高诊断精度的同时提升诊断效率.

表 4 变压器故障诊断实例

Tab.4 Transformer fault diagnosis example

序号	$ {\varphi}$_B /10⁻⁶					诊断结果				实际故障
序号	H₂	CH₄	C₂H₆	C₂H₄	C₂H₂	改良三比值	BPNN	PSO-SVM	本研究方法	实际故障
1	11.9	12.4	5.9	13.6	1.0	低温过热	低能放电	高温过热	低能放电	低能放电
2	145.0	68.4	1.4	151.2	578.2	低能放电	低能放电	高能放电	高能放电	高能放电
3	63.0	20.1	18.6	49.0	93.5	低能放电	高能放电	正常	高能放电	高能放电
4	120.0	109.0	435.0	80.0	0	−	正常	低能放电	低能放电	低能放电
5	279.0	487.0	109.0	708.0	4.4	高温过热	高温过热	高温过热	高温过热	高温过热
6	45.1	96.7	39.0	24.1	0	中温过热	高温过热	中温过热	中温过热	中温过热
7	19.6	320.7	574.7	279.2	0	低温过热	高温过热	中温过热	高温过热	高温过热
8	5.1	9.5	5.9	47.9	1.3	低温过热	高温过热	低温过热	低温过热	低温过热

新窗口打开| 下载CSV

4. 结　　论

（1）提出基于概率神经网络和灰狼群优化支持向量机的分步机器学习模型，有效解决单一机器学习诊断精度不高和效率低下的缺陷，研究可以为变压器故障诊断模型选择提供参考.

（2）将LDA和分步机器学习模型相结合，改变分类器输入值的数据结构，在保留重要故障特征信息的基础上有效消除冗余故障特征信息，能够提高分类器的诊断精度.

（3）虽然本研究取得不错的故障诊断效果，但是在变压器故障发生后进行诊断，是补救而不是预防性措施. 后续工作将在变压器故障特征气体预测、变压器早期失效机理和变压器故障预测等方面展开研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

汪永华. 常用电气与电控设备故障诊断400例 [M]. 北京: 中国电力出版社, 2011.