浙江大学学报(工学版), 2026, 60(5): 1016-1026 doi: 10.3785/j.issn.1008-973X.2026.05.011

能源与动力工程

基于改进的插补扩散模型与LSTM的风电数据清洗方法

边文远,, 火久元,, 常琛

1. 兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

2. 国家冰川冻土沙漠科学数据中心,甘肃 兰州 730000

Wind power data cleaning method based on improved imputation diffusion model and LSTM

BIAN Wenyuan,, HUO Jiuyuan,, CHANG Chen

1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

2. National Cryosphere Desert Data Center, Lanzhou 730000, China

通讯作者: 火久元,男,教授. orcid.org/0000-0003-2395-4133. E-mail:huojy@mail.lzjtu.cn

收稿日期: 2025-06-9  

基金资助: 甘肃省重点研发计划-工业领域(25YFGA045);国家自然科学基金资质项目(62262038);甘肃省科技创新引导计划-科技专员专项(25CXGA030);甘肃省教育科技创新计划(2025CXZX-634).

Received: 2025-06-9  

Fund supported: 甘肃省重点研发计划-工业领域(25YFGA045);国家自然科学基金资质项目(62262038);甘肃省科技创新引导计划-科技专员专项(25CXGA030);甘肃省教育科技创新计划(2025CXZX-634).

作者简介 About authors

边文远(2001—),男,硕士生,从事新能源功率预测研究.orcid.org/0009-0008-5485-7946.E-mail:bwy0927@163.com , E-mail:bwy0927@163.com

摘要

针对风电场监控与数据采集系统采集的风机运行数据质量差的问题,提出改进的插补扩散模型与长短期记忆网络结合的方法(IDM-LSTM). 在插补扩散模型训练过程中,掩码采用双重掩码协同策略,有助于模型聚焦关键异常分布区域并增强对异常干扰的鲁棒性. 分层残差倒置Transformer (HRIformer)作为去噪模型,将iTransformer与残差连接相结合用以提升复杂特征的建模能力. 在插补扩散模型推理阶段,掩码采用周期可见性重建掩码(PVRM)策略,通过设置合适掩码周期控制掩码范围,保证序列重构一致性与时序完整性. 插补扩散模型负责异常识别,LSTM负责修正,构建出应用于无标签风电数据的一体化数据清洗框架. 某风电场真实数据的实验结果表明,IDM-LSTM清洗后,风速-功率的皮尔森相关性系数和转速-功率的皮尔森相关性系数分别比原始数据提高了3.78%和3.43%,有效改善了风电数据质量.

关键词: 风电数据清洗 ; 插补扩散模型 ; Transformer ; 长短期记忆网络(LSTM) ; 掩码策略

Abstract

To address the issue of poor data quality in wind turbine operational data collected by the supervisory control and data acquisition system, a method combining an improved imputation diffusion model and long short-term memory (IDM-LSTM) was proposed. A dual-mask collaborative strategy was employed in the training process of the imputation diffusion model, which helped the model focus on key abnormal distribution regions and enhanced its robustness against abnormal disturbances. A hierarchical residual inverted Transformer (HRIformer) was used as the denoising model, combining the iTransformer with residual connections to improve the model’s ability to capture complex features. During the inference phase of the imputation diffusion model, the periodic visibility reconstruction mask (PVRM) strategy was applied, controlling the mask range by setting an appropriate mask cycle, ensuring the consistency of sequence reconstruction and temporal integrity. The imputation diffusion model is responsible for anomaly detection, while LSTM handles the correction, resulting in an integrated data cleaning framework for unlabeled wind power data. Experimental results from a real wind farm show that IDM-LSTM cleaning improved the Pearson correlation coefficients for wind speed-power and rotational speed-power by 3.78% and 3.43%, respectively, compared with the original data, significantly enhancing wind power data quality.

Keywords: wind power data cleaning ; imputation diffusion model ; Transformer ; long short-term memory (LSTM) ; mask strategy

PDF (2472KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

边文远, 火久元, 常琛. 基于改进的插补扩散模型与LSTM的风电数据清洗方法. 浙江大学学报(工学版)[J], 2026, 60(5): 1016-1026 doi:10.3785/j.issn.1008-973X.2026.05.011

BIAN Wenyuan, HUO Jiuyuan, CHANG Chen. Wind power data cleaning method based on improved imputation diffusion model and LSTM. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1016-1026 doi:10.3785/j.issn.1008-973X.2026.05.011

风能的随机性和波动性对风电场调度构成挑战[1]. 在基于监控与数据采集系统(supervisory control and data acquisition, SCADA)进行风电数据采集时,受设备故障和测量误差的影响,常出现异常值,降低风能评估和数据分析的准确性.

为了真实反映风电机组的运行状态,亟须对风电数据进行清洗[2]. 常用数据清洗方法主要包括:基于物理模型[3]、机器学习[4]和时序建模[5]的方法. 基于物理模型的方法通过拟合风功率曲线识别风速-功率关系异常,具有较强可解释性,但在风机状态频繁变化时拟合精度下降. 例如,刘宇璐[6]提出融合风速变化与湍流效应的动态功率曲线建模方法,虽能提升响应性,但对模型误差和控制器调参较为敏感,泛化能力有限. 基于机器学习的方法,如基于密度的带噪声应用空间聚类(density-based spatial clustering of applications with noise, DBSCAN)[7]、孤立森林(isolation forest, IF)[8]及局部异常因子(local outlier factor, LOF)[9]等,适用于处理高维风电数据,对超参数较为敏感. 例如,柳源等[10]采用DBSCAN算法剔除额定功率数据附近的噪声数据点,在密度差异较大的区域易发生误判或漏检. 基于时序建模的方法,如长短期记忆网络(long short-term memory, LSTM)[11]和去噪扩散概率模型(denoising diffusion probabilistic models, DDPM)[12],可建模时间依赖性,在风电数据清洗研究中广泛应用. Hu等[13]提出基于扩散模型的无监督异常检测方法TimeADDM,Chen等[14]提出融合时间填充与扩散模型的ImDiffusion框架. 将扩散机制引入异常检测,虽然为复杂时序建模与无标签高质量异常重建提供了新思路,但异常点往往只占很小比例,扩散模型在学习过程中主要拟合“正常分布”,可能导致模型在异常稀疏条件下的判别能力不足.

现有方法虽在异常识别与修正方面取得一定进展,但面临多重挑战:单一掩码策略难以区分异常与波动;去噪模型时序建模能力不足,限制重建效果;随机掩码在推理阶段易造成重建碎片化和信息缺失,影响数据连续性与稳定性;实际风电场数据缺乏标签,且现有方法未能实现识别与修正的统一建模. 此外,传统剔除式清洗方式破坏数据结构,削弱对长期行为的建模能力. 本研究提出基于改进的插补扩散模型(imputation diffusion model, IDM)与LSTM的风电数据清洗方法(IDM-LSTM). 1) 采用双重掩码协同策略将基于双通道DBSCAN的异常感知掩码与全局随机掩码结合,用于IDM训练阶段屏蔽风速-功率与转速-功率关系中的异常数据,增强模型对正常分布的学习与鲁棒性. 2) 提出分层残差倒置Transformer (hierarchical residual inverted Transformer, HRIformer)去噪模型,通过多层残差缓解梯度衰减,倒置注意力强化变量依赖与全局时序关系,显著提升复杂多变量时序数据的插补与重建性能. 3) 提出应用于IDM推理过程中的周期可见性重建掩码(periodic visibility reconstruction mask, PVRM)策略,在推理阶段设定掩码周期生成并融合重构片段,既控制信息丢失,又避免随机掩码导致的碎片化,提升重构一致性与时序完整性. 4)  构建无标签风电SCADA数据的识别与修正一体化框架,融合改进的非条件IDM与LSTM预测驱动修正,实现多类型异常的无监督识别与高质量修复,保持时间连续性与结构完整性,显著提升实际工况下的适应性与工程价值.

1. 异常数据分类

图1所示为某风电场一号风机2021年1月1日至10月1日的风速-功率数据分布,P为功率,v为风速. 异常数据分为4类[15]:1)超额数据,即功率超出额定值的离群点;2)离散数据,即偏离风速-功率曲线的无规律孤立点;3)弃风限电数据,表现为风速曲线附近的横向密集带;4)停机数据,指在风速大于切入风速时功率为零的点.

图 1

图 1   风速-功率异常数据

Fig.1   Wind speed-power anomalous data


2. 去噪扩散概率模型

DDPM的核心思想是通过前向扩散向原始数据中加入高斯噪声,使其演化为纯噪声;再通过反向去噪,还原出原始数据[16]. 如图2所示为前向扩散与反向生成过程,$ {\boldsymbol{x}}_{0} $为原始数据,$ {\boldsymbol{x}}_{1},{\boldsymbol{x}}_{2},\cdots,{\boldsymbol{x}}_{T} $为每个时间步处理后的结果,$ T $为扩散总步数,$ q(\cdot ) $为前向扩散步骤,$ p(\cdot ) $为反向去噪步骤. 前向扩散向数据中注入噪声,使其分布趋于标准高斯分布. 该过程构成马尔科夫链,条件概率表示为$ q({\boldsymbol{x}}_{t}|{\boldsymbol{x}}_{t-1})= N({\boldsymbol{x}}_{t}; \sqrt{1-{\beta }_{t}}{\boldsymbol{x}}_{t-1},\;{\beta }_{t}\boldsymbol{I}) $,其中$ {\beta }_{t} $为控制噪声强度的标量参数,$ \boldsymbol{I} $为单位矩阵. 任意时刻的带噪样本$ {\boldsymbol{x}}_{t} $由原始数据$ {\boldsymbol{x}}_{0} $与标准高斯噪声$ \boldsymbol{\varepsilon }\sim N(0,\boldsymbol{I}) $构成:

图 2

图 2   去噪扩散概率模型的前向与反向生成过程

Fig.2   Forward and reverse processes of denoising diffusion probabilistic models


$ \begin{split} &{\boldsymbol{x}}_{t}=\sqrt{{\overline{\alpha }}_{t}}{\boldsymbol{x}}_{0}+\sqrt{1-{\overline{\alpha }}_{t}}\boldsymbol{\varepsilon }; \\&{\overline{\alpha }}_{t}=\prod\limits_{i=1}^{t}{\alpha }_{i} \text{,} {\alpha }_{t}=1-{\beta }_{t} . \end{split}$

逆向去噪是从标准的高斯分布$ {\boldsymbol{x}}_{T}\sim N(0,\boldsymbol{I}) $逐渐去除高斯噪声直至数据变成原始数据的过程:

$ {p}_{\theta }({\boldsymbol{x}}_{t-1}|{\boldsymbol{x}}_{t})=N({\boldsymbol{x}}_{t-1};\;{\boldsymbol{\mu }}_{\theta }({\boldsymbol{x}}_{t},t),\;{\boldsymbol{\varSigma }}_{\theta }({\boldsymbol{x}}_{t},t)\boldsymbol{I}), $

$ {p}_{\theta }({\boldsymbol{x}}_{0: T})=p({\boldsymbol{x}}_{T})\prod\limits_{t=1}^{T}{p}_{\theta }({\boldsymbol{x}}_{t-1}|{\boldsymbol{x}}_{t}). $

式中:$ {\boldsymbol{\mu }}_{\theta }({\boldsymbol{x}}_{t},t) $为预测均值,$ {\boldsymbol{\varSigma }}_{\theta }({\boldsymbol{x}}_{t},t) $为预测方差,$ {p}_{\theta }({\boldsymbol{x}}_{0: T}) $为数据和所有中间状态的联合分布. 根据贝叶斯推导均值表达式:

$ {\boldsymbol{\mu }}_{\theta }({\boldsymbol{x}}_{t},t)=\frac{1}{\sqrt{{\alpha }_{t}}}\left({\boldsymbol{x}}_{t}-\frac{{\beta }_{t}}{\sqrt{1-{\overline{\alpha }}_{t}}}{\boldsymbol{\varepsilon }}_{\theta }({\boldsymbol{x}}_{t},t)\right). $

其中$ {\boldsymbol{\varepsilon }}_{\theta }({\boldsymbol{x}}_{t},t) $为神经网络预测的噪声. 为了简化推理过程,DDPM采用固定方差,即$ {\boldsymbol{\varSigma }}_{\theta }({\boldsymbol{x}}_{t},t)={\tilde{\beta }}_{t} $,其中$ {\tilde{\beta }}_{t}=({1-{\overline{\alpha }}_{t-1}}){\beta }_{t}/({1-{\overline{\alpha }}_{t}}) $. DDPM的训练目标是最小化神经网络$ {\boldsymbol{\varepsilon }}_{\theta }({\boldsymbol{x}}_{t},t) $预测的噪声和真实噪声$ \boldsymbol{\varepsilon } $之间的均方误差MSE,即

$ L(\theta )={E}_{{{\boldsymbol{x}}_{0}},\boldsymbol{\varepsilon },t}\left[{\left|\left|\boldsymbol{\varepsilon }-{\boldsymbol{\varepsilon }}_{\theta }\left(\sqrt{{\overline{\alpha }}_{t}}{\boldsymbol{x}}_{0}+\sqrt{1-{\overline{\alpha }}_{t}}\boldsymbol{\varepsilon },t\right)\right|\right|}^{2}\right]. $

式中:$ {\boldsymbol{\varepsilon }}_{\theta }\left(\sqrt{{\overline{\alpha }}_{t}}{\boldsymbol{x}}_{0}+\sqrt{1-{\overline{\alpha }}_{t}}\boldsymbol{\varepsilon },t\right) $为神经网络在输入带噪样本$ {\boldsymbol{x}}_{t} $和时间步$ t $时对噪声的预测值,$ \boldsymbol{\varepsilon } $$ t $步采样的高斯噪声.

3. 基于插补扩散模型-LSTM的异常识别与修正

风电场SCADA数据通常缺乏异常值标签,难以直接采用有监督的方法进行异常识别[17]. 本研究结合SCADA数据特点,提出自监督异常数据识别方法与有监督的修正方法,即IDM-LSTM.

3.1. 插补扩散模型

IDM由DDPM改进而来,将扩散模型框架应用于数据插补. IDM核心由3个部分构成:应用于模型训练阶段的双重掩码策略、用于噪声预测的HRIformer模型与应用于推理阶段的PVRM策略.

3.1.1. 双重掩码协同策略

风电场数据规模庞大且受复杂环境影响,单一特征识别易引发误检或漏检. 为了适应多样化异常模式,本研究在训练阶段引入双重掩码协同策略. 具体实施步骤如下. 1)物理规则1修正:利用风机固有特点,将负功率修正为零,将超额功率修正为额定功率P. 2)第1次DBSCAN聚类:以风速与功率为聚类特征,识别离群点为异常,其余为正常样本. 3)第2次DBSCAN聚类:对步骤2)识别的正常样本利用转速与功率特征再次聚类识别. 4)物理规则2修正:对2次聚类结果进行物理约束校正,当风速小于切入风速时,功率为0视为正常;当风速小于切出风速且功率为额定值时,标记为异常;当风速大于或等于切出风速且功率为额定值时,标记为正常. 5)对判定为异常的数据区域进行显式掩码,聚焦关键异常区域;其余样本采用随机掩码,兼顾通用建模与局部鲁棒性.

风机特征参数的皮尔森相关性热力图如图3所示,PCC为皮尔森相关性系数. 风速和转速与功率之间具有最强相关性. 功率作为风电机组的核心输出变量,与风速及转速的关系更加直接且具有物理意义. 因此,选择“风速-功率”与“转速-功率”作为双通道特征输入,以最大程度识别分布异常点.

图 3

图 3   风机特征参数的皮尔森相关性系数热力图

Fig.3   Pearson correlation coefficient heat map of wind turbine characteristic parameters


3.1.2. 分层残差倒置Transformer噪声预测模型

HRIformer结合倒置Transformer (inverted Transformer, iTransformer)模型[18]与分层残差结构. iTransformer通过自注意力机制捕捉长时依赖,利用前馈网络提取时序特征. 残差结构则缓解深层特征退化问题. HRIformer结构如图4所示,其中B为批次大小,T为序列长度,N为特征维度,L为时间嵌入维度,K为特征嵌入维度. 每个残差块由输入处理模块、特征增强模块和iTransformer模块组成. 输入处理模块将原始数据转化为适合iTransformer的输入维度,通过多层感知机和卷积层嵌入扩散步骤与掩码信息,生成含多重嵌入的张量. 特征增强模块将时间嵌入与特征嵌入作为外部信息,优化最终输出. iTransformer采用倒置结构,将每个特征视作独立整体,通过自注意力建模变量相关性,并结合前馈网络提取序列信息,避免多维度量差异带来的干扰.

图 4

图 4   分层残差倒置Transformer结构图

Fig.4   Architecture of hierarchical residual inverted Transformer


3.1.3. 周期可见性重建掩码策略

PVRM策略通过设定掩码周期生成多组重构片段并融合成完整序列,既控制信息丢失率,又解决随机掩码重构结果碎片化的问题,从而实现连续的数据重建. 原始多变量序列可表示为时间步为T、特征维度为K$ \boldsymbol{\chi }$多维观测值. PVRM策略利用掩码周期s控制掩码轮数,通过构建周期性掩码矩阵$ {\boldsymbol{M}}^{(k)} $,以控制不同时间步的数据是否被遮蔽,实现对序列的不同轮次掩码重构. PVRM策略掩码过程的表达式为

$ {\boldsymbol{M}}^{(k)}=\begin{cases} 0, & \;{t}\;\mathrm{mod}\;{s}=k;\\1, & \text{其他}.\end{cases} $

$ {\boldsymbol{\chi }}^{{{\boldsymbol{M}}_{0}}}=\boldsymbol{\chi }\odot {\boldsymbol{M}}^{(k)}. $

式中:$ {\boldsymbol{M}}^{(k)}\in {\mathbf{R}}^{T\times K} $为第$ k\in [0,s-1] $轮掩码时的掩码矩阵,$ {\boldsymbol{M}}_{0} $为掩码矩阵,$ {\boldsymbol{\chi }}^{{{\boldsymbol{M}}_{0}}} $为被掩码数据,$ \odot $为Hadamard积. 为了获得完整重构结果,对所有轮次重构输出合并,得到最终重建序列:

$ {\hat{\boldsymbol{\chi }}}^{(k)}=f\left({\boldsymbol{\chi }}^{{{\boldsymbol{M}}_{0}}}\right), $

$ \hat{\boldsymbol{\chi }}=\text{Merge}\left({\hat{\boldsymbol{\chi }}}^{(0)},{\hat{\boldsymbol{\chi }}}^{(1)},\cdots,{\hat{\boldsymbol{\chi }}}^{(s-1)}\right). $

式中:$ f(\cdot ) $为重构操作,$ {\hat{\boldsymbol{\chi }}}^{(k)} $为第$ k $轮重构的结果,$ \hat{\boldsymbol{\chi }} $为最终重构序列. 当$ s=3 $时,PVRM策略重构与合并过程如图5所示.

图 5

图 5   周期可见性重建掩码策略示意图

Fig.5   Schematic diagram of periodic visibility reconstruction mask strategy


3.2. 异常数据识别方法

在IDM的训练过程中,1)通过双重掩码协同策略处理原始序列,生成可模拟多种异常模式的训练样本$ \boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}} $. 2)第$ t $步的高斯噪声$ {\boldsymbol{\varepsilon }}_{t} $$ \boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}} $相加,得到加噪的掩码数据$ \boldsymbol{\chi }_{t}^{{\boldsymbol{M}}^{\prime}_{0}} $,未掩码部分的噪声为$ \boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}} $,两者合并构成完整输入序列$ \boldsymbol{\chi }_{t}^{\text{in}} $. 3)该序列输入HRIformer去噪模型,得到掩码部分的噪声,并与真实噪声计算损失. 在IDM的推理过程中,1)对原始序列采用掩码周期$ s $的PVRM策略,将序列分别掩码$ s $个轮次,并组合为整体掩码数据$ \boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}} $. 2)经过与训练过程同样的步骤,利用HRIformer预测当前时间步的噪声,再通过与均值$ {\boldsymbol{\mu }}_{\theta } $和方差$ {\boldsymbol{\varSigma }}_{\theta } $的计算,经过采样获得上一步样本$ {\boldsymbol{\chi }}_{t-1} $. 3)重复上述步骤直到生成最终的去噪样本$ {\boldsymbol{\chi }}_{0} $,并与原始数据$ \boldsymbol{\chi } $计算异常值分数,根据设定的阈值确定异常值. IDM的训练与推理过程如图6所示.

图 6

图 6   插补扩散模型的训练与推理过程

Fig.6   Training and inference process of imputation diffusion model


噪声预测时的均值、方差、损失计算式分别为

$ {\boldsymbol{\mu }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t|\boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}},s)={\boldsymbol{\mu }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t,{\boldsymbol{\varepsilon }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t|\boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}},s)), $

$ {\boldsymbol{\varSigma }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t|\boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}},s)={\boldsymbol{\varSigma }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t), $

$ L(\theta )={E}_{{{\boldsymbol{\chi }}_{0}},\boldsymbol{\varepsilon },t}\left[\left\| \boldsymbol{\varepsilon }-{\boldsymbol{\varepsilon }}_{\theta }\left(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t|\boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}},s\right)\right\| ^{2}\right]. $

式中:$ {\boldsymbol{\mu }}_{\theta }(\cdot ) $为去噪过程中的均值;$ {\boldsymbol{\varSigma }}_{\theta }(\cdot ) $为方差,采用固定方差策略;$ \boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}} $$ s $在反向去噪时作为条件输入去噪网络,仅影响$ {\boldsymbol{\varepsilon }}_{\theta } $. 式(12)将扩散模型中原始损失函数[19]$ {\boldsymbol{\varepsilon }}_{\theta }({\boldsymbol{\chi }}_{t},t) $替换为引入$ \boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}} $$ s $$ {\boldsymbol{\varepsilon }}_{\theta }(\boldsymbol{\chi }_{t}^{{\boldsymbol{M}}_{0}},t|\boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}},s) $. 推理过程中的异常分数利用残差进行计算[20],残差反映原始数据与预测数据之间的差异:

$ \text{AS}\;({\boldsymbol{x}}_{i})=\sum\limits_{k=1}^{K}{\left|\left|\boldsymbol{x}_{i}^{(k)}-{\widehat{{\boldsymbol{x}}_{i}}}^{(k)}\right|\right|}^{2}. $

式中:$ \text{AS}\;({\boldsymbol{x}}_{i}) $为第$ i $个数据点的异常分数,$ {\boldsymbol{x}}_{i} $为原始数据,$ \widehat{{\boldsymbol{x}}_{i}} $为预测数据,$ K $为特征维度. 训练数据$ \boldsymbol{\chi }$$ {\boldsymbol{x}}_{i} $的损失函数之和计算决策阈值[21]

$ \text{DT}=\frac{1}{T}\sum\limits_{i=1}^{T}L({\boldsymbol{x}}_{i})+\sqrt{\frac{1}{T}\sum\limits_{i=1}^{T}\left(L({\boldsymbol{x}}_{i})-{L}_{\text{avg}}\right)^{2}}. $

式中:DT为决策阈值,$ L({\boldsymbol{x}}_{i}) $$ {\boldsymbol{x}}_{i} $的损失函数之和,$ {L}_{\text{avg}} $为损失函数的均值. 式(14)的第1部分表示损失函数的均值,第2部分表示损失函数的标准差. 在推理过程中,当$ \text{AS}\;({\boldsymbol{x}}_{i}) \gt \text{DT} $时,该测试样本$ {\boldsymbol{x}}_{i} $被标记为异常,反之则为正常.

3.3. 异常数据识别与修正流程

IDM-LSTM的工作流程如图7所示,包括5个步骤. 1)由风电机组传感器采集运行参数,经由SCADA进行整合,随后进行数据预处理操作(如下采样),为后续模型训练提供稳定输入. 2)采用双重掩码协同策略,先对基于物理规则与双通道DBSCAN识别的潜在异常区域显式掩码,再对其余样本随机掩码. 3)将上述掩码数据输入IDM进行训练,通过非条件扩散过程学习掩码区域的重建表示,并在测试集上评估模型的异常识别性能. 4)风电数据具备显著时间相关性,直接剔除异常会破坏序列结构,利用LSTM对识别出的异常点进行修正,保持数据连续性与动态一致性. 5)通过定性和定量评价指标对风电数据异常识别与修正效果进行验证.

图 7

图 7   基于改进的插补扩散模型与LSTM的风电数据清洗方法的工作流程图

Fig.7   Workflow of wind power data cleaning method based on improved imputation diffusion model and LSTM


4. 实验验证及分析

为了验证IDM-LSTM的有效性,选用某风电场一号风机2021年1月至8月的SCADA数据作为实验对象. 原始数据包含风速、风向、功率、发动机转速和叶片变桨角度等特征. 对原始数据进行下采样处理,将1 min的时间分辨率处理为15 min,共21 000组数据. 实验的计算平台配置均为Win11操作系统,CPU为AMD Ryzen 7 7745HX with Radeon Graphics,GPU为NVIDIA GeForce RTX 4060 Laptop GPU 8 GB. 模型构建使用PyTorch框架进行编程实现.

4.1. 异常值识别

预处理后的数据按照7∶3的比例划分为训练集与测试集,对训练数据采用双重掩码协同策略处理. 2次DBSCAN算法的邻域半径$ \text{Eps}1 $$ \text{Eps}2 $与阈值$ \text{MinPts}1 $$ \text{MinPts}2 $利用网格寻优法确定[22],寻优结果如表1所示.

表 1   网格寻优确定的超参数结果

Tab.1  Hyperparameter optimization results via grid search

超参数数值超参数数值
Eps10.07Eps20.04
MinPts113MinPts24

新窗口打开| 下载CSV


先利用DBSCAN对风速-功率特征进行聚类,识别出大量异常点,随后对转速-功率特征再次聚类,最后将两轮聚类结果与物理规则2结合,共标记正常数据13 372个,异常数据1 328个. 初步识别结果如图8所示,其中n为发动机转速. 对异常数据掩码,并对剩余数据随机掩码,完成将双重掩码协同策略应用于训练数据. IDM的学习率为0.001,优化器采用Adam,损失函数为引入$ \boldsymbol{\varepsilon }_{t}^{{\boldsymbol{M}}_{1}} $$ s $的均方误差,采用早停机制,防止过拟合. 模型的主要超参数设置如表2所示. 训练完成后,将测试集6 300条数据输入模型. 测试集数据通过PVRM策略进行掩码,通过加噪去噪过程完成掩码数据的重构,计算测试集中每个数据点的异常分数,与决策阈值DT进行比较. 测试集数据异常识别结果如图9所示. 测试集异常识别结果显示,正常数据5 954条,异常数据346条.

图 8

图 8   初步异常识别结果

Fig.8   Preliminary anomaly detection results


表 2   插补扩散模型的主要超参数设定

Tab.2  Main hyperparameter settings of imputation diffusion model

超参数数值超参数数值
扩散步数100检测窗口大小90
PVPM策略掩码步数5HRIformer中分层数2
PVRM策略掩码周期3iTransformer隐藏层维度128

新窗口打开| 下载CSV


图 9

图 9   插补扩散模型异常值识别结果

Fig.9   Anomaly detection results of imputation diffusion model


异常检测为自监督学习,缺乏精确标签,难以直接评估准确性,因此从定性与定量两方面验证效果. 如图10所示为风速-功率和转速-功率的二维投影,可见大部分异常值已被识别,数据分布边缘更为平滑,表明方法有效. 对比原始数据、LOF[9]、DBSCAN[7]、DBSCAN+IF、IMDiffusion[14]、TranAD[23]、TimeADDM[13]以及IDM的风速-功率和转速-功率的皮尔森相关性系数和异常值识别率,不同方法的识别效果汇总如表3所示. 皮尔森相关性系数衡量剔除异常前后风速-功率与转速-功率的相关性强度:

表 3   不同方法异常值识别效果对比

Tab.3  Performance comparison of different methods in outlier detection

方法总数据量正常数据量$ \varphi $/%$ {\rho }_{v{\text{-}}P} $$ {\rho }_{n{\text{-}}P} $
无(原始数据)6 3006 3000.000.93420.9423
LOF6 3006 0484.000.93940.9448
DBSCAN6 3005 8826.630.94390.9481
DBSCAN+IF6 3005 9216.010.94730.9522
IMDiffusion6 3005 9864.980.94790.9577
TranAD6 3005 9914.900.94730.9533
TimeADDM6 3005 9675.290.95010.9592
IDM6 3005 9545.490.95110.9604

新窗口打开| 下载CSV


图 10

图 10   异常识别后数据分布投影

Fig.10   Data distribution projection after anomaly detection


$ {\rho }_{X,Y}=\frac{\text{cov}\;(X,Y)}{{\sigma }_{X}{\sigma }_{Y}}. $

式中:$ \text{cov}\;(X,Y) $为变量$ (X,Y) $的协方差,$ {\sigma }_{X}{\sigma }_{Y} $为2个变量各自的标准差的乘积. 异常识别率用于衡量被判定为异常的数据在原始数据中的占比:

$ \varphi =\frac{{N}_{\text{a}}-{N}_{\text{o}}}{{N}_{\text{a}}}\times 100{\text{%}}. $

式中:$ {N}_{\text{a}} $为原始数据量,$ {N}_{{\mathrm{o}}} $为剔除异常后的数据量.理想的异常识别方法应在异常识别率与相关性间取得平衡:在相近识别率下获得更高相关性,或在相近相关性下保持更低识别率以减少误检. 表3结果显示,与DBSCAN+IF相比,DBSCAN虽然识别率更高,但特征相关性较低,表明误检漏检严重. DBSCAN+IF、IMDiffusion和TranAD相关性系数接近,但IMDiffusion和TranAD识别率更低,低误检率凸显其在建模隐含异常模式方面的优势. TimeADDM在扩散步骤中应用递归嵌入,能够累积数据的全局时间相关性,更好捕捉长时依赖关系,因此数据异常识别效果优于TranAD. IDM在此基础上进一步提升,异常识别率较TimeADDM提高3.78%,风速-功率与转速-功率相关性系数分别提升0.11%与0.13%. 双重掩码协同策略既抑制了异常值对训练的干扰,增强了模型在不同异常模式下的泛化与稳定性;HRIformer通过倒置结构和分层残差有效提取时序与跨变量特征,提升多层次建模能力;PVRM策略灵活控制信息丢失率,且提升了重构一致性.

掩码周期是影响IDM异常识别效果的重要超参数. 为了评估掩码周期对模型性能的影响,设计参数敏感性实验,以风速-功率和转速功率的皮尔森相关性系数为评价指标,实验结果如表4所示. 掩码周期控制掩码交替的频率. 当掩码周期过小时,模型过度依赖局部信息,导致识别精度下降;周期过大时,异常样本对模型训练干扰增大,影响识别精度. 当掩码周期为3时异常识别效果最佳.

表 4   掩码周期敏感性实验结果

Tab.4  Results of mask period sensitivity experiments

s$ {\rho }_{v{\text{-}}P} $$ {\rho }_{n{\text{-}}P} $s${\rho }_{v{\text{-}}P} $${\rho }_{n{\text{-}}P} $
20.94170.949960.94630.9552
30.95110.960490.94250.9534

新窗口打开| 下载CSV


4.2. 异常值修正

将异常值视为缺失数据,采用LSTM模型进行预测补全. LSTM模型训练阶段,采用滑动窗口机制构造训练样本,仅选取不含异常值的时间片段参与训练,以避免异常信息的干扰;预测补全阶段,若窗口末端的数据被标记为异常,将该时间片段输入LSTM模型,预测并替代异常值. 对于连续的异常点序列,采用迭代预测的方式逐步修复,确保局部时间段的重建连贯性. LSTM模型的超参数设置如下:学习率为0.001,批大小为32,隐藏层单元为256,层数为2,丢弃率为0.1,序列长度为8,时间步长为1,损失函数为MSE,优化器为Adam.

修正前后风速-功率和转速-功率数据分布如图11所示. 修正后的数据与正常数据分布高度一致,表明异常功率经过LSTM修正后已恢复至合理范围,风速与功率的关系呈现出符合风机运行规律的数据分布,验证了修正过程的合理性与有效性.

图 11

图 11   异常值修正后的数据分布

Fig.11   Data distribution after outlier correction


在时间步尺度下进行功率与风速协同分析. 结合风速曲线,风电SCADA数据4类异常值的修正效果如图12所示. 1)功率为零区间:风速接近切入风速,风机输出功率为零,表现为风机处于停机状态. 修正后,当风速大于切入风速时,恢复了正常的风速-功率关系. 2)功率恒定区间:功率不随风速变化而变化,为弃风限电现象. 修正后功率的波动趋势与周围正常数据一致,恢复了风速与功率之间的正常映射关系. 3)超额功率区间:风速接近切出风速,风机输出功率超过额定功率. 修正后将超额功率限制在额定功率范围内,符合风电机组的设计和运行规范. 4)功率突变区间:风速波动剧烈导致数据采集出现误差. 修正后功率变化更加平滑,功率波动趋于正常,有效修复了突变数据.

图 12

图 12   异常值修正前后的风电数据时序图

Fig.12   Time series of wind power data before and after outlier correction


4.3. 消融实验

为了评估IDM-LSTM各模块对异常识别与修正性能的贡献,设计5类消融实验. 实验结果如表5所示.1)为了验证双重掩码协同策略的有效性,比较随机掩码、四分位法+随机掩码和完整流程中的双通道DBSCAN+随机掩码3种方案;2)去噪模型部分,对比U-Net与完整流程中的HRIformer;3)去除IDM异常识别过程,即仅有双通道DBSCAN和物理规则相结合的异常识别. 4)使用线性插值修正方式替代深度学习模型修正. 5) IDM-LSTM全流程作为完整方法. 消融实验共设置5个关键部分有效性的验证,实验结果表明,IDM-LSTM的各个模块对风电SCADA数据异常识别与修正有显著的积极作用. 前3类实验验证异常识别的效果,并未涉及修正,因此只对异常识别效果进行评估;第4类实验验证深度学习模型对异常修正的有效性,在同样的异常识别方法下,对异常修正效果进行评估. 在验证双重掩码协同策略有效性时,单一随机掩码因高无序性,无法减少异常值影响,导致异常识别效果较差. 四分位法与随机掩码结合的掩码策略虽有改善,但难以全面捕捉所有异常模式. 双重掩码协同策略通过结合风速、转速和功率变化趋势,在全局视角下分析数据的整体分布,在局部范围内识别出异常点,提高了异常识别的准确性. 在HRIformer去噪模型有效性验证中,U-Net的对称结构难以有效处理长时间跨度的依赖信息. HRIformer能够更好地建模长距离异常上下文,因此对噪声预测更准确,进而在异常识别中效果更优. 聚类方法在处理高维、多变量的数据时容易受到噪声干扰. IDM利用扩散模型中的前向加噪和反向去噪过程,有效建模数据正常分布,在面对复杂的风电SCADA数据时,具有更强的鲁棒性和适应性. 线性插值仅基于相邻数据点的线性关系进行修正,导致在修正时存在较大误差. LSTM能够建模复杂非线性时序依赖,在异常修正上表现更优.

表 5   基于改进的插补扩散模型与LSTM的风电数据清洗方法的模块消融实验结果

Tab.5  Module ablation results of wind power data cleaning method based on improved imputation diffusion model and LSTM

验证类别具体实施异常识别效果评估异常修正效果评估
$ {\rho }_{v{\text{-}}P} $$ {\rho }_{n{\text{-}}P} $$ {\rho }_{v{\text{-}}P} $$ {\rho }_{n{\text{-}}P} $
双重掩码协同策略随机掩码0.92480.9342
四分位法+随机掩码0.94040.9536
去噪模型U-Net0.93630.9428
IDM不使用IDM0.94570.9513
LSTM线性插值修正0.95780.9649
IDM-LSTM完整流程0.95110.96040.96950.9746

新窗口打开| 下载CSV


为了进一步验证深度学习方法在数据修正中的优势,对比LSTM与线性插值方法修正后数据的概率密度曲线[24],如图13所示. 样本局部密度为$ {\rho }_{\text{local}} $,反映数据点在局部区域的密集程度;概率密度为$ \rho $,表示在不同局部密度下的分布情况;积分结果代表该区域内样本概率. 一方面,曲线峰值对应局部密度最大区域,表明大部分样本集中于此. 修正前后的概率密度曲线存在不重合的部分,分别标记为区域$ {s}_{1} $$ {s}_{2} $. 2种修正方法均有效改变了数据的分布,显著降低了低密度样本的比例. 如表6所示,相较于线性插值法,LSTM修正后的$ {s}_{1} $$ {s}_{2} $明显增大,表明LSTM在调整数据分布方面的效果更为突出,成功提升了有效数据的比例,进一步优化了数据的局部结构. 另一方面,原始数据呈现双峰分布特征. 2种修正方法均在提升第1个峰的概率密度方面表现出色,但线性插值法修正后未能显著改善第2个峰的密度,揭示了该方法在处理复杂数据分布时的局限性. 因此,LSTM修正方法在提高有效数据比例和在数据分布的整体优化方面优势显著.

图 13

图 13   不同方法修正后的数据概率密度曲线对比

Fig.13   Comparison of probability density curves for data corrected by different methods


表 6   不同方法的样本概率对比结果

Tab.6  Comparison of sample probabilities across different methods

方法$ {s}_{1} $$ {s}_{2} $
线性插值0.0280.032
LSTM0.0350.049

新窗口打开| 下载CSV


5. 讨论与展望

IDM-LSTM实现了对风电数据的有效识别与修正. 尽管IDM-LSTM表现出色,仍存在一些局限:研究基于单风机数据,当风机运行环境差异显著时,模型的泛化能力可能受限. 未来考虑引入多风场多场景迁移学习技术,以提升跨场景适用性. 当前主要依赖于风速、转速和历史功率特征,缺乏对更丰富机组状态量和外部环境信息的利用. 未来将引入更多特征信息,形成更全面的特征体系,提升模型的适应性与鲁棒性. 综上,未来在跨场景泛化能力提升和特征体系完善方面的深入研究,将进一步增强风电数据清洗方法的实用性与稳健性.

6. 结 语

为了提高风电SCADA数据的质量,本研究提出基于改进的插补扩散模型与LSTM的风电数据清洗方法,通过实例分析验证了此方法在异常识别和修正的有效性. IDM训练阶段引入双重掩码协同策略,有效屏蔽异常数据并增强模型对正常样本分布的学习能力. 设计HRIformer作为去噪网络,通过残差连接与倒置注意力机制强化全局时序依赖与变量间关联,显著提升复杂多变量时序数据的重构精度. IDM推理阶段引入PVRM策略,通过设定掩码周期生成多组重构片段并融合成完整序列,保证重构数据的时序完整性与准确性. 构建风电SCADA数据识别与修正一体化框架,实现多类型异常的无监督识别与预测驱动修正. 通过与多种异常识别方法在多个评价指标上进行比较,验证了IDM在异常数据识别上的优越性;与线性插值修正方法的对比结果证明了基于深度学习的预测插补修正方法的有效性;消融实验结果表明,各模块均对数据清洗性能的提升具有积极作用.

参考文献

王永生, 关世杰, 刘利民, 等

基于XGBoost扩展金融因子的风电功率预测方法

[J]. 浙江大学学报: 工学版, 2023, 57 (5): 1038- 1049

[本文引用: 1]

WANG Yongsheng, GUAN Shijie, LIU Limin, et al

Wind power prediction method based on XGBoost extended financial factor

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (5): 1038- 1049

[本文引用: 1]

YAO Q, ZHU H, XIANG L, et al

A novel composed method of cleaning anomy data for improving state prediction of wind turbine

[J]. Renewable Energy, 2023, 204: 131- 140

DOI:10.1016/j.renene.2022.12.118      [本文引用: 1]

PANG G, SHEN C, CAO L, et al

Deep learning for anomaly detection: a review

[J]. ACM Computing Surveys, 2022, 54 (2): 1- 38

[本文引用: 1]

魏泰, 贺少雄, 胡子武, 等

基于改进孤立森林算法的风电机组异常数据清洗

[J]. 科学技术与工程, 2024, 24 (9): 3691- 3699

DOI:10.12404/j.issn.1671-1815.2302642      [本文引用: 1]

WEI Tai, HE Shaoxiong, HU Ziwu, et al

Wind turbine abnormal data cleaning based on an improved isolation forest algorithm

[J]. Science Technology and Engineering, 2024, 24 (9): 3691- 3699

DOI:10.12404/j.issn.1671-1815.2302642      [本文引用: 1]

XIANG L, YANG X, HU A, et al

Condition monitoring and anomaly detection of wind turbine based on cascaded and bidirectional deep learning networks

[J]. Applied Energy, 2022, 305: 117925

DOI:10.1016/j.apenergy.2021.117925      [本文引用: 1]

刘宇璐. 物理模型与数据驱动融合的风电机组功率数据异常辨识和插补方法 [D]. 北京: 华北电力大学, 2024.

[本文引用: 1]

LIU Yulu. A physics-guided and data-driven integration of wind turbine power data anomaly identification and interpolation method. [D]. Beijing: North China Electric Power University, 2024.

[本文引用: 1]

罗朗川, 李汝辉, 曾东, 等

基于RANSAC-DBSCAN的风速功率曲线异常数据清洗方法

[J]. 太阳能学报, 2025, 46 (4): 445- 453

DOI:10.19912/j.0254-0096.tynxb.2023-2072      [本文引用: 2]

LUO Langchuan, LI Ruhui, ZENG Dong, et al

Abnormal data cleaning method of wind speed-power curve based on RANSAC-DBSCAN

[J]. Acta Energiae Solaris Sinica, 2025, 46 (4): 445- 453

DOI:10.19912/j.0254-0096.tynxb.2023-2072      [本文引用: 2]

DU W, GUO Z, LI C, et al

From anomaly detection to novel fault discrimination for wind turbine gearboxes with a sparse isolation encoding forest

[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 2512710

DOI:10.1109/tim.2022.3187737      [本文引用: 1]

ZHANG S, WANG F. B-LSTM ultra-short-term wind power prediction based on LOF data anomaly detection [C]// Proceedings of the Second International Conference on Physics, Photonics, and Optical Engineering. Kunming: SPIE, 2024: 22.

[本文引用: 2]

柳源, 李忠虎, 王金明, 等

风电机组SCADA“风速-功率”数据处理方法研究

[J]. 太阳能学报, 2025, 46 (7): 353- 360

DOI:10.19912/j.0254-0096.tynxb.2024-0383      [本文引用: 1]

LIU Yuan, LI Zhonghu, WANG Jinming, et al

Research on data processing methods for “wind speed-power” in wind turbine scada systems

[J]. Acta Energiae Solaris Sinica, 2025, 46 (7): 353- 360

DOI:10.19912/j.0254-0096.tynxb.2024-0383      [本文引用: 1]

CHEN H, LIU H, CHU X, et al

Anomaly detection and critical SCADA parameters identification for wind turbines based on LSTM-AE neural network

[J]. Renewable Energy, 2021, 172: 829- 840

DOI:10.1016/j.renene.2021.03.078      [本文引用: 1]

SUI J, YU J, SONG Y, et al

Anomaly detection for telemetry time series using a denoising diffusion probabilistic model

[J]. IEEE Sensors Journal, 2024, 24 (10): 16429- 16439

DOI:10.1109/JSEN.2024.3383416      [本文引用: 1]

HU R, YUAN X, QIAO Y, et al. Unsupervised anomaly detection for multivariate time series using diffusion model [C]// 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: IEEE, 2024: 9606–9610.

[本文引用: 2]

CHEN Y, ZHANG C, MA M, et al

ImDiffusion: imputed diffusion models for multivariate time series anomaly detection

[J]. Proceedings of the VLDB Endowment, 2023, 17 (3): 359- 372

DOI:10.14778/3632093.3632101      [本文引用: 2]

苗长新, 周志伟, 杨千禧, 等

基于分布特征的风电异常数据检测方法

[J]. 太阳能学报, 2025, 46 (7): 395- 402

DOI:10.19912/j.0254-0096.tynxb.2024-0443      [本文引用: 1]

MIAO Changxin, ZHOU Zhiwei, YANG Qianxi, et al

Anomaly detection method for wind power based on distribution characteristics

[J]. Acta Energiae Solaris Sinica, 2025, 46 (7): 395- 402

DOI:10.19912/j.0254-0096.tynxb.2024-0443      [本文引用: 1]

王圣举, 张赞

基于加速扩散模型的缺失值插补算法

[J]. 浙江大学学报: 工学版, 2025, 59 (7): 1471- 1480

DOI:10.3785/j.issn.1008-973X.2025.07.015      [本文引用: 1]

WANG Shengju, ZHANG Zan

Missing value imputation algorithm based on accelerated diffusion model

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (7): 1471- 1480

DOI:10.3785/j.issn.1008-973X.2025.07.015      [本文引用: 1]

FENG C, LIU C, JIANG D

Unsupervised anomaly detection using graph neural networks integrated with physical-statistical feature fusion and local-global learning

[J]. Renewable Energy, 2023, 206: 309- 323

DOI:10.1016/j.renene.2023.02.053      [本文引用: 1]

LIU Y, HU T, ZHANG H, et al. iTransformer: inverted transformers are effective for time series forecasting [EB/OL]. (2024–05–14)[2025–05–30]. https://arxiv.org/pdf/2310.06625.

[本文引用: 1]

LI X, XIAO C, FENG Z, et al

Controlled graph neural networks with denoising diffusion for anomaly detection

[J]. Expert Systems with Applications, 2024, 237: 121533

DOI:10.1016/j.eswa.2023.121533      [本文引用: 1]

缑泽华. 基于扩散模型的时间序列数据填充与检测方法 [D]. 开封: 河南大学, 2024.

[本文引用: 1]

GOU Zehua. Time-series data imputation and detection method based on diffusion model [D]. Kaifeng: Henan University, 2024.

[本文引用: 1]

ZHANG Y, CHEN Y, WANG J, et al

Unsupervised deep anomaly detection for multi-sensor time-series signals

[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35 (2): 2118- 2132

DOI:10.1109/tkde.2021.3102110      [本文引用: 1]

姚禹, 张志厚, 石泽玉, 等

基于支持向量回归的一维频率域航空电磁反演

[J]. 浙江大学学报: 工学版, 2022, 56 (1): 202- 212

DOI:10.3785/j.issn.1008-973X.2022.01.023      [本文引用: 1]

YAO Yu, ZHANG Zhihou, SHI Zeyu, et al

Airborne electromagnetic inversion in one-dimensional frequency-domain based on support vector regression

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (1): 202- 212

DOI:10.3785/j.issn.1008-973X.2022.01.023      [本文引用: 1]

TULI S, CASALE G, JENNINGS N R

TranAD: deep transformer networks for anomaly detection in multivariate time series data

[J]. Proceedings of the VLDB Endowment, 2022, 15 (6): 1201- 1214

DOI:10.14778/3514061.3514067      [本文引用: 1]

林立栋. 基于概率统计方法的风电机组异常数据识别方法研究 [D]. 北京: 华北电力大学, 2023.

[本文引用: 1]

LIN Lidong. Research on wind turbine abnormal data identification method based on probability and statisties method [D]. Beijing: North China Electric Power University, 2023.

[本文引用: 1]

/