<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 多变量时序图建模过程

Fig.1 Construction process of multivariate time series graph

3. 时空图注意力网络模型

STGAT模型框架如图2所示，主要核心模块包括1）时间特征提取模块：采用TimesNet^[33]模型提取时序图的时间特征，得到时间特征的向量表示；2）空间特征提取模块：采用GCN提取时序图的空间特征，得到空间特征的向量表示；3）时空特征融合模块：采用图注意力机制进行时间特征向量表示和空间特征向量融合，得到统一的时空特征向量表示；4）异常检测模块：将时空特征向量表示作为输入，经过多层感知机（multilayer perceptron, MLP）进行预测，比较预测值与实际值以检测异常.

图 2

图 2 时空图注意力网络模型框架

Fig.2 Framework of spatiotemporal graph attention network

3.1. 时间特征提取

时序数据中蕴藏的异常问题往往是多种因素变化过程的叠加，呈现周期内与周期间2种类型的时序变化特征，本研究采用TimesNet模型提取多变量时序图的变化特征，与LSTM、RNN和Transformer等时序模型相比，TimesNet模型能够学习时序图的周期性变化特征，它的网络结构如图3所示. 时序图通过线性嵌入，得到一维时序向量，利用快速傅里叶变化提取一维时序向量的周期性信息，再将周期信息叠加到一维时序向量上，变化过程为

图 3

图 3 TimesNet模型的网络结构

Fig.3 Structure of TimesNet model

(4)$ {\boldsymbol{Z}}{\text{ = Avg}}\left( {{\text{FFT}}\left( {{{\boldsymbol{X}}_{{\mathrm{1D}}}}} \right)} \right); $

(5)$ \left\{ {{f_1}, \cdots ,{f_k}} \right\}{\text{ = argTopk}}\left( {\boldsymbol{Z}} \right); $

(6)$ {\boldsymbol{X}}_{{\mathrm{2D}}}^i = {\text{Reshap}}{{\text{e}}_{{f_i}}}\left( {{\text{Padding}}\left( {{{\boldsymbol{X}}_{{\text{1D}}}}} \right)} \right),\;i \in \left\{ {1, 2, \cdots , k} \right\}. $

式中：X_1D为一维时序向量，FFT为快速傅里叶变换；${\boldsymbol{Z}} \in {\bf{R}}^T $为X_1D中每个频率分量的强度，T为X_1D的长度；argTopk为选取前k个频率强度最高的周期信息$\left\{f_1, \cdots, f_k\right\} $；Padding(·)为在X_1D末尾补零，使重构后的二维时序向量${\boldsymbol{X}}_{{\mathrm{2D}}}^i$的长度符合选取的周期信息长度. 二维时序向量蕴含不同周期信息，其列元素为相邻时刻，行元素为相邻周期. ${\boldsymbol{X}}_{{\mathrm{2D}}}^i $通过ResNet卷积策略整合残差信息以提取时序数据的时间特征，得到二维时序特征向量$\hat {\boldsymbol{X}}_{{\mathrm{2D}}}^i(i \in k)$，再转换回一维空间并进行信息聚合，计算式为

(7)$ \hat {\boldsymbol{X}}_{{\text{1D}}}^i = {\text{Trunc}}\left( {{\text{Reshape}}\left( {\hat {\boldsymbol{X}}_{{\text{2D}}}^i} \right)} \right),\;i \in \left\{ {1,2, \cdots , k} \right\}; $

(8)$ \{ {\hat f_1}, \cdots , {\hat f_k}\} = {\mathrm{SoftMax}}\{ {f_1}, \cdots , {f_k}\} ; $

(9)$ {{\boldsymbol{X}}^i} = \mathop \sum \nolimits_{i = 1}^k {\hat f_i} \times \hat {\boldsymbol{X}}_{{\text{1D}}}^i. $

函数Trunc将二维时序特征向量$\hat{\boldsymbol{X}}_{{\mathrm{2D}}}^i $补充的0去除，Reshape将$\hat{\boldsymbol{X}}_{{\mathrm{2D}}}^i $转换为一维特征向量$\hat{\boldsymbol{X}}_{{\mathrm{1D}}}^i $，SoftMax将周期信息f_i (i=1, ···, k)映射为不同权重$\left\{\hat f_1, \cdots , \hat f_k\right\} $，对每个$\hat{\boldsymbol{X}}_{{\mathrm{2D}}}^i $进行累计加权求和得到时间特征向量表示${\boldsymbol{X}}^i $.

3.2. 空间特征提取

空间特征提取旨在将多变量时序图中目标节点的高阶邻居特征嵌入低维的向量空间. 针对多变量时序图的目标结点特征主要集中在局部变化的特点，采用GCN提取空间特征，目标节点空间特征向量表示的计算式为

(10)$ {\boldsymbol{v}}^{l+1} = \delta \left( {{{\hat {\boldsymbol{D}}}^{ - \frac{1}{2}}}\hat {\boldsymbol{A}}{{\hat {\boldsymbol{D}}}^{ - \frac{1}{2}}}{{\boldsymbol{v}}^{ l }}{{\boldsymbol{W}}^{ l }}} \right). $

式中：$ \hat {\boldsymbol{A}} $为邻接矩阵A的自连接矩阵，$ \hat {\boldsymbol{D}} $为$ \hat {\boldsymbol{A}} $的度矩阵，W^l为第l层的权重矩阵，$ \delta $为非线性变换，v^l为目标节点在第l层的特征. 由式（10）计算得到时序数据节点的空间特征向量表示：

(11)$ {{\boldsymbol{v}}}_{i}^{t}\in {{\bf{R}}}^{d}\text{，}i\in \left\{1,2,\cdots ,n\right\} . $

式中：${\boldsymbol{v}}_i^t$为t时刻第i个时序数据空间特征向量表示，d为向量的维度，n为时序数据的数量.

3.3. 时空特征融合

特征融合主要有级联方式与相加方式，其中级联方式容易引入冗余信息，且在特征相关性较低时，特征会消失；相加方式难以捕捉不同类别特征间的关联关系. 为了有效融合时空特征，采用GAT计算时空注意力系数，得到统一的时空特征向量，计算式为

(12)$ {\boldsymbol{z}}_i^t = {\text{ReLU}}\left( {{{\boldsymbol{W}}_z}{\boldsymbol{X}}_i^t+\mathop \sum \nolimits_{j \in N\left( i \right)} {\alpha _{i,j}}{{\boldsymbol{W}}_z}{\boldsymbol{X}}_j^t} \right). $

式中：${{\boldsymbol{W}}_z}$为可学习的权重矩阵，${{\boldsymbol{X}}^i}$为时间特征向量，$N\left( i \right)$为节点i的邻居节点集合，${\mathbf{z}}_{{i}}^t$为t时刻时序数据i的时空特征向量表示，$ {\alpha _{i,j}} $为时空融合注意力系数，计算式为

(13)$ {\alpha _{{{i,j}}}} = \frac{{\exp \;(\theta \left( {i,j} \right))}}{{\displaystyle\sum k \in {N_{\left( i \right)}}\exp \;({\text{LeakyReLU}}\left( {\theta \left( {i,k} \right)} \right))}}, $

(14)$ \theta \left( {i,j} \right) = {\text{LeakyReLU}}\left( {{{\boldsymbol{a}}^{\mathrm{T}}}\left( {{\boldsymbol{g}}_i^t \oplus {\boldsymbol{g}}_j^t} \right)} \right), $

(15)$ {\boldsymbol{g}}_i^t = {{\boldsymbol{W}}_g}{{\boldsymbol{v}}_i} \oplus {\boldsymbol{X}}_i^t. $

式中：$ \theta(i, j) $为向量之间的关系，k为节点i的邻居节点，${\boldsymbol{a}}^{\mathrm{T}}$为注意力系数转置，$ {{\boldsymbol{v}}_i} $为空间特征向量，${{\boldsymbol{W}}_g}$为线性变换矩阵，$ \oplus $表示向量拼接操作，${\boldsymbol{g}}_i^t$为初始时空特征向量，LeakyReLU(·)为非线性激活函数. 在t时刻n个时序数据节点的时空特征向量为$[{\boldsymbol{z}}_1^t, \cdots ,{\boldsymbol{z}}_{{n}}^t]$.

3.4. 网络模型训练

将时空特征向量表示输入多层感知机，预测未来时刻的数据：

(16)$ \left[ {\hat s_1^t,\hat s_2^t,\hat s_i^t, \cdots ,{{\hat s}_n}} \right] = {\text{MLP}}\left( {\left[ {{\boldsymbol{z}}_1^t,{\boldsymbol{z}}_2^t,{\boldsymbol{z}}_i^t, \cdots ,{\boldsymbol{z}}_n^t} \right]} \right). $

式中：$\hat s_i^t$为t时刻对应时序数据i的预测值. 采用均方误差函数计算时序数据预测值和观测值的损失：

(17)$ {L_{{\mathrm{MSE}}}} = \frac{1}{{L}}\mathop \sum \nolimits_{t = L +1}^{{T_i}} (\hat s_i^t - s_i^t)_{}^2 . $

式中：L为输入序列长度，T_i为训练集. 通过Adam优化器来最小化损失函数，使得检测模型能够准确学习正常数据的分布规律. 不断迭代训练过程，使时序数据的时空融合向量表示收敛，获得最终时序数据预测模型.

3.5. 异常判定

在测试集上进行异常检测，异常分数的计算式为

(18)$ {{{E}}_i}\left( t \right) = \left| {s_i^t - \hat s_i^t} \right|. $

式中：$s_i^t$为t时刻第i个时序数据的观测值. 使用指数加权平均对异常分数进行处理，以平滑数据突变导致的异常分数峰值，计算式为

(19)$ {\text{E}}{{\text{S}}_i}\left( t \right) = {\mathrm{EWMA}}{\left( {\left| {s_i^t - \hat s_i^t} \right|} \right)^2}. $

式中：ES_i为经平滑处理后的第i个时序数据的异常分数. 通过计算异常的均值和标准差，可以动态设定异常阈值，原因是均值和标准差分别表征数据的集中趋势和离散程度，能够有效识别显著偏离正常范围的数据点^[23]，计算式为

(20)$ \varepsilon = \mu \left( {{{\mathrm{ES}}_i}} \right){{+z}}\sigma \left( {{{\mathrm{ES}}_i}} \right). $

式中：$\varepsilon $为异常阈值；$\mu $为时序数据的均值；$\sigma $为时序数据的标准差；阈值动态取值参数z∈[2,10]，z与异常阈值一一对应. 从异常阈值集合中选择与正常数据$({{\mathrm{ES}}_i} \lt \varepsilon )$差距最大的阈值，计算式为

(21)$ {e_{\mathrm{a}}} = \left\{ {{{\mathrm{ES}}_j} \in {{\mathrm{ES}}_i}|{{\mathrm{ES}}_i} > \varepsilon } \right\}, $

(22)$ {\varepsilon _{{\mathrm{max}}}} = {\text{max}}\left( {\frac{{\Delta \mu \left( {{{\mathrm{ES}}_i}} \right)/\mu \left( {{{\mathrm{ES}}_i}} \right)+\Delta \sigma \left( {{{\mathrm{ES}}_i}} \right)/\sigma \left( {{{\mathrm{ES}}_i}} \right)}}{{\left| {{e_{\mathrm{a}}}\right| + {E_{{\mathrm{seq}}}}} }}} \right). $

式中：$\Delta \mu \left( {{{\mathrm{ES}}_i}} \right)$为所有数据均值与正常数据均值的差值，$\Delta \sigma \left( {{{\mathrm{ES}}_i}} \right)$为所有数据标准差与正常数据标准差的差值，${e_{\mathrm{a}}}$为异常值，${E_{{\mathrm{seq}}}}$为连续异常值的个数，${\varepsilon _{{\mathrm{max}}}}$为最终选择的阈值. 当多变量时序数据的异常分数大于最大异常阈值时，判定该时序数据存在异常.

3.6. 复杂度分析

设O(n²)为时序图构建模块的时间复杂度，其中n为节点数量，x₁和x₂均为节点数据的维度；O(c(ned₁d₂)为空间特征提取模块的时间复杂度，其中c为图卷积层数，e为节点邻居数，d₁和d₂分别为节点向量的输入维度和卷积后的输出维度；O(nLc_ic_o)为时间特征提取模块的时间复杂度，其中L为输入序列长度，c_i和c_o分别为输入通道数和输出通道数；O(nekg_ig_j)为时空特征融合模块的时间复杂度，其中k为注意力头数，g_i、g_j均为时空特征拼接后的特征维数.

4. 实验结果与分析

4.1. 实验环境

在4个公开数据集SWaT^[34]、MSL^[35]、SMD^[19]、PSM^[23]中开展STGAT模型性能评价实验. SWaT由连续运转的安全水处理系统中的关键传感器收集的时序数据组成，含51个变量；MSL由美国国家航天局收集的火星漫游车系统报告数据组成，含55个变量；SMD由大型互联网公司的服务器运行数据组成，含38个变量；PSM由eBay公司服务器运行数据组成，含25个变量. 实验用数据集的统计信息如表1所示，其中n_t、n_d和n_m分别为训练集、验证集和测试集的时序数据样本数量，r_a为数据异常比例.

表 1 模型性能评价实验用数据集的统计信息

Tab.1 Statistical information of dataset used for model performance evaluation

数据集	n_t	n_d	n_m	r_a/%
SWaT	396000	99000	44919	12.1
MSL	46653	11664	73729	10.5
SMD	566724	141681	708420	4.2
PSM	105984	26497	87841	27.8

新窗口打开| 下载CSV

选取精确率P、召回率R和F1分数作为模型性能的评价指标. 1）精确率表示所有被预测为正确的样本中实际正确的概率，计算式为

(23)$ P = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FP}}}}. $

式中：TP、FP分别为真阳性和假阳性的数量. 2）召回率表示实际为正的样本中被预测为正样本的概率，计算式为

(24)$ R = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}}. $

式中：FN为假阴性的数量. 3）F1分数为精确率与召回率的调和平均，用于比较模型的综合性能，计算式为

(25)$ {\mathrm{F}}{\text{1 = }}\frac{{2 \times {{P}} \times {{R}}}}{{{{P}}+{{R}}}} . $

选取10个典型模型与STGAT进行对比分析，这些基线模型分属2个类别：深度学习模型和图深度学习模型. 1）DAGMM^[22]利用深度自编码器为每个输入数据点生成低维表示并进行误差重建；2）LSTM^[13]通过遗忘门、输入门和输出门控制时序数据的流动，利用序列信息学习时序数据的隐藏模式；3）LSTM-VAE^[35]结合LSTM与VAE，通过编码器将时序数据映射到潜在空间中，通过随机采样从潜在空间中生成重构数据以区分异常样本；4）BeatGAN^[25]使用对抗生成对重构误差进行正则化，使用时间序列翘曲进行数据增强；5）OminiAnomoly^[19]利用随机递归神经网络处理随机变量之间的显式时间依赖性，学习数据的鲁棒表示；6）THOC^[21]使用具有跳跃连接的扩展循环神经网络来准确捕获多个尺度下的时间动态特征进行预测；7）MTAD-GAT^[30]属于图深度学习模型，它利用2个并行的 GAT 学习时间序列间的时序和特征依赖关系；8）GDN^[27]：属于图深度学习模型，它从多变量时序数据中提取高度相关的空间特征信息；9）TimesNet^[32]将复杂时序数据变化分解至不同周期，通过将原始一维时间序列转化至二维空间来提取时序数据周期间与周期内特征；10）DLinear^[36]引入 LTSF-Linear 模型，将时间序列预测问题转化为简单的线性模型，通过实验证明该模型在时序数据预测中优于基于 Transformer 的复杂模型.

4.2. 实验结果

在Pytorch框架实现STGAT异常检测模型，采用Adam 算法进行参数更新，操作系统为 Ubuntu Server 18. 04. 1 LTS 64 位，CPU 为 Intel Xeon Gold 6133 @2.5 GHz，GPU为NVIDIA Tesla V100. K近邻算法的Top-K参数在数据集SMD和PSM中均设置为4，在数据集MSL与SWaT中均设置为8. 时间特征提取模块在数据集PSM、SMD、SWaT中应用2层输出维度为64的TimesNet，在MSL中应用单层输出维度为32的TimesNet. 空间特征提取模块在所有数据集中均由单层GCN构成，在PSM、SMD、SwaT中输出维度为64，在MSL中输出维度为32. 时空特征融合模块在所有数据集中均由单层单头GAT组成，在PSM、SMD、SWaT中的输出维度为64，在MSL数据集中应用输出维度为32. 模型在所有数据集的学习率统一设置为1.0×10⁻⁴，批量大小设置统一设为128，最多训练30轮，每轮训练后学习率进行指数衰减，多层感知机设置的输出维度与数据集维度相同.

不同模型在4个公开数据集中的性能指标如表2所示. 可以看出，STGAT在SWaT、MSL、SMD和PSM数据集上的综合指标F1分数较最优基线模型分别提高了1.39、0.40、0.84和0.07个百分点. 对于数据规模庞大且异常数据较多的SWaT和PSM，STGAT的F1分数分别为93.13%和97.54%，这表明本研究所提模型适合处理大规模数据集. 对于数据规模小但变量数较多的MSL，STGAT的F1分数为88.06%，这表明所提模型在异常数据较少且异常模式复杂的情况下也能准确检测出数据异常. 对于异常比例较低的SMD，STGAT的F1分数为87.42%，这表明在异常情况较少的情况下，所提模型仍能准确检测出异常.

表 2 不同模型在4个数据集中的性能评价指标

Tab.2 Performance evaluation metrics of different models in four datasets %

模型	SWaT			MSL			SMD			PSM
模型	P	R	F1	P	R	F1	P	R	F1	P	R	F1
DAGMM	89.92	57.84	70.40	89.60	63.93	74.62	67.30	49.89	57.30	93.49	70.03	80.08
LSTM	86.15	83.27	84.69	85.45	82.50	83.95	78.55	85.28	81.78	76.93	89.64	82.80
LSTM-VAE	76.00	89.50	82.20	73.71	88.54	80.44	75.76	90.07	82.30	73.62	89.92	80.96
BeatGAN	64.01	87.46	73.92	89.75	85.42	87.52	72.90	84.71	79.48	90.30	93.84	92.04
OminiAnomoly	81.42	84.30	82.83	89.75	85.40	87.54	83.68	86.82	85.22	88.39	74.46	80.83
THOC	83.93	86.36	85.13	86.45	88.92	87.66	79.76	90.95	84.99	88.14	90.99	89.54
MTAD-GAT	81.42	84.30	82.83	87.54	84.42	85.95	90.19	83.25	86.58	72.39	77.46	74.83
GDN	99.35	68.12	80.82	78.45	63.07	69.92	74.02	61.43	67.09	92.32	85.82	87.66
TimesNet	86.76	97.32	91.74	83.92	86.42	85.15	88.66	83.14	85.81	98.19	96.76	97.47
DLinear	81.51	95.63	87.96	86.44	88.12	87.34	87.62	83.81	85.72	97.28	95.46	96.32
STGAT	90.99	95.37	93.13	89.74	86.85	88.06	89.95	85.04	87.42	98.49	96.62	97.54

新窗口打开| 下载CSV

如图4所示为STGAT模型在4个动态特性显著的传感器（S0、S1、S7、S15）上的预测结果，其中t为时间步，V为传感器值. 可以看出，STGAT的预测值与真实值高度贴合，表明所提模型具有良好的泛化能力与时间依赖建模能力. 图4（a）表明模型能够在时序数据发性陡然变化时展现出良好的预测性能，这对于突发事件的响应至关重要. 图4（b）表明模型在处理具有明显周期性的数据时表现优越，能够成功捕捉并拟合时序数据中的周期性变化，这反映了在时间序列建模中模型对周期性模式的有效识别和学习能力. 图4（c）和图4（d）表明STGAT在面对非平稳数据时同样表现出色，能够准确捕捉数据变化的趋势，说明该模型在复杂场景中具备良好的适应能力.

图 4

图 4 所提模型在不同传感器上的时序数据预测值与观测值

Fig.4 Time series data predictions and observations from different sensors using proposed model

如图5所示为STGAT模型在异常情况下对4个动态特性显著的传感器（S1、S55、S22、S3）时序数据的预测值与观测值对比结果，根据该对比结果可以定位异常发生的传感器与时刻. 如由图5（a）可以看出，在异常时段的波形峰值较正常波形峰值高. 观测值与预测值存在显著差异时还能够精确检测异常，在图5（b）、图5（c）、图5（d）中，预测值与异常值的差异明显，此时模型能够精确地捕捉和识别异常，准确判定异常位置和异常时间，为检测结果提供依据.

图 5

图 5 所提模型在不同传感器上的时序数据预测值与观测值（异常情况）

Fig.5 Time series data predictions and observations from different sensors using proposed model (anomalous condition)

4.3. 消融实验

考察TimesNet模块、GCN模块和时空融合方法对STGAT性能的影响，实验结果如表3所示，其中TNO表示只采用时间特征提取模块，不采用图卷积与时空特征融合模块； GCNO表示只采用图卷积模块，不采用时间特征提取模块与时空融合特征模块；STGATA表示采用基于相加的特征融合方式；STGATC表示采用基于级联的特征融合方式. 可以看出，如果只采用时间特征提取模块，F1分数性能分别下降了6.22、7.31、3.17和5.82个百分点，在传感器数量较多且规模较小的MSL中，模型性能下降最明显，这表明提取空间特征对异常检测至关重要. 如果只采用图卷积模块，F1分数分别下降18.05、12.60、23.93和16.8个百分点，这表明模型未能提取时间特征，导致大量异常情况被漏检. 如果采用相加和级联的特征融合方式，F1分数最多下降6.09和10.08个百分点，这表明这2种融合方式会影响检测性能.

表 3 所提模型的模块消融实验结果

Tab.3 Modular ablation experimental results for proposed model %

模型	SWaT			MSL			SMD			PSM
模型	P	R	F1	P	R	F1	P	R	F1	P	R	F1
TNO	85.59	88.29	86.91	76.42	85.61	80.75	83.35	80.26	84.25	93.71	89.82	91.72
GCNO	72.15	78.27	75.08	74.45	76.50	75.46	60.55	66.74	63.49	78.93	82.64	80.74
STGATA	86.78	88.50	87.63	85.71	81.54	83.57	87.36	84.07	85.68	90.02	92.93	91.45
STGATC	85.13	81.08	83.05	84.41	82.51	84.42	84.90	82.71	83.79	88.45	85.42	86.90
STGAT	90.99	95.37	93.13	89.74	86.85	88.06	89.95	85.04	87.42	98.49	96.62	97.54

新窗口打开| 下载CSV

考察输入序列长度对STGAT性能的影响. 使用非重叠单步滑动窗口提取固定长度的序列数据作为输入，如图6所示为输入序列长度对异常检测性能的影响. 可以看出，不同数据集须输入不同的序列长度才能够获得最好的性能，例如在SMD上序列数据长度为150时性能表现最好，在SWaT上序列长度为100时性能表现最好. 综合来看，在4个数据集上的F1分数均超过80%，这表明STGAT性能在不同序列长度情况下稳定性较好.

图 6

图 6 序列长度对异常检测性能的影响

Fig.6 Impact of sequence length on anomaly detection performance

考察在构建图数据时高斯核加权K近邻算法的参数K对模型性能的影响. 如图7所示为K构建的时序图对异常检测性能的影响，根据经验设置K∈[1，10]. 对于不同K，在SMD中F1∈[83.95%, 87.42%]，浮动范围为3.47个百分点；在MSL中F1∈[83.12%，88.06%]，浮动范围为4.94个百分点；在SWaT中F1∈[87.24%，93.13%]，浮动范围为5.89个百分点；在PSM中F1∈[92.13%,97.54%]，浮动范围为5.41个百分点. 由此可知，K对模型性能会产生一定影响，但表现总体稳定.

图 7

图 7 不同时序图对异常检测性能的影响

Fig.7 Impact of different time series graph on anomaly detection performance

5. 结　语

本研究提出基于时空图注意力网络的多变量时序数据异常检测模型，通过高斯核加权K近邻算法将多变量时序数据转换为多变量时序图数据，分别提取时序图的时间特征与空间特征，通过图注意力网络将时空特征融合，得到时空特征的统一向量表示，由该向量表示进行时序数据预测，通过计算预测数据和观测数据的异常分数进行异常检测. 在公开数据集上的实验结果表明，相比现有模型，所提模型不仅具有良好的异常检测性能，而且鲁棒性更强，在不同类别的数据集上具有稳定的检测结果. 所提模型在实际应用过程中仍面临一些挑战，有待进一步探究与完善：1）在构建传感器时序图数据模型的过程中，本研究采用动态时间规整度与高斯核加权相结合的方法，提供了有效的数据建模策略. 该方法仍有不足之处. 例如，参数K和高斯核的参数选择对模型的性能产生一定影响. 这些参数的选择须由实验确定，这增加了模型的不确定性和对先验知识的依赖. 未来研究计划探索更有效的构图方法，以减少对参数调整的依赖，提高模型的鲁棒性和泛化能力. 2）在基于时空图注意力网络异常检测模型的训练过程中，迭代时间较长，在处理大规模数据集时该情况更为明显. 未来研究计划探索更有效的模型训练策略（如使用更高效的优化算法、模型剪枝或知识蒸馏技术）来减少训练时间.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

丁小欧, 于晟健, 王沐贤, 等

基于相关性分析的工业时序数据异常检测

[J]. 软件学报, 2020, 31 (3): 726- 747

DING Xiaoou, YU Shengjian, WANG Muxian, et al

Anomaly detection on industrial time series based on correlation analysis

[J]. Journal of Software, 2020, 31 (3): 726- 747

DOI:10.7544/issn1000-1239.2020.20190875 [本文引用: 2]

[2]

SIMMROSS-WATTENBERG F, ASENSIO-PEREZ J I, CASASECA-DE-LA-HIGUERA P, et al

Anomaly detection in network traffic based on statistical inference and \alpha-stable modeling

[J]. IEEE Transactions on Dependable and Secure Computing, 2011, 8 (4): 494- 509

DOI:10.1109/TDSC.2011.14 [本文引用: 1]

[3]

张圣林, 李东闻, 孙永谦, 等

面向云数据中心多语法日志通用异常检测机制

[J]. 计算机研究与发展, 2020, 57 (4): 778- 790

ZHANG Shenglin, LI Dongwen, SUN Yongqian, et al

Unified anomaly detection for syntactically diverse logs in cloud datacenter

[J]. Journal of Computer Research and Development, 2020, 57 (4): 778- 790

DOI:10.7544/issn1000-1239.2020.20190875 [本文引用: 2]

[4]

苏卫星, 朱云龙, 刘芳, 等

时间序列异常点及突变点的检测算法

[J]. 计算机研究与发展, 2014, 51 (4): 781- 788

DOI:10.7544/issn1000-1239.2014.20120542 [本文引用: 1]

SU Weixing, ZHU Yunlong, LIU Fang, et al

Outliers and change-points detection algorithm for time series

[J]. Journal of Computer Research and Development, 2014, 51 (4): 781- 788

DOI:10.7544/issn1000-1239.2014.20120542 [本文引用: 1]

[5]

HODGE V, AUSTIN J

A survey of outlier detection methodologies

[J]. Artificial Intelligence Review, 2004, 22 (2): 85- 126

DOI:10.1023/B:AIRE.0000045502.10941.a9 [本文引用: 1]

[6]

AGGARWAL C C, YU P S

Outlier detection for high dimensional data

[J]. ACM SIGMOD Record, 2001, 30 (2): 37- 46

DOI:10.1145/376284.375668 [本文引用: 1]

[7]

LI W, MAHADEVAN V, VASCONCELOS N

Anomaly detection and localization in crowded scenes

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36 (1): 18- 32

DOI:10.1109/TPAMI.2013.111 [本文引用: 1]

[8]

MANEVITZ L M, YOUSEF M

One-class svms for document classification

[J]. Journal of Machine Learning Research, 2002, 2: 139- 154

[9]

LAPTEV N, AMIZADEH S, FLINT I. Generic and scalable framework for automated time-series anomaly detection [C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney: ACM, 2015: 1939–1947.

[10]

SAKURADA M, YAIRI T. Anomaly detection using autoencoders with nonlinear dimensionality reduction [C]// Proceedings of the MLSDA 2014 2nd Workshop on Machine Learning for Sensory Data Analysis. Gold Coast: ACM, 2014: 4–11.

[11]

ZENATI H, ROMAIN M, FOO C S, et al. Adversarially learned anomaly detection [C]// Proceedings of the IEEE International Conference on Data Mining. Singapore: IEEE, 2018: 727–736.

[12]

BROWN A, TUOR A, HUTCHINSON B, et al. Recurrent neural network attention mechanisms for interpretable system log anomaly detection [C]// Proceedings of the First Workshop on Machine Learning for Computing Systems. Tempe: ACM, 2018: 1–8.

[13]

GREFF K, SRIVASTAVA R K, KOUTNÍK J, et al

LSTM: a search space odyssey

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28 (10): 2222- 2232

DOI:10.1109/TNNLS.2016.2582924 [本文引用: 2]

[14]

ZHOU H, ZHANG S, PENG J, et al

Informer: beyond efficient transformer for long sequence time-series forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35 (12): 11106- 11115

DOI:10.1609/aaai.v35i12.17325 [本文引用: 1]

[15]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2017–02–22)[2024–08–23]. https://arxiv.org/pdf/1609.02907.

DOI:10.11959/j.issn.1000-436x.2023042 [本文引用: 1]

[16]

WEI Y, JANG-JACCARD J, XU W, et al

LSTM-autoencoder-based anomaly detection for indoor air quality time-series data

[J]. IEEE Sensors Journal, 2023, 23 (4): 3787- 3800

DOI:10.1109/JSEN.2022.3230361 [本文引用: 1]

[17]

XU H, PANG G, WANG Y, et al

Deep isolation forest for anomaly detection

[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35 (12): 12591- 12604

DOI:10.1109/TKDE.2023.3270293 [本文引用: 1]

[18]

BARRIENTOS-TORRES D, MARTINEZ-RÍOS E A, NAVARRO-TUCH S A, et al

Water flow modeling and forecast in a water branch of Mexico City through ARIMA and transfer function models for anomaly detection

[J]. Water, 2023, 15 (15): 2792

DOI:10.3390/w15152792 [本文引用: 1]

[19]

SU Y, ZHAO Y, NIU C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network [C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Anchorage: ACM, 2019: 2828–2837.

[本文引用: 3]

[20]

霍纬纲, 梁锐, 李永华

基于随机Transformer的多维时间序列异常检测模型

[J]. 通信学报, 2023, 44 (2): 94- 103

HUO Weigang, LIANG Rui, LI Yonghua

Anomaly detection model for multivariate time series based on stochastic Transformer

[J]. Journal on Communications, 2023, 44 (2): 94- 103

DOI:10.11959/j.issn.1000-436x.2023042 [本文引用: 1]

[21]

SHEN L, LI Z, KWOK J T. Timeseries anomaly detection using temporal hierarchical one-class network [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: ACM, 2020: 13016–13026.

[22]

ZONG B, SONG Q, MIN M R, et al. Deep autoencoding gaussian mixture model for unsupervised anomaly detection [C]// International Conference on Learning Representations. Vancouver: [s.n.], 2018: 1–19.

[23]

ABDULAAL A, LIU Z, LANCEWICKI T. Practical approach to asynchronous multivariate time series anomaly detection and localization [C]// Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2021: 2485–2494.

[本文引用: 3]

[24]

ZHANG Z, LI W, DING W, et al

STAD-GAN: unsupervised anomaly detection on multivariate time series with self-training generative adversarial networks

[J]. ACM Transactions on Knowledge Discovery from Data, 2023, 17 (5): 1- 18

[25]

ZHOU B, LIU S, HOOI B, et al. BeatGAN: anomalous rhythm detection using adversarially generated time series [C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. [S.l.]: International Joint Conferences on Artificial Intelligence Organization, 2019: 4433–4439.

[26]

LIU Y, DING K, LU Q, et al. Towards self-interpretable graph-level anomaly detection [EB/OL]. (2023–10–25)[2024–09–13]. https://arxiv.org/pdf/2310.16520.

[27]

DENG A, HOOI B. Graph neural network-based anomaly detection in multivariate time series [C]// The 34th AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 4027–4035.

[28]

ZHENG Y, KOH H Y, JIN M, et al

Correlation-aware spatial-temporal graph learning for multivariate time-series anomaly detection

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35 (9): 11802- 11816

DOI:10.1109/TNNLS.2023.3325667 [本文引用: 1]

[29]

DING K, SHU K, SHAN X, et al

Cross-domain graph anomaly detection

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33 (6): 2406- 2415

DOI:10.1109/TNNLS.2021.3110982 [本文引用: 1]

[30]

ZHAO H, WANG Y, DUAN J, et al. Multivariate time-series anomaly detection via graph attention network [C]// Proceedings of the IEEE International Conference on Data Mining. Sorrento: IEEE, 2020: 841–850.

[31]

GUO G, WANG H, BELL D, et al. KNN model-based approach in classification [C]// On The Move to Meaningful Internet Systems 2003: CoopIS, DOA, and ODBASE. Berlin: Springer, 2003: 986–996.

[32]

PARK D, HOSHI Y, KEMP C C

A multimodal anomaly detector for robot-assisted feeding using an LSTM-based variational autoencoder

[J]. IEEE Robotics and Automation Letters, 2018, 3 (3): 1544- 1551

DOI:10.1109/LRA.2018.2801475 [本文引用: 2]

[33]

WU H, HU T, LIU Y, et al. TimesNet: temporal 2D-variation modeling for general time series analysis [EB/OL]. (2023–04–12)[2024–08–21]. https://arxiv.org/pdf/2210.02186.

[34]

MATHUR A P, TIPPENHAUER N O. SWaT: a water treatment testbed for research and training on ICS security [C]// Proceedings of the International Workshop on Cyber-physical Systems for Smart Water Networks. Vienna: IEEE, 2016: 31–36.

[35]

HUNDMAN K, CONSTANTINOU V, LAPORTE C, et al. Detecting spacecraft anomalies using LSTMs and nonparametric dynamic thresholding [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London: ACM, 2018: 387–395.