用于多元时间序列预测的图神经网络模型

doi:10.3785/j.issn.1008-973X.2024.12.009

用于多元时间序列预测的图神经网络模型

张晗^,

东北财经大学数据科学与人工智能学院，大连辽宁 116025

Graph neural network model for multivariate time series forecasting

ZHANG Han^,

School of Data Science and Artificial Intelligence, Dongbei University of Finance and Economics, Dalian 116025, China

收稿日期: 2023-12-30

基金资助:

辽宁省应用基础研究计划资助项目(2023JH2/101600040)；辽宁省教育厅基本科研资助项目(LJKMZ20221598).

Received: 2023-12-30

Fund supported:

辽宁省应用基础研究计划资助项目(2023JH2/101600040)；辽宁省教育厅基本科研资助项目(LJKMZ20221598).

作者简介 About authors

张晗（1990—），男，讲师，博士，从事神经网络和表示学习研究.orcid.org/0000-0002-7923-7005.E-mail：hanzhang@dufe.edu.cn , E-mail：hanzhang@dufe.edu.cn

摘要

现有用于多元时序预测的图神经网络模型大多基于预定义图以静态的方式捕捉时序特征，缺少对于系统动态适应和对时序样本之间潜在动态关系的捕捉. 提出用于多元时序预测的图神经网络模型 (MTSGNN). 该模型在一个图学习模块中，采用数据驱动的方式学习时间序列数据的静态图和动态演化图，以捕捉时序样本之间的复杂关系. 通过图交互模块实现静态图和动态图之间的信息交互，并使用卷积运算提取交互信息中的依赖关系. 利用多层感知机对多元时序进行预测. 实验结果表明，所提模型在6个真实的多元时间序列数据集上的预测效果显著优于当前最先进的方法，并且具有参数量较小、运算速度较快的优点.

关键词： 多元时间序列 ; 图神经网络 ; 静态图 ; 动态图 ; 图交互

Abstract

Most of the existing graph neural network models for forecasting multivariate time series capture the time series characteristics in a static way based on predefined graphs, and may be lack of capturing the dynamic adaptation of the system and some potential dynamic relationships between time series samples. A graph neural network model for multivariate time series prediction (MTSGNN) was proposed. In a graph learning module, the static and dynamic evolution graphs of time series data were learned in a data-driven way to capture the complex relationships between time series samples. The information interaction between the static and dynamic graphs was realized by the graph interaction module, and the convolution operation was used to extract the dependency in the interaction information. A multi-layer perceptron was used to forecast the multivariate time series. Experimental results on six real multivariate time series datasets showed that the forecasting effect of the proposed model was significantly better than those of the current state-of-the-art methods, and it had the advantages of small parameter quantity and fast operation speed.

Keywords： multivariate time series ; graph neural network ; static graph ; dynamic graph ; graph interaction

PDF (2953KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张晗. 用于多元时间序列预测的图神经网络模型. 浙江大学学报(工学版)[J], 2024, 58(12): 2500-2509 doi:10.3785/j.issn.1008-973X.2024.12.009

ZHANG Han. Graph neural network model for multivariate time series forecasting. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2500-2509 doi:10.3785/j.issn.1008-973X.2024.12.009

多元时间序列预测在经济、地理、交通等众多领域都有着广泛的应用^[1]，该任务关键在于准确捕捉时序间的相互依赖关系和动态演化模式^[2]. 在过去几年中，用于时序预测的机器学习算法得到了快速发展^[3]. 深度学习方法由于具有较强捕获复杂模式和学习数据中非线性关系的能力，在多元时序预测上比传统机器学习方法表现出更好的性能^[4]. 时序数据的一个重要特征是它们在时间上存在相互依赖性，即样本不是独立同分布的. 例如股票数据，今天的股票价格可能受昨天的封板影响^[5]. 大多数基于机器学习和深度学习的多元时序预测方法，在训练时会将每个时序样本视为彼此独立的个体，忽略了样本之间的相互依赖关系，这严重影响了多元时序的预测效果^[6].

近年来，图神经网络(graph neural network, GNN)凭借其强大的依赖关系处理能力，在时序建模方面受到越来越多的关注^[7]. 目前，大多数基于GNN的方法都是通过构建预定义图的方式来挖掘时序之间的隐藏信息和相互关系的^[8]. 例如，MTGNN^[9]是第1个对多元时序预测使用GNN结构的模型（之前的相关论文都是将GNN用于单变量时序预测的）. 然而，MTGNN必须在预定义好的图上才能发挥较好的效果. 但对于大多数多元时间序列，它们并没有明确的图结构. 一般来说，时序图中节点之间的关系通常须由领域专家所确定，这可能会由于引入主观因素而不能对时序之间的潜在联系准确建模^[10]. 此外，预定义图的结构是固定的，并不适合用来描述时序之间的动态关系. 虽然可以利用时序信息动态推断时序关系，但显然单独使用动态图或者静态图不足以全面描述时序之间的关系^[11].

综上所述，构建基于GNN的多元时序预测模型须解决以下2个关键问题：第一，如何同时捕捉时序之间存在的静态关系和动态关系，减少人为主观因素对图结构的影响；第二，如何对静态关系和动态关系的信息进行融合.

针对上述问题，本研究提出用于多元时间序列预测的图神经网络模型 (graph neural network for multivariate time series，MTSGNN). 首先建立一个图学习模块，采用数据驱动的方式，通过学习时序的静态图和动态图，自动发现并捕获时序数据中的静态和动态依赖关系；其次，在图交互模块中完成静态信息与动态信息的交互，使得2个图的结构信息相互收敛. 通过卷积运算分别提取静态图和动态图上的空间特征并拼接起来；最后，利用多层感知机(multi-layer perceptron, MLP)对多元时间序列进行预测.

1. 相关工作

ARIMA^[12]是经典的处理时序数据的线性统计方法，但它不能较好地捕获时序数据中的非线性关系. 高斯过程^[13] (Gaussian process, GP)虽然对平稳过程进行了强有力的假设，但不能很好地扩展到多元时间序列数据. 传统基于神经网络的时序预测方法大多采用循环神经网络(recurrent neural network, RNN)或卷积神经网络(convolutional neural network, CNN)及其变体来学习历史数据中的潜在特征，它们具有较好的处理高维数据的能力，但存在计算成本较高、难以学习长期依赖关系之类的缺点^[14]. 此外，传统方法一般在处理每个时序样本时都是独立进行的，必然会忽略时序之间的内在联系，导致预测效果不佳^[15]. 另外，注意力机制因具有自适应学习特征权重的能力，也常被用于时序建模；然而，它通常将时间和空间相关性分开建模，不能充分利用时序数据中存在的依赖关系^[16].

图神经网络(graph neural network, GNN)是能对数据之间相互作用有效建模的模型，但大多数用于时序预测的GNN模型都假设已经存在一个关系明确的预定义图^[17]. 例如，Wang等^[18]利用多视图卷积网络对多种类型的时序关系图编码，并通过学习复杂的网络关系对时序数据进行准确预测. Tian等^[19]利用股票价格的相关性构建时变股票关系图，并提出基于混合注意力的图神经网络来预测股票价格走势. 然而，预定义的静态网络无法模拟关系演化的动态模式，并可能会忽略对有效决策至关重要的隐藏交互信息；同时，上述方法的性能在很大程度上依赖于先验图的质量^[20]. 为此，一些学者尝试利用历史时序信息对动态时序关系建模，从数据中发现最优的图结构. 例如，EvolveGCN^[21]无须借助节点嵌入，仅通过使用递归神经网络演化图卷积网络(graph convolutional network, GCN)参数的方式捕获图序列中的动态性. MGAT^[22]和FinGAT^[23]基于图注意力网络(graph attention network, GAT)^[24]推导时序数据中潜在的动态依赖关系. Z-GCNETs^[25]提出时间感知的GCN，以跟踪数据的空间依赖关系，从而更好地对交通流量和比特币价格进行预测.

综上，时序数据中常常同时存在静态和动态信息，而现有方法大多通过单独使用动态图或预定义的静态图来对时序数据建模，不足以全面描述时序之间复杂的依赖关系^[26]. 因此，本研究提出具有静态和动态表示的图神经网络模型，用于多元时序预测，其整体框架如图1所示. 该模型首先通过图学习模块分别提取时序数据的静态和动态信息；然后利用信息交互以及卷积运算，挖掘不同时序之间的空间信息和内在联系；最后实现对多元时序数据的准确预测.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 本研究所提模型MTSGNN的整体框架

Fig.1 Overall framework of proposed model MTSGNN

2. 模型介绍

X^t为每个样本$ {\boldsymbol{X}}_{i}^{t} $在$ t $时刻的所有历史序列数据，$ {\boldsymbol{X}}^{t}=\left[{\boldsymbol{X}}_{1}^{t},{\boldsymbol{X}}_{2}^{t}, \cdots ,{\boldsymbol{X}}_{N}^{t}\right] \in {\bf{R}}^{N\times L\times U} $，其中，$ N $为样本量，$ L $为历史序列的长度，$ U $为特征的数量；每个样本$ {\boldsymbol{X}}_{i}^{t} $在$ t $时刻的输出为$ {y}_{i}^{t}，{y}_{i}^{t}\in {\bf{R}} $.

多元时间序列预测分为单步预测和多步预测. 给定历史时序数据$ {{\boldsymbol{X}}}^{t} $，对于每个样本$ {\boldsymbol{X}}_{i}^{t} $来说，单步预测是指预测其在未来$ l $个时间步长后的单个观测值$ {{Y}}_{i}={{y}_{i}}^{t+l}\in {\bf{R}}$；多步预测是指预测其未来从$ t+1 $到$ t+l $时刻，$ l $个时间步长的观测序列为$ {\boldsymbol{Y}}_{i}=\left[{{y}_{i}}^{t+1},{{y}_{i}}^{t+2},\cdots ,{{y}_{i}}^{t+l}\right]\in {\bf{R}}^{1\times l} $.

2.1. 图学习模块

2.1.1. 门控循环单元

长短期记忆(long short term memory, LSTM)网络和门控循环单元(gated recurrent unit, GRU)在捕捉长序列语义关联时，都能有效抑制传统RNN中存在的梯度消失或爆炸问题；并且，相对于LSTM，GRU参数量更少，训练速度更快，更适用于构建较大的网络^[27]. 因此，使用GRU对时序的历史数据进行编码.

给定历史序列$ {\boldsymbol{X}}_{i}^{t}=\left[{{\boldsymbol{x}}}_{i}^{t-L+1}, \cdots ,{{\boldsymbol{x}}}_{i}^{t}\right] $，图学习模块中使用单层$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{d}} $和$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{s}} $提取$ {\boldsymbol{X}}_{i}^{t} $的特征$ {\boldsymbol{h}}_{i}^{{\rm{d}},t} $和$ {\boldsymbol{h}}_{i}^{{\rm{s}},t} $，分别作为动态图学习和静态图学习的输入：

(1)$ {\boldsymbol{h}}_{i}^{{\rm{d}},t}={\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{d}}({\boldsymbol{h}}_{i}^{{\rm{d}},t-1},{{\boldsymbol{x}}}_{i}^{t}), $

(2)$ {\boldsymbol{h}}_{i}^{{\rm{s}},t}={\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{s}}({\boldsymbol{h}}_{i}^{{\rm{s}},t-1},{{\boldsymbol{x}}}_{i}^{t}). $

式中：$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{d}} $和$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{s}} $为门控循环单元，都用于提取$ {\boldsymbol{X}}_{i}^{t} $中的特征，分别作为动态图和静态图的输入；$ {\boldsymbol{h}}_{i}^{{\mathrm{d}},t}、{\boldsymbol{h}}_{i}^{{\mathrm{s}},t} $为模型输入序列$ {\boldsymbol{X}}_{i}^{t} $的隐藏状态，$ {\boldsymbol{h}}_{i}^{{\mathrm{d}},t},{\boldsymbol{h}}_{i}^{{\mathrm{s}},t}\in {{\bf{R}}}^{{U}_{{\mathrm{h}}}} $，d和s分别表示动态图和静态图，$ {U}_{\mathrm{h}} $为隐藏单元的数量.

2.1.2. 静态图学习

基于GNN的多元时序预测方法一般须利用人类知识预先定义图的结构^[28]. 但在更一般的时序预测任务中，因先验知识是匮乏的，很难预定义一个较为合理的静态图结构以描绘时序间潜在的相关性^[29]. 为了解决该问题，仅基于注意力机制并以数据驱动的方式，自动学习特定于任务的、不同时序间的潜在相关性并推断出每对节点之间的依赖关系，即静态图的邻接矩阵$ {\boldsymbol{A}}^{\mathrm{s}} $，表达式如下：

(3)$ \boldsymbol{Q}={{\boldsymbol{h}}^{\mathrm{s},{t}}\boldsymbol{W}}^{{\boldsymbol{Q}}}, $

(4)$ \boldsymbol{K}={{\boldsymbol{h}}^{{\rm{s}},t}\boldsymbol{W}}^{{\boldsymbol{K}}}, $

(5)$ \boldsymbol{M}=\boldsymbol{Q}{\boldsymbol{K}}^{{\mathrm{T}}}, $

(6)$ {\boldsymbol{A}}^{\mathrm{s}}={\mathrm{Softmax}}\;\left({\mathrm{ReLU}}\;\left(\boldsymbol{M}\right)\right). $

式中：$ {\boldsymbol{h}}^{{\mathrm{s}},{t}}=\left[{\boldsymbol{h}}_{1}^{{\mathrm{s}},{t}}, \cdots ,{\boldsymbol{h}}_{{N}}^{{\mathrm{s}},{t}}\right]^{\mathrm{T}}\in {{\bf{R}}}^{N\times {U}_{\mathrm{h}}} $；$ {\boldsymbol{W}}^{\boldsymbol{Q}}\mathrm{、}{\boldsymbol{W}}^{\boldsymbol{K}} $为可学习的参数，$ {\boldsymbol{W}}^{\boldsymbol{Q}}、{\boldsymbol{W}}^{\boldsymbol{K}}\in {{\bf{R}}}^{{U}_{\rm{h}}\times {U}_{\rm{h}}} $；$ \boldsymbol{Q}、\boldsymbol{K} $分别为注意力机制中的Query和Key^[30]，作用是通过加权处理自发地找到特征间的关系，$ \boldsymbol{Q}、\boldsymbol{K}\in {{\bf{R}}}^{N\times {U}_{\mathrm{h}}} $；$ {\boldsymbol{A}}^{\mathrm{s}} $为静态图的邻接矩阵，$ {\boldsymbol{A}}^{\mathrm{s}}\in {{\bf{R}}}^{N\times N}； $函数$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\;\left( \cdot \right) $用于消除矩阵$ \boldsymbol{M} $中的负连接，以增加邻接矩阵的稀疏性；$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\;\left( \cdot \right) $对所得矩阵的每一行进行归一化，以保留数据之间的相对大小关系. 式(5)用于计算不同时序样本（节点）间的潜在相关性.

由于所学习到的图的平滑性和稀疏性对预测结果有重要影响^[31]，因此，在损失函数中引入图正则化(graph regularization, GR)项，并将其用于成对的输入以控制静态图的学习方向和质量. 给定输入$ {{\boldsymbol{h}}_{i}^{{\mathrm{s}},{t}},{\boldsymbol{h}}_{j}^{{\mathrm{s}},{t}}\in {\bf{R}}}^{{U}_{\mathrm{h}}} $，GR的表达式如下：

(7)$ {L}_{\mathrm{G}\mathrm{R}}=\sum _{i,j=1}^{N}{\|{\boldsymbol{h}}_{i}^{{\mathrm{s}},{t}}-{\boldsymbol{h}}_{j}^{{\mathrm{s}},{t}}\|}_{2}^{2}{\boldsymbol{A}}^{\mathrm{s}}+\gamma {\|{\boldsymbol{A}}^{\mathrm{s}}\|}_{\mathrm{F}}^{2} . $

式中：第1项在于迫使相邻节点具有相似的特征，从而增强与节点$ {{A}}_{ij}^{\mathrm{s}} $相关联的图信号的平滑性；第2项中的$ {\|{{\boldsymbol{A}}}^{{\rm{s}}}\|}_{{\mathrm{F}}}^{2} $表示矩阵$ {\boldsymbol{A}}^{{\rm{s}}} $的Frobenius范数，用于控制$ {{\boldsymbol{A}}}^{{\rm{s}}} $的稀疏性；$ \gamma $的作用是平衡上述平滑性和稀疏性.

2.1.3. 动态图学习

通过静态图$ {\boldsymbol{A}}^{\mathrm{s}} $只能得出每个时序样本（节点）之间相互关联性，并不能看出他们相互之间关联的时间先后顺序，即静态图$ {\boldsymbol{A}}^{\mathrm{s}} $无法描述时序之间的动态关系. 很明显，节点间的每条边的权重应该是不一样的，这个权重的大小和时间有很大的关系. 因此，利用每个时序样本的隐状态$ {\boldsymbol{h}}_{i}^{\mathrm{d},{t}} $，计算不同时间点的时序样本之间的动态关联强度矩阵$ {\boldsymbol{A}}^{\mathrm{d}}\in {{\bf{R}}}^{N\times N} $来捕捉不同时序样本特征$ {{\boldsymbol{h}}}_{i}^{{\rm{d}},t} $之间的动态关系：

(8)$ {{A}}_{ij}^{\mathrm{d}}=\mathrm{D}\mathrm{i}{\mathrm{s}}{{\mathrm{t}}}\mathrm{N}\mathrm{e}\mathrm{t}\;({\boldsymbol{h}}_{i}^{\mathrm{d},{t}},{\boldsymbol{h}}_{j}^{\mathrm{d},{t}})=\frac{{\boldsymbol{h}}_{i}^{\mathrm{d},{t}} \cdot {\boldsymbol{h}}_{j}^{\mathrm{d},{t}}}{\|{\boldsymbol{h}}_{i}^{\mathrm{d},{t}}\| \cdot \|{\boldsymbol{h}}_{j}^{\mathrm{d},{t}}\|}. $

式中：$ {\boldsymbol{h}}_{i}^{\mathrm{d},{t}} $由式(1)计算得出，$ {\boldsymbol{h}}_{i}^{\mathrm{d},{t}}\in {{\bf{R}}}^{{U}_{\rm{h}}} $；$ \| \cdot \| $为欧几里德范数；$ \mathrm{D}\mathrm{i}{\mathrm{s}}{{\mathrm{t}}}\mathrm{N}\mathrm{e}\mathrm{t}\;\left( \cdot \right) $为距离网络；$ {{A}}_{ij}^{\mathrm{d}} $为$ {\boldsymbol{h}}_{i}^{\mathrm{d},{t}} $与$ {\boldsymbol{h}}_{j}^{\mathrm{d},{t}} $的相关强度，若第$ t $时刻样本i和j的历史序列${\boldsymbol{x}}^t_i $和${\boldsymbol{x}}^t_j $越相似，$ {A}_{ij}^{{\rm{d}}} $越大.

2.2. 图交互模块

通过图交互模块对图学习模块中学习到的静态信息和动态信息进行融合，获得数据中更全面、准确和实用的信息. 对于用于时序预测的图学习模型来说，图中每个节点的未来信息既取决于其邻居节点的数量，也取决于其每个邻居节点的历史信息^[32]. 因此，图交互模块中的信息融合应该使得每个节点能从其更重要的邻居节点获得更多的信息.

(9)$ {\rm{Info}}_{ij}^{\mathrm{s}}={\mathrm{Softmax}}\;\left({\boldsymbol{A}}_{i}^{\mathrm{d}}\right)=\frac{\exp\left({{A}}_{ij}^{\mathrm{d}}\right)}{\displaystyle{\sum} _{j=0}^{N}{{A}}_{ij}^{\mathrm{d}}}, $

(10)$ {\bf{Info}}_{i}^{\mathrm{d}}={\mathrm{where}}\;\left({\boldsymbol{A}}_{i}^{\mathrm{d}}-{\rm{min}}\;\left({\mathrm{topk}}\;\left({\boldsymbol{A}}_{i}^{\mathrm{s}}\right)\right),\mathrm{1,0}\right), $

(11)$ \overline{{\boldsymbol{A}}^{\mathrm{s}}}={\boldsymbol{A}}^{\mathrm{s}}\odot {\mathbf{I}\mathbf{n}\mathbf{f}\mathbf{o}}^{\mathrm{s}} ,$

(12)$ \overline{{\boldsymbol{A}}^{\mathrm{d}}}={\boldsymbol{A}}^{\mathrm{d}}\odot {\mathbf{I}\mathbf{n}\mathbf{f}\mathbf{o}}^{\mathrm{d}}. $

式中：函数$ {\mathrm{where}}\;\left({\boldsymbol{C}}, 1, 0\right) $的输出是一个向量：如果向量$ \boldsymbol{C} $中的元素$ {C}_{i} $大于0，则输出向量对应位置的元素为1，否则为0；$ \mathrm{t}\mathrm{o}\mathrm{p}\mathrm{k}\;\left( \cdot \right) $表示返回其输入向量中最大的前$ k $个值组成的向量；$ \bf{min}\;\left( \cdot \right) $表示返回其输入向量中值最小的元素组成的向量；$ \odot $表示按元素乘积.

考虑到静态图的结构是固定的，而动态图的结构是可变的，因此，式(9)计算动态图中不同节点间的相关信息，并以此对静态图不同节点间连接强度（边权重）进行调整，从而在静态图结构不变的情况下，达到信息交互的目的. 动态图中不同节点之间的连接是可以动态变化的，并受到重要邻居节点的影响，因此，根据静态图排名前$ k $位的节点，更新动态图里不同节点间的连接强度.

首先，使用式(9)，即$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\;\left( \cdot \right) $函数对动态图的邻接矩阵$ {\boldsymbol{A}}^{\mathrm{d}} $中的第$ i $行${\boldsymbol{A}}_i^{\mathrm{d}} $归一化，利用式(11)对静态图$ {\boldsymbol{A}}^{\mathrm{s}} $中节点i到j的相关强度进行更新：如果$ {\boldsymbol{A}}^{\mathrm{d}} $中2个节点i到j的相关性越弱，归一化后的数值就越接近于0，则静态图$ {\boldsymbol{A}}^{\mathrm{s}} $中i到j更新后的连接强度就越弱. 其次，使用式(10)计算$ {\boldsymbol{A}}^{\mathrm{s}} $中第$ i $行的信息，利用式(12)修改动态图$ {\boldsymbol{A}}^{\mathrm{d}} $上的边：如果$ {\boldsymbol{A}}^{\mathrm{s}} $中节点i到j的相关强度和i与其所有相邻节点的相关强度相比，不能排在前$ k $位，则将$ {\boldsymbol{A}}^{\mathrm{d}} $中i到j的边删除. 计算过程如式(9)~(12)所示.

2.3. 时序预测

使用卷积运算，将最初抽取的特征$ {{\boldsymbol{h}}}^{{\mathrm{s}},{t}} $和$ {{\boldsymbol{h}}}^{\mathrm{d},{t}} $与现有的节点信息$ {\overline{{\boldsymbol{A}}^{{\rm{s}}}}\boldsymbol{h}}^{{\mathrm{s}},{t}} $和$ {\overline{{\boldsymbol{A}}^{{\rm{d}}}}\boldsymbol{h}}^{\mathrm{d},{t}} $相结合，提高静态图和动态图上节点信息的扩散能力，避免节点在信息传播过程中丢失自身独有的信息. 卷积运算表达式如下：

(13)$ \overline{{\boldsymbol{h}}^{{\rm{s}},t}}={\boldsymbol{W}}_{1}\left({{\beta }}_{1}{\boldsymbol{h}}^{{\mathrm{s}},{t}}+\left(1-{{\beta }}_{1}\right){\overline{{\boldsymbol{A}}^{\mathrm{s}}}\boldsymbol{h}}^{{\mathrm{s}},{t}}\right)+{{\boldsymbol{b}}}_{1}, $

(14)$ \overline{{\boldsymbol{h}}^{{\rm{d}},t}}={\boldsymbol{W}}_{2}\left({{\beta }}_{2}{\boldsymbol{h}}^{{\rm{d}},t}+\left(1-{{\beta }}_{2}\right){\overline{{\boldsymbol{A}}^{\mathrm{d}}}\boldsymbol{h}}^{\mathrm{d},{t}}\right)+{{\boldsymbol{b}}}_{2}. $

式中：$ {\boldsymbol{h}}^{{\mathrm{s}},{t}}、{\boldsymbol{h}}^{\mathrm{d},{t}} $分别为$ {{\mathrm{GRU}}}^{\mathrm{s}} $和$ {{\mathrm{GRU}}}^{\mathrm{d}} $的输出，$ {\boldsymbol{h}}^{{\mathrm{s}},{t}},{\boldsymbol{h}}^{\mathrm{d},{t}}\in {{\bf{R}}}^{N\times {U}_{\rm{h}}} $；$ {\beta }_{1}、{\beta }_{2} $为超参数，$ {\beta }_{1},{\beta }_{2}\in {\bf{R}} $；$ {\boldsymbol{W}}_{1}、{\boldsymbol{W}}_{2} $为可学习的参数，$ {\boldsymbol{W}}_{1},{\boldsymbol{W}}_{2}\in {{\bf{R}}}^{N\times N} $；$ {{\boldsymbol{b}}}_{1}、{{\boldsymbol{b}}}_{2} $为可学习的偏差，$ {{\boldsymbol{b}}}_{1},{{\boldsymbol{b}}}_{2}\in {{\bf{R}}}^{{N\times U}_{\rm{h}}} $.

在对多元时序进行预测时，先将$ \overline{{\boldsymbol{h}}^{\mathrm{d},{t}}} $与$ \overline{{\boldsymbol{h}}^{{\mathrm{s}},{t}}} $拼接起来，然后使用只具有一个隐藏层和一个输出层的MLP对$ \boldsymbol{Y} $进行预测：

(15)$ \widehat{\boldsymbol{Y}}=\left({\mathrm{ReLU}}\;\left(\left[\overline{{\boldsymbol{h}}^{\mathrm{d}}};\overline{{\boldsymbol{h}}^{\mathrm{s}}}\right]{\boldsymbol{W}}_{1}'+{\boldsymbol{b}}_{1}'\right)\right){\boldsymbol{W}}_{2}'+{\boldsymbol{b}}_{2}'. $

式中：$ {\boldsymbol{W}}_{1}'\mathrm{、}{\boldsymbol{W}}_{2}' $为MLP全连接层中可学习的参数，$ {\boldsymbol{W}}_{1}'\in {{\bf{R}}}^{2{U}_{\rm{h}}\times {U}_{\rm{h}}}，{\boldsymbol{W}}_{2}'\in {{\bf{R}}}^{{U}_{\rm{h}}\times n} $；$ {\boldsymbol{b}}_{1}'、{\boldsymbol{b}}_{2}' $为可学习的偏置，$ {\boldsymbol{b}}_{1}'\in {{\bf{R}}}^{{N\times U}_{\rm{h}}} $和$ {\boldsymbol{b}}_{2}'\in {{\bf{R}}}^{N\times n} $；$ n\mathrm{为} $输出$ \widehat{\boldsymbol{Y}} $的维度（单步预测中$ n=1 $，多步预测中$ n=l $）.

在训练时，将$ {\boldsymbol{Y}}_{\boldsymbol{i}} $和$ {\widehat{\boldsymbol{Y}}}_{i} $之间的$ {L}_{1} $损失和式(7)中的图正则化损失$ {L}_{{\mathrm{GR}}} $相结合，共同学习模型里的参数：

(16)$ {L}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}={\lambda L}_{\mathrm{G}\mathrm{R}}+\sum _{i=1}^{l}\left|{\boldsymbol{Y}}_{i}-{\widehat{\boldsymbol{Y}}}_{i}\right|. $

式中：$ \lambda $为一个超参数.

3. 实证研究

3.1. 数据集

如表1所示为在实验中使用的基准数据集的统计量. 表中，$ I $为时序数据的采集间隔；$ H $为预测的时间跨度，即所预测的未来时间点与当前时间点之间的时间跨度. 多步预测任务中使用公共交通数据集PEMS-BAY和METR-LA；单步预测中使用4个数据集Traffic、Solar-Energy、Electricity和Exchange-Rate.

表 1 基准数据集的统计量

Tab.1 Statistics of benchmark datasets

任务	数据集	$ N $	$ U $	$ I $	$ L $	$ H $
多步预测	METR-LA	34272	207	5 min	12	12
多步预测	PEMS-BAY	52116	325	5 min	12	12
单步预测	Traffic	17544	862	1 h	168	1
	Solar-Energy	52560	137	10 min	168	1
	Electricity	26304	321	1 h	168	1
	Exchange-Rate	7588	8	1 d	168	1

新窗口打开| 下载CSV

3.1.1. 用于多步预测任务的数据集

按照Li等^[33]的方式，将2个交通数据集METR-LA和PEMS-BAY按时间顺序，分别分为训练集(70%)、验证集(20%)和测试集(10%). 2个数据集信息分别如下. 1) METR-LA: 该数据集来自于洛杉矶大都会运输管理局，其包含了2012年3月—2012年6月洛杉矶县高速公路上207个线圈检测器测量的平均交通速度；2) PEMS-BAY: 该数据集来自于加州运输机构，其包含了湾区在2017年1月—2017年5月由325个传感器测量的平均交通速度.

在实验中，输入序列的长度为12，目标是同时预测未来一段时间（从$ t+1 $到$ t+H $共$H$个时间步）的多个观测值（实验中$ H$的取值为12）.

3.1.2. 用于单步预测任务的数据集

按照Lai等^[34]的方式，按时间顺序将4个数据集分别分为训练集(60%)、验证集(20%)和测试集(20%). 4个数据集信息分别如下.

1) Traffic：来自于加州交通部，其包含了旧金山湾区高速公路2015—2016年862个传感器测量的道路占用率；

2) Solar-Energy：自于美国国家可再生能源实验室，其包含了2007年阿拉巴马州137个光伏电站的太阳能发电量；

3) Electricity：来自于加利福尼亚大学尔湾分校(University of California, Irvine, UCI)的机器学习存储库，其包含了321个客户2012年—2014年的用电量；

4) Exchange-Rate：包含了8个国家（澳大利亚、英国、加拿大、瑞士、中国、新西兰、新加坡和日本）1990—2016年的每日汇率.

在实验中，输入长度L为168的序列，单独训练每个模型预测未来l个时间步后，即第t + l时刻的单个观测值（实验中l的取值分别为3、6、12和24）.

3.2. 评估指标

在多步预测实验中，使用平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)和均方根误差(root mean squared error, RMSE)这3个评价指标. 在单步预测实验中，使用相对平方误差(relative squared error, RSE)和相关系数(correlation coefficient, CORR)来衡量模型的预测性能. MAE、MAPE、RMSE和RSE越小说明模型的效果越好；CORR越高，表明模型的效果越好. 上述5个评估指标的表达式分别如下：

(17)$ \mathrm{M}\mathrm{A}\mathrm{E}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)=\frac{1}{N}\sum _{i=1}^{N}\left|{\boldsymbol{Y}}_{i}-\widehat{{\boldsymbol{Y}}_{i}}\right|, $

(18)$ \mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)=\frac{1}{N}\sum _{i=1}^{N}\left|\frac{{\boldsymbol{Y}}_{i}-\widehat{{\boldsymbol{Y}}_{i}}}{{\boldsymbol{Y}}_{i}}\right| \times 100 {\text{%}} , $

(19)$ \mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)=\left[{\frac{1}{N}\sum _{i=1}^{N}{\left({\boldsymbol{Y}}_{i}-\widehat{{\boldsymbol{Y}}_{i}}\right)}^{2}}\right]^{1/2}, $

(20)$ \mathrm{R}\mathrm{S}\mathrm{E}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)=\frac{\displaystyle{\sum} _{i=1}^{N}{\left({\boldsymbol{Y}}_{i}-\widehat{{\boldsymbol{Y}}_{i}}\right)}^{2}}{\displaystyle{\sum} _{i=1}^{N}{\left({\boldsymbol{Y}}_{i}-\overline{\boldsymbol{Y}}\right)}^{2}}, $

(21)$ \mathrm{C}\mathrm{O}\mathrm{R}\mathrm{R}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)=\frac{{\mathrm{Cov}}\;\left(\boldsymbol{Y},\widehat{\boldsymbol{Y}}\right)}{\left[{{\mathrm{Var}}\;\left[\boldsymbol{Y}\right] \cdot {\mathrm{Var}}\;\left[\widehat{\boldsymbol{Y}}\right]}\right]^{1/2}}. $

式中：$ \boldsymbol{Y} $为真实值，$ \overline{\boldsymbol{Y}} $为平均真实值，$ \widehat{\boldsymbol{Y}} $为预测值，$ \mathrm{C}\mathrm{o}\mathrm{v}\;(\boldsymbol{Y},\widehat{\boldsymbol{Y}}) $为$ \boldsymbol{Y} $与$ \widehat{\boldsymbol{Y}} $的协方差，$ \mathrm{V}\mathrm{a}\mathrm{r}\;\left[\boldsymbol{Y}\right] $为$ \boldsymbol{Y} $的方差，$ \mathrm{V}\mathrm{a}\mathrm{r}\left[\widehat{\boldsymbol{Y}}\right] $为$ \widehat{\boldsymbol{Y}} $的方差.

3.3. 参数设置

所有模型均通过PyTorch框架实现，并使用Adam优化器（学习率为0.0004），同时利用网格搜索获得最优超参数. 对于MTSGNN，$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{{\rm{d}}} $和$ {\mathrm{G}\mathrm{R}\mathrm{U}}^{\mathrm{s}} $中隐藏单元的个数$ \;{U}_{\rm{h}} $的搜索范围为$ \left(32, 64, 128\right) $；式(7)中的$ \gamma $和式(16)中的$ \lambda $的搜索范围为$ \left[0, 10\right] $；式(10)中$ k $的搜索范围为$ \left[4, 100\right] $；式(13)、(14)中$ {\beta }_{1} $和$ {\beta }_{2} $的搜索范围为$ \left[0, 0.8\right] $.

3.4. 基准模型

3.4.1. 用于多步预测任务的基准模型

1) Vector Auto-Regression (VAR)^[35]：用于捕捉交通序列之间相关性的模型；

2) DSANet^[36]：基于CNN网络和自注意力机制的预测模型；

3) DCRNN^[33]：包含图卷积的扩散卷积循环神经网络；

4) STGCN^[37]：时空图神经网络；

5) ASTGCN^[38]：整合了时间注意力和空间注意力的图神经网络；

6) STSGCN^[39]：通过堆叠多个局部图卷积层，能有效捕捉复杂局部时空相关性的时空GCN；

7) AGCRN^[28]：通过节点嵌入捕获数据关联和节点特定模式的自适应图卷积循环网络.

3.4.2. 用于单步预测任务的基准模型

1) Auto-regressive Model (AR)^[40]：自回归模型，经典的处理时序数据的统计方法；

2) VAR-MLP^[12]：基于多层感知机和自回归模型的混合模型；

3) GP^[13]：高斯过程时间序列模型；

4) RNN-GRU^[41]: 具有全连接GRU隐藏单元的循环神经网络；

5) LSTNet^[34]：专门用于多元时间序列预测的深度学习网络；

6) TPA-LSTM^[16]：时间注意力长短期记忆网络，其不仅在同一时间步内，而且在之前的所有时间和序列中学习时序间的相互依赖关系；

7) MTGNN^[9]：第1个专门针对多变量时序数据设计的通用GNN框架. 其通过图学习模块自动提取变量间的单向关系，并通过混合跳传播层和扩展初始层来捕获时序中的时空依赖关系；

8) SDGL^[10]：能同时学习时序数据中稳定长期模式和动态短期模式的图神经网络.

4. 实验结果

多步预测任务实验结果如表2所示. 表中，加粗的数字是基准模型中每个评估指标的最小值. 可以看出，所有基于预定义图的GCN方法，预测效果均优于基于自注意力的模型DSANet，表明GCN模型更适合用于交通时序预测；基于图学习方法的模型AGCRN，其性能优于所有其他基于GCN的模型（原因可能是因为AGCRN使用了预定义图）；本研究所提模型MTSGNN进一步提升了基于图学习方法AGCRN的性能，证明了MTSGNN模型框架的有效性；

表 2 多步预测任务中所有模型的实验结果

Tab.2 Experimental results of models for multi-step forecasting

模型	MAE		MAPE/%		RMSE
模型	METR-LA	PEMS-BAY	METR-LA	PEMS-BAY	METR-LA	PEMS-BAY
VAR	3.60	2.07	4.90	10.50	4.74	27.60
DSANet	4.59	2.49	4.90	12.70	5.69	29.40
DCRNN	3.53	1.95	5.79	10.01	4.52	27.37
STGCN	3.59	2.20	4.63	10.63	5.06	27.11
ASTGCN	3.49	1.91	5.45	10.01	4.46	28.07
STSGCN	3.40	1.95	4.60	10.05	4.49	26.88
AGCRN	3.49	1.94	4.53	9.87	4.47	25.24
MTSGNN-S	3.10	1.89	4.38	9.25	4.37	21.85
MTSGNN-D	3.15	1.91	4.45	9.25	4.42	22.12
MTSGNN-GL	3.09	1.88	3.37	9.17	3.38	21.81
MTSGNN	3.05	1.75	4.01	8.72	4.02	20.72

新窗口打开| 下载CSV

单步预测任务实验结果如表3所示. 可以看出，基于GNN的方法MTGNN，其预测效果优于其他基线方法，表明GNN具有更强的依赖关系的建模能力；本研究所提模型MTSGNN进一步提高了MTGNN的性能，并且，在Solar-Energand和Electricity数据集上，MTSGNN的RSE相对其他基线模型的都降低了3%以上，提升效果非常显著. MTSGNN在Traffic数据集上的预测效果略优于MTGNN，这是因为预测目标是道路占用率，其值以相对稳定的模式变化.

表 3 单步预测任务中所有模型的实验结果

Tab.3 Experimental results of models for single-step forecasting

模型	l	RSE				CORR
模型	l	Exchange-Rate	Traffic	Electricity	Solar-Energy	Exchange-Rate	Traffic	Electricity	Solar-Energy
AR	3	0.023	0.606	0.091	0.244	0.976	0.785	0.887	0.971
	6	0.028	0.628	0.101	0.379	0.965	0.763	0.864	0.926
	12	0.035	0.628	0.112	0.591	0.954	0.763	0.853	0.811
	24	0.045	0.639	0.123	0.870	0.942	0.752	0.875	0.531
VAR-MLP	3	0.027	0.561	0.145	0.192	0.853	0.821	0.875	0.983
	6	0.039	0.663	0.167	0.268	0.875	0.775	0.842	0.966
	12	0.040	0.606	0.156	0.424	0.831	0.797	0.821	0.906
	24	0.057	0.628	0.134	0.684	0.777	0.785	0.862	0.715
GP	3	0.024	0.607	0.156	0.226	0.875	0.785	0.876	0.975
	6	0.027	0.685	0.189	0.329	0.821	0.741	0.831	0.945
	12	0.039	0.641	0.167	0.520	0.853	0.774	0.842	0.852
	24	0.058	0.607	0.132	0.797	0.831	0.796	0.886	0.597
RNN-GRU	3	0.019	0.549	0.112	0.193	0.986	0.853	0.864	0.982
	6	0.026	0.551	0.123	0.263	0.976	0.853	0.875	0.968
	12	0.041	0.561	0.134	0.416	0.953	0.842	0.853	0.915
	24	0.063	0.572	0.145	0.485	0.925	0.831	0.875	0.882
LSTNet	3	0.023	0.482	0.086	0.184	0.976	0.875	0.932	0.984
	6	0.028	0.516	0.093	0.256	0.965	0.864	0.911	0.969
	12	0.036	0.493	0.112	0.325	0.954	0.853	0.901	0.947
	24	0.044	0.505	0.101	0.464	0.943	0.842	0.921	0.887
TPA-LSTM	3	0.019	0.459	0.082	0.180	0.987	0.886	0.943	0.985
	6	0.026	0.461	0.092	0.235	0.976	0.875	0.932	0.974
	12	0.036	0.471	0.096	0.323	0.965	0.886	0.921	0.949
	24	0.046	0.482	0.112	0.439	0.942	0.864	0.911	0.908
MTGNN	3	0.019	0.426	0.088	0.178	0.987	0.909	0.945	0.985
	6	0.026	0.471	0.091	0.235	0.977	0.875	0.943	0.973
	12	0.035	0.459	0.101	0.311	0.976	0.897	0.932	0.951
	24	0.046	0.461	0.112	0.427	0.954	0.886	0.943	0.903
SDGL	3	0.018	0.414	0.070	0.018	0.981	0.901	0.953	0.981
	6	0.025	0.448	0.081	0.025	0.973	0.883	0.945	0.973
	12	0.034	0.458	0.089	0.034	0.958	0.876	0.935	0.958
	24	0.046	0.457	0.094	0.046	0.940	0.877	0.93	0.940
MTSGNN	3	0.016	0.365	0.075	0.016	0.986	0.921	0.972	0.986
	6	0.023	0.415	0.079	0.023	0.982	0.942	0.961	0.982
	12	0.032	0.405	0.089	0.032	0.987	0.957	0.952	0.987
	24	0.041	0.415	0.089	0.041	0.965	0.943	0.963	0.965

新窗口打开| 下载CSV

图学习模块的影响如下. 定义MTSGNN-D和MTSGNN-S均为MTSGNN的变体. 其中，MTSGNN-D只利用图学习模块中的动态图学习进行多步预测，MTSGNN-S只利用静态图学习进行多步预测. MTSGNN-S的评价指标都略高于MTSGNN-D的，这是因为通常来说，静态图相对动态图运算速度会更快，性能更加高效. METR-LA和PEMS-BAY是交通数据集，而交通图的结构通常变化不大，这也可能是在这2个数据集中，只使用了静态图的MTSGNN-S比只使用了动态图的MTSGNN-D的预测效果略好的原因. MTSGNN-D和MTSGNN-S的各个指标都低于完整模型MTSGNN，这也验证了通过动态信息和静态信息的融合，可以更完整地描述时序之间的潜在关系，更有效地捕捉数据中潜在的内在联系.

图交互模块的影响如下. MTSGNN-GL是MTSGNN的另一个变体，它将图交互模块去除，仅使用图学习模块对时序进行多步预测. MGSGNN-GL中不包括式(11)、(12)的计算，并将式(13)、(14)分别改为：$ \overline{{\boldsymbol{A}}^{\mathrm{s}}}={\boldsymbol{A}}^{\mathrm{s}} $以及$ \overline{{\boldsymbol{A}}^{\mathrm{d}}}={\boldsymbol{A}}^{\mathrm{d}} $. 实验结果表明，MTSGNN-GL和MTSGNN-S的性能大致相同. MTSGNN与MTSGNN-GL相比，因包含图交互模块，其在每个指标上表现更为良好，可见图交互模块能够帮助MTSGNN突出重要的节点.

动态图和静态图的影响如表2所示. 在交通数据集METR-LA上，MTSGNN-S和MTSGNN-D的预测效果有更提升的明显，每个评估指标都提高了6%以上（MTSGNN-S稍优于MTSGNN-D）. 此外，MTSGNN-D因结合了动态图和静态图，虽然没有利用图交互模块对2种图的信息进行交互与融合，但预测效果仍得到了大幅提升. 例如，对于数据集PEMS-BAY，通过结合动态图和静态图，MAPE和RMSE分别降低了20%以上；MAE指标也有了明显的提升.

另外，为了评估计算成本，比较了l = 3时MTSGNN、LSTNet、TPA-LSTM和MTGNN在Exchange-Rate数据集上的参数数量$ {n}_{\mathrm{p}} $、每Epoch的训练时间$ {T}_{{\mathrm{e}}} $以及总运行时间$ {T}_{{\mathrm{t}}} $，如表4所示. 可以看出，LSTNet的参数数量最少，运行速度最快，但它的预测结果最差. 与TPA-LSTM和MTGNN相比，MTSGNN运行速度最快，预测结果最好. 综合考虑预测性能的显著提高和计算成本，MTSGNN比现有方法具有更大的优越性.

表 4 Exchange-Rate数据集上4个模型每epoch的训练时间

Tab.4 Training time per epoch for four models on dataset Exchange-Rate

模型	$ {n}_{\mathrm{p}} $	$ {T}_{{\mathrm{e}}}/{\mathrm{s}} $	$ {T}_{{\mathrm{t}}}/{\mathrm{h}} $
LSTNet	71613	34.11	0.94
TPA-LSTM	379051	313.41	8.71
MTGNN	337345	349.57	4.86
MTSGNN	163325	111.89	1.55

新窗口打开| 下载CSV

综上，1）传统统计模型VAR、AR、GP等模型虽然运算速度较快，但其对于复杂的多元时序数据的预测效果明显没有基于图的模型效果好；2）对于交通流量这种结构相对固定的数据，使用预定义图的GCN的方法（如STGCN、ASTGCN）可以在不使用复杂网络设计的情况下达到较好的预测效果，且效果明显优于基于注意力的方法DSANet，而本研究所提方法MTSGNN引入动态图对数据复杂的动态变化进行建模，预测效果比基于GCN的方法进一步提高了约10%，这在单步预测中得到了验证；3）相比其他基准模型，MTSGNN具有参数量较小、运算速度较快、预测效果更好等优点.

5. 结　语

提出基于图神经网络的多元时序预测模型MTSGNN. 为了充分挖掘时序数据之间的关系，该模型首先采用数据驱动的学习方法对时序静态图和动态图进行学习，分别提取数据中的静态和动态特征；其次，通过图交互模块融合上述2个图中的信息，使得每个节点能从其重要邻居节点获得更多的信息，进而可以更有效地捕捉数据中潜在的内在联系；最后，使用卷积运算处理静态图和动态图中的空间依赖关系，提高静态图和动态图上节点信息的扩散能力，并对多元时序进行预测. 实验结果表明，MTSGNN在6个真实数据集上的预测效果均优于所有基线模型，显示出了其在多元时序预测上的有效性和优越性.

本研究在图学习中只使用了单头注意力以自发地找到样本间的潜在相关性，然而样本间的相互联系是复杂的，因此，下一步研究将引入多头注意力，以提取样本间不同类型的相关性. 此外，本研究在图学习模块对时序样本间的相关性进行建模时，未考虑特征间的潜在关系变化. 因此，下一步在模型中还将加入能够学习特征间潜在变化的模块，以进一步提高模型的预测效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WEI W S. Multivariate time series analysis and applications [M]. New York: John Wiley and Sons, 2018.