多信息融合的时空图卷积交通流量预测模型

doi:10.3785/j.issn.1008-973X.2023.08.007

多信息融合的时空图卷积交通流量预测模型

孟闯^,, 王慧^,

内蒙古工业大学数据科学与应用学院，内蒙古呼和浩特 010080

Traffic flow prediction model based on spatio-temporal graph convolution with multi-information fusion

MENG Chuang^,, WANG Hui^,

College of Data Science and Application, Inner Mongolia University of Technology, Hohhot 010080, China

通讯作者: 王慧，女，副教授. orcid.org/0000-0003-3038-3113. E-mail: 1227001857@qq.com

收稿日期: 2022-09-16

基金资助:

内蒙古自治区自然科学基金资助项目（2021MS06019）；内蒙古高等学校科学研究资助项目（NJZY21317）；内蒙古自治区直属高校基本科研业务费资助项目（JY20222077）

Received: 2022-09-16

Fund supported:

作者简介 About authors

孟闯（1997—），男，硕士生，从事时空数据预测、机器学习、智慧交通等研究.orcid.org/0000-0001-6580-1325.E-mail：1415547767@qq.com , E-mail：1415547767@qq.com

摘要

为了深入挖掘交通流量的时空特征以提高预测精度，提出改进的融合距离与周期性因素的多信息融合的时空图卷积门控神经网络. 将路网中各个路段作为节点并根据路段间邻接关系建立路网图结构；考虑路段间距离对空间相关性的影响，计算路段之间的空间影响度大小，给予图邻接矩阵不同的权重. 在模型构建中，设计空间图卷积模块与时间序列预测模块；通过空间图卷积模块提取空间特征信息，并将提取的空间特征信息与交通流量周期序列信息相融合，传入时间序列预测模块；重新设计门控循环单元（GRU）的门控机制算法达到多源信息共同输入的目的，最终得到预测输出. 实验在真实的公路交通流量PEMS数据集上进行多时段测试，结果表明，与目前基于图卷积的预测方法相比，所设计的模型预测误差更低，预测性能更优.

关键词： 智能交通 ; 交通流量预测 ; 时空序列预测 ; 时空相关性 ; 图卷积网络 ; 门控循环单元

Abstract

An improved spatio-temporal graph convolution gated neural network with multi-information fusion of distance and periodic factors was proposed, in order to further explore the spatio-temporal characteristics of traffic flow and improve the prediction accuracy. Each section of the road network was taken as the node and the road network diagram structure was established according to the adjacency relationship between the sections. Considering the influence of distance between sections on spatial correlation, the spatial influence degree between sections was calculated, and different weight values were given to the adjacency matrix of the graph. In the model construction, space graph convolution module and time series prediction module were designed. The spatial feature information was extracted by the spatial graph convolution module, and the extracted spatial feature information was fused with the traffic flow cycle sequence information, and then introduced into the time series prediction module. The gating mechanism algorithm of gated recurrent unit (GRU) was redesigned to achieve the purpose of multi-source information input, and finally the predictive output was obtained. The real highway traffic flow PEMS data set was used for multi-period testing. Experimental results show that the prediction error of the proposed model is lower and the prediction performance is better than that of the current prediction method based on graph convolution.

Keywords： intelligent transportation ; traffic flow forecasting ; spatio-temporal sequence prediction ; spatio-temporal correlation ; graph convolutional network ; gating recurrent uint

PDF (1445KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

孟闯, 王慧. 多信息融合的时空图卷积交通流量预测模型. 浙江大学学报(工学版)[J], 2023, 57(8): 1541-1550 doi:10.3785/j.issn.1008-973X.2023.08.007

MENG Chuang, WANG Hui. Traffic flow prediction model based on spatio-temporal graph convolution with multi-information fusion. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(8): 1541-1550 doi:10.3785/j.issn.1008-973X.2023.08.007

城市路网错综复杂，科学准确的交通流量预测在道路拥堵评判、路径规划领域起到重要作用. 交通流量具有较强的周期性，且与上一时刻的状态紧密相连. 一些研究者关注序列在时间维的逻辑关系，通过历史均值法、时间序列模型、K-最近邻算法（K-nearest neighbor，KNN）^[1]、支持向量机（support vector machine, SVM）^[2]、相关向量机（relevance vector machine，RVM）^[3]等机器学习模型以及适用于序列预测的长短期记忆神经网络（long short-term memory，LSTM）^[4-6]等深度学习模型进行交通流量预测.

实际上，单纯考虑时间维关系较为局限. 准确的交通流量预测的难点在于一个路段当前状态同时会影响邻居路段的未来状态. 通过加入空间维信息，合理地剖析交通流量的时空特征信息对提高模型的预测精度有较大影响. Shi等^[7]提出ConvLSTM概念，通过卷积运算代替LSTM网络中部分哈达玛积运算，从而挖掘空间性信息，减小预测误差. 另一种方法是将在二维空间上提取特征的卷积神经网络（convolutional neural networks，CNN）与序列预测算法相结合. 诸如CNN与循环神经网络（recurrent neural network，RNN）的组合^[8-9]、CNN与传统机器学习算法的组合^[10-11]. 以上方法均作用于传统的二维时空矩阵，事实上只能考虑到上下游路段空间关系的影响，在错综复杂的道路环境下并不能较好地适用.

为了表征路段之间复杂的邻接关系，可以通过图的形式存储复杂的拓扑结构. 图卷积神经网络（graph convolutional network，GCN）^[12]的出现为深度学习模型挖掘图结构的特征信息奠定了基础. Seo等^[13]提出图卷积递归网络（graph convolutional recurrent network，GCRN），将图卷积网络与循环神经网络相结合，为挖掘时空序列特征提供了理论基础. Li等^[14]提出扩散卷积递归神经网络（diffusion convolutional recurrent neural network，DCRNN），将交通流的变化趋势建模为有向图上的扩散过程，通过图的双向随机游动性获取空间特征. 交通流量在日、周周期上具有较强的周期规律，在考虑交通流量的周期性特性上，冯宁等^[15-16]设计多组件时空图卷积网络，通过时、日、周3个子组件分别进行训练及预测，最终将3个组件的预测结果加权组合得到最终输出.

基于图结构挖掘交通流量的时空特征已成为研究热点^[17-18]，但目前基于图神经网络所构建的模型尚存在一些问题，例如在图邻接矩阵的构造中，传统方式只单纯考虑路段之间是否邻接. 因此可考虑距离因素，分析路网拓扑关系中当前节点邻接节点以及次邻接节点影响程度的大小，通过设置不同的权重矩阵使模型尽可能考虑更远路段的信息，旨在一定程度上提高预测精度. 但每个节点之间距离存在差异，已有研究忽略了节点间距离的远近直接造成的空间相关性不同的问题. 在网络模型构建上，多数模型只通过图卷积层提取时空特征^[15，19],忽略了空间维与时间维信息的差异性. 在考虑周期性因素问题上，传统模型^[15，20]设计时、日、周独立组件分别进行训练及测试，最终将多个子组件结果加权输出，加大了时间与空间开销成本.

针对以上问题，本研究的主要贡献如下. 1）在数据定义上，改进图邻接矩阵的存储形式，考虑距离因素对路段节点相关性影响程度，设计融合距离因素的图邻接矩阵. 2）在网络架构上，设计空间图卷积模块与时间序列预测模块，通过空间图卷积模块提取交通流量的空间性特征信息，通过时间序列预测模块挖掘交通流量时间维相关性. 3）在考虑周期性多因素输入的问题上，重新定义门控机制的输入规则，达到多信息输入的目的；将空间图卷积模块提取的特征信息与融合周期时间序列的信息同时输入并进行运算，通过单组件预测模块即可得到最终输出.

1. 时空数据定义

1.1. 考虑距离因素构造图邻接矩阵

传统的交通流量时空二维矩阵表达式如下：

(1) $ {\boldsymbol{T}} = \left[ {\begin{array}{*{20}{c}} {{{{s}}_{{{i,j}}}}}&{{{{s}}_{{{i,j}}+1}}}&{ \cdots }&{{{{s}}_{{{i,m}} - 1}}}&{{{{s}}_{{{i}}{{,m}}}}} \\ {{{{s}}_{{{i}}+1{{,j}}}}}&{{{{s}}_{{{i}}+1{{,j}}+1}}}&{ \cdots }&{{{{s}}_{{{i}}+{{1,m}} - 1}}}&{{{{s}}_{{{i}}+1{{,m}}}}} \\ { \vdots }&{ \vdots }&{ }&{ \vdots }&{ \vdots } \\ {{{{s}}_{{{n}} - 1{{,j}}}}}&{{{{s}}_{{{n}} - 1{{,j}}+1}}}&{ \cdots }&{{{{s}}_{{{n}} - 1{{,m}} - 1}}}&{{{{s}}_{{{n}} - 1{{,m}} - 1}}} \\ {{{{s}}_{{{n,j}}}}}&{{{{s}}_{{{n,j}}+1}}}&{ \cdots }&{{{{s}}_{{{n,m}} - 1}}}&{{{{s}}_{{{n,m}}}}} \end{array}} \right]. $

任意矩阵元素 ${s_{i,j}}$均包含2个下标 $i$与 $j$. 假设定义 $i$表示空间维， $j$表示时间维. 时空矩阵T的行向量表示在某一固定监测点下交通流量随时间所记录的连续数据；列向量表示在某一固定时间点上连续路段各监测点上的交通流量数据. 二维矩阵的2个维度分别存储交通流量空间维与时间维的信息，即只能通过一维记录空间上路段之间的邻接关系，且只能为线性关系，并最多记录上下游2个邻接路段的位置关系. 虽然可以通过卷积神经网络中的卷积操作提取二维数据的空间特征，但这种局部的空间特征提取不能完全表征路网中复杂的逻辑关系.

路网结构日益复杂，因道路交叉口与分岔口的存在，某一路段的邻接路段会存在多个. 传统二维矩阵的存储方式并不能表征目前路网中复杂的空间拓扑关系. 图结构^[21-22]的形式可以最直观地存储路网间各路段的邻接关系，因此基于图结构进行交通路网建模.

如图1所示，为了合理地表示各个路段之间的空间关系，将路网中的各个路段监测点转化为特定的图节点，例如图中A~F；若路段监测点之间存在邻接关系，则令其对应的节点之间添加边的连接. ${T_1}$、 ${T_2}$表示连续的时刻，随着时间的推移，道路交通流量在构建的空间路网图中进行动态变化.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于图结构的交通流量建模

Fig.1 Traffic flow modeling based on graph structure

在数据结构上，定义空间路网图结构 $G$,包含点集与边集：

(2) $ {G} = < V,E > . $

式中： $V$为点集，将路网中各个路段当作节点； $E$为边集，表示路段之间的邻接关系. 数据通过邻接矩阵的形式进行存储. 理论上通过图结构的存储方式可以建立无限维的邻接关系. 为了表述方便，文中的路段特指道路车流量监测站所在区域的局部路段. 因局部路段距离较小，将局部路段作为节点表示，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 路段定义表示图

Fig.2 Definition of road section

在此前的研究中，只是单纯考虑路段之间是否存在邻接关系. 若2个路段之间相邻，则令对应邻接矩阵元素为1，否则为0. 简单的0、1表示并不能完全表征路网中各个节点之间的影响关系，各个邻接节点的影响程度有差异之分，其中距离是影响邻接路段之间相互影响关系的主要因素.

如图2所示，若A、B是2个相邻的路段监测点，将监测站点之间的距离称为路段间距离，A、B之间距离越大，则相互之间影响程度越小；反之亦然. 从而提出融合距离因素的图邻接矩阵，构建方法如下：

(3) $ A_{i j}=\left\{\begin{array}{cc}\alpha \dfrac{{1}/{{\rm{dis}}_i}}{ \max\; \left({1}/{{\rm{dis}}_i}\right)}, & i与j相邻; \\ 1, \quad & i=j; \\ 0, & i与j不相邻，且 i \neq j.\end{array}\right. $

式中： $\alpha $为调节系数，定义邻接节点相对于自我节点的权重占比； $\max \;(1/{\rm{dis}}_i)$表示与节点 $i$相连的所有节点中距离倒数的最大值，通过将 ${1}/{{{\rm{dis}}_i}}$与之相除，进行归一化操作.

将邻接矩阵主对角线设为1，保证自我节点具有最大的权重，得到更新邻接矩阵 $\hat {\boldsymbol{A}}$；并根据各个节点的邻接节点的数量，得到更新邻接矩阵 $\hat {\boldsymbol{A}}$的度矩阵 ${\boldsymbol{D}}$. 若2个节点之间无连接关系，则置对应的矩阵元素为0.

通过考虑路段间距离赋予邻接矩阵不同的数值，使网络模型可以差异化学习权重参数，最终，融合距离因素构造的邻接矩阵示例如图3所示. 示例中， $\alpha $设置为0.9.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 邻接矩阵的构建

Fig.3 Construction of adjacency matrix

1.2. 考虑周期性因素构造融合时间序列

交通流量具有较强的周期性，每日在不同时间段呈现规律性的周期性变化，且每周工作日与周末又存在些许差异. 考虑交通流量日、周周期性，并结合邻近时间段交通流量，构造融合时间序列，如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 融合周期时间序列

Fig.4 Fusion cycle time series

在数据定义上，定义融合周期时间序列信息 ${T_{{\text{his}}}}$：

(4) $ {T_{{\text{his}}}} = {T_{\text{H}}}\cup {T_{\text{D}}} \cup {T_{\text{W}}}. $

式中： ${T_{\text{H}}}$表示邻近时段时间序列， ${T_{\text{D}}}$为日周期序列， ${T_{\text{W}}}$为周周期序列. 将 ${T_{\text{H}}}$、 ${T_{\text{D}}}$、 ${T_{\text{W}}}$融合为历史时间序列 ${T_{{\text{his}}}}$.

2. 深度时空图卷积门控神经网络

所设计的深度时空图卷积门控神经网络模型的输入包括历史交通流量数据与空间路网邻接关系两部分，通过相关数据处理得到融合时间序列 ${T_{{\text{his}}}}$与图邻接矩阵 ${\boldsymbol{A}}$. 之后传入深度时空图卷积门控神经网络模型中进行训练及测试；最终通过训练好的模型进行交通流量的预测输出.

所构建的深度时空循环神经网络模型的总体架构如图5所示. 模型总共分为3部分：数据处理模块、空间图卷积模块与时间序列预测模块. 数据处理模块进行数据输入与输出处理工作，包括交通流量序列 $X$、空间路网图 $G$相关数据的处理. 对输入的数据进行预处理，包括数据异常值处理、数据维度转换、矩阵生成、序列变换等功能，使其转换成网络模型所需的数据格式；通过空间图卷积模块进行路网间空间性特征提取工作，将提取的空间特征信息结合时间序列相关信息一同传入到时间序列预测模块进行序列预测. 模型首先将数据转换后的交通流量序列 ${X_t}$作为网络的第1层输入，并加入融合距离因素的邻接矩阵 ${\boldsymbol{A}}$一同输入到GCN网络中进行路网空间特征提取，得到空间特征向量 ${\boldsymbol{G}}_t'$，以剖析交通流量的空间性特征；在层级中添加周期性时间序列 $ T_{{\rm{his}}} $，与上一隐藏层的输出 ${h_t}$进行运算得到时间序列预测模块的输入 ${x_t}$，将其输入到门控循环单元（gated recurrent unit, GRU）网络模型中进行时间序列预测. 最后通过全连接层得到最终预测输出 $Y$. 网络模型架构图如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 深度时空图卷积门控神经网络模型架构图

Fig.5 Network architecture of deep spatio-temporal graph convolutional gated neural network model

2.1. 空间图卷积模块

路网之间复杂的逻辑关系通过不规则的图结构进行保存，图卷积网络的提出使从图结构数据中提取特征成为可能. 在深度网络模型中，将邻接矩阵 ${\boldsymbol{A}}$与深度神经网络相结合，以剖析交通流量的时空性. 对于每一隐藏层H^t，结合邻接矩阵，有传递函数：

(5) $ {{\boldsymbol{H}}^{{{t+1}}}} = f({{\boldsymbol{H}}^{{{t}}}},{\boldsymbol{A}}). $

将邻接矩阵 ${\boldsymbol{A}}$与 ${{\boldsymbol{H}}^{{{t}}}}$进行矩阵相乘，并结合权重矩阵 ${{\boldsymbol{W}}^{{{t}}}}$进行权值相乘线性变换. 通过激活函数 $\sigma $进行非线性变化，得到下一隐藏层的输入 ${{\boldsymbol{H}}^{{{t+1}}}}$：

(6) $ f\left( {{{\boldsymbol{H}}^{{{t}}}}{\boldsymbol{,A}}} \right) = \sigma \left( {{\boldsymbol{A}}{{\boldsymbol{H}}^{{{t}}}}{{\boldsymbol{W}}^{{{t}}}}} \right). $

节点中聚合的信息并不包含本身特征，在图中加入自环，考虑本身节点的影响. 在矩阵变换上，让矩阵 ${\boldsymbol{A}}$与单位矩阵I相加，得到更新的邻接矩阵 $\hat {\boldsymbol{A}}$：

(7) $ {\hat{\boldsymbol A}} = {\boldsymbol{A}}+{\boldsymbol{I}}. $

图卷积模块通过不断的聚合操作获取邻接节点特征，当某一节点的邻接节点数量较多时，在特征表征中数值较大，对模型收敛造成影响. 通过加入度矩阵 ${\boldsymbol{D}}$进行对称归一化，防止多个隐藏层之间参数相乘所造成的数据爆炸的问题. 令

(8) $ {\boldsymbol{A}} = {{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}{\hat{\boldsymbol A}}{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}} . $

在邻接矩阵表示上，有

(9) $ {A_{ij}} = {{{A_{ij}}}}/({{\sqrt {{d_i}} \sqrt {{d_j}} }}). $

式中： ${A_{ij}}$为第 $i$行 $j$列的矩阵元素， ${d_i}$、 ${d_j}$表示矩阵在第 $i$行、第 $j$列的度. 则有

(10) $ f\left( {{{\boldsymbol{H}}^{{{t}}}}{\boldsymbol{,A}}} \right) = \sigma \left( {{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}{\hat{\boldsymbol A}}{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}{{\boldsymbol{H}}^{{{t}}}}{{\boldsymbol{W}}^{{{t}}}}} \right). $

一层图卷积可以在图中获取邻居节点的空间特征信息，为了扩大模型的感受野，获取到次邻居节点的信息，提高模型的空间感知能力，采用双层图卷积机制，即

(11) $ f({{\boldsymbol{H}}^{{{t}}}}{\boldsymbol{,A}}) = \sigma ({{\boldsymbol{D}}^{{{{ - }}{{{1/2}}}}}}{\hat{\boldsymbol A}}{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}\sigma ({{\boldsymbol{D}}^{{{{ - }}{{{1/2}}}}}}{\hat{\boldsymbol A}}{{\boldsymbol{D}}^{{{ - }}{{{1/2}}}}}{{\boldsymbol{H}}^{{{t}}}}{\boldsymbol{W)W}}). $

最终，令 ${\boldsymbol{G}}_{{{t+1}}}^{\boldsymbol{'}}$= $f({{\boldsymbol{H}}^{{{t}}}}{\boldsymbol{,A}})$,传入到时间序列预测模块中.

2.2. 时间序列预测模块

时间序列预测模块基于GRU设计. GRU输入输出结构图与RNN相似. 输入包括当前的输入 ${x_t}$与上一个节点传递下来的隐状态 ${h_{t - 1}}$， ${h_{t - 1}}$包含之前节点的相关信息. 结合 ${x_t}$和 ${h_{t - 1}}$，GRU会得到当前隐藏节点的输出 ${y_t}$和传递给下一个节点的隐状态 $ {h_t} $.

GRU包含2个重要门控机制：重置门控（reset gate）、更新门控（update gate）. 通过上一个传输下来的状态 $ {h_{t - 1}} $和当前节点的输入 ${x_t}$来获取2个门控状态：

(12) $ \begin{split} &\\ &{r_t} = \sigma ({w_r} {x_t}+{w_r} {h_{t - 1}}), \end{split} $

(13) $ {z_t} = \sigma ({w_z} {x_t}+{w_z} {h_{t - 1}}). $

式中： $r$为控制重置的门控， $z$为控制更新的门控，w为待学习的权重参数.

通过上一层空间图卷积模块，模型可以获取到道路路网中空间特征信息 ${\boldsymbol{G}}_t$. 将空间特征信息 ${\boldsymbol{G}}_t$与上一隐藏层输出 $ {h_{t - 1}} $作为时间序列预测模块的输入. 为了使模型关注交通流周期性特征信息，模型融合时间周期序列，通过多信息融合进行特征提取，最终输入到GRU网络单元中. 这里，重新定义GRU模块中的门控的输入（见图6），达到多信息融合输入的目的，表达式如下：

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 改进的GRU单元的门控机制

Fig.6 Gating mechanism of improved GRU unit

(14) $ {r_t} = \sigma ({{\boldsymbol{W}}_{gr}} \cdot {{\boldsymbol{G}}_t}+{w_{hr}} {h_{t - 1}}+{w_{tr}} {t_t}+{b_r}), $

(15) $ {z_t} = \sigma ({{\boldsymbol{W}}_{gz}} \cdot {{\boldsymbol{G}}_t}+{w_{hz}} {h_{t - 1}}+{w_{tz}} {t_t}+{b_z}). $

式中： ${\boldsymbol{W}}$表示权重， $b$为偏置项. 分别将空间性特征信息 ${{\boldsymbol{G}}_t}$、隐藏层的信息 $ {h_t} $、周期性信息 ${t_t}$分别乘以对应的权重，并加上偏置项 $b$，再通过激活函数进行非线性变换.

在得到门控信号之后，重置门控重置之后的数据须通过tanh激活函数缩放到−1.0~1.0，得到 ${\tilde {h} _t}$：

(16) $ {\tilde h _t} = \tanh\; ({w_h} {r_t} +{w_n} {h_{t - 1}}+{b_h}). $

通过更新门控对隐藏状态进行选择性记忆与遗忘. 通过 $(1 - {z_t}) {h_{t - 1}}$对隐藏状态选择性遗忘， ${z_t} {{\tilde h_t}} $对隐藏状态进行选择性记忆，最终得到单元输出 ${h_t}$：

(17) $ {h_t} = (1 - {z_t}) {h_{t - 1}}+{z_t} {{\tilde h_t}} . $

构建的深度时空图卷积循环神经网络通过图卷积模块捕获城市道路拓扑结构中复杂的空间信息，结合门控循环单元获取交通流量的时间相关性，最后，通过全连接层得到最终输出序列 $Y$，完成交通流量预测任务.

3. 实验结果与分析

3.1. 实验环境及数据集

实验进行的环境为Inter Core i7-9700×8处理器，16 G运行内存，RTX2060显卡，CDUA 10.0深度学习框架，Cudnn深度学习网络加速库，网络基于TensorFlow框架进行搭建，编程环境为Python3.5.

为了校验模型的性能，数据集采用美国加利福尼亚州高速路网真实公开PEMS数据集，数据集每1个键值对包含3个属性，分别为交通流量、车道占有率、车速3项指标，采样间隔为5 min. 截取交通流量数值并存取为相应的.csv文件. 为了测试模型在不同数据集上的综合表现，选取PEMS03、PEMS04、PEMS08数据集进行实验. 同时截取PEMS03数据集上33个部分检测器的数据集，命名为PEMS03-33，验证小样下本模型的性能表现. 实验训练集与测试集的比例划分为8∶2，数据集总览如表1所示.

表 1 交通流量实验数据集总览

Tab.1 Overview of traffic flow experimental datasets

数据集	检测器数量	时间范围	数据量
PEMS03	358	2018.09.01—2018.11.30	26208×358
PEMS03-33	33	2018.09.01—2018.11.30	26208×33
PEMS04	307	2018.01.01—2018.02.28	16992×307
PEMS08	170	2016.07.01—2016.08.31	17856×170

新窗口打开| 下载CSV

针对数据集中部分缺失的数据，利用缺省值邻接序列的数据，采用线性插值法进行缺省值填充.

(18) $ {\varphi _1}\left( x \right) = \frac{{x - {x_1}}}{{{x_0} - {x_1}}}{y_0}+\frac{{x - {x_0}}}{{{x_1} - {x_0}}}{y_1}. $

因交通流量变化趋势较大，对输入到模型的数据首先进行z-score标准化处理，从而加快模型的收敛效率，并对最终的预测结果进行反标准化得到输出. 标准化表达式如下：

(19) $ {y_i} = \frac{{{x_i} - \displaystyle \sum\limits_{i = 1}^n {{x_i}}/n }}{{\sqrt {\dfrac{1}{{n - 1}}\displaystyle \sum\limits_{i = 1}^n {{{\left( {{x_i} - \displaystyle \displaystyle \sum\limits_{i = 1}^n {{x_i}}/n } \right)}^2}} } }}. $

在图邻接矩阵构造中，根据检测器邻接位置关系表（见表2），构造相应的邻接阵. N_s、N_e分别为某一路段起始与终止的检测器编号，dis表示路段间距离.

表 2 检测器位置与邻接位置关系表

Tab.2 Reationship between detector position and adjacent position

N_s	N_e	dis
311903	318282	0.600
311930	318282	0.600
312010	313772	4.274
312098	314371	6.036
$\vdots $	$\vdots $	$\vdots $
318844	318775	0.302

新窗口打开| 下载CSV

3.2. 评价指标及实验参数设置

3.2.1. 评价指标

评价指标采用回归问题上常用的平均绝对误差（mean absolute error，MAE）与均方根误差（root mean square error，RMSE）,表达式如下：

(20) $ {\rm{MAE}} = \sum\limits_{i = 1}^{n_{\rm{p}}} {\left| {{{\hat y}_i} - {y_i}} \right|/n_{\rm{p}}} , $

(21) $ {\rm{RMSE}} = \sqrt {\sum\limits_{i = 1}^{n_{\rm{p}}} {{{({{\hat y}_i} - {y_i})}^2}} /n_{\rm{p}}} . $

式中： $n_{\rm{p}}$表示待预测序列的长度， ${\hat y_i}$表示在 $i$时刻点的交通流量真实值， ${y_i}$表示模型在 $i$时刻点的交通流量预测值. 数值越小，表示模型预测值与实际值误差越小，模型预测精度越高.

3.2.2. 超参数设置

模型超参数主要包括GRU隐藏单元个数、输入历史序列长度、日周期序列个数、周周期序列个数、学习率、batchszie等参数. 实验设置不同GRU隐藏单元个数以分析其对模型精度的影响，最终选取数值为64，此时模型具有较好的性能表现. 同时，验证模型不同学习率对模型收敛速度与精度的影响，最终选取学习率 $\alpha $=0.002，此时在保证模型精度的前提下收敛速度较快. 同时，验证日周期序列个数 $d$与周周期序列个数 $w$对模型精度的影响，实验设置 $d$与 $w$分别在 $ \left\{1，2，3\right\} $取值，最终验证得出当 $d$=1, $w$=3时，模型误差最小. 在优化器的选择上，比较RMSPropOptimizer、AdamOptimizer、AdaGradOptimizer等不同优化器的收敛曲线，选择结合RMSProp与梯度下降的AdamOptimizer优化器.

3.3. 实验结果及分析

3.3.1. 交通流量多时段预测

为了综合评价模型的预测精度，实验选取不同待预测时间范围，以5 min为时间间隔，预测时间范围 $t$从5 min逐步增加到60 min，记录模型随预测时间范围的增加在PEMS04、PEMS08数据集上的12组预测误差表现，通过RMSE、MAE指标进行评判，实验结果见表3.

表 3 模型在不同预测时间范围下的RMSE与MAE误差结果

Tab.3 RMSE and MAE results of model under different forecasting time ranges

$t$ /min	PEMS04		PEMS08
$t$ /min	RMSE	MAE	RMSE	MAE
5	28.34	18.13	21.54	14.13
10	29.34	18.55	22.25	14.61
15	30.02	19.19	23.02	15.09
20	30.86	19.72	23.78	15.76
25	31.47	20.25	24.32	16.06
30	32.17	20.78	24.83	16.31
35	33.07	21.31	25.46	16.83
40	33.81	21.85	25.81	17.02
45	34.24	22.38	26.43	17.34
50	34.72	22.91	26.91	17.56
55	35.68	23.52	27.15	17.90
60	36.37	23.98	27.64	18.35

新窗口打开| 下载CSV

3.3.2. 多模型对比实验

对比实验选取时序预测常用的LSTM、GRU模型作为基准模型，并选取了目前应用于交通流量预测的图卷积网络模型，包括STGCN^[18]、MCSTGCN^[15]、STSGCN^[19]、ASTGCN^[20]，分别比较其在PEMS04、PEMS08数据集下的预测性能. 为了综合评判模型的预测性能，对每一个模型分别记录其在5~60 min内的12组数据，时间间隔为5 min，将12组结果进行平均计算，最终得到模型的综合预测误差结果. 对比模型概念如下.

1）LSTM：长短期记忆网络，为了解决RNN的长期依赖性问题而提出，引入门机制的概念（输入门、输出门、遗忘门）.

2）GRU：门控循环单元，在LSTM的基础上进行改进，将LSTM的输入门与遗忘门合二为一为更新门，同样达到门控的机制，其较LSTM参数更少，模型更易收敛.

3）STGCN^[18]：建立纯卷积的预测模型，设计空间卷积层与时间卷积层进行特征提取，以更少的参数以获取更快的收敛速度.

4）MCSTGCN^[15]：多组件时空图卷积网络，设计时、日、周3个独立的卷积模块进行分别预测，最后将3个组件的预测结果进行加权运算得到最终输出.

5）STSGCN^[19]：构建局部时空图，局部时空图由3个相邻的时间片组成，在不同时间段部署多个STSGCN模型，以解决长时间时空网络数据的异质性.

6）ASTGCN^[20]：在时间卷积与空间卷积模块中引入注意力机制，最后通过图卷积运算得到最终输出.

如图7所示为不同模型随预测时间范围的增加对应的误差曲线. 可以看出，随着预测时间范围的增加，模型的预测误差均逐渐升高.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同模型在多个预测时间范围下的MAE及RMSE

Fig.7 MAE and RMSE for different models at multiple forecasting time ranges

如表4所示为7种模型在5~60 min预测时间范围内的综合预测性能表现，对所有误差结果加和求取均值，作为模型的最终误差数值.

表 4 不同模型在PEMS04、PEMS08数据集上的误差

Tab.4 Error of different models on PEMS04 and PEMS08 datasets

模型	PEMS04		PEMS08
模型	RMSE	MAE	RMSE	MAE
LSTM	43.17	28.83	33.18	23.30
GRU	42.83	28.32	32.97	23.15
STGCN^[18]	38.29	25.15	27.87	18.88
MCSTGCN^[15]	35.64	22.73	26.47	17.47
STSGCN^[19]	33.65	21.19	26.80	17.13
ASTGCN^[20]	32.82	21.80	25.27	16.63
本研究模型	32.51	21.04	24.92	16.41

新窗口打开| 下载CSV

由于未考虑空间性信息，LSTM、GRU这2种循环神经网络只能捕获时间维的相关性，相比其他图卷积构建的网络模型误差更大，并且，随着预测时间范围的增加，差异性更加明显. 同时考虑了空间维与时间维的特征信息的STGCN模型的预测误差较LSTM、GRU有明显的降低；考虑周期性因素的MCSTGCN、ASTGCN通过设置时、日、周独立预测组件，预测误差进一步降低. STSGCN通过网络架构的改善提出时空同步建模机制，体现出较大的优势. 本模型分别设立空间图卷积模块与时间序列预测模块，同时考虑距离因素构造新型邻接矩阵，并在网络层级中添加融合周期性信息的序列，模型的预测性能表现最优. 由图7可以看出，在5~15min短时时间范围内本模型优势较明显，但随着预测时间范围的增加，与其他模型的差异逐渐减小.

长时间范围的交通流量的时空相关性更难捕获. 由图7可知，随着预测时间范围的增加，所有模型的RMSE、MAE指标均逐渐变大，模型的预测性能均有降低. 原因如下：一是在时间维度上，随着时间范围的增加，相同路段待预测的数据受历史邻近数据的影响程度逐渐变小，相关性逐渐降低；二是在空间维度上，随着时间范围的增加，邻居节点的数据在持续变化，空间相关性更难获取. 两者叠加使模型的训练难度增加，长期的交通流量预测更具挑战.

3.3.3. 距离因素影响实验

为了测试改进的邻接矩阵对模型精度的影响，实验对比了融合距离因素构造的邻接矩阵与传统未考虑距离因素构造的邻接矩阵在PEMS03、PEMS03-33、PEMS04、PEMS08这4个数据集上的误差表现，实验结果如图8所示. 融合距离因素构造的邻接矩阵考虑了距离因素构造差异化矩阵，在模型训练时通过学习不同的权重参数从而更深层次提取空间特征信息，模型的预测误差在4个不同数据集上较未考虑距离因素构造的邻接矩阵均有所降低，RMSE指标降低了1.6%~2.5%，MAE指标降低了1.6%~2.7%.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 改进邻接矩阵对模型误差的影响

Fig.8 Effect of improved adjacency matrix on model error

如图9所示为模型在不同数据集上的交通流量预测示例图. 图中，F为单位时间内交通流量数值； S为路段监测器记录的时间步次数，采样间隔为5 min，1 d内记录12×24=288个数值；实线表示真实的交通流量数值，虚线表示模型所预测的交通流量数值. 可以看出，模型所预测的交通流量数值与真实值拟合程度较高.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 模型在不同数据集上的交通流量预测结果

Fig.9 Traffic flow prediction results of model on different datasets

4. 结　论

针对目前交通流量预测中存在的问题，提出改进的融合距离与周期性因素的深度时空图卷积门控神经网络模型.

（1）在图邻接矩阵的构造方式上，考虑路段节点距离因素改进传入模型的数据定义形式，使模型可差异化获取邻接节点权重系数，对提高模型的预测精度有一定提升.

（2）在模型网络架构的设计上，设计单组件网络架构模型，提出改进的融合距离与周期性因素的深度时空图卷积门控神经网络模型. 与其他图卷积网络模型对比，其综合预测误差最小，验证了本模型网络架构的合理性.

（3）本研究所提模型进一步降低了15 min内的短时交通流量预测的误差；随着预测时间范围的增加，交通流量的时空相关性更难获取，模型的预测误差也逐渐增大，因此长时间的交通流量预测问题还有待继续优化.

下一步将继续优化网络架构模型，挖掘交通流量更深层次的时空特征；更迭数据定义形式，探究更合理的考虑距离因素的邻接矩阵表示方法，进一步提升模型的预测性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

祁朵, 毛政元

基于自适应时序剖分与KNN的短时交通流量预测

[J]. 地球信息科学学报, 2022, 24 (2): 339- 351