用于交通流预测的自适应图生成跳跃网络

doi:10.3785/j.issn.1008-973X.2021.10.004

用于交通流预测的自适应图生成跳跃网络

黄靖^,, 钟书远, 文元桥, 罗坤

1. 武汉理工大学计算机科学与技术学院，湖北武汉 430063

2. 武汉理工大学智能交通系统研究中心，湖北武汉 430063

Adaptive graph generation jump network for traffic flow prediction

HUANG Jing^,, ZHONG Shu-yuan, WEN Yuan-qiao, LUO Kun

1. School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430063, China

2. Intelligent Transportation System Research Center, Wuhan University of Technology, Wuhan 430063, China

收稿日期: 2020-12-10

基金资助:

国家自然科学基金资助项目(52072287)；武汉理工大学自主创新研究基金资助项目(205210016)

Received: 2020-12-10

Fund supported:

国家自然科学基金资助项目(52072287)；武汉理工大学自主创新研究基金资助项目(205210016)

作者简介 About authors

黄靖（1977—），男，副教授，从事大数据分析、计算机视觉的研究.orcid.org/0000-0002-3294-5725.E-mail：huangjing@whut.edu.cn , E-mail：huangjing@whut.edu.cn

摘要

针对交通流数据复杂的时空相关性，提出新的基于深度学习的自适应图生成跳跃网络（AG-JNet模型）. 该模型由2个时空模块组成，每个时空模块分为2支，分别对时间相关性和空间相关性建模. 时间建模采用多层扩张卷积，在增大时间维度感受野的同时降低计算开销. 空间建模采用自适应图生成卷积，在不依赖图的固定结构下提取空间相关性. 在时间和空间的建模中均采用跳跃连接堆叠多层，以提升模型的深层特征提取能力，将时间特征和空间特征进行门控融合，提取出用于交通流量预测的时空特征. 在2个真实数据集PeMSD4和PeMSD8上的实验表明，AG-JNet在不同指标下取得了优异的性能.

关键词： 交通流量预测 ; 时空相关性 ; 自适应图生成 ; 扩张卷积 ; 跳跃连接

Abstract

A novel deep-learning-based model, adaptive graph generation jump network (AG-JNet), was proposed to solve the problem that traffic flow data has complex spatial-temporal correlations. The model consisted of two spatial-temporal modules, each of which was divided into two critical components, i.e., temporal correlation block and spatial correlation block. The temporal correlation block used multi-layer dilated convolution to increase the receptive field in temporal dimension while reducing computational cost. The spatial correlation block used adaptive graph generation convolution, which did not rely on the fixed graph structure to extract spatial correlation. Stacking multiple layers by jumping connections was used in both temporal and spatial modeling in order to improve the ability of extracting deep features of the model. The temporal feature and the spatial feature were fused by gated mechanism to obtain the spatial-temporal features for traffic flow prediction. Extensive experiments were conducted on two public datasets, i.e., PeMSD4 and PeMSD8. The experimental results showed that the AG-JNet achieved excellent performance under different traffic indicators.

Keywords： traffic flow prediction ; spatial-temporal correlation ; adaptive graph generation ; dilated convolution ; jumping connection

PDF (1071KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

黄靖, 钟书远, 文元桥, 罗坤. 用于交通流预测的自适应图生成跳跃网络. 浙江大学学报(工学版)[J], 2021, 55(10): 1825-1833 doi:10.3785/j.issn.1008-973X.2021.10.004

HUANG Jing, ZHONG Shu-yuan, WEN Yuan-qiao, LUO Kun. Adaptive graph generation jump network for traffic flow prediction. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(10): 1825-1833 doi:10.3785/j.issn.1008-973X.2021.10.004

近年来，随着人们对出行的需求增加，交通流量迅速攀升，从而使得交通拥堵严重. 如果能够提前准确地对交通流量进行预测，那么可以帮助市民绕过拥堵道路，避开高峰时间，降低市民的出行时间和成本，提高路网的运行能力和效率.

早期的交通流预测主要采用一些统计学方法，包括历史均值法（history average, HA）、自回归积分移动平均模型（autoregressive integrated moving average model, ARIMA）^[1-2]和向量自回归模型（vector autoregressive models, VAR）^[3]等. 这些早期的预测方法应用在高度复杂的交通流数据上效果不理想. 一些前沿方法采用循环神经网络（recurrent neural network, RNN）对交通流数据建模^[4]，但忽略了空间相关性. 为了提取到交通流数据的空间相关性，图卷积性能较好，但存在以下2个局限.

1）图卷积必须依赖于固定的图结构. 常用来确定图结构的方法有3种：a)通过2个不同节点之间的地理距离来确定^[5-6]；2)借助本身路段之间的连通性^[7]；3)通过节点之间的相似性来确定邻接关系^[8-9]. 有些方法为了提高模型的性能，考虑了多种图的结构^[9]，但人为预设的方法无法完全表示出节点之间的空间依赖关系，应用到不同数据时需要重新确定图的结构.

2）图卷积通常无法通过加深网络层次来进一步提取高层语义特征. 通常图卷积堆叠2到3层效果最佳^[10]，如果网络层次加深，那些比较密集的节点聚合的信息会趋于一致，从而产生过度平滑的问题^[11].

针对以上问题，提出用于交通流预测的自适应图生成跳跃网络（adaptive graph generation jump network, AG-JNet）. 该模型使用自适应图生成卷积，使其能够自学习节点之间的邻接关系，结合跳跃连接使图卷积堆叠多层，使网络在学习到深层隐藏特征的同时保持各节点的独特性. 该模型通过时间嵌入引入周期信息，提升模型的预测能力. 通过在真实公路数据集上开展实验，提出的模型在相关交通指标下取得了优异的效果.

1. 相关工作

一直以来，交通流预测都是一个热门的研究问题，许多研究者提出不同交通流预测的方法，并取得了一系列理论和应用研究成果. 交通流预测作为时序预测任务，早期研究者多采用基于统计学的时序模型. 较早的时序模型有HA，通过取历史时间段的平均值作为未来预测的结果，该方法虽然简单高效，但是预测效果较差. Box等提出ARIMA^[12]，该模型是目前使用最广泛的时序预测模型之一. Hamed等^[2]将ARIMA模型应用到城市交通流量预测上.

近年来，依托交通大数据的高速发展，深度学习在交通流预测上的应用越来越多. Park等^[13]使用前馈神经网络来实现交通流量预测. Huang等^[14]提出由深度信任网络（deep belief networks, DBN）和回归模型组成的网络体系，提高了交通预测的准确度. 由于RNN在序列任务上不错的表现，被广泛应用到交通流预测中^[4]. 单纯的RNN结构只能提取时间相关性，为了提取交通数据中的空间相关性，Wu等^[15-16]使用卷积神经网络（convolutional neural network, CNN）.

路网本身是拓扑图的结构，使用图卷积来捕获交通流数据的空间相关性更好. Zhao等^[17]提出时间图卷积网络（temporal graph convolutional network, T-GCN），使用图卷积结合门控循环单元（gate recurrent unit, GRU）来分别提取空间和时间特征. Yu等^[6]使用图卷积来提取空间特征，时间特征采用纯卷积的方式来提取，提出纯卷积的轻量时空网络. 冯宁等^[18]考虑到交通流数据的周期性，提出多组件时空图卷积网络（multi-component spatial-temporal graph convolution networks, MCSTGCN）；该网络分为3个组件，分别提取邻近、日、周的时间依赖特征. 为了提高模型的预测能力，注意力机制得到了大量的应用. Guo等^[7]在MCSTGCN的基础上，加入注意力机制，提高了网络的预测性能. Zheng等^[19]提出纯注意力的网络，对空间和时间相关性均采用注意力的方式建模，提出变换注意力机制，将历史交通特征转换为未来的表示，提高了网络长期预测的性能. Chen等^[20]考虑了边的关系，通过对边构建图来提取边的相关性，结合RNN和注意力机制完成对交通流数据的建模. 通常，图卷积只能捕获局部空间依赖，为了解决该问题，Fang等^[21]提出全局时空网络，该网络包含能够同时捕获长期依赖和短期依赖的时间模块以及能够同时捕获局部关联和全局关联的空间模块. Bai等^[22]将图卷积公式进行改进，使其脱离图结构和参数共享的限制，结合GRU提出自适应图卷积循环网络，提高预测的精度.

2. 自适应图生成跳跃网络

2.1. 问题定义

将路网定义成无向图G=[V, E, A]，其中V为节点集合，|V|=N为节点个数，E表示边集，A表示节点之间的连通性，A∈R^N×N. 所有节点在时间步t的信息表示为X_t∈R^N×F，F表示每个节点的特征数（速度、流量、占有率等）. 交通预测问题定义如下：给定N个节点h个历史时间步的信息X=[X_t-h+1,X_t-h+2,···, X_t]∈R^h×N×F，预测未来p个时间步的交通流量Y=[X_t+1, X_t+2, ···, X_t+p]∈R^p×N×1，即

(1) $ {\boldsymbol{Y}} = {f_\theta }({\boldsymbol{X}},{\boldsymbol{G}}) . $

式中：f_θ为映射函数，θ 为可学习参数.

2.2. 网络概述

自适应图生成跳跃网络主要分为3个部分：输入层、时空建模层、输出层. 如图1所示，经过预处理的交通历史数据X∈R^h×N×F经过输入卷积层，将原始数据的特征F扩充到D维. 经过2层时空模块（spatial-temporal block, STBlock）充分捕获交通数据的时空依赖，在2个时空模块中添加残差连接^[23]，增强模型的学习能力. 经过输出卷积层，将特征数D压缩到1维信息（交通流量），即Y∈R^p×N×1.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 自适应图生成跳跃网络的整体结构

Fig.1 Overview of adaptive graph generation jump networks

输入输出卷积层的作用是扩维和降维，为了防止信息的丢失，每个卷积层采用2个1×1卷积，中间采用批归一化（batch normalization, BN）^[24]和ReLU激活函数，以加快网络的训练.

2.3. 时空模块

时空模块是整个网络的核心，分为5个核心组件：特征注意力（feature attention, FA）、空间相关性建模（spatial correlation modeling, SM）、时间相关性建模（temporal correlation modeling, TM）、门控融合（gated fusion, GF）、时间嵌入（time embedding, TimeE）.

2.3.1. 特征注意力

近几年的交通流量预测方法都考虑到交通数据的时空相关性，但大部分忽略了交通数据多个特征之间的关联性. 不同特征对交通流预测的影响程度是不同的，对于交通数据的初始特征，直观上历史的流量和速度特征相对于占有率对交通流预测的影响更大，故在时空模块中引入特征注意力（FA）. 如图2的FA，借助卷积神经网络中的SE（squeeze-and-excitation）模块^[25]思想，将输入数据X∈R^h×N×F沿F维进行全局平均池化（global average pooling, GAP）. 经过2层全连接层得到各特征的注意力系数，将注意力系数分配到各特征上，公式为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 时空模块的详细结构图

Fig.2 Illustration of spatial-temporal blocks

(2) $ {z}^{f}=\frac{1}{T\times N}\sum\limits_{i=1}^{T}\sum\limits_{j=1}^{N}{X}_{i,j}^{f} , $

(3) $ {s^f} = \sigma \left( {{W_2}\delta \left( {{W_1}{z^f} + {b_1}} \right) + {b_2}} \right) , $

(4) $ {\tilde{\boldsymbol X}}^{f}={s}^{f}\times {\boldsymbol X}^{f}\;(\;f=1,2,\cdots ,F) . $

式中：f表示某个特征，δ为ReLU激活函数，σ为sigmoid激活函数，W₁、W₂分别为2个全连接层的权重参数，s^f为相应的注意力系数.

2.3.2. 空间相关性建模

最近交通预测上的工作都是依靠图卷积来捕获交通数据的空间相关性，根据Kipf等^[10]的研究可知，图卷积可以很好地一阶近似为

(5) $ {{\boldsymbol{H}}^{l + 1}} = \left( {{\boldsymbol{I}} + {{\boldsymbol{D}}^{ - \frac{1}{2}}}{\boldsymbol{A}}{{\boldsymbol{D}}^{ - \frac{1}{2}}}} \right){{\boldsymbol{H}}^l}{\boldsymbol{W}} + {\boldsymbol{b}} . $

式中：I为单位矩阵，I∈R^N×N；A为邻接矩阵，A∈R^N×N；D为度矩阵；W为可学习参数；b为偏置矩阵.

从式(5)可以看出，图卷积的实质是聚合邻接节点的信息. 如图3所示，第1次图卷积节点3聚合了节点1、2、3、4、5的信息，第2次图卷积节点5聚合了节点3、5、6的信息，由于节点3已经聚合了自身一阶邻接信息，节点5聚合的信息包含了节点3的一阶邻接信息，即节点5聚合二阶邻接信息. 由此可知，图卷积堆叠几层，即聚合几阶邻接信息. 对于密集的节点，使用多层图卷积会导致各节点特征的同质化，产生过度平滑的问题. 以1、2、3这3个节点为例，经过2次图卷积后，每个节点都聚合了节点1、2、3的特征. 对于稀疏的节点，浅层图卷积不能有效地聚合足够的邻域信息^[11]. 为了解决该问题，在空间建模（SM）中堆叠多层图卷积，保证每个节点都能聚合到充足的邻域信息，同时添加层级跳跃连接，通过最大池化的方法进行层级聚合（layer aggregation, LayerAGG），使得每个节点自适应地聚合多阶邻接信息. 对于每个节点，最大池化为选取每层输出中的最大特征值，公式为

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 2层图卷积

Fig.3 Two-layer graph convolution

(6) $ h_{i,t}^\prime = \max \left\{ {h_{i,t}^1,h_{i,t}^2, \cdots ,h_{i,t}^l} \right\} . $

式中： $h_{i,t}^l$为l层的输出中第i个节点、t时间步的特征值.

图卷积必须预先确定邻接矩阵A的值，应用到交通预测上需要根据经验提前确定各节点（路段）的邻接关系. 人为确定的邻接关系无法完全表示节点之间的隐藏关联，且应用到不同数据集上需要重新确定节点间的邻接关系. 为了解决这个限制，在空间建模（SM）中使用自适应图生成卷积^[22]（adaptive graph generation convolution, AGGC）来捕获空间相关性. AGGC初始化可学习的参数E∈R^N×M，通过EE^T∈R^N×N来推断出节点之间的空间依赖关系：

(7) $ {{\boldsymbol{D}}^{ - \frac{1}{2}}}{\boldsymbol{A}}{{\boldsymbol{D}}^{ - \frac{1}{2}}} = {\rm{softmax}}\;\left( {{\rm{relu}}\;\left( {{\boldsymbol{E}}{{\boldsymbol{E}}^{\rm{T}}}} \right)} \right) . $

替换到式（5），即变为

(8) $ {{\boldsymbol{H}}^{l + 1}} = \left( {{\boldsymbol{I}} + {\rm{softmax}}\;\left( {{\rm{relu}}\;\left( {{\boldsymbol{E}}{{\boldsymbol{E}}^{\rm{T}}}} \right)} \right)} \right){{\boldsymbol{H}}^l}{\boldsymbol{W}} + {\boldsymbol{b}} . $

AGGC通过训练自动学习节点之间的隐藏关联，从而脱离图结构的束缚.

2.3.3. 时间相关性建模

在交通预测上，很多方法采用GRU或LSTM对时间相关性建模，但会导致模型参数量大、训练难的问题. 为了轻量化模型，采用卷积的方式进行时间建模（TM）. 对于输入X∈R^F×N×T，在时间维度上进行卷积，将F看成通道C、N和T看成H和W，用大小为(1, k)的卷积核进行卷积. 为了捕获更多的历史时间信息，在时间建模（TM）中采用扩张卷积，且只在时间维度上进行扩张，如图4所示为扩张率为2的一个示例.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 在时间维度上的扩张卷积

Fig.4 Dilated convolution in temporal dimension

类似于空间建模，堆叠多层扩张卷积（dilated convolution, D_Conv），每层使用批量归一化（BN）和ReLU激活函数. 扩张卷积的感受野会随着层数的增加呈指数增长，不同层的输出包含不同感受野的时间信息，将每层的输出进行层级聚合（LayerAGG），形成多尺度的时间特征. 时间建模中的层级聚合采用拼接加卷积的方式，将每层的输出沿F维拼接，再用一个卷积开展进一步融合.

2.3.4. 门控融合

时间特征和空间特征对于交通流预测都十分重要，但哪种特征对预测结果的影响更大是无法确定的. 采用GRU中的门控方式，将时空建模的2个输出自适应地进行融合.

如图5所示，对于输入X_s∈R^T×N×F和X_t∈R^T×N×F，有如下公式：

(9) $ {{z}} = \sigma \left( {\left[ {{{\boldsymbol{X}}_s},{{\boldsymbol{X}}_t}} \right]{\boldsymbol{W}}} \right) , $

(10) $ {{\boldsymbol{Y}}_{{{\rm{GF}}}}} = {z} \otimes {{\boldsymbol{X}}_s} + (1 - {{z}}) \otimes {{\boldsymbol{X}}_t} . $

式中：W为可学习参数，W∈R^2F×F； $ \sigma $为sigmoid激活函数；Y_GF为门控的输出，Y_GF∈R^T×N×F； $\otimes $为哈达玛积；[ ]为拼接操作. 门控融合自适应地控制各个时间步上每个节点的时空依赖.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 门控融合

Fig.5 Gated fusion

2.3.5. 时间嵌入

交通流数据存在明显的周期性，每周的星期一和每天的早晚高锋都会极大地影响交通流的变化，但图2中的时间建模（TM）只能提取邻近时间步的时间相关性，对天、周这种周期性依赖不能捕获，为此，在时间模块的输出阶段引入时间嵌入，赋予模型捕获周期性依赖的能力. 预测时间段的时间信息能够简单获取到，故提前对训练数据进行处理，使得每条数据新增时间信息特征 $ {\boldsymbol{X}}_{{{\rm{TimeE}}}}^t \in {{\bf R}^{1 \times 2}} $. 时间信息特征具体包含2个信息：一个是周的信息（0~6），一个是天的信息（0~23）. 假设要预测未来p个时间步的交通流，则嵌入的时间信息特征为 ${{\boldsymbol{X}}_{{{\rm{TimeE}}}}} = \left\{ {{\boldsymbol{X}}_{{{\rm{TimeE}}}}^{t + 1},{\boldsymbol{X}}_{{{\rm{TimeE}}}}^{t + 2}, \cdots ,{\boldsymbol{X}}_{{{\rm{TimeE}}}}^{t + p}} \right\} \in {{\bf R}^{p \times 2}}$. 如图2所示，将该时间信息特征放入多层线性网络，采用ReLU激活，得到时间嵌入输出Y_TimeE∈R^p×1. 门控融合（GF）的输出经过一个时间维度变换卷积后时间维度变为p，即Y_GF∈R^p×N×F，将其与时间嵌入的输出Y_TimeE沿时间维度p相乘，得到时空模块的输出. 对于时空模块中第i个时间步的输出 $ {\boldsymbol{Y}}_{{{\rm{ST}}}}^i \in {{\bf R}^{N \times F}} $，有

(11) $ {\boldsymbol{Y}}_{{{\rm{ST}}}}^i = Y_{{{\rm{TimeE}}}}^i \times {\boldsymbol{Y}}_{{{\rm{GF}}}}^i . $

式中： $ Y_{{{\rm{TimeE}}}}^i $为常数， $ {\boldsymbol{Y}}_{{{\rm{GF}}}}^i \in {{\bf R}^{N \times F}} $.

3. 实验与分析

3.1. 数据集

为了评估该模型的表现能力，在2个真实数据集（PeMSD4、PeMSD8）^[7]上进行大量的对比实验.

PeMSD4是2018年1—2月旧金山湾区307个检测点收集到的数据. PeMSD8是2016年7—8月圣贝纳迪诺170个检测点收集到的数据. 这些数据被整理成每5 min一条记录，1 h为连续的12条记录. 采用标准归一化对数据进行处理，将数据集按6∶2∶2的比例划分为训练集、验证集和测试集.

3.2. 实验设置

使用Pytorch搭建AG-JNet，在GPU为RTX2080 Ti的设备上进行实验. 超参数设置包括：输入卷积层特征扩充的维度D=64，空间建模（SM）网络层数和时间建模（TM）中网络层数为4，且扩张卷积的扩张率统一设为2，时间嵌入中网络层数为3. 初始化方法统一采用Kaiming初始化^[26]，包括式（7）的参数E. 在训练中，学习率设为0.001，批次大小为64，使用均方误差（mean square error, MSE）作为损失函数，用Adam优化器进行优化. 模型将被迭代训练100次，取验证集效果最好的一次作为最终的模型参数.

模型评价指标采用平均绝对误差（mean absolute error, MAE）和均方根误差（root mean square error, RMSE），计算公式如下：

(12) $ {\rm{MAE}}=\frac{1}{n}\sum\limits_{i=1}^{n}\left|{y}_{i}-{\hat{y}}_{i}\right| , $

(13) $ {\rm{RMSE}}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{\left({y}_{i}-{\hat{y}}_{i}\right)}^{2}} . $

3.3. 模型评估

为了评估模型的预测性能，将AG-JNet与如下几个方法进行对比.

1) HA：历史均值法，利用历史一个小时的平均值来预测未来一个小时内的交通流量.

2) T-GCN^[17]：结合图卷积和GRU的交通预测方法.

3) STGCN^[6]：用带门控的普通卷积提取时间依赖，用图卷积提取空间依赖.

4) ASTGCN^[7]：考虑周期性并加入注意力机制的时空网络，只考虑过去一周、一天及过去前一小时的情况.

5) AGCRN^[22]：提出自适应图卷积，结合GRU实现对交通流的预测.

实验过程采用以上方法的Pytorch实现版本，且都是使用历史一小时的数据来预测未来一小时内的交通流量. 实验结果如表1所示.

表 1 不同方法在2个数据集上的性能比较

Tab.1 Performance comparison of different methods on two data sets

模型	PeMSD4 (30/60 min)		PeMSD8 (30/60 min)
模型	MAE	RMSE	MAE	RMSE
HA	31.46/38.24	44.94/54.31	26.04/31.94	36.99/45.16
T-GCN	22.97/24.8	34.74/37.09	20.17/21.52	29.03/31.19
STGCN	22.85/25.8	33.62/37.68	19.85/22.27	28.25/31.52
ASTGCN	21.69/23.14	33.72/36.11	17.67/19.11	27.59/30.27
AGCRN	18.72/19.74	30.65/32.57	15.00/16.58	23.69/26.19
AG-JNet	18.53/20.08	28.19/30.43	15.15/16.12	22.80/24.59

新窗口打开| 下载CSV

如表1所示为不同方法在PeMSD4和PeMSD8数据集上进行0.5 h和1 h交通流预测的性能对比. 结果表明，提出的AG-JNet模型综合表现最好. 1）以RMSE作为评价指标，AG-JNet在各个数据集上，无论是短时预测（30 min）还是长时预测（60 min），性能均优于其他方法. 2）以MAE作为评价指标，AG-JNet在PeMSD4数据集上短期预测（30 min）的效果相对最好，但在长期预测（60 min）中的效果略差于AGCRN；在PeMSD8数据集上，AG-JNet和AGCRN的表现相反，这可能是因为PeMSD4的数据量更大，以GRU为基础的AGCRN模型，在数据集充足的情况下能够更好地捕获到一些长期依赖信息，PeMSD8数据量相对较少，使用扩张卷积的AG-JNet能够更好地完成长期预测.

为了比较不同方法在预测不同时长时的性能情况，以每10 min为一间隔，在PeMSD4和PeMSD8数据集上预测未来10 min到1 h的流量情况. 如图6所示的实验结果表明：传统统计学方法HA已被深度学习方法拉开了差距. 最近几年，使用图卷积的几个方法（T-GCN、STGCN、ASTGCN）性能表现比较接近，其中ASTGCN综合表现最好. 随着预测时长的增加，性能表现最稳定，这得益于周期性因素的考虑和注意力机制的使用. 本文的AG-JNet和AGCRN模型的性能超过了其他方法，在MAE评价指标下，AG-JNet和AGCRN性能表现非常接近，互有胜负. 在RMSE评价指标下，AG-JNet模型击败了所有方法，性能表现最佳. 综上所述，AG-JNet在不同预测时长上的综合表现最好.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 相关方法在不同预测时长下的性能对比

Fig.6 Performance comparison of related methods under different forecasting time steps

3.4. 时间开销

为了减少计算资源的开销，模型的轻量化越来越被看重. 为了验证AG-JNet在时间开销上的优势，对各深度学习模型的规模及时间开销进行对比实验. 采用历史1 h数据，预测未来1 h交通流量，以PeMSD8作为训练数据，按6∶2∶2的比例划分数据集，在GPU为RTX2080 Ti的设备上进行实验. 实验结果如表2所示，RMSE作为性能参考. 表中，t_tr为每轮训练时间，t_t为测试时间.

表 2 不同交通流预测模型的时间开销对比

Tab.2 Time-consuming comparison of different traffic flow prediction models

模型	参数规模	t_tr /s	t_t /s	RMSE
T-GCN	13452	10.53	0.32	31.19
STGCN	99124	6.45	0.49	31.52
ASTGCN	560604	47.19	7.41	30.27
AGCRN	150112	24.15	3.32	26.19
AG-JNet	241079	18.27	1.84	24.59

新窗口打开| 下载CSV

从表2可以看出，基于RNN的模型（T-GCN、AGCRN）即使在参数量小的情况下训练时间比基于卷积的模型（STGCN、AG-JNet）长，这是因为RNN的每个单元输入都必须依赖于上一个单元的输出，限制了RNN的计算速度. STGCN是十分高效的网络，但由于结构相对简单，性能表现相对不足. ASTGCN由于参数量太大，导致训练时间和测试时间相对较长. AG-JNet虽然在参数量上相对AGCRN多，但训练时间和测试时间都相对较短，这得益于使用卷积代替RNN来捕获时间依赖. 从RMSE评价指标来看，AG-JNet模型在性能表现最好的情况下，时间开销相对较小.

3.5. 消融实验

为了通过消融实验验证我们模型各组件的作用，将模型分为以下5类.

1) AG-JNet-NGF：将AG-JNet中的门控融合改为普通的特征相加.

2) AG-JNet-NJ：在AG-JNet基础上去掉空间建模中的跳跃连接.

3) AG-JNet-GCN：将自适应图生成卷积改为一阶近似图卷积^[10].

4) AG-JNet-GCN-NJ：将自适应图生成卷积换成图卷积，去掉空间建模中的跳跃连接.

5) AG-JNet-NT：去掉原模型中的时间嵌入.

由此得到在PeMSD4上的消融实验结果，如图7所示. 实验结果表明，去掉门控融合（AG-JNet-NGF），模型在不同预测时长下的性能均有下降，验证了门控融合的有效性. 将自适应图生成卷积改为普通图卷积（AG-JNet-GCN），性能下降明显，表明自适应图生成卷积捕获到的节点之间的隐藏联系，对交通流预测的影响十分重要. 对比AG-JNet、AG-JNet-GCN和AG-JNet-NJ、AG-JNet-GCN-NJ可知，去掉跳跃连接后模型的性能均有一定程度的下降. 去掉时间嵌入（AG-JNet-NT），模型失去了周、天的周期性信息，性能下降. 从图7所示的整体结果来看，各模型在短期预测时性能差距不大，但随着预测时长的增加，带有自适应图生成卷积（AGGC）的模型和普通图卷积的模型在性能上差异明显，说明自适应图生成卷积在长期预测中的有效作用.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 消融实验结果

Fig.7 Results of ablation experiments

为了定量分析跳跃连接对平滑程度的影响，选取AG-JNet和AG-JNet-NJ在测试集上的预测结果，使用Liu等^[27]提出的平滑度量公式进行分析，公式如下：

(14) $ D\left( {{{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j}} \right) = \frac{1}{2}\left\| {\frac{{{{\boldsymbol{x}}_i}}}{{\left\| {{{\boldsymbol{x}}_i}} \right\|}} - \frac{{{{\boldsymbol{x}}_j}}}{{\left\| {{{\boldsymbol{x}}_j}} \right\|}}} \right\| , $

(15) $ {{\rm{SMV}}}_{i}=\frac{1}{n-1}\sum\limits_{j\in V,j\ne i}D\left({{\boldsymbol{x}}}_{i},{{\boldsymbol{x}}}_{j}\right) , $

(16) $ {{\rm{SMV}}}_{{\rm{G}}}=\frac{1}{n}\sum\limits_{i\in V}{{\rm{SMV}}}_{i} . $

式中： $ \left\| {\rm{\cdot}} \right\| $为L₂范数，V表示节点集合， $ {{\rm{SMV}}}_{i} $衡量节点i相对于整个图的相似度，SMV_G为整个图的平滑程度（值越小越平滑）. 应用式（16），可得如图8所示的实验结果.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 平滑度量的对比

Fig.8 Comparison of smoothness metric values

从图8可以看出，去掉跳跃连接后（AG-JNet-NJ）模型的平滑程度一般更高（值越小越平滑），这表明跳跃连接能够在一定程度上缓解过度平滑的问题. 交通流预测和节点分类存在很大的区别，交通流数据都是在某个固定区域内采集的，各节点之间存在很大的相似性，所以整体的平滑度较高，这是图8中SVM普遍较小的原因.

4. 结　语

本文提出相对轻量的自适应图生成跳跃网络（AG-JNet），该网络能够脱离图结构的束缚，自动学习节点之间相关性，通过跳跃连接堆叠的多层自适应图生成卷积（AGGC），使得模型能够学到更深层的隐藏信息而不会产生过度平滑的问题. 在2个真实高速公路流量数据集上的对比实验结果表明，该网络的预测效果相对于目前前沿的交通流预测方法，具有一定的竞争力. 由于不依赖固定的图结构，该网络能够更方便地迁移到其他处理时空数据的任务上，这将成为接下来的一项工作任务.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WILLIAMS B M, HOEL L A

Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results

[J]. Journal of Transportation Engineering, 2003, 129 (6): 664- 672

DOI:10.1061/(ASCE)0733-947X(2003)129:6(664) [本文引用: 1]

[2]

HAMED M M, AL-MASAEID H R, SAID Z M B

Short-term prediction of traffic volume in urban arterials

[J]. Journal of Transportation Engineering, 1995, 121 (3): 249- 254

DOI:10.1061/(ASCE)0733-947X(1995)121:3(249) [本文引用: 2]

[3]

ZIVOT E, WANG J. Vector autoregressive models for multivariate time series [M]// Modeling financial time series with S-PLUS®. New York: Springer, 2006: 385-429.

[本文引用: 1]

[4]

FU R, ZHANG Z, LI L. Using LSTM and GRU neural network methods for traffic flow prediction [C]// 2016 31st Youth Academic Annual Conference of Chinese Association of Automation. Wuhan: IEEE, 2016: 324-328.

[本文引用: 2]

[5]

LI Y, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1707.01926.pdf.

[本文引用: 1]

[6]

YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1709.04875.pdf.

[本文引用: 3]

[7]

GUO S, LIN Y, FENG N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii: AAAI, 2019: 922-929.

[本文引用: 4]

[8]

BAI L, YAO L, KANHERE S S, et al. Passenger demand forecasting with multi-task convolutional recurrent neural networks[C]// Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham: Springer, 2019: 29-42.

[本文引用: 1]

[9]

GENG X, LI Y, WANG L, et al. Spatiotemporal multi-graph convolution network for ride-hailing demand forecasting [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii: AAAI, 2019: 3656-3663.

[本文引用: 2]

[10]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1609.02907.pdf.

[本文引用: 3]

[11]

XU K, LI C, TIAN Y, et al. Representation learning on graphs with jumping knowledge networks [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1806.03536.pdf.

[本文引用: 2]

[12]

AHMED M S, COOK A R

Analysis of freeway traffic time-series data by using Box-Jenkins techniques

[J]. Transportation Research Record Journal of the Transportation Research Board, 1979, 773 (722): 1- 9

URL [本文引用: 1]

[13]

PARK D, RILETT L R

Forecasting freeway link travel times with a multilayer feedforward neural network

[J]. Computer-Aided Civil and Infrastructure Engineering, 1999, 14 (5): 357- 367

DOI:10.1111/0885-9507.00154 [本文引用: 1]

[14]

HUANG W, SONG G, HONG H, et al

Deep architecture for traffic flow prediction: deep belief networks with multitask learning

[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15 (5): 2191- 2201

DOI:10.1109/TITS.2014.2311123 [本文引用: 1]

[15]

WU Y, TAN H. Short-term traffic flow forecasting with spatial-temporal correlation in a hybrid deep learning framework [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1612.01022.pdf.

[本文引用: 1]

[16]

YU H, WU Z, WANG S, et al

Spatiotemporal recurrent convolutional networks for traffic prediction in transportation networks

[J]. Sensors, 2017, 17 (7): 1501

DOI:10.3390/s17071501 [本文引用: 1]

[17]

ZHAO L, SONG Y, ZHANG C, et al

T-gcn: a temporal graph convolutional network for traffic prediction

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (9): 3848- 3858

URL [本文引用: 2]

[18]

冯宁, 郭晟楠, 宋超, 等

面向交通流量预测的多组件时空图卷积网络

[J]. 软件学报, 2019, 30 (3): 759- 769

URL [本文引用: 1]

FENG Ning, GOU Sheng-nan, SONG Chao, et al

Multi-component spatial-temporal graph convolution networks for traffic flow forecasting

[J]. Journal of Software, 2019, 30 (3): 759- 769

URL [本文引用: 1]

[19]

ZHENG C, FAN X, WANG C, et al. Gman: a graph multi-attention network for traffic prediction [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 1234-1241.

[本文引用: 1]

[20]

CHEN W, CHEN L, XIE Y, et al. Multi-range attentive bicomponent graph convolutional network for traffic forecasting [EB/OL]. [2020-10-10]. https://arxiv.org/ftp/arxiv/papers/1911/1911.12093.pdf.

[本文引用: 1]

[21]

FANG S, ZHANG Q, MENG G, et al. GSTNet: Global spatial-temporal network for traffic flow prediction [C]// 28th International Joint Conference on Artificial Intelligence. Macao: Morgan Kaufmann, 2019: 2286-2293.

[本文引用: 1]

[22]

BAI L, YAO L, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/2007.02842.pdf.

[本文引用: 3]

[23]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

[24]

IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [2020-10-10]. https://arxiv.org/pdf/1502.03167.pdf.

[本文引用: 1]

[25]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

[26]

HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1026-1034.

[本文引用: 1]

[27]

LIU M, GAO H, JI S. Towards deeper graph neural networks [C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Virtual Event CA USA: ACM, 2020: 338-348.

[本文引用: 1]

Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results

2003

... 早期的交通流预测主要采用一些统计学方法，包括历史均值法（history average, HA）、自回归积分移动平均模型（autoregressive integrated moving average model, ARIMA）^[1-2]和向量自回归模型（vector autoregressive models, VAR）^[3]等. 这些早期的预测方法应用在高度复杂的交通流数据上效果不理想. 一些前沿方法采用循环神经网络（recurrent neural network, RNN）对交通流数据建模^[4]，但忽略了空间相关性. 为了提取到交通流数据的空间相关性，图卷积性能较好，但存在以下2个局限. ...

Short-term prediction of traffic volume in urban arterials

1995

... 一直以来，交通流预测都是一个热门的研究问题，许多研究者提出不同交通流预测的方法，并取得了一系列理论和应用研究成果. 交通流预测作为时序预测任务，早期研究者多采用基于统计学的时序模型. 较早的时序模型有HA，通过取历史时间段的平均值作为未来预测的结果，该方法虽然简单高效，但是预测效果较差. Box等提出ARIMA^[12]，该模型是目前使用最广泛的时序预测模型之一. Hamed等^[2]将ARIMA模型应用到城市交通流量预测上. ...

... 近年来，依托交通大数据的高速发展，深度学习在交通流预测上的应用越来越多. Park等^[13]使用前馈神经网络来实现交通流量预测. Huang等^[14]提出由深度信任网络（deep belief networks, DBN）和回归模型组成的网络体系，提高了交通预测的准确度. 由于RNN在序列任务上不错的表现，被广泛应用到交通流预测中^[4]. 单纯的RNN结构只能提取时间相关性，为了提取交通数据中的空间相关性，Wu等^[15-16]使用卷积神经网络（convolutional neural network, CNN）. ...

... 1）图卷积必须依赖于固定的图结构. 常用来确定图结构的方法有3种：a)通过2个不同节点之间的地理距离来确定^[5-6]；2)借助本身路段之间的连通性^[7]；3)通过节点之间的相似性来确定邻接关系^[8-9]. 有些方法为了提高模型的性能，考虑了多种图的结构^[9]，但人为预设的方法无法完全表示出节点之间的空间依赖关系，应用到不同数据时需要重新确定图的结构. ...

... 路网本身是拓扑图的结构，使用图卷积来捕获交通流数据的空间相关性更好. Zhao等^[17]提出时间图卷积网络（temporal graph convolutional network, T-GCN），使用图卷积结合门控循环单元（gate recurrent unit, GRU）来分别提取空间和时间特征. Yu等^[6]使用图卷积来提取空间特征，时间特征采用纯卷积的方式来提取，提出纯卷积的轻量时空网络. 冯宁等^[18]考虑到交通流数据的周期性，提出多组件时空图卷积网络（multi-component spatial-temporal graph convolution networks, MCSTGCN）；该网络分为3个组件，分别提取邻近、日、周的时间依赖特征. 为了提高模型的预测能力，注意力机制得到了大量的应用. Guo等^[7]在MCSTGCN的基础上，加入注意力机制，提高了网络的预测性能. Zheng等^[19]提出纯注意力的网络，对空间和时间相关性均采用注意力的方式建模，提出变换注意力机制，将历史交通特征转换为未来的表示，提高了网络长期预测的性能. Chen等^[20]考虑了边的关系，通过对边构建图来提取边的相关性，结合RNN和注意力机制完成对交通流数据的建模. 通常，图卷积只能捕获局部空间依赖，为了解决该问题，Fang等^[21]提出全局时空网络，该网络包含能够同时捕获长期依赖和短期依赖的时间模块以及能够同时捕获局部关联和全局关联的空间模块. Bai等^[22]将图卷积公式进行改进，使其脱离图结构和参数共享的限制，结合GRU提出自适应图卷积循环网络，提高预测的精度. ...

... 3) STGCN^[6]：用带门控的普通卷积提取时间依赖，用图卷积提取空间依赖. ...

... 为了评估该模型的表现能力，在2个真实数据集（PeMSD4、PeMSD8）^[7]上进行大量的对比实验. ...

... 4) ASTGCN^[7]：考虑周期性并加入注意力机制的时空网络，只考虑过去一周、一天及过去前一小时的情况. ...

... [9]，但人为预设的方法无法完全表示出节点之间的空间依赖关系，应用到不同数据时需要重新确定图的结构. ...

... 2）图卷积通常无法通过加深网络层次来进一步提取高层语义特征. 通常图卷积堆叠2到3层效果最佳^[10]，如果网络层次加深，那些比较密集的节点聚合的信息会趋于一致，从而产生过度平滑的问题^[11]. ...

... 最近交通预测上的工作都是依靠图卷积来捕获交通数据的空间相关性，根据Kipf等^[10]的研究可知，图卷积可以很好地一阶近似为 ...

... 3) AG-JNet-GCN：将自适应图生成卷积改为一阶近似图卷积^[10]. ...

... 从式(5)可以看出，图卷积的实质是聚合邻接节点的信息. 如图3所示，第1次图卷积节点3聚合了节点1、2、3、4、5的信息，第2次图卷积节点5聚合了节点3、5、6的信息，由于节点3已经聚合了自身一阶邻接信息，节点5聚合的信息包含了节点3的一阶邻接信息，即节点5聚合二阶邻接信息. 由此可知，图卷积堆叠几层，即聚合几阶邻接信息. 对于密集的节点，使用多层图卷积会导致各节点特征的同质化，产生过度平滑的问题. 以1、2、3这3个节点为例，经过2次图卷积后，每个节点都聚合了节点1、2、3的特征. 对于稀疏的节点，浅层图卷积不能有效地聚合足够的邻域信息^[11]. 为了解决该问题，在空间建模（SM）中堆叠多层图卷积，保证每个节点都能聚合到充足的邻域信息，同时添加层级跳跃连接，通过最大池化的方法进行层级聚合（layer aggregation, LayerAGG），使得每个节点自适应地聚合多阶邻接信息. 对于每个节点，最大池化为选取每层输出中的最大特征值，公式为 ...

Analysis of freeway traffic time-series data by using Box-Jenkins techniques

1979

Forecasting freeway link travel times with a multilayer feedforward neural network

1999

Deep architecture for traffic flow prediction: deep belief networks with multitask learning

2014

Spatiotemporal recurrent convolutional networks for traffic prediction in transportation networks

2017

T-gcn: a temporal graph convolutional network for traffic prediction

2019

... 2) T-GCN^[17]：结合图卷积和GRU的交通预测方法. ...

面向交通流量预测的多组件时空图卷积网络

2019

面向交通流量预测的多组件时空图卷积网络

2019

... 图卷积必须预先确定邻接矩阵A的值，应用到交通预测上需要根据经验提前确定各节点（路段）的邻接关系. 人为确定的邻接关系无法完全表示节点之间的隐藏关联，且应用到不同数据集上需要重新确定节点间的邻接关系. 为了解决这个限制，在空间建模（SM）中使用自适应图生成卷积^[22]（adaptive graph generation convolution, AGGC）来捕获空间相关性. AGGC初始化可学习的参数E∈R^N×M，通过EE^T∈R^N×N来推断出节点之间的空间依赖关系： ...

... 5) AGCRN^[22]：提出自适应图卷积，结合GRU实现对交通流的预测. ...

... 自适应图生成跳跃网络主要分为3个部分：输入层、时空建模层、输出层. 如图1所示，经过预处理的交通历史数据X∈R^h×N×F经过输入卷积层，将原始数据的特征F扩充到D维. 经过2层时空模块（spatial-temporal block, STBlock）充分捕获交通数据的时空依赖，在2个时空模块中添加残差连接^[23]，增强模型的学习能力. 经过输出卷积层，将特征数D压缩到1维信息（交通流量），即Y∈R^p×N×1. ...

... 输入输出卷积层的作用是扩维和降维，为了防止信息的丢失，每个卷积层采用2个1×1卷积，中间采用批归一化（batch normalization, BN）^[24]和ReLU激活函数，以加快网络的训练. ...

... 近几年的交通流量预测方法都考虑到交通数据的时空相关性，但大部分忽略了交通数据多个特征之间的关联性. 不同特征对交通流预测的影响程度是不同的，对于交通数据的初始特征，直观上历史的流量和速度特征相对于占有率对交通流预测的影响更大，故在时空模块中引入特征注意力（FA）. 如图2的FA，借助卷积神经网络中的SE（squeeze-and-excitation）模块^[25]思想，将输入数据X∈R^h×N×F沿F维进行全局平均池化（global average pooling, GAP）. 经过2层全连接层得到各特征的注意力系数，将注意力系数分配到各特征上，公式为 ...

... 使用Pytorch搭建AG-JNet，在GPU为RTX2080 Ti的设备上进行实验. 超参数设置包括：输入卷积层特征扩充的维度D=64，空间建模（SM）网络层数和时间建模（TM）中网络层数为4，且扩张卷积的扩张率统一设为2，时间嵌入中网络层数为3. 初始化方法统一采用Kaiming初始化^[26]，包括式（7）的参数E. 在训练中，学习率设为0.001，批次大小为64，使用均方误差（mean square error, MSE）作为损失函数，用Adam优化器进行优化. 模型将被迭代训练100次，取验证集效果最好的一次作为最终的模型参数. ...

... 为了定量分析跳跃连接对平滑程度的影响，选取AG-JNet和AG-JNet-NJ在测试集上的预测结果，使用Liu等^[27]提出的平滑度量公式进行分析，公式如下： ...

〈

〉