<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 PEMS04数据集上的交通流时间异质性

Fig.1 Temporal heterogeneity of traffic flow in PEMS04 dataset

图 2

图 2 PEMS04数据集上的交通流空间异质性

Fig.2 Spatial heterogeneity of traffic flow in PEMS04 dataset

时空幻影现象与交通流预测序列的长度关系密切. 如图3所示，传感器215和279在2018年1月7日至8日有部分历史数据相似，紧接着的未来短期交通流量显著不同，这段短期且明显不同的交通流量在新的未来又呈现相似的交通流. 这说明，依赖短周期的时间序列无法捕获时空异质性，未能全面描绘交通流长期时空内在复杂性. 时间异质性和空间异质性各有特点，交通流网络数据呈现多变量时空数据集的混沌状态，这一现象称为时空异质交互性，如图4所示，其中n_v为车辆数. 单独表述时间异质性和空间异质性不能充分挖掘时空数据集完整的异质性，为此本研究提出新的模块来融合时空特性.

图 3

图 3 PEMS04数据集上2018年1月8日的时空幻影现象

Fig.3 Spatiotemporal mirage phenomenon in PEMS04 dataset on January 8, 2018

图 4

图 4 PEMS04数据集的局部时空异质交互性

Fig.4 Local spatiotemporal heterogeneous interactivity of PEMS04 dataset

2. 预训练长短时空交错Transformer

如图5所示，PLSSIFormer由预训练长时空Transformer模块(pre-training long spatiotemporal Transformer, PLST)、时空交错模块(time and space interleave, TSI)和短时空循环Transformer模块(short time and space looping transformer, STSLT)构成. 在自监督预训练阶段，在预训练长时空分支中，由空间掩码和时间掩码获得的交通流空间和长期时间异质性预训练权重分别包含空间节点和时间序列的交通流数据特性. 在全监督阶段，将长期时空分支中通过自监督训练的权重加载到PLSSIFormer的预训练长时空分支中，获得空间重建和时间重建. 在数据集PEMS03、PEMS04、PEMS07、METR-LA、PEMS-BAY中，长时空输入的时间步长$T_{\text{L}}$=864；在数据集PEMS08中，$T_{\text{L}}$=2 016. 空间重建和时间重建进行通道拼接，经过裁剪、截断和转置，在空间分支和时间分支重新梳理各自维度的特征，在末端交互时空异质性. $T_{\text{S}}$为短期时空输入的时间步长，将$T_{\text{S}}$=12输入STSLT，获得短期交通流时空特征表现. STSLT的时空特征在时空异质交互性下指导并重建编码输出$ {\boldsymbol{X}}_{\text{en}} \in {{\bf{R}}^{{B} \times C \times N \times L}} $，其中$ B $为每次迭代的批量大小，$C$=256，$L$=1. $\hat T_{\text{s}}$为未来短期时间步长，$ {\boldsymbol{X}}_{\text{en}} $在解码器中重建$\hat T_{\text{s}}$的交通流网络，解码器由2个Relu激活函数和2个核为1且步长为1的2D卷积构成. 第一个2D卷积的输出通道为512，末尾预测的2D卷积输出通道为12. $ {\boldsymbol{X}}_{\text{en}} $经过Relu激活函数、第一个2D卷积、Relu激活函数、末尾预测的2D卷积转置和降维，输出PLSSIFormer的最终预测序列$ \hat {\boldsymbol{S}}_{\text{de}} \in {{\bf{R}}^{B \times N \times L}}. $

图 5

图 5 预训练长短时空交错Transformer模型框架

Fig.5 Pre-trained long-short spatiotemporal interleaved Transformer model framework

2.1. 预训练长时空Transformer模块

在自监督阶段，空间掩码和时间掩码进行辅助任务训练，获得交通流网络在空间和时间异质性的预训练权重. 在全监督阶段，将权重分别加载到预训练长时空分支，再次针对时空预测任务进行训练. $T_{\text{L}}$通常为几天，输入具有相似结构的预训练长时间和广空间分支，长时间分支应用自注意力机制在时间维度上，广空间分支应用自注意力机制在空间维度上. 采用块嵌入^[24]解决由$T_{\text{L}}$直接输入模型引起的计算复杂度大和内存占用过高的问题，为此将长时空时间步长分离成无重叠的块$ T_{\text{P}} $，$ T_{\text{P}} = T_{\text{L}}/P_{\text{S}} $，其中块窗口尺寸$ P_{\text{S}} $= 12. 块嵌入通过2D卷积实现，嵌入维度输出通道$D_{\text{em}}$=96，卷积核为$12 \times 1$，步长为$12 \times 1$. 长时空输入$ {\boldsymbol{X}}_{\text{LL}} \in {{\bf{R}}^{B \times L \times N \times C}} $，经过转置、扩维和降维，得到$ {\boldsymbol{X}}'_{\text{LL}} \in {{\bf{R}}^{{N} \times C \times L \times B}} $，经过块嵌入和转置，得到交通流网络的块嵌入$ {\boldsymbol{E}}_{\text{p}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $. 空间和时间拥有共同的位置编码信息，将2个维度的编码信息^[25]输入块嵌入$ {\boldsymbol{E}}_{\text{p}} $，时空位置编码$ {\boldsymbol{E}}_{\text{pos}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $的计算式为

(4)$ \left. \begin{gathered} {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2i} \right) = \sin \;(t/{10\;000^{4i/D_{\text{em}}}}) , \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2i+1} \right) = \cos\; (t/{10\;000^{4i/D_{\text{em}}}}), \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2j+D_{\text{em}}/2} \right) = \sin \;(n/{10\;000^{4j/D_{\text{em}}}}) , \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2j+1+D_{\text{em}}/2} \right) = \cos \;(n/{10\;000^{4j/D_{\text{em}}}}). \\ \end{gathered} \right\} $

式中：d(·)为特定时间索引或位置索引相关的编码值，$ n $为样本编号，$ t $为时间索引，$ i $、$ j $均为位置索引. 选择正弦位置编码而不是学习位置编码的原因：正弦位置编码可以处理任意长度的输入. 将$ {\boldsymbol{E}}_{\text{p}} $和$ {\boldsymbol{E}}_{\text{pos}} $相加，得到最终的输入嵌入$ {\boldsymbol{E}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $. 如图6所示，$ {\boldsymbol{E}} $作为Transformer编码器层的输入，一条路径对$D_{\text{em}}$作平方处理，与嵌入$ {\boldsymbol{E}} $作矩阵点积运算，经过形变和转置，获得Transformer输入序列$ {\boldsymbol{X}}_{\text{TSI}} \in {{\bf{R}}^{T_p \times B N \times D_{{\mathrm{em}}}}} $. $ {\boldsymbol{X}}_{\text{TSI}} $经过多头自注意力（多头设置为4），每个相同的序列经过自注意力，建立长范围依赖. 将多个自注意力的序列在$D_{\text{em}}$进行拼接，获得多头注意力$ {{\boldsymbol{X}}_{{\mathrm{MS}}}} \in {{\bf{R}}^{T_p \times B N \times 4D_{{\mathrm{em}}}}} $，同时建立序列的全局依赖关系. $ {\boldsymbol{X}}_{\text{MS}} $经过线性层将$4D_{\text{em}}$映射成为$D_{\text{em}}$，再与Transformer输入序列$ {\boldsymbol{X}}_{\text{TSI}} $进行残差相加，经过层归一化，获得$ {\boldsymbol{X}}_{\text{MSL}} \in {{\bf{R}}^{{T_p} \times B N \times D_{{\mathrm{em}}}}} $. 前馈网络由2个线性层和1个Relu激活函数组成，线性层进行4倍映射. 层归一化$ {\boldsymbol{X}}_{\text{MSL}} $经过前馈网络强化位置信息的表示和特征的提取，使得模型能够更好地捕获输入序列的全局依赖性，获得的结果再次与$ {\boldsymbol{X}}_{\text{MSL}} $权重相加，得到Transformer编码输出序列$ {\boldsymbol{X}}_{\text{TSO}} \in{{\bf{R}}^{T_{\text{p}} \times B N \times D_{\text{em}}}} $. Transformer编码共有6层，长期序列经过6个这样的结构，再经转置和扩维，获得Transformer编码器层的输出$\hat {\boldsymbol{Q}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}}$. 在全监督阶段，预训练长时间分支和广空间分支分别加载了自监督训练的时空异质性权重，经过训练后，获得时间重建${{\boldsymbol{\hat Q}}^{{\boldsymbol{T}}}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}}$和空间重建${{\boldsymbol{\hat Q}}^{{\boldsymbol{S}}}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}}，$分别实现了交通流网络长期时间序列的依赖关系和交通流网络传感器节点间的全局依赖关系.

图 6

图 6 预训练长时空Transformer编码层框架

Fig.6 Pre-trained long spatiotemporal Transformer encoder layer framework

2.2. 时空交错模块

如图7所示，时空交错模块实现时空异质性在时间和空间上相互交错，产生长期时间和空间内容的相互联系. 分别在时间和空间模块，重建交通流网络长期时间主导的时空内容和广阔空间主导的时空内容. 通过通道拼接时间和空间重建，获得时空交错输入$ {\boldsymbol{X}}_{\text{LST}} \in [{{\boldsymbol{\hat Q}}^{{\boldsymbol{S}}}},{{\boldsymbol{\hat Q}}^{{\boldsymbol{T}}}}] \in {{\bf{R}}^{B \times N \times T_{\text{p}} \times 2D_{\text{em}}}} ，$$ {\boldsymbol{X}}_{\text{LST}} $经过裁剪、截断和转置处理后，获得交错时空输入$ {\boldsymbol{X}}_{\text{IST}} \in {{\bf{R}}^{B \times N \times D_{\text{em}}}} $. 时间分支由2个卷积和2个Relu激活函数构成，卷积核与步长均为1，第一个卷积输出维度为512，第二个卷积输出维度为256. 时间分支与空间分支结构类似. 交错时空输入$ {\boldsymbol{X}}_{\text{IST}} $经过时间分支，转置和扩维处理获得长期时间$ {{\boldsymbol{X}}_{{\mathrm{LT}}}} \in {{\bf{R}}^{B \times C \times N \times 1}} $, 其中C=256. 类似的，获得广范围的空间$ {\boldsymbol{X}}_{\text{LS}} \in {{\bf{R}}^{B \times C \times N \times 1}} $. 将长期时间$ {\boldsymbol{X}}_{\text{LT}} $和广范围空间$ {\boldsymbol{X}}_{\text{LS}} $的权重相加，获得时间和空间在内容上交互的异质性，指导短期时空特征更好地重建未来短期交通流序列.

图 7

图 7 时空交错模块框架

Fig.7 Spatiotemporal interleaved module framework

2.3. 短时空循环Transformer模块

短时空循环Transformer循环捕获短期时间片上路网的全局信息，逐步循环压缩提取独特的短期时空特征，直至压缩到一张时间片上. 这张时间片上有该短期时空序列的独有特征，如图8所示. $ {\boldsymbol{X}}_{\text{S}} \in {{\bf{R}}^{{B} \times L \times N \times C}} $，其中$L$在短期时间步长为12，经过转置、裁剪、截断以及1个输出通道为32，核为1的$2D$卷积，获得自循环Transformer输入$ {\boldsymbol{X}}_{\text{CTSI}} \in {{\bf{R}}^{B \times C \times N \times L}} $，其中$L$=13，$C$=32. 自循环Transformer由2个部分构成：过滤卷积模块和Transformer层，其中Transformer层由自注意力和前馈网络组成. $ {\boldsymbol{X}}_{\text{CTSI}} $经过滤卷积模块，实现对$ {\boldsymbol{X}}_{\text{CTSI}} $的$L$降维，在循环过程中$L$依此变为12、10、9、7、6、4、3和1. 当$L$维度为奇数次时，$ {\boldsymbol{X}}_{\text{CTSI}} $输入送往输出通道为32且核为$1 \times 2$的$2{\text{D}}$卷积；当$L$维度为偶数次时，$ {\boldsymbol{X}}_{\text{CTSI}} $输入送往输出通道为32，核为$1 \times 2$且空洞率为$2 \times 2$的$2{\text{D}}$空洞卷积. 无论奇偶次，均由Tanh激活函数进行非线性变化，从而获得交通流激活特征图$ {\boldsymbol{X}}_{\text{CTST}} \in {{\bf{R}}^{B \times C \times N \times L}} $. $ {\boldsymbol{X}}_{\text{CTST}} $经过转置和形变，转为序列$ {\boldsymbol{S}}_{\text{CTSI}} \in {{\bf{R}}^{B \times C L \times N}} $后被输入自注意力机制. 自注意力机制将序列$ {\boldsymbol{S}}_{\text{CTSI}} $分别经过3个线性层，获得查询Q、键K、值V. 线性层在$H$维进行线性变化，3个线性层输入通道为${C_H}$，多头nh=8，局部序列尺寸大小为${{\mathrm{ds}}} = N//{\mathrm{nh}}$，输出通道为${{\mathrm{ds}}} \times {\mathrm{nh}}$. 查询、键、值经过形变分别获得$ {\boldsymbol{X}}_{\text{q}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $、$ {\boldsymbol{X}}_{\text{k}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $、$ {\boldsymbol{X}}_{\text{v}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $. 首先实现查询与键计算， $ {\boldsymbol{X}}_{\text{q}} $与$ {\boldsymbol{X}}_{\text{k}} $经过置换获得 $ {\boldsymbol{X}}_{\text{qz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} {L} \times {{\mathrm{ds}}} }} $与$ {\boldsymbol{X}}_{\text{kz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} \times {C} {L} }} $，此时$ {\boldsymbol{X}}_{\text{qz}} $与 $ {\boldsymbol{X}}_{\text{kz}} $相乘获得 $ {\boldsymbol{X}}_{\text{SCO}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} L \times {C} L}}， $${Y} = \sqrt {{\mathrm{ds}}} $,$ {\boldsymbol{X}}_{\text{SCO}} $与${Y} $进行点积运算，之后经过softmax激活函数，在最后一个维度实现多分类，得到激活图$ {\boldsymbol{X}}_{\text{SOFT}} \in {{\bf{R}}^{{B} \times {{{\mathrm{nh}}}} \times {C} L \times {C} L}} $. 查询与键计算结果与值完成自注意力计算，$ {\boldsymbol{X}}_{\text{v}} $经过置换获得$ {\boldsymbol{X}}_{\text{vz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} L \times {{\mathrm{ds}}} }} $，$ {\boldsymbol{X}}_{\text{SOFT}} $与$ {\boldsymbol{X}}_{\text{vz}} $实现自注意力计算，经过置换获得自注意力输出结果$ {\boldsymbol{X}}_{\text{SF}} \in {{\bf{R}}^{{B} \times {C} L \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $. $ {\boldsymbol{X}}_{\text{SF}} $经过调整，送往前馈网络实现增强短期序列特征提取和短时空全局依赖建立. $ {\boldsymbol{X}}_{\text{SF}} $将${{\mathrm{ds}}} \times {\mathrm{nh}}$做乘法，在线性层恢复$N$个节点输出，得到序列$ {\boldsymbol{S}}_{\text{qkv}} \in {{\bf{R}}^{{B} \times {C} L \times {N} }} $. 序列$ {\boldsymbol{S}}_{\text{qkv}} $经过值为0.1的随机失活，再次与序列$ {\boldsymbol{S}}_{\text{qkv}} $相加，所得结果送往层归一化，得到归一化序列$ {\boldsymbol{S}}_{\text{LNS}} \in {{\bf{R}}^{B \times C L \times N}} $. $CL$为通道与时间序列步长的乘积，$ {{\boldsymbol{S}}_{{\mathrm{LNS}}}} $经过置换将$CL$与$N$维度交换，结果在核和步长都为1的$1{\text{D}}$卷积后将$N$=2 048输出，经过Gelu激活函数，值为0.1的随机失活和核及步长都为1的$1{\text{D}}$卷积将2048输出还原为$N$个节点值，经过置换交换$CL$与$N$维度，在Gelu激活函数进行非线性变化，获得前馈网络输出结果$ {\boldsymbol{S}}_{\text{FFP}} \in {{\bf{R}}^{B \times C L \times N}} $. $ {\boldsymbol{S}}_{\text{LNS}} $与$ {\boldsymbol{S}}_{\text{FFP}} $相加，经过层归一化获得Transformer层的序列输出$ {\boldsymbol{S}}_{\text{CTSO}} \in {{\bf{R}}^{{B} \times {C} {L} \times {N} }} $. $ {\boldsymbol{S}}_{\text{CTSO}} $再次输入下个Transformer层，经过层归一化，将CL维度形变为C与$L$，经过转置交换$L$与$N$维度，所得结果与$ {\boldsymbol{X}}_{\text{CTST}} $进行权重相加，最后经过批量归一化，获得循环Transformer的输出$ {\boldsymbol{X}}_{\text{RTSO}} \in {{\bf{R}}^{B \times C \times N \times L}} $. $ {\boldsymbol{X}}_{\text{RTSO}} $送往自循环Transformer进行8次循环，在最后一次循环时，$ {\boldsymbol{X}}_{\text{CTST}} $经过核与步长均为1、输出通道为256的卷积跳出，得到整个短时空自循环Transformer的输出.

图 8

图 8 短时空循环Transformer模块

Fig.8 Short spatiotemporal recurrent transformer module

3. 实验设计与结果分析

3.1. 基准数据集

在6个标准、公开的真实世界时空数据集上评估PLSSIFormer，数据集的相关参数如表1所示. 表中，N为传感器总数，T_DS为采样周期，N_DS为样本数，t_ds为采样天数. 数据集的原始数据由传感器以5 min的采样间隔进行连续采样得到. 交通速度数据集METR-LA的数据取自洛杉矶县公路网络上设置的环形检测器，交通速度数据集PEMS-BAY的数据源于加利福尼亚州交通局的绩效测量系统. 采用Z-score归一化对原始数据进行预处理. Z-score标准化技术被用来统一多变量序列数据的量纲，它将各特征转化为均值为0、标准差为1的标准正态分布形式，以此达到量纲统一的目的，减轻了某些特征对模型训练可能产生的过大干扰效应，在加快模型收敛速度的同时增强了模型效能. 该方法促进优化算法快速收敛的原因：经过标准化处理后的数据呈均匀分布，有利于梯度下降过程高效运行. 此外，削弱模型中各特征的依赖性，能够促进特征间关系的有效学习，进一步提升预测的精确度. 本研究采用的公开数据集，已严格按标准流程预处理，无异常值与缺失值.

表 1 时空基准数据集的描述

Tab.1 Descriptions of spatiotemporal benchmark datasets

数据集	N	T_DS/min	N_DS	采样日期	t_ds/d
PEMS03	358	5	26208	2018年9月—11月	91
PEMS04	307	5	16992	2018年1月—2月	59
PEMS07	883	5	28224	2017年5月—8月	123
PEMS08	170	5	17856	2016年7月—8月	62
METR-LA	207	5	34272	2012年3月—6月	123
PEMS-BAY	325	5	52116	2017年1月—5月	62

新窗口打开| 下载CSV

3.2. 实验设置

与Li等^[26]的工作方法保持一致，将数据集PEMS03、PEMS04、PEMS07和PEMS08的训练、验证和测试集样本按照6∶2∶2划分. 数据集METR-LA和PEMS-BAY的训练、验证和测试集样本按照7∶2∶1进行划分. 在预训练过程中，PEMS03、 PEMS04、PEMS07、METR-LA和PEMS-BAY的$ T_{\text{L}} $=864，PEMS08的$ T_{\text{L}} $=2016. 使用历史数据中1 h，预测数据中未来的1 h，预测未来即本研究设置输入的时间步长$ T_{\text{in}} $和输出的时间步长$ T_{\text{out}} $均为12. 嵌入维度$D_{\text{em}}$=96，编码器有6个Tranformer层，设置多头注意力的头为4，$ P_{\text{P}} $=12与预测输入一致. 优化器使用Adam，初始学习率设置为0.001. 损失函数评估指标采用平均绝对误差损失.

实验过程硬件环境：GPU为RTX 3090，CPU为14 vCPU Intel(R) Xeon(R) Platinum 8362 CPU，内存为45 GB，固态内存为50 GB. 操作系统为Linux，操作系统版本为Ubuntu 20.04.4. 软件环境为Python3.9，PyTorch版本号为1.13.0.

3.3. 评价指标

评估模型性能和训练程度的指标为平均绝对误差MAE、均方根误差 RMSE和平均绝对百分比误差MAPE，计算式分别为

(5)$ {{{\text{MAE}}}} = \frac{1}{S}{\sum\limits_{s = 1}^S {|\hat y} _s} - {y_s}| , $

(6)$ {{{\text{RMSE}}}} = \sqrt {{{\left( {{{\hat y}_s} - {y_s}} \right)}^2}/S}, $

(7)$ {{{\text{MAPE}}}} = \frac{{100{\text{%}} }}{S}\sum\limits_{s = 1}^S \left|\frac{{{{\hat y}_s} - {y_s}}}{{{y_s}}} \right| .$

式中：$S$为预测值的数量，${\hat y_s}$为第$s$个未来预测值，${y_s}$为真实观测值.

3.4. 基准模型

将PLSSIFormer与经典的交通流预测模型和先进的交通流预测模型进行比较. 对比模型包括基于传统时间序列预测的ARIMA、SVR模型，基于RNN的LSTM、DCRNN模型，基于图卷积的AGCRN^[10]、STGCN^[11]、GWNet^[12]、STSFGACN^[17] 、ASTGCN^[27]、DSTAGNN ^[28]、ASTGNN^[29]和 ADMSTNODE^[30]模型. 所提模型属于Transformer系列，因此将原始Transformer^[18]纳入对比模型.

3.5. 实验结果与分析

3.5.1. 对比实验

如表2所示，在4个交通流标准数据集上对比不同交通流预测模型的性能. 相比传统的时间序列模型，PLSSIFormer4个数据集的MAE和RMSE平均降低了9.75、10.46，MAPE平均降低了6.09个百分点，该结果验证了深度学习方法在交通流预测方面的有效性. 基于RNN序列的模型，能够更好地捕获时间维度上时空信息，PLSSIFormer与该系列先进模型相比，4个数据集上的MAE和RMSE平均降低了0.74、0.93，MAPE平均降低了0.46个百分点，验证了模型关注时间维度的重要性，说明所提模型能够借助长短时间维度捕获时间异质性. 基于图卷积的模型在空间维度上能够更好捕获网络节点间的关系，PLSSIFormer与该系列先进模型相比，4个数据集上的MAE和RMSE平均降低了1.14、1.33，MAPE平均降低了0.70个百分点，验证了空间维度信息的重要性，所提模型借助广阔空间分支捕获空间异质性，匹配短期时空特征，映射未来时间维度上对应的交通流. PLSSIFormer改进了Transformer系列，MAE和RMSE平均降低了4.81、6.61，MAPE平均降低了3.23个百分点，验证了该网络由Transformer编码器借助长期时空异质交互性指导短期特征映射恰当的未来交通网络流量的能力.

表 2 不同交通流预测模型在4个交通流标准数据集上的性能对比

Tab.2 Performance comparison of different traffic flow prediction models in four traffic flow benchmark datasets

模型	PEMS03数据集			PEMS04数据集			PEMS07数据集			PEMS08数据集
模型	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%
ARIMA^[2]	35.31	47.59	33.78	33.73	48.80	24.18	38.17	59.27	19.46	31.09	44.32	22.73
Transformer^[18]	17.50	30.24	16.80	23.83	37.19	15.57	26.80	42.95	12.11	18.52	28.68	13.66
DCRNN^[8]	18.18	30.31	18.91	24.70	38.12	17.12	25.30	38.58	11.66	17.86	27.83	11.45
STGCN^[11]	17.49	30.12	17.15	22.70	35.55	14.59	25.38	38.78	11.08	18.02	27.83	11.40
GWNet^[12]	19.85	32.94	19.31	25.45	39.70	17.29	26.85	42.78	12.12	19.13	31.05	12.68
SVR^[3]	21.97	35.29	21.51	28.70	44.56	19.20	32.49	50.22	14.26	23.25	36.16	14.64
LSTM^[6]	21.33	35.11	23.33	27.14	41.59	18.20	29.98	45.84	13.20	22.20	34.06	14.20
AGCRN^[10]	16.06	28.49	15.85	19.83	32.26	12.97	21.29	35.12	8.97	15.95	25.22	10.09
ASTGNN^[29]	15.07	26.88	15.80	19.26	31.16	12.65	22.23	35.95	9.25	15.98	25.67	9.97
DSTAGNN^[28]	15.57	27.21	14.68	19.30	31.46	12.70	21.42	34.51	9.01	15.67	24.77	9.94
STSFGACN^[17]	14.98	26.24	14.07	19.14	31.64	12.56	20.61	33.84	8.73	15.14	24.61	10.63
ADMSTNODE^[30]	15.47	26.76	15.59	19.28	31.25	12.68	21.40	34.44	9.02	15.58	25.09	9.92
PLSSIFormer	14.67	26.36	14.92	18.11	29.51	12.22	20.29	33.39	8.62	14.35	23.37	9.48

新窗口打开| 下载CSV

3.5.2. 交通流数据集不同时间步长预测对比

对比不同交通流预测模型在数据集PEMS04、PEMS08上不同步长的预测性能，其中短期预测输入的序列为12，时间步长为2、4、6、8、10、12，结果如图9所示. 可以看出，PLSSIFormer在2个数据集不同步长下，预测性能评价指标数值均低于做对比的6种先进模型，说明本研究所提模型在同领域有较高的预测精度. 还可以看出，PLSSIFormer曲线倾斜度最低，即在6个时间步长下，模型在同一数据集相同的评价指标结果变化不大，说明该模型具有较好的稳定性.

图 9

图 9 不同模型在2个交通流标准数据集上的多步预测结果对比

Fig.9 Comparison of multi-step prediction results of different models in two traffic flow benchmark datasets

3.5.3. 交通速度数据集不同时间步长预测对比

在数据集METR-LA和PEMS-BAY上对比不同预测模型在3个时间步长的预测性能，结果展示如图10所示. 可以看出，PLSSIFormer的3个评价指标数值均低于比较模型. 该结果一方面说明本研究所提模型具有较好的预测性能，另一方面说明该模型具有较强的泛化能力，在交通速度数据集上有极好的预测表现.

图 10

图 10 不同模型在交通速度数据集上的预测性能对比

Fig.10 Predictive performance comparison of different models in traffic speed datasets

3.5.4. 消融研究

为了评估所提模型的核心组件对预测结果的贡献力，在PEMS04和PEMS08数据集上进行消融实验，每个实验进行300轮，结果如表3所示. 表中，基准组件是指将短时空循环Transformer和预训练长时空交互模块从所提模型中移除，STSLT表示在基准组件中添加短时空循环Transformer模块，PLST+TSI表示在基准组件中添加预训练长时空交互模块. 由表可知，2个数据集的基准组件在MAE和RMSE平均值分别为25.72、39.54，MAPE平均值为0.1785%，STSLT在MAE和RMSE平均降低了6.76、9.13，MAPE平均降低了5.7个百分点，验证了STSLT产生的短期唯一时空特征有效. PLST+TSI虽然MAE和RMSE平均降低了6.69、5.89，MAPE平均降低了4.59个百分点，但是在PEMS08上PLST+TSI实验结果显示预测精度评价指标数值有所上升，说明在PEMS08上PLST+TSI对时空异质交互性捕获能力一般，也说明该模块在时空异质交互性捕获中的重要性. PLSSIFormer相比STSLT，MAE和RMSE分别平均降低了2.72、3.97，MAPE平均降低了1.32个百分点；相比PLST+TSI，MAE和RMSE分别平均降低2.80、7.21，MAPE平均降低了2.42个百分点，充分说明了在PLST 和 TSI指导下，STSLT能更好地借助长期时空异质交互性重建未来短期交通流网络，PLSSIFormer模型具有较好的预测精度.

表 3 所提模型的模块消融实验

Tab.3 Modular ablation experiments for proposed model

模块	PEMS04数据集			PEMS08数据集
模块	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%
基准组件	28.6462	44.0382	0.2083	22.7924	35.0491	0.1487
STSLT	20.2940	32.9538	0.1361	17.6227	27.8739	0.1072
PLST+TSI	19.7691	29.8048	0.1254	19.7691	37.5002	0.1399
PLSSIFormer	18.1156	29.5141	0.1222	14.3594	23.3737	0.0940

新窗口打开| 下载CSV

4. 结　语

本研究探索交通流网络中时空异质交互性，提出基于Transformer和自监督预训练与全监督训练框架的交通流预测方法，时空异质性经由本研究设计的时空交互模块成为长期时空异质交互性. 提出短时空循环Transformer模块，在时空维度上循环压缩提取短期时空序列得到独一无二的短期时空特征，在长期时空异质交互性指导下，该短期时空特征沿着时空线在未来映射准确的短期交通流. 通过同步长下不同数据集预测精度对比、相同数据集不同时间步长下预测精度对比、消融实验验证了所提模型的有效性和稳定性. 未来将持续挖掘和重建时空异质交互性，将所提模型应用于诸如天气、电力和股票预测等领域.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

TEDJOPURNOMO D A, BAO Z, ZHENG B, et al

A survey on modern deep neural network for traffic prediction: trends, methods and challenges

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34 (4): 1544- 1561

[2]

KUMAR S V, VANAJAKSHI L

Short-term traffic flow prediction using seasonal ARIMA model with limited input data

[J]. European Transport Research Review, 2015, 7 (3): 21

DOI:10.1007/s12544-015-0170-8 [本文引用: 2]

[3]

CASTRO-NETO M, JEONG Y S, JEONG M K, et al

Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions

[J]. Expert Systems with Applications, 2009, 36 (3): 6164- 6173

DOI:10.1016/j.eswa.2008.07.069 [本文引用: 2]

[4]

ZHANG J, ZHENG Y, QI D

Deep spatio-temporal residual networks for citywide crowd flows prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2017, 31 (1): 1655- 1661

DOI:10.1609/aaai.v33i01.33015668 [本文引用: 1]

[5]

YAO H, TANG X, WEI H, et al

Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33 (1): 5668- 5675

[6]

SHI X, CHEN Z, WANG H, et al. Convolutional LSTM network [C]// Proceedings of the 29th International Conference on Neural Information Processing Systems - Volume 1 . Montreal: ACM, 2015: 802–810.

[本文引用: 2]

[7]

YAO H, WU F, KE J, et al

Deep multi-view spatial-temporal network for taxi demand prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32 (1): 2588- 2595

[8]

LI Y, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting [EB/OL]. (2018–02–22)[2024–07–23]. https://arxiv.org/pdf/1707.01926.

[本文引用: 2]

[9]

LIN H, BAI R, JIA W, et al. Preserving dynamic attention for long-term spatial-temporal prediction [C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . [S. l.]: ACM, 2020: 36–46.

[10]

BAI L, YAO L, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems . Vancouver: ACM, 2020: 17804–17815.

[11]

YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting [C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence . Stockholm: IJCAI, 2018: 3634–3640.

[12]

WU Z, PAN S, LONG G, et al. Graph WaveNet for deep spatial-temporal graph modeling [C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence . Macao: IJCAI, 2019: 1907−1913.

[13]

CHOI J, CHOI H, HWANG J, et al

Graph neural controlled differential equations for traffic forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36 (6): 6367- 6374

DOI:10.1609/aaai.v36i6.20587 [本文引用: 1]

[14]

黄靖, 钟书远, 文元桥, 等

用于交通流预测的自适应图生成跳跃网络

[J]. 浙江大学学报: 工学版, 2021, 55 (10): 1825- 1833

HUANG Jing, ZHONG Shuyuan, WEN Yuanqiao, et al

Adaptive graph generation jump network for traffic flow prediction

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (10): 1825- 1833

[15]

贺文武, 裴博彧, 李雅婷, 等

基于双向自适应门控图卷积网络的交通流预测

[J]. 交通运输系统工程与信息, 2023, 23 (1): 187- 197

HE Wenwu, PEI Boyu, LI Yating, et al

Traffic flow forecasting based on bi-directional adaptive gating graph convolutional networks

[J]. Journal of Transportation Systems Engineering and Information Technology, 2023, 23 (1): 187- 197

[16]

闫旭, 范晓亮, 郑传潘, 等

基于图卷积神经网络的城市交通态势预测算法

[J]. 浙江大学学报: 工学版, 2020, 54 (6): 1147- 1155

YAN Xu, FAN Xiaoliang, ZHENG Chuanpan, et al

Urban traffic flow prediction algorithm based on graph convolutional neural networks

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (6): 1147- 1155

DOI:10.1016/j.jfranklin.2024.107299 [本文引用: 3]

[17]

WANG B, LONG Z, SHENG J, et al

Spatial–temporal similarity fusion graph adversarial convolutional networks for traffic flow forecasting

[J]. Journal of the Franklin Institute, 2024, 361 (17): 107299

[18]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. (2023–08–02)[2024–07–23]. https://arxiv.org/pdf/1706.03762.

[19]

JIANG J, HAN C, ZHAO W X, et al

PDFormer: propagation delay-aware dynamic long-range transformer for traffic flow prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (4): 4365- 4373

DOI:10.1609/aaai.v37i4.25556 [本文引用: 1]

[20]

LIU H, DONG Z, JIANG R, et al. Spatio-temporal adaptive embedding makes vanilla transformer SOTA for traffic forecasting [C]// Proceedings of the 32nd ACM International Conference on Information and Knowledge Management . Birmingham: ACM, 2023: 4125–4129.

[21]

GAO H, JIANG R, DONG Z, et al. Spatial-temporal-decoupled masked pre-training for spatiotemporal forecasting [EB/OL]. (2024–04–28)[2024–07–23]. https://arxiv.org/pdf/2312.00516.

[22]

DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . Minneapolis: ACL, 2019: 4171–4186.

[23]

BAO H, DONG L, PIAO S, et al. BEiT: BERT pre-training of image transformers [EB/OL]. (2022–09–03)[2024–07–23]. https://arxiv.org/pdf/2106.08254.

[24]

NIE Y, NGUYEN N H, SINTHONG P, et al. A time series is worth 64 words: long-term forecasting with transformers [EB/OL]. (2023–03–05)[2024–07–23]. https://arxiv.org/pdf/2211.14730.

[25]

WANG Z, LIU J C

Translating math formula images to LaTeX sequences using deep neural networks with sequence-level training

[J]. International Journal on Document Analysis and Recognition, 2021, 24 (1/2): 63- 75