浙江大学学报(工学版), 2025, 59(4): 669-678 doi: 10.3785/j.issn.1008-973X.2025.04.002

交通工程

预训练长短时空交错Transformer在交通流预测中的应用

马莉,, 王永顺,, 胡瑶, 范磊

1. 兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

2. 兰州石化职业技术大学 电子电气工程学院,甘肃 兰州 730060

3. 兰州博文科技学院 电信工程学院,甘肃 兰州 730101

Pre-trained long-short spatiotemporal interleaved Transformer for traffic flow prediction applications

MA Li,, WANG Yongshun,, HU Yao, FAN Lei

1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

2. School of Electronic and Electrical Engineering, Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China

3. School ofTelecommunication Engineering, Lanzhou Bowen College of Science and Technology, Lanzhou 730101, China

通讯作者: 王永顺,男,教授. orcid.org/0009-0001-6954-5063. E-mail:wangysh@mail.lzjtu.cn

收稿日期: 2024-07-23  

基金资助: 国家自然科学基金资助项目(6136606);甘肃省教育厅高校教师创新基金资助项目(2023B-294).

Received: 2024-07-23  

Fund supported: 国家自然科学基金资助项目(6136606);甘肃省教育厅高校教师创新基金资助项目(2023B-294).

作者简介 About authors

马莉(1982—),女,副教授,博士生,从事智能交通研究.orcid.org/0009-0002-1552-096X.E-mail:marylovemali@126.com , E-mail:marylovemali@126.com

摘要

为了削弱和消除短期交通流预测普遍存在的时空幻影现象,基于Transformer网络和自监督预训练-全监督训练框架,提出新型预训练长短时空交错Transformer模型. 采用自监督预训练的方式获得长期时空异质性,设计时空交错模块进行交互获得长期时空异质交互性. 设计短时空循环Transformer,将短期时空序列循环压缩提取至能够表现整个短期时空序列独特时空特征的空间片上. 在长期时空交错的时空异质交互性指导下,将未来时间与近似特征匹配,重建未来短期时空序列. 比较不同交通流预测模型在4个交通流标准数据集和2个交通速度数据集上的预测精度和多步长. 实验结果表明,相比当前先进模型,所提模型提升了交通数据预测的精确性.

关键词: 智能交通 ; 交通流预测 ; Transformer ; 深度学习 ; 自监督

Abstract

To mitigate and eliminate the common spatiotemporal illusions in short-term traffic flow prediction, a novel pre-training long-short spatiotemporal interleaved Transformer model was proposed, based on the Transformer network and a self-supervised pre-training to fully supervised training framework. Long-term spatiotemporal heterogeneity was acquired by the self-supervised pre-training, and a spatiotemporal interleaving module was designed to interact and obtain the long-term spatiotemporal heterogeneous interactivity. A short spatiotemporal recurrent Transformer was designed to compress and extract the short-term spatiotemporal sequences onto a spatial slice, which represented the unique spatiotemporal features of the entire short-term sequence. Guided by the long-term spatiotemporal interleaved heterogeneous interactivity, similar features were matched on the future timeline to reconstruct the future short-term spatiotemporal sequence. Different traffic flow prediction models were compared in terms of accuracy and multi-step predictions in four traffic flow benchmark datasets and two traffic speed datasets. Experimental results show that the proposed model improves the accuracy of traffic data prediction compared to current state-of-the-art models.

Keywords: intelligent transportation ; traffic flow prediction ; Transformer ; deep learning ; self-supervision

PDF (1333KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

马莉, 王永顺, 胡瑶, 范磊. 预训练长短时空交错Transformer在交通流预测中的应用. 浙江大学学报(工学版)[J], 2025, 59(4): 669-678 doi:10.3785/j.issn.1008-973X.2025.04.002

MA Li, WANG Yongshun, HU Yao, FAN Lei. Pre-trained long-short spatiotemporal interleaved Transformer for traffic flow prediction applications. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(4): 669-678 doi:10.3785/j.issn.1008-973X.2025.04.002

智能交通的核心是交通流预测[1],它通过观测历史时空数据来预测未来的交通网络流量. 交通流预测的应用场景广泛,如智能路线规划、动态交通车辆调度、减缓交通拥堵等.

20世纪末,研究者将机器学习方法用于交通流预测(如ARIMA[2]、SVR[3]),由卷积神经网络(convolutional neural network, CNN)捕捉空间依赖性(如STResNet[4]、RSTS[5]),由循环神经网络(recurrent neural networks, RNN)学习时间动态(如LSTM[6]、DMVSTNet[7]、DCRNN[8]、DSAN[9]和AGCRN[10]). 图神经网络(graph neural network, GNN)比上述方法更适合模拟交通数据的底层图结构,基于GNN的方法因此被广泛应用于交通流预测中,这些方法包括STGCN[11]、GWNet[12]、STGNCDE[13]、AGJNet[14]、BAGGC[15]、FASTGCN[16]和STSFGACN[17]. Transformer[18]能够在输入和输出间建立全局相关性依赖关系,该网络在交通流预测领域的应用(如PDFormer[19]、STAEformer[20])由此兴起. 如何运用自监督获取数据集的时空异质性指导重建短期时空特征成为交通流预测的新趋势. STDMAE[21]以自监督方式分别预训练时间异质性和空间异质性;在全监督阶段,时空异质性分别指导短期序列重建,削弱时空幻影. 单独预训练的时间异质性和空间异质性不能完全挖掘多变量时空数据集的混沌,这一现象为时空异质交互性,如何挖掘这种特性是交通流预测的新难题.在交通网络中,时空异质交互性表现在单个时间片的空间维度上,城市中心与边缘郊区节点的车流量不同. 在单节点的时间维度上,工作日和周末车流量各有差异. 随着空间节点数量和时间步长增加,时间与空间交错越发复杂,某个节点的特殊事件,随着时间流逝和空间扩散,引起整个时空的涟漪波动,时空呈现混沌性,捕获和重建短期独特特征成为新的挑战. 传统预测模型输入时采用的时间步长为1 h,容易造成时空幻影(相似的历史短期时空在未来出现较大差异,或者不相似的历史短期时空在未来出现短期近似的路网交通流).

本研究提出预训练长短时空交错Transformer模型(pre-training long short spatiotemporal interleaved transformer, PLSSIFormer),将长期时间和空间内容互相交错,又分别再次表达,用长期时空结构指导短期独特的时空特征来映射未来时段的交通流时空序列. 在短期特征提取时运用短时空循环Transformer模块,将输入的短期时空序列经过多次循环压缩和精炼来精准提取短期交通流时空特征,进一步配合长期时空序列完成未来交通流预测,并提高模型的预测精度.

1. 相关工作

1.1. 交通流问题描述与定义

时空预测涉及多个变量的时间序列,交通流数据常见的有交通速度、交通流量和交通密度. 将交通流网络的每个时间切片数据表示为空间图$ G = \left( {V,E,{\boldsymbol{A}}} \right) $,其中$V$为道路节点的集合,定义节点的个数为N,道路节点一般是指路段上部署的传感器;$ E $为节点间的连接集合,存储路网的空间信息;$ {\boldsymbol{A}} \in {{\bf{R}}^{{N} \times N}} $为表现$G$内部节点间相关连接的邻接矩阵,任意2个节点${v_i},{v_j} \in V$$({v_i},{v_j}) \in E$,若存在节点连接,邻接矩阵的元素${a_{ij}}$=1,当节点处于非连接时,${a_{ij}}$=0. 在时间步长$t$下,交通流网络上众多传感器同一时间采集数据形成特征矩阵$ {\boldsymbol{X}}_{t} = [ {\boldsymbol{X}}_t^1,{\boldsymbol{X}}_t^2, \cdots , {\boldsymbol{X}}_t^N ]^{\text{T}} \in {{\bf{R}}^{N \times C}} $,为$t$时刻所有节点采集到的交通流量,$C$为信息通道数量. 历史连续时间步长为$T$未来连续时间步长为$\hat T$,根据$G$$T$收集的数据,预测$\hat T$的整个网络交通状态:

$ f([{\boldsymbol{X}}_{t - (T - 1)}, \cdots ,{\boldsymbol{X}}_t,G]) = [{\boldsymbol{X}}_{t+1}, \cdots ,{\boldsymbol{X}}_{t+\hat T}] . $
(1)

1.2. 自监督时空掩码预训练

自监督学习利用无标注数据的自有结构和语义训练网络捕捉时空序列的复杂模式和特征,在下游任务通过未来的时空序列数据对网络进行训练时,使网络具有时空序列预测能力. 掩码预训练是自然语言处理和计算机视觉进行自监督学习的技术,它通过训练模型根据可见的上下文来预测输入中被掩码遮挡的部分. 自然语言中的BERT[22]采用掩码建模预测具有双向上下文的随机掩码. 在计算机视觉领域,BEiT[23]随机掩码遮挡输入图像的块,根据未被遮挡的块进行重建. STDMAE通过时间和空间掩码学习交通流数据的时空异质性,空间掩码通过剩余传感器重建部分屏蔽传感器,时间掩码通过无遮掩的时间序列恢复整个时间序列. 用${{\boldsymbol{X}}_{{\mathrm{S}}}}$表示输入短期序列长度$L$的时空序列,且${{\boldsymbol{X}}_{ {\mathrm{S}}}} \in {{\bf{R}}^{L \times N \times C}}$. 定义$r$为随机掩码率,$r$=0.25. 空间掩码通过随机屏蔽单个时间片上的$N \times r$个传感器实现,${\hat {\boldsymbol{X}}^{{\text{S}}}}_{{\mathrm{S}}} \in {{\bf{R}}^{L \times N(1 - r) \times C}}$为空间维度上的输入;在时间掩码上,通过随机掩码时间序列$ T\times r $时间步长来学习时间序列数据内在表示,${\hat {\boldsymbol{X}}^{{\text{T}}}}_{{\mathrm{S}}} \in {{\bf{R}}^{L(1 - r) \times N \times C}}$为时间维度上的输入. 掩码策略可以看作在$1 - r$对应维度上伯努利分布$B(1 - r)$的随机采样期望,空间掩码和时间掩码分别为

$ {\hat {\boldsymbol{X}}^{{\text{S}}}} = \sum\limits_{n = 1}^{{N}} {\mathop B\nolimits_{\text{S}} } (1 - r) \cdot {\boldsymbol{X}}{\text{[:,}}n{\text{,:]}} , $
(2)

$ {\hat {\boldsymbol{X}}^{{\text{T}}}} = \sum\limits_{t = 1}^{{L}} {\mathop B\nolimits_{\text{T}} } (1 - r) \cdot {\boldsymbol{X}}{\text{[}}t{\text{,:,:]}} . $
(3)

式中:BS(1−r)为空间分支上1−r对应维度伯努利分布;X[:,n,:]为在空间分支随意遮掩n个节点的交通流数据,其中n<NBT(1−r)为时间分支上1−r对应维度伯努利分布;X[t,:,:]为在时间分支随机遮掩t个时间步长的交通流数据,其中t<T.

1.3. 时空异质交互性

交通流短期预测存在时空异质性信息缺失问题,原因是所用短期序列仅含 12 个时间点,即 1 h. 如图1所示为PEMS04 数据集的交通流时间异质性,传感器8记录了自 2018 年 1 月 8 日起一周的交通流数据,可以看出,工作日交通流量呈现早晚高峰,休息日在傍晚形成高峰,表明交通流存在时间异质性. 如图2 所示为相同数据集的交通流空间异质性,传感器4 和 5 设置在城市,传感器 89 和 90设置在郊区. 可以看出,同一天2个区域的交通流量峰值存在差异,体现了交通流具有空间异质性.

图 1

图 1   PEMS04数据集上的交通流时间异质性

Fig.1   Temporal heterogeneity of traffic flow in PEMS04 dataset


图 2

图 2   PEMS04数据集上的交通流空间异质性

Fig.2   Spatial heterogeneity of traffic flow in PEMS04 dataset


时空幻影现象与交通流预测序列的长度关系密切. 如图3所示,传感器215和279在2018年1月7日至8日有部分历史数据相似,紧接着的未来短期交通流量显著不同,这段短期且明显不同的交通流量在新的未来又呈现相似的交通流. 这说明,依赖短周期的时间序列无法捕获时空异质性,未能全面描绘交通流长期时空内在复杂性. 时间异质性和空间异质性各有特点,交通流网络数据呈现多变量时空数据集的混沌状态,这一现象称为时空异质交互性,如图4所示,其中nv为车辆数. 单独表述时间异质性和空间异质性不能充分挖掘时空数据集完整的异质性,为此本研究提出新的模块来融合时空特性.

图 3

图 3   PEMS04数据集上2018年1月8日的时空幻影现象

Fig.3   Spatiotemporal mirage phenomenon in PEMS04 dataset on January 8, 2018


图 4

图 4   PEMS04数据集的局部时空异质交互性

Fig.4   Local spatiotemporal heterogeneous interactivity of PEMS04 dataset


2. 预训练长短时空交错Transformer

图5所示,PLSSIFormer由预训练长时空Transformer模块(pre-training long spatiotemporal Transformer, PLST)、时空交错模块(time and space interleave, TSI)和短时空循环Transformer模块(short time and space looping transformer, STSLT)构成. 在自监督预训练阶段,在预训练长时空分支中,由空间掩码和时间掩码获得的交通流空间和长期时间异质性预训练权重分别包含空间节点和时间序列的交通流数据特性. 在全监督阶段,将长期时空分支中通过自监督训练的权重加载到PLSSIFormer的预训练长时空分支中,获得空间重建和时间重建. 在数据集PEMS03、PEMS04、PEMS07、METR-LA、PEMS-BAY中,长时空输入的时间步长$T_{\text{L}}$=864;在数据集PEMS08中,$T_{\text{L}}$=2 016. 空间重建和时间重建进行通道拼接,经过裁剪、截断和转置,在空间分支和时间分支重新梳理各自维度的特征,在末端交互时空异质性. $T_{\text{S}}$为短期时空输入的时间步长,将$T_{\text{S}}$=12输入STSLT,获得短期交通流时空特征表现. STSLT的时空特征在时空异质交互性下指导并重建编码输出$ {\boldsymbol{X}}_{\text{en}} \in {{\bf{R}}^{{B} \times C \times N \times L}} $,其中$ B $为每次迭代的批量大小,$C$=256,$L$=1. $\hat T_{\text{s}}$为未来短期时间步长,$ {\boldsymbol{X}}_{\text{en}} $在解码器中重建$\hat T_{\text{s}}$的交通流网络,解码器由2个Relu激活函数和2个核为1且步长为1的2D卷积构成. 第一个2D卷积的输出通道为512,末尾预测的2D卷积输出通道为12. $ {\boldsymbol{X}}_{\text{en}} $经过Relu激活函数、第一个2D卷积、Relu激活函数、末尾预测的2D卷积转置和降维,输出PLSSIFormer的最终预测序列$ \hat {\boldsymbol{S}}_{\text{de}} \in {{\bf{R}}^{B \times N \times L}}. $

图 5

图 5   预训练长短时空交错Transformer模型框架

Fig.5   Pre-trained long-short spatiotemporal interleaved Transformer model framework


2.1. 预训练长时空Transformer模块

在自监督阶段,空间掩码和时间掩码进行辅助任务训练,获得交通流网络在空间和时间异质性的预训练权重. 在全监督阶段,将权重分别加载到预训练长时空分支,再次针对时空预测任务进行训练. $T_{\text{L}}$通常为几天,输入具有相似结构的预训练长时间和广空间分支,长时间分支应用自注意力机制在时间维度上,广空间分支应用自注意力机制在空间维度上. 采用块嵌入[24]解决由$T_{\text{L}}$直接输入模型引起的计算复杂度大和内存占用过高的问题,为此将长时空时间步长分离成无重叠的块$ T_{\text{P}} $$ T_{\text{P}} = T_{\text{L}}/P_{\text{S}} $,其中块窗口尺寸$ P_{\text{S}} $= 12. 块嵌入通过2D卷积实现,嵌入维度输出通道$D_{\text{em}}$=96,卷积核为$12 \times 1$,步长为$12 \times 1$. 长时空输入$ {\boldsymbol{X}}_{\text{LL}} \in {{\bf{R}}^{B \times L \times N \times C}} $,经过转置、扩维和降维,得到$ {\boldsymbol{X}}'_{\text{LL}} \in {{\bf{R}}^{{N} \times C \times L \times B}} $,经过块嵌入和转置,得到交通流网络的块嵌入$ {\boldsymbol{E}}_{\text{p}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $. 空间和时间拥有共同的位置编码信息,将2个维度的编码信息[25]输入块嵌入$ {\boldsymbol{E}}_{\text{p}} $,时空位置编码$ {\boldsymbol{E}}_{\text{pos}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $的计算式为

$ \left. \begin{gathered} {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2i} \right) = \sin \;(t/{10\;000^{4i/D_{\text{em}}}}) , \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2i+1} \right) = \cos\; (t/{10\;000^{4i/D_{\text{em}}}}), \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2j+D_{\text{em}}/2} \right) = \sin \;(n/{10\;000^{4j/D_{\text{em}}}}) , \\ {\boldsymbol{E}}_{\text{pos }}{{d}}\left( {n,t,2j+1+D_{\text{em}}/2} \right) = \cos \;(n/{10\;000^{4j/D_{\text{em}}}}). \\ \end{gathered} \right\} $
(4)

式中:d(·)为特定时间索引或位置索引相关的编码值,$ n $为样本编号,$ t $为时间索引,$ i $$ j $均为位置索引. 选择正弦位置编码而不是学习位置编码的原因:正弦位置编码可以处理任意长度的输入. 将$ {\boldsymbol{E}}_{\text{p}} $$ {\boldsymbol{E}}_{\text{pos}} $相加,得到最终的输入嵌入$ {\boldsymbol{E}} \in {{\bf{R}}^{B \times N \times T_p \times D_{{\mathrm{em}}}}} $.图6所示,$ {\boldsymbol{E}} $作为Transformer编码器层的输入,一条路径对$D_{\text{em}}$作平方处理,与嵌入$ {\boldsymbol{E}} $作矩阵点积运算,经过形变和转置,获得Transformer输入序列$ {\boldsymbol{X}}_{\text{TSI}} \in {{\bf{R}}^{T_p \times B N \times D_{{\mathrm{em}}}}} $. $ {\boldsymbol{X}}_{\text{TSI}} $经过多头自注意力(多头设置为4),每个相同的序列经过自注意力,建立长范围依赖. 将多个自注意力的序列在$D_{\text{em}}$进行拼接,获得多头注意力$ {{\boldsymbol{X}}_{{\mathrm{MS}}}} \in {{\bf{R}}^{T_p \times B N \times 4D_{{\mathrm{em}}}}} $,同时建立序列的全局依赖关系. $ {\boldsymbol{X}}_{\text{MS}} $经过线性层将$4D_{\text{em}}$映射成为$D_{\text{em}}$,再与Transformer输入序列$ {\boldsymbol{X}}_{\text{TSI}} $进行残差相加,经过层归一化,获得$ {\boldsymbol{X}}_{\text{MSL}} \in {{\bf{R}}^{{T_p} \times B N \times D_{{\mathrm{em}}}}} $. 前馈网络由2个线性层和1个Relu激活函数组成,线性层进行4倍映射. 层归一化$ {\boldsymbol{X}}_{\text{MSL}} $经过前馈网络强化位置信息的表示和特征的提取,使得模型能够更好地捕获输入序列的全局依赖性,获得的结果再次与$ {\boldsymbol{X}}_{\text{MSL}} $权重相加,得到Transformer编码输出序列$ {\boldsymbol{X}}_{\text{TSO}} \in{{\bf{R}}^{T_{\text{p}} \times B N \times D_{\text{em}}}} $. Transformer编码共有6层,长期序列经过6个这样的结构,再经转置和扩维,获得Transformer编码器层的输出$\hat {\boldsymbol{Q}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}}$. 在全监督阶段,预训练长时间分支和广空间分支分别加载了自监督训练的时空异质性权重,经过训练后,获得时间重建${{\boldsymbol{\hat Q}}^{{\boldsymbol{T}}}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}}$和空间重建${{\boldsymbol{\hat Q}}^{{\boldsymbol{S}}}} \in {{\bf{R}}^{{B} \times N \times T_p \times D_{{\mathrm{em}}}}},$分别实现了交通流网络长期时间序列的依赖关系和交通流网络传感器节点间的全局依赖关系.

图 6

图 6   预训练长时空Transformer编码层框架

Fig.6   Pre-trained long spatiotemporal Transformer encoder layer framework


2.2. 时空交错模块

图7所示,时空交错模块实现时空异质性在时间和空间上相互交错,产生长期时间和空间内容的相互联系. 分别在时间和空间模块,重建交通流网络长期时间主导的时空内容和广阔空间主导的时空内容. 通过通道拼接时间和空间重建,获得时空交错输入$ {\boldsymbol{X}}_{\text{LST}} \in [{{\boldsymbol{\hat Q}}^{{\boldsymbol{S}}}},{{\boldsymbol{\hat Q}}^{{\boldsymbol{T}}}}] \in {{\bf{R}}^{B \times N \times T_{\text{p}} \times 2D_{\text{em}}}} ,$$ {\boldsymbol{X}}_{\text{LST}} $经过裁剪、截断和转置处理后,获得交错时空输入$ {\boldsymbol{X}}_{\text{IST}} \in {{\bf{R}}^{B \times N \times D_{\text{em}}}} $. 时间分支由2个卷积和2个Relu激活函数构成,卷积核与步长均为1,第一个卷积输出维度为512,第二个卷积输出维度为256. 时间分支与空间分支结构类似. 交错时空输入$ {\boldsymbol{X}}_{\text{IST}} $经过时间分支,转置和扩维处理获得长期时间$ {{\boldsymbol{X}}_{{\mathrm{LT}}}} \in {{\bf{R}}^{B \times C \times N \times 1}} $, 其中C=256. 类似的,获得广范围的空间$ {\boldsymbol{X}}_{\text{LS}} \in {{\bf{R}}^{B \times C \times N \times 1}} $. 将长期时间$ {\boldsymbol{X}}_{\text{LT}} $和广范围空间$ {\boldsymbol{X}}_{\text{LS}} $的权重相加,获得时间和空间在内容上交互的异质性,指导短期时空特征更好地重建未来短期交通流序列.

图 7

图 7   时空交错模块框架

Fig.7   Spatiotemporal interleaved module framework


2.3. 短时空循环Transformer模块

短时空循环Transformer循环捕获短期时间片上路网的全局信息, 逐步循环压缩提取独特的短期时空特征,直至压缩到一张时间片上. 这张时间片上有该短期时空序列的独有特征,如图8所示. $ {\boldsymbol{X}}_{\text{S}} \in {{\bf{R}}^{{B} \times L \times N \times C}} $,其中$L$在短期时间步长为12,经过转置、裁剪、截断以及1个输出通道为32,核为1的$2D$卷积,获得自循环Transformer输入$ {\boldsymbol{X}}_{\text{CTSI}} \in {{\bf{R}}^{B \times C \times N \times L}} $,其中$L$=13,$C$=32. 自循环Transformer由2个部分构成:过滤卷积模块和Transformer层,其中Transformer层由自注意力和前馈网络组成. $ {\boldsymbol{X}}_{\text{CTSI}} $经过滤卷积模块,实现对$ {\boldsymbol{X}}_{\text{CTSI}} $$L$降维,在循环过程中$L$依此变为12、10、9、7、6、4、3和1. 当$L$维度为奇数次时,$ {\boldsymbol{X}}_{\text{CTSI}} $输入送往输出通道为32且核为$1 \times 2$$2{\text{D}}$卷积;当$L$维度为偶数次时,$ {\boldsymbol{X}}_{\text{CTSI}} $输入送往输出通道为32,核为$1 \times 2$且空洞率为$2 \times 2$$2{\text{D}}$空洞卷积. 无论奇偶次,均由Tanh激活函数进行非线性变化,从而获得交通流激活特征图$ {\boldsymbol{X}}_{\text{CTST}} \in {{\bf{R}}^{B \times C \times N \times L}} $. $ {\boldsymbol{X}}_{\text{CTST}} $经过转置和形变,转为序列$ {\boldsymbol{S}}_{\text{CTSI}} \in {{\bf{R}}^{B \times C L \times N}} $后被输入自注意力机制. 自注意力机制将序列$ {\boldsymbol{S}}_{\text{CTSI}} $分别经过3个线性层,获得查询Q、键K、值V. 线性层在$H$维进行线性变化,3个线性层输入通道为${C_H}$,多头nh=8,局部序列尺寸大小为${{\mathrm{ds}}} = N//{\mathrm{nh}}$,输出通道为${{\mathrm{ds}}} \times {\mathrm{nh}}$. 查询、键、值经过形变分别获得$ {\boldsymbol{X}}_{\text{q}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $$ {\boldsymbol{X}}_{\text{k}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $$ {\boldsymbol{X}}_{\text{v}} \in {{\bf{R}}^{{B} \times {C} {L} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $. 首先实现查询与键计算, $ {\boldsymbol{X}}_{\text{q}} $$ {\boldsymbol{X}}_{\text{k}} $经过置换获得 $ {\boldsymbol{X}}_{\text{qz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} {L} \times {{\mathrm{ds}}} }} $$ {\boldsymbol{X}}_{\text{kz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} \times {C} {L} }} $,此时$ {\boldsymbol{X}}_{\text{qz}} $$ {\boldsymbol{X}}_{\text{kz}} $相乘获得 $ {\boldsymbol{X}}_{\text{SCO}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} L \times {C} L}}, $${Y} = \sqrt {{\mathrm{ds}}} $,$ {\boldsymbol{X}}_{\text{SCO}} $${Y} $进行点积运算,之后经过softmax激活函数,在最后一个维度实现多分类,得到激活图$ {\boldsymbol{X}}_{\text{SOFT}} \in {{\bf{R}}^{{B} \times {{{\mathrm{nh}}}} \times {C} L \times {C} L}} $. 查询与键计算结果与值完成自注意力计算,$ {\boldsymbol{X}}_{\text{v}} $经过置换获得$ {\boldsymbol{X}}_{\text{vz}} \in {{\bf{R}}^{{B} \times {{\mathrm{nh}}} \times {C} L \times {{\mathrm{ds}}} }} $$ {\boldsymbol{X}}_{\text{SOFT}} $$ {\boldsymbol{X}}_{\text{vz}} $实现自注意力计算,经过置换获得自注意力输出结果$ {\boldsymbol{X}}_{\text{SF}} \in {{\bf{R}}^{{B} \times {C} L \times {{\mathrm{nh}}} \times {{\mathrm{ds}}} }} $. $ {\boldsymbol{X}}_{\text{SF}} $经过调整,送往前馈网络实现增强短期序列特征提取和短时空全局依赖建立. $ {\boldsymbol{X}}_{\text{SF}} $${{\mathrm{ds}}} \times {\mathrm{nh}}$做乘法,在线性层恢复$N$个节点输出,得到序列$ {\boldsymbol{S}}_{\text{qkv}} \in {{\bf{R}}^{{B} \times {C} L \times {N} }} $. 序列$ {\boldsymbol{S}}_{\text{qkv}} $经过值为0.1的随机失活,再次与序列$ {\boldsymbol{S}}_{\text{qkv}} $相加,所得结果送往层归一化,得到归一化序列$ {\boldsymbol{S}}_{\text{LNS}} \in {{\bf{R}}^{B \times C L \times N}} $. $CL$为通道与时间序列步长的乘积,$ {{\boldsymbol{S}}_{{\mathrm{LNS}}}} $经过置换将$CL$$N$维度交换,结果在核和步长都为1的$1{\text{D}}$卷积后将$N$=2 048输出,经过Gelu激活函数,值为0.1的随机失活和核及步长都为1的$1{\text{D}}$卷积将2048输出还原为$N$个节点值,经过置换交换$CL$$N$维度,在Gelu激活函数进行非线性变化,获得前馈网络输出结果$ {\boldsymbol{S}}_{\text{FFP}} \in {{\bf{R}}^{B \times C L \times N}} $. $ {\boldsymbol{S}}_{\text{LNS}} $$ {\boldsymbol{S}}_{\text{FFP}} $相加,经过层归一化获得Transformer层的序列输出$ {\boldsymbol{S}}_{\text{CTSO}} \in {{\bf{R}}^{{B} \times {C} {L} \times {N} }} $. $ {\boldsymbol{S}}_{\text{CTSO}} $再次输入下个Transformer层,经过层归一化,将CL维度形变为C$L$,经过转置交换$L$$N$维度,所得结果与$ {\boldsymbol{X}}_{\text{CTST}} $进行权重相加,最后经过批量归一化,获得循环Transformer的输出$ {\boldsymbol{X}}_{\text{RTSO}} \in {{\bf{R}}^{B \times C \times N \times L}} $. $ {\boldsymbol{X}}_{\text{RTSO}} $送往自循环Transformer进行8次循环,在最后一次循环时,$ {\boldsymbol{X}}_{\text{CTST}} $经过核与步长均为1、输出通道为256的卷积跳出,得到整个短时空自循环Transformer的输出.

图 8

图 8   短时空循环Transformer模块

Fig.8   Short spatiotemporal recurrent transformer module


3. 实验设计与结果分析

3.1. 基准数据集

在6个标准、公开的真实世界时空数据集上评估PLSSIFormer,数据集的相关参数如表1所示. 表中,N为传感器总数,TDS为采样周期,NDS为样本数,tds为采样天数. 数据集的原始数据由传感器以5 min的采样间隔进行连续采样得到. 交通速度数据集METR-LA的数据取自洛杉矶县公路网络上设置的环形检测器,交通速度数据集PEMS-BAY的数据源于加利福尼亚州交通局的绩效测量系统. 采用Z-score归一化对原始数据进行预处理. Z-score标准化技术被用来统一多变量序列数据的量纲,它将各特征转化为均值为0、标准差为1的标准正态分布形式,以此达到量纲统一的目的,减轻了某些特征对模型训练可能产生的过大干扰效应,在加快模型收敛速度的同时增强了模型效能. 该方法促进优化算法快速收敛的原因:经过标准化处理后的数据呈均匀分布,有利于梯度下降过程高效运行. 此外,削弱模型中各特征的依赖性,能够促进特征间关系的有效学习,进一步提升预测的精确度. 本研究采用的公开数据集,已严格按标准流程预处理,无异常值与缺失值.

表 1   时空基准数据集的描述

Tab.1  Descriptions of spatiotemporal benchmark datasets

数据集NTDS/minNDS采样日期tds/d
PEMS033585262082018年9月—11月91
PEMS043075169922018年1月—2月59
PEMS078835282242017年5月—8月123
PEMS081705178562016年7月—8月62
METR-LA2075342722012年3月—6月123
PEMS-BAY3255521162017年1月—5月62

新窗口打开| 下载CSV


3.2. 实验设置

与Li等[26]的工作方法保持一致,将数据集PEMS03、PEMS04、PEMS07和PEMS08的训练、验证和测试集样本按照6∶2∶2划分. 数据集METR-LA和PEMS-BAY的训练、验证和测试集样本按照7∶2∶1进行划分. 在预训练过程中,PEMS03、 PEMS04、PEMS07、METR-LA和PEMS-BAY的$ T_{\text{L}} $=864,PEMS08的$ T_{\text{L}} $=2016. 使用历史数据中1 h,预测数据中未来的1 h,预测未来即本研究设置输入的时间步长$ T_{\text{in}} $和输出的时间步长$ T_{\text{out}} $均为12. 嵌入维度$D_{\text{em}}$=96,编码器有6个Tranformer层,设置多头注意力的头为4,$ P_{\text{P}} $=12与预测输入一致. 优化器使用Adam,初始学习率设置为0.001. 损失函数评估指标采用平均绝对误差损失.

实验过程硬件环境:GPU为RTX 3090,CPU为14 vCPU Intel(R) Xeon(R) Platinum 8362 CPU,内存为45 GB,固态内存为50 GB. 操作系统为Linux,操作系统版本为Ubuntu 20.04.4. 软件环境为Python3.9,PyTorch版本号为1.13.0.

3.3. 评价指标

评估模型性能和训练程度的指标为平均绝对误差MAE、均方根误差 RMSE和平均绝对百分比误差MAPE,计算式分别为

$ {{{\text{MAE}}}} = \frac{1}{S}{\sum\limits_{s = 1}^S {|\hat y} _s} - {y_s}| , $
(5)

$ {{{\text{RMSE}}}} = \sqrt {{{\left( {{{\hat y}_s} - {y_s}} \right)}^2}/S}, $
(6)

$ {{{\text{MAPE}}}} = \frac{{100{\text{%}} }}{S}\sum\limits_{s = 1}^S \left|\frac{{{{\hat y}_s} - {y_s}}}{{{y_s}}} \right| .$
(7)

式中:$S$为预测值的数量,${\hat y_s}$为第$s$个未来预测值,${y_s}$为真实观测值.

3.4. 基准模型

将PLSSIFormer与经典的交通流预测模型和先进的交通流预测模型进行比较. 对比模型包括基于传统时间序列预测的ARIMA、SVR模型,基于RNN的LSTM、DCRNN模型,基于图卷积的AGCRN[10]、STGCN[11]、GWNet[12]、STSFGACN[17] 、ASTGCN[27]、DSTAGNN [28]、ASTGNN[29]和 ADMSTNODE [30]模型. 所提模型属于Transformer系列,因此将原始Transformer[18]纳入对比模型.

3.5. 实验结果与分析

3.5.1. 对比实验

表2所示,在4个交通流标准数据集上对比不同交通流预测模型的性能. 相比传统的时间序列模型,PLSSIFormer4个数据集的MAE和RMSE平均降低了9.75、10.46,MAPE平均降低了6.09个百分点,该结果验证了深度学习方法在交通流预测方面的有效性. 基于RNN序列的模型,能够更好地捕获时间维度上时空信息,PLSSIFormer与该系列先进模型相比,4个数据集上的MAE和RMSE平均降低了0.74、0.93,MAPE平均降低了0.46个百分点,验证了模型关注时间维度的重要性,说明所提模型能够借助长短时间维度捕获时间异质性. 基于图卷积的模型在空间维度上能够更好捕获网络节点间的关系,PLSSIFormer与该系列先进模型相比,4个数据集上的MAE和RMSE平均降低了1.14、1.33,MAPE平均降低了0.70个百分点,验证了空间维度信息的重要性,所提模型借助广阔空间分支捕获空间异质性,匹配短期时空特征,映射未来时间维度上对应的交通流. PLSSIFormer改进了Transformer系列,MAE和RMSE平均降低了4.81、6.61,MAPE平均降低了3.23个百分点,验证了该网络由Transformer编码器借助长期时空异质交互性指导短期特征映射恰当的未来交通网络流量的能力.

表 2   不同交通流预测模型在4个交通流标准数据集上的性能对比

Tab.2  Performance comparison of different traffic flow prediction models in four traffic flow benchmark datasets

模型PEMS03数据集PEMS04数据集PEMS07数据集PEMS08数据集
MAERMSEMAPE/%MAERMSEMAPE/%MAERMSEMAPE/%MAERMSEMAPE/%
ARIMA [2]35.3147.5933.7833.7348.8024.1838.1759.2719.4631.0944.3222.73
Transformer[18]17.5030.2416.8023.8337.1915.5726.8042.9512.1118.5228.6813.66
DCRNN[8]18.1830.3118.9124.7038.1217.1225.3038.5811.6617.8627.8311.45
STGCN[11]17.4930.1217.1522.7035.5514.5925.3838.7811.0818.0227.8311.40
GWNet[12]19.8532.9419.3125.4539.7017.2926.8542.7812.1219.1331.0512.68
SVR[3]21.9735.2921.5128.7044.5619.2032.4950.2214.2623.2536.1614.64
LSTM[6]21.3335.1123.3327.1441.5918.2029.9845.8413.2022.2034.0614.20
AGCRN[10]16.0628.4915.8519.8332.2612.9721.2935.128.9715.9525.2210.09
ASTGNN[29]15.0726.8815.8019.2631.1612.6522.2335.959.2515.9825.679.97
DSTAGNN[28]15.5727.2114.6819.3031.4612.7021.4234.519.0115.6724.779.94
STSFGACN[17]14.9826.2414.0719.1431.6412.5620.6133.848.7315.1424.6110.63
ADMSTNODE[30]15.4726.7615.5919.2831.2512.6821.4034.449.0215.5825.099.92
PLSSIFormer14.6726.3614.9218.1129.5112.2220.2933.398.6214.3523.379.48

新窗口打开| 下载CSV


3.5.2. 交通流数据集不同时间步长预测对比

对比不同交通流预测模型在数据集PEMS04、PEMS08上不同步长的预测性能,其中短期预测输入的序列为12,时间步长为2、4、6、8、10、12,结果如图9所示. 可以看出,PLSSIFormer在2个数据集不同步长下,预测性能评价指标数值均低于做对比的6种先进模型,说明本研究所提模型在同领域有较高的预测精度. 还可以看出,PLSSIFormer曲线倾斜度最低,即在6个时间步长下,模型在同一数据集相同的评价指标结果变化不大,说明该模型具有较好的稳定性.

图 9

图 9   不同模型在2个交通流标准数据集上的多步预测结果对比

Fig.9   Comparison of multi-step prediction results of different models in two traffic flow benchmark datasets


3.5.3. 交通速度数据集不同时间步长预测对比

在数据集METR-LA和PEMS-BAY上对比不同预测模型在3个时间步长的预测性能,结果展示如图10所示. 可以看出,PLSSIFormer的3个评价指标数值均低于比较模型. 该结果一方面说明本研究所提模型具有较好的预测性能,另一方面说明该模型具有较强的泛化能力,在交通速度数据集上有极好的预测表现.

图 10

图 10   不同模型在交通速度数据集上的预测性能对比

Fig.10   Predictive performance comparison of different models in traffic speed datasets


3.5.4. 消融研究

为了评估所提模型的核心组件对预测结果的贡献力,在PEMS04和PEMS08数据集上进行消融实验,每个实验进行300轮,结果如表3所示. 表中,基准组件是指将短时空循环Transformer和预训练长时空交互模块从所提模型中移除,STSLT表示在基准组件中添加短时空循环Transformer模块,PLST+TSI表示在基准组件中添加预训练长时空交互模块. 由表可知,2个数据集的基准组件在MAE和RMSE平均值分别为25.72、39.54,MAPE平均值为0.1785%,STSLT在MAE和RMSE平均降低了6.76、9.13,MAPE平均降低了5.7个百分点,验证了STSLT产生的短期唯一时空特征有效. PLST+TSI虽然MAE和RMSE平均降低了6.69、5.89,MAPE平均降低了4.59个百分点,但是在PEMS08上PLST+TSI实验结果显示预测精度评价指标数值有所上升,说明在PEMS08上PLST+TSI对时空异质交互性捕获能力一般,也说明该模块在时空异质交互性捕获中的重要性. PLSSIFormer相比STSLT,MAE和RMSE分别平均降低了2.72、3.97,MAPE平均降低了1.32个百分点;相比PLST+TSI,MAE和RMSE分别平均降低2.80、7.21,MAPE平均降低了2.42个百分点,充分说明了在PLST 和 TSI指导下,STSLT能更好地借助长期时空异质交互性重建未来短期交通流网络,PLSSIFormer模型具有较好的预测精度.

表 3   所提模型的模块消融实验

Tab.3  Modular ablation experiments for proposed model

模块PEMS04数据集PEMS08数据集
MAERMSEMAPE/%MAERMSEMAPE/%
基准组件28.646244.03820.208322.792435.04910.1487
STSLT20.294032.95380.136117.622727.87390.1072
PLST+TSI19.769129.80480.125419.769137.50020.1399
PLSSIFormer18.115629.51410.122214.359423.37370.0940

新窗口打开| 下载CSV


4. 结 语

本研究探索交通流网络中时空异质交互性,提出基于Transformer和自监督预训练与全监督训练框架的交通流预测方法,时空异质性经由本研究设计的时空交互模块成为长期时空异质交互性. 提出短时空循环Transformer模块,在时空维度上循环压缩提取短期时空序列得到独一无二的短期时空特征,在长期时空异质交互性指导下,该短期时空特征沿着时空线在未来映射准确的短期交通流. 通过同步长下不同数据集预测精度对比、相同数据集不同时间步长下预测精度对比、消融实验验证了所提模型的有效性和稳定性. 未来将持续挖掘和重建时空异质交互性,将所提模型应用于诸如天气、电力和股票预测等领域.

参考文献

TEDJOPURNOMO D A, BAO Z, ZHENG B, et al

A survey on modern deep neural network for traffic prediction: trends, methods and challenges

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34 (4): 1544- 1561

[本文引用: 1]

KUMAR S V, VANAJAKSHI L

Short-term traffic flow prediction using seasonal ARIMA model with limited input data

[J]. European Transport Research Review, 2015, 7 (3): 21

DOI:10.1007/s12544-015-0170-8      [本文引用: 2]

CASTRO-NETO M, JEONG Y S, JEONG M K, et al

Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions

[J]. Expert Systems with Applications, 2009, 36 (3): 6164- 6173

DOI:10.1016/j.eswa.2008.07.069      [本文引用: 2]

ZHANG J, ZHENG Y, QI D

Deep spatio-temporal residual networks for citywide crowd flows prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2017, 31 (1): 1655- 1661

[本文引用: 1]

YAO H, TANG X, WEI H, et al

Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33 (1): 5668- 5675

DOI:10.1609/aaai.v33i01.33015668      [本文引用: 1]

SHI X, CHEN Z, WANG H, et al. Convolutional LSTM network [C]// Proceedings of the 29th International Conference on Neural Information Processing Systems - Volume 1 . Montreal: ACM, 2015: 802–810.

[本文引用: 2]

YAO H, WU F, KE J, et al

Deep multi-view spatial-temporal network for taxi demand prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32 (1): 2588- 2595

[本文引用: 1]

LI Y, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting [EB/OL]. (2018–02–22)[2024–07–23]. https://arxiv.org/pdf/1707.01926.

[本文引用: 2]

LIN H, BAI R, JIA W, et al. Preserving dynamic attention for long-term spatial-temporal prediction [C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . [S. l.]: ACM, 2020: 36–46.

[本文引用: 1]

BAI L, YAO L, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems . Vancouver: ACM, 2020: 17804–17815.

[本文引用: 3]

YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting [C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence . Stockholm: IJCAI, 2018: 3634–3640.

[本文引用: 3]

WU Z, PAN S, LONG G, et al. Graph WaveNet for deep spatial-temporal graph modeling [C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence . Macao: IJCAI, 2019: 1907−1913.

[本文引用: 3]

CHOI J, CHOI H, HWANG J, et al

Graph neural controlled differential equations for traffic forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36 (6): 6367- 6374

DOI:10.1609/aaai.v36i6.20587      [本文引用: 1]

黄靖, 钟书远, 文元桥, 等

用于交通流预测的自适应图生成跳跃网络

[J]. 浙江大学学报: 工学版, 2021, 55 (10): 1825- 1833

[本文引用: 1]

HUANG Jing, ZHONG Shuyuan, WEN Yuanqiao, et al

Adaptive graph generation jump network for traffic flow prediction

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (10): 1825- 1833

[本文引用: 1]

贺文武, 裴博彧, 李雅婷, 等

基于双向自适应门控图卷积网络的交通流预测

[J]. 交通运输系统工程与信息, 2023, 23 (1): 187- 197

[本文引用: 1]

HE Wenwu, PEI Boyu, LI Yating, et al

Traffic flow forecasting based on bi-directional adaptive gating graph convolutional networks

[J]. Journal of Transportation Systems Engineering and Information Technology, 2023, 23 (1): 187- 197

[本文引用: 1]

闫旭, 范晓亮, 郑传潘, 等

基于图卷积神经网络的城市交通态势预测算法

[J]. 浙江大学学报: 工学版, 2020, 54 (6): 1147- 1155

[本文引用: 1]

YAN Xu, FAN Xiaoliang, ZHENG Chuanpan, et al

Urban traffic flow prediction algorithm based on graph convolutional neural networks

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (6): 1147- 1155

[本文引用: 1]

WANG B, LONG Z, SHENG J, et al

Spatial–temporal similarity fusion graph adversarial convolutional networks for traffic flow forecasting

[J]. Journal of the Franklin Institute, 2024, 361 (17): 107299

DOI:10.1016/j.jfranklin.2024.107299      [本文引用: 3]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. (2023–08–02)[2024–07–23]. https://arxiv.org/pdf/1706.03762.

[本文引用: 3]

JIANG J, HAN C, ZHAO W X, et al

PDFormer: propagation delay-aware dynamic long-range transformer for traffic flow prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (4): 4365- 4373

DOI:10.1609/aaai.v37i4.25556      [本文引用: 1]

LIU H, DONG Z, JIANG R, et al. Spatio-temporal adaptive embedding makes vanilla transformer SOTA for traffic forecasting [C]// Proceedings of the 32nd ACM International Conference on Information and Knowledge Management . Birmingham: ACM, 2023: 4125–4129.

[本文引用: 1]

GAO H, JIANG R, DONG Z, et al. Spatial-temporal-decoupled masked pre-training for spatiotemporal forecasting [EB/OL]. (2024–04–28)[2024–07–23]. https://arxiv.org/pdf/2312.00516.

[本文引用: 1]

DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . Minneapolis: ACL, 2019: 4171–4186.

[本文引用: 1]

BAO H, DONG L, PIAO S, et al. BEiT: BERT pre-training of image transformers [EB/OL]. (2022–09–03)[2024–07–23]. https://arxiv.org/pdf/2106.08254.

[本文引用: 1]

NIE Y, NGUYEN N H, SINTHONG P, et al. A time series is worth 64 words: long-term forecasting with transformers [EB/OL]. (2023–03–05)[2024–07–23]. https://arxiv.org/pdf/2211.14730.

[本文引用: 1]

WANG Z, LIU J C

Translating math formula images to LaTeX sequences using deep neural networks with sequence-level training

[J]. International Journal on Document Analysis and Recognition, 2021, 24 (1/2): 63- 75

[本文引用: 1]

LI M, ZHU Z

Spatial-temporal fusion graph neural networks for traffic flow forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35 (5): 4189- 4196

DOI:10.1609/aaai.v35i5.16542      [本文引用: 1]

GUO S, LIN Y, FENG N, et al

Attention based spatial-temporal graph convolutional networks for traffic flow forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33 (1): 922- 929

DOI:10.1609/aaai.v33i01.3301922      [本文引用: 1]

LAN S, MA Y, HUANG W, et al. DSTAGNN: dynamic spatial-temporal aware graph neural network for traffic flow forecasting [C]// Proceeding of the 39th International Conference on Machine Learning . [S. l.]: PMLR, 2022, 162: 11906–11917.

[本文引用: 2]

GUO S, LIN Y, WAN H, et al

Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34 (11): 5415- 5428

DOI:10.1109/TKDE.2021.3056502      [本文引用: 2]

CHU Z, MA W, LI M, et al

Adaptive decision spatio-temporal neural ode for traffic flow forecasting with multi-kernel temporal dynamic dilation convolution

[J]. Neural Networks, 2024, 179: 106549

DOI:10.1016/j.neunet.2024.106549      [本文引用: 2]

/