浙江大学学报(工学版), 2025, 59(12): 2585-2592 doi: 10.3785/j.issn.1008-973X.2025.12.013

交通工程、土木工程

面向动态交通流量预测的自适应图注意Transformer

刘宇轩,, 刘毅志,, 廖祝华, 邹正标, 汤璟昕

1. 湖南科技大学 计算机科学与工程学院,湖南 湘潭 411201

2. 湖南科技大学 服务计算与软件服务新技术湖南省重点实验室,湖南 湘潭 411201

Adaptive graph attention Transformer for dynamic traffic flow prediction

LIU Yuxuan,, LIU Yizhi,, LIAO Zhuhua, ZOU Zhengbiao, TANG Jingxin

1. School of Computer Science and Engineering, Hunan University of Science and Technology, Xiangtan 411201, China

2. Hunan Key Laboratory for Service Computing and Novel Software Technology, Hunan University of Science and Technology, Xiangtan 411201, China

通讯作者: 刘毅志,男,副教授,博士. orcid.org/0000-0002-5052-2582. E-mail:yizhi_liu@sina.cn

收稿日期: 2024-10-29  

基金资助: 教育部人文社会科学研究规划基金资助项目(24YJAZH237);湖南省重点研发计划资助项目 (2023SK2081); 湖南省自然科学基金资助项目(2024JJ5163);湖南省教育厅科学研究重点资助项目(22A0341).

Received: 2024-10-29  

Fund supported: 教育部人文社会科学研究规划基金资助项目(24YJAZH237);湖南省重点研发计划资助项目(2023SK2081);湖南省自然科学基金资助项目(2024JJ5163);湖南省教育厅科学研究重点资助项目(22A0341).

作者简介 About authors

刘宇轩(1998—),男,硕士生,从事轨迹数据挖掘研究.orcid.org/0009-0008-6969-8036.E-mail:lyx_research@sina.cn , E-mail:lyx_research@sina.cn

摘要

针对现有基于图神经网络和注意力机制的交通流预测模型在处理复杂时空相关性、克服预定义图结构局限性以及捕捉周期性特征方面的不足,提出多时间尺度自适应图注意Transformer(MSAGAFormer)模型. 该模型将短期、中期和长期历史交通数据各自细分为低、中、高3种不同时间尺度的数据序列,并采用压缩机制以降低冗余信息、提升时序特征的表达效率. 通过设计时空嵌入方法对节点位置与时间特征进行编码,强化模型对时空数据的理解. 空间层采用基于GAT的多头注意力机制以建模动态空间相关性,时间层引入多尺度时间注意力结构以捕获不同时间粒度下的动态变化特征. 在PEMS数据集上的实验结果显示,MSAGAFormer在预测精度上优于目前较为先进的Trendformer、ATST-GCN、STTN等模型.

关键词: 智能交通系统 ; 交通流量预测 ; Transformer ; 自适应图 ; 多时间尺度

Abstract

Existing traffic flow prediction models based on graph neural networks and attention mechanisms have shortcomings in capturing complex spatiotemporal dependencies, overcoming the constraints of predefined graph structures, and modeling periodic patterns. Thus, a multi-scale adaptive graph attention Transformer (MSAGAFormer) was proposed. Short-, medium-, and long-term historical traffic data were divided into low-, medium-, and high-scale temporal sequences, and a compression mechanism was employed to reduce redundant information and enhance the efficiency of temporal feature representation. A spatiotemporal embedding method was designed to encode node positions and temporal attributes, thereby strengthening the model’s capability to interpret spatiotemporal data. A GAT-based multi-head attention mechanism was utilized in the spatial layer to model dynamic spatial correlations, while a multi-scale temporal attention structure was incorporated in the temporal layer to capture dynamic variations across different temporal granularities. Experimental results on the PEMS datasets demonstrated that MSAGAFormer outperformed state-of-the-art models such as Trendformer, ATST-GCN, and STTN in prediction accuracy.

Keywords: intelligent transportation system ; traffic flow prediction ; Transformer ; adaptive graph ; multi-time scale

PDF (831KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘宇轩, 刘毅志, 廖祝华, 邹正标, 汤璟昕. 面向动态交通流量预测的自适应图注意Transformer. 浙江大学学报(工学版)[J], 2025, 59(12): 2585-2592 doi:10.3785/j.issn.1008-973X.2025.12.013

LIU Yuxuan, LIU Yizhi, LIAO Zhuhua, ZOU Zhengbiao, TANG Jingxin. Adaptive graph attention Transformer for dynamic traffic flow prediction. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2585-2592 doi:10.3785/j.issn.1008-973X.2025.12.013

交通流量预测在智能交通系统(intelligent transportation system,ITS)中据有至关重要的地位[1]. 它不仅能有效减轻交通拥堵状况,还能显著提升交通系统的运行效率及安全性[2].

近年来,随着图卷积神经网络(graph convolutional network,GCN)[3]、图注意网络(graph attention network,GAT)[4]以及扩散卷积递归神经网络(diffusion convolutional recurrent neural network,DCRNN)[5]等图神经网络在处理图数据方面的显著进步,时空图神经网络逐渐应用于交通流量预测领域. 例如,Li等[5]将交通流建模为有向图上的扩散过程,采用双向图随机游走来建模空间依赖性,并利用递归神经网络(recurrent neural network,RNN)来捕捉时间依赖性. Zhao等[6]将GCN和门控循环单元(gated recurrent unit,GRU)组合起来,成功同时捕获了时空依赖关系. Yu等[7]设计了融合空间图卷积和时间序列的时空卷积模块,有效模拟了交通网络的连通性与全局性. Zuo等[8]提出的GCN-M模型结合图卷积网络和基于注意力的记忆网络,解决了交通数据中复杂的缺失值问题,并增强了对局部和全局模式的处理能力. Shin等[9]提出的渐进图卷积网络框架(PGCN),通过构建渐进邻接矩阵来捕捉空间相关性,处理复杂的时空相关性问题.

一些研究人员将注意力机制扩展到交通预测,用于动态地对不同时间步长的重要性进行建模. 例如,Yu等[10]提出注意时间图卷积网络(A3T-GCN),该模型在T-GCN的基础上,设计了一种注意力机制来分配不同时间步长的权重. Xu等[11]通过叠加空间Transformer和时间Transformer的方式,有效实现了时空信息的有效融合;Jiang等[12]引入空间自注意力模块,该模块结合了多种图掩蔽技术以捕捉局部地理信息和全局语义邻域,并专门设计了交通延迟感知特征转换模块,用于建模空间信息传播中的时间延迟. Wu等[13]提出分解式的架构,专门用于处理长期的时间依赖性问题,并引入自相关机制,旨在提高计算效率和数据利用效率. Bai等[14]引入新的编码器模块,旨在有效缓解处理长序列数据时常见的梯度爆炸问题. Ren等[15]将Transformer与GRU相结合,以捕捉历史交通数据中的长期时间模式.

尽管上述方法在探索交通道路网络的时空特征上取得了一定的成效,但仍然存在一些挑战:1)先前的研究大多倾向于使用独立的模块分别捕捉空间相关性和时间相关性,随后将两者结果加以融合. 这种处理策略未能将空间和时间作为统一的整体来考虑,因而难以有效捕获交通流中复杂的时空交互关系. 2)以往工作在空间相关性建模上普遍采用基于距离度量或者地理连接关系的预定义图来刻画路网节点间的空间依赖关系. 这种静态且固定不变的图结构无法充分反映实际交通流的动态关联性. 3)大多现有方法或模型往往只关注短期内的交通变化,而没有充分考虑中长期交通数据中存在的趋势和周期性模式.

为了应对上述挑战,本研究提出多时间尺度自适应图注意Transformer模型(multi-time scale adaptive graph atttention Transformer, MSAGAFormer). 创新点如下:1)为了更准确地处理复杂时空相关性,提出基于Transformer的交通流量预测模型. 该模型能够有效地捕获时间相关性和空间相关性. 2)为了克服预定义图的局限性,引入自适应图和节点相似度图,分别用于捕捉动态空间相关性和静态空间相关性. 此外,设计基于GAT的空间特征提取方法,以有效提取动静态的空间特征. 3)为了捕捉周期性特征,设计时空特征构建模块. 该模块由多时间尺度构建模块和时空特征聚合模块2部分组成. 多时间尺度构建模块整合了不同时间尺度的特征提取策略,以有效捕获多尺度时间特征. 时空特征聚合模块则是一种扩展至长时间序列的时间特征提取方法,能够在处理大量时间数据的同时,有效平衡数据冗余带来的精度下降风险.

1. 问题描述

交通流量预测任务是经典的时间序列预测任务. 在本研究中,使用基于最近、每日和每周周期长度为T的历史时间片作为输入序列. 具体而言,将3类输入序列融合为一个由$(a+b+g)$个子序列片段组成的输入序列. 此时,预测未来q个时间步的交通流量问题定义如下:

$ [{{{Y}}_{t{\text{+1}}}}, \cdots ,{{{Y}}_{t{\text+}q}}] = f({{\boldsymbol{X}}_{\text{w}}},g,{{\boldsymbol{X}}_{\text{d}}},b,{{\boldsymbol{X}}_{\text{r}}},a). $

式中:${{\boldsymbol{X}}_{\mathrm{r}}}$为最近周期片段,$a$为最近周期片段数量,$ {{\boldsymbol{X}}_{\mathrm{d}}} $为日周期片段,$b$为日周期片段数量,$ {{\boldsymbol{X}}_{\text{w}}} $为周周期片段,$g$为周周期片段数量.

相关概念的定义如下.

定义1 交通网络. 使用无向图$ G\text{=}(V,E,{{\boldsymbol{A}}}_{\text{dis}}, {{\boldsymbol{A}}}_{\text{adp}}) $来表示交通网络,其中,V表示图中的节点集,节点总数为NE表示节点之间的连通性;${{\boldsymbol{A}}_{{\text{dis}}}}$表示节点间静态空间相关性的预定义邻接矩阵;${{\boldsymbol{A}}_{{\text{adp}}}}$表示节点间动态空间相关性的自适应邻接矩阵.

定义2 交通流量矩阵. 交通网络${{G}}$t时刻记录的交通流量为交通流量矩阵${{\boldsymbol{X}}_t} = [ {{\boldsymbol{x}}_{t,1}},{{\boldsymbol{x}}_{t,2}}, \cdots , {{\boldsymbol{x}}_{t,n}}]$,其中$ {{\boldsymbol{x}}_{t,v}} $表示节点vt时刻的交通流量.

定义3 预定义邻接矩阵. 使用曼哈顿距离函数定义节点间的距离,并通过动态时间扭曲(DTW)计算每对节点的相关性,构建反映节点间静态空间相关性的预定义矩阵. 为了确保矩阵值的可比性,对矩阵进行归一化处理,并设定阈值为0.6. 当2个节点的相关性超过该阈值时,对应的矩阵元素值设为1;否则,设为0.

定义4 自适应邻接矩阵.通过节点嵌入向量的点积和Softmax归一化推断每对节点之间的空间依赖关系,并在训练过程中通过反向传播自动更新能够反映节点间动态空间相关性的自适应邻接矩阵. 与此同时,利用Gumbel-Sigmoid生成的二进制掩码确保自适应邻接矩阵的稀疏性.

2. MSAGAFormer架构

图1所示,本研究提出的MSAGAFormer架构包含时空特征构建层、时空特征嵌入层及堆叠的编码器-解码器层. 时空特征构建层通过多时间尺度构建模块和时空特征聚合模块,分别整合不同时间尺度特征并处理长时间序列数据以平衡精度下降风险;时空特征嵌入层采用时空嵌入方法编码时空位置,提供丰富上下文信息;编码器和解码器层利用空间GAT多头注意力模块捕捉动静态空间特征,利用时间一维卷积多头注意力模块捕捉局部时间模式,利用时间因果卷积模块捕获长期时间相关性,从而全面理解时空数据中的复杂模式.

图 1

图 1   MSAGAFormer架构图

Fig.1   Architecture of MSAGAFormer


2.1. 时空特征构建模块

2.1.1. 多时间尺度构建模块

交通模式随时间演变,而不同时间尺度的特征对预测的影响各不相同. 交通数据包含瞬时变化、短期波动、中期趋势和长期依赖等多尺度的时间特征[16-19]. 然而,现有方法通常仅关注单一的时间尺度,忽略动态的时间模式. 为了更精确地捕捉交通流的时间周期性和连续性,提出多时间尺度构建方法.

该方法将历史数据划分为短期、中期和长期,并融合这些多尺度数据以生成增强的时间序列作为后续模块的输入. 低尺度序列揭示局部变化趋势,对短期预测至关重要;中尺度序列捕捉趋势性变化,提取中期趋势特征;高尺度序列则反映周期性变化,有助于理解长期依赖. 通过串联3种尺度的序列[20],增强了对历史数据序列的表达能力. 此外,设置低尺度序列长度与相应的历史序列长度一致,中尺度序列长度和高尺度序列长度分别为低尺度序列长度的${1}/{2}$${1}/{3}$.

2.1.2. 时空特征聚合模块

时空特征聚合模块旨在将由多时间尺度构建模块得到的历史数据增强序列压缩成较短的表现形式,从而使得模型能够在不增加计算复杂度的情况下考虑长期的时间模式. 其结构如图2所示. 具体来说,TCN通过多层膨胀卷积逐步将长时间序列的历史数据浓缩为较短的时间步表示,从而捕捉长期依赖关系而不增加计算复杂度. TCN首先处理最近的数据,随着层数加深,卷积间隔逐渐增大,覆盖更久远的历史信息,最终生成富含长期趋势信息的时间特征表示. 其表达式如下:

图 2

图 2   时空聚合模块

Fig.2   Spatiotemporal aggregation module


$ \begin{split} {\text{TCN}}({\boldsymbol{X}}) =& \sum\limits_{k = 0}^{k - 1} \bigg(\sigma \Big({\boldsymbol{X}}\big[:,t - D \times k,:\big] \cdot {{\boldsymbol{W}}_{{\text{D1}}}}\big[k,:\big]\Big) \odot \\ &\tanh\; \Big({\boldsymbol{X}}\big[:t - D \times k,:\big] \cdot {{\boldsymbol{W}}_{{\text{D2}}}}\big[k,:\big]\Big)\bigg). \end{split} $

式中:$ \odot $表示元素乘法;k为卷积核大小;D为膨胀因子;WD1WD2分别表示TCN中2组可学习的卷积滤波器,分别对应Sigmoid分支和tanh分支;${{\boldsymbol{W}}_{{\rm{D1}}}}[k,:] $${{\boldsymbol{W}}_{{\rm{D2}}}}[k,:] $分别表示时间维度上第k个卷积位置处的权重向量;$ \sigma $为Sigmoid函数;$ {\boldsymbol{X}} $为历史数据增强序列经过全连接层后的结果.

SENet评估每个节点的重要性,并据此调整特征权重,强化关键位置的信息. SENet从压缩后的时间特征中提取全局信息,通过2层全连接层的非线性变换计算各节点的重要性,然后根据重要性调整原始特征,形成优化后的空间特征表示${\boldsymbol{X}}'_{\mathrm{SE}} $. 其计算方法如下:

$ {\boldsymbol{X}}_{{\text{SE}}}^{'} = {\text{TCN}}({\boldsymbol{X}}) \cdot \sigma ({{\boldsymbol{W}}_{{\text{e2}}}} \cdot {\text{ReLU}}({{\boldsymbol{W}}_{{\text{e1}}}} \cdot {{\boldsymbol{X}}_{{\text{AP}}}})). $

式中:$ {{\boldsymbol{W}}_{{\text{e1}}}} $$ {{\boldsymbol{W}}_{{\text{e2}}}} $为权重矩阵,$ {{\boldsymbol{X}}_{{\text{AP}}}} $为对$ {\text{TCN}}({\boldsymbol{X}}) $应用平均池化的结果.

2.2. 时空编码

与RNN不同,Transformer缺乏显式的序列顺序,因此须引入位置编码来捕获输入序列的位置信息.

MSAGAFormer从短期、中期和长期历史数据中捕捉多尺度交通模式,使模型能全面理解交通模式的变化. 这种方法不再局限于单一时间尺度的数据,还增强了对不同周期交通模式的理解. 其次,通过正弦和余弦函数生成的位置编码,模型能够有效处理序列中不同时间点的相对距离和顺序关系. 具体表达式如下:

$ {{\boldsymbol{P}}_{\text{T}}}(t,2d) = \sin \left({t}\big/{{{{10\;000}^{\tfrac{{2d}}{{{d_{{\text{model}}}}}}}}}}\right), $

$ {{\boldsymbol{P}}_{\text{T}}}(t,2d+1) = \cos \left({t}\big/{{{{10\;000}^{\tfrac{{2d}}{{{d_{{\text{model}}}}}}}}}}\right). $

式中:d为特征维度的索引,范围为0~${{{d_{{\text{model}}}}}}/{2} - 1$${d_{{\text{model}}}}$为模型特征维度的大小.

利用图拉普拉斯矩阵的特征向量来编码节点的位置信息,不仅考虑直接连接关系,还捕捉更广泛的拓扑结构信息. 具体计算公式如下:

$ {\boldsymbol{\varDelta }} = {\boldsymbol{I}} - {\boldsymbol{D}}_{\text{m}}^{ - {1}/{2}}{{\boldsymbol{A}}_{{\text{adp}}}}{\boldsymbol{D}}_{\text{m}}^{ - {1}/{2}} = {{\boldsymbol{U}}^{\text{T}}} \wedge {\boldsymbol{U}}. $

式中:$ {\boldsymbol{I}} $为单位矩阵,$ {{\boldsymbol{D}}_{\text{m}}} $为度矩阵, $ {\boldsymbol{U}} $为特征向量. 此外,为每个节点选择${d_{{\text{model}}}}$个最小的非平凡特征向量作为空间位置编码$ {{\boldsymbol{P}}_{\text{S}}} $.

通过将时间特征、时间位置编码和空间位置编码进行线性组合,并引入可学习的投影矩阵,以确保模型不仅能有效捕捉时间序列中的动态演化规律,还能同时建模空间节点之间的静态与动态关联. 该设计显著增强了模型对复杂时空依赖关系的表达能力. 融合上述3类信息后所得到的统一时空表示${\boldsymbol{X}}'_{{\rm{Emb}}}$的具体表达式如下:

$ {\boldsymbol{X}}_{{\text{Emb}}}^{'} = {\boldsymbol{X}}_{{\text{SE}}}^{'}+{{\boldsymbol{P}}_{\text{T}}}+{{\boldsymbol{P}}_{\text{S}}} \cdot {{\boldsymbol{W}}^{{{\boldsymbol{P}}_{\text{S}}}}}. $

式中:$ {{\boldsymbol{W}}^{{{\boldsymbol{P}}_{\text{S}}}}} $表示空间位置编码的线性投影.

2.3. 编码器与解码器

通过编码器和解码器捕捉交通数据中复杂的时空相关性. 其中,编码器层由1个时间一维卷积多头注意力模块和1个空间GAT多头注意力模块组成. 解码器层包括1个因果卷积时间多头注意力模块、1个空间GAT多头注意力模块和1个时间门控卷积模块.

2.3.1. 时间特征提取

在编码器中,采用一维时间卷积捕捉交通数据中的局部趋势和复杂的时间依赖性. 这种方法通过参数共享提高了计算效率,减少了过拟合风险,并能同时提取时间特征和节点间的空间关系. 具体来说,输入的时空特征被分解为每个节点的时间序列,然后应用一维卷积生成增强特征表示,这些表示保留了原始序列的局部结构并提升了对时间变化的理解. 经过卷积处理的特征参与多头自注意力机制,帮助模型建模不同时间步之间的依赖关系.

解码器采用因果卷积确保预测仅依赖于当前及过去的时间步,避免泄露未来信息. 通过在前端填充零值,保持严格的因果顺序,从而更好地理解长期依赖而不引入未来偏差. 解码器接收来自编码器的输出序列,并通过因果卷积处理每一时间步. 随后,模型计算编码器输出与因果卷积多头注意力模块输出之间的关联,增强了对时间特征的理解. 最终,时间门控卷积模块有效融合局部和全局的时间依赖关系.

2.3.2. 时间门控卷积模块

图3所示,时间门控卷积模块旨在增强模型处理长时间序列数据的能力,通过结合一维卷积和因果卷积,确保在长序列处理中的稳定性和防止梯度爆炸或消失问题. 一维卷积捕捉局部时间模式,而因果卷积捕捉长期时间依赖性,确保预测仅基于过去信息. 这种组合使模型能够全面理解复杂的时间序列模式.

图 3

图 3   时空门控卷积模块

Fig.3   Spatiotemporal gated convolution module


具体而言,首先,输入的时间特征表示分别为编码器的输出${{\boldsymbol{X}}_{{\text{En}}}}$和因果卷积多头注意力模块的输出${{\boldsymbol{X}}_{{\text{TC}}}}$,分别经过卷积核${{\boldsymbol{\varPhi }}_{{\text{En}}}}$${{\boldsymbol{\varPhi }}_{{\text{TC}}}}$进行卷积操作,即${{\boldsymbol{\varPhi }}_{{\text{En}}}} \otimes {{\boldsymbol{X}}_{{\text{En}}}}$${{\boldsymbol{\varPhi }}_{{\text{TC}}}} \otimes {{\boldsymbol{X}}_{{\text{TC}}}}$,随后使用一个函数计算门控信号$ g\odot \sigma ({{\boldsymbol{\varPhi}} }_{\text{En}}\otimes {{\boldsymbol{X}}}_{\text{En}}) $,以动态地调整不同时间步特征的重要性. 最终,将门控信号应用于因果卷积模块的输出,并与编码器输出进行加权求和,得到时间门控卷积模块的输出,具体公式如下:

$ \text{TGC}({{\boldsymbol{X}}}_{\text{En}}\text{,}{{\boldsymbol{X}}}_{\text{TC}})\text=g\odot ({{\boldsymbol{\varPhi}} }_{\text{TC}}\otimes {{\boldsymbol{X}}}_{\text{TC}})\text+ ({1-}g)\odot {{\boldsymbol{X}}}_{\text{En}}. $

2.3.3. 空间GAT多头注意力模块

选用GAT作为空间依赖的捕捉策略,因其通过引入注意力机制,能够基于邻居节点特征动态分配差异化权重. GAT利用多头注意力机制在多个特征子空间中独立处理注意力分布,这不仅减轻了模型过拟合倾向,还增强了学习稳定性. 编码器结合空间GAT多头注意力模块和自适应图邻接矩阵,评估节点间的动态空间相关性,不仅限于直接连接的节点,从而能捕捉远距离节点之间的潜在联系.

解码器的任务是基于编码器输出和部分已知未来信息逐步生成精确预测. 为了确保准确性,解码器关注当前和邻近节点的状态变化. 通过空间GAT多头注意力模块和预定义图邻接矩阵提取静态空间特征,并集中处理目标节点附近的动态变化. 这种设计有助于理解局部动态特性,减少计算复杂度,并有效捕捉局部模式.

3. 实验结果

3.1. 实验数据集与实验环境

为了验证本研究提出的方法,在美国加州数据集PEMS04和PEMS08上进行实验. PEMS数据集包含3种特征,即流量、速度和占有率. 这些数据集的相关信息如表1所示. 其中,ns为传感器数量,to为采样间隔. PEMS04是2018年1—2月旧金山湾区307个检测点收集到的交通数据;PEMS08是2018年7—8月圣贝纳迪诺170个检测点收集到的交通数据. 这些数据被整理成每5 min一条记录. 此外,采用标准归一化对数据进行处理,并按照6∶2∶2的比例随机划分训练集、验证集和测试集. 为了评估模型的泛化性能,生成多组不同的验证集,并在每组验证集上计算评价指标的平均值.

表 1   数据集描述

Tab.1  Dataset description

数据集nsto/min时间戳时间范围
PEMS043075169922018/01/01—2018/02/28
PEMS081705178562018/07/01—2018/08/31

新窗口打开| 下载CSV


硬件平台如下:11th Gen Intel(R) Core(TM) i7-1195G7 @ 2.90GHz 2.92 GHz 处理器,NVIDIA GeForce MX450 GPU. 软件配置如下:Windows 10操作系统,Anaconda3资源管理,Pycharm IDE,Pytorch 2.4.0深度学习框架,Python语言开发.

3.2. 评价指标

采用2个评估指标以评估模型性能:均方根误差(RMSE)和平均绝对误差(MAE). 具体计算公式如下:

$ {\mathrm{RMSE}} = \left[ {\dfrac{1}{n}{{\sum\nolimits_{i = 1}^n {\left( {{{\hat Y}_i} - {Y_i}} \right)^2} }}}\right]^{1/2} , $

$ {\mathrm{MAE}} = \dfrac{1}{n}\sum\nolimits_{i = 1}^n {\left| {{{\hat Y}_i} - {Y_i}} \right|} . $

式中:$ n $为样本总数;$ {Y_i} $为真实值,即实际观测到的交通流量;$ {\hat Y_i} $为预测值,即模型预测的交通流量.

3.3. 实验结果对比与分析

3.3.1. 对比实验

为了验证所提模型的预测性能,选取以下7种基于深度学习的交通流量预测模型作为基线模型,并在PEMS04和PEMS08这2个数据集上进行对比实验.

1)STGCN[7]:通过结合空间域的图卷积网络和时域的一维卷积网络,构建完整的卷积模块结构,用于提取时空特征.

2)T-GCN[6]:利用GCN与GRU单元相结合,分别提取交通数据中的空间相关性与时间相关性.

3)DCRNN[5]:采用扩散卷积网络来学习交通流数据的空间信息,并使用序列到序列模型来捕获时间序列.

4)DMSTGCN[21]:高级的时空图卷积网络模型,专注于动态和多维度的时空数据处理.

5)Trendformer[22]:沿用Transformer的编码器-解码器结构,其中编码器结构对输入交通流进行编码以计算出平均趋势,而解码器则基于此趋势输出预测结果.

6) STTN[11]:构建空间Transformer与时间Transformer的神经网络架构,通过自注意力机制动态捕捉交通网络中节点间的空间依赖以及长期依赖关系.

7)ATST-GCN[23]:采用基于注意力的双向GRU提取时间依赖,并通过多层GAT卷积模块捕获空间依赖,同时整合天气和道路属性作为辅助信息.

表23所示分别展示了在PEMS04和PEMS08数据集上,不同模型使用RMSE和MAE作为评价指标的对比结果. 其中,Tp为实际预测时长. 实验结果表明,尽管STGCN、T-GCN、DCRNN和DMSTGCN等时空图卷积模型同时考虑了时间相关性和空间相关性,但它们在处理长期时间依赖方面存在局限,且忽视了动态的时空相关性. 相比之下,MSAGAFormer通过集成GAT和Transformer网络,将时空特征整体建模,显著提升了对时空特征及长期依赖关系的捕捉能力,从而提高了预测精度. 虽然Trendformer、ATST-GCN和STTN设计了时空特征提取模块以综合捕获交通流的时空相关性,但这些方法未能充分利用中长期历史数据中的趋势性和周期性特征或多时间尺度特征. MSAGAFormer不仅关注中长期历史数据,还通过多时间尺度构建模块捕获多时间尺度特征,进一步提升了预测准确性. 此外,在短期(15 min)交通流量预测中,MSAGAFormer与STTN表现相当,但在中长期预测中MSAGAFormer表现出更优性能. 在2个数据集上,MSAGAFormer始终保持最低的RMSE和MAE,尤其在PEMS08数据集上的45 min和60 min预测中性能提升更为显著,显示出其在不同数据集上的稳定性和良好的适应性.

表 2   PEMS04数据集上不同模型的RMSE和MAE对比结果

Tab.2  Comparison results of RMSE and MAE for different models on PEMS04 dataset

模型Tp=15 minTp=30 minTp=45 minTp=60 min
RMSEMAERMSEMAERMSEMAERMSEMAE
STGCN30.4919.9833.2321.4636.8724.4839.4126.93
T-GCN29.3920.3232.7921.9436.2724.0639.8827.27
DCRNN28.6519.0632.7222.0935.7423.8941.1928.51
DMSTGCN28.0218.8131.4621.0234.3822.6438.6726.15
Trendformer27.4718.6230.5920.5633.5322.3234.1723.54
STTN26.9517.9829.7619.4831.2821.7633.3522.43
ATST-GCN27.3218.4530.1920.0730.2421.0332.4922.17
MSAGAFormer25.7816.3327.5117.4227.1317.9428.8918.76

新窗口打开| 下载CSV


表 3   PEMS08数据集上不同模型的RMSE和MAE对比结果

Tab.3  Comparison results of RMSE and MAE for different models on PEMS08 dataset

模型Tp=15 minTp=30 minTp=45 minTp=60 min
RMSEMAERMSEMAERMSEMAERMSEMAE
STGCN26.9819.7729.4721.5232.8724.1434.5925.97
T-GCN25.3420.2228.7422.4133.0525.3235.1527.64
DCRNN24.4617.9327.5920.3731.4923.7832.9225.13
DMSTGCN24.0117.5826.8919.8429.3422.0831.7324.68
Trendformer23.7117.3326.1519.5428.8421.8530.5824.06
STTN22.7816.9525.4819.1627.3820.9229.0422.87
ATST-GCN23.5817.2625.5819.2827.1620.7928.7822.67
MSAGAFormer21.8716.0523.8717.2625.1317.7626.6319.14

新窗口打开| 下载CSV


3.3.2. 消融实验

为了探究所提模型各组件的作用,设计了5种变体,并在PEMSE04和PEMS08数据集上进行消融实验. 如表45所示分别展示了在PEMS04和PEMS08数据集上,不同变体使用RMSE和MAE作为评价指标的消融结果.

表 4   PEMS04数据集上不同变体的RMSE和MAE对比结果

Tab.4  Comparison results of RMSE and MAE for different variants on PEMS04 dataset

模型Tp=15 minTp=30 minTp=45 minTp=60 min
RMSEMAERMSEMAERMSEMAERMSEMAE
w/o MH26.7618.1230.1420.3436.2523.0536.1726.77
w/o LH28.6719.7831.6621.3129.4319.3230.4319.71
w/o LM33.3227.0328.3218.7629.1219.4535.4125.88
w/o adp27.0117.6828.6318.5929.8919.6930.8320.89
w/o dis27.3818.1228.9618.9630.1220.4331.2521.54
MSAGAFormer25.7816.3327.5117.4227.1317.9428.8918.76

新窗口打开| 下载CSV


表 5   PEMS08数据集上不同变体的RMSE和MAE对比结果

Tab.5  Comparison results of RMSE and MAE for different variants on PEMS08 dataset

模型Tp=15 minTp=30 minTp=45 minTp=60 min
RMSEMAERMSEMAERMSEMAERMSEMAE
w/o MH22.9616.7825.6119.3229.2520.4534.7326.33
w/o LH24.0817.5824.2618.0627.1319.0831.9322.14
w/o LM29.7220.4726.3419.8628.7119.4327.6520.42
w/o adp23.7316.9724.5818.7527.1619.1430.6920.04
w/o dis27.3818.1228.9618.9630.1220.4331.2521.54
MSAGAFormer21.8716.0523.8717.2625.1317.7626.6319.14

新窗口打开| 下载CSV


本研究去除时空构建模块中的多时间尺度特征,分别使用单一低时间尺度(w/o MH)、单一中时间尺度(w/o LH)和单一高时间尺度(w/o LM)进行交通流量预测,以探讨不同时间尺度对预测精度的影响. 实验结果表明,低时间尺度特征有助于捕捉瞬时变化,适用于短期预测;中时间尺度特征能够反映较长时间段内的趋势变化,适合中期预测;高时间尺度特征则擅长捕捉周期性和长期趋势,适用于长期预测. 这些结果验证了多时间尺度在提取不同类型时间特征上的重要性. 此外,本研究还评估了自适应图和预定义图的作用. 通过去除自适应图(w/o adp),仅使用传统的预定义图建模交通网络的空间相关性,以及去除预定义图(w/o dis),仅使用自适应图建模空间相关性. 实验结果表明,两者各自捕捉了不同的空间相关性. 自适应图能够动态反映节点之间的实时关联,捕捉动态的空间特征,这对于捕捉交通网络中的瞬时变化至关重要. 而预定义图提供了相对稳定的静态拓扑信息,有助于理解交通网络的基本结构关系. 通过观察这2组变体的实验结果,可以明显看出自适应图和预定义图对预测性能的重要影响.

综上所述,MSAGAFormer通过结合多时间尺度特征、自适应图以及预定义图,在所有预测时间段内保持了最佳性能,证明了这些组件在提升预测精度方面的互补作用,展示了其在处理复杂时空依赖关系上的优势.

3.3.3. 测试集可视化

为了更直观地展示本研究所提模型在测试集上的预测表现,选择PEMS04数据集上第115号传感器作为可视化对象,展示MSAGAFormer在测试集上的预测结果与真实值的对比情况. 具体的可视化结果如图4所示. 其中,F为交通流量,T为时间段.

图 4

图 4   测试集预测可视化示例

Fig.4   Visual example of test set prediction


4. 结 语

提出新的多时间尺度自适应图注意Transformer(MSAGAFormer),并设计了时空特征构建模块. 在PEMS数据集上的实验验证表明,所提模型在预测交通流量上表现出显著的有效性,并且相较于现有的一些先进方法,在预测精度上实现了一定提升.

所提模型仍有较大的优化空间,包括:1) 尚未考虑交通事故信息、天气信息及节假日等外部因素,限制了复杂现实场景中的预测准确性;2) 模型性能高度依赖于历史数据的质量和完整性,数据缺失或异常值可能影响预测可靠性;3) 复杂的时空特征提取和多头注意力机制导致较高的计算资源需求,限制其在资源受限环境中的应用. 计划通过持续的研究与创新来克服上述挑战,从而使所提出的模型能够在实际应用场景中发挥更卓越的性能和更高的可靠性.

参考文献

NAHELIYA B, REDHU P, KUMAR K

A review on developments in evolutionary computation approaches for road traffic flow prediction

[J]. Archives of Computational Methods in Engineering, 2025, 32 (3): 1499- 1523

DOI:10.1007/s11831-024-10189-1      [本文引用: 1]

GOMES B, COELHO J, AIDOS H

A survey on traffic flow prediction and classification

[J]. Intelligent Systems with Applications, 2023, 20: 200268

DOI:10.1016/j.iswa.2023.200268      [本文引用: 1]

ZHANG S, TONG H, XU J, et al

Graph convolutional networks: a comprehensive review

[J]. Computational Social Networks, 2019, 6 (1): 11

DOI:10.1186/s40649-019-0069-y      [本文引用: 1]

SUN C, LI C, LIN X, et al

Attention-based graph neural networks: a survey

[J]. Artificial Intelligence Review, 2023, 56 (2): 2263- 2310

[本文引用: 1]

LI Y, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting [C]// 6th International Conference on Learning Representations. Vancouver: MIT Press, 2018: 1−16.

[本文引用: 3]

ZHAO L, SONG Y, ZHANG C, et al

T-GCN: a temporal graph convolutional network for traffic prediction

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (9): 3848- 3858

DOI:10.1109/TITS.2019.2935152      [本文引用: 2]

YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting [C]// 27th International Joint Conference on Artificial Intelligence. Stockholm: International Joint Conferences on Artificial Intelligence Organization, 2018: 3634−3640.

[本文引用: 2]

ZUO J, ZEITOUNI K, TAHER Y, et al

Graph convolutional networks for traffic forecasting with missing values

[J]. Data Mining and Knowledge Discovery, 2023, 37 (2): 913- 947

DOI:10.1007/s10618-022-00903-7      [本文引用: 1]

SHIN Y, YOON Y

PGCN: progressive graph convolutional networks for spatial–temporal traffic forecasting

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (7): 7633- 7644

DOI:10.1109/TITS.2024.3349565      [本文引用: 1]

YU W, HUANG X, QIU Y, et al

GSTC-Unet: a U-shaped multi-scaled spatiotemporal graph convolutional network with channel self-attention mechanism for traffic flow forecasting

[J]. Expert Systems with Applications, 2023, 232: 120724

DOI:10.1016/j.eswa.2023.120724      [本文引用: 1]

XU M, DAI W, LIU C, et al. Spatial-temporal transformer networks for traffic flow forecasting [EB/OL]. (2021−05−29). https://arxiv.org/abs/2001.02908.pdf.

[本文引用: 2]

JIANG J, HAN C, ZHAO W X, et al

PDFormer: propagation delay-aware dynamic long-range transformer for traffic flow prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (4): 4365- 4373

DOI:10.1609/aaai.v37i4.25556      [本文引用: 1]

WU H, XU J, WANG J, et al

Autoformer: decomposition transformers with auto-correlation for long-term series forecasting

[J]. Advances in Neural Information Processing Systems, 2021, 34: 22419- 22430

[本文引用: 1]

BAI J, ZHU J, SONG Y, et al

A3T-GCN: attention temporal graph convolutional network for traffic forecasting

[J]. ISPRS International Journal of Geo-Information, 2021, 10 (7): 485

DOI:10.3390/ijgi10070485      [本文引用: 1]

REN Q, LI Y, LIU Y

Transformer-enhanced periodic temporal convolution network for long short-term traffic flow forecasting

[J]. Expert Systems with Applications, 2023, 227: 120203

DOI:10.1016/j.eswa.2023.120203      [本文引用: 1]

GAO M, DU Z, QIN H, et al

Dynamic multi-scale spatial-temporal graph convolutional network for traffic flow prediction

[J]. Knowledge-Based Systems, 2024, 305: 112586

DOI:10.1016/j.knosys.2024.112586      [本文引用: 1]

CAI W, LIANG Y, LIU X, et al

MSGNet: learning multi-scale inter-series correlations for multivariate time series forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38 (10): 11141- 11149

DOI:10.1609/aaai.v38i10.28991     

LUO Q, HE S, HAN X, et al

LSTTN: a long-short term transformer-based spatiotemporal neural network for traffic flow forecasting

[J]. Knowledge-Based Systems, 2024, 293: 111637

DOI:10.1016/j.knosys.2024.111637     

WANG B, WANG J

ST-MGAT: spatio-temporal multi-head graph attention network for Traffic prediction

[J]. Physica A: Statistical Mechanics and its Applications, 2022, 603: 127762

DOI:10.1016/j.physa.2022.127762      [本文引用: 1]

汪鸣, 彭舰, 黄飞虎

基于多时间尺度时空图网络的交通流量预测模型

[J]. 计算机科学, 2022, 49 (8): 40- 48

[本文引用: 1]

WANG Ming, PENG Jian, HUANG Feihu

Multi-time scale spatial-temporal graph neural network for traffic flow prediction

[J]. Computer Science, 2022, 49 (8): 40- 48

[本文引用: 1]

HAN L, DU B, SUN L, et al. Dynamic and multi-faceted spatio-temporal deep learning for traffic speed forecasting [C]// 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [S. l. ]: ACM, 2021: 547−555.

[本文引用: 1]

HUANG L, ZHU F, LI Z. Trendformer: trend adaptive transformer for traffic flow prediction [C]// 5th International Conference on Data Science and Information Technology. Shanghai: IEEE, 2022: 1–6.

[本文引用: 1]

邹正标, 刘毅志, 廖祝华, 等

动态交通流量预测的时空注意力图卷积网络

[J]. 山东大学学报: 工学版, 2024, 54 (5): 50- 61

[本文引用: 1]

ZOU Zhengbiao, LIU Yizhi, LIAO Zhuhua, et al

Attention-based spatio-temporal graph convolutional network for dynamic traffic flow prediction

[J]. Journal of Shandong University: Engineering Science, 2024, 54 (5): 50- 61

[本文引用: 1]

/