异质性解耦与特征分层建模驱动的交通流预测

doi:10.3785/j.issn.1008-973X.2026.06.005

异质性解耦与特征分层建模驱动的交通流预测

侯越^,, 谢金龙, 张琳栋, 尹杰, 王甜甜

兰州交通大学电子与信息工程学院，甘肃兰州 730070

Traffic flow prediction driven by heterogeneity decoupling and feature layered modeling

HOU Yue^,, XIE Jinlong, ZHANG Lindong, YIN Jie, WANG Tiantian

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

收稿日期: 2025-03-6

基金资助:

国家自然科学基金资助项目（62063014，62363020）.

Received: 2025-03-6

Fund supported:

国家自然科学基金资助项目（62063014，62363020）.

作者简介 About authors

侯越（1979—），女，教授，博导，从事大数据智能交通的研究.orcid.org/0000-0002-8289-329X.E-mail：houyue@mail.lzjtu.cn , E-mail：houyue@mail.lzjtu.cn

摘要

为了解决现有交通流预测模型难以捕捉不同时间片下的动态变化，且无法充分考虑不同区域流量分布的差异化特征的问题，提出新型的交通流预测模型CFHD-Former. 该模型引入自适应高频异质化模块和渐进调优机制，增强对不同时间片交通状态的适应性. 在捕捉时间异质化特征的基础上，利用核心流动点识别模块，根据节点流量特征来划分核心与非核心流动路网，通过空间编码器实现对2类路网的异质化建模. 在反向传播过程中引入频域自相关MAE损失函数，考虑预测序列不同时间步间的依赖关系，达到降低多步预测误差的目的. 实验结果表明，相较于最优的基线模型，在PEMS04、PEMS08及METRLA 3个数据集上，所提CFHD-Former模型的MAE分别降低了1.70%、4.58%、4.44%. 结果验证了CFHD-Former模型在复杂路网时空异质性建模方面的有效性，为城市交通流预测提供了新的解决方案.

关键词： 交通流预测 ; 时空异质性 ; 核心流动点识别 ; 异质化建模 ; 差异化特征

Abstract

A new traffic flow prediction model named CFHD-Former was proposed in order to address the limitations of existing traffic flow prediction models that struggle to capture dynamic variations across different time slices and cannot adequately consider the heterogeneous characteristics of traffic volume distributions across regions. An adaptive high-frequency heterogeneity module and a progressive optimization mechanism were introduced to enhance its adaptability to traffic states under different time slices. A core flow node identification module was employed building on the captured temporal heterogeneity feature in order to partition the road network into core and non-core flow networks based on nodal traffic flow characteristics. Heterogeneous modeling of the two types of road network was implemented via a spatial encoder. A frequency-domain autocorrelation MAE loss function was incorporated during backpropagation in order to consider the dependencies among different time steps within the prediction sequence, thereby reducing multi-step prediction errors. The experimental results demonstrated that the MAE of the proposed CFHD-Former model was reduced by 1.70%, 4.58% and 4.44% on the PEMS04, PEMS08 and METR-LA datasets, respectively compared with the best-performing baseline model. Results verified the effectiveness of CFHD-Former in modeling the spatio-temporal heterogeneity of complex road networks and provided a new solution for urban traffic flow prediction.

Keywords： traffic flow prediction ; spatio-temporal heterogeneity ; core flow point identification ; heterogeneous modeling ; heterogeneous characteristic

PDF (1709KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

侯越, 谢金龙, 张琳栋, 尹杰, 王甜甜. 异质性解耦与特征分层建模驱动的交通流预测. 浙江大学学报(工学版)[J], 2026, 60(6): 1185-1195 doi:10.3785/j.issn.1008-973X.2026.06.005

HOU Yue, XIE Jinlong, ZHANG Lindong, YIN Jie, WANG Tiantian. Traffic flow prediction driven by heterogeneity decoupling and feature layered modeling. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1185-1195 doi:10.3785/j.issn.1008-973X.2026.06.005

随着城市扩张和交通网络的复杂化，交通管理部门在应急响应中面临效能提升的挑战. 智能交通系统通过交通流预测技术分析道路运行与异常情况，为管理决策者提供预警信息，推动交通应急管理的信息化升级.

交通流预测方法经历了统计学^[1]、机器学习^[2]和深度学习3个发展阶段. 深度学习因能建模复杂非线性关系而被广泛应用，如循环神经网络（RNN）^[3]、长短时记忆网络（LSTM）^[4]及注意力机制（Self Attention）^[5]等，但这类方法忽视节点间的空间依赖关系. 近年来，结合卷积神经网络（CNN）、图神经网络（GNN）及图卷积网络（GCN）^[6]等时空预测方法，解决了该问题. Li等^[7]提出结合GCN与LSTM混合模型，通过联合建模时空特征来预测流量. Kong等^[8]通过识别道路网络中的重要节点，融合余弦相似度和地理邻接关系构建邻接矩阵，捕捉时空依赖. 这2种基于预定义拓扑结构和相似性度量的方法难以适应不同区域交通流模式及不同时间片变化规律的差异，复杂的时空异质性限制了模型的适应性和通用性.

为了解决上述问题，Shao等^[9]引入时空标识信息，结合MLP网络，解决流量序列的时空不可区分性问题. 下游处理结构简化限制了特征表征能力. Dong等^[10]引入元学习技术，依赖兴趣点（POI）的辅助特征提升精度，却因依赖高维元参数池，导致计算和内存开销大，难以处理大规模数据. Pholsena等^[11]提出轻量级多断面预测框架，人工选取关键路段，结合经验模态分解与CNN，建模时空异质特征，却忽略非显著路段的潜在重要模式. 此外，现有模型的直接预测范式（通过一次性生成多个时间步进行预测）仅考虑历史时间步相关性，忽略预测序列内部依赖关系，限制了多步预测的表现.

现有方法在复杂路网的交通流预测中面临捕捉时空异质性特征与考虑预测序列内部依赖关系两大挑战. 为此，本文提出CFHD-Former模型. 通过自适应高频异质化模块提取时间序列高频特征，增强不同时间片段的可区分性，采用渐进调优策略，增强异质特征的识别能力. 利用核心流动点识别模块评估节点的流入流出能力，实现核心与非核心流动点差异化建模. 引入频域自相关MAE损失函数，将预测序列转换至频域，避免时间步之间的依赖，提高直接预测范式的精度.

1. 交通流时空异质性与预测序列自相关性的分析

1.1. 交通流时空异质性分析

交通流具有显著的时空异质性，具体分为空间异质性和时间异质性. 空间异质性是指同一时期不同空间位置的交通流变化模式存在差异. 如图1所示，选取洛杉矶市中心和住宅区的代表性节点，市中心与住宅区的流量时变特征如图2所示. 其中，t为时间步，v为交通流量，虚线左侧为工作日，虚线右侧为休息日. 市中心早晚高峰流量显著增长至峰值，反映出通勤需求集中；住宅区流量变化平稳，峰值特征不显著. 不同功能区交通流量的异质性突出；时间异质性体现在不同时间段交通数据的不一致性和变化规律的差异. 如图2所示，早晚高峰的交通流量高度集中，非高峰时段相对平稳；工作日和休息日的流量时变特征差异显著，表明不同时间片段的交通流变化模式存在明显的异质化.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 住宅区与市中心位置分布

Fig.1 Residential area and downtown distribution

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 市中心与住宅区的流量时变特征对比

Fig.2 Comparison of time-varying flow characteristic between downtown and residential area

1.2. 预测序列的自相关性分析

交通时间序列具有高度的自相关性，不同时间步间存在依赖关系，且该特性同时存在于输入序列和预测序列中. 在实际路网中，各节点交通流量数据的每个时刻仅有1个观测值，自相关性的计算依赖于特定时刻间的关系. 节点在$ t-s $与$ t $时刻的相关性的表达式为

(1)$ \lambda ({X}_{t-s},{X}_{t})={\displaystyle \sum \limits_{i=1}^{t-s}({X}_{i}-\beta )({X}_{i+s}-\beta )}/{\displaystyle \sum \limits_{j=1}^{t}{({{X}_{j}}-\beta )}^{2}}. $

式中：$ {X}_{t-s} $和$ {X}_{t} $分别为单个节点在$ t-s $和$ t $时刻的交通流量平均值，$ s $为时间间隔的步数，$ \beta $为节点的交通流量均值，$ \lambda $为自相关系数.

根据式（1），对PEMS08数据集中随机选择的6 个节点进行时间自相关性分析，结果如图3所示. 所有节点的自相关系数（ACF）均超过0.3，其中节点3和节点6的输入序列和预测序列ACF都大于0.7. 输入序列与预测序列在各节点均呈现出显著的自相关特征.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 输入-预测序列的自相关性分析

Fig.3 Autocorrelation analysis of input-prediction sequence

2. 问题定义

基于图结构理论构建路网节点关系模型，定义$ {G\boldsymbol{(V,E,A)}} $为含$ N $个节点的区域路网结构，其中$ \boldsymbol{V} $为节点集合，$ \boldsymbol{E} $为节点间边的集合，$ \boldsymbol{A} $为邻接矩阵. 设$ {\boldsymbol{X}}_{{t}}=\left[X_{t}^{1},X_{t}^{2},\cdots ,X_{t}^{N}\right] $为$ t $时刻$ N $个节点的交通流数据，$ \boldsymbol{X}=[{X}_{1},{X}_{2},\cdots ,{X}_{S}] $为过去$ S $个时间片段的交通流数据，$ \boldsymbol{Y}=\left[{X}_{S+1},{X}_{S+2},\cdots ,{X}_{S+T}\right] $为未来$ S $个时间片段的交通流数据. 交通流预测问题可以形式化为

(2)$ \left[X_{G}^{(t-T+1)},\cdots ,X_{G}^{(t)}\right]\xrightarrow{f}\left[X_{G}^{(t+1)},\cdots ,X_{G}^{(t+{T}^{\prime})}\right]. $

式中：$ f $为交通流预测模型. 通过历史$ S $个时间步的观测数据来预测未来$ S $个时间步的交通流量.

3. CFHD-Former模型的构建

提出高频动态交通流预测模型CFHD-Former，该模型的架构如图4所示. 为了解耦时空依赖性，避免联合训练中的时空特征耦合干扰，模型采用时间与空间维度依次建模的串联架构. 分别捕捉时空异质性与相关性，以实现特征的有效分离. 在时间维度，通过周期嵌入层编码周期性特征，经自适应高频异质化模块增强高频特征，由时间Transformer提取时间依赖特征. 空间维度建模提出特征差异化分层方法. 通过核心流动点识别模块解析交通网络拓扑，将路网节点划分为核心与非核心流动点. 针对核心流动点的强关联性，构建稀疏邻接矩阵，采用GCN建模显式空间依赖. 针对非核心流动点的潜在复杂空间关联，引入空间注意力机制，捕捉空间相关性. 通过自适应融合，实现2类节点表征的层级聚合. 此外，在模型训练中引入频域自相关MAE损失函数，通过频域变换将预测值与真实值从时域映射到频域，并从频域视角训练预测. 借由特征维度转换有效消除时域内时间步间的依赖关系，解决多步预测中无法考虑预测序列时间步间依赖关系的问题.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 CFHD-Former模型的架构图

Fig.4 Architecture diagram of CFHD-Former model

3.1. 时间特征提取

3.1.1. 周期嵌入层

在时间维度，为了更好地捕捉路网不同时间尺度的动态特征，结合当前交通流数据，构建包含日周期$ {\boldsymbol{T}}^{\text{D}} $、周周期$ {\boldsymbol{T}}^{\text{W}} $和原始特征$ {\boldsymbol{T}}^{\text{F}} $的多尺度时间表征. 嵌入层可以表示为

(3)$ \left.\begin{array}{l}{\boldsymbol{T}}^{\text{D}}=T{\boldsymbol{E}}^{\text{D}}{\boldsymbol{X}}^{\text{D}},\\ {\boldsymbol{T}}^{\text{W}}={\boldsymbol{E}}^{\text{W}}{\boldsymbol{X}}^{\text{W}},\\ {\boldsymbol{T}}^{\text{F}}=\text{FC}\;({\boldsymbol{X}}^{\text{F}}).\\ \end{array}\right\} $

(4)$ {\boldsymbol{T}}^{\text{emb}}={\boldsymbol{T}}^{\text{D}}+{\boldsymbol{T}}^{\text{W}}+{\boldsymbol{T}}^{\text{F}}. $

式中：$ {\boldsymbol{X}}^{\text{D}} $、$ {\boldsymbol{X}}^{\text{W}} $分别表示日嵌入和周嵌入，$ {\boldsymbol{X}}^{\text{F}} $为原始时间特征，$ T $为时间步长参数，$ {\boldsymbol{E}}^{\text{D}} $、$ {\boldsymbol{E}}^{\text{W}} $分别为日周期和周周期的特征变换矩阵，$ \text{FC} $为全连接层，$ {\boldsymbol{T}}^{\text{emb}} $为融合后的时间嵌入向量.

3.1.2. 自适应高频异质化模块

交通时间序列表现出显著的时间异质性，即不同时间段的交通模式及变化规律存在差异. 如早晚高峰与非高峰时段、白天与夜晚、工作日与休息日之间的交通流模式不同，导致模型难以有效地捕捉不同时段间的差异化特征.

提出自适应高频异质化模块，通过细化时间序列的高频成分和抑制低频成分，增强时间片段之间的差异性，提高模型对不同时间段的区分能力. 该模块的提出基于如下2个假设.

假设1. 时间序列可以解耦为高频分量与低频分量，表示为

(5)$ {\boldsymbol{X}}_{t}=\boldsymbol{X}_{t}^{\text{H}}\boldsymbol{X}_{t}^{\text{L}}. $

式中：$ {\boldsymbol{X}}_{t} $为原始时间序列在$ t $时刻的观测值，$ \boldsymbol{X}_{t}^{\text{H}} $和$ \boldsymbol{X}_{t}^{\text{L}} $分别为时间序列在$ t $时刻的高频分量和低频分量. 从信号角度分析可知，低频分量在一段时间内变化微小，但却是时间序列的主要成分，因此，不同时间片段间的差异性主要通过高频分量体现.

假设2. 低频分量的变化速率远远低于高频分量的变化速率，故低频分量在一段时间内可以近似为常数.

基于假设2，得出高频分量提取模块的推导式：

(6)$ \begin{split} \boldsymbol{X}_{t}^{\text{H}}=& \frac{\boldsymbol{X}_{t}^{\text{H}}-{E}(\boldsymbol{X}_{t}^{\text{H}})}{\sigma (\boldsymbol{X}_{t}^{\text{H}})}\cdot \sigma (\boldsymbol{X}_{t}^{\text{H}})+{E}(\boldsymbol{X}_{t}^{\text{H}})=\\& \frac{\boldsymbol{X}_{t}^{\text{L}}\cdot \boldsymbol{X}_{t}^{\text{H}}-\boldsymbol{X}_{t}^{\text{L}}\cdot {E}(\boldsymbol{X}_{t}^{\text{H}})}{\sigma (\boldsymbol{X}_{t}^{\mathrm{L}})\cdot \sigma (\boldsymbol{X}_{t}^{\mathrm{H}})}\cdot \sigma (\boldsymbol{X}_{t}^{\text{H}})+{E}(\boldsymbol{X}_{t}^{\text{H}})=\\ & \frac{{\boldsymbol{X}}_{t}-{E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\textit{L}})}{\sigma ({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})}\cdot \sigma (\boldsymbol{X}_{t}^{\text{H}})+{E}(\boldsymbol{X}_{t}^{\text{H}}).\end{split} $

式中：$ {\boldsymbol{X}}_{t} $为原始时间序列数据；$ {E}({\boldsymbol{X}}_{t}{}^{\text{H}}) $与$ \sigma (\boldsymbol{X}_{t}^{\text{H}}) $分别为时间序列的均值和方差，由可学习参数$ \alpha $和$ \beta $表示. 基于以上2个假设，可以近似推导得到

(7)$ \begin{split} {E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})=& {\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}\textit{X}_{t-{t}^{\prime}+1}^{\text{H}}\textit{X}_{t}^{\text{L}}= {\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}\textit{X}_{t-{t}^{\prime}+1}^{\text{H}}\textit{X}_{t-{t}^{\prime}+1}^{\text{L}}=\\ & {\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}{\textit{X}}_{t-{{t}^{\prime}}+1},\end{split} $

(8)$\begin{split} \sigma ({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})=& \sqrt{{E}\left[{({{\boldsymbol{X}}_{t}}-{E}({{\boldsymbol{X}}_{t}}\mid {\boldsymbol{X}_{t}^{\text{L}}}))}^{2}\mid \boldsymbol{X}_{t}^{\text{L}}\right]}=\\& \sqrt{{\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}{\left[\boldsymbol{X}_{t-{t}^{\prime}+1}^{\text{H}}\boldsymbol{X}_{t}^{\text{L}}-{E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})\right]}^{2}}=\\& \sqrt{{\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}{\left[\boldsymbol{X}_{t-{t}^{\prime}+1}^{\text{H}}\boldsymbol{X}_{t-{t}^{\prime}+1}^{\text{L}}-{E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})\right]}^{2}}=\\& \sqrt{{\textit{Δ}}^{-1}\sum \limits_{{t}^{\prime}=1}^{\textit{Δ}}{\left[{\boldsymbol{X}}_{t-{{t}^{\prime}}+1}-{E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})\right]}^{2}}.\end{split} $

式中：$ \varDelta $为低频分量近似保持为常数的时间段大小，本文设置为历史时间步的大小12. 结合式（6）~（8），可以推导得到高频特征提取的表达式：

(9)$ \boldsymbol{X}_{t}^{\text{H}}=\alpha \cdot \frac{{\boldsymbol{X}}_{t}-{E}({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})}{\sigma ({\boldsymbol{X}}_{t}\mid \boldsymbol{X}_{t}^{\text{L}})}+\beta . $

为了进一步增强模型对不同时间片段的适应性，提高时间异质性的感知能力，提出渐进调优机制. 从式（5）可知，高频特征提取主要受时间片均值和方差的影响，故该机制主要通过在训练过程中动态调整各时间段的均值和方差，以更有效地捕捉不同时间段的统计特性，实现模型的动态适应. 训练时的均值和方差更新公式为

(10)$ {{E}}({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{\text{r}}^\prime = m \cdot {{E}}({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}}) + ( 1 - m) \cdot {{E}}{({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{\text{r}}},$

(11)$ \sigma ({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{\text{r}}^\prime = n \cdot \sigma ({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}}) + (1 - m) \cdot \frac{n}{{n - 1}} \cdot \sigma {({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{\text{r}}}, $

(12)$ {{E}}{({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{{\text{final}}}} = {{E}}({{\boldsymbol{X}}_t}|{\boldsymbol{X}}_t^{\text{L}})_{\text{r}}^\prime , $

(13)$ \sigma {({{\boldsymbol{X}}_{t}}|{\boldsymbol{X}_{t}^{\text{L}}})}_{\text{final}}=\sigma ({\boldsymbol{X}}_{t}|\boldsymbol{X}_{t}^{\text{L}})_{\text{r}}^{\prime}. $

式中：$ {E}({\boldsymbol{X}}_{t}|\boldsymbol{X}_{t}^{\text{L}})_{\text{r}}^{\prime} $和$ \sigma ({\boldsymbol{X}}_{t}|\boldsymbol{X}_{t}^{\text{L}})_{\text{r}}^{\prime} $分别为更新后的均值和方差；$ {E}({\boldsymbol{X}}_{t}|\boldsymbol{X}_{t}^{\text{L}}) $和$ \sigma ({\boldsymbol{X}}_{t}|\boldsymbol{X}_{t}^{\text{L}}) $分别为当前批次的均值和方差，反映当前批次样本的统计特性与波动程度；$ {E}{({{\boldsymbol{X}}_{t}}|{\boldsymbol{X}_{t}^{\text{L}}})}_{{\mathrm{r}}} $和$ \sigma {({{\boldsymbol{X}}_{t}}|{\boldsymbol{X}_{t}^{\text{L}}})}_{\text{r}} $分别为调优前的均值和方差，表示累积的历史均值和方差；$ m $为动态更新率，取值为[0, 1.0]，用于平衡新数据和历史数据的贡献，本文设为0.2；$ n/(n-1) $为贝塞尔校正系数，用于样本方差的无偏估计，其中$ n $为当前批次样本的数量；$ {E}{({{\boldsymbol{X}}_{t}}|{\boldsymbol{X}_{t}^{\text{L}}})}_{\text{final}} $和$ \sigma {({{\boldsymbol{X}}_{t}}|{\boldsymbol{X}_{t}^{\text{L}}})}_{\text{final}} $分别为训练阶段最后一个批次的均值和方差.

通过上述更新方式，模型在训练阶段能够有效捕捉数据的动态变化特性，并在推理阶段利用更新后的统计量实现对时间序列异质性的动态建模.

3.1.3. 时间transformer层

采用时间Transformer，捕捉时间序列的自相关性. 模型主要包含时间注意力模块、归一化模块以及前馈网络层，结构如图5所示. 首先获得查询$ \boldsymbol{Q} $、键$ \boldsymbol{K} $和值$ \boldsymbol{V} $矩阵：

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 时间Transformer的结构

Fig.5 Architecture of temporal Transformer

(14)$ \boldsymbol{Q}=\boldsymbol{X}{\boldsymbol{W}}_{\text{Q}}{,}\quad{\boldsymbol{K}}^{\text{T}}{=\boldsymbol{X}}\boldsymbol{W}_{\text{K}}^{\text{T}}{,}\quad\boldsymbol{V}=\boldsymbol{X}{\boldsymbol{W}}_{\text{V}}. $

式中：$ \boldsymbol{X} $为输入数据，$ \boldsymbol{X}\in { \bf{R}}^{B\times T\times N\times C} $；$ {\boldsymbol{W}}_{\text{Q}} $、$ \boldsymbol{W}_{\text{K}}^{\text{T}} $、$ {\boldsymbol{W}}_{\text{V}} $为可学习参数. 在时间维度上应用自注意力操作，捕捉时间片段之间的时间依赖性，计算表达式为

(15)$ \text{TSA}(\boldsymbol{Q},{\boldsymbol{K}}^{\text{T}},\boldsymbol{V})=\text{softmax}\left(\frac{\boldsymbol{Q}\cdot {\boldsymbol{K}}^{\text{T}}}{\sqrt{{d}}}\right)\cdot \boldsymbol{V}. $

式中：$ \textit{d} $为输入向量的维度，$ \text{softmax} $为激活函数.

此外，时间注意力机制集成了层归一化和残差连接机制，增强模型的稳定性与关键特征的传递效果，从而更有效地提取时间依赖关系.

3.2. 空间特征提取

3.2.1. 核心流动点识别模块

空间异质性主要表现为特定区域（如学校、商场）在特定时段出现流量剧烈波动和显著的流入流出量变化. 将此类区域定义为“核心流动点”. 有效建模核心流动点与周边区域的复杂依赖关系是应对空间异质性的关键.

如图6所示为核心流动点流入流出能力的计算示意图. 其中心节点表示节点$ i $. 通过计算节点$ i $与过去若干时刻其他节点之间的相似度来评估流入能力；同理，利用未来若干时刻的相似度计算，可以评估流出能力.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 节点流入流出能力计算的示意图

Fig.6 Schematic diagram of node inflow and outflow capacity calculation

相似度计算公式为

(16)$ {\textit{T}}_{i,j}=\sum \limits_{t=1+d}^{s}\left({\textit{F}}_{i,t}\textit{F}_{j,t-d}\right)\cdot {\textit{W}}_{i,j}. $

式中：$ {\textit{T}}_{i,j} $为$ i $节点相对于$ j $节点的流入能力，即$ j $节点相对于$ i $节点的流出能力；$ {\textit{F}}_{i,t} $为第$ i $ 个节点在$ t $时刻的流量；$ d $为相邻时间间隔，此处取为1；$ {\textit{F}}_{j,t-d} $为前一时刻的流量；$ S $为时间步长；$ {\textit{W}}_{i,j} $为可学习参数.

节点$ i $的流入流出能力评分为流入能力值与流出能力值之和. 节点$ i $的评分表达式为

(17)$ G(i)=\sum \limits_{t=1+d}^{s}\left({\textit{T}}_{i,j}+{\textit{T}}_{j,i}\right). $

式中：$ G(i) $为节点$ i $的流入流出能力评分. 邵春福^[12]指出，约20%的主干道路承担了超过80%的跨区域交通流量. 基于此，将初始假定评分位于前20%的节点定义为交通网络的核心流动点. 该比例作为关键超参数对模型性能的影响，将在后续的关键超参数敏感性分析实验中详细论证.

3.2.2. 空间特征建模

基于已识别的核心流动点与非核心流动点，设计双分支空间特征提取框架，采用差异化建模策略. 对于核心流动点，因其流量大、关联范围广、拓扑结构稳定且具有代表性，采用图卷积方法建模空间依赖关系，以有效捕捉空间结构特征. 对于非核心流动点，流量较小，空间依赖关系更具有局部性和多样性，采用空间Transformer的自注意力机制灵活刻画复杂的依赖关系，捕捉更细粒度的空间交互特征，从而更准确地描述非核心流动点的局部依赖特性.

空间Transformer有着与时间Transformer相似的架构，主要包含空间注意力模块、归一化模块以及前馈网络层，结构如图7所示.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 空间Transformer的结构

Fig.7 Architecture of spatial Transformer

计算注意力时，与时间注意力不同的是，空间注意力主要针对节点特征间的注意力. 对输入张量进行维度互换，将$ \boldsymbol{X}\in {\bf{R}}^{B\times T\times N\times C} $变换为$ \boldsymbol{X}\in {\bf{R}}^{B\times N\times T\times C} $. 利用节点特征来生成查询$ \boldsymbol{Q} $、键$ \boldsymbol{K} $和值$ \boldsymbol{V} $矩阵：

(18)$ \boldsymbol{Q}=\boldsymbol{X}{\boldsymbol{W}}_{{{\boldsymbol{Q}}}},\;{\boldsymbol{K}}^{\text{T}}{=\boldsymbol{X}}\boldsymbol{W}_{{{\boldsymbol{K}}}}^{\text{T}},\;\boldsymbol{V}=\boldsymbol{X}{\boldsymbol{W}}_{{{\boldsymbol{V}}}}. $

式中：$ {\boldsymbol{W}}_{{{\boldsymbol{Q}}}} $、$ \boldsymbol{W}_{{{\boldsymbol{K}}}}^{\text{T}} $、$ {\boldsymbol{W}}_{{{\boldsymbol{V}}}} $为可学习参数. 在空间维度上，应用自注意力操作，捕捉不同位置节点的空间依赖性. 空间注意力的计算表达式为

(19)$ \text{SSA}(\boldsymbol{Q},{\boldsymbol{K}}^{\text{T}},\boldsymbol{V})=\text{softmax}\left(\frac{\boldsymbol{Q}\cdot {\boldsymbol{K}}^{\text{T}}}{\sqrt{{d}}}\right)\cdot \boldsymbol{V}. $

此外，空间注意力机制集成了层归一化和残差连接机制，增强模型的稳定性与关键特征的传递效果，从而更有效地提取空间依赖关系.

对于核心流动点，依据节点之间的相似度构建稀疏邻接矩阵. 该矩阵反映的是核心流动点与其他节点间的依赖关系. 计算表达式如下：

(20)$ {{N}}_{i,j}={\left(\sum \limits_{t=1+d}^{s}F_{i,t}^{2}\sum \limits_{t=1}^{s}F_{j,t-d}^{2}\right)}^{{1}/{2}}, $

(21)$ {\textit{A}}_{i,j}=\text{sigmoid}\;({\textit{T}}_{i,j}\textit{N}_{i,j}^{-1}). $

式中：$ {\textit{N}}_{i,j} $为归一化因子，$ {\textit{A}}_{i,j} $为邻接矩阵$ \boldsymbol{A} $中节点$ i $与节点$ j $之间的连接权重.

图卷积网络由于仅对核心流动点与其他节点之间的依赖关系进行建模，计算复杂度为$ O(TKN) $，其中$ K $为核心流动点的个数. 本文中$ K=N/4 $，故复杂度是原来图卷积网络的1/4. 图卷积运算的表达式为

(22)$ {\boldsymbol{R}}^{(l+1)}=\sum \limits_{k=1}^{d}\text{ReLU}\left({{\tilde{\boldsymbol{D}}}}^{-{1}/{2}}{\tilde{\boldsymbol{A}}}{{\tilde{\boldsymbol{D}}}}^{-{1}/{2}}{\boldsymbol{R}}^{(l)}{\boldsymbol{W}}^{(l)}+{\boldsymbol{B}}^{(l)}\right). $

式中：$ {\boldsymbol{R}}^{(l+1)} $为第$ l+1 $层的节点特征表示，$ {\boldsymbol{R}}^{l} $为第$ l $层的输入特征矩阵,$ {\tilde{\boldsymbol{A}}} $为归一化后的邻接矩阵，$ \boldsymbol{D} $为度矩阵，$ {\boldsymbol{W}}^{(l)} $和$ {\boldsymbol{B}}^{(l)} $分别为第$ l $层的权重矩阵和偏置项.

在得到由稀疏图卷积提取的核心流动点的特征$ {\boldsymbol{R}}_{1}\in {\bf{R}}^{B\times T\times N\times C} $与由空间Transformer提取的非核心流动点的特征$ {\boldsymbol{R}}_{2}\in {\bf{R}}^{B\times T\times N\times C} $后，采用加权求和的方式来实现二者的融合. 核心与非核心流动点的特征融合表达式如下：

(23)$ {\boldsymbol{R}}_{\text{fused}}=\alpha {\boldsymbol{R}}_{1}+(1-\alpha ) {\boldsymbol{R}}_{2}. $

式中：$ \alpha $为可学习参数. 该融合机制使得模型能够根据输入数据自适应调整核心与非核心流动点特征模块的权重，实现两者的有效融合与协同表达.

3.3. 频域自相关MAE损失函数

交通流预测主要采用递归预测和直接预测^[13] 2种范式. 如图8(a)所示，递归预测的核心思想是将每步预测结果作为下一步预测的输入，形成迭代的预测过程. 具体而言，模型首先预测$ t+1 $时刻的流量，并将预测值作为输入递归输入模型，继续预测$ t+2 $时刻的交通流量，依此类推. 该方法会导致误差逐步累积，致使多步预测性能下降.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 递归与直接预测范式的对比

Fig.8 Comparison of recursive and direct prediction paradigm

直接预测范式如图8(b)所示，将历史序列$ \{{X}_{1},{X}_{2},\cdots ,{X}_{t}\} $作为输入，直接输出多个未来时间步$ \{{X}_{t+1},{X}_{t+2},\cdots ,{X}_{t+k}\} $的值. 与递归预测范式相比，直接预测范式避免了误差传播，具有实现简单、运行高效、预测精度高的优势，已成为当前的主流预测范式.

在时间序列中，各时间步间存在的依赖关系同时存在于输入序列和输出序列中. 直接预测范式忽略了预测序列内部的时间步依赖. 为此，受文献[14]的启发，提出频域自相关MAE损失函数，如图9所示. 在时域中，时间步依赖体现在以时间（x轴）为维度的连续性上. 在频域变换后，该依赖性被映射到频率所代表的y轴，即将时序数据的自相关性转化为不同频率分量的幅值和相位关系，从而有效地规避时序依赖对预测的影响.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 频域变换的示意图

Fig.9 Diagram of frequency domain transformation

模型的损失函数定义为

(24)$ {L}_{\text{freq}}=\frac{1}{T}\sum \limits_{k=1}^{T}\left| F{({{\boldsymbol{y}}_{\text{p}}})}_{k}-F{({{\boldsymbol{y}}_{\text{t}}})}_{k}\right| . $

式中：$ k $为时间步索引；$ F{({{\boldsymbol{y}}_{{\mathrm{p}}}})}_{k} $和$ F{({{\boldsymbol{y}}_{{\mathrm{t}}}})}_{k} $分别为对预测值$ {\boldsymbol{y}}_{{\mathrm{p}}} $和真实值$ {\boldsymbol{y}}_{{\mathrm{t}}} $进行傅里叶变换. 傅里叶变换是将序列$ {\boldsymbol{X}}=[{X}_{0},\cdots ,{X}_{T-1}] $投影到一组不同频率的正交傅里叶基上的过程，与频率$ k $对应的投影为

(25)$ {x}_{k}^{(F)}=\sum \limits_{t=0}^{T-1}{{X}}_{t}{{\mathrm{exp}}}{\left(-{\mathrm{j}}\frac{2{\text{π}} }{T}kt\right)};\;0\leqslant k\leqslant T-1. $

式中：$ {\mathrm{j}} $为虚数单位；$ {{\mathrm{exp}}}{\left(-{\mathrm{j}}({2{\text{π}} }/{T})kt\right)} $为与频率$ k $对应的傅里叶基函数，这些基函数对不同的$ k $而言是正交的. 傅里叶变换是指与频率$ 0\leqslant k\leqslant T-1 $对应的所有投影，表示为$ {\boldsymbol{x}}^{(F)}={F}(\boldsymbol{X}) $.

4. 实验分析

4.1. 数据初始配置与基准模型

采用Caltrans PeMS数据系统的3个交通路网数据集：PEMS04、PEMS08和METRLA. 数据集中，各个交通路网节点隔5 min记录一次车流量数据. 以6∶2∶2的比例来划分训练集、验证集和测试集. 数据集的详细信息如表1所示.

表 1 Caltrans PeMS数据集的基本信息

Tab.1 Basic information of Caltrans PeMS dataset

数据集	地区	节点	长度	日期
PeMS04	旧金山湾区	307	16992	2018.01—02
PeMS08	圣贝纳迪诺区	170	17856	2016.07—09
METRLA	洛杉矶县	207	34272	2012.03—06

新窗口打开| 下载CSV

实验基于Python3.9.1和Pytorch2.0.1，硬件环境是RTX 4060. 时间序列预测的历史窗口和预测窗口均设为12 个时间步. 优化器是Adam. 为了客观评估CFHD-Former模型的性能，采用3个广泛使用的评价指标：平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE). MAE、RMSE、MAPE的计算公式如下：

(26)$ \text{MAE}={N}^{-1}\sum \limits_{i=1}^{N}\left| {\boldsymbol{y}}_{i}-{{\hat{\boldsymbol{y}}}}_{i}\right| , $

(27)$ \text{RMSE}=\sqrt{{N}^{-1}\sum \limits_{i=1}^{N}{\left({\boldsymbol{y}}_{i}-{{\hat{\boldsymbol{y}}}}_{i}\right)}^{2}}, $

(28)$ \text{MAPE}={N}^{-1}\sum \limits_{i=1}^{N}\left| \frac{{\boldsymbol{y}}_{i}-{{\hat{\boldsymbol{y}}}}_{i}}{{\boldsymbol{y}}_{i}}\right| \times 100\text{% }. $

式中：$ N $为样本数量，$ {\boldsymbol{y}}_{i} $为真实值，$ {{\hat{\boldsymbol{y}}}}_{i} $为预测值.

为了全面评估模型的性能，选取如下3类共10 个交通流基线模型进行对比. 1）时间序列模型，包含ARIMA^[15]、ST-Norm^[16]、SCINet^[17]. 2）图神经网络模型，包括STGCN^[18]、GWNet^[19]、DCRNN^[20]、DGCRN^[21]. 3）基于注意力机制的模型，如GMAN^[22]、ASTGNN^[23]、PDFormer^[24]等.

4.2. 实验结果分析

如表2所示为各模型在未来一小时交通流预测中的性能对比. 可知，CFHD-Former在3个数据集的所有评估指标上均优于基线模型. 传统模型ARIMA的表现最差，常被视为下限基准. 时间序列模型SCINet和ST-Norm仅建模时间相关性，忽略空间依赖，性能明显落后. 在PEMS04上，SCINet和ST-Norm的RMSE分别为31.28和30.98，较CFHD-Former高4.16%和3.23%. 此外，虽然SCINet通过下采样和交互机制能够有效地捕捉时间序列的多分辨率特征，但无法有效地建模交通流的时空异质特性. ST-Norm受限于静态的归一化策略，无法动态适应不同时间段和区域的异质性特征. 基于图神经网络的GWNet和DGCRN在METRLA数据集上的RMSE分别为6.61、6.38，表现出较强的竞争力，这归因于它们分别通过自适应邻接矩阵和动态图机制来应对空间异质性. GWNet难以捕捉稀疏连接节点间的隐含关系，DGCRN在极端异质性（如节点行为模式的差异巨大或孤立节点）场景下的建模能力受限. 相比之下，CFHD-Former通过分别对核心与非核心流动点进行异质化建模，实现更精细的空间特征提取，在METRLA数据集上，RMSE较DGCRN和GWNet分别降低1.92%和5.59%. 基于注意力机制的模型整体表现更优. PDFormer在多个数据集上显著领先，在METRLA数据集上的MAE为3.15，体现出PDFormer在捕捉长期依赖关系方面的优势. CFHD-Former进一步将MAE降至3.03，相较于PDFormer提升了3.96%. CFHD-Former的性能主要得益于自适应高频异质化模块和渐进调优机制，增强了对不同时间片段交通状态的适应性. CFHD-Former模型在PeMS08数据集上的性能最显著，MAE较次优模型提升了4.58%，这归因于PEMS08数据集的路网结构较复杂，核心流动点与非核心流动点的差异更明显，使得异质化建模方法在该数据集上发挥出更大的优势.

表 2 基于PEMS04、PEMS08、METRLA数据集的不同基准线模型的预测准确度对比

Tab.2 Comparison of prediction accuracy of different baseline model based on PEMS04, PEMS08 and METRLA dataset

模型	PEMS04			PEMS08			METRLA
模型	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%	MAE	RMSE	MAPE/%
ARIMA	28.55	40.36	19.55	31.23	33.47	19.25	6.08	11.37	14.62
ST-Norm	18.96	30.98	12.69	15.41	24.77	9.76	3.14	6.45	8.60
SCINet	19.30	31.28	12.05	15.76	24.65	10.01	3.46	6.62	9.25
STGCN	19.57	31.28	13.44	16.08	25.39	10.60	3.16	6.38	8.69
DCRNN	19.63	31.26	13.59	16.22	25.17	10.81	3.24	6.47	8.92
GWNet	18.83	30.01	12.94	14.98	23.99	10.21	3.17	6.61	9.21
DGCRN	19.01	30.51	12.19	14.80	23.75	9.46	3.18	6.38	8.76
GMAN	19.14	31.60	13.19	15.31	24.92	10.13	3.25	6.52	8.76
ASTGNN	18.60	30.91	12.36	15.00	24.75	9.50	3.30	6.64	8.78
PDFormer	18.51	30.24	12.38	14.34	23.68	9.88	3.15	6.54	8.71
CFHD-Former	18.32	29.98	12.01	13.74	23.28	9.03	3.03	6.26	8.35

新窗口打开| 下载CSV

4.3. 模型消融实验

为了评估模型中各组件的有效性，在PEMS08与METRLA数据集上，将CFHD-Former与以下变体进行比较. 1）移除自适应高频异质化模块；2）移除渐进调优机制；3）移除核心流动点识别模块，即使用全局邻接矩阵替换稀疏邻接矩阵；4）移除频域自相关MAE损失函数，即使用普通MAE损失函数. 将这4个变体分别命名为CFHD-Former-HF、CFHD-Former-PT、CFHD-Former-CP、CFHD-Former-FL.

如图10所示，在移除自适应高频异质化模块与渐进调优机制后，模型在METRLA数据集上的RMSE分别增加了12.5%和11.14%. 这验证了两者在解决时间异质性问题上的有效性. 在移除核心流动点识别模块后，PEMS08数据集上的MAE、RMSE、MAPE分别增加了5.08%、5.21%、6.31%. 基于稀疏邻接矩阵的关键节点提取能够有效地降低噪声干扰，提升模型性能. 采用全局邻接矩阵使得模型失去了对关键节点的选择能力，验证了核心流动点的识别与建模对提升模型在捕捉交通网络的空间依赖性具有重要作用.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同消融模型的预测性能分析

Fig.10 Analysis of predictive performance of different ablation model

如表3所示为各消融模型在15、30和60 min预测时间下的性能对比. 其中，t_p为预测时间. 从图3可知，与CFHD-Former-FL相比，CFHD-Former在15 min预测中MAE、RMSE及MAPE分别降低了0.9%、0.8%和0.85%，平均降幅为0.85%. 当预测时间为30 min时，上述指标分别下降了3%、3.2%和2.9%，平均降幅达到3.03%. 当预测时间为60 min时，平均降幅进一步扩大至6.63%. 随着预测步长的增加，频域自相关MAE损失函数带来的性能提升更加显著，而其他消融模型带来的性能提升没有受到预测时间步长短的影响. 这表明该损失函数考虑到了预测序列内各时间步间的依赖关系，有效增强了模型在多步预测中的表现.

表 3 消融模型在不同时间步下的预测性能

Tab.3 Predictive performance of ablation model at different time step

t_p/min	MAE
t_p/min	CFHD-Former-HF	CFHD-Former-PT	CFHD-Former-CP	CFHD-Former-FL	CFHD-Former
15	12.85	12.25	12.41	12.05	11.94
30	15.85	15.17	14.21	14.08	13.67
60	18.98	16.93	15.86	16.17	15.25

t_p/min	RMSE
t_p/min	CFHD-Former-HF	CFHD-Former-PT	CFHD-Former-CP	CFHD-Former-FL	CFHD-Former
15	20.36	19.39	20.33	19.71	19.55
30	26.24	25.98	24.34	24.16	23.41
60	31.25	28.96	27.13	27.94	26.09

t_p/min	MAPE/%
t_p/min	CFHD-Former-HF	CFHD-Former-PT	CFHD-Former-CP	CFHD-Former-FL	CFHD-Former
15	8.36	7.91	8.20	7.96	7.89
30	10.20	9.93	9.30	9.21	8.95
60	12.46	11.18	10.47	10.75	10.07

新窗口打开| 下载CSV

4.4. 关键超参数的敏感性分析

为了全面评估模型的性能，对关键超参数进行敏感性分析，实验结果如图11所示. 其中，p为核心流动点所占比例，BS为批大小.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 关键超参数的敏感性分析

Fig.11 Sensitivity analysis of key hyperparameter

在渐进调优机制中，调优参数m控制历史与当前时间片段特征的融合比例，影响方差和均值的更新幅度. 当m从0.1增至0.2时，模型性能提升，并在m = 0.2时达到最优. 继续增大m，则性能下降. 适度赋予当前时间片权重有助于捕捉实时交通状态，而过高的权重可能导致模型过度依赖短期信息，削弱对历史模式的利用.

在核心流动点识别模块中，核心流动点比例是构建稀疏邻接矩阵的关键参数. 当比例为10%~20%时，MAE从14.1降至13.8，性能显著提升；在比例超过20%后，MAE升至14.8，性能下降. 比例过低会丢失关键信息，比例过高会引入冗余信息. 实验确定20%是最优的核心流动点比例.

模型对批大小的敏感度较低. 在测试范围内，MAE的波动不超过0.1，当批大小为24时性能略优，但优势不显著. 模型在不同的批大小下均能够保持稳定的预测性能.

4.5. 过程性仿真

通过特征可视化系统分析模型学习的表征，以增强模型的可解释性，揭示模型与现实环境中关键因素的关联.

如图12所示为METRLA数据集中核心流动点的地理分布，核心流动点（圆点标记）主要分布于交通主干道沿线、公共服务设施周边及城市中心区域的道路交叉处. 这些位置通常是交通流的集散枢纽. 对图12中箭头区域的局部放大显示，医院、餐厅、学校及关键路口均被识别为核心流动点，验证了模型在核心流动点识别上的有效性.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 核心流动点的地理空间分布

Fig.12 Geospatial distribution of core flow point

如图13所示为核心与非核心流动点的流量特征对比. 非核心流动点（1、2、3号节点）显示出较小的流量波动和较低的峰谷差异. 核心流动点（1、2、3号节点）表现出更大的流量波动和明显的峰谷差异，这归因于他们位于主要交通干道、道路交汇处或城市中心. 此外，核心流动点间存在高度相似的流量模式，具有明显的一致趋势和周期性，反映了核心流动点群内部的同质性. 次要交通路网中的非核心流动点呈现出相对稳定、波动幅度较小的低强度同质化流量模式.

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 核心与非核心流动点的流量时变模式对比

Fig.13 Comparison of flow time-varying pattern between core and non-core flow point

如图14所示为使用t-SNE降维的不同日期数据在低维空间中的分布. 通过自适应高频异质化模块，模型有效聚合了同期数据点，不同日期的数据簇明显分离. 工作日的数据簇呈现出高度内聚而又相互分离的特征，反映出工作日交通模式的相似性与差异性. 休息日（周六和周日）数据形成独立簇，其特征与工作日显著不同，呈现低流量的特征. 这验证了模型能够有效地捕获交通流的时间异质性.

图 14

新窗口打开| 下载原图ZIP| 生成PPT

图 14 基于不同日期数据的t-SNE降维可视化

Fig.14 Dimensionality reduction visualization of t-SNE based on data from different date

如图15所示为PEMS08数据集中某随机节点的交通流量真实值与CFHD-Former及基线模型DGCRN的预测结果对比. 结果表明，CFHD-Former在捕捉局部波动方面精度更高，能够更准确地追踪流量的细微变化. 该模型对高频特征具有更强的敏感性及识别短时域动态模式的能力. DGCRN的预测结果较平滑，捕捉高频特征的能力较弱.

图 15

新窗口打开| 下载原图ZIP| 生成PPT

图 15 CFHD-Former与DGCRN拟合真实值的对比

Fig.15 Comparison of CFHD-Former and DGCRN fitting true value　　　

4.6. 鲁棒性实验

交通流预测易受传感器误差、数据传输、通信干扰及少数极端天气等噪声的影响，故模型的抗干扰能力会直接影响预测精度. 为了评估CFHD-Former模型的稳健性，设计扰动实验. 标准化训练数据，随机丢弃10%的传感器节点数据以模拟数据缺失，对各节点分别叠加10%~50%比例、服从标准正态分布的高斯噪声，模拟不同程度的数据污染. 实验在PEMS08数据集上开展，以多步预测的平均均方根误差作为评估指标. 实验结果如图16所示. 其中，r_p为数据扰动比例.

图 16

新窗口打开| 下载原图ZIP| 生成PPT

图 16 CFHD-Former与基线模型在不同扰动比例噪声下的预测误差对比

Fig.16 Comparison of prediction error between CFHD-Former and baseline model under different perturbation ratio noise

实验显示，当噪声比例从10%增至50%时，所有基准模型的RMSE均持续上升. 在低扰动（10%~30%）下，性能衰退相对平缓. 当扰动比例超过40%时，多数模型的误差显著增大，特别是ASTGNN和GMAN的RMSE在50%扰动比例下显著升高. CFHD-Former的RMSE始终最低，且性能衰减最平缓，展现出了优异的稳健性，即使在高噪声环境下也能保持相对稳定的预测性能.

5. 结　语

提出新型的交通流预测模型CFHD-Former，旨在解决复杂路网中的时空异质性问题. 研究的主要成果如下. 1）通过自适应高频异质化模块与渐进调优机制，有效捕捉交通流的动态时间特征. 2）提出核心流动点识别模块，对核心与非核心路网进行分层建模，精准捕捉空间异质特征. 3）引入频域自相关MAE损失函数，通过规避预测序列的内部依赖性，提升多步预测的精度. 实验结果表明，CFHD-Former在多个公开数据集上的预测精度和鲁棒性均优于现有的基线模型. 未来的研究可以致力于模型的轻量化以降低计算开销，从而提升在真实交通系统中的部署与应用效率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SUN Y, ZHANG G, YIN H

Passenger flow prediction of subway transfer stations based on nonparametric regression model

[J]. Discrete Dynamics in Nature and Society, 2014, 2014 (1): 397154

[本文引用: 1]

[2]

TONG J, GU X, ZHANG M, et al. Traffic flow prediction based on improved SVR for VANET [C]//Proceedings of the 4th International Conference on Advanced Electronic Materials, Computers and Software Engineering. Changsha: IEEE, 2021: 402–405.

[本文引用: 1]

[3]

ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization [EB/OL]. (2015-02-19). https://arxiv.org/abs/1409.2329.

[本文引用: 1]

[4]

GRAVES A. Long short-term memory [M]//Supervised sequence labelling with recurrent neural networks. Berlin: Springer, 2012: 37–45.

[本文引用: 1]

[5]

HAO S, LEE D H, ZHAO D

Sequence to sequence learning with attention mechanism for short-term passenger flow prediction in large-scale metro system

[J]. Transportation Research Part C: Emerging Technologies, 2019, 107: 287- 300

DOI:10.1016/j.trc.2019.08.005 [本文引用: 1]

[6]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2019-06-15). https://arxiv.org/abs/1609.02907.

[本文引用: 1]

[7]

LI Z, XIONG G, CHEN Y, et al. A hybrid deep learning approach with GCN and LSTM for traffic flow prediction [C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. Auckland: IEEE, 2019: 1929-1933.

[本文引用: 1]

[8]

KONG W, GUO Z, LIU Y

Spatio-temporal pivotal graph neural networks for traffic flow forecasting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38 (8): 8627- 8635

DOI:10.1609/aaai.v38i8.28707 [本文引用: 1]

[9]

SHAO Z, ZHANG Z, WANG F, et al. Spatial-temporal identity: a simple yet effective baseline for multivariate time series forecasting [C]//Proceedings of the 31st ACM International Conference on Information and Knowledge Management. Atlanta: ACM, 2022: 4454-4458.

[本文引用: 1]

[10]

DONG Z, JIANG R, GAO H, et al. Heterogeneity-informed meta-parameter learning for spatiotemporal time series forecasting [C]//Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Barcelona: ACM, 2024: 631-641.

[本文引用: 1]

[11]

PHOLSENA K, PAN L, ZHENG Z

Mode decomposition based deep learning model for multi-section traffic prediction

[J]. World Wide Web, 2020, 23 (4): 2513- 2527

DOI:10.1007/s11280-020-00791-1 [本文引用: 1]

[12]

邵春福. 交通规划原理 [M]. 2版. 北京: 中国铁道出版社, 2014: 96–97.

[本文引用: 1]

[13]

LIU S, GHOSH R, MOTANI M. Towards better long-range time series forecasting using generative forecasting [EB/OL]. (2022-08-05). https://arxiv.org/abs/2212.06142.

[本文引用: 1]

[14]

WANG H, PAN L, CHEN Z, et al. FreDF: learning to forecast in the frequency domain [EB/OL]. (2024-02-04). https://arxiv.org/abs/2402.02399.

[本文引用: 1]

[15]

WILLIAMS B M, HOEL L A

Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results

[J]. Journal of Transportation Engineering, 2003, 129 (6): 664- 672

DOI:10.1061/(ASCE)0733-947X(2003)129:6(664) [本文引用: 1]

[16]

DENG J, CHEN X, JIANG R, et al. ST-norm: spatial and temporal normalization for multi-variate time series forecasting [C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [S. l. ]: ACM, 2021: 269-278.

[本文引用: 1]

[17]

LIU M, ZENG A, CHEN M, et al

SCINet: Time series modeling and forecasting with sample convolution and interaction

[J]. Advances in Neural Information Processing Systems, 2022, 35: 5816- 5828

[本文引用: 1]

[18]

YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting [EB/OL]. (2018-07-12). https://arxiv.org/abs/1709.04875.

[本文引用: 1]

[19]

WU Z, PAN S, LONG G, et al. Graph WaveNet for deep spatial-temporal graph modeling [EB/OL]. (2019-05-31). https://arxiv.org/abs/1906.00121.

[本文引用: 1]

[20]

LI Y, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting [EB/OL]. (2018-02-22). https://arxiv.org/abs/1707.01926.

[本文引用: 1]

[21]

LI F, FENG J, YAN H, et al

Dynamic graph convolutional recurrent network for traffic prediction: benchmark and solution

[J]. ACM Transactions on Knowledge Discovery from Data, 2023, 17 (1): 1- 21

[本文引用: 1]

[22]

ZHENG C, FAN X, WANG C, et al

GMAN: a graph multi-attention network for traffic prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34 (1): 1234- 1241

DOI:10.1609/aaai.v34i01.5477 [本文引用: 1]

[23]

DUAN W, HE X, ZHOU Z, et al. Localised adaptive spatial-temporal graph neural network [C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Long Beach: ACM, 2023: 448-458.

[本文引用: 1]

[24]

JIANG J, HAN C, ZHAO W X, et al

PDFormer: propagation delay-aware dynamic long-range transformer for traffic flow prediction

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (4): 4365- 4373

DOI:10.1609/aaai.v37i4.25556 [本文引用: 1]

Passenger flow prediction of subway transfer stations based on nonparametric regression model

2014

... 交通流预测方法经历了统计学^[1]、机器学习^[2]和深度学习3个发展阶段. 深度学习因能建模复杂非线性关系而被广泛应用，如循环神经网络（RNN）^[3]、长短时记忆网络（LSTM）^[4]及注意力机制（Self Attention）^[5]等，但这类方法忽视节点间的空间依赖关系. 近年来，结合卷积神经网络（CNN）、图神经网络（GNN）及图卷积网络（GCN）^[6]等时空预测方法，解决了该问题. Li等^[7]提出结合GCN与LSTM混合模型，通过联合建模时空特征来预测流量. Kong等^[8]通过识别道路网络中的重要节点，融合余弦相似度和地理邻接关系构建邻接矩阵，捕捉时空依赖. 这2种基于预定义拓扑结构和相似性度量的方法难以适应不同区域交通流模式及不同时间片变化规律的差异，复杂的时空异质性限制了模型的适应性和通用性. ...

Sequence to sequence learning with attention mechanism for short-term passenger flow prediction in large-scale metro system

2019

Spatio-temporal pivotal graph neural networks for traffic flow forecasting

2024

... 为了解决上述问题，Shao等^[9]引入时空标识信息，结合MLP网络，解决流量序列的时空不可区分性问题. 下游处理结构简化限制了特征表征能力. Dong等^[10]引入元学习技术，依赖兴趣点（POI）的辅助特征提升精度，却因依赖高维元参数池，导致计算和内存开销大，难以处理大规模数据. Pholsena等^[11]提出轻量级多断面预测框架，人工选取关键路段，结合经验模态分解与CNN，建模时空异质特征，却忽略非显著路段的潜在重要模式. 此外，现有模型的直接预测范式（通过一次性生成多个时间步进行预测）仅考虑历史时间步相关性，忽略预测序列内部依赖关系，限制了多步预测的表现. ...

Mode decomposition based deep learning model for multi-section traffic prediction

2020

... 式中：

$ G(i) $

为节点

$ i $

的流入流出能力评分. 邵春福^[12]指出，约20%的主干道路承担了超过80%的跨区域交通流量. 基于此，将初始假定评分位于前20%的节点定义为交通网络的核心流动点. 该比例作为关键超参数对模型性能的影响，将在后续的关键超参数敏感性分析实验中详细论证. ...

... 交通流预测主要采用递归预测和直接预测^[13] 2种范式. 如图8(a)所示，递归预测的核心思想是将每步预测结果作为下一步预测的输入，形成迭代的预测过程. 具体而言，模型首先预测

$ t+1 $

时刻的流量，并将预测值作为输入递归输入模型，继续预测

$ t+2 $

时刻的交通流量，依此类推. 该方法会导致误差逐步累积，致使多步预测性能下降. ...

... 在时间序列中，各时间步间存在的依赖关系同时存在于输入序列和输出序列中. 直接预测范式忽略了预测序列内部的时间步依赖. 为此，受文献[14]的启发，提出频域自相关MAE损失函数，如图9所示. 在时域中，时间步依赖体现在以时间（x轴）为维度的连续性上. 在频域变换后，该依赖性被映射到频率所代表的y轴，即将时序数据的自相关性转化为不同频率分量的幅值和相位关系，从而有效地规避时序依赖对预测的影响. ...

Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results

2003

... 为了全面评估模型的性能，选取如下3类共10 个交通流基线模型进行对比. 1）时间序列模型，包含ARIMA^[15]、ST-Norm^[16]、SCINet^[17]. 2）图神经网络模型，包括STGCN^[18]、GWNet^[19]、DCRNN^[20]、DGCRN^[21]. 3）基于注意力机制的模型，如GMAN^[22]、ASTGNN^[23]、PDFormer^[24]等. ...

SCINet: Time series modeling and forecasting with sample convolution and interaction

2022

Dynamic graph convolutional recurrent network for traffic prediction: benchmark and solution

2023

GMAN: a graph multi-attention network for traffic prediction

2020

PDFormer: propagation delay-aware dynamic long-range transformer for traffic flow prediction

2023

〈

〉