浙江大学学报(工学版), 2026, 60(3): 455-467 doi: 10.3785/j.issn.1008-973X.2026.03.001

交通工程、土木工程

融合动态风险图与多变量注意力机制的车辆轨迹预测模型

陈文强,, 冯琳越, 王东丹, 顾玉磊,, 赵轩

1. 长安大学 未来交通学院,陕西 西安 710064

2. 长安大学 运输工程学院,陕西 西安 710064

3. 长安大学 汽车学院,陕西 西安 710064

Vehicle trajectory prediction model integrating dynamic risk map and multivariate attention mechanism

CHEN Wenqiang,, FENG Linyue, WANG Dongdan, GU Yulei,, ZHAO Xuan

1. School of Future Transportation, Chang’an University, Xi’an 710064, China

2. School of Transportation Engineering, Chang’an University, Xi’an 710064, China

3. School of AutoMobile, Chang’an University, Xi’an 710064, China

通讯作者: 顾玉磊,女,讲师. orcid.org/0000-0003-0979-1243. E-mail: guylei001@chd.edu.cn

收稿日期: 2025-09-23  

基金资助: 国家重点研发计划资助项目(2024YFB2505703);国家自然科学基金资助项目(52172362);陕西省自然科学基金资助项目(2025JC-YBMS-374);中央高校基本科研业务费专项资金资助项目(300102344203);陕西省交通运输厅科技资助项目(ZYXZB-20230223).

Received: 2025-09-23  

Fund supported: 国家重点研发计划资助项目(2024YFB2505703);国家自然科学基金资助项目(52172362);陕西省自然科学基金资助项目(2025JC-YBMS-374);中央高校基本科研业务费专项资金资助项目(300102344203);陕西省交通运输厅科技资助项目(ZYXZB-20230223).

作者简介 About authors

陈文强(1981—),男,教授,从事交通安全的研究.orcid.org/0000-0002-3211-1245.E-mail:cwq@chd.edu.cn , E-mail:cwq@chd.edu.cn

摘要

针对复杂交通场景中车辆轨迹预测精度与泛化能力不足的问题,提出基于动态风险图和多变量注意力机制融合的车辆多目标轨迹协同预测模型(RGMA). 该模型通过构建动态风险图,融合车辆尺寸、速度、加速度和角度等多因素交互特征,量化车辆间的冲突风险作为图卷积网络的邻接权重,增强空间交互建模的物理可解释性. 设计多变量注意力Transformer模块,将各变量时间序列作为独立token,捕捉跨变量依赖与长时序特征,提升时间维度建模的能力. 通过拼接时空特征并经由多层感知机输出多车辆未来轨迹. 在NGSIM和HighD真实数据集上的实验表明,RGMA在短期与长期预测中均优于现有的主流方法,通过消融实验验证了各模块的有效性与模型鲁棒性.

关键词: 车辆轨迹预测 ; 动态风险图 ; 多变量注意力机制 ; 自动驾驶系统 ; 图神经网络

Abstract

A multi-target trajectory cooperative prediction model (RGMA) based on a dynamic risk map and multivariate attention mechanism was proposed aiming at the problems of insufficient accuracy and generalization ability in vehicle trajectory prediction in complex traffic scenarios. A dynamic risk graph that integrated multi-factor interaction features such as vehicle size, speed, acceleration, and heading angle was constructed, and the conflict risk between vehicles was quantified as the adjacency weight of the graph convolutional network, enhancing the physical interpretability of spatial interaction modeling. A multivariate attention Transformer module was designed to treat the time series of each variable as an independent token, capturing cross-variable dependency and long-term temporal feature in order to improve temporal modeling capability. The future trajectories of multiple vehicles were output through concatenating the spatiotemporal feature and a multilayer perceptron. Experiments on real-world dataset NGSIM and HighD show that RGMA outperforms existing mainstream methods in both short-term and long-term prediction. Ablation study verifies the effectiveness of each module and the robustness of the model.

Keywords: vehicle trajectory prediction ; dynamic risk map ; multivariate attention mechanism ; autonomous driving system ; graph neural network

PDF (2159KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈文强, 冯琳越, 王东丹, 顾玉磊, 赵轩. 融合动态风险图与多变量注意力机制的车辆轨迹预测模型. 浙江大学学报(工学版)[J], 2026, 60(3): 455-467 doi:10.3785/j.issn.1008-973X.2026.03.001

CHEN Wenqiang, FENG Linyue, WANG Dongdan, GU Yulei, ZHAO Xuan. Vehicle trajectory prediction model integrating dynamic risk map and multivariate attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 455-467 doi:10.3785/j.issn.1008-973X.2026.03.001

随着汽车智能化水平从非自动驾驶(L0级)向辅助驾驶(L2级)和有条件自动驾驶(L3级)技术迈进,车辆轨迹预测作为自动驾驶的核心关键技术,对行车安全至关重要[1-2]. 在混合交通环境中,驾驶员行为具有显著的不确定性和个性化特征,使得高精度、强泛化的车辆轨迹预测仍是一项极具挑战的课题.

为了准确地预测车辆轨迹,现有方法大致归为以下3类:基于物理模型的方法、基于机动意图的方法和基于时空感知的方法[3]. 基于物理模型的轨迹预测方法依赖严密的数学和统计基础,主要包括动力学模型、卡尔曼滤波器[4]和马尔可夫模型[5]等,但常忽略车辆与周围环境的时空交互,在长期轨迹预测中表现受限[6]. 基于机动意图的轨迹预测方法以行为推理为核心[7],通过高斯过程回归[8]、贝叶斯网络[9]和连续马尔可夫过程[10]等技术对车辆的驾驶意图进行识别与分类,实现轨迹预测.

与上述2类方法相比,基于时空感知的模型因同时考虑时间依赖性与车辆间空间交互,在复杂场景中表现出更高的可靠性和鲁棒性[11]. 该类研究早期多采用递归神经网络(RNN)对车辆轨迹的时间动态进行建模,通过聚合隐藏状态,捕捉车辆之间基于位置的空间关系[12-14]. 近年来,学者们逐步引入图神经网络(GNN)表征车辆间的拓扑结构,并在多个基准上取得了具有竞争力的性能[15-17].

在空间交互建模方面,Helbing等[18]提出社会力模型,通过排斥力和吸引力来建模行人及车辆之间的空间互动. 该模型依赖人工设计,难以灵活适用于多样化复杂的交通场景. 随着深度学习技术的发展,诸多基于神经网络的空间交互方法被提出. Alahi等[19]提出Social-LSTM,通过社会池化操作整合行人之间的交互信息. Deo等[12]引入卷积社会池化机制(CS-LSTM),增强车辆间交互的建模能力. Zhao等[14]提出多智能体张量融合(multi-agent tensor fusion, MATF)网络,通过构建统一的空间张量表征车辆间的结构化空间关系. 此外,注意力机制被广泛应用于车辆空间交互建模. 部分研究将多头注意力机制融入基于LSTM的编码器-解码器框架中,以自适应捕捉周围车辆对目标车辆轨迹的影响[20-22]. Li等[23]利用卷积网络提取车辆特征,构建基于意图的区域注意力机制,实现不同交互区域内车辆特征的差异化聚合. Chen等[24]提出双层注意力机制,能够在每个时间戳动态捕获车辆之间的动态交互,将提取的交互特征自适应地融合于多模态轨迹预测中.

图神经网络(GNN)近年来被广泛应用于交通场景中车辆空间依赖关系的提取. 基于GNN的交互建模方法将交通场景构建为图结构,车辆及其相互作用关系被描述为节点和边,避免了池化操作或注意力机制将周围车辆视为整体而导致的噪声干扰[25]. Li等[15]基于多图卷积网络(GCN)捕捉空间交互特征,引入LSTM编码器-解码器框架,实现多车轨迹的并行预测. 时空图卷积神经网络(STGCN)[26]整合时域与空域卷积模块,协同提取车辆轨迹中的时空依赖特征. Zhang等[16]结合图注意网络(GAT)与卷积门控循环单元(ConvGRU),实现对不同车辆间交互权重的差异化建模. Sheng等[27]以车辆间欧式距离的倒数作为临近矩阵,构建GCN以区分车辆之间动态交互的影响. Li等[28]依据车辆间的欧氏距离构建指数衰减权重作为GAT的邻接矩阵,通过结合门控循环单元和图神经网络来共同表征车辆动态交互行为.

在时间特征建模方面,Transformer模型凭借近似人类思维过程的注意力机制,能够高效捕捉数据中的长程依赖关系[29],被广泛应用在车辆轨迹预测任务中. Quintanar等[30]对标准Transformer进行修改,实现对单车轨迹的独立建模. Geng等[31]提出融合物理信息的Transformer车辆轨迹预测模型,在长时预测范围内表现出较高精度、强泛化能力与良好的可解释性. Gao等[32]设计双分支Transformer结构,其中一分支用于提取车辆状态的时间相关性以预测车辆换道意图,另一分支融合变道意图向量生成车辆未来轨迹. Chen等[33]利用稀疏自注意机制对车辆轨迹长期依赖关系进行建模,引入意图感知解码器查询生成模块,有效克服了Transformer在推理速度和多模态预测方面的局限性.

尽管基于时空感知的车辆轨迹预测方法在引入图神经网络与Transformer架构后已取得显著进展,现有研究仍存在若干关键局限性. 在空间交互建模上,驾驶行为往往受到视野内多个车辆的复杂影响,仅依靠简单的图结构难以充分建模多层次、多因素的交互机制[34]. 以往研究方法大多以车辆间的欧氏距离作为交互权重[28],缺乏对多源交互特征,如相对速度、加速度、视角等多种时空因素的系统性融合与推理,从而限制了模型的泛化能力. 在时间特征建模上,大多数现有模型仅以最终时间步的轨迹信息作为输入,忽略了完整轨迹蕴含的时间依赖特性. Transformer模型通过自注意力机制能够有效捕捉学习特征在不同时刻之间的长程依赖与耦合关系[29],已被广泛应用于车辆轨迹时序数据处理中[35],其自注意力机制可以对目标车辆轨迹的动态变化进行有效建模[24,30]. Transformer的变形网络Informer[36]提出的自注意力提取操作,减少了计算冗余和模型的时空复杂度. 这些方法往往忽视了对多变量间跨维度依赖性的捕捉[37]. 另外,当捕捉数据沿时间维度的长期相关性时,传统Transformer模型依赖位置编码,面临性能退化和计算成本激增的问题.

针对上述挑战,本文提出基于动态风险图和多变量注意力机制的车辆多目标轨迹预测模型(risk-aware graph-based multi-variable attention network,RGMA). 该方法提出基于车辆风险场的交互建模理论,通过构建动态风险图,综合考虑了车辆自身因素(如尺寸)和动态运动特征(如速度、加速度和角度)对车辆交互行为的影响. 通过融合动态图神经网络在空间结构建模与Transformer在长时序特征提取方面的优势,显著提升了长时序轨迹预测的精度. 此外,RGMA模型能够并行预测周围所有车辆的未来轨迹,避免了传统逐一预测带来的计算冗余,提升了系统在实时自动驾驶环境中的运行效率.

1. 问题定义

车辆轨迹预测可以表述为:基于已观测到的车辆历史轨迹,预测未来的运动状态. 与Gupta等[13, 29, 12]针对单一车辆进行预测不同,本文提出并行预测框架,能够同时推断场景中所有相邻车辆的未来轨迹. 令$ X $表示所有车辆的历史轨迹观测数据,表示如下:

$ X=\left\{{P}_{1},{P}_{2},\cdots ,{P}_{t},\cdots ,{P}_{T}\right\}, $

$ {P}_{t} = \left\{(x_{t}^{1},y_{t}^{1},\nu _{t}^{1},a_{t}^{1}), \cdots ,(x_{t}^{n},y_{t}^{n},v_{t}^{n},a_{t}^{n}),\cdots ,(x_{t}^{N},y_{t}^{N},v_{t}^{N},a_{t}^{N})\right\}. $

式中:$ {P}_{t} $$ \textit{t} $时刻观测车辆的运动信息,$ (x_{t}^{n}, y_{t}^{n},v_{t}^{n}, a_{t}^{n}) $$ \textit{t} $时刻第$ \textit{n} $辆车的历史横向坐标、纵向坐标、速度和加速度,T为历史时间,N为观测的总车辆数.

未来时间范围F内的预测轨迹Y

$ Y=\left\{{\hat{P}}_{T+1},{\hat{P}}_{T+2},\cdots ,{\hat{P}}_{T+t},\cdots ,{\hat{P}}_{T+F}\right\}, $

$ {\hat{P}}_{T+t}=\left\{(\hat{x}_{T+t}^{1},\hat{y}_{T+t}^{1}),\cdots ,(\hat{x}_{T+t}^{n},\hat{y}_{T+t}^{n}),\cdots ,(\hat{x}_{T+t}^{N},\hat{y}_{T+t}^{N})\right\}. $

式中:$ {\hat{P}}_{T+t} $为未来t时刻的车辆位置,$ (\hat{x}_{T+t}^{n},\hat{y}_{T+t}^{n}) $为未来t时刻第n辆车的坐标信息.

2. 模块框架

RGMA模型由3个主要模块组成:空间交互模块、时间依赖模块和轨迹输出模块. 模型框架如图1所示. 空间交互模块旨在捕捉车辆之间的动态影响,采用以车辆风险交互为邻接矩阵的动态风险图神经网络实现. 时间依赖模块采用基于多变量注意力的Transfomer网络,目的是提取车辆不同历史时刻的轨迹特征. 轨迹输出模块将空间交互向量和时间依赖特征向量拼接,利用多层感知机网络输出预测的未来轨迹.

图 1

图 1   RGMA模型的框架图

Fig.1   Structure of RGMA model


2.1. 空间交互模块

为了有效刻画动态交通场景中车辆间的交互机制,引入基于动态风险感知的图神经网络建模方法. 传统图神经网络(如GCN)通常依赖静态的二元邻接矩阵(以0/1表示节点间连接关系),难以准确捕捉车辆间受多因素耦合作用的动态交互特性. 实际上,车辆之间的交互不仅受欧氏距离的影响,而且取决于相对速度、加速度差异、转向行为及车辆自身属性(如质量、类型)等多种时变因素的综合作用.

为了克服这一局限,借鉴车辆风险场理论,提出以等效距离作为交互范围的判定依据,仅将处于该阈值范围内的周边车辆视为有效交互对象. 将依据实时运动状态计算得到的交互风险值作为动态邻接矩阵输入图神经网络,实现对车辆间交互强度的细粒度量化. 该方法从机理上突破了传统基于欧氏距离的静态建模方式,通过引入速度场、加速度场、转向角场等动态参数,在微观层面刻画单车行为对局部风险态势的影响,在宏观层面揭示多车交互中风险的传播与聚集规律,显著增强模型对复杂交通场景的适应性与风险感知能力.

2.1.1. 图神经网络GCN建模

通过二维卷积神经网络(CNN),将输入数据$ {\boldsymbol{X}}\in {\bf{R}}^{N\times C\times T} $在变量维度映射为$ {{\boldsymbol{Z}}}^{0}\in {\bf{R}}^{N\times D\times T} $,其中$ N $为车辆数$ C $为输入变量数,$ T $为历史时间,$ D $为编码层维度. 利用2个图卷积层(GCN)处理空间中对象的动态交互,在2层GCN间使用残差连接,防止模型梯度爆炸.

在时间范围$ T $内,图定义为$ G=\{{G}_{\textit{t}}| t\in (1,\cdots , T)\} $,其中$ {G}_{t} $t时刻车辆之间的空间关系. $ {G}_{t}=\{{V}_{t}, {E}_{t}\} $,其中$ {V}_{t}=\{\overline{v}_{t}^{n}| n\in (1,\cdots, N)\} $$ N $个车辆节点集合. $ \overline{v}_{t}^{n}= (x_{t}^{n},y_{t}^{n},v_{t}^{n},a_{t}^{n}) $,其中$ \overline{v}_t^n $为图中的网络节点,$ v $为速度. $ {E}_{t} $为节点之间边的集合. $ {{\boldsymbol{A}}}^{t}\in {\bf{R}}^{N\times N} $为加权邻接矩阵,表示车辆节点之间的交互权重. 由于不同时间的节点数不同,$ G=\{{G}_{{t}}| t\in (1,\cdots ,T)\} $不固定. 假设所有图都构造在有$ N $个节点的公共节点集上,已存在的节点被视为交互节点,而不存在的节点被视为未交互节点. 车辆动态交互过程如图2所示.

图 2

图 2   车辆动态交互过程

Fig.2   Process of vehicle dynamic interaction


在每个时间步t上进行图卷积操作,单个时间戳t的卷积操作在GCN中定义如下:

$ {\tilde{\boldsymbol{A}}}_{{t}}={\boldsymbol{A}}_{{t}}{+\boldsymbol{E}} ,$

$ {\boldsymbol{Z}}^{{l}}{=\boldsymbol{\sigma }(}{{\textit{Λ}}}_{{t}}^{-{{1}}/{{2}}}{{\tilde{\boldsymbol{A}}}}_{{t}}{{\textit{Λ}}}_{{t}}^{-{{1}}/{{2}}}\boldsymbol{Z}_{{t}}^{{l}}\boldsymbol{W}_{{t}}^{{l}}{)=\boldsymbol{\sigma }(}{{\tilde{\boldsymbol{L}}}}_{{t}}{\boldsymbol{Z}}^{{({l}-1)}}\boldsymbol{W}_{{t}}^{{l}}{)}. $

式中:$ {\boldsymbol{Z}}^{{l}}\in {\bf{R}}^{N\times D\times T} $为第l层节点的特征矩阵;$ {\boldsymbol{A}}_{{t}} $为时间步长t时刻图的邻接矩阵;$ {{\textit{Λ}}}_{{t}} $为图的度矩阵;E为单位矩阵;$ {\boldsymbol{\sigma}} $为激活函数,激活函数使用GELU有助于稳定训练和缓解梯度消失;$ {\tilde{\boldsymbol{L}}}_{{t}} $$ {\tilde{\boldsymbol{A}}}_{{t}} $归一化的矩阵,为了更好地区分不同车辆的相互作用,使用归一化后的交互冲突矩阵$ {\boldsymbol{R}}_{{t}} $表示$ {\tilde{\boldsymbol{L}}}_{{t}} $.

2.1.2. 风险场交互理论

为了更好地描述车辆之间的差异性交互,引入风险场交互理论. 该理论考虑了车辆运动过程中质量、距离、角度、方向等因素对交互的影响,基于势能建立车辆之间的风险场交互作用力,并对此作用力进行归一化处理. 将归一化后的交互作用力作为图神经网络的边集$ {E}_{t} $,每条边都被赋予了不同的风险交互权值. 利用该方法,能够更准确地量化车辆间的动态交互特征. 相较于传统的0-1邻接矩阵,可以更好地捕捉车辆之间复杂的空间关系.

1)在车辆运动过程中,车辆的质量可以定义为等效质量,它与车辆当前的速度有关,反映了车辆在特定速度下的行驶风险程度[38]. 在实际驾驶过程中,很难实时获取车辆的精确质量信息. 采用车辆的尺寸作为质量的替代指标[39-41],等效质量的数学表达式为

$ {M}_{j}={L}_{j} {W}_{j} (1.566\times {10}^{-14 }{v}_{j}{}^{6.687}+0.334\;5) . $

式中:$ {L}_{j} $$ {W}_{j} $分别为车辆j的长度和宽度,$ {\textit{v}}_{\textit{j}} $为车辆j的瞬时速度.

2)Sheng等[27-28]利用车辆间欧式距离的倒数表示距离与风险的负相关关系. 在实际驾驶中,车辆通常会在自己的车道上与前车保持较远的距离,但可能会相对靠近车道边界处的障碍物[42]. 为了更准确地描述车辆从不同角度接近目标车辆时的风险水平,引入等效距离[43]的概念,对真实空间中的距离进行改变,如下所示:

$ {k}_{ij}=\sqrt{7.382{\left[({x}_{i}-{x}_{j}){\exp}\;({-0.029{{v}_{j}}})\right]}^{2}+{({{y}_{i}}-{{y}_{j}})}^{2}} . $

利用该方法,可以更好地捕捉车辆在不同位置和角度下的相对风险.

3)车辆之间的交互与运动方向高度相关[44],前车对后车的影响远远大于后车对前车的影响,而在变道时,目标车道上的车辆对变道车辆的影响更显著[21]. 如图3所示,当车辆j变道时,其受到目标车道前车i的影响更大,而直行车辆i受到变道车辆j的影响较小. 利用车辆之间运动航向角的差值与车辆间距离角度的相似度,描述运动方向对车辆的交互影响. 利用车辆间纵向距离y的差值表示车辆前、后的运动方向,修正车辆相对位置对交互的影响,如下所示:

图 3

图 3   车辆交互示意图

Fig.3   Diagram of vehicle interaction


$ \psi ={\exp}\left({({{y}_{j}}-{{y}_{i}})/{{y}_{i}}}\right)\cdot {\exp}\left({\cos \;({{\theta }_{i,j}}-{{\phi }_{i,j}})}\right), $

$ {\theta }_{i,j}=\arctan \left[({y}_{i}-{y}_{j})/({x}_{i}-{x}_{j})\right], $

$ {\phi }_{i,j}=|{\phi }_{i}-{\phi }_{j}| .$

式中:$ {y}_{i} $$ {\textit{y}}_{\textit{j}} $分别为车辆i和车辆j的纵向位置,$ {\theta }_{i,j} $为车辆ij的相对方向角,$ {\phi }_{i,j} $为车辆ij的运动航向角的差值,$ {\phi }_{i} $$ {\phi }_{j} $分别为车辆ij的运动航向角.

4)依据车辆场势表征车辆交互作用,车辆之间的相互作用与车辆质量和车辆之间的相对运动状态相关. 为了量化车辆间的交互影响,建立车辆之间的风险场交互作用力$ {F}_{i,j} $. 该作用力用于描述车辆i受到车辆j的影响,

$ {\begin{split} &{F}_{i,j}=\\& \frac{\exp\left({|{{v}_{i}}-{{v}_{j}}||{{a}_{j}}|}\right)\cdot {M}_{j}\cdot \exp\left({({{y}_{j}}-{{y}_{i}})/{{y}_{i}}}\right)\cdot \exp\left({\cos \;({{\theta }_{i,j}}-{{\phi }_{i,j}})}\right)}{k} .\end{split} }$

式中:$ {\textit{v}}_{\textit{i}} $$ {\textit{v}}_{\textit{j}} $分别为车辆ij的速度,$ {a}_{\textit{j}} $为周围车辆j的加速度.

车辆的作用力$ {F}_{i,j} $表示车辆之间的相互交互风险. t时刻车辆之间的交互表示为

$ r_{i,j}^{t}=\begin{cases} \max \;\left\{0,F_{i,j}^{t}\right\},\;i\ne j;\\ \varOmega ,\;i=j.\\ \end{cases} $

式中:$ \varOmega =\max {F}_{\textit{i},\textit{j}} $表示车辆自身的影响;$ r_{i,j}^{t} $t时刻车辆ij之间的风险系数. 利用softmax函数对风险系数进行归一化,得到归一化后的交互风险系数$ \tilde{r}_{i,j}^{t} $:

$ \tilde{r}_{i,j}^{t}={\mathrm{soft}}\max\; (r_{i,j}^{t})=\frac{{{\mathrm{e}}}^{{r_{i,j}^{t}}}}{\displaystyle \sum\nolimits_{k=1}^{j}{{\mathrm{e}}}^{{r_{i,k}^{t}}}}. $

$ {\boldsymbol{R}}^{{t}} $t时刻N个车辆之间归一化后的风险系数矩阵,

$ {\boldsymbol{R}}^{{t}}=\left[\begin{matrix}\tilde{\boldsymbol{r}}_{{1,1}}^{{t}} & \tilde{\boldsymbol{r}}_{{1,2}}^{{t}} & \cdots & \tilde{\boldsymbol{r}}_{{1,N}}^{{t}}\\ \tilde{\boldsymbol{r}}_{{2,1}}^{{t}} & \tilde{\boldsymbol{r}}_{{2,2}}^{{t}} & \cdots & \tilde{\boldsymbol{r}}_{{2,N}}^{{t}}\\ \vdots & \vdots & & \vdots \\ \tilde{\boldsymbol{r}}_{{N},{{1}}}^{{t}} & \tilde{\boldsymbol{r}}_{{N},{{2}}}^{{t}} & \cdots & \tilde{\boldsymbol{r}}_{{N},{N}}^{{t}}\\ \end{matrix}\right] .$

2.2. 时间依赖模块

车辆未来轨迹的预测高度依赖于其历史时序轨迹. 传统基于Transformer的轨迹预测方法一般将特定时间步长的所有维度数据嵌入单个向量中,随着历史窗口长度的增加,Transformer将面临性能下降和计算量激增的挑战[37]. 此外,Transformer将多个变量在相同时间戳下进行对齐,这种编码方式会导致多变量之间的相关性丧失,无法充分、明确地挖掘和利用变量间的依存关系[45].

借鉴iTransformer[45]的设计思路,在不改变transformer网络结构框架的前提下,提出变量分离的编码策略. 该方法将一个变量的整个序列视为一个独立的token,利用注意力机制建模不同变量之间的依赖关系. 利用前馈神经网络深度提取变量内部沿时间维度的动态特征,从而实现对多变量时序轨迹更充分、更具判别性的表征. Transformer和iTransformer的数据处理方式比较如图4所示.

图 4

图 4   Transformer和iTransformer的数据处理图

Fig.4   Data processing diagram of Transformer and iTransformer


时间依赖模块的具体框架如下.

1)编码层. 采用多层感知机(MLP)将输入变量的时间维度进行变换,将特征$ \boldsymbol{X}\in {\bf{R}}^{N\times C\times T} $映射为$ {\boldsymbol{H}}^{{0}}=\left\{{h}_{1},{h}_{2},\cdots ,hc\right\}\in {\bf{R}}^{N\times C\times D} $.

2)多变量注意力Transformer(multivariate-attention). 采用2层多变量注意力Transformer,提取车辆历史轨迹中时序与变量间的关联特征. 该模块通过多头注意力机制捕捉不同变量间的交互与依赖关系,借助前馈神经网络获取轨迹的时间依赖关系,得到时间依赖关系特征$ \boldsymbol{H}\in {\bf{R}}^{N\times C\times D} $. 多变量注意力Transformer如图5所示.

图 5

图 5   多变量注意力Transformer的框架

Fig.5   Framework of multivariate attention Transformer


利用注意力机制跨维度计算不同变量的相关系数,分析不同变量之间的相关性. 以往的注意力机制将不同的变量视为一体,本文将每个变量的整个序列视为独立的token. 自注意力机制将每个时间序列$ \boldsymbol{H}=\left\{{h}_{1},{h}_{2},\cdots ,{h}_{C}\right\}\in {\bf{R}}^{N\times C\times D} $线性投影为$ \boldsymbol{Q}、\boldsymbol{K}、\boldsymbol{V}\in {\bf{R}}^{N\times C\times {{d}_{{\mathrm{k}}}}} $,其中$ {d}_{{\mathrm{k}}} $为投影维度. 使用查询向量Q和键向量K的乘积,利用softmax函数进行归一化处理,计算变量间的注意力权重$ {\boldsymbol{A}} $

$ {\boldsymbol{A}}={\mathrm{soft}}\max\; ({{\boldsymbol{Q}{\boldsymbol{K}}^{{\mathrm{T}}}}} \diagup {{\sqrt{{d}_{{\mathrm{k}}}}}}) . $

$ {\boldsymbol{A}} $与价值向量V相乘,获取注意力更新后的向量:

$ {\mathrm{{A}{t}{t}}}\;(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})={{\boldsymbol{A}}}{\boldsymbol{V}} . $

利用层归一化($ {\mathrm{LayerNorm}} $)将每个变量归一化为高斯分布,减少由于不同变量的数据级别而引起的差异.

$ {{\boldsymbol{H}}}^{{l}}={\mathrm{L{ayer}N{orm}}}\left({{\boldsymbol{H}}}^{\left(\textit{l}-1\right)}+{\mathrm{A{tt}}}\left({\boldsymbol{Q}}\text{, }{\boldsymbol{K}}\text{, }{\boldsymbol{V}}\right)\right) . $

与以往transformer架构中引入位置编码的做法不同,本研究采用基于多层感知机(MLP)的前馈神经网络结构,对输入的变量的时间维度进行变换[25, 46]. 该方法能够有效捕捉时间系列的中长期依赖关系,避免传统位置编码的归纳偏差.

2.3. 轨迹输出模块

由于空间交互是在特征维度进行变换学习,为了处理建模时间的依赖性,在时间维度上,将空间交互特征$ \boldsymbol{Z}\in {\bf{R}}^{N\times D\times T} $作为特征通道输入到时间卷积神经网络(TCNS)中,在对TCNS进行卷积操作之后,得到$ \overline{\boldsymbol{Z}}\in {\bf{R}}^{N\times C\times D} $. 采用简洁而有效的融合策略,即将空间交互特征$ \overline{\boldsymbol{Z}}\in {\bf{R}}^{N\times C\times D} $和时间交互模块$ \boldsymbol{H}\in {\bf{R}}^{N\times C\times D} $直接进行拼接,而非复杂的多级融合方式. 该拼接策略的有效性在后续实验中得到对比验证.

由于线性网络具有简单、高效的泛化能力,采用多层感知机网络MLP生成未来的轨迹序列$ \boldsymbol{Y}\in {\bf{R}}^{N\times C\times F} $.

3. 数据与实验分析

3.1. 数据处理与参数设置

为了全面评估提出方法的性能,在NGSIM和HighD,2个真实的世界数据集上开展多角度、多层次的对比实验分析.

美国联邦公路局发布的车辆轨迹数据集(next generation simulation,NGSIM)由美国联邦公路局于2005年采集,涵盖旧金山I-80路段和洛杉矶US-101路段2个主要城市高速公路场景. 该数据集通过固定于高处的摄像机以10 Hz频率录制,提供了包括车辆位置、速度、加速度等在内的高精度轨迹信息,精确反映了真实交通流的微观行为特征. HighD数据集采集于德国科隆附近一段长约420 m的双向道路,录制于2017年至2018年,使用无人机以25 Hz频率拍摄生成. 该数据集共包含超过11万辆的车辆轨迹,总行驶里程达到45 000 km,覆盖轿车与卡车多种车型,提供了丰富的驾驶行为样本. 为了保持数据频率的一致性,通过线性插值将HighD数据降采样至10 Hz,以便与NGSIM数据在相同基准上进行比较.

在数据划分方面,2个数据集均按7∶1∶2的比例划分为训练集、验证集和测试集. 每条轨迹被切分为时长为8 s的片段,其中前3 s作为历史观测轨迹,后5 s作为用于预测的未来轨迹真值. 为了保持对比的公平性,遵循Deo等[12]的做法,对每个片段进行2倍降采样,最终的采样率为5帧/s.

所有实验均在统一的软硬件环境下进行:该环境搭载Intel Core i9-14900KF处理器、64 GB内存及NVIDIA RTX 3080显卡(16 GB显存),并在Python 3.8.18与PyTorch 2.1.0+cu118的框架下运行. 模型的关键参数设置如下:车辆数N =30,编码层大小为64,注意力头数为2,前馈网络维度为128,激活函数为GELU,且空间交互模块和时间依赖模块均设置为2层. 在训练过程中,使用学习率为0.001的Adam优化器,采用均方误差MSE作为损失函数,批次大小设为128. 模型训练共进行10个轮次,其中在NGSIM数据集上第8个轮次达到最佳性能,在HighD数据集上第5个轮次取得最优结果.

3.2. 评价指标

采用均方根误差RMSE、平均位移误差ADE及最终位移误差FDE,评估不同方法的预测性能.

$ {\mathrm{RMS}}{{{\mathrm{E}}}_{t}}=\sqrt{{N}^{-1}\underset{i=1}{\overset{N}{\mathop{\sum }}}\,[{{(\hat{x}_{t}^{i}-x_{t}^{i})}^{2}}+{{(\hat{y}_{t}^{i}-y_{t}^{i})}^{2}}]},$

$ {\mathrm{ADE}}={N}^{-1}{F}^{-1}\sum\limits_{\textit{i}=1}^{N}\sum\limits_{\textit{t}=1}^{F}\sqrt{{\left(\hat{x} _{\textit{t}}^{\textit{i}}-\textit{x}_{\textit{t}}^{\textit{i}}\right)}^{2}+{\left(\hat{y} _{\textit{t}}^{\textit{i}}-\textit{y}_{\textit{t}}^{\textit{i}}\right)}^{2}} ,$

$ {\mathrm{FDE}}={N}^{-1}\sum\limits_{\textit{i}=1}^{N}\sqrt{{\left(\hat{x} _{F}^{\textit{i}}-\textit{x}_{F}^{\textit{i}}\right)}^{2}+{\left(\hat{y} _{F}^{\textit{i}}-\textit{y}_{F}^{\textit{i}}\right)}^{2}}. $

$ \mathrm{式} $中:N为预测对象的个数,$ \left(\hat{x} _{\textit{t}}^{\textit{i}},\hat{y} _{\textit{t}}^{\textit{i}}\right) $t时刻预测的位置坐标,$ \left(\textit{x}_{\textit{t}}^{\textit{i}},\;\textit{y}_{\textit{t}}^{\textit{i}}\right) $t时刻真实的位置坐标,$ \left(\hat{x} _{F}^{\textit{i}},\;\hat{y} _{F}^{\textit{i}}\right) $$ \left(\textit{x}_{F}^{\textit{i}},\;\textit{y}_{F}^{\textit{i}}\right) $分别为第i个轨迹样本在最后一个时间步F时目标车辆的预测位置和真实位置.

3.3. 模型性能比较

基于NGSIM和HighD 2个真实世界数据集,对提出的RGMA模型与当前7种代表性轨迹预测方法进行综合对比实验. 参与对比的基线模型包括卷积社交长短期记忆网络[12](CS-LSTM)、多头注意力LSTM [20](MHA-LSTM)、时空动态注意力网络[36](STDAN)、交互感知Transformer [33](iNATran)、图注意力网络[2](STGAMT)、图轨迹预测模型[15](GRIP)和图时空卷积网络[27](GSTCN). 这些模型分别代表基于卷积社交池化、注意力机制、时空分层建模、图结构交互及多模态特征融合等不同的技术路线.

3.3.1. 模型均方根误差(RMSE)的对比

表1所示为各模型在5 s预测时间范围内的RMSE性能对比结果. 其中,tp为预测时间. GRIP、GSTCN 未提供HighD数据集下的预测结果,故未作对比. 从整体性能来看,RGMA在2项数据集上均优于所有基线模型. 具体而言,在NGSIM数据集上,RGMA的平均RMSE为1.31,显著低于基于CNN的CS-LSTM(2.29)和基于注意力机制的MHA-LSTM(1.932)、STDAN(1.87)及STGAMT(1.69). 与采用图结构建模的GRIP(1.61)和GSTCN(1.52)相比,RGMA分别实现了18.8%和13.8%的性能提升,表明多变量注意力机制在时间依赖建模方面优于传统的GRU和LSTM结构. 与融合GAT和Transformer的iNATran模型(1.87)相比,RGMA将误差降低了20.6%,突显了其在复杂时空交互捕捉方面的优越性.

表 1   不同模型的均方根误差对比

Tab.1  Root mean square error comparison of different models

数据集tp/sRMSE/m
CS-LSTMMHA-LSTMSTDANiNATranSTGAMTGRIPGSTCNRGMA
NGSIM10.610.410.420.410.210.370.440.16
NGSIM21.271.011.0110.780.860.830.60
NGSIM32.091.741.691.71.491.451.331.17
NGSIM43.12.672.562.572.42.212.011.88
NGSIM54.373.833.673.663.573.162.982.73
NGSIM平均值2.291.931.871.871.691.611.521.31
HighD10.220.060.190.040.070.05
HighD20.610.090.270.050.190.14
HighD31.240.240.480.210.320.27
HighD42.10.590.910.540.610.47
HighD53.271.181.661.111.140.80
HighD平均值1.490.430.700.390.470.35

新窗口打开| 下载CSV


从预测时间尺度分析可知,RGMA在短期预测(1~3 s)和长期预测(3~5 s)方面均表现最佳,RMSE较基线模型平均下降了42.0%和38.4%. 这一结果验证了时间依赖模块中变量注意力机制在挖掘历史变量间相关性方面的有效性,从而显著提升短期预测精度. 该模块中的前馈网络增强了对长时序轨迹特征的提取能力,表明RGMA在长时预测任务中具有良好的扩展性和稳定性.

上述实验结果表明,RGMA模型能够有效地融合时空特征,在复杂真实场景中实现更精准的轨迹预测. 该模型的优越性能主要源于多变量注意力机制对动态交互关系的高效建模以及时空模块的协同作用,为长时序轨迹预测提供创新且高效的解决方案.

3.3.2. 模型ADE和FDE的对比

为了进一步验证所提方法的可靠性,表2给出模型在NGSIM与HighD数据集上的ADE和FDE结果. ADE反映了模型在整个预测轨迹上的平均精度,FDE用于衡量轨迹终点位置的预测准确度. 实验数据显示,本文方法在上述2项指标上均表现优异. 与最优基线模型iNATran相比,在NGSIM数据集上,ADE降低了10.18%,FDE降低了6.67%. 在HighD数据集上,ADE提高了5%,但是FDE降低了7.06%. 这一结果进一步表明,所提模型在轨迹预测精度方面具备稳定且可靠的提升能力.

表 2   不同模型的ADE和FDE对比

Tab.2  Comparison of ADE and FDE across different models

模型NGSIMHighD
ADE/mFDE/mADE/mFDE/m
CS-LSTM1.383.270.992.14
STDAN1.142.730.291.08
STGAMT1.182.990.320.98
iNATran1.082.550.200.85
RGMA0.972.380.210.79

新窗口打开| 下载CSV


3.3.3. 模型的横、纵向RMSE对比

本文的研究重点在于对多个目标车辆的未来轨迹进行预测,虽未涉及多模态轨迹预测,但所采用的空间特征提取方法能够有效捕捉车辆的驾驶意图. 为了验证该方法在意图识别方面的优势,选取STDAN、STGAMT与提出的RGMA模型,在横向和纵向2个维度上进行RMSE的对比分析,具体结果如表3所示. 其中,EhEz分别为横向意图误差和纵向意图误差.

表 3   各模型在横、纵向意图预测上的RMSE对比

Tab.3  Comparison of RMSE across models for lateral and longitudinal intention prediction

数据集tp/sEh/mEz/m
STDANSTGAMTRGMASTDANSTGAMTRGMA
HighD10.070.030.020.120.070.05
HighD20.120.110.100.150.140.12
HighD30.240.230.190.240.220.20
HighD40.400.360.300.510.480.37
HighD50.520.470.411.141.040.70
NGSIM10.130.080.060.400.200.15
NGSIM20.230.200.160.980.750.58
NGSIM30.310.290.251.661.461.14
NGSIM40.380.370.342.542.371.84
NGSIM50.450.400.403.673.542.68

新窗口打开| 下载CSV


表3可以看出,在不同数据集(HighD与NGSIM)及不同预测时长(1~5 s)下,RGMA模型在横向和纵向意图识别上的RMSE均低于STDAN和STGAMT模型,尤其在纵向意图识别方面误差下降更显著. 当在NGSIM数据集上的预测时长为5 s时,RGMA的纵向误差为2.68 m,相较于STDAN的3.67 m和STGAMT的3.54 m,分别降低了约26.9%和24.3%. 这一结果说明,利用RGMA模型,能够更准确地识别车辆的驾驶意图,特别是在纵向运动意图的判断上表现突出,验证了提出空间特征提取方法的有效性.

3.4. 模型耗时对比

在轨迹预测任务中,推理效率是衡量模型实用性的核心指标之一,其推理耗时与计算复杂度是决定模型能否部署于车载系统的关键. 为证明本文模型的时效性,将批次大小设置为128,测试并对比各模型完成单批次前向推理的平均耗时与每秒浮点运算次数(FLOPs). 使用T表示模型在给定批次大小下完成单批次前向推理的平均耗时. 测试结果如表4所示.

表 4   不同模型的计算复杂度与推理时间对比

Tab.4  Comparison of computational complexity and inference time across models

模型名称FLOPs/109T/ms
CS-LSTM0.01409.436
STGAMT0.029710.905
STDAN0.043013.035
iNATran0.096820.927
RGMA(V3)0.054216.488
RGMA(V4)0.047514.732
RGMA0.041112.874

新窗口打开| 下载CSV


提出的RGMA模型在精度与效率的权衡中展现出显著优势. 虽然该模型的计算复杂度和运行时间相较于轻量级的CS-LSTM和STGAMT有所增加,但预测精度(以RMSE衡量)提升了34.17%. 模型的实际推理耗时满足车载系统设备的实时性要求,在精度与效率之间取得了良好平衡. 与同样基于注意力机制的STDAN相比,RGMA在保持相近计算复杂度和推理速度的同时,具备更高的并行处理能力:可以单批次同时预测最多30台车辆,而STDAN仅支持单车辆推理,从而在实际部署中实现大幅的效率提升. 此外,相较于同为注意力模型的iNATran,RGMA在运行效率和预测准确度上均实现了显著的提升. 结果表明,本文模型在计算复杂度、推理速度和预测精度之间取得了更优平衡,具有较强的实际应用潜力.

3.5. 消融实验
3.5.1. 不同模块的影响

为了验证RGMA模型中各个模块的有效性,通过移除或者替换关键模块,构建一系列变体模型,在NGSIM数据集上进行消融实验. 通过对比不同变体模型在均方根误差指标上的表现,定量评估各模块对模型预测性能的贡献.

1)变体V1:移除空间交互模块,仅依赖多变量注意力Transformer进行轨迹预测. 该变体无法捕捉车辆间的动态空间交互关系.

2)变体V2:移除时间依赖模块,仅保留动态风险图神经网络和时间卷积网络(TCN),用于预测车辆轨迹. 该变体缺少轨迹数据时间特征的提取.

3)变体V3:将原始模型中时间与空间特征的并联融合机制替换为基于注意力机制的融合方式,对比不同特征融合策略的性能差异.

4)变体V4:将时间模块替换为常规Transformer编码层,对比本文设计的多变量注意力Transformer与常规架构的性能差异.

各变体模型与完整RGMA模型在NGSIM数据集上的RMSE对比结果如表5所示.

表 5   不同模块对预测误差影响的消融实验对比

Tab.5  Comparison of ablation experiment for impact of different modules on prediction error

tp/sRMSE/m
V1V2V3V4RGMA
10.190.890.160.240.16
20.722.450.610.730.60
31.484.121.211.361.17
42.445.891.942.091.88
53.587.742.832.972.73

新窗口打开| 下载CSV


表5可知,移除任一模块均会导致RMSE上升,表明各模块均对模型预测性能的提升具有重要作用. 具体而言,V2模型的性能下降最显著,这是由于该变体仅考虑空间交互而忽略轨迹的历史相关性,凸显了时间建模的必要性. V1的RMSE显著低于V2,表明引入轨迹的时间特性能够有效地提高轨迹预测的准确性.

V3的性能优于V1和V2,但差于完整的RGMA模型. 从表5可以看出,V3的模型复杂度和运行速度均高于本文的RGMA模型. 这从梯度传播视角进一步得到解释:本文采用的并联融合机制建立了更短、更直接的梯度路径,有效缓解了梯度消失的问题,使各层能够获得稳定的梯度信号进行高效更新,从而更有效地提取和融合时空特征. V3模型可能因结构复杂、梯度路径过长,导致优化困难. 这些均表明并联融合机制具有显著的优势.

为了验证提出的多变量注意力Transformer网络的优越性,如表5所示,从多个维度将其与基于传统Transformer编码层的V4网络进行对比分析. 实验结果表明,本文模型在保持较低模型复杂度的同时,实现了更高的计算效率. 具体而言,在运行时间和模型大小方面,本文模型均优于V4网络. 此外,在预测精度上,本文RGMA方法的RMSE低于V4模型,进一步体现了该方法的优越性能.

综上所述,RGMA模型在各预测时间点上均优于所有的变体,这证明了该模型模块设计的有效性与整体结构的优越性.

3.5.2. 不同等效距离阈值的影响

在提出的空间交互模块中,考虑了一定等效距离内车辆的互相影响. 为了验证不同等效距离阈值k对预测误差的影响,在HighD数据集上进行实验. 实验中,将k设置为$ k\in \left\{50,100,150\right\} $. 实验结果如图6所示,当k由50增至100时,RMSE显著下降,表明扩大交互范围有助于提升预测精度,更多车辆间的交互信息能够得到有效的利用. 在k超过100后,RMSE的下降趋势减缓并逐渐趋于稳定,说明车辆间显著的空间交互作用主要发生在相对邻近的范围内,过度增大阈值对性能的提升效果有限.

图 6

图 6   不同等效距离阈值的影响示意图

Fig.6   Schematic diagram of effect of different equivalent distance threshold


3.5.3. 不同邻接矩阵的影响

在空间交互模块中,引入风险场交互理论刻画车辆间相互作用的差异性影响,将计算得到的交互风险作为图卷积网络(GCN)中的邻接矩阵权重. 为了验证该方法的有效性,在NGSIM数据集上将其与另外2种邻接矩阵的构建方式进行比较. 1)二值化邻接矩阵(表示为“0-1”),即若车辆间存在交互则权重为1,否则为0. 2)基于车辆欧式距离倒数的临接矩阵(表示为“距离倒数”).

对比结果如图7所示,提出的基于风险场理论的邻接矩阵表示方法在3种方式中的预测误差最低(对应图7中的“风险场交互”柱体),表明在GCN中添加运动状态的风险场交互机制有助于提高模型的预测性能. 相比之下,采用简单的二值化邻接矩阵的方法(对应图7中的“0-1”柱体)预测误差最大,该方法忽略了相邻车辆之间交互的异质化影响. 考虑车辆间坐标距离的交互方式(对应图7中的“距离倒数”柱体),虽然在一定程度上考虑了空间接近性,性能优于二值矩阵,但建模方式较简单,难以充分捕捉车辆之间的复杂交互动态.

图 7

图 7   不同邻接矩阵的影响

Fig.7   Effect of different adjacency matrix


为了比较不同邻接矩阵的建模效果,选取NGSIM数据集中的6辆车辆,分别在第1秒和第3秒时,对比基于风险场理论的邻接矩阵与基于欧式距离倒数的邻接矩阵。第1秒和第3秒时的车辆运动特征如图8所示,不同方法下的邻接矩阵热力图如图9所示. 图9中,I为影响程度. 相较于图9(b)、(d)来说,图9(a)、(c)中交互风险矩阵差值更大,更能反映车辆间交互指数递增的趋势,对风险的感应更灵敏.

图 8

图 8   2个时刻的车辆位置信息

Fig.8   Vehicle location information at two time points


图 9

图 9   连续2个时刻的不同交互方式热力图

Fig.9   Heatmap of different interaction method at two consecutive time points


此外,图8(a)识别出车辆3与车辆4均存在减速,此时构成了极高的追尾碰撞风险,这与图9中两者间交互强度最高(0.70)的量化结果一致. 在第3秒对应的图9(c),车辆3与车辆4的速度差和加速度差已显著减小,跟车风险随之缓解. 基于欧氏距离倒数的方法在图9(b)、(d)中均未能有效反映此类动态的风险变化. 通过对2组热力图的对比分析可知,相较于距离倒数方法,提出的动态风险图方法能够更灵敏地识别并量化车辆间的动态碰撞风险.

3.6. 预测结果分析

为了评估提出模型的预测性能,在NGSIM数据集中分别选取畅通、缓行、拥挤和堵塞交通场景下的典型样本,对相应的轨迹预测结果进行可视化分析,如图10所示.

图 10

图 10   不同交通场景下的车辆轨迹预测结果可视化

Fig.10   Visualization of vehicle trajectory prediction result across different traffic scenario


图10所示,通过对比车辆实际轨迹与预测轨迹可知,本文模型可以平滑且准确地预测包括换道与保持车道在内的多种典型行驶轨迹. 具体而言,如图10(a)、(b)所示为低密度交通流场景下的车辆行驶轨迹,此时车辆间的交互作用较弱,车辆多以较高的速度保持稳定行驶. 在高密度拥堵场景中(见图10(c)、(d)),车辆之间的交互显著增强,部分车辆通过变道、加速和减速等策略实现高效且安全通行. 利用本文模型,不仅能够准确预测此类微观操作行为,如变道与加减速,而且能够有效捕捉复杂交通环境中车辆间细微的时空相互作用,从而在所有车辆轨迹预测中均表现出较高的准确性. 综上所述,可视化结果验证了本文方法在不同交通情境下均具有良好的泛化能力与鲁棒性.

4. 结 语

提出基于动态风险图与多变量注意力的车辆多目标轨迹预测模型(RGMA),该模型可以同时预测交通场景中所有车辆的未来轨迹. 在NGSIM和HighD 2个真实数据集上,对比RGMA模型与其他基线模型的预测性能. 结果表明,RGMA模型具有更高的预测精度. 此外,对模块构成的消融实验进一步表明模型各模块及参数设定的有效性和合理性.

RGMA模型在结构化道路场景中展现出优越的性能,但仍存在一定的局限. 该模型对于强对抗性交互行为、复杂道路拓扑与交通规则等先验信息的利用尚不充分,且当前仅输出确定性轨迹,未考虑驾驶意图的不确定性. 未来研究可从以下方面深入. 1)建立融合多源感知信息与道路结构化知识的交互表征. 2)发展生成式建模方法,实现多模态轨迹预测. 3)在更复杂、动态的交通场景与数据集上验证与增强模型的泛化能力.

参考文献

GRIGORESCU S, TRASNEA B, COCIAS T, et al

A survey of deep learning techniques for autonomous driving

[J]. Journal of Field Robotics, 2020, 37 (3): 362- 386

DOI:10.1002/rob.21918      [本文引用: 1]

陈文强, 王东丹, 朱文英, 等

基于时空图注意力网络的车辆多模态轨迹预测模型

[J]. 浙江大学学报: 工学版, 2025, 59 (3): 443- 450

[本文引用: 2]

CHEN Wenqiang, WANG Dongdan, ZHU Wenying, et al

Vehicle multimodal trajectory prediction model based on spatiotemporal graph attention network

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (3): 443- 450

[本文引用: 2]

LEFÈVRE S, VASQUEZ D, LAUGIER C

A survey on motion prediction and risk assessment for intelligent vehicles

[J]. ROBOMECH Journal, 2014, 1 (1): 1

[本文引用: 1]

LEFKOPOULOS V, MENNER M, DOMAHIDI A, et al

Interaction-aware motion prediction for autonomous driving: a multiple model Kalman filtering scheme

[J]. IEEE Robotics and Automation Letters, 2021, 6 (1): 80- 87

DOI:10.1109/LRA.2020.3032079      [本文引用: 1]

WANG Y, WANG C, ZHAO W, et al

Decision-making and planning method for autonomous vehicles based on motivation and risk assessment

[J]. IEEE Transactions on Vehicular Technology, 2021, 70 (1): 107- 120

DOI:10.1109/TVT.2021.3049794      [本文引用: 1]

LI J, DAI B, LI X, et al

A dynamic Bayesian network for vehicle maneuver prediction in highway driving scenarios: framework and verification

[J]. Electronics, 2019, 8 (1): 40

DOI:10.3390/electronics8010040      [本文引用: 1]

STREUBEL T, HOFFMANN K H. Prediction of driver intended path at intersections [C]//Proceedings of the IEEE Intelligent Vehicles Symposium. [S. l. ]: IEEE, 2014: 134−139.

[本文引用: 1]

TRAN Q, FIRL J. Online maneuver recognition and multimodal trajectory prediction for intersection assistance using non-parametric regression [C]//2014 IEEE Intelligent Vehicles Symposium. Dearborn: IEEE, 2014: 118−123.

[本文引用: 1]

SCHREIER M, WILLERT V, ADAMY J. Bayesian, maneuver-based, long-term trajectory prediction and criticality assessment for driver assistance systems [C]//Proceedings of the 17th International IEEE Conference on Intelligent Transportation Systems. Qingdao: IEEE, 2014: 334–341.

[本文引用: 1]

REN Y Y, ZHAO L, ZHENG X L, et al

A method for predicting diverse lane-changing trajectories of surrounding vehicles based on early detection of lane change

[J]. IEEE Access, 2022, 10: 17451- 17472

[本文引用: 1]

LI J, MA H, ZHAN W, et al. Generic probabilistic interactive situation recognition and prediction: from virtual to real [C]//Proceedings of the 21st International Conference on Intelligent Transportation Systems. Maui: IEEE, 2018: 3218–3224.

[本文引用: 1]

DEO N, TRIVEDI M M. Convolutional social pooling for vehicle trajectory prediction [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City: IEEE, 2018: 1549–15498.

[本文引用: 5]

GUPTA A, JOHNSON J, LI F F, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2255–2264.

[本文引用: 1]

ZHAO T, XU Y, MONFORT M, et al. Multi-agent tensor fusion for contextual trajectory prediction [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 12118–12126.

[本文引用: 2]

LI X, YING X, CHUAH M C. GRIP: graph-based interaction-aware trajectory prediction [C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. Auckland: IEEE, 2019: 3960–3966.

[本文引用: 3]

ZHANG K, ZHAO L, DONG C, et al

AI-TP: attention-based interaction-aware trajectory prediction for autonomous driving

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (1): 73- 83

[本文引用: 1]

MO X, XING Y, LV C. Graph and recurrent neural network-based vehicle trajectory prediction for highway driving [C]//Proceedings of the IEEE International Intelligent Transportation Systems Conference. Indianapolis: IEEE, 2021: 1934−1939.

[本文引用: 1]

HELBING D, MOLNÁR P

Social force model for pedestrian dynamics

[J]. Physical Review E, 1995, 51 (5): 4282- 4286

[本文引用: 1]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 961–971.

[本文引用: 1]

MESSAOUD K, YAHIAOUI I, VERROUST-BLONDET A, et al

Attention based vehicle trajectory prediction

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6 (1): 175- 185

DOI:10.1109/TIV.2020.2991952      [本文引用: 2]

LIN L, LI W, BI H, et al

Vehicle trajectory prediction using LSTMs with spatial–temporal attention mechanisms

[J]. IEEE Intelligent Transportation Systems Magazine, 2022, 14 (2): 197- 208

DOI:10.1109/MITS.2021.3049404      [本文引用: 1]

GUO H, MENG Q, CAO D, et al

Vehicle trajectory prediction method coupled with ego vehicle motion trend under dual attention mechanism

[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 2507516

[本文引用: 1]

LI C, LIU Z, YANG N, et al

Regional attention network with data-driven modal representation for multimodal trajectory prediction

[J]. Expert Systems with Applications, 2023, 232: 120808

[本文引用: 1]

CHEN X, ZHANG H, ZHAO F, et al

Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for Internet of vehicles

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (10): 19471- 19483

DOI:10.1109/TITS.2022.3170551      [本文引用: 2]

DIEHL F, BRUNNER T, LE M T, et al. Graph neural networks for modelling traffic participant interaction [C]//Proceedings of the IEEE Intelligent Vehicles Symposium. Paris: IEEE, 2019: 695–701.

[本文引用: 2]

CHEN H. STGCN for modeling vehicle trajectory in highway scenario [C]//Proceedings of the 5th International Conference on Mechanical, Control and Computer Engineering. Harbin: IEEE, 2020: 1115−1118.

[本文引用: 1]

SHENG Z, XU Y, XUE S, et al

Graph-based spatial-temporal convolutional network for vehicle trajectory prediction in autonomous driving

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (10): 17654- 17665

DOI:10.1109/TITS.2022.3155749      [本文引用: 3]

LI F J, ZHANG C Y, PHILIP CHEN C L

STS-DGNN: vehicle trajectory prediction via dynamic graph neural network with spatial–temporal synchronization

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 2525413

[本文引用: 3]

VASWANI A, SHAZEER N, PARMAR N, et al

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998- 6008

[本文引用: 3]

QUINTANAR A, FERNÁNDEZ-LLORCA D, PARRA I, et al. Predicting vehicles trajectories in urban scenarios with transformer networks and augmented information [C]//Proceedings of the IEEE Intelligent Vehicles Symposium. Nagoya: IEEE, 2021: 1051–1056.

[本文引用: 2]

GENG M, LI J, XIA Y, et al

A physics-informed Transformer model for vehicle trajectory prediction on highways

[J]. Transportation Research Part C: Emerging Technologies, 2023, 154: 104272

DOI:10.1016/j.trc.2023.104272      [本文引用: 1]

GAO K, LI X, CHEN B, et al

Dual transformer based prediction for lane change intentions and trajectories in mixed traffic environment

[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24 (6): 6203- 6216

DOI:10.1109/TITS.2023.3248842      [本文引用: 1]

CHEN X, ZHANG H, ZHAO F, et al

Vehicle trajectory prediction based on intention-aware non-autoregressive transformer with multi-attention learning for Internet of vehicles

[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 2513912

[本文引用: 2]

XU D, SHANG X, LIU Y, et al

Group vehicle trajectory prediction with global spatio-temporal graph

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (2): 1219- 1229

DOI:10.1109/TIV.2022.3200338      [本文引用: 1]

徐东伟, 程千兵, 顾同成, 等

基于时空交互特征融合的车辆轨迹预测方法研究

[J]. 中国公路学报, 2025, 38 (11): 447- 458

[本文引用: 1]

XU Dongwei, CHENG Qianbing, GU Tongcheng, et al

Research on vehicle trajectory prediction method based on spatio-temporal interaction feature fusion

[J]. China Journal of Highway and Transport, 2025, 38 (11): 447- 458

[本文引用: 1]

CHEN C, CHEN X, GUO C, et al

Trajectory prediction for autonomous driving based on structural informer method

[J]. IEEE Transactions on Automation Science and Engineering, 2025, 22: 17452- 17463

[本文引用: 2]

WANG W, CHEN W, QIU Q, et al

CrossFormer: a versatile vision transformer hinging on cross-scale attention

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (8): 10260- 10276

[本文引用: 2]

WANG J, WU J, ZHENG X, et al

Driving safety field theory modeling and its application in pre-collision warning system

[J]. Transportation Research Part C: Emerging Technologies, 2016, 72: 306- 324

DOI:10.1016/j.trc.2016.10.003      [本文引用: 1]

MA H, AN B, LI L, et al

Anisotropy safety potential field model under intelligent and connected vehicle environment and its application in car-following modeling

[J]. Journal of Intelligent and Connected Vehicles, 2023, 6 (2): 79- 90

DOI:10.26599/JICV.2023.9210006      [本文引用: 1]

袁阳阳. 基于近似模型的汽车尾部结构减阻优化 [D]. 重庆: 重庆交通大学, 2018.

YUAN Yangyang. Drag reduction optimization of vehicle rear structure based on approximate model [D]. Chongqing: Chongqing Jiaotong University, 2018.

李文中, 王立, 李振兴, 等

不同尺寸车身轻量化评价及重量目标设定

[J]. 汽车实用技术, 2020, 45 (19): 122- 124

DOI:10.16638/j.cnki.1671-7988.2020.19.039      [本文引用: 1]

LI Wenzhong, WANG Li, LI Zhenxing, et al

BIW lightweight evaluation and weight target setting method for different size vehicle

[J]. Automobile Applied Technology, 2020, 45 (19): 122- 124

DOI:10.16638/j.cnki.1671-7988.2020.19.039      [本文引用: 1]

WOLF M T, BURDICK J W. Artificial potential functions for highway driving with collision avoidance [C]//Proceedings of the IEEE International Conference on Robotics and Automation. Pasadena: IEEE, 2008: 3731–3736.

[本文引用: 1]

LI L, GAN J, JI X, et al

Dynamic driving risk potential field model under the connected and automated vehicles environment and its application in car-following modeling

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (1): 122- 141

DOI:10.1109/TITS.2020.3008284      [本文引用: 1]

LV P, WANG W, WANG Y, et al

SSAGCN: social soft attention graph convolution network for pedestrian trajectory prediction

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35 (9): 11989- 12003

DOI:10.1109/TNNLS.2023.3250485      [本文引用: 1]

LIU Y, HU T, ZHANG H, et al. iTransformer: inverted transformers are effective for time series forecasting [EB/OL]. [2025−09−10]. https://arxiv.org/abs/2310.06625.

[本文引用: 2]

DAS A, KONG W, LEACH A, et al. Long−term forecasting with TiDE: time−series dense encoder [EB/OL]. [2025−09−10]. https://arxiv.org/abs/2304.08424.

[本文引用: 1]

/