浙江大学学报(工学版), 2025, 59(3): 443-450 doi: 10.3785/j.issn.1008-973X.2025.03.001

交通工程、土木工程

基于时空图注意力网络的车辆多模态轨迹预测模型

陈文强,, 王东丹, 朱文英,, 汪勇杰, 王涛

长安大学 运输工程学院,陕西 西安 710064

Vehicle multimodal trajectory prediction model based on spatio-temporal graph attention network

CHEN Wenqiang,, WANG Dongdan, ZHU Wenying,, WANG Yongjie, WANG Tao

School of Transportation Engineering, Chang’an University, Xi’an 710064, China

通讯作者: 朱文英,副教授. orcid.org/0009-0001-4581-7423. E-mail:zwying@chd.edu.cn

收稿日期: 2024-01-3  

基金资助: 国家重点研发计划资助项目(2021YFE0203600);陕西省自然科学基金资助项目(2022JM-426);陕西省交通运输厅科技项目(23-33K);长安大学中央高校基本科研业务费专项资金资助项目(300102344203).

Received: 2024-01-3  

Fund supported: 国家重点研发计划资助项目(2021YFE0203600);陕西省自然科学基金资助项目(2022JM-426);陕西省交通运输厅科技项目(23-33K);长安大学中央高校基本科研业务费专项资金资助项目(300102344203).

作者简介 About authors

陈文强(1981—),男,教授,从事交通安全研究.orcid.org/0000-0002-3211-1245.E-mail:cwq@chd.edu.cn , E-mail:cwq@chd.edu.cn

摘要

针对人工驾驶车辆轨迹的预测难题及对自动驾驶决策的影响,建立基于时空图注意力网络的车辆多模态轨迹预测模型(STGAMT). 模型基于车辆的历史信息,对车辆时间和空间维度的特征进行建模. 利用二维卷积神经网络识别车辆的横纵向的变道状态信息,将横纵向变道状态信息分别与时空动态交互模块输出信息桥连为横纵向运动特征,采用Softmax函数识别车辆的驾驶意图. 利用基于高斯条件分布的GRU网络对轨迹进行多模态轨迹输出. 实验结果表明,在短期预测范围内,STGAMT模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了63.8%和41.0%;在长期预测范围内,STGAMT模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了62.5%和19.1%. STGAMT模型可以有效提高人工驾驶车辆轨迹预测精度.

关键词: 自动驾驶 ; 车辆轨迹预测 ; 驾驶意图识别 ; 多模态轨迹 ; 图注意力网络

Abstract

A spatio-temporal graph attention network for vehicle multimodal trajectory prediction (STGAMT) was proposed to address the challenges of predicting manually-driven vehicle trajectories and investigating their impact on autonomous driving decisions. The temporal and spatial characteristics were modeled based on the historical information about the vehicle. A two-dimensional convolutional neural network was employed to identify transverse and longitudinal lane change states, which were then combined with the output from the spatio-temporal dynamic interaction module to form transverse and longitudinal motion characteristics. The Softmax function was used to determine the vehicle’s driving intention. The multi-mode trajectory output was achieved by using a GRU network based on Gaussian conditional distribution. Experimental results showed that, in short-term predictions, the STGAMT model reduced the average error by 63.8% and 41.0% compared to the other five classic models on HighD and NGSIM datasets, respectively. In long-term predictions, the STGAMT model reduced the RMSE by 62.5% and 19.1% compared to the average RMSE of the other five classic models on HighD and NGSIM datasets, respectively. Results indicated that the STGAMT model could effectively improve the accuracy of manually-driven vehicle trajectory prediction.

Keywords: autonomous driving ; vehicle trajectory prediction ; driving intention recognition ; multimodality trajectory ; graph attention network

PDF (1204KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈文强, 王东丹, 朱文英, 汪勇杰, 王涛. 基于时空图注意力网络的车辆多模态轨迹预测模型. 浙江大学学报(工学版)[J], 2025, 59(3): 443-450 doi:10.3785/j.issn.1008-973X.2025.03.001

CHEN Wenqiang, WANG Dongdan, ZHU Wenying, WANG Yongjie, WANG Tao. Vehicle multimodal trajectory prediction model based on spatio-temporal graph attention network. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(3): 443-450 doi:10.3785/j.issn.1008-973X.2025.03.001

自动化驾驶技术有望重塑未来的交通系统,但在可预见的未来交通场景中,以不同渗透比例的人工驾驶车辆和自动驾驶车辆组成的混合交通流将长期存在[1]. 自动驾驶车辆之间能够通过数据共享获得彼此未来的轨迹,人工驾驶车辆轨迹只能通过预测手段获取[2]. 面对复杂的驾驶环境,人工驾驶车辆轨迹预测面临着诸多挑战[3]:车辆轨迹不仅取决于自身的历史轨迹,还受到车辆运动状态、交通流环境因素的影响[4]. 而且,车辆轨迹预测本质上是多模态的[5],即驾驶员操作和决策具有多样性,在同一场景下可能存在多种合理的驾驶方式.

近年来,诸多学者对车辆轨迹预测问题进行了深入研究,其方法大体上可以分为模型驱动和数据驱动2种[6]. 基于模型驱动的方法依靠运动学和动力学定律,利用数学公式描述车辆的物理运动. 比如,Houenou等[7]基于恒定角速度、加速度预测车辆轨迹,Barth等[8]利用卡尔曼滤波和图像数据预测车辆的长期轨迹,Jiang等[9]利用动态贝叶斯网络识别驾驶意图并预测车辆轨迹. 然而,基于模型驱动的轨迹预测难以挖掘数据的非线性关系,长期预测精度低.

随着数据科学的发展,基于数据驱动的轨迹预测方法受到越来越多学者关注. 许多学者使用门控递归单元(gated recurrent unit,GRU)[10]和长短期记忆(long short-term memory,LSTM)[11]预测车辆轨迹. 但此类基于循环神经网络(recurrent neural network, RNN)的预测方法仅挖掘了时间维度上的轨迹特征,没有考虑车辆之间的空间交互影响. 图神经网络(graph neural network,GNN)将每个车辆视作图的节点,车辆之间的空间关系由边来表示[12],基于此,Mo等[13]提出基于GNN-RNN的编码器-解码器网络的轨迹预测方法,使用GNN对车辆之间的交互进行编码. 但基于GNN的轨迹预测方法赋予了每个节点相同的重要性,无法表示车辆之间由位置不同而引起的交互差异. 此外,传统的GNN方法计算同一场景下所有车辆之间的相互作用,会造成算力浪费.

车辆未来轨迹具有多模态特性,如何准确表达这种特性尤为关键. 一些学者采用生成对抗网络(generative adversarial network,GAN)和高斯混合模型(Gaussian mixture model,GMM)生成多个不确定轨迹. Alahi等[14]利用GAN模型捕捉未来预测轨迹的多模态. CS-LSTM[15]将隐藏变量依据目标车辆的3种横向和2种纵向机动类别对未来的驾驶意图进行分类,利用GMM生成未来多个轨迹. 大多数基于GMM方法的轨迹多模态研究融合了编码上下文特征,但不足以精确预测不同的横向和纵向的驾驶意图,会影响车辆多模态轨迹预测精度.

为了解决混合交通流中车辆之间交互及人工驾驶车辆的多模态轨迹输出两大问题,提出基于时空图注意力网络的车辆多模态轨迹预测模型(spatial-temporal graph attention network for vehicle multimodal trajectory prediction,STGAMT). 该模型能够聚合车辆时间维度的轨迹信息,学习车辆之间复杂的空间交互,识别车辆的多种驾驶意图. 此外,为了使车辆生成多样化的轨迹输出,提出适用不同驾驶意图的特征增强方法,该方法添加与横纵向意图相关的运动特征数据,与车辆交互信息桥连学习驾驶意图. 利用基于高斯条件分布的GRU网络生成车辆多个未来轨迹. 本研究主要创新工作体现在以下方面:

1) 提出全新的车辆多模态轨迹预测模型(STGAMT). 使用时间注意力对不同时间的轨迹信息加权聚合,以表示历史轨迹对车辆运动状态的影响;利用图注意力捕捉目标车辆与周围车辆之间的交互信息.

2) 提出新的意图特征增强方法. 将车辆的速度和加速度分解到横向和纵向,与航向角共同表示车辆的横纵向意图特征信息. 利用卷积神经网络提取意图特征并桥接时空融合信息实现多模态预测,并利用消融实验证明该方法的可行性.

1. 问题描述

1.1. 问题定义

将目标车辆未来轨迹预测问题表示为通过目标车辆及其周围车辆的历史轨迹信息估计目标车辆未来轨迹的概率分布$P(Y|X)$. 模型的输入为目标车辆及其周围车辆在历史时间范围th内的轨迹信息X,历史轨迹信息X定义如下:

$ X = \{{X^1},{X^2}, \cdot \cdot \cdot ,{X^t}, \cdot \cdot \cdot ,{X^{{t_{{\text{h}}}}}}\} \text{,} $

$ {X^t} = \{{\boldsymbol{X}}_0^t,{\boldsymbol{X}}_1^t, \cdot \cdot \cdot ,{\boldsymbol{X}}_i^t, \cdot \cdot \cdot ,{\boldsymbol{X}}_n^t\}\text{,} $

$ {\boldsymbol{X}}_i^t = [x_i^t,y_i^t,v_i^t,a_i^t]. $

式中:${X^t}$t时刻车辆的状态信息;${\boldsymbol{X}}_0^t$t时刻目标车辆的状态信息;${\boldsymbol{X}}_i^t$t时刻周围车辆的轨迹信息,$1 \leqslant i \leqslant n$$x_i^t、y_i^t、v_i^t、a_i^t$分别表示t时刻第i辆车的横坐标、纵坐标、速度和加速度.

轨迹预测的输出为未来时间范围tf内目标车辆的轨迹:

$ Y = \{{Y^{t+1}},{Y^{t+2}}, \cdot \cdot \cdot ,{Y^{t+{t_{{\text{f}}}}}}\}\;. $

1.2. 运动状态

选取目标车辆一定距离范围内的车辆作为与目标车辆相互影响的周围车辆. 参照CS-LSTM[15]模型参数标定,将目标车辆影响范围的横向距离设置为11.1 m(3条车道宽度),纵向距离设置为59.5 m(13辆轿车长度).

利用目标车辆的历史状态信息$ {\boldsymbol{X}}_0^t $表示目标车辆的运动状态,周围车辆的相对运动状态${\boldsymbol{X}}_{i,0}^t$$(1 \leqslant i \leqslant n) $为周围车辆${\boldsymbol{X}}_i^t$相对于目标车辆${\boldsymbol{X}}_0^t$的运动状态信息,${\boldsymbol{X}}_{i,0}^t$的计算过程示意图如图1所示,表达式如下:

图 1

图 1   车辆相对运动状态计算图

Fig.1   Calculation diagram of vehicle relative motion state


$ {\boldsymbol{X}}_{i,0}^t = [r_{i,0}^t,\;\theta _{i,0}^t,\;v_{i,0}^t,\;a_{i,0}^t] \text{,} $

${\left.\begin{array}{l} r_{i,0}^t = \left[ {{{(y_i^t - y_0^t)}^2}+{{(x_i^t - x_0^t)}^2}}\right]^{1/2}, \\ \theta _{i,0}^t = {\text{arctan}}\;\dfrac{{y_i^t - y_0^t}}{{x_i^t - x_0^t}}, \qquad \phi _i^t = {\text{arctan}}\;\dfrac{{y_i^t - y_i^{{t_{{\text{h}}}}}}}{{x_i^t - x_i^{{t_{{\text{h}}}}}}}, \\ v_{i,0}^t = v_i^t \times {\text{cos}}\;(\theta _{i,0}^t - \phi _i^t), \quad a_{i,0}^t = a_i^t \times {\text{cos}}\;(\theta _{i,0}^t - \phi _i^t).\end{array}\right\}} $

式中:$r_{i,0}^t$$\theta _{i,0}^t$表示周围车辆与目标车辆之间的距离和夹角,$v_{i,0}^t$$a_{i,0}^t$表示周围车辆相对于目标车辆的投影速度和投影加速度,$ \phi _i^t $表示周围车辆i的航向角,$1 \leqslant i \leqslant n $.

2. 模型结构

所提出的基于时空图注意力网络的车辆多模态轨迹预测模型(STGAMT)包括4个模块:时空动态交互模块(spatio-temporal dynamic interaction,SDI)、意图特征提取模块(intent feature extraction,IFE)、驾驶意图识别模块(driving intent recognition,DIR)和多模态输出模块(Gaussian multimodal output,GMO),模型结构如图2所示. 时空动态交互模块识别车辆的历史信息,对车辆时间和空间维度的特征进行建模. 意图特征提取模块利用二维卷积神经网络识别车辆的横纵向的变道状态信息. 驾驶意图识别模块将横纵向变道状态信息分别与时空动态交互模块输出信息桥连为横纵向运动特征,利用Softmax函数识别车辆的驾驶意图. 多模态输出模块利用基于高斯条件分布的GRU网络对轨迹进行多模态轨迹输出.

图 2

图 2   STGAMT模型结构图

Fig.2   Diagram of STGAMT model structure


2.1. 时空动态交互模块(SDI)

车辆时空特征信息的交互融合对车辆轨迹预测至关重要. 首先,利用多层感知机(multilayer perceptron,MLP)和GRU网络提取车辆运动特征. 其次,利用时间注意力网络捕捉不同时刻历史状态的重要信息,对车辆的时间维度轨迹信息进行加权处理. 最后,加入空间图注意力网络对车辆空间维度交互进行建模. 空间图注意力网络以车辆为节点,车辆之间的影响权重为边,弥补了关于车辆间相互影响的同质化表达缺陷[12,16].

2.1.1. 动态特征提取

通过MLP将目标车辆运动状态${\boldsymbol{X}}_0^t$及周围车辆的相对运动状态${\boldsymbol{X}}_{i,0}^t$投影到固定长度的嵌入层中得到${\boldsymbol{e}}_0^t$${\boldsymbol{e}}_i^t$. 利用GRU网络对${\boldsymbol{e}}_0^t$${\boldsymbol{e}}_i^t$进行编码,提取不同时刻目标车辆及周围车辆的运动特征${\boldsymbol{h}}_0^t$${\boldsymbol{h}}_i^t$$i \in \{1,2, \cdot \cdot \cdot ,n\}$.

2.1.2. 时间注意力

当车辆有变道意图时,车辆会由当前车道接近目标车道,产生历史轨迹数据,如图3所示. 因此,在车辆变道过程中,车辆的变道意图可由历史轨迹数据表达,注意力机制可以选择性地关注与变道意图相关的信息,将更多注意力集中在重要的轨迹状态部分,减少对无关信息的处理.

图 3

图 3   轨迹受历史时间的影响

Fig.3   Trajectories affected by historical time


利用点积函数计算车辆不同历史时刻的隐藏状态${\boldsymbol{h}}_i^t$与观测时刻的隐藏状态${\boldsymbol{h}}_i^{{t_{{\text{h}}}}}$之间的相关性,利用Softmax函数对相关性分数进行归一化得到时间注意力分布${\boldsymbol{a}}_i^t$. 根据注意力分布对信息进行加权求和得到历史轨迹的融合特征$ {\overline {\boldsymbol{h}} _i} $. 表达式分别如下:

$ {\boldsymbol{a}}_i^t = \dfrac{{{\text{exp}}\;({\boldsymbol{h}}_i^t{{({\boldsymbol{h}}_i^{{t_{{\mathrm{h}}}}})}^{\text{T}}})}}{{\displaystyle{\sum}_{t = 1}^{{t_{{\text{h}}}}} \exp \;({\boldsymbol{h}}_i^t{{({\boldsymbol{h}}_i^{{t_{{\mathrm{h}}}}})}^{\text{T}}})}}, $

$ {\overline {\boldsymbol{h}} _i} = \displaystyle{\sum}_{t = 1}^{{t_{{\text{h}}}}} {\boldsymbol{a}}_i^t{\boldsymbol{h}}_i^{{t_{{\mathrm{h}}}}}. $

式中:$i \in \{0,1,2, \cdot \cdot \cdot ,n\}$$t \in \{1,2, \cdot \cdot \cdot ,{t_{{\text{h}}}}\}$.

2.1.3. 空间注意力

车辆在行驶中的行为与周围车辆运动状态高度相关. 利用图注意力网络表达周围车辆运动状态对目标车辆变道决策的影响,模型示意图如图4所示. 图中,图注意力网络为有向图,方向表示周围车辆对目标车辆的影响,箭头所指节点为目标车辆,其余节点表示周围车辆. 图G=$ \{ V,E\} $表示车辆之间的依赖关系,其中$ V = \{ {V_0},{V_1}, \cdot \cdot \cdot , {V_i}, \cdot \cdot \cdot ,{V_n}\} $表示节点集,节点${V_0}$对应目标车辆的节点,${V_i}\;(1 \leqslant i \leqslant n)$表示周围车辆的节点. $ E = \{ {E_0}, {E_1}, \cdot \cdot \cdot , {E_i}, \cdot \cdot \cdot, {E_n}\} $表示代表图的有向边集合,边的大小表示车辆之间交互的权重$ {{\boldsymbol{e}}^{i \to 0}} $.

图 4

图 4   图注意力网络模型示意图

Fig.4   Diagram of graph attention network


使用3个线性变换学习节点集V的特征集合$\{ {\overline {\boldsymbol{h}} _i}\} _{i = 0}^n$,获得查询向量Q0、键向量Ki和价值向量Vi. 同时,计算车辆之间交互的权重$ {{\boldsymbol{e}}^{i \to 0}} $.

$ {{\boldsymbol{Q}}_0} = {\overline {\boldsymbol{h}} _0} {{\boldsymbol{W}}_{\mathrm{q}}} \text{,} $

$ {{\boldsymbol{K}}_i} = {\overline {\boldsymbol{h}} _i} {{\boldsymbol{W}}_{\mathrm{k}}} \text{,} $

$ {{\boldsymbol{V}}_i} = {\overline {\boldsymbol{h}} _i} {{\boldsymbol{W}}_{\mathrm{v}}} \text{,} $

$ {{\boldsymbol{e}}^{i \to 0}} = {\boldsymbol{Q}}_0^{\text{T}} {{\boldsymbol{K}}_i}. $

式中:WqWkWv表示线性变化下可学习的权重矩阵,$i \in \{0,1,2, \cdot \cdot \cdot ,n\}$.

利用多头注意力机制计算m个子空间下每个子空间车辆之间的交互特征Attm,再利用激活函数将m个子空间的交互特征进行拼接,得到周围车辆与目标车辆之间的总体交互特征${\overline {\boldsymbol{H}} _0}$.

$ {{\bf{Att}}_m} = {{{\text{Softmax}}\;({{{{\boldsymbol{e}}^{i \to 0}}}})}}{{\boldsymbol{V}}_i}/{{\sqrt {{d_{\mathrm{k}}}} }}, $

$ {\overline {\boldsymbol{H}} _0} = {f_{{\mathrm{LeakyRelu}}}}\;({{\bf{Att}}_1}, \cdot \cdot \cdot ,{{\bf{Att}}_m}) {{\boldsymbol{W}}_{{\rm{Relu}}}}. $

式中:dk表示键向量的维度,本研究设置为64;WRelu为激活函数fLeaky Relu的参数.

2.2. 意图特征提取模块(IFE)

尽管驾驶意图具有不确定性,但意图信息通常会在车辆的运动参数中得到体现,包括航向角、速度和加速度等. 如图5所示,车辆在执行变道动作时,往往伴随着加速或减速以接近目标车道,并且航向角会发生相应的改变. 鉴于此,通过将车辆的速度和加速度分解为横向和纵向分量,并结合车辆的航向角信息,来推断和学习车辆的意图.

图 5

图 5   车辆变道轨迹

Fig.5   Lane change trajectory of vehicle


利用车辆的横向变道信息$X_{{\text{lat}}}^t$和纵向运动信息$ X_{{\text{lon}}}^t $表示车辆的意图信息:

$ X_{{\text{lat}}}^t = (\phi _0^t,v_{{\text{lat}}}^t,a_{{\text{lat}}}^t)\text{,} $

$ X_{{\text{lon}}}^t = (\phi _0^t,v_{{\text{lon}}}^t,a_{{\text{lon}}}^t). $

式中:$\phi _0^t$表示目标车辆的航向角,$v_{{\text{lat}}}^t$$v_{{\text{lon}}}^t$表示目标车辆的横向、纵向速度,$a_{{\text{lat}}}^t$$a_{{\text{lon}}}^t$表示目标车辆的横向、纵向加速度.

利用卷积神经网络分别从横向变道信息$ X_{{\text{lat}}}^t $和纵向运动信息$ X_{{\text{lon}}}^t $中提取到车辆的横向变道特征hlat和纵向运动特征hlon. 具体卷积操作如图6所示,其中第1个卷积核大小为$1 \times 1$,第2个卷积核的大小为$3 \times 1$.

图 6

图 6   意图特征提取操作图

Fig.6   Structure of intention feature extraction operation


2.3. 驾驶意图识别模块(DIR)

车辆的驾驶意图可分为横向和纵向2类,横向驾驶意图包括车道保持、向左变道和向右变道,纵向驾驶意图包括加速、减速和匀速.

利用驾驶意图识别模块获取不同驾驶意图的发生概率. 具体过程如下:首先利用一个线性层将横向变道特征hlat、目标车辆历史特征$ {\overline {\boldsymbol{h}} _i} $和空间交互特征${\overline {\boldsymbol{H}} _0}$融合为横向特征mlat,再利用具有Softmax激活函数的全连接网络计算3种横向驾驶意图的概率Plat. 对纵向运动特征hlon采取与横向驾驶意图同样的操作,可得到3种纵向驾驶意图概率Plon.

2.4. 多模态输出模块(GMO)

将目标车辆的历史特征$ {\overline {\boldsymbol{h}} _i} $、空间交互特征${\overline {\boldsymbol{H}} _0}$及驾驶意图概率PlatPlon桥连,使用GRU网络预测车辆的未来轨迹,并利用混合高斯模型(GMM)生成车辆轨迹的概率分布,高斯分布参数$ {P_{\boldsymbol{\theta}} }(Y|X, {\text{lat}},{\text{lon}}) $作为模型的输出. 未来轨迹上的多模态分布可以分解为

$ P(Y|X) = \sum {P_{\boldsymbol{\theta}} }(Y|X,{\text{lat,lon}}){P_{{\text{lat}}}}{P_{{\text{lon}}}}. $

式中: ${\boldsymbol{\theta}} $为未来每个时间的多变量高斯分布的参数,${\boldsymbol{\theta}} = [{{\boldsymbol{\theta}} ^{t+1}}, \cdot \cdot \cdot ,{{\boldsymbol{\theta}} ^{t+{t_{{\text{f}}}}}}]$,其中,${\boldsymbol{\theta}}^t $为高斯参数,$ {{\boldsymbol{\theta }}^t} = [{\mu ^t},{\sigma ^t}] $${\mu ^t}$${\sigma ^t}$为未来车辆位置、速度和加速度的平均值和方差.

3. 数据与实验

3.1. 数据集介绍

利用HighD数据集和NGSIM数据集来验证模型. HighD数据集是在德国科隆的6条约420 m的高速公路上,通过无人机以25 Hz频率采集的,涵盖了超过11万辆汽车、总里程达4.5万公里的行驶数据,其中包括5600条完整的变道记录. NGSIM(Next Generation Simulation)数据集利用摄像头以10 Hz频率收集了9206辆汽车的轨迹数据,本研究选取其中US-101和I-80这2条高速公路的子集进行研究.

将数据集划分为训练集(70%)、验证集(10%)和测试集(20%). 本研究选择历史序列3 s(共15帧)来分别预测未来1~5 s的目标车辆轨迹信息.

3.2. 参数配置

实验在NVIDIA GeForce RTX 2080 Ti上进行,代码在深度学习框架PyTorch下实现. 为了验证本研究模型的可行性,便于同其他模型进行对比,采用与CS-LSTM[15]和STDAN[17]类似的实验策略及实验环境. 利用2种损失函数训练策略,首先迭代5次均方误差损失函数,再利用3次迭代负对数似然损失函数训练轨迹数据. 优化器为Adam,学习率为0.001,批次为128,特征嵌入网络的维度为32,GRU特征编码的维度为64,空图注意力网络的注意力头数设置为4,GRU特征输出的维度为128.

3.3. 模型误差对比

为了评估模型性能,选择均方根误差(root mean square error,RMSE)作为模型预测结果的衡量标准,计算本研究模型STGAMT、消融模型STGAMT(w/o IFE)和其他5个经典模型(S-LSTM、CS-LSTM、S-GAN、PiP、STDAN)在预测时间tf=1~5 s 时的预测坐标与真实坐标之间的均方根误差. 如表1所示为1~5 s预测范围内不同模型在HighD和NGSIM数据集中的均方根误差.

表 1   不同模型在5 s预测范围内的均方根误差

Tab.1  RMSE for different models in 5-second forecast range

数据集RMSE
tf/sS-LSTM[16]CS-LSTM[15]S-GAN[14]PIP[18]STDAN[17]STGAMT(w/o IFE)STGAMT
HighD10.220.220.200.170.190.070.07
20.620.610.570.520.270.190.19
31.271.241.141.050.480.350.32
42.152.101.901.760.910.650.61
53.143.272.912.631.661.201.14
NGSIM10.650.610.570.550.420.220.21
21.311.271.321.181.010.800.78
32.162.092.221.941.691.521.49
43.253.103.262.882.562.472.40
54.554.374.404.043.673.693.58

新窗口打开| 下载CSV


1)S-LSTM[16]:使用全连接的社交池化层构建基于LSTM的编码器-解码器结构.

2)CS-LSTM[15]:将卷积运算引入社交池化层,以捕捉车辆间的交互.

3)S-GAN[14]:该模型结合了序列到序列和生成对抗网络的模型来融合车辆交互信息并生成多模态轨迹预测.

4)PiP[18]:该模型以目标车辆的多个候选轨迹为条件,将轨迹预测与目标车辆的规划相结合.

5)STDAN[17]:该模型综合运用了LSTM和注意力机制,提出用于车辆轨迹预测的时空动态注意力网络.

6)STGAMT(w/o IFE):该模型是在本研究所提模型STGAMT的基础上,不使用目标车辆意图特征提取模块(IFE).

7)STGAMT:本研究所提完整的时空图注意力网络.

从预测的时间范围来看,本研究模型STGAMT不论是短期(1~2 s)还是长期(3~5 s)的预测性能都优于其他5个经典模型的. 在短期预测范围内,本研究模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了63.8%和41.0%. 目标车辆短期的预测性能与其历史轨迹运动状态有关,因此短期的预测优化主要靠时间注意力网络来提升. 在长期预测范围内,本研究模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了62.5%和19.1%. 图注意力网络能够表示周围车辆与目标车辆之间的动态关系,利用该模块提取的空间交互对长期轨迹预测产生了积极的影响.

理想的预测结果需要高质量数据集的支持,然而,NGSIM数据集中存在噪声[19],影响了时间依赖性建模、车辆间交互提取和多模态表示学习,并最终干扰了预测结果,这使得本研究模型在NGSIM上的性能提升低于在HighD上的. NGSIM数据集包含了畅通、较拥堵和重度拥堵3种场景[19],在复杂交通场景下,驾驶意图的异质性较大,对长时序预测条件严苛,在一定程度上影响了本研究长时序预测精度的提升. 虽然在NGSIM数据集上长时序预测精度提升程度小于短时序的,但性能分析说明,本研究模型的时空动态交互模块改进了预测的性能.

3.4. 模型耗时对比

在轨迹预测任务中,时效性是不可或缺的性能指标. 为了证明本研究模型的时效性,按照每批次128条轨迹数据,测试对比模型运行1批次数据的平均消耗时间te,测试结果如表2所示.

表 2   模型每轮训练时间对比

Tab.2  Comparison of training time per epoch for models

模型名称te/s
S-LSTM[16]0.0157
CS-LSTM[15]0.0174
S-GAN[14]0.0283
PIP[18]0.0185
STDAN[17]0.0214
STGAMT(w/o IFE)0.0137
STGAMT0.0139

新窗口打开| 下载CSV


本研究模型STGAMT较5个经典模型的平均耗时减少32.8%,较同样使用注意力机制的STDAN模型的消耗时间减少35.0%,表明本研究的时空图注意力网络较传统的注意力机制能够提升运行效率. 虽然STGAMT较STGAMT(w/o IFE)消耗时间增加1.5%,但误差降低4.1%,而且预测耗时依旧满足要求. 不同模型耗时的对比说明本研究模型在保证准确度的同时提升了推理效率.

3.5. 消融实验

为了研究意图特征提取模块的合理性,将去除意图特征提取模块的模型STGAMT(w/o IFE)与完整模型STGAMT进行对比.

表1可知,STGAMT(w/o IFE)与本研究模型STGAMT的短期(1~2 s)预测效果类似;随着预测时间的增加,完整的STGAMT模型3~5 s误差的平均值较STGAMT(w/o IFE)模型在HighD和NGSIM数据集上分别降低了6.0%和3.0%.

STGAMT(w/o IFE)与STGAMT的横向意图误差RMSE(lat)和纵向意图误差RMSE(lon)对比如表3所示.可以看出,STGAMT较STGAMT(w/o IFE)的横纵向意图误差均降低,纵向意图误差减少的更加显著,表明添加角度信息、横纵速度、横纵加速度用于驾驶意图的识别是可行的.

表 3   消融实验均方根误差对比

Tab.3  RMSE comparison of ablation experiment

数据集tf/sRMSE(lat)RMSE(lon)
STGAMT
(w/o IFE)
STGAMTSTGAMT
(w/o IFE)
STGAMT
HighD10.030.030.070.07
20.120.110.140.14
30.250.230.240.22
40.370.360.530.48
50.490.471.091.04
NGSIM10.080.080.200.20
20.200.200.770.75
30.300.291.491.46
40.390.372.432.37
50.490.403.663.54

新窗口打开| 下载CSV


3.6. 预测结果分析

为了直观描述本研究所提模型轨迹预测的性能,选取多模态轨迹输出中意图最大的轨迹,对车辆轨迹预测结果进行可视化. 车辆行驶的横向意图可分为车道保持、向左变道和向右变道3类. 车辆匝道汇入汇出也属于变道行为,但汇入汇出车辆须在固定距离内驶入或驶出高速公路主车道,与路中段变道决策有较大区别,为了增加研究精度,本研究将匝道汇出汇入行为与其他行驶模态并列研究. HighD和NGSIM数据集中包含匝道汇入数据,本研究将匝道汇入信息从向左变道中提取出来,与其他行驶模态并列分析与讨论. 为了说明目标车辆决策受周围其他车辆及自身意图的影响,将4种变道类别下目标车辆决策的注意力分布进行可视化. 轨迹预测可视化结果如图7所示. 图中,车辆附近为注意力数值标注.

图 7

图 7   目标车辆预测轨迹及注意力分布图

Fig.7   Prediction trajectory and attention distribution map of target vehicle


3.6.1. 车辆轨迹

图7可以看出,本研究模型较好地预测出了车辆的实际运动状态. 图7(a)显示了车道保持车辆的预测轨迹与实际轨迹的示例,可以看出本研究提出的模型能够准确预测出车道保持车辆的轨迹,尤其是当交通环境复杂时,能够识别车辆的减速操作(随着时间增加,目标车辆在相同时间内y轴位移减少). 此外,由图7(b)~(d)可以看出,对于变道车辆,本模型在短期(1~2 s)内能够准确预测变道车辆的轨迹,长期(3~5 s)能预测出变道车辆轨迹的趋势,尽管变道车辆的预测轨迹与真实轨迹之间存在一定差距,但本模型所生成的预测轨迹相较于真实轨迹更为平滑.

3.6.2. 注意力分布

图7中4种变道类别下目标车辆的注意力分布进行分析,发现车辆在运动的过程中受周围车辆及自身意图的影响不同. 由图7(a)可知,当车辆保持当前车道直行时,车辆受到当前车道前车的影响最大,注意力为100%;车辆在运动过程中受前方车辆的影响远大于后方车辆的. 由图7(b)可知,当车辆向右变道时,受目标车道前方车辆的影响为49%,大于其他周围车辆的影响. 车辆向左变道受周围车辆的影响与向右变道的类似. 由图7(b)、(c)可知,当车辆向右或向左变道时,受自身意图影响为100%,较其他变道类别受自身意图影响(车道保持45%、汇入主道80%)更大. 虽然汇入行为通常归类为向左变道,但是车辆由闸道汇入主干道时,受车道线及周围车辆的影响较大,由图7(d)可知,车辆汇入行为受到周围车辆的影响为100%,远大于自身意图影响的80%.

4. 结 语

提出基于时空图神经网络的多模态轨迹预测模型(STGAMT). STGAMT模型考虑到车辆轨迹受历史数据和周围车辆的影响,利用时间注意力网络将不同车辆的轨迹历史信息进行汇聚. 空间图注意力网络将车辆交互权重分配给不同的车辆节点,有效提高了模型的预测性能. 此外,为了解决多模态预测的横纵向意图预测问题,提取车辆的横向变道信息和纵向运动信息,利用Softmax函数为每条轨迹分别学习了3种横向和纵向意图类别,引导模型输出更为准确的多模态轨迹. 在2个公开数据集HighD和NGSIM上,本研究模型与其他5个经典模型进行了对比实验. 结果表明,无论是短期还是长期轨迹预测,本研究模型都更具有竞争力:在HighD数据集上,本研究模型的短期轨迹预测准确率相较于其他模型提升了63.8%,长期轨迹预测准确率提升了62.5%;在NGSIM数据集上,短期预测准确率和长期预测准确率分别提高了提升了41.0%和19.1%. 在显著提升准确率的同时,本研究模型的预测效率相较于其他模型还提高了32.8%,进一步证明了本研究模型在实际应用中的优势和价值.

未来可考虑加入地图信息(车道线、车道曲率)和车辆的转向灯图像特征,以达到更加精准预测车辆轨迹的目标.

参考文献

ISLAM M M, NEWAZ A A, SONG L, et al

Connected autonomous vehicles: state of practice

[J]. Applied Stochastic Models in Business and Industry, 2023, 39 (5): 684- 700

DOI:10.1002/asmb.2772      [本文引用: 1]

HUANG Y J, DU J T, YANG Z R, et al

A survey on trajectory-prediction methods for autonomous driving

[J]. IEEE Transactions on Intelligent Vehicles, 2022, 7 (3): 652- 674

DOI:10.1109/TIV.2022.3167103      [本文引用: 1]

BENRACHOU D E, GLASER S, ELHENAWY M, et al

Use of social interaction and intention to improve motion prediction within automated vehicle framework: a review

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (12): 22807- 22837

DOI:10.1109/TITS.2022.3207347      [本文引用: 1]

李文礼, 韩迪, 石晓辉, 等. 基于时-空注意力机制的车辆轨迹预测[J]. 中国公路学报, 2023, 36: 226–239.

[本文引用: 1]

LI Wenli, HAN Di, SHI Xiaohui, et al, Vehicle trajectory prediction based on spatial-temporal attention mechanism[J]. China Journal of Highway and Transport , 2023, 36: 226–239.

[本文引用: 1]

ZHANG K P, LI L

Explainable multimodal trajectory prediction using attention models

[J]. Transportation Research Part C: Emerging Technologies, 2022, 143: 103829

DOI:10.1016/j.trc.2022.103829      [本文引用: 1]

DING Z, ZHAO H

Incorporating driving knowledge in deep learning based vehicle trajectory prediction: a survey

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (8): 3996- 4015

DOI:10.1109/TIV.2023.3266446      [本文引用: 1]

HOUENOU A, BONNIFAIT P, CHERFAOUI V, et al. Vehicle trajectory prediction based on motion model and maneuver recognition [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems . Tokyo: IEEE, 2013: 4363–4369.

[本文引用: 1]

BARTH A, FRANKE U. Where will the oncoming vehicle be the next second? [C]// 2008 IEEE Intelligent Vehicles Symposium . Eindhoven: IEEE, 2008: 510–515.

[本文引用: 1]

JIANG Y, ZHU B, YANG S, et al

Vehicle trajectory prediction considering driver uncertainty and vehicle dynamics based on dynamic bayesian network

[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023, 53 (2): 689- 703

DOI:10.1109/TSMC.2022.3186639      [本文引用: 1]

HUANG M, ZHU M, XIAO Y, et al

Bayonet-corpus: a trajectory prediction method based on bayonet context and bidirectional GRU

[J]. Digital Communications and Networks, 2021, 7 (1): 72- 81

DOI:10.1016/j.dcan.2020.03.002      [本文引用: 1]

ALTCHé F, DE LA FORTELLE A, IEEE. An LSTM network for highway trajectory prediction [C]// IEEE International Conference on Intelligent Transportation Systems . New York: IEEE, 2017: 253–259.

[本文引用: 1]

LI X, YING X W, CHUAH M C, et al. GRIP: graph-based interaction-aware trajectory prediction [C]// IEEE Intelligent Transportation Systems Conference . Auckland: IEEE, 2019: 3960–3966.

[本文引用: 2]

MO X U, YANG X, CHEN L. Graph and recurrent neural network-based vehicle trajectory prediction for highway driving [C]// IEEE International Intelligent Transportation Systems Conference . Indianapolis: IEEE, 2021: 1934–1939.

[本文引用: 1]

GUPTA A, JOHNSON J, LI F F, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 2255–2264.

[本文引用: 4]

DEO N, TRIVEDI M M. Convolutional social pooling for vehicle trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops . New York: IEEE, 2018: 1468–1476.

[本文引用: 6]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// IEEE Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2016: 961–971.

[本文引用: 4]

CHEN X, ZHANG H, ZHAO F, et al

Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for internet of vehicles

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (10): 19471- 19483

DOI:10.1109/TITS.2022.3170551      [本文引用: 4]

SONG H, DING W C, CHEN Y X, et al. PiP: planning-informed trajectory prediction for autonomous driving [C]// Computer Vision - ECCV 2020 16th European Conference Proceedings Lecture Notes in Computer Science . Glasgow: LNCS, 2020: 598–614.

[本文引用: 3]

COIFMAN B, LI L Z

A critical evaluation of the next generation simulation (NGSIM) vehicle trajectory dataset

[J]. Transportation Research Part B - Methodological, 2017, 105: 362- 377

DOI:10.1016/j.trb.2017.09.018      [本文引用: 2]

/