基于时空图注意力网络的车辆多模态轨迹预测模型
Vehicle multimodal trajectory prediction model based on spatio-temporal graph attention network
通讯作者:
收稿日期: 2024-01-3
基金资助: |
|
Received: 2024-01-3
Fund supported: | 国家重点研发计划资助项目(2021YFE0203600);陕西省自然科学基金资助项目(2022JM-426);陕西省交通运输厅科技项目(23-33K);长安大学中央高校基本科研业务费专项资金资助项目(300102344203). |
作者简介 About authors
陈文强(1981—),男,教授,从事交通安全研究.orcid.org/0000-0002-3211-1245.E-mail:
针对人工驾驶车辆轨迹的预测难题及对自动驾驶决策的影响,建立基于时空图注意力网络的车辆多模态轨迹预测模型(STGAMT). 模型基于车辆的历史信息,对车辆时间和空间维度的特征进行建模. 利用二维卷积神经网络识别车辆的横纵向的变道状态信息,将横纵向变道状态信息分别与时空动态交互模块输出信息桥连为横纵向运动特征,采用Softmax函数识别车辆的驾驶意图. 利用基于高斯条件分布的GRU网络对轨迹进行多模态轨迹输出. 实验结果表明,在短期预测范围内,STGAMT模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了63.8%和41.0%;在长期预测范围内,STGAMT模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了62.5%和19.1%. STGAMT模型可以有效提高人工驾驶车辆轨迹预测精度.
关键词:
A spatio-temporal graph attention network for vehicle multimodal trajectory prediction (STGAMT) was proposed to address the challenges of predicting manually-driven vehicle trajectories and investigating their impact on autonomous driving decisions. The temporal and spatial characteristics were modeled based on the historical information about the vehicle. A two-dimensional convolutional neural network was employed to identify transverse and longitudinal lane change states, which were then combined with the output from the spatio-temporal dynamic interaction module to form transverse and longitudinal motion characteristics. The Softmax function was used to determine the vehicle’s driving intention. The multi-mode trajectory output was achieved by using a GRU network based on Gaussian conditional distribution. Experimental results showed that, in short-term predictions, the STGAMT model reduced the average error by 63.8% and 41.0% compared to the other five classic models on HighD and NGSIM datasets, respectively. In long-term predictions, the STGAMT model reduced the RMSE by 62.5% and 19.1% compared to the average RMSE of the other five classic models on HighD and NGSIM datasets, respectively. Results indicated that the STGAMT model could effectively improve the accuracy of manually-driven vehicle trajectory prediction.
Keywords:
本文引用格式
陈文强, 王东丹, 朱文英, 汪勇杰, 王涛.
CHEN Wenqiang, WANG Dongdan, ZHU Wenying, WANG Yongjie, WANG Tao.
随着数据科学的发展,基于数据驱动的轨迹预测方法受到越来越多学者关注. 许多学者使用门控递归单元(gated recurrent unit,GRU)[10]和长短期记忆(long short-term memory,LSTM)[11]预测车辆轨迹. 但此类基于循环神经网络(recurrent neural network, RNN)的预测方法仅挖掘了时间维度上的轨迹特征,没有考虑车辆之间的空间交互影响. 图神经网络(graph neural network,GNN)将每个车辆视作图的节点,车辆之间的空间关系由边来表示[12],基于此,Mo等[13]提出基于GNN-RNN的编码器-解码器网络的轨迹预测方法,使用GNN对车辆之间的交互进行编码. 但基于GNN的轨迹预测方法赋予了每个节点相同的重要性,无法表示车辆之间由位置不同而引起的交互差异. 此外,传统的GNN方法计算同一场景下所有车辆之间的相互作用,会造成算力浪费.
为了解决混合交通流中车辆之间交互及人工驾驶车辆的多模态轨迹输出两大问题,提出基于时空图注意力网络的车辆多模态轨迹预测模型(spatial-temporal graph attention network for vehicle multimodal trajectory prediction,STGAMT). 该模型能够聚合车辆时间维度的轨迹信息,学习车辆之间复杂的空间交互,识别车辆的多种驾驶意图. 此外,为了使车辆生成多样化的轨迹输出,提出适用不同驾驶意图的特征增强方法,该方法添加与横纵向意图相关的运动特征数据,与车辆交互信息桥连学习驾驶意图. 利用基于高斯条件分布的GRU网络生成车辆多个未来轨迹. 本研究主要创新工作体现在以下方面:
1) 提出全新的车辆多模态轨迹预测模型(STGAMT). 使用时间注意力对不同时间的轨迹信息加权聚合,以表示历史轨迹对车辆运动状态的影响;利用图注意力捕捉目标车辆与周围车辆之间的交互信息.
2) 提出新的意图特征增强方法. 将车辆的速度和加速度分解到横向和纵向,与航向角共同表示车辆的横纵向意图特征信息. 利用卷积神经网络提取意图特征并桥接时空融合信息实现多模态预测,并利用消融实验证明该方法的可行性.
1. 问题描述
1.1. 问题定义
将目标车辆未来轨迹预测问题表示为通过目标车辆及其周围车辆的历史轨迹信息估计目标车辆未来轨迹的概率分布
式中:
轨迹预测的输出为未来时间范围tf内目标车辆的轨迹:
1.2. 运动状态
选取目标车辆一定距离范围内的车辆作为与目标车辆相互影响的周围车辆. 参照CS-LSTM[15]模型参数标定,将目标车辆影响范围的横向距离设置为11.1 m(3条车道宽度),纵向距离设置为59.5 m(13辆轿车长度).
利用目标车辆的历史状态信息
图 1
式中:
2. 模型结构
所提出的基于时空图注意力网络的车辆多模态轨迹预测模型(STGAMT)包括4个模块:时空动态交互模块(spatio-temporal dynamic interaction,SDI)、意图特征提取模块(intent feature extraction,IFE)、驾驶意图识别模块(driving intent recognition,DIR)和多模态输出模块(Gaussian multimodal output,GMO),模型结构如图2所示. 时空动态交互模块识别车辆的历史信息,对车辆时间和空间维度的特征进行建模. 意图特征提取模块利用二维卷积神经网络识别车辆的横纵向的变道状态信息. 驾驶意图识别模块将横纵向变道状态信息分别与时空动态交互模块输出信息桥连为横纵向运动特征,利用Softmax函数识别车辆的驾驶意图. 多模态输出模块利用基于高斯条件分布的GRU网络对轨迹进行多模态轨迹输出.
图 2
2.1. 时空动态交互模块(SDI)
2.1.1. 动态特征提取
通过MLP将目标车辆运动状态
2.1.2. 时间注意力
当车辆有变道意图时,车辆会由当前车道接近目标车道,产生历史轨迹数据,如图3所示. 因此,在车辆变道过程中,车辆的变道意图可由历史轨迹数据表达,注意力机制可以选择性地关注与变道意图相关的信息,将更多注意力集中在重要的轨迹状态部分,减少对无关信息的处理.
图 3
利用点积函数计算车辆不同历史时刻的隐藏状态
式中:
2.1.3. 空间注意力
车辆在行驶中的行为与周围车辆运动状态高度相关. 利用图注意力网络表达周围车辆运动状态对目标车辆变道决策的影响,模型示意图如图4所示. 图中,图注意力网络为有向图,方向表示周围车辆对目标车辆的影响,箭头所指节点为目标车辆,其余节点表示周围车辆. 图G=
图 4
使用3个线性变换学习节点集V的特征集合
式中:Wq、Wk、Wv表示线性变化下可学习的权重矩阵,
利用多头注意力机制计算m个子空间下每个子空间车辆之间的交互特征Attm,再利用激活函数将m个子空间的交互特征进行拼接,得到周围车辆与目标车辆之间的总体交互特征
式中:dk表示键向量的维度,本研究设置为64;WRelu为激活函数fLeaky Relu的参数.
2.2. 意图特征提取模块(IFE)
尽管驾驶意图具有不确定性,但意图信息通常会在车辆的运动参数中得到体现,包括航向角、速度和加速度等. 如图5所示,车辆在执行变道动作时,往往伴随着加速或减速以接近目标车道,并且航向角会发生相应的改变. 鉴于此,通过将车辆的速度和加速度分解为横向和纵向分量,并结合车辆的航向角信息,来推断和学习车辆的意图.
图 5
利用车辆的横向变道信息
式中:
利用卷积神经网络分别从横向变道信息
图 6
2.3. 驾驶意图识别模块(DIR)
车辆的驾驶意图可分为横向和纵向2类,横向驾驶意图包括车道保持、向左变道和向右变道,纵向驾驶意图包括加速、减速和匀速.
利用驾驶意图识别模块获取不同驾驶意图的发生概率. 具体过程如下:首先利用一个线性层将横向变道特征hlat、目标车辆历史特征
2.4. 多模态输出模块(GMO)
将目标车辆的历史特征
式中:
3. 数据与实验
3.1. 数据集介绍
利用HighD数据集和NGSIM数据集来验证模型. HighD数据集是在德国科隆的6条约420 m的高速公路上,通过无人机以25 Hz频率采集的,涵盖了超过11万辆汽车、总里程达4.5万公里的行驶数据,其中包括
将数据集划分为训练集(70%)、验证集(10%)和测试集(20%). 本研究选择历史序列3 s(共15帧)来分别预测未来1~5 s的目标车辆轨迹信息.
3.2. 参数配置
3.3. 模型误差对比
为了评估模型性能,选择均方根误差(root mean square error,RMSE)作为模型预测结果的衡量标准,计算本研究模型STGAMT、消融模型STGAMT(w/o IFE)和其他5个经典模型(S-LSTM、CS-LSTM、S-GAN、PiP、STDAN)在预测时间tf=1~5 s 时的预测坐标与真实坐标之间的均方根误差. 如表1所示为1~5 s预测范围内不同模型在HighD和NGSIM数据集中的均方根误差.
表 1 不同模型在5 s预测范围内的均方根误差
Tab.1
数据集 | RMSE | |||||||
tf/s | S-LSTM[16] | CS-LSTM[15] | S-GAN[14] | PIP[18] | STDAN[17] | STGAMT(w/o IFE) | STGAMT | |
HighD | 1 | 0.22 | 0.22 | 0.20 | 0.17 | 0.19 | 0.07 | 0.07 |
2 | 0.62 | 0.61 | 0.57 | 0.52 | 0.27 | 0.19 | 0.19 | |
3 | 1.27 | 1.24 | 1.14 | 1.05 | 0.48 | 0.35 | 0.32 | |
4 | 2.15 | 2.10 | 1.90 | 1.76 | 0.91 | 0.65 | 0.61 | |
5 | 3.14 | 3.27 | 2.91 | 2.63 | 1.66 | 1.20 | 1.14 | |
NGSIM | 1 | 0.65 | 0.61 | 0.57 | 0.55 | 0.42 | 0.22 | 0.21 |
2 | 1.31 | 1.27 | 1.32 | 1.18 | 1.01 | 0.80 | 0.78 | |
3 | 2.16 | 2.09 | 2.22 | 1.94 | 1.69 | 1.52 | 1.49 | |
4 | 3.25 | 3.10 | 3.26 | 2.88 | 2.56 | 2.47 | 2.40 | |
5 | 4.55 | 4.37 | 4.40 | 4.04 | 3.67 | 3.69 | 3.58 |
1)S-LSTM[16]:使用全连接的社交池化层构建基于LSTM的编码器-解码器结构.
2)CS-LSTM[15]:将卷积运算引入社交池化层,以捕捉车辆间的交互.
3)S-GAN[14]:该模型结合了序列到序列和生成对抗网络的模型来融合车辆交互信息并生成多模态轨迹预测.
4)PiP[18]:该模型以目标车辆的多个候选轨迹为条件,将轨迹预测与目标车辆的规划相结合.
5)STDAN[17]:该模型综合运用了LSTM和注意力机制,提出用于车辆轨迹预测的时空动态注意力网络.
6)STGAMT(w/o IFE):该模型是在本研究所提模型STGAMT的基础上,不使用目标车辆意图特征提取模块(IFE).
7)STGAMT:本研究所提完整的时空图注意力网络.
从预测的时间范围来看,本研究模型STGAMT不论是短期(1~2 s)还是长期(3~5 s)的预测性能都优于其他5个经典模型的. 在短期预测范围内,本研究模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了63.8%和41.0%. 目标车辆短期的预测性能与其历史轨迹运动状态有关,因此短期的预测优化主要靠时间注意力网络来提升. 在长期预测范围内,本研究模型在HighD和NGSIM数据集上的RMSE较其他5个经典模型的平均RMSE降低了62.5%和19.1%. 图注意力网络能够表示周围车辆与目标车辆之间的动态关系,利用该模块提取的空间交互对长期轨迹预测产生了积极的影响.
3.4. 模型耗时对比
在轨迹预测任务中,时效性是不可或缺的性能指标. 为了证明本研究模型的时效性,按照每批次128条轨迹数据,测试对比模型运行1批次数据的平均消耗时间te,测试结果如表2所示.
表 2 模型每轮训练时间对比
Tab.2
本研究模型STGAMT较5个经典模型的平均耗时减少32.8%,较同样使用注意力机制的STDAN模型的消耗时间减少35.0%,表明本研究的时空图注意力网络较传统的注意力机制能够提升运行效率. 虽然STGAMT较STGAMT(w/o IFE)消耗时间增加1.5%,但误差降低4.1%,而且预测耗时依旧满足要求. 不同模型耗时的对比说明本研究模型在保证准确度的同时提升了推理效率.
3.5. 消融实验
为了研究意图特征提取模块的合理性,将去除意图特征提取模块的模型STGAMT(w/o IFE)与完整模型STGAMT进行对比.
由表1可知,STGAMT(w/o IFE)与本研究模型STGAMT的短期(1~2 s)预测效果类似;随着预测时间的增加,完整的STGAMT模型3~5 s误差的平均值较STGAMT(w/o IFE)模型在HighD和NGSIM数据集上分别降低了6.0%和3.0%.
STGAMT(w/o IFE)与STGAMT的横向意图误差RMSE(lat)和纵向意图误差RMSE(lon)对比如表3所示.可以看出,STGAMT较STGAMT(w/o IFE)的横纵向意图误差均降低,纵向意图误差减少的更加显著,表明添加角度信息、横纵速度、横纵加速度用于驾驶意图的识别是可行的.
表 3 消融实验均方根误差对比
Tab.3
数据集 | tf/s | RMSE(lat) | RMSE(lon) | |||
STGAMT (w/o IFE) | STGAMT | STGAMT (w/o IFE) | STGAMT | |||
HighD | 1 | 0.03 | 0.03 | 0.07 | 0.07 | |
2 | 0.12 | 0.11 | 0.14 | 0.14 | ||
3 | 0.25 | 0.23 | 0.24 | 0.22 | ||
4 | 0.37 | 0.36 | 0.53 | 0.48 | ||
5 | 0.49 | 0.47 | 1.09 | 1.04 | ||
NGSIM | 1 | 0.08 | 0.08 | 0.20 | 0.20 | |
2 | 0.20 | 0.20 | 0.77 | 0.75 | ||
3 | 0.30 | 0.29 | 1.49 | 1.46 | ||
4 | 0.39 | 0.37 | 2.43 | 2.37 | ||
5 | 0.49 | 0.40 | 3.66 | 3.54 |
3.6. 预测结果分析
为了直观描述本研究所提模型轨迹预测的性能,选取多模态轨迹输出中意图最大的轨迹,对车辆轨迹预测结果进行可视化. 车辆行驶的横向意图可分为车道保持、向左变道和向右变道3类. 车辆匝道汇入汇出也属于变道行为,但汇入汇出车辆须在固定距离内驶入或驶出高速公路主车道,与路中段变道决策有较大区别,为了增加研究精度,本研究将匝道汇出汇入行为与其他行驶模态并列研究. HighD和NGSIM数据集中包含匝道汇入数据,本研究将匝道汇入信息从向左变道中提取出来,与其他行驶模态并列分析与讨论. 为了说明目标车辆决策受周围其他车辆及自身意图的影响,将4种变道类别下目标车辆决策的注意力分布进行可视化. 轨迹预测可视化结果如图7所示. 图中,车辆附近为注意力数值标注.
图 7
图 7 目标车辆预测轨迹及注意力分布图
Fig.7 Prediction trajectory and attention distribution map of target vehicle
3.6.1. 车辆轨迹
3.6.2. 注意力分布
对图7中4种变道类别下目标车辆的注意力分布进行分析,发现车辆在运动的过程中受周围车辆及自身意图的影响不同. 由图7(a)可知,当车辆保持当前车道直行时,车辆受到当前车道前车的影响最大,注意力为100%;车辆在运动过程中受前方车辆的影响远大于后方车辆的. 由图7(b)可知,当车辆向右变道时,受目标车道前方车辆的影响为49%,大于其他周围车辆的影响. 车辆向左变道受周围车辆的影响与向右变道的类似. 由图7(b)、(c)可知,当车辆向右或向左变道时,受自身意图影响为100%,较其他变道类别受自身意图影响(车道保持45%、汇入主道80%)更大. 虽然汇入行为通常归类为向左变道,但是车辆由闸道汇入主干道时,受车道线及周围车辆的影响较大,由图7(d)可知,车辆汇入行为受到周围车辆的影响为100%,远大于自身意图影响的80%.
4. 结 语
提出基于时空图神经网络的多模态轨迹预测模型(STGAMT). STGAMT模型考虑到车辆轨迹受历史数据和周围车辆的影响,利用时间注意力网络将不同车辆的轨迹历史信息进行汇聚. 空间图注意力网络将车辆交互权重分配给不同的车辆节点,有效提高了模型的预测性能. 此外,为了解决多模态预测的横纵向意图预测问题,提取车辆的横向变道信息和纵向运动信息,利用Softmax函数为每条轨迹分别学习了3种横向和纵向意图类别,引导模型输出更为准确的多模态轨迹. 在2个公开数据集HighD和NGSIM上,本研究模型与其他5个经典模型进行了对比实验. 结果表明,无论是短期还是长期轨迹预测,本研究模型都更具有竞争力:在HighD数据集上,本研究模型的短期轨迹预测准确率相较于其他模型提升了63.8%,长期轨迹预测准确率提升了62.5%;在NGSIM数据集上,短期预测准确率和长期预测准确率分别提高了提升了41.0%和19.1%. 在显著提升准确率的同时,本研究模型的预测效率相较于其他模型还提高了32.8%,进一步证明了本研究模型在实际应用中的优势和价值.
未来可考虑加入地图信息(车道线、车道曲率)和车辆的转向灯图像特征,以达到更加精准预测车辆轨迹的目标.
参考文献
Connected autonomous vehicles: state of practice
[J].DOI:10.1002/asmb.2772 [本文引用: 1]
A survey on trajectory-prediction methods for autonomous driving
[J].DOI:10.1109/TIV.2022.3167103 [本文引用: 1]
Use of social interaction and intention to improve motion prediction within automated vehicle framework: a review
[J].DOI:10.1109/TITS.2022.3207347 [本文引用: 1]
Explainable multimodal trajectory prediction using attention models
[J].DOI:10.1016/j.trc.2022.103829 [本文引用: 1]
Incorporating driving knowledge in deep learning based vehicle trajectory prediction: a survey
[J].DOI:10.1109/TIV.2023.3266446 [本文引用: 1]
Vehicle trajectory prediction considering driver uncertainty and vehicle dynamics based on dynamic bayesian network
[J].DOI:10.1109/TSMC.2022.3186639 [本文引用: 1]
Bayonet-corpus: a trajectory prediction method based on bayonet context and bidirectional GRU
[J].DOI:10.1016/j.dcan.2020.03.002 [本文引用: 1]
Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for internet of vehicles
[J].DOI:10.1109/TITS.2022.3170551 [本文引用: 4]
A critical evaluation of the next generation simulation (NGSIM) vehicle trajectory dataset
[J].DOI:10.1016/j.trb.2017.09.018 [本文引用: 2]
/
〈 |
|
〉 |
