基于时空融合的多头注意力车辆轨迹预测
Vehicle trajectory prediction based on temporal-spatial multi-head attention mechanism
收稿日期: 2022-10-11
基金资助: |
|
Received: 2022-10-11
Fund supported: | 国家自然科学基金资助项目(62273307);浙江省公益性技术应用研究资助项目(LGF22F030013);浙江省重点研发计划资助项目(2021C11096) |
作者简介 About authors
宋秀兰(1982—),女,副教授,从事智能网联车辆和深度学习应用研究.orcid.org/0000-0001-8802-7010.E-mail:
针对时空维度特征影响自动驾驶车辆轨迹精度的问题,提出基于时空融合的多头注意力(TSMHA)车辆轨迹预测模型,对于空间与时间2个维度的特征信息,分别使用多头注意力机制提取车辆空间交互感知与时间运动模式. 为了获得互补特征,并除去特征数据中的冗余,将处理后的时空特征信息传输至门控特征融合模型进行特征融合. 使用基于长短期记忆(LSTM)的编解码器结构,考虑编码与解码2个过程中轨迹之间潜在的相互作用,循环生成目标车辆未来预测轨迹. 在训练过程中使用L2损失函数,以此降低预测轨迹与真实轨迹的差值. 实验表明,与对比算法模型相比,在直线高速公路、城市十字路口、环岛场景下,本研究所提出的模型的精度分别提高了3.95%、 15.64%、31.40%.
关键词:
Aiming at the problem that temporal-spatial features affect the trajectory prediction accuracy of autonomous vehicle, a temporal-spatial multi-head attention (TSMHA) vehicle trajectory prediction model was proposed. For the feature information of spatial and temporal dimensions, the multi-head attention mechanism was used to extract the spatial interaction perception and temporal motion pattern of the vehicle. The processed temporal-spatial feature information was transmitted to the gate fusion model for feature fusion, in order to obtain complementary features and remove redundancy. Using the encoder-decoder structure based on long short-term memory (LSTM), future trajectories were recurrently generated considering the potential interaction between trajectories during encoding and decoding. In the training process, the L2 loss function was used to reduce the difference between the predicted trajectory and the ground-truth trajectory. Experimental results show that, compared with the comparison models, the accuracy of the proposed model was improved by 3.95% in the highway, 15.64% in the urban roads, and 31.40% in the roundabout scenario.
Keywords:
本文引用格式
宋秀兰, 董兆航, 单杭冠, 陆炜杰.
SONG Xiu-lan, DONG Zhao-hang, SHAN Hang-guan, LU Wei-jie.
近期以长短期记忆网络(long short-term memory,LSTM)为核心的非注意力机制模型开始应用于车辆轨迹预测,该模型能够有效利用车辆过去状态,提高车辆轨迹预测的精度[3-4]. 然而,该模型的LSTM无法有效地处理各辆车之间的相互作用,从而不能充分提取多辆车之间历史轨迹的交互信息[5-10]. 为此,有学者将LSTM与卷积神经网络[11-13](convolutional neural network,CNN)与生成对抗网络[14](generative adversarial networks, GAN)方法结合,但这些方法将周围车辆视作同等重要,忽略了周围车辆对轨迹预测车辆交互影响的差异性.
为了处理车辆轨迹预测中各辆车交互影响的差异性,近年来注意力机制被广泛使用[15-22],如Lin等[16]在Deo 等[11]的基础上,提出基于网格的时空注意力机制;Chen等[19]提出动态时空注意力网络架构,通过分层捕捉时间和社会关系表示车辆之间的动态变化. 然而,这些注意力机制模型无法有效处理预测轨迹的多模态特性,导致预测的轨迹与真实的轨迹相差较大[23]. 为此,有研究者将Transformer模型[24]中的多头注意力(multi-head attention, MHA)运用于车辆轨迹预测. 例如,Messaoud等[23]在编码层和解码层之间嵌入多头注意力机制模块,能充分提取车辆之间的交互信息;Li等[1]分别从时间和空间维度设计多头注意力机制模型,并将两者串联以提取车辆轨迹的时空特征. 尽管Transformer模型提高了车辆轨迹预测的精度,但大部分模型只考虑了单维度的多模态问题,难以提取所有特征信息实现特征融合,导致轨迹预测精度提高有限.
考虑自动驾驶车辆轨迹预测问题,本研究提出基于时空融合的多头注意力(temporal-spatial multi-head attention,TSMHA)车辆轨迹预测模型. 首先设计时间多头注意力模块以有效提取时间关联性,预测车辆在未来不同时刻的行驶可能性;再结合MHA与图注意力机制设计空间多头注意力模块,融合交通场景中车辆的拓扑关系,提取车辆之间的交互关系. 在此基础上,采用门控特征融合模型(gate fusion model, GFM)将时空注意力模块得到的差异化特征信息进行融合,其目的是消除不同特征之间产生的冗余信息,进而在循环模块采用LSTM循环生成目标车辆未来预测轨迹. 最后考虑高速公路、城市十字路口和环岛交通场景,使用NGSIM和INTERACTION公开数据集验证本研究所提出的轨迹预测方法的有效性.
1. 目标车辆轨迹预测
1.1. 问题描述
考虑在t时刻一定道路范围内的N辆车,集合
图 1
1.2. 时间注意力机制
在时间维度上,由于当前时刻车辆自身的状态与过去时刻的状态高度相关,设计时间多头注意力模块,用于提取每辆车在时间维度的关联性. 首先将场景中第i辆车
式中:
式中:Qi、Ki和Vi分别表示query矩阵、key矩阵和value矩阵,Wqt、Wkt和Wvt为时间注意力中对应矩阵的可学习矩阵. 计算第h个注意力头的车辆i在当前时刻对观测时刻的注意力值:
与比例点积做法不同,本研究将维度d等分h份,d/h = dv = dk,多头注意力机制将式(6)平行计算h次,再将结果拼接并加权得到Htep,表达式为
式中:headh = Atth(Qi, Ki, Vi);Con为concat操作,用于合并h个注意力头的信息. 时间多头注意力机制的目的为模拟目标车辆在同一时刻采用多种可能的驾驶策略. 将各注意力头得出的结果进行连接并得出合适的权重,能够使目标车辆考虑到多种可能的情况,再从中选择出最合适的路线作为目标车辆未来时刻的轨迹运动参考.
1.3. 空间注意力机制
在研究目标车辆与周围车辆的空间交互时,仅使用欧氏距离来研究车辆之间的相互作用是不全面的,可能会忽略真正须注意的车辆[1]. 因此,本研究将图注意力机制(graphic attention network)与MHA结合,形成图多头注意力(graphic MHA),以提取
式中:Wqs、Wks和Wvs表示空间注意力中对应矩阵的可学习矩阵. 为了与时间注意力机制对应,
通过与1.2节类似的做法,将多头注意力平行运算h次并且串联,表达式为
此处的Coni作用是将所有车辆(n = 1, 2
1.4. 门控特征融合
特征融合的示意图如图2所示,
图 2
式中:
式中:MLPG(x)为多层感知机(multilayer perceptron,MLP),MLPG(x)的具体作用是将输入变量与输出按照
在融合结束后,将
式中:Wd为图1中循环模块的LSTM可学习参数. 将
本研究目的是最小化预测轨迹
2. 实验部分
2.1. 数据集以及衡量方式
验证所设计的模型在直线道路、十字路口以及环岛道路场景的性能,其中直线道路对应NGSIM中US-101和I-80子数据集,十字路口对应NGSIM中Peachtree Street和Lankershim Boulevard子数据集,环岛对应INTERACTION Roundabout子数据集. 将每种数据集以0.7∶0.1∶0.2的比例分割为训练集、验证集和测试集. 设置采样频率为5 Hz,每条轨迹被分为8 s的片段,其中3 s用于神经网络理解,5 s用于预测未来轨迹. 环岛每条轨迹被分为4 s的片段,其中1 s用于神经网络理解,3 s用于预测未来轨迹. 须注意的是,在计算空间注意力中,数据集中存在着N不一致的问题. 为了便于批量操作,本研究规定,若目标车辆的周围车辆小于10辆,则补足至10辆,多余的车辆为距离目标车辆−9999 (距离无穷远)的虚拟车辆.
在衡量方式上,为了能够更加直观地描述实验现象,将Frenet坐标系转换回笛卡尔坐标系. 在评估方式上,使用均方根误差(root mean square error, RMSE)来评估模型的性能.
图 3
图 3 不同场景下的空间范围示意图
Fig.3 Schematic diagram of spatial range in different scenarios
2.2. 实施细节
本研究所搭建的模型采用pytorch 1.8.1平台实现,网络设置d = 32,dv = dk = 8,设置时间MHA和图MHA中的多头为h = 4,堆叠为2层,循环模块中MLP为2层,隐藏层大小分别为16和8,样本批量设置为64,并对模型训练200个周期. 采用学习率为0.001的Adam优化器. 实验的硬件环境为Win10 操作系统,Intel Core i7-10750H CPU @ 2.60 GHz,内存为32 GB,使用NVIDIA GeForce RTX 2070 GPU进行训练过程神经网络加速.
2.3. 消融实验
周围车辆的数量影响着模型的预测性能,因此在确定相邻车辆的数量时,须选择最合适的长度L. 本研究分别对L=50、55、60、65、70 m 5种情况进行消融实验. 消融实验采用NGSIM高速公路数据集进行训练与验证,其结果如表1所示.表中,RMSE表示均方根误差,te表示预测时域. 可以看出,当L固定为60 m时RMSE最低. 因此在下文的实验中将L设置为 60 m. 同样的,在十字路口或圆环道路曲线路段的场景下,将L = 60 m作为Frenet坐标系变换的基础.
表 1 不同长度L对模型预测性能的影响
Tab.1
L /m | RMSE | ||||
te=1 s | te=2 s | te=3 s | te=4 s | te=5 s | |
50 | 0.66 | 1.30 | 1.95 | 3.01 | 4.14 |
55 | 0.63 | 1.27 | 1.92 | 2.94 | 4.05 |
60 | 0.56 | 1.19 | 1.87 | 2.84 | 3.93 |
65 | 0.61 | 1.23 | 1.92 | 2.88 | 4.01 |
70 | 0.64 | 1.26 | 1.91 | 2.97 | 4.07 |
进一步地,为了研究门控特征融合模块对预测性能的影响,同样采用NGSIM高速公路数据集进行消融实验. 将Htep与Hspa分别单独传输至解码端的模型记为模型1和模型2;Htep与Hspa按元素相加的模型记为模型3;搭载门控特征融合模块的模型记为模型4. 实验结果如表2所示,模型1、2缺少时间或空间注意力一部分特征,与模型4相比,两者的预测精度分别降低了10.07%与8.14%,说明缺少任何一维的特征都会使预测精度急剧下降;而将同样输入有时空特征的模型3与模型4相比,模型4精度比模型3的提高了5.98%,说明门控特征融合能够有效提取互补时空特征.
表 2 门控特征融合消融实验
Tab.2
模型 | RMSE | ||||
te=1 s | te=2 s | te=3 s | te=4 s | te=5 s | |
1 | 0.75 | 1.41 | 2.26 | 3.21 | 4.37 |
2 | 0.68 | 1.52 | 2.31 | 2.93 | 4.25 |
3 | 0.61 | 1.38 | 2.24 | 3.04 | 4.18 |
4 | 0.56 | 1.19 | 1.87 | 2.84 | 3.93 |
2.4. 直线道路实验
表 3 高速公路场景不同模型的预测性能对比
Tab.3
模型 | RMSE | ||||
te=1 s | te=2 s | te=3 s | te=4 s | te=5 s | |
V-LSTM | 0.70 | 1.79 | 3.22 | 4.96 | 7.04 |
CS-LSTM | 0.61 | 1.27 | 2.09 | 3.10 | 4.37 |
S-GAN | 0.57 | 1.32 | 2.22 | 3.26 | 4.40 |
MATF | 0.66 | 1.34 | 2.08 | 2.97 | 4.13 |
STA | 0.56 | 1.32 | 2.03 | 3.08 | 4.24 |
SIT | 0.58 | 1.23 | 1.99 | 2.96 | 4.05 |
PIP | 0.55 | 1.18 | 1.94 | 2.88 | 4.04 |
TSMHA | 0.56 | 1.19 | 1.87 | 2.84 | 3.93 |
直线道路实验使用的为高速公路数据集,由结果可知,与SIT、MATF和PIP等模型相比,本研究提出的TSMHA在短预测时域(1~2 s)的RMSE能与最新方法的较接近,并在中长预测时域(3~5 s)能够得到更低的RMSE. 3 s的中预测时域的结果表明,只有SIT、PIP与TSMHA的RMSE小于2.0;在5 s的预测时域下,只有TSMHA将RMSE控制在4.0以下. 在定量分析结果上,与CS-LSTM和SIT相比,TSMHA的RMSE分别降低了8.70%和2.72%.
如图4(a)、(b)所示为高速公路场景下直行与变道的可视化轨迹图. 可以看出,无论是在直行还是变道,本研究提出的TSMHA均能够精确预测观测场景中目标车辆的运动轨迹.
图 4
2.5. 城市十字路口道路实验
城市道路采用与高速公路相同的对比模型. 将城市道路数据集分别放入对比模型与TSMHA中进行训练与验证,结果如表4所示. 可以看出,TSMHA的1~5 s的平均RMSE相对于CS-LSTM与PIP,分别降低了15.64%与5.81%,说明本研究设计的TSMHA能够适应城市道路场景,并作出高精度的预测. 城市道路的预测精度整体不如高速公路的精确度,主要是因为城市道路路况比高速公路复杂,从而导致车辆之间的交互关系也更为复杂.
表 4 城市道路场景下不同模型的预测性能对比
Tab.4
模型 | RMSE | ||||
te=1 s | te=2 s | te=3 s | te=4 s | te=5 s | |
V-LSTM | 0.81 | 1.93 | 4.48 | 6.20 | 8.13 |
CS-LSTM | 0.78 | 1.61 | 2.67 | 3.44 | 4.56 |
S-GAN | 0.75 | 1.56 | 3.03 | 3.58 | 4.92 |
MATF | 0.82 | 1.51 | 2.88 | 3.15 | 4.58 |
STA | 0.68 | 1.53 | 2.71 | 3.24 | 4.66 |
SIT | 0.73 | 1.45 | 2.42 | 3.16 | 4.35 |
PIP | 0.74 | 1.32 | 2.41 | 3.03 | 4.27 |
TSMHA | 0.67 | 1.24 | 2.29 | 2.87 | 4.13 |
Peachtree Street和Lankershim Boulevard子数据集不仅包括十字路口转向数据段,还包括城市道路中的直行与变道情况,如图5(a)~(c)所示分别展示了车辆在城市道路中直行、左转以及右转的轨迹预测. 可以看出,整体上TSMHA能够较好地预测未来轨迹. 如图5(b)所示为车辆左转的场景,TSMHA预测的未来轨迹与真实轨迹相近. 在转向案例的结果分析过程中,会出现一部分预测轨迹不准确的情况. 例如,如图5(c)所示为车辆右转的场景,相对于真实轨迹,预测轨迹速度更快,且预测轨迹距离真实轨迹横向更远. 造成这种现象的原因,除了TSMHA本身预测的误差,可能存在着其他道路使用者干扰车辆正常行驶的情况,例如行人横穿马路.
图 5
2.6. 环岛实验
表 5 环岛道路场景不同模型的预测性能对比
Tab.5
模型 | RMSE | ||
te=1 s | te=2 s | te=3 s | |
V-LSTM | 0.89 | 2.15 | 6.42 |
CS-LSTM | 0.83 | 1.86 | 3.59 |
S-GAN | 0.78 | 1.84 | 3.83 |
MATF | 0.85 | 2.03 | 3.85 |
STA | 0.77 | 1.73 | 3.24 |
SIT | 0.79 | 1.76 | 3.06 |
PIP | 0.83 | 1.63 | 2.85 |
TSMHA | 0.75 | 1.34 | 2.46 |
图 6
2.7. 注意力分布分析
注意力权重能够反映一个元素对其他元素的重要程度. 为了进一步分析本研究所提出模型的性能,将时间注意力和空间注意力的最后一层注意力分布可视化,结果如图7(a)、(b)所示. 图中,整数n为时间步长 ,所对应的时刻为t = Tobs−0.2×n;id表示车辆编号;At、As分别为时间、空间上的归一化注意力值. 由图7(a)可以看出,距离当前时刻越近,注意力权重越大;距离当前时刻越远,注意力权重越低. 结果说明,未来轨迹取决于当前时刻与过去一段时间内的行驶轨迹. 由图7(b)可以看出,车辆之间距离越近,注意力权重越高. 上述2个结果与真实道路结果一致,说明TSMHA符合真实交通逻辑,并且能够有效地捕获车辆的时间依赖性与车辆之间在空间维度的交互.
图 7
图 7 时间和空间注意力权重示意图
Fig.7 Schematic diagram of temporal and spatial attention weights
3. 结 语
本研究针对注意力机制轨迹预测中出现的时空维度处理不足所造成的预测精度较低的问题,提出基于时空融合的多头注意力车辆轨迹预测模型. 在时间维度上,采用时间多头注意力机制解决时间依赖性;在空间维度上,采用图多头注意力机制处理车辆之间的交互关系. 为了进一步地去除特征融合中的冗余信息,设计了门控特征融合模型以获取互补特征,改善时空特征融合的输出结果. 在NGSIM和INTERACTION上进行训练与验证,结果表明,与现有的主流算法相比,所搭建的TSMHA在高速公路、城市十字路口以及环岛上的预测精度显著提高. 随着轨迹预测模型应用场景的扩大以及深入,在后续工作中可以将其他道路参与者引入预测模型,以及引入高架桥、立交桥、隧道等三维道路场景.
参考文献
SIT: a spatial interaction-aware transformer-based model for freeway trajectory prediction
[J].DOI:10.3390/ijgi11020079 [本文引用: 5]
基于 LSTM 网络的驾驶意图识别及车辆轨迹预测
[J].
Intention recognition and trajectory prediction for vehicles using LSTM network
[J].
基于注意力 Seq2Seq 网络的高速公路交织区车辆变道轨迹预测
[J].
Lane change trajectory prediction of vehicles in highway interweaving area using Seq2Seq-attention network
[J].
Multi-modal vehicle trajectory prediction based on mutual information
[J].DOI:10.1049/iet-its.2019.0299 [本文引用: 1]
Interactive trajectory prediction of surrounding road users for autonomous driving using structural-LSTM network
[J].
HSTA: a hierarchical spatio-temporal attention model for trajectory prediction
[J].DOI:10.1109/TVT.2021.3115018 [本文引用: 1]
Vehicle trajectory prediction using LSTMs with spatial-temporal attention mechanisms
[J].
PTPGC: pedestrian trajectory prediction by graph attention network with ConvLSTM
[J].DOI:10.1016/j.robot.2021.103931
Trajectory prediction for intelligent vehicles using spatial-attention mechanism
[J].
Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for internet of vehicles
[J].DOI:10.1109/TITS.2022.3170551 [本文引用: 1]
A location-velocity-temporal attention LSTM model for pedestrian trajectory prediction
[J].DOI:10.1109/ACCESS.2020.2977747 [本文引用: 1]
Attention based vehicle trajectory prediction
[J].DOI:10.1109/TIV.2020.2991952 [本文引用: 2]
/
〈 |
|
〉 |
