浙江大学学报(工学版), 2023, 57(8): 1636-1643 doi: 10.3785/j.issn.1008-973X.2023.08.016

土木工程、交通工程

基于时空融合的多头注意力车辆轨迹预测

宋秀兰,, 董兆航, 单杭冠, 陆炜杰

1. 浙江工业大学 信息工程学院,浙江 杭州 310023

2. 浙江大学 信息与电子工程学院,浙江 杭州 310027

Vehicle trajectory prediction based on temporal-spatial multi-head attention mechanism

SONG Xiu-lan,, DONG Zhao-hang, SHAN Hang-guan, LU Wei-jie

1. College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023

2. College of Information and Electronic Engineering, Zhejiang University, Hangzhou 310027

收稿日期: 2022-10-11  

基金资助: 国家自然科学基金资助项目(62273307);浙江省公益性技术应用研究资助项目(LGF22F030013);浙江省重点研发计划资助项目(2021C11096)

Received: 2022-10-11  

Fund supported: 国家自然科学基金资助项目(62273307);浙江省公益性技术应用研究资助项目(LGF22F030013);浙江省重点研发计划资助项目(2021C11096)

作者简介 About authors

宋秀兰(1982—),女,副教授,从事智能网联车辆和深度学习应用研究.orcid.org/0000-0001-8802-7010.E-mail:songxl2008@zjut.edu.cn , E-mail:songxl2008@zjut.edu.cn

摘要

针对时空维度特征影响自动驾驶车辆轨迹精度的问题,提出基于时空融合的多头注意力(TSMHA)车辆轨迹预测模型,对于空间与时间2个维度的特征信息,分别使用多头注意力机制提取车辆空间交互感知与时间运动模式. 为了获得互补特征,并除去特征数据中的冗余,将处理后的时空特征信息传输至门控特征融合模型进行特征融合. 使用基于长短期记忆(LSTM)的编解码器结构,考虑编码与解码2个过程中轨迹之间潜在的相互作用,循环生成目标车辆未来预测轨迹. 在训练过程中使用L2损失函数,以此降低预测轨迹与真实轨迹的差值. 实验表明,与对比算法模型相比,在直线高速公路、城市十字路口、环岛场景下,本研究所提出的模型的精度分别提高了3.95%、 15.64%、31.40%.

关键词: 车辆智能决策 ; 轨迹预测 ; 时空融合注意力机制 ; 多目标车辆 ; 神经网络

Abstract

Aiming at the problem that temporal-spatial features affect the trajectory prediction accuracy of autonomous vehicle, a temporal-spatial multi-head attention (TSMHA) vehicle trajectory prediction model was proposed. For the feature information of spatial and temporal dimensions, the multi-head attention mechanism was used to extract the spatial interaction perception and temporal motion pattern of the vehicle. The processed temporal-spatial feature information was transmitted to the gate fusion model for feature fusion, in order to obtain complementary features and remove redundancy. Using the encoder-decoder structure based on long short-term memory (LSTM), future trajectories were recurrently generated considering the potential interaction between trajectories during encoding and decoding. In the training process, the L2 loss function was used to reduce the difference between the predicted trajectory and the ground-truth trajectory. Experimental results show that, compared with the comparison models, the accuracy of the proposed model was improved by 3.95% in the highway, 15.64% in the urban roads, and 31.40% in the roundabout scenario.

Keywords: vehicle intelligent decision-making ; trajectory prediction ; temporal-spatial attention mechanism ; multi-target vehicle ; neural network

PDF (1310KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋秀兰, 董兆航, 单杭冠, 陆炜杰. 基于时空融合的多头注意力车辆轨迹预测. 浙江大学学报(工学版)[J], 2023, 57(8): 1636-1643 doi:10.3785/j.issn.1008-973X.2023.08.016

SONG Xiu-lan, DONG Zhao-hang, SHAN Hang-guan, LU Wei-jie. Vehicle trajectory prediction based on temporal-spatial multi-head attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(8): 1636-1643 doi:10.3785/j.issn.1008-973X.2023.08.016

近年来,自动驾驶车辆轨迹预测问题吸引了学者们的广泛关注. 通过预测未来的行驶轨迹并生成一条安全的未来轨迹作为行驶参考,自动驾驶车辆可以在行驶中对周围道路状况做出及时响应[1]. 早期的车辆轨迹预测主要基于车辆恒速模型(constant velocity, CV)和卡尔曼滤波(Kalman filter, KF)方法[2],但这些方法无法有效利用车辆历史状态及考虑车辆之间交互的问题. 由于当前交通状况的不确定性以及车辆之间交互的复杂性,精确预测车辆未来轨迹依然是研究难点与热点[1].

近期以长短期记忆网络(long short-term memory,LSTM)为核心的非注意力机制模型开始应用于车辆轨迹预测,该模型能够有效利用车辆过去状态,提高车辆轨迹预测的精度[3-4]. 然而,该模型的LSTM无法有效地处理各辆车之间的相互作用,从而不能充分提取多辆车之间历史轨迹的交互信息[5-10]. 为此,有学者将LSTM与卷积神经网络[11-13](convolutional neural network,CNN)与生成对抗网络[14](generative adversarial networks, GAN)方法结合,但这些方法将周围车辆视作同等重要,忽略了周围车辆对轨迹预测车辆交互影响的差异性.

为了处理车辆轨迹预测中各辆车交互影响的差异性,近年来注意力机制被广泛使用[15-22],如Lin等[16]在Deo 等[11]的基础上,提出基于网格的时空注意力机制;Chen等[19]提出动态时空注意力网络架构,通过分层捕捉时间和社会关系表示车辆之间的动态变化. 然而,这些注意力机制模型无法有效处理预测轨迹的多模态特性,导致预测的轨迹与真实的轨迹相差较大[23]. 为此,有研究者将Transformer模型[24]中的多头注意力(multi-head attention, MHA)运用于车辆轨迹预测. 例如,Messaoud等[23]在编码层和解码层之间嵌入多头注意力机制模块,能充分提取车辆之间的交互信息;Li等[1]分别从时间和空间维度设计多头注意力机制模型,并将两者串联以提取车辆轨迹的时空特征. 尽管Transformer模型提高了车辆轨迹预测的精度,但大部分模型只考虑了单维度的多模态问题,难以提取所有特征信息实现特征融合,导致轨迹预测精度提高有限.

考虑自动驾驶车辆轨迹预测问题,本研究提出基于时空融合的多头注意力(temporal-spatial multi-head attention,TSMHA)车辆轨迹预测模型. 首先设计时间多头注意力模块以有效提取时间关联性,预测车辆在未来不同时刻的行驶可能性;再结合MHA与图注意力机制设计空间多头注意力模块,融合交通场景中车辆的拓扑关系,提取车辆之间的交互关系. 在此基础上,采用门控特征融合模型(gate fusion model, GFM)将时空注意力模块得到的差异化特征信息进行融合,其目的是消除不同特征之间产生的冗余信息,进而在循环模块采用LSTM循环生成目标车辆未来预测轨迹. 最后考虑高速公路、城市十字路口和环岛交通场景,使用NGSIM和INTERACTION公开数据集验证本研究所提出的轨迹预测方法的有效性.

1. 目标车辆轨迹预测

1.1. 问题描述

考虑在t时刻一定道路范围内的N辆车,集合 $ \left\{ {S_i^t} \right\}_{i = 1}^N $表示这些车辆, $ S_i^t = \left\{ {s_i^t,l_i^t,\theta _i^t,v_i^t,a_i^t} \right\} $$ \left\{ {s_i^t,l_i^t} \right\} $为车辆i在Frenet坐标系的位置, $ \theta _i^t $$ v_i^t $$ a_i^t $分别为车辆i的转向角、速度以及加速度. 由于本研究涉及曲线路段的轨迹预测,将笛卡尔坐标系转换为Frenet坐标系以便后续实验处理. 本研究的模型总架构如图1所示,其中为了总模型架构的简洁性,嵌入层未在图1中显示. 车辆i的信息 $ S_i^t $经过LSTM处理后,被分别传输至时间注意力模块和空间注意力模块,之后再将各自的结果输入门控特征融合,最后循环生成未来预测轨迹.

图 1

图 1   轨迹预测模型总架构

Fig.1   Overall structure of trajectory prediction model


1.2. 时间注意力机制

在时间维度上,由于当前时刻车辆自身的状态与过去时刻的状态高度相关,设计时间多头注意力模块,用于提取每辆车在时间维度的关联性. 首先将场景中第i辆车 $ S_i^t $依次传输至嵌入层(embedding layer)与LSTM层,以便时间多头注意力模块进一步处理,表达式为

$ {\boldsymbol{e}}_i^t = \varphi (S_i^t;{{\boldsymbol{W}}_{{\text{emb}}}}) , $

$ {\boldsymbol{h}}_i^t = {\text{LSTM}}({\boldsymbol{h}}_i^{t - 1},{\boldsymbol{e}}_i^t;{{\boldsymbol{W}}_{\text{e}}}) . $

式中: $ \varphi $表示激活函数为Relu的全连接(fully connected)层, $ {\boldsymbol{e}}_i^t $$ {\boldsymbol{h}}_i^t $分别为嵌入层输出结果与LSTM的隐藏层,WembWe为嵌入层和LSTM的可学习权重. 再将所有t = 1, 2 $, \cdots , $ Tobs时刻的隐藏层聚合为 $ {\boldsymbol{H}}_i^t = \left[ {{\boldsymbol{h}}_i^1,{\boldsymbol{h}}_i^2,\cdots ,{\boldsymbol{h}}_i^{{T_{{\text{obs}}}}}} \right],{\boldsymbol{H}}_i^t \in {{{\bf{R}}}^{{T_{{\text{obs}}}} \times d}} $. 接下来将第i辆车的 $ {\boldsymbol{H}}_i^t $传输至时间多头注意力模块. 为了与空间注意力机制对应, $ {\boldsymbol{H}}_i^t $上标t被省略. 上述过程的表达式如下:

$ {{\boldsymbol{Q}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{qt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{qt}}}} \in {{\bf{R}}^{d \times {d_{\text{k}}}}}. $

$ {{\boldsymbol{K}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{kt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{kt}}}} \in {{{\bf{R}}}^{d \times {d_{\text{k}}}}}. $

$ {{\boldsymbol{V}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{vt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{vt}}}} \in {{\bf{R}}^{d \times {d_{\text{v}}}}}. $

式中:QiKiVi分别表示query矩阵、key矩阵和value矩阵,WqtWktWvt为时间注意力中对应矩阵的可学习矩阵. 计算第h个注意力头的车辆i在当前时刻对观测时刻的注意力值:

$ {\text{At}}{{\text{t}}^h}({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i}) = \frac{{{\text{softmax}}\;({{\boldsymbol{Q}}_i}{{({{\boldsymbol{K}}_i})}^{\rm{T}}})}}{{\sqrt {{d_{\text{k}}}} }}{{\boldsymbol{V}}_i} .$

与比例点积做法不同,本研究将维度d等分h份,d/h = dv = dk,多头注意力机制将式(6)平行计算h次,再将结果拼接并加权得到Htep,表达式为

$ {{\boldsymbol{C}}_n}{\rm{ = Con}}({\bf{hea}}{{\bf{d}}_1},{\bf{hea}}{{\bf{d}}_2},\cdots,{\bf{hea}}{{\bf{d}}_h}) \in {{\bf{R}}^{{T_{{\rm{obs}}}} \times d}}, $

$ {{\boldsymbol{H}}_{{\rm{tep}}}} = \left[ {{{\boldsymbol{C}}_1},{{\boldsymbol{C}}_2},\cdots,{{\boldsymbol{C}}_n},\cdots,{{\boldsymbol{C}}_N}} \right] .$

式中:headh = Atth(Qi, Ki, Vi);Con为concat操作,用于合并h个注意力头的信息. 时间多头注意力机制的目的为模拟目标车辆在同一时刻采用多种可能的驾驶策略. 将各注意力头得出的结果进行连接并得出合适的权重,能够使目标车辆考虑到多种可能的情况,再从中选择出最合适的路线作为目标车辆未来时刻的轨迹运动参考.

1.3. 空间注意力机制

在研究目标车辆与周围车辆的空间交互时,仅使用欧氏距离来研究车辆之间的相互作用是不全面的,可能会忽略真正须注意的车辆[1]. 因此,本研究将图注意力机制(graphic attention network)与MHA结合,形成图多头注意力(graphic MHA),以提取 $ {\boldsymbol{H}}_i^t $在空间维度的交互行为. 具体步骤如下:先将所获得的 $ {\boldsymbol{H}}_i^t $进行拼接得到 $\left[ {\boldsymbol{H}}_1^t,{\boldsymbol{H}}_2^t,\cdots , {\boldsymbol{H}}_N^t \right] \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}}$,再以时间维度将其分割为 $\left[ {{\boldsymbol{\varTheta }}_i^1,{\boldsymbol{\varTheta }}_i^2,\cdots ,{\boldsymbol{\varTheta }}_i^{{T_{{\rm{obs}}}}}} \right] \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}}$,以便处理在 t 时刻所有车辆之间的交互关系,最后计算空间注意力权重,表达式如下:

$ {{\boldsymbol{Q}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{qs}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{qs}}}} \in {{\boldsymbol{R}}^{d \times {d_{\text{k}}}}}. $

$ {{\boldsymbol{K}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{ks}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{ks}}}} \in {{\bf{R}}^{d \times {d_{\text{k}}}}} .$

$ {{\boldsymbol{V}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{vs}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{vs}}}} \in {{\bf{R}}^{d \times {d_{\text{v}}}}} .$

式中:WqsWksWvs表示空间注意力中对应矩阵的可学习矩阵. 为了与时间注意力机制对应, $ {\boldsymbol{\varTheta }}_i^t $下标i被省略. 接下来计算在t时刻的注意力值Atth(Qt, Kt, Vt),表达式为

$ {\text{At}}{{\text{t}}^h}({{{\boldsymbol{Q}}}^t},{{{\boldsymbol{K}}}^t},{{{\boldsymbol{V}}}^t}) = \frac{{{{\rm{softmax}}}\; ({{{\boldsymbol{Q}}}^t}{{({{{\boldsymbol{K}}}^t})}^{\rm{T}}})}}{{\sqrt {{d_{\text{k}}}} }}{{{\boldsymbol{V}}}^t} .$

通过与1.2节类似的做法,将多头注意力平行运算h次并且串联,表达式为

$ {{\boldsymbol{C}}_i}{\rm{ = Co}}{{\rm{n}}_i}({\bf{hea}}{{\bf{d}}_1},{\bf{hea}}{{\bf{d}}_2},\cdots,{\bf{hea}}{{\bf{d}}_h}) \in {{\bf{R}}^{N \times d}}, $

$ {{\boldsymbol{H}}_{{\rm{spa}}}} = \left[ {{{\boldsymbol{C}}_1},{{\boldsymbol{C}}_2},\cdots,{{\boldsymbol{C}}_i},\cdots,{{\boldsymbol{C}}_{{T_{{\rm{obs}}}}}}} \right] .$

此处的Coni作用是将所有车辆(n = 1, 2 $, \cdots , $ N)的空间交互行为在时刻i进行串联. 图多头注意力在考虑车辆欧氏距离的同时,也处理了车辆之间复杂的场景拓扑关系,因此图多头注意力机制能够清晰地反映目标车辆与周围车辆、周围车辆之间的逻辑关系,有助于空间要素的查询.

1.4. 门控特征融合

$ {{\boldsymbol{H}}_{{\text{tep}}}} \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}} $仅包含了车辆i在所有观测时间内的时间关联性, $ {{\boldsymbol{H}}_{{\text{spa}}}} \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}} $仅包含了在t时刻的车辆空间交互关系. 为了能够提取互补特征,并除去特征数据中的冗余,以得到同时具有时间关联性和空间交互性的特征信息,提出门控特征融合模型,将HtepHspa进行特征融合,以准确提取时空特征.

特征融合的示意图如图2所示, ${{\boldsymbol{H}}_{{\text{tep}}}} = \left[ {\boldsymbol{h}}_{{\text{tep}}}^1,{\boldsymbol{h}}_{{\text{tep}}}^2,\cdots , {\boldsymbol{h}}_{{\text{tep}}}^{{T_{{\text{obs}}}}} \right]$$ {{\boldsymbol{H}}_{{\text{spa}}}} = \left[ {{\boldsymbol{h}}_{{\text{spa}}}^1,{\boldsymbol{h}}_{{\text{spa}}}^2,\cdots, {\boldsymbol{h}}_{{\text{spa}}}^{{T_{{\text{obs}}}}}} \right] $.htephspa按照时间维度进行融合,表达式为

图 2

图 2   门控特征融合模型架构

Fig.2   Structure of gated fusion model


$ \begin{split} {{\boldsymbol{F}}_{\rm{f}}^t} =\;&{{\boldsymbol{h}}_{{\text{spa}}}^t} \otimes {\text{Gate}}\left[ {{{\boldsymbol{h}}_{{\text{tep}}}^t} \oplus {{\boldsymbol{h}}_{{\text{spa}}}^t}} \right] \oplus \\ \;&{{\boldsymbol{h}}_{{\text{tep}}}^t} \otimes {\text{Gate}}\left[ {({{\boldsymbol{h}}_{{\text{tep}}}^t} \oplus {{\boldsymbol{h}}_{{\text{spa}}}^t}} \right] , \end{split} $

$ {\boldsymbol{F}^t} = {\text{Gate}}\left( {{{\boldsymbol{F}}_{\rm{f}}^t} \oplus {\boldsymbol{F}}^{t - 1}} \right). $

式中: $\otimes $为按元素相乘, $\oplus $为concat操作. Gate(·)函数表达式如下:

$ {\text{Gate}}({\boldsymbol{x}}){\text{ = }}\sigma \left\{ {{\text{ML}}{{\text{P}}_{\text{G}}}\left[ {{\text{Leakyrelu(}}{\boldsymbol{x}}{\text{)}}} \right]} \right\}. $

式中:MLPG(x)为多层感知机(multilayer perceptron,MLP),MLPG(x)的具体作用是将输入变量与输出按照 $ {\boldsymbol{x}} \in {{\bf{R}}^{a \times 2b}} \to {\text{ML}}{{\text{P}}_{\text{G}}}({\boldsymbol{x}}) \in {{\bf{R}}^{a \times b}} $方式进行维度变换,实现特征按元素相乘时维度一致;σ与Leakyrelu分别为sigmoid和Leaky Relu激活函数.

在融合结束后,将 $ \left[ {{\boldsymbol{F}}^1,{\boldsymbol{F}}^2,\cdots , {\boldsymbol{F}}^{T_{{\text{obs}}}}} \right] $分割成 $ \left[ {{{\boldsymbol{N}}_{1,t}},{{\boldsymbol{N}}_{2,t}},\cdots , {{\boldsymbol{N}}_{n,t}},\cdots , {{\boldsymbol{N}}_{N,t}}} \right] $,再将 $ {{\boldsymbol{N}}_{n,t}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times d}} $传至LSTMd,n(·)以生成未来行驶轨迹,表达式为

$ {{\boldsymbol{h}}_{n,t}} = {\text{LST}}{{\text{M}}_{{\text{d}},n}}({{\boldsymbol{h}}_{n,t - 1}},{{\boldsymbol{N}}_{n,t}};{{\boldsymbol{W}}_{\text{d}}}) . $

式中:Wd图1中循环模块的LSTM可学习参数. 将 $ \left[ {{{\boldsymbol{h}}_{1,{T_{{\text{obs}}}}}},{{\boldsymbol{h}}_{2,{T_{{\text{obs}}}}}},\cdots ,{{\boldsymbol{h}}_{n,{T_{{\text{obs}}}}}},\cdots ,{{\boldsymbol{h}}_{N,{T_{{\text{obs}}}}}}} \right] $传至LSTMd,n(·)获得 $\left[ {{\boldsymbol{h}}_{1,{T_{{\text{obs}}+1}}}},{{\boldsymbol{h}}_{2,{T_{{\text{obs}}+1}}}},\cdots ,{{\boldsymbol{h}}_{n,{T_{{\text{obs}}+1}}}},\cdots , {{\boldsymbol{h}}_{N,{T_{{\text{obs}}+1}}}} \right]$直至t = Tpre. 最后将LSTMd,n(·)的结果传输至MLP中,循环生成目标车辆的预测轨迹 $ Y_{{\text{pre}}}^t = \left\{ {s_{{\text{pre}}}^t,l_{{\text{pre}}}^t} \right\} $.

本研究目的是最小化预测轨迹 $ Y_{{\text{pre}}}^t $与真实轨迹 $ Y_{{\text{gro}}}^t $之间的差值,因此采用2-范数描述损失函数,表达式为

$ L = \frac{1}{{{T_{{\text{pre}}}} - {T_{{\text{obs}}}}}}\sum\limits_{t = {T_{{\text{obs}}}}}^{{T_{{\text{pre}}}}} {{{\left\| {Y_{{\text{pre}}}^t - Y_{{\text{gro}}}^t} \right\|}^2}}. $

2. 实验部分

2.1. 数据集以及衡量方式

验证所设计的模型在直线道路、十字路口以及环岛道路场景的性能,其中直线道路对应NGSIM中US-101和I-80子数据集,十字路口对应NGSIM中Peachtree Street和Lankershim Boulevard子数据集,环岛对应INTERACTION Roundabout子数据集. 将每种数据集以0.7∶0.1∶0.2的比例分割为训练集、验证集和测试集. 设置采样频率为5 Hz,每条轨迹被分为8 s的片段,其中3 s用于神经网络理解,5 s用于预测未来轨迹. 环岛每条轨迹被分为4 s的片段,其中1 s用于神经网络理解,3 s用于预测未来轨迹. 须注意的是,在计算空间注意力中,数据集中存在着N不一致的问题. 为了便于批量操作,本研究规定,若目标车辆的周围车辆小于10辆,则补足至10辆,多余的车辆为距离目标车辆−9999 (距离无穷远)的虚拟车辆.

在衡量方式上,为了能够更加直观地描述实验现象,将Frenet坐标系转换回笛卡尔坐标系. 在评估方式上,使用均方根误差(root mean square error, RMSE)来评估模型的性能.

在本研究中,周围车辆选取范围为长度Lx(以目标车辆为中心,前后各Lx/2),宽度为Ly(根据不同的道路,Ly选择为3条车道的宽度)的矩形空间范围. 如图3(a)所示,若有车辆的中心位于目标车辆的空间范围内,则被判定为周围车辆. 在城市十字路口场景下,如图3(b)所示,将驶出道路与驶入道路以圆弧相连,以此建立Frenet坐标系,S轴的方向为车辆前进方向,并将笛卡尔坐标系中Lx长度映射在Frenet坐标系的S坐标上. 如图3(c)环岛场景所示,Frenet S坐标为驶入道路与环岛的连线.

图 3

图 3   不同场景下的空间范围示意图

Fig.3   Schematic diagram of spatial range in different scenarios


2.2. 实施细节

本研究所搭建的模型采用pytorch 1.8.1平台实现,网络设置d = 32,dv = dk = 8,设置时间MHA和图MHA中的多头为h = 4,堆叠为2层,循环模块中MLP为2层,隐藏层大小分别为16和8,样本批量设置为64,并对模型训练200个周期. 采用学习率为0.001的Adam优化器. 实验的硬件环境为Win10 操作系统,Intel Core i7-10750H CPU @ 2.60 GHz,内存为32 GB,使用NVIDIA GeForce RTX 2070 GPU进行训练过程神经网络加速.

2.3. 消融实验

周围车辆的数量影响着模型的预测性能,因此在确定相邻车辆的数量时,须选择最合适的长度L. 本研究分别对L=50、55、60、65、70 m 5种情况进行消融实验. 消融实验采用NGSIM高速公路数据集进行训练与验证,其结果如表1所示.表中,RMSE表示均方根误差,te表示预测时域. 可以看出,当L固定为60 m时RMSE最低. 因此在下文的实验中将L设置为 60 m. 同样的,在十字路口或圆环道路曲线路段的场景下,将L = 60 m作为Frenet坐标系变换的基础.

表 1   不同长度L对模型预测性能的影响

Tab.1  Effect of different length L on prediction performance

L /m RMSE
te=1 s te=2 s te=3 s te=4 s te=5 s
50 0.66 1.30 1.95 3.01 4.14
55 0.63 1.27 1.92 2.94 4.05
60 0.56 1.19 1.87 2.84 3.93
65 0.61 1.23 1.92 2.88 4.01
70 0.64 1.26 1.91 2.97 4.07

新窗口打开| 下载CSV


进一步地,为了研究门控特征融合模块对预测性能的影响,同样采用NGSIM高速公路数据集进行消融实验. 将HtepHspa分别单独传输至解码端的模型记为模型1和模型2;HtepHspa按元素相加的模型记为模型3;搭载门控特征融合模块的模型记为模型4. 实验结果如表2所示,模型1、2缺少时间或空间注意力一部分特征,与模型4相比,两者的预测精度分别降低了10.07%与8.14%,说明缺少任何一维的特征都会使预测精度急剧下降;而将同样输入有时空特征的模型3与模型4相比,模型4精度比模型3的提高了5.98%,说明门控特征融合能够有效提取互补时空特征.

表 2   门控特征融合消融实验

Tab.2  Ablation study of gate fusion model

模型 RMSE
te=1 s te=2 s te=3 s te=4 s te=5 s
1 0.75 1.41 2.26 3.21 4.37
2 0.68 1.52 2.31 2.93 4.25
3 0.61 1.38 2.24 3.04 4.18
4 0.56 1.19 1.87 2.84 3.93

新窗口打开| 下载CSV


2.4. 直线道路实验

将所搭建的模型(TSMHA)与对比模型进行训练与验证. 其中,对比模型如下:Vanilla LSTM (V-LSTM),V-LSTM 为单输入-单输出模型,未考虑与周围车辆的交互;CS-LSTM[11]和S-GAN[12],两者为考虑车辆交互的深度学习模型;MATF[25]、STA[16]、SIT[1]和PIP[26],为注意力机制轨迹预测所提出的最新方法. 对比结果如表3所示.

表 3   高速公路场景不同模型的预测性能对比

Tab.3  Comparison of prediction performance of different models in highway scenario

模型 RMSE
te=1 s te=2 s te=3 s te=4 s te=5 s
V-LSTM 0.70 1.79 3.22 4.96 7.04
CS-LSTM 0.61 1.27 2.09 3.10 4.37
S-GAN 0.57 1.32 2.22 3.26 4.40
MATF 0.66 1.34 2.08 2.97 4.13
STA 0.56 1.32 2.03 3.08 4.24
SIT 0.58 1.23 1.99 2.96 4.05
PIP 0.55 1.18 1.94 2.88 4.04
TSMHA 0.56 1.19 1.87 2.84 3.93

新窗口打开| 下载CSV


直线道路实验使用的为高速公路数据集,由结果可知,与SIT、MATF和PIP等模型相比,本研究提出的TSMHA在短预测时域(1~2 s)的RMSE能与最新方法的较接近,并在中长预测时域(3~5 s)能够得到更低的RMSE. 3 s的中预测时域的结果表明,只有SIT、PIP与TSMHA的RMSE小于2.0;在5 s的预测时域下,只有TSMHA将RMSE控制在4.0以下. 在定量分析结果上,与CS-LSTM和SIT相比,TSMHA的RMSE分别降低了8.70%和2.72%.

图4(a)、(b)所示为高速公路场景下直行与变道的可视化轨迹图. 可以看出,无论是在直行还是变道,本研究提出的TSMHA均能够精确预测观测场景中目标车辆的运动轨迹.

图 4

图 4   高速公路场景下的轨迹可视化

Fig.4   Trajectory visualization in highway scenario


2.5. 城市十字路口道路实验

城市道路采用与高速公路相同的对比模型. 将城市道路数据集分别放入对比模型与TSMHA中进行训练与验证,结果如表4所示. 可以看出,TSMHA的1~5 s的平均RMSE相对于CS-LSTM与PIP,分别降低了15.64%与5.81%,说明本研究设计的TSMHA能够适应城市道路场景,并作出高精度的预测. 城市道路的预测精度整体不如高速公路的精确度,主要是因为城市道路路况比高速公路复杂,从而导致车辆之间的交互关系也更为复杂.

表 4   城市道路场景下不同模型的预测性能对比

Tab.4  Comparison of prediction performance of different models in urban scenario

模型 RMSE
te=1 s te=2 s te=3 s te=4 s te=5 s
V-LSTM 0.81 1.93 4.48 6.20 8.13
CS-LSTM 0.78 1.61 2.67 3.44 4.56
S-GAN 0.75 1.56 3.03 3.58 4.92
MATF 0.82 1.51 2.88 3.15 4.58
STA 0.68 1.53 2.71 3.24 4.66
SIT 0.73 1.45 2.42 3.16 4.35
PIP 0.74 1.32 2.41 3.03 4.27
TSMHA 0.67 1.24 2.29 2.87 4.13

新窗口打开| 下载CSV


Peachtree Street和Lankershim Boulevard子数据集不仅包括十字路口转向数据段,还包括城市道路中的直行与变道情况,如图5(a)~(c)所示分别展示了车辆在城市道路中直行、左转以及右转的轨迹预测. 可以看出,整体上TSMHA能够较好地预测未来轨迹. 如图5(b)所示为车辆左转的场景,TSMHA预测的未来轨迹与真实轨迹相近. 在转向案例的结果分析过程中,会出现一部分预测轨迹不准确的情况. 例如,如图5(c)所示为车辆右转的场景,相对于真实轨迹,预测轨迹速度更快,且预测轨迹距离真实轨迹横向更远. 造成这种现象的原因,除了TSMHA本身预测的误差,可能存在着其他道路使用者干扰车辆正常行驶的情况,例如行人横穿马路.

图 5

图 5   城市道路场景下的轨迹可视化

Fig.5   Trajectory visualization in urban road scenario


2.6. 环岛实验

为了进一步验证本研究的模型具有处理复杂交通路况的能力,在INTERACTION Roundabout子数据集中进行训练与验证. 如表5所示为本模型与其余对比模型在环岛场景下的比较结果. 可以看出,相对于CS-LSTM与PIP,TSMHA的预测精度分别提高了31.4%与13.7%. 对比高速公路数据集和城市道路数据集,TSMHA在环岛数据集的RMSE有所提高,但性能仍然优于对比模型. 如图6所示为车辆驶入环岛与在环岛中行驶的可视化示意图. 可以看出,无论车辆在预测之前是否已进入环岛,TSMHA都能够较好地预测轨迹.

表 5   环岛道路场景不同模型的预测性能对比

Tab.5  Comparison of prediction performance with different models in roundabout scenario

模型 RMSE
te=1 s te=2 s te=3 s
V-LSTM 0.89 2.15 6.42
CS-LSTM 0.83 1.86 3.59
S-GAN 0.78 1.84 3.83
MATF 0.85 2.03 3.85
STA 0.77 1.73 3.24
SIT 0.79 1.76 3.06
PIP 0.83 1.63 2.85
TSMHA 0.75 1.34 2.46

新窗口打开| 下载CSV


图 6

图 6   环岛场景下的轨迹可视化

Fig.6   Trajectory visualization in roundabout scenario


2.7. 注意力分布分析

注意力权重能够反映一个元素对其他元素的重要程度. 为了进一步分析本研究所提出模型的性能,将时间注意力和空间注意力的最后一层注意力分布可视化,结果如图7(a)、(b)所示. 图中,整数n为时间步长 ,所对应的时刻为t = Tobs−0.2×n;id表示车辆编号;AtAs分别为时间、空间上的归一化注意力值. 由图7(a)可以看出,距离当前时刻越近,注意力权重越大;距离当前时刻越远,注意力权重越低. 结果说明,未来轨迹取决于当前时刻与过去一段时间内的行驶轨迹. 由图7(b)可以看出,车辆之间距离越近,注意力权重越高. 上述2个结果与真实道路结果一致,说明TSMHA符合真实交通逻辑,并且能够有效地捕获车辆的时间依赖性与车辆之间在空间维度的交互.

图 7

图 7   时间和空间注意力权重示意图

Fig.7   Schematic diagram of temporal and spatial attention weights


3. 结 语

本研究针对注意力机制轨迹预测中出现的时空维度处理不足所造成的预测精度较低的问题,提出基于时空融合的多头注意力车辆轨迹预测模型. 在时间维度上,采用时间多头注意力机制解决时间依赖性;在空间维度上,采用图多头注意力机制处理车辆之间的交互关系. 为了进一步地去除特征融合中的冗余信息,设计了门控特征融合模型以获取互补特征,改善时空特征融合的输出结果. 在NGSIM和INTERACTION上进行训练与验证,结果表明,与现有的主流算法相比,所搭建的TSMHA在高速公路、城市十字路口以及环岛上的预测精度显著提高. 随着轨迹预测模型应用场景的扩大以及深入,在后续工作中可以将其他道路参与者引入预测模型,以及引入高架桥、立交桥、隧道等三维道路场景.

参考文献

LI X L, XIA J, CHEN X Y, et al

SIT: a spatial interaction-aware transformer-based model for freeway trajectory prediction

[J]. ISPRS International Journal of Geo-Information, 2022, 11 (2): 79- 94

DOI:10.3390/ijgi11020079      [本文引用: 5]

ELNAGAR A. Prediction of moving objects in dynamic environments using kalman filters [C]// IEEE International Symposium on Computational Intelligence in Robotics and Automation. New York: IEEE, 2001: 414-419.

[本文引用: 1]

季学武, 费 聪, 何祥坤, 等

基于 LSTM 网络的驾驶意图识别及车辆轨迹预测

[J]. 中国公路学报, 2019, 32 (6): 34- 42

[本文引用: 1]

JI Xue-wu, FEI Cong, HE Xiang-kun, et al

Intention recognition and trajectory prediction for vehicles using LSTM network

[J]. China Journal of Highway and Transport, 2019, 32 (6): 34- 42

[本文引用: 1]

韩皓, 谢天

基于注意力 Seq2Seq 网络的高速公路交织区车辆变道轨迹预测

[J]. 中国公路学报, 2020, 33 (6): 106- 118

[本文引用: 1]

HAN Hao, XIE Tian

Lane change trajectory prediction of vehicles in highway interweaving area using Seq2Seq-attention network

[J]. China Journal of Highway and Transport, 2020, 33 (6): 106- 118

[本文引用: 1]

FEI C, HE X K, JI X

Multi-modal vehicle trajectory prediction based on mutual information

[J]. IET Intelligent Transport Systems, 2020, 14 (3): 148- 153

DOI:10.1049/iet-its.2019.0299      [本文引用: 1]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 961-971.

XIN L, WANG P, CHAN C, et al. Intention-aware long horizon trajectory prediction of surrounding vehicles using dual LSTM networks [C]// 21st International Conference on Intelligent Transportation Systems. New York: IEEE, 2018: 1441-1446.

HOU L, XIN L, LE S E, et al

Interactive trajectory prediction of surrounding road users for autonomous driving using structural-LSTM network

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (11): 4615- 4625

DOI:10.1109/TITS.2019.2942089     

KIM B, KANG C M, KIM J, et al. Probabilistic vehicle trajectory prediction over occupancy grid map via recurrent neural network [C]// IEEE 20th International Conference on Intelligent Transportation Systems. New York: IEEE, 2017: 399-404.

WU Y, CHEN G, LI Z, et al

HSTA: a hierarchical spatio-temporal attention model for trajectory prediction

[J]. IEEE Transactions on Vehicular Technology, 2021, 70 (11): 11295- 11307

DOI:10.1109/TVT.2021.3115018      [本文引用: 1]

DEO N, TRIVEDI M M. Convolutional social pooling for vehicle trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2018: 1468-1476.

[本文引用: 3]

MO X Y, XING Y, LV C. Interaction-aware trajectory prediction of connected vehicles using CNN-LSTM networks [C]// 46th Annual Conference of the IEEE-Industrial- Electronics-Society (IECON). New York: IEEE, 2020: 5057-5062.

[本文引用: 1]

MUKHERJEE S, WANG S, WEALLACE A. Interacting vehicle trajectory prediction with convolutional recurrent neural networks [C]// IEEE International Conference on Robotics and Automation. New York: IEEE, 2020: 4336-4342.

[本文引用: 1]

GUPTA A, JOHNSON J, LI F F, et al. Social GAN: socially acceptable trajectories with generative Adversarial networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 2255-2264.

[本文引用: 1]

MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention [C]// 28th Conference on Neural Information Processing Systems. California: NeurIPS, 2014: 2204-2212.

[本文引用: 1]

LIN L, LI W Z, BI H K, et al

Vehicle trajectory prediction using LSTMs with spatial-temporal attention mechanisms

[J]. IEEE Intelligent Transportation Systems Magazine, 2021, 14 (2): 197- 208

[本文引用: 2]

YANG J, SUN X, WANG R G, et al

PTPGC: pedestrian trajectory prediction by graph attention network with ConvLSTM

[J]. Robotics and Autonomous Systems, 2022, 148: 103931- 103942

DOI:10.1016/j.robot.2021.103931     

YAN J, PENG Z F, YIN H L, et al

Trajectory prediction for intelligent vehicles using spatial-attention mechanism

[J]. IET Intelligent Transport Systems, 2020, 14 (13): 1855- 1863

DOI:10.1049/iet-its.2020.0274     

CHEN X B, ZHANG H J, ZHAO F, et al

Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for internet of vehicles

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (10): 19471- 19483

DOI:10.1109/TITS.2022.3170551      [本文引用: 1]

MOHAMED A, QIAN K, ELHOSEINY M, et al. Social-STGCNN: a social spatio-temporal graph convolutional neural network for human trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2020: 14412-14420.

YAN S, XIONG Y, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition [C]// AAAI Conference on Artificial Intelligence. California: AAAI, 2018, 32(1): 7444-7452.

XUE H, HUYNH D Q, REYNOLDS M

A location-velocity-temporal attention LSTM model for pedestrian trajectory prediction

[J]. IEEE ACCESS, 2020, 8: 44576- 44589

DOI:10.1109/ACCESS.2020.2977747      [本文引用: 1]

MESSAOUD K, YAHIAOUI I, VERROUST-BLONDET A, et al

Attention based vehicle trajectory prediction

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6 (1): 175- 185

DOI:10.1109/TIV.2020.2991952      [本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// 31st Conference on Neural Information Processing Systems. California: NeurIPS, 2017: 5998-6008.

[本文引用: 1]

ZHAO T, XU Y, MONFORT M, et al. Multi-agent tensor fusion for contextual trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 12118-12126.

[本文引用: 1]

SONG H, DING W, CHEN Y, et al. PIP: planning-informed trajectory prediction for autonomous driving [C]// 2020 European Conference on Computer Vision (ECCV 2020). Glasgow: ECCV, 2020: 598-614.

[本文引用: 1]

/