<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 轨迹预测模型总架构

Fig.1 Overall structure of trajectory prediction model

1.2. 时间注意力机制

在时间维度上，由于当前时刻车辆自身的状态与过去时刻的状态高度相关，设计时间多头注意力模块，用于提取每辆车在时间维度的关联性. 首先将场景中第i辆车 $ S_i^t $依次传输至嵌入层（embedding layer）与LSTM层，以便时间多头注意力模块进一步处理，表达式为

(1) $ {\boldsymbol{e}}_i^t = \varphi (S_i^t;{{\boldsymbol{W}}_{{\text{emb}}}}) , $

(2) $ {\boldsymbol{h}}_i^t = {\text{LSTM}}({\boldsymbol{h}}_i^{t - 1},{\boldsymbol{e}}_i^t;{{\boldsymbol{W}}_{\text{e}}}) . $

式中： $ \varphi $表示激活函数为Relu的全连接（fully connected）层， $ {\boldsymbol{e}}_i^t $和 $ {\boldsymbol{h}}_i^t $分别为嵌入层输出结果与LSTM的隐藏层，W_emb、W_e为嵌入层和LSTM的可学习权重. 再将所有t = 1, 2 $, \cdots , $ T_obs时刻的隐藏层聚合为 $ {\boldsymbol{H}}_i^t = \left[ {{\boldsymbol{h}}_i^1,{\boldsymbol{h}}_i^2,\cdots ,{\boldsymbol{h}}_i^{{T_{{\text{obs}}}}}} \right],{\boldsymbol{H}}_i^t \in {{{\bf{R}}}^{{T_{{\text{obs}}}} \times d}} $. 接下来将第i辆车的 $ {\boldsymbol{H}}_i^t $传输至时间多头注意力模块. 为了与空间注意力机制对应， $ {\boldsymbol{H}}_i^t $上标t被省略. 上述过程的表达式如下：

(3) $ {{\boldsymbol{Q}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{qt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{qt}}}} \in {{\bf{R}}^{d \times {d_{\text{k}}}}}. $

(4) $ {{\boldsymbol{K}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{kt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{kt}}}} \in {{{\bf{R}}}^{d \times {d_{\text{k}}}}}. $

(5) $ {{\boldsymbol{V}}_i} = {{\boldsymbol{H}}_i} \times {{\boldsymbol{W}}_{{\text{vt}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{vt}}}} \in {{\bf{R}}^{d \times {d_{\text{v}}}}}. $

式中：Q_i、K_i和V_i分别表示query矩阵、key矩阵和value矩阵，W_qt、W_kt和W_vt为时间注意力中对应矩阵的可学习矩阵. 计算第h个注意力头的车辆i在当前时刻对观测时刻的注意力值：

(6) $ {\text{At}}{{\text{t}}^h}({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i}) = \frac{{{\text{softmax}}\;({{\boldsymbol{Q}}_i}{{({{\boldsymbol{K}}_i})}^{\rm{T}}})}}{{\sqrt {{d_{\text{k}}}} }}{{\boldsymbol{V}}_i} .$

与比例点积做法不同，本研究将维度d等分h份，d/h = d_v = d_k，多头注意力机制将式(6)平行计算h次，再将结果拼接并加权得到H_tep，表达式为

(7) $ {{\boldsymbol{C}}_n}{\rm{ = Con}}({\bf{hea}}{{\bf{d}}_1},{\bf{hea}}{{\bf{d}}_2},\cdots,{\bf{hea}}{{\bf{d}}_h}) \in {{\bf{R}}^{{T_{{\rm{obs}}}} \times d}}, $

(8) $ {{\boldsymbol{H}}_{{\rm{tep}}}} = \left[ {{{\boldsymbol{C}}_1},{{\boldsymbol{C}}_2},\cdots,{{\boldsymbol{C}}_n},\cdots,{{\boldsymbol{C}}_N}} \right] .$

式中：head_h = Att^h(Q_i, K_i, V_i)；Con为concat操作，用于合并h个注意力头的信息. 时间多头注意力机制的目的为模拟目标车辆在同一时刻采用多种可能的驾驶策略. 将各注意力头得出的结果进行连接并得出合适的权重，能够使目标车辆考虑到多种可能的情况，再从中选择出最合适的路线作为目标车辆未来时刻的轨迹运动参考.

1.3. 空间注意力机制

在研究目标车辆与周围车辆的空间交互时，仅使用欧氏距离来研究车辆之间的相互作用是不全面的，可能会忽略真正须注意的车辆^[1]. 因此，本研究将图注意力机制（graphic attention network）与MHA结合，形成图多头注意力（graphic MHA），以提取 $ {\boldsymbol{H}}_i^t $在空间维度的交互行为. 具体步骤如下：先将所获得的 $ {\boldsymbol{H}}_i^t $进行拼接得到 $\left[ {\boldsymbol{H}}_1^t,{\boldsymbol{H}}_2^t,\cdots , {\boldsymbol{H}}_N^t \right] \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}}$，再以时间维度将其分割为 $\left[ {{\boldsymbol{\varTheta }}_i^1,{\boldsymbol{\varTheta }}_i^2,\cdots ,{\boldsymbol{\varTheta }}_i^{{T_{{\rm{obs}}}}}} \right] \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}}$，以便处理在 t 时刻所有车辆之间的交互关系，最后计算空间注意力权重，表达式如下：

(9) $ {{\boldsymbol{Q}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{qs}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{qs}}}} \in {{\boldsymbol{R}}^{d \times {d_{\text{k}}}}}. $

(10) $ {{\boldsymbol{K}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{ks}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{ks}}}} \in {{\bf{R}}^{d \times {d_{\text{k}}}}} .$

(11) $ {{\boldsymbol{V}}^t} = {{\boldsymbol{\varTheta }}^t} \times {{\boldsymbol{W}}_{{\text{vs}}}};{\text{ }}{{\boldsymbol{W}}_{{\text{vs}}}} \in {{\bf{R}}^{d \times {d_{\text{v}}}}} .$

式中：W_qs、W_ks和W_vs表示空间注意力中对应矩阵的可学习矩阵. 为了与时间注意力机制对应， $ {\boldsymbol{\varTheta }}_i^t $下标i被省略. 接下来计算在t时刻的注意力值Att^h(Q^t, K^t, V^t)，表达式为

(12) $ {\text{At}}{{\text{t}}^h}({{{\boldsymbol{Q}}}^t},{{{\boldsymbol{K}}}^t},{{{\boldsymbol{V}}}^t}) = \frac{{{{\rm{softmax}}}\; ({{{\boldsymbol{Q}}}^t}{{({{{\boldsymbol{K}}}^t})}^{\rm{T}}})}}{{\sqrt {{d_{\text{k}}}} }}{{{\boldsymbol{V}}}^t} .$

通过与1.2节类似的做法，将多头注意力平行运算h次并且串联，表达式为

(13) $ {{\boldsymbol{C}}_i}{\rm{ = Co}}{{\rm{n}}_i}({\bf{hea}}{{\bf{d}}_1},{\bf{hea}}{{\bf{d}}_2},\cdots,{\bf{hea}}{{\bf{d}}_h}) \in {{\bf{R}}^{N \times d}}, $

(14) $ {{\boldsymbol{H}}_{{\rm{spa}}}} = \left[ {{{\boldsymbol{C}}_1},{{\boldsymbol{C}}_2},\cdots,{{\boldsymbol{C}}_i},\cdots,{{\boldsymbol{C}}_{{T_{{\rm{obs}}}}}}} \right] .$

此处的Con_i作用是将所有车辆（n = 1, 2 $, \cdots , $ N）的空间交互行为在时刻i进行串联. 图多头注意力在考虑车辆欧氏距离的同时，也处理了车辆之间复杂的场景拓扑关系，因此图多头注意力机制能够清晰地反映目标车辆与周围车辆、周围车辆之间的逻辑关系，有助于空间要素的查询.

1.4. 门控特征融合

$ {{\boldsymbol{H}}_{{\text{tep}}}} \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}} $仅包含了车辆i在所有观测时间内的时间关联性， $ {{\boldsymbol{H}}_{{\text{spa}}}} \in {{\bf{R}}^{N \times {T_{{\text{obs}}}} \times d}} $仅包含了在t时刻的车辆空间交互关系. 为了能够提取互补特征，并除去特征数据中的冗余，以得到同时具有时间关联性和空间交互性的特征信息，提出门控特征融合模型，将H_tep与H_spa进行特征融合，以准确提取时空特征.

特征融合的示意图如图2所示， ${{\boldsymbol{H}}_{{\text{tep}}}} = \left[ {\boldsymbol{h}}_{{\text{tep}}}^1,{\boldsymbol{h}}_{{\text{tep}}}^2,\cdots , {\boldsymbol{h}}_{{\text{tep}}}^{{T_{{\text{obs}}}}} \right]$， $ {{\boldsymbol{H}}_{{\text{spa}}}} = \left[ {{\boldsymbol{h}}_{{\text{spa}}}^1,{\boldsymbol{h}}_{{\text{spa}}}^2,\cdots, {\boldsymbol{h}}_{{\text{spa}}}^{{T_{{\text{obs}}}}}} \right] $. 将h_tep和h_spa按照时间维度进行融合，表达式为

图 2

图 2 门控特征融合模型架构

Fig.2 Structure of gated fusion model

(15) $ \begin{split} {{\boldsymbol{F}}_{\rm{f}}^t} =\;&{{\boldsymbol{h}}_{{\text{spa}}}^t} \otimes {\text{Gate}}\left[ {{{\boldsymbol{h}}_{{\text{tep}}}^t} \oplus {{\boldsymbol{h}}_{{\text{spa}}}^t}} \right] \oplus \\ \;&{{\boldsymbol{h}}_{{\text{tep}}}^t} \otimes {\text{Gate}}\left[ {({{\boldsymbol{h}}_{{\text{tep}}}^t} \oplus {{\boldsymbol{h}}_{{\text{spa}}}^t}} \right] , \end{split} $

(16) $ {\boldsymbol{F}^t} = {\text{Gate}}\left( {{{\boldsymbol{F}}_{\rm{f}}^t} \oplus {\boldsymbol{F}}^{t - 1}} \right). $

式中： $\otimes $为按元素相乘， $\oplus $为concat操作. Gate(·)函数表达式如下：

(17) $ {\text{Gate}}({\boldsymbol{x}}){\text{ = }}\sigma \left\{ {{\text{ML}}{{\text{P}}_{\text{G}}}\left[ {{\text{Leakyrelu(}}{\boldsymbol{x}}{\text{)}}} \right]} \right\}. $

式中：MLP_G(x)为多层感知机（multilayer perceptron，MLP），MLP_G(x)的具体作用是将输入变量与输出按照 $ {\boldsymbol{x}} \in {{\bf{R}}^{a \times 2b}} \to {\text{ML}}{{\text{P}}_{\text{G}}}({\boldsymbol{x}}) \in {{\bf{R}}^{a \times b}} $方式进行维度变换，实现特征按元素相乘时维度一致；σ与Leakyrelu分别为sigmoid和Leaky Relu激活函数.

在融合结束后，将 $ \left[ {{\boldsymbol{F}}^1,{\boldsymbol{F}}^2,\cdots , {\boldsymbol{F}}^{T_{{\text{obs}}}}} \right] $分割成 $ \left[ {{{\boldsymbol{N}}_{1,t}},{{\boldsymbol{N}}_{2,t}},\cdots , {{\boldsymbol{N}}_{n,t}},\cdots , {{\boldsymbol{N}}_{N,t}}} \right] $，再将 $ {{\boldsymbol{N}}_{n,t}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times d}} $传至LSTM_d,n(·)以生成未来行驶轨迹，表达式为

(18) $ {{\boldsymbol{h}}_{n,t}} = {\text{LST}}{{\text{M}}_{{\text{d}},n}}({{\boldsymbol{h}}_{n,t - 1}},{{\boldsymbol{N}}_{n,t}};{{\boldsymbol{W}}_{\text{d}}}) . $

式中：W_d为图1中循环模块的LSTM可学习参数. 将 $ \left[ {{{\boldsymbol{h}}_{1,{T_{{\text{obs}}}}}},{{\boldsymbol{h}}_{2,{T_{{\text{obs}}}}}},\cdots ,{{\boldsymbol{h}}_{n,{T_{{\text{obs}}}}}},\cdots ,{{\boldsymbol{h}}_{N,{T_{{\text{obs}}}}}}} \right] $传至LSTM_d,n(·)获得 $\left[ {{\boldsymbol{h}}_{1,{T_{{\text{obs}}+1}}}},{{\boldsymbol{h}}_{2,{T_{{\text{obs}}+1}}}},\cdots ,{{\boldsymbol{h}}_{n,{T_{{\text{obs}}+1}}}},\cdots , {{\boldsymbol{h}}_{N,{T_{{\text{obs}}+1}}}} \right]$直至t = T_pre. 最后将LSTM_d,n(·)的结果传输至MLP中，循环生成目标车辆的预测轨迹 $ Y_{{\text{pre}}}^t = \left\{ {s_{{\text{pre}}}^t,l_{{\text{pre}}}^t} \right\} $.

本研究目的是最小化预测轨迹 $ Y_{{\text{pre}}}^t $与真实轨迹 $ Y_{{\text{gro}}}^t $之间的差值，因此采用2-范数描述损失函数，表达式为

(19) $ L = \frac{1}{{{T_{{\text{pre}}}} - {T_{{\text{obs}}}}}}\sum\limits_{t = {T_{{\text{obs}}}}}^{{T_{{\text{pre}}}}} {{{\left\| {Y_{{\text{pre}}}^t - Y_{{\text{gro}}}^t} \right\|}^2}}. $

2. 实验部分

2.1. 数据集以及衡量方式

验证所设计的模型在直线道路、十字路口以及环岛道路场景的性能，其中直线道路对应NGSIM中US-101和I-80子数据集，十字路口对应NGSIM中Peachtree Street和Lankershim Boulevard子数据集，环岛对应INTERACTION Roundabout子数据集. 将每种数据集以0.7∶0.1∶0.2的比例分割为训练集、验证集和测试集. 设置采样频率为5 Hz，每条轨迹被分为8 s的片段，其中3 s用于神经网络理解，5 s用于预测未来轨迹. 环岛每条轨迹被分为4 s的片段，其中1 s用于神经网络理解，3 s用于预测未来轨迹. 须注意的是，在计算空间注意力中，数据集中存在着N不一致的问题. 为了便于批量操作，本研究规定，若目标车辆的周围车辆小于10辆，则补足至10辆，多余的车辆为距离目标车辆−9999 （距离无穷远）的虚拟车辆.

在衡量方式上，为了能够更加直观地描述实验现象，将Frenet坐标系转换回笛卡尔坐标系. 在评估方式上，使用均方根误差（root mean square error， RMSE）来评估模型的性能.

在本研究中，周围车辆选取范围为长度L_x（以目标车辆为中心，前后各L_x/2），宽度为L_y（根据不同的道路，L_y选择为3条车道的宽度）的矩形空间范围. 如图3(a)所示，若有车辆的中心位于目标车辆的空间范围内，则被判定为周围车辆. 在城市十字路口场景下，如图3(b)所示，将驶出道路与驶入道路以圆弧相连，以此建立Frenet坐标系，S轴的方向为车辆前进方向，并将笛卡尔坐标系中L_x长度映射在Frenet坐标系的S坐标上. 如图3(c)环岛场景所示，Frenet S坐标为驶入道路与环岛的连线.

图 3

图 3 不同场景下的空间范围示意图

Fig.3 Schematic diagram of spatial range in different scenarios

2.2. 实施细节

本研究所搭建的模型采用pytorch 1.8.1平台实现，网络设置d = 32，d_v = d_k = 8，设置时间MHA和图MHA中的多头为h = 4，堆叠为2层，循环模块中MLP为2层，隐藏层大小分别为16和8，样本批量设置为64，并对模型训练200个周期. 采用学习率为0.001的Adam优化器. 实验的硬件环境为Win10 操作系统，Intel Core i7-10750H CPU @ 2.60 GHz，内存为32 GB，使用NVIDIA GeForce RTX 2070 GPU进行训练过程神经网络加速.

2.3. 消融实验

周围车辆的数量影响着模型的预测性能，因此在确定相邻车辆的数量时，须选择最合适的长度L. 本研究分别对L=50、55、60、65、70 m 5种情况进行消融实验. 消融实验采用NGSIM高速公路数据集进行训练与验证，其结果如表1所示.表中，RMSE表示均方根误差，t_e表示预测时域. 可以看出，当L固定为60 m时RMSE最低. 因此在下文的实验中将L设置为 60 m. 同样的，在十字路口或圆环道路曲线路段的场景下，将L = 60 m作为Frenet坐标系变换的基础.

表 1 不同长度L对模型预测性能的影响

Tab.1 Effect of different length L on prediction performance

L /m	RMSE
L /m	t_e=1 s	t_e=2 s	t_e=3 s	t_e=4 s	t_e=5 s
50	0.66	1.30	1.95	3.01	4.14
55	0.63	1.27	1.92	2.94	4.05
60	0.56	1.19	1.87	2.84	3.93
65	0.61	1.23	1.92	2.88	4.01
70	0.64	1.26	1.91	2.97	4.07

进一步地，为了研究门控特征融合模块对预测性能的影响，同样采用NGSIM高速公路数据集进行消融实验. 将H_tep与H_spa分别单独传输至解码端的模型记为模型1和模型2；H_tep与H_spa按元素相加的模型记为模型3；搭载门控特征融合模块的模型记为模型4. 实验结果如表2所示，模型1、2缺少时间或空间注意力一部分特征，与模型4相比，两者的预测精度分别降低了10.07%与8.14%，说明缺少任何一维的特征都会使预测精度急剧下降；而将同样输入有时空特征的模型3与模型4相比，模型4精度比模型3的提高了5.98%，说明门控特征融合能够有效提取互补时空特征.

表 2 门控特征融合消融实验

Tab.2 Ablation study of gate fusion model

模型	RMSE
模型	t_e=1 s	t_e=2 s	t_e=3 s	t_e=4 s	t_e=5 s
1	0.75	1.41	2.26	3.21	4.37
2	0.68	1.52	2.31	2.93	4.25
3	0.61	1.38	2.24	3.04	4.18
4	0.56	1.19	1.87	2.84	3.93

2.4. 直线道路实验

将所搭建的模型(TSMHA)与对比模型进行训练与验证. 其中，对比模型如下：Vanilla LSTM (V-LSTM)，V-LSTM 为单输入-单输出模型，未考虑与周围车辆的交互；CS-LSTM^[11]和S-GAN^[12]，两者为考虑车辆交互的深度学习模型；MATF^[25]、STA^[16]、SIT^[1]和PIP^[26]，为注意力机制轨迹预测所提出的最新方法. 对比结果如表3所示.

表 3 高速公路场景不同模型的预测性能对比

Tab.3 Comparison of prediction performance of different models in highway scenario

模型	RMSE
模型	t_e=1 s	t_e=2 s	t_e=3 s	t_e=4 s	t_e=5 s
V-LSTM	0.70	1.79	3.22	4.96	7.04
CS-LSTM	0.61	1.27	2.09	3.10	4.37
S-GAN	0.57	1.32	2.22	3.26	4.40
MATF	0.66	1.34	2.08	2.97	4.13
STA	0.56	1.32	2.03	3.08	4.24
SIT	0.58	1.23	1.99	2.96	4.05
PIP	0.55	1.18	1.94	2.88	4.04
TSMHA	0.56	1.19	1.87	2.84	3.93

直线道路实验使用的为高速公路数据集，由结果可知，与SIT、MATF和PIP等模型相比，本研究提出的TSMHA在短预测时域（1~2 s）的RMSE能与最新方法的较接近，并在中长预测时域（3~5 s）能够得到更低的RMSE. 3 s的中预测时域的结果表明，只有SIT、PIP与TSMHA的RMSE小于2.0；在5 s的预测时域下，只有TSMHA将RMSE控制在4.0以下. 在定量分析结果上，与CS-LSTM和SIT相比，TSMHA的RMSE分别降低了8.70%和2.72%.

如图4(a)、(b)所示为高速公路场景下直行与变道的可视化轨迹图. 可以看出，无论是在直行还是变道，本研究提出的TSMHA均能够精确预测观测场景中目标车辆的运动轨迹.

图 4

图 4 高速公路场景下的轨迹可视化

Fig.4 Trajectory visualization in highway scenario

2.5. 城市十字路口道路实验

城市道路采用与高速公路相同的对比模型. 将城市道路数据集分别放入对比模型与TSMHA中进行训练与验证，结果如表4所示. 可以看出，TSMHA的1~5 s的平均RMSE相对于CS-LSTM与PIP，分别降低了15.64%与5.81%，说明本研究设计的TSMHA能够适应城市道路场景，并作出高精度的预测. 城市道路的预测精度整体不如高速公路的精确度，主要是因为城市道路路况比高速公路复杂，从而导致车辆之间的交互关系也更为复杂.

表 4 城市道路场景下不同模型的预测性能对比

Tab.4 Comparison of prediction performance of different models in urban scenario

模型	RMSE
模型	t_e=1 s	t_e=2 s	t_e=3 s	t_e=4 s	t_e=5 s
V-LSTM	0.81	1.93	4.48	6.20	8.13
CS-LSTM	0.78	1.61	2.67	3.44	4.56
S-GAN	0.75	1.56	3.03	3.58	4.92
MATF	0.82	1.51	2.88	3.15	4.58
STA	0.68	1.53	2.71	3.24	4.66
SIT	0.73	1.45	2.42	3.16	4.35
PIP	0.74	1.32	2.41	3.03	4.27
TSMHA	0.67	1.24	2.29	2.87	4.13

Peachtree Street和Lankershim Boulevard子数据集不仅包括十字路口转向数据段，还包括城市道路中的直行与变道情况，如图5(a)~(c)所示分别展示了车辆在城市道路中直行、左转以及右转的轨迹预测. 可以看出，整体上TSMHA能够较好地预测未来轨迹. 如图5(b)所示为车辆左转的场景，TSMHA预测的未来轨迹与真实轨迹相近. 在转向案例的结果分析过程中，会出现一部分预测轨迹不准确的情况. 例如，如图5(c)所示为车辆右转的场景，相对于真实轨迹，预测轨迹速度更快，且预测轨迹距离真实轨迹横向更远. 造成这种现象的原因，除了TSMHA本身预测的误差，可能存在着其他道路使用者干扰车辆正常行驶的情况，例如行人横穿马路.

图 5

图 5 城市道路场景下的轨迹可视化

Fig.5 Trajectory visualization in urban road scenario

2.6. 环岛实验

为了进一步验证本研究的模型具有处理复杂交通路况的能力，在INTERACTION Roundabout子数据集中进行训练与验证. 如表5所示为本模型与其余对比模型在环岛场景下的比较结果. 可以看出，相对于CS-LSTM与PIP，TSMHA的预测精度分别提高了31.4%与13.7%. 对比高速公路数据集和城市道路数据集，TSMHA在环岛数据集的RMSE有所提高，但性能仍然优于对比模型. 如图6所示为车辆驶入环岛与在环岛中行驶的可视化示意图. 可以看出，无论车辆在预测之前是否已进入环岛，TSMHA都能够较好地预测轨迹.

表 5 环岛道路场景不同模型的预测性能对比

Tab.5 Comparison of prediction performance with different models in roundabout scenario

模型	RMSE
模型	t_e=1 s	t_e=2 s	t_e=3 s
V-LSTM	0.89	2.15	6.42
CS-LSTM	0.83	1.86	3.59
S-GAN	0.78	1.84	3.83
MATF	0.85	2.03	3.85
STA	0.77	1.73	3.24
SIT	0.79	1.76	3.06
PIP	0.83	1.63	2.85
TSMHA	0.75	1.34	2.46

图 6

图 6 环岛场景下的轨迹可视化

Fig.6 Trajectory visualization in roundabout scenario

2.7. 注意力分布分析

注意力权重能够反映一个元素对其他元素的重要程度. 为了进一步分析本研究所提出模型的性能，将时间注意力和空间注意力的最后一层注意力分布可视化，结果如图7(a)、(b)所示. 图中，整数n为时间步长，所对应的时刻为t = T_obs−0.2×n；id表示车辆编号；A_t、A_s分别为时间、空间上的归一化注意力值. 由图7(a)可以看出，距离当前时刻越近，注意力权重越大；距离当前时刻越远，注意力权重越低. 结果说明，未来轨迹取决于当前时刻与过去一段时间内的行驶轨迹. 由图7(b)可以看出，车辆之间距离越近，注意力权重越高. 上述2个结果与真实道路结果一致，说明TSMHA符合真实交通逻辑，并且能够有效地捕获车辆的时间依赖性与车辆之间在空间维度的交互.

图 7

图 7 时间和空间注意力权重示意图

Fig.7 Schematic diagram of temporal and spatial attention weights

3. 结　语

本研究针对注意力机制轨迹预测中出现的时空维度处理不足所造成的预测精度较低的问题，提出基于时空融合的多头注意力车辆轨迹预测模型. 在时间维度上，采用时间多头注意力机制解决时间依赖性；在空间维度上，采用图多头注意力机制处理车辆之间的交互关系. 为了进一步地去除特征融合中的冗余信息，设计了门控特征融合模型以获取互补特征，改善时空特征融合的输出结果. 在NGSIM和INTERACTION上进行训练与验证，结果表明，与现有的主流算法相比，所搭建的TSMHA在高速公路、城市十字路口以及环岛上的预测精度显著提高. 随着轨迹预测模型应用场景的扩大以及深入，在后续工作中可以将其他道路参与者引入预测模型，以及引入高架桥、立交桥、隧道等三维道路场景.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LI X L, XIA J, CHEN X Y, et al

SIT: a spatial interaction-aware transformer-based model for freeway trajectory prediction

[J]. ISPRS International Journal of Geo-Information, 2022, 11 (2): 79- 94

DOI:10.3390/ijgi11020079 [本文引用: 5]

[2]

ELNAGAR A. Prediction of moving objects in dynamic environments using kalman filters [C]// IEEE International Symposium on Computational Intelligence in Robotics and Automation. New York: IEEE, 2001: 414-419.

[3]

季学武, 费聪, 何祥坤, 等

基于 LSTM 网络的驾驶意图识别及车辆轨迹预测

[J]. 中国公路学报, 2019, 32 (6): 34- 42

JI Xue-wu, FEI Cong, HE Xiang-kun, et al

Intention recognition and trajectory prediction for vehicles using LSTM network

[J]. China Journal of Highway and Transport, 2019, 32 (6): 34- 42

[4]

韩皓, 谢天

基于注意力 Seq2Seq 网络的高速公路交织区车辆变道轨迹预测

[J]. 中国公路学报, 2020, 33 (6): 106- 118

HAN Hao, XIE Tian

Lane change trajectory prediction of vehicles in highway interweaving area using Seq2Seq-attention network

[J]. China Journal of Highway and Transport, 2020, 33 (6): 106- 118

[5]

FEI C, HE X K, JI X

Multi-modal vehicle trajectory prediction based on mutual information

[J]. IET Intelligent Transport Systems, 2020, 14 (3): 148- 153

DOI:10.1049/iet-its.2019.0299 [本文引用: 1]

[6]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 961-971.

[7]

XIN L, WANG P, CHAN C, et al. Intention-aware long horizon trajectory prediction of surrounding vehicles using dual LSTM networks [C]// 21st International Conference on Intelligent Transportation Systems. New York: IEEE, 2018: 1441-1446.

[8]

HOU L, XIN L, LE S E, et al

Interactive trajectory prediction of surrounding road users for autonomous driving using structural-LSTM network

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (11): 4615- 4625

DOI:10.1109/TITS.2019.2942089

[9]

KIM B, KANG C M, KIM J, et al. Probabilistic vehicle trajectory prediction over occupancy grid map via recurrent neural network [C]// IEEE 20th International Conference on Intelligent Transportation Systems. New York: IEEE, 2017: 399-404.

[10]

WU Y, CHEN G, LI Z, et al

HSTA: a hierarchical spatio-temporal attention model for trajectory prediction

[J]. IEEE Transactions on Vehicular Technology, 2021, 70 (11): 11295- 11307

DOI:10.1109/TVT.2021.3115018 [本文引用: 1]

[11]

DEO N, TRIVEDI M M. Convolutional social pooling for vehicle trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2018: 1468-1476.

[本文引用: 3]

[12]

MO X Y, XING Y, LV C. Interaction-aware trajectory prediction of connected vehicles using CNN-LSTM networks [C]// 46th Annual Conference of the IEEE-Industrial- Electronics-Society (IECON). New York: IEEE, 2020: 5057-5062.

[13]

MUKHERJEE S, WANG S, WEALLACE A. Interacting vehicle trajectory prediction with convolutional recurrent neural networks [C]// IEEE International Conference on Robotics and Automation. New York: IEEE, 2020: 4336-4342.

[14]

GUPTA A, JOHNSON J, LI F F, et al. Social GAN: socially acceptable trajectories with generative Adversarial networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 2255-2264.

[15]

MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention [C]// 28th Conference on Neural Information Processing Systems. California: NeurIPS, 2014: 2204-2212.

[16]

LIN L, LI W Z, BI H K, et al

Vehicle trajectory prediction using LSTMs with spatial-temporal attention mechanisms

[J]. IEEE Intelligent Transportation Systems Magazine, 2021, 14 (2): 197- 208

[本文引用: 2]

[17]

YANG J, SUN X, WANG R G, et al

PTPGC: pedestrian trajectory prediction by graph attention network with ConvLSTM

[J]. Robotics and Autonomous Systems, 2022, 148: 103931- 103942

DOI:10.1016/j.robot.2021.103931

[18]

YAN J, PENG Z F, YIN H L, et al

Trajectory prediction for intelligent vehicles using spatial-attention mechanism

[J]. IET Intelligent Transport Systems, 2020, 14 (13): 1855- 1863

DOI:10.1049/iet-its.2020.0274

[19]

CHEN X B, ZHANG H J, ZHAO F, et al

Intention-aware vehicle trajectory prediction based on spatial-temporal dynamic attention network for internet of vehicles

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (10): 19471- 19483

DOI:10.1109/TITS.2022.3170551 [本文引用: 1]

[20]

MOHAMED A, QIAN K, ELHOSEINY M, et al. Social-STGCNN: a social spatio-temporal graph convolutional neural network for human trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2020: 14412-14420.

[21]

YAN S, XIONG Y, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition [C]// AAAI Conference on Artificial Intelligence. California: AAAI, 2018, 32(1): 7444-7452.

[22]

XUE H, HUYNH D Q, REYNOLDS M

A location-velocity-temporal attention LSTM model for pedestrian trajectory prediction

[J]. IEEE ACCESS, 2020, 8: 44576- 44589

DOI:10.1109/ACCESS.2020.2977747 [本文引用: 1]

[23]

MESSAOUD K, YAHIAOUI I, VERROUST-BLONDET A, et al

Attention based vehicle trajectory prediction

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6 (1): 175- 185

DOI:10.1109/TIV.2020.2991952 [本文引用: 2]

[24]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// 31st Conference on Neural Information Processing Systems. California: NeurIPS, 2017: 5998-6008.

[25]

ZHAO T, XU Y, MONFORT M, et al. Multi-agent tensor fusion for contextual trajectory prediction [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 12118-12126.

[26]

SONG H, DING W, CHEN Y, et al. PIP: planning-informed trajectory prediction for autonomous driving [C]// 2020 European Conference on Computer Vision (ECCV 2020). Glasgow: ECCV, 2020: 598-614.