<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 模型总体架构

Fig.1 Overall architecture of model

2.3. 时空图表示

在轨迹预测问题中，假设当任意2个距离小于$d$的行人之间形成一个无向边$(i,j)$时，就会在每个时刻$t$形成一个时空图${G_t} = ({V_t},{E_t})$，其中V_t为顶点集，$ {V_t} = \{ V_t^i\} = \{ (x_t^i,y_t^i)| \;\;i \in \{ 1, \cdots ,L\} \} $，E_t为边集，$ {E_t} = \{ e_t^{ij}|\; i,j \in \{ 1, \cdots ,L\} \} $，如果$V_t^i$和$V_t^j$连接，则$e_t^{ij} = 1$，否则$e_t^{ij} = 0$. 图${G_t}$对应的邻接矩阵${{\boldsymbol{A}}_t}$可以使用$L \times L$矩阵表示.

为了更准确地模拟行人之间的相互影响，采用逆欧氏距离来定义邻接矩阵${{\boldsymbol{A}}_t}$. 逆欧氏距离的定义反映了行人之间的相互影响关系，即行人之间距离越近，相互影响程度越大，连接权重也越高. 相比之下，传统方法是使用$ {{{L}}_{\text{2}}} $范数来衡量行人之间的距离，但采用这种方法行人更容易受到远处行人的影响. 因此，采用逆欧氏距离更符合行人之间的真实关系，有助于提高模型的性能. L₂范数和逆欧氏距离的表达式分别如下：

(1)$ {A}_{{L}_2}^{ij}=\left\{\begin{array}{ll}\left\|V_t^i-V_t^j\right\|_2, & \left\|V_t^i-V_t^j\right\|_2 \neq 0; \\0, & {\text { 其他. }}\end{array}\right. $

(2)$ {A}_t^{i j}=\left\{\begin{array}{ll}{1}\Big/{\left\|V_t^i-V_t^j\right\|_2}, & \left\|V_t^i-V_t^j\right\|_2 \neq 0; \\0, & {\text { 其他. }}\end{array}\right. $

式中：${\left\| {V_t^i - V_t^j} \right\|_2}$表示$t$时刻相邻2个行人$ i $和$ j $之间的欧氏距离.

2.4. 轨迹编码器模块

2.4.1. 时空注意机制

为了捕捉行人的动态时空相关性，提出新的时空注意力机制，这一机制在空间和时间维度上均采用了注意力机制，以便模型能够自动关注有价值的信息并赋予其更高的权重.

在空间维度上使用注意力机制，这种机制允许模型聚焦于行人在不同的空间位置上的信息. 在行人轨迹预测任务中，考虑行人与其他行人、障碍物或道路结构之间的关系至关重要. 通过空间注意力可以使得模型具有对行人未来位置的预测能力. 此外，这一机制还有助于应对拥挤场景，减少行人之间的碰撞风险，提高行人轨迹预测的安全性. 总的来说，通过空间注意力机制可以更有针对性地关注与当前行人位置相关的其他行人及因素.

空间注意力的表达式如下：

(3)$ {\boldsymbol{S}} = {{\boldsymbol{V}}_{\mathrm{s}}} \sigma \{ ({\boldsymbol{X}} \cdot {{\boldsymbol{W}}_1}) {{\boldsymbol{W}}_2} {({{\boldsymbol{W}}_3} {\boldsymbol{X}})^{\mathrm{T}}}+{{\boldsymbol{b}}_{\mathrm{s}}}\}, $

(4)$ {S}_{i j}^{\prime}=\operatorname{softmax}_j\;\left({S}_{i j}\right)=\frac{\exp \;\left({S}_{i j}\right)}{\sum_{j=1}^{L} \exp\; \left({S}_{i j}\right)}, $

(5)$ {{\boldsymbol{X}}_{\rm{s}}} = {\boldsymbol{X}}{{\boldsymbol{S}}^{'}}. $

式中：${\boldsymbol{X}}$表示输入数据，${\boldsymbol{X}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}}$，其中$C$为数据输入的通道大小；$ {\boldsymbol{V}}_{{\mathrm{s}}}\in {\bf{R}}^{L\times L} ,\;{{\boldsymbol{b}}_{\mathrm{s}}} \in {{\bf{R}}^{L \times L}},\; {{\boldsymbol{W}}_1} \in {{\bf{R}}^{{T_{{\text{obs}}}}}},\;{{\boldsymbol{W}}_2} \in $$ {{\bf{R}}^{C \times {T_{{\text{obs}}}}}}$，$ {{\boldsymbol{W}}_3} \in {{\bf{R}}^C} $均为可学习的参数；$\sigma $为激活函数；${\boldsymbol{S}}$为根据当前输入动态计算的注意力矩阵；${{{S}}_{ij}}$为节点$i$和节点$j$之间的相关强度，${{{S}}_{ij}} $为S中的元素；${{{S}}'_{ij}}$为${{{S}}_{ij}}$通过softmax函数得到一个归一化值，${{S}}_{ij}' $为S'中的元素，最终得到的空间注意力矩阵${{\boldsymbol{X}}_{\mathrm{s}}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}}$.

在时间维度上使用注意力机制，可以允许模型在处理序列数据时关注不同时间步长上的信息，这对于行人轨迹预测非常重要，因为行人的移动是一个动态的过程，其速度和方向在不同时间点可能会有所不同. 时间注意力机制可以根据不同的时间帧动态调整对过去时间帧的关注程度，使越接近当前时刻的轨迹对预测结果的影响越大.

时间注意力的表达式如下：

(6)$ {\boldsymbol{D}} = {{\boldsymbol{V}}_{\rm{d}}} \sigma \{ ({{\boldsymbol{X}}^{\mathrm{T}}} {{\boldsymbol{U}}_1}) {{\boldsymbol{U}}_2} ({\boldsymbol{X}} {{\boldsymbol{U}}_3})+{{\boldsymbol{b}}_{\rm{d}}}\}, $

(7)$ {{D}}_{ij}^{'} = {{{\mathrm{softmax}}} _{{j}}}\;({{{D}}_{ij}}) = \frac{{\exp\; ({{{D}}_{ij}})}}{{\sum\limits_{j = 1}^{ {T_{{\text{obs}}}}} {\exp \;({{{D}}_{ij}})} }}, $

(8)$ {{\boldsymbol{X}}_{\rm{d}}} = {\boldsymbol{X}}{{\boldsymbol{D}}^{'}} . $

式中：${\boldsymbol{X}}$表示输入数据，${\boldsymbol{X}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}};\;{{\boldsymbol{V}}_{\rm{d}}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times {T_{{\text{obs}}}}}}$，${{\boldsymbol{b}}_{\rm{d}}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times {T_{{\text{obs}}}}}}$，${{\boldsymbol{U}}_1} \in {{\bf{R}}^L}$，${{\boldsymbol{U}}_2} \in {{\bf{R}}^{C \times L}}$，${{\boldsymbol{U}}_3} \in {{\bf{R}}^C}$均为可学习的参数；$\sigma $为激活函数；${{D}}_{ij}^{'}$表示节点$i$和节点$j$之间的依赖关系强度，${{D}}'_{ij} 为 {{{{\boldsymbol{D}}}}'}$中的元素；${{D}}'_{ij} $为${{{D}}_{ij}}$通过softmax函数得到的归一化值，${{D}}'_{ij} 为 {{{{\boldsymbol{D}}}}'}$中的元素，最终得到时间注意力矩阵$ {{\boldsymbol{X}}}_{\rm{d}}\in {\bf{R}}^{L\times C\times {T}_{\text{obs}}} $.

通过同时考虑空间和时间的注意力权重，它能够更全面地捕捉行人轨迹数据的动态变化和相关性，进而提高模型的学习能力，在处理时序数据方面具有较大的优势.

2.4.2. STGCN

本研究所提出的时空注意机制可从行人轨迹的时空图表示中提取空间和时间依赖性特征，并通过时空图卷积对其进行进一步提取特征. 如图2所示展示了时空图卷积的过程，首先在空间维度上执行图卷积操作（即GCN，见图2（a）），GCN旨在进一步捕获节点之间的空间依赖性.

图 2

图 2 时空图卷积结构图

Fig.2 Convolutional structure chart of spatial-temporal graph

(9)$ \hat{\boldsymbol{ A}} = {{\boldsymbol{\varLambda }}^{ - {1}/{2}}}({\boldsymbol{A}}+{\boldsymbol{I}}){{\boldsymbol{\varLambda }}^{ - {1}/{2}}}, $

(10)$ f({\boldsymbol{V}},{\boldsymbol{A}}) = \sigma (\hat{\boldsymbol{ A}} {\boldsymbol{V}} {\boldsymbol{W}}). $

式中：${\boldsymbol{I}}$为单位矩阵；${\boldsymbol{A}}$为邻接矩阵，${\boldsymbol{A}} = \left\{ {{\boldsymbol{A}}_1}, \cdots ,\right. \left.{{\boldsymbol{A}}_{\boldsymbol{t}}} \right\}$；${{\boldsymbol{\varLambda }}^{ - \frac{1}{2}}}$为对角矩阵；${\boldsymbol{W}}$为可训练参数的矩阵；${\boldsymbol{V}}$为特征向量.

在进行GCN计算时，对邻接矩阵进行归一化处理是至关重要的，因此本研究使用式(9)对邻接矩阵${\boldsymbol{A}}$进行对称归一化处理. 接着，如式(10)所示，邻接矩阵$\hat{\boldsymbol{ A}}$会和特征矩阵${\boldsymbol{V}}$结合在一起动态调整节点之间的权重. 在时间维度上，使用时间卷积操作（即TCN，见图2（b））将空间维度的特征映射到时间维度上. 通过时空图卷积操作，可以进一步提高模型的性能.

2.5. 轨迹解码器模块

解码器模块的任务是利用编码器模块提取的特征来预测未来轨迹. 相比于递归神经网络，TXPCNN通过在特征空间上进行卷积运算实现时间外推，从而解决参数过多的问题，并且，其被认为是更高效地学习时间依赖关系的方法. 具体而言，解码器模块由6层TXPCNN构成，TXPCNN是在时域维度上进行卷积操作. 第1层TXPCNN用于调整维度；中间4层TXPCNN用于进一步提取时域特征，此外每个TXPCNN层都与前一层进行残差连接，以增强网络容量和表示能力；最后1层TXPCNN输出概率分布的结果，用于预测未来轨迹.

2.6. GAT

在轨迹采样模块中采用GAT模块来提取特征. GAT的核心工作原理是利用注意力机制来计算节点之间的关系. 在传统神经网络中，每个节点的状态更新是独立进行的，而在GAT中，每个节点的状态更新会考虑到其邻居节点的状态. GAT会计算节点与其邻居节点之间的注意力权重，然后根据这些权重来更新节点的状态. 这种计算权重并更新信息的方式使得GAT能够更好地捕捉图中的结构信息. GAT采用类似于Transformer的自注意力机制，由堆叠在一起的图注意力层构成. 每个图注意力层接收节点嵌入作为输入，并输出转换后的嵌入，使得节点嵌入可以关注到其连接的其他节点的嵌入. 如图3所示为图注意力网络结构图，图中，GAT采用了Multi-Head Attention，使用虚线、实线、点线、虚点线表示4个不同的Head. 在不同的Head下，节点$ {{\boldsymbol{h}}_1} $可以学习到不同的embedding，然后将这些embedding进行拼接或取平均值生成$ {\boldsymbol{h}}_1^{'} $. 这样做的好处是，每个注意力头可以关注到不同的特征，从而使得GAT能够捕捉到更多的信息.

图 3

图 3 图注意力网络结构图

Fig.3 Structure chart of graph attention network

2.7. 轨迹采样模块

在轨迹采样模块中，引入目的抽样网络代替传统的随机抽样方法. 传统的随机抽样方法存在随机性，可能导致生成的轨迹分布有偏差，无法涵盖所有模态. 相比之下，目的抽样网络是一种可学习方法，它利用过去轨迹信息进行目的抽样，从而在样本空间中生成均匀分布的轨迹，能够包含所有可能的模态. 如图1中的Sampling所示，该模块的输入是以时空图表示的轨迹信息. 首先，它使用GAT来捕捉行人之间的社会关系并聚合邻居特征，在经过GAT提取特征后，通过多层MLP为每个行人在$1:{T_{{\text{pred}}}}$时间内生成$N$条轨迹$ {\hat Y}_l = \left\{ { {\hat {\boldsymbol{Y}}}_{l,1} , \cdots ,{\hat {\boldsymbol{Y}}}_{l,N} } \right\}$，其中$l = {1, \cdots ,L} $. 这一方法明显提高了轨迹预测的准确性，为行人轨迹预测研究提供了新的思路和方法.

2.8. 损失函数

使用2种不同的损失函数来联合优化模型的性能. 首先，对于每位行人$l$，$ {{L}_1} $可以计算其生成的所有$N$条轨迹与ground-truth之间的${{{L}}_{2}}$距离，并选择距离最小的一条轨迹用于模型的训练. 其次，为了避免所有$N$条预测的轨迹都接近它对应的ground-truth，引入差异损失${{L}_2}$. ${{L}_2}$的目标是要求预测的$N$条轨迹的最近邻之间的距离最大，如果距离更近，则将施加更高的惩罚，以确保对采样空间的覆盖更加均匀. 具体表达式如下：

(11)$ {{\mathrm{Loss}}} = {{L}_1}+\lambda {{L}_2}, $

(12)$ {{L}_1} = \frac{1}{L}\sum\limits_{l = 1}^L {\mathop {\min }\limits_{n \in \{1, \cdots ,N\}} } \left\| {\hat {\boldsymbol{Y}}_{l,n}^{1:{T_{{\text{pred}}}}} - {\boldsymbol{Y}}_l^{1:{T_{{\text{pred}}}}}} \right\|, $

(13)$ {{L}_2=\dfrac{1}{L N} \displaystyle\sum_{l=1}^L \displaystyle\sum_{i=1}^N-\log\; \min _{\substack{j \in\{1, \cdots, N\}, \\ j \neq i}}\left\|\hat {\boldsymbol{Y}}_{l,i}^{1:{T_{{\text{pred}}}}}-\hat {\boldsymbol{Y}}_{l,j}^{1:{T_{{\text{pred}}}}}\right\|.} $

式中：$\lambda = 0.01$，$N = 20$， $\hat {\boldsymbol{Y}}_{l,n}^{1:{T_{{\text{pred}}}}}$为第$l$位行人在$1:{T_{{\text{pred}}}}$时间内预测的第$n$条轨迹，${\boldsymbol{Y}}_l^{1:{T_{{\text{pred}}}}}$为第$l$位行人在$1:{T_{{\text{pred}}}}$时间内真实的轨迹，$\hat {\boldsymbol{Y}}_{l,i}^{1:{T_{{\text{pred}}}}}$和$\hat {\boldsymbol{Y}}_{l,j}^{1:{T_{{\text{pred}}}}}$为第$l$位行人预测的第$i$条和第$j$条轨迹.

3. 实　验

3.1. 数据集

为了验证本研究方法的有效性，使用3个真实世界的数据集：ETH、UCY和斯坦福无人机数据集(SDD). ETH/UCY数据集为行人轨迹预测邻域的经典基准，其中ETH数据集包含ETH和HOTEL共2个场景，UCY数据集包含ZARA1、ZARA2和UNIV共3个场景. 这些数据集包含了上千条真实的行人轨迹，展现了多种多样的行人交互情况. 在ETH/UCY数据集中，轨迹坐标以m为单位进行计算，并采用留一法交叉验证^[8]，将数据集分成5个子集，每次使用4个子集进行训练和验证，1个子集用于测试. 此外，为了验证所提方法在各种场景下的适用性，还在包含大量不同场景的SDD数据集上进行了实验. SDD数据集是行人轨迹预测领域提出的第1个大规模数据集，由无人机从鸟瞰图的角度捕获了大学校园的几个大区域，它被分成60个记录，展示了复杂的行人动态和与周围环境的强烈互动. 在该数据集中，轨迹坐标以像素为单位进行计算，并采用与NPSN^[11]方法相同的数据分割方式.

3.2. 实验设置

本研究模型在PyTorch框架下构建，并使用2张2080TI GPU对其训练. 在评估过程中，该模型观察前8帧（3.2 s）的轨迹，并预测接下来12帧（4.8 s）的轨迹. 在模型参数设置方面，本研究使用AdamW优化器对模型进行优化，batch size为512，学习率为0.001，训练250个epoch. 式(10)中的$\sigma $激活函数采用PRelu，轨迹采样模块中的GAT使用LeakyRelu作为激活函数. 本研究采用与Social-STGCNN相同的设置，即使用1层STGCN、6层TPCNN. 由于GAT中存在多头注意力机制，为了优化模型的性能，对GAT不同头数进行消融实验.

3.3. 评价指标

采用ADE和FDE这2个指标来评估模型的性能. 其中，ADE用于衡量所有被测行人在每个时刻的预测轨迹与真实轨迹之间的平均距离，而FDE则只关注所有被测行人在最后时刻的预测轨迹与真实轨迹之间的最终位移距离. 2个指标的值越小，表明模型预测效果越好. 这2个指标的定义如下：

(14)${\mathrm{ADE}} = \dfrac{1}{LT_{{\mathrm{pred}}}}{{{{\displaystyle\sum_{l = 1}^L {\displaystyle\sum_{t = 1}^{T_{{\rm{pred}}} } {\left\| { {\hat {\boldsymbol{Y}}_l^t } - {{\boldsymbol{Y}}_l^t} } \right\|_2} } }}}}, $

(15)$ {\mathrm{FDE}} = \dfrac{1}{L}{{\displaystyle\sum_{l = 1}^L {{{\left\| { {\hat {\boldsymbol{Y}}_l^t } - \mathop {\boldsymbol{Y}}\nolimits_l^t } \right\|}_2}} }};\;t = \mathop T\nolimits_{{\rm{pred}}} . $

式中：${T_{{\text{pred}}}}$为最后的时刻，$ {\hat {\boldsymbol{Y}}_l^t }$为预测的轨迹，$ {{\boldsymbol{Y}}_l^t }$为真实的轨迹.

3.4. 实验结果与对比

部分近4 a效果较优的模型如下.

PITF^[16]：利用人的行为模块和人的交互模块，将丰富的视觉语义编码为特征.

STGAT^[17]：在对行人运动进行建模的背景下，将GAT与LSTM结合起来的首次尝试.

BIGAT^[14]：基于GAN的方法，利用GAT和图像上的self-attention来考虑场景的社交和物理特征.

Social-STGCNN^[7]：先由STGCN提取特征，然后通过TXPCNN来预测未来的轨迹.

PECNET^[15]：提出符合社会标准以端点为条件的变分自动编码器，以及结合自注意力机制的社交池层.

STAR^[18]：在2个编码块中交叉使用空间Transformer和时间Transformer提取时空行人依赖关系，同时还使用外部可读可写图形存储模块.

AGENTFORMER^[19]：设计了一种独特的agent-ware注意力，同时采用时间编码减少时间损失.

SGCN^[8]：提出新的稀疏图卷积网络，它将稀疏有向交互和运动趋势相结合.

SIT^[20]：提出简单而有效的基于树的方法，首先构建粗轨迹树，然后采用由粗到细的策略获得最终的多模态未来轨迹.

NPSN^[11]：提出非概率抽样网络，利用行人过去的路径和社会互动产生样本序列.

Graph-TERN^[21]：提出通过预测的一组控制点确定行人的最终目的地，接着通过轨迹优化进一步提升路径预测的准确性.

3.4.1. 模型性能对比

采用ADE和FDE指标对模型的性能进行评估. 如表1、2所示为本研究模型和其他模型在ETH、UCY和SDD数据集上的性能对比，表中模型均预测20条轨迹，并选择其中误差最小的一条进行评估. 最佳结果在表中使用加粗标注，次优结果使用下划线标注.

表 1 ETH和UCY数据集上的结果（ADE/FDE）对比表

Tab.1 Comparison of results (ADE/FDE) on ETH and UCY datasets

模型	年份	ADE/FDE
模型	年份	ETH	HOTEL	UNIV	ZARA1	ZARA2	平均值
PITF^[16]	2019	0.73/1.65	0.30/0.59	0.60/1.27	0.38/0.81	0.31/0.68	0.46/1.00
STGAT^[17]	2019	0.50/0.84	0.26/0.46	0.51/1.07	0.33/0.64	0.30/0.61	0.38/0.72
BIGAT^[14]	2019	0.69/1.29	0.49/1.01	0.55/1.32	0.30/0.62	0.36/0.75	0.48/1.00
Social-STGCNN^[7]	2020	0.64/1.11	0.49/0.85	0.44/0.79	0.34/0.53	0.30/0.48	0.44/0.75
PECNET^[15]	2020	0.54/0.87	0.18/0.24	0.35/0.60	0.22/0.39	0.17/0.30	0.29/0.48
STAR^[18]	2020	0.36/0.65	0.17/0.36	0.31/0.62	0.26/0.55	0.22/0.46	0.26/0.53
SGCN^[8]	2021	0.63/1.03	0.32/0.55	0.37/0.70	0.29/0.53	0.25/0.45	0.37/0.65
AGENTFORMER^[19]	2021	0.45/0.75	0.14/0.22	0.25/0.45	0.18/0.30	0.14/0.24	0.23/0.39
SIT^[20]	2022	0.42/0.60	0.21/0.37	0.51/0.94	0.20/0.34	0.17/0.30	0.30/0.51
Social-STGCNN+NPSN^[11]	2022	0.44/0.65	0.21/0.34	0.27/0.44	0.24/0.43	0.21/0.37	0.28/0.44
SGCN+NPSN^[11]	2022	0.35/0.58	0.15/0.25	0.22/0.39	0.18/0.31	0.13/0.24	0.21/0.36
Graph-TERN^[21]	2023	0.42/0.58	0.14/0.23	0.26/0.45	0.21/0.37	0.17/0.29	0.24/0.38
本研究模型	—	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38

如表1所示展示了本研究模型在ETH/UCY数据集上的性能. 实验结果表明，本研究模型的整体性能（AVG）处于第2优. 与AGENTFORMER相比，本研究模型在ADE和FDE上分别降低4.0%和2.5%，与Social-STGCNN+NPSN模型相比，本研究模型在ADE指标上降低了21.0%，在FDE指标上降低了15.0%. 与SGCN+NPSN模型相比，本研究模型在ADE指标和FDE指标上有所提升，但是本研究模型在模型参数量方面减少1.65×10⁴，并且推理时间也减少0.147 s. 如表2所示为本研究模型在SDD数据集上的性能对比结果. 实验结果表明，本研究模型的性能明显优于SGCN、Social-STGCNN+NPSN、SGCN+NPSN等模型；但是与Graph-TERN模型相比，本研究模型在ADE和FDE指标上有所提升，这是因为Graph-TERN模型首先通过预测一组控制点来确定最终目的地，然后通过模型优化轨迹，从而显著提高模型的预测精度.

表 2 SDD数据集上的结果对比

Tab.2 Comparison of results on SDD dataset

模型	年份	ADE	FDE
STGAT^[17]	2019	18.80	31.30
Social-STGCNN^[7]	2020	20.76	33.18
PECNET^[15]	2020	9.96	15.88
SGCN^[8]	2021	11.67	19.10
Social-STGCNN+NPSN	2022	11.80	18.43
SGCN+NPSN^[11]	2022	17.12	28.97
Graph-TERN^[21]	2023	8.43	14.26
本研究模型	—	9.16	15.21

针对不同数据集体现出的各自的优越性，发现采用NPSN方法实现的轨迹采样，能更好地反映行人之间的复杂性和不确定性，提高预测的准确性和鲁棒性. 其次，为了解决行人前后帧之间的时空相关性，将时间注意力和空间注意力结合在一起，以提取有价值的信息并降低无价值信息的影响. 此外，通过改进邻接矩阵的计算方式，也可以有效地提取行人之间的信息，进一步提升模型的性能. 这些是未来改进的方向之一.

3.4.2. 模型参数和推理速度对比

为了评估本研究模型的效率，与PITF、PECNET、Social-STGCNN、SGCN、SGCN+NPSN、Graph-TERN方法在参数量M和推理时间t上进行比较，并且也列出本研究模型各个模块的参数量，实验结果如表3所示. 相较于SGCN方法，本研究模型参数减少1.11×10⁴，推理时间减少0.0267 s；相较于SGCN+NPSN方法，本研究模型参数减少1.65×10⁴，推理时间减少0.147 s；相较于PECNET方法，本研究模型在参数上减少7.1×10³；与Graph-TERN方法相比，本研究模型在推理时间相近的情况下，参数量减少了3.46×10⁴. 本研究模型相较于Social-STGCNN方法的参数量和推理时间都有所增加，这是因为本研究方法在Social-STGCNN基础上增加了双重注意机制和目的抽样网络，从而导致推理时间也会相应增加.

表 3 模型参数和推理时间对比表

Tab.3 Comparison of model parameters and inference time

模型	M/10³	t/s
PITF^[16]	360.0	0.1145
PECNET^[15]	21.0	0.1376
Social-STGCNN^[7]	7.6	0.0020
SGCN^[8]	25.0	0.1146
SGCN+NPSN^[11]	30.4	0.2349
Graph-TERN^[21]	48.5	0.0945
TAtt+SAtt	1.1	—
STGCN+6层TXPCNN	7.7	—
Sampling	5.1	—
本研究模型	13.9	0.0879

3.5. 消融研究

为了验证本研究方法的有效性，进行了一系列消融实验，分别在ETH、UCY和SDD数据集上对每个子模块的效果进行评估，同时保持其他模块的设置与最终模型一致.

实验结果如表4所示. 表中，下划线表示对最终模型使用的配置的标注. 去除任何一个组件都会导致行人轨迹预测性能的降低. 特别是，本研究使用的目的采样(purpose)模型，在ETH和UCY数据集上相比于使用随机采样模型(random)的ADE指标下降0.21，FDE指标下降0.34；在SDD数据集上，ADE和FDE指标分别下降0.14和0.37，验证了目的采样网络对行人轨迹预测性能的重要贡献. 此外，还对轨迹采样中GAT的多头注意力及其头数进行消融实验，结果表明在Multi-head为4时整体性能最佳，进一步验证了轨迹抽样模块的重要性. 其次，加权邻接矩阵给不同行人之间的连接赋予不同的权重，它可以反映出行人之间的相对距离和关系强度，从而更准确地描述行人之间的互动. 本研究分别使用式(1)中的${L_2}$范数和式(2)中的逆欧氏距离进行消融实验，实验结果表明，使用逆欧氏距离获得的加权邻接矩阵与使用${L_2}$范数相比，在ETH和UCY数据集中，ADE和FDE指标分别下降0.02和0.03；在SDD数据集中，ADE和FDE指标分别下降0.02和0.04. 在注意力的消融实验中，设置了4个不同的变体：去除双重注意力机制（w/o）、仅空间注意力（SAtt）、仅时间注意力(TAtt)以及时间注意力和空间注意力结合（SAtt+TAtt），实验结果表明两者结合效果最优，验证了其对行人轨迹预测的影响. 最后，分别对损失函数${{L}_1}$、${{L}_2}$和${{L}_1}+{{L}_2}$进行消融实验，并可视化出对应的Loss收敛曲线，如图4所示. 实验结果表明，当损失函数为${{L}_1}+{{L}_2}$时，模型效果最佳.

表 4 本研究模型在不同组件下的消融实验结果（ADE/FDE）

Tab.4 Ablation experiment results (ADE/FDE) of propsed model in different components

组件	变体	ADE/FDE						SDD
组件	变体	ETH	HOTEL	UNIV	ZARA1	ZARA2	平均值	SDD
Attention	w/o	0.43/0.70	0.21/0.36	0.28/0.46	0.24/0.42	0.20/0.35	0.27/0.45	9.28/15.35
	SAtt	0.40/0.68	0.19/0.35	0.23/0.40	0.19/0.35	0.14/0.27	0.23/0.41	9.20/15.28
	TAtt	0.37/0.63	0.19/0.33	0.22/0.39	0.19/0.34	0.14/0.27	0.24/0.39	9.18/15.25
	TAtt+SAtt	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38	9.16/15.21
WeightA	w/o	0.41/0.67	0.21/0.37	0.25/0.43	0.24/0.38	0.18/0.29	0.26/0.42	9.23/15.30
	${{A}_{{L_2}}}$	0.39/0.65	0.19/0.36	0.25/0.41	0.21/0.36	0.15/0.27	0.24/0.41	9.18/15.25
	${\underline { A_t }} $	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38	9.16/15.21
Sampling	random	0.62/1.10	0.42/0.64	0.47/0.85	0.34/0.50	0.30/0.49	0.43/0.71	9.30/15.58
Sampling	$\underline{{\rm{purpose}}}$	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38	9.16/15.21
Multi-head	w/o	0.41/0.67	0.17/0.30	0.23/0.39	0.19/0.34	0.14/0.25	0.23/0.39	9.20/15.25
	2	0.36/0.60	0.18/0.33	0.23/0.39	0.19/0.35	0.14/0.26	0.22/0.39	9.18/15.24
	$\underline 4$	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38	9.16/15.21
	6	0.44/0.76	0.17/0.30	0.23/0.41	0.19/0.35	0.15/0.28	0.24/0.42	9.19/15.23
	8	0.39/0.63	0.16/0.28	0.23/0.40	0.19/0.35	0.15/0.27	0.22/0.39	9.17/15.23
Loss	${{L}_1}$	0.40/0.67	0.19/0.37	0.28/0.40	0.21/0.37	0.20/0.30	0.25/0.42	9.18/15.27
	${{L}_2}$	0.39/0.65	0.20/0.36	0.24/0.43	0.23/0.35	0.17/0.27	0.24/0.41	9.17/15.25
	$ \underline{ {{L}}_1 + {{L}}_2 } $	0.37/0.60	0.17/0.30	0.23/0.39	0.19/0.33	0.14/0.26	0.22/0.38	9.16/15.21

图 4

图 4 不同损失函数在消融实验中的收敛曲线比较

Fig.4 Convergence curve comparison of different loss functions in ablation experiments

3.6. 可视化

如图5所示展示了在ETH和UCY数据集中5个真实场景下部分轨迹预测的可视化结果.图中，红实线是历史轨迹，蓝实线是真实轨迹，绿虚线是预测轨迹，阴影区域是模型预测出来的概率分布结果. 通过比较预测轨迹和概率分布图，可以明显看出本研究的模型相比于Social-STGCNN和SCN模型预测的轨迹更加接近真实轨迹. 在ETH和HOTEL场景中，人群相对稀疏，行人通常只在某个方向行走，各个模型都能相对准确地预测这种情况，但本研究模型的预测结果最准确. 在UNIV场景下，人群相对密集，行人之间也会有相对较多的交互. 在这种情况下，行人的轨迹受到周围行人影响较大，由图5可以看出，Social-STGCNN和SGCN模型预测的轨迹方向存在偏差，而本研究模型采用的目的抽样方法能够有效解决这个问题，其预测的轨迹分布更贴近真实轨迹. ZARA1和ZARA2是同一场景下采集的数据，区别在于ZARA2比ZARA1的行人数量多. 在ZARA1场景中，行人沿不同方向行走，本研究模型预测的轨迹更符合实际情况，也更接近真实的轨迹. 在ZARA2场景中，可以观察到图中两人有密切的交互，本研究模型能够更好地提取这一特征，并预测出更准确的轨迹，而Social-STGCNN和SGCN会预测出相反的轨迹. 综上所述，传统的行人轨迹预测模型在行人稀疏的情况下表现较好，但在行人密集、多位行人存在空间交互的情况下效果不佳. 然而，本研究的模型将时间注意力和空间注意力结合，有效提取了时空相关性，从而能够较好地解决这一问题.

图 5

图 5 轨迹可视化

Fig.5 Trajectory visualization

4. 结　语

本研究提出基于双重注意力的时空图卷积网络与目的抽样网络相结合的行人轨迹预测模型，该模型能较好地考虑行人之间的时空相关性. 同时，本研究通过引入可学习的轨迹采样网络，解决了采样分布不均匀的问题. 大量实验表明，本研究模型在ETH、UCY和SDD数据集上的性能优于当前最先进的方法. 此外，通过可视结果也可以看出，本研究模型预测的轨迹更接近于真实轨迹. 未来考虑在编码器模块中使用更高效的GCN来提取特征，进一步提高模型的性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LUO Y, CAI P, BERA A, et al

Porca: modeling and planning for autonomous driving among many pedestrians

[J]. IEEE Robotics and Automation Letters, 2018, 3 (4): 3418- 3425

DOI:10.1109/LRA.2018.2852793 [本文引用: 1]

[2]

RUDENKO A, PALMIERI L, HERMAN M, et al

Human motion trajectory prediction: a survey

[J]. The International Journal of Robotics Research, 2020, 39 (8): 895- 935

DOI:10.1177/0278364920917446 [本文引用: 1]

[3]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE , 2016: 961–971.

[4]

XUE H, HUYNH D Q, REYNOLDS M. SS-LSTM: a hierarchical LSTM model for pedestrian trajectory prediction [C]// 2018 IEEE Winter Conference on Applications of Computer Vision (WACV) . Lake Tahoe: IEEE, 2018: 1186–1194.

[5]

ZHANG P, OUYANG W L, ZHANG P F, et al. SR-LSTM: state refinement for LSTM towards pedestrian trajectory prediction [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 12085–12094.

[6]

孔玮, 刘云, 李辉, 等

基于图卷积网络的行为识别方法综述

[J]. 控制与决策, 2021, 36 (7): 1537- 1546

KONG Wei, LIU Yun, LI Hui, et al

A survey of action recognition methods based on graph convolutional network

[J]. Control and Decision, 2021, 36 (7): 1537- 1546

[7]

MOHAMED A, QIAN K, ELHOSEINY M, et al. Social-STGCNN: a social spatio-temporal graph convolutional neural network for human trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 14424–14432.

[本文引用: 4]

[8]

SHI L, WANG L, LONG C, et al. SGCN: sparse graph convolution network for pedestrian trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 8994–9003.

[本文引用: 6]

[9]

WU Z, PAN S, CHEN F, et al

A comprehensive survey on graph neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32 (1): 4- 24

[10]

GUPTA A, JOHNSON J, FEI-FEI L, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake: IEEE, 2018: 2255–2264.

[11]

BAE I, PARK J H, JEON H G. Non-probability sampling network for stochastic human trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 6477–6487.

[本文引用: 9]

[12]

MA Y J, INALA J P, JAYARAMAN D, et al. Likelihood-based diverse sampling for trajectory forecasting [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 13279–13288.

[13]

VEMULA A, MUELLING K, OH J. Social attention: modeling attention in human crowds [C]// 2018 IEEE International Conference on Robotics and Automation . Brisbane: IEEE, 2018: 4601–4607.

[14]

KOSARAJU V, SADEGHIAN A, MARTÍN-MARTÍN R, et al. Social-bigat: multimodal trajectory forecasting using bicycle-gan and graph attention networks [C]// Proceedings of the Annual Conference on Neural Information Processing Systems . Vancouver: NeurIPS, 2019: 1–10.

[本文引用: 3]

[15]

MANGALAM K, GIRASE H, AGARWAL S, et al. It is not the journey but the destination: endpoint conditioned trajectory prediction [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer International Publishing, 2020: 759–776.

[本文引用: 5]

[16]

LIANG J, JIANG L, NIEBLES J C, et al. Peeking into the future: predicting future person activities and locations in videos [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5725–5734.

[本文引用: 3]

[17]

HUANG Y, BI H, LI Z, et al. Stgat: modeling spatial-temporal interactions for human trajectory prediction [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 6272–6281.

[本文引用: 3]

[18]

YU C, MA X, REN J, et al. Spatio-temporal graph transformer networks for pedestrian trajectory prediction [C]// Computer Vision-ECCV 2020: 16th European Conference . Glasgow: Springer International Publishing, 2020: 507–523.

[19]

YUAN Y, WENG X, OU Y, et al. Agentformer: agent-aware transformers for socio-temporal multi-agent forecasting [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 9813–9823.

[20]

SHI L, WANG L, LONG C, et al. Social interpretable tree for pedestrian trajectory prediction [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [s.l.]: AAAI, 2022, 36(2): 2235–2243.