浙江大学学报(工学版), 2024, 58(12): 2586-2595 doi: 10.3785/j.issn.1008-973X.2024.12.018

交通工程

基于双重注意力时空图卷积网络的行人轨迹预测

向晓倩,, 陈璟,

1. 江南大学 人工智能与计算机学院,江苏 无锡 214122

2. 江南大学 江苏省模式识别与计算智能工程实验室,江苏 无锡 214122

Pedestrian trajectory prediction based on dual-attention spatial-temporal graph convolutional network

XIANG Xiaoqian,, CHEN Jing,

1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

2. Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computing Intelligence, Jiangnan University, Wuxi 214122, China

通讯作者: 陈璟,女,副教授. orcid.org/0000-0003-2261-5295. E-mail: chenjing@jiangnan.edu.cn

收稿日期: 2023-12-19  

基金资助: 江苏省青年科学基金资助项目(BK20150159).

Received: 2023-12-19  

Fund supported: 江苏省青年科学基金资助项目(BK20150159).

作者简介 About authors

向晓倩(1998—),女,硕士生,从事行人轨迹预测研究.orcid.org/0009-0001-5551-8240.E-mail:6213113031@stu.jiangnan.edu.cn , E-mail:6213113031@stu.jiangnan.edu.cn

摘要

当前行人轨迹预测研究面临两大挑战:1)如何有效提取行人前后帧之间的时空相关性;2)如何避免在轨迹采样过程中受到采样偏差的影响而导致性能下降. 针对以上问题,提出基于双重注意力时空图卷积网络与目的抽样网络的行人轨迹预测模型. 利用时间注意力捕获行人前后帧的关联性,利用空间注意力获取周围行人之间的相关性,通过时空图卷积进一步提取行人之间的时空相关性. 引入可学习的抽样网络解决随机抽样导致的分布不均匀的问题. 大量实验表明,在ETH和UCY数据集上,新方法的精度与当前最先进的方法相当,且模型参数量减少1.65×104,推理时间缩短0.147 s;在SDD数据集上精度虽略有下降,但模型参数量减少了3.46×104,展现出良好的性能平衡,能为行人轨迹预测提供新的有效途径.

关键词: 轨迹预测 ; 深度学习 ; 图卷积网络 ; 时空图卷积 ; 时间注意力 ; 空间注意力 ; 轨迹采样

Abstract

There are two major challenges in current research on pedestrian trajectory prediction: 1) how to effectively extract the spatial-temporal correlation between the front and back frames of pedestrians; 2) how to avoid performance degradation due to the influence of sampling bias in the trajectory sampling process. In response to the above two problems, a pedestrian trajectory prediction model was proposed based on the dual-attention spatial-temporal graph convolutional network and the purposive sampling network. Temporal attention was utilized to capture the correlation between the front and back frames, and spatial attention was utilized to capture the correlation between the surrounding pedestrians. Subsequently, the spatial-temporal correlations between pedestrians were further extracted by spatial-temporal graph convolution. Meanwhile, a learnable sampling network was introduced to resolve the problem of uneven distribution caused by random sampling. Extensive experiments showed that the accuracy of this method was comparable to that of the current state-of-the-art methods on the ETH and UCY datasets, but the number of model parameters and the inference time were reduced by 1.65×104 and 0.147 s, respectively; while the accuracy on the SDD dataset slightly decreased, but the amount of model parameters was reduced by 3.46×104, which showing a good performance balance. The proposed model can provide a new effective way for pedestrian trajectory prediction.

Keywords: trajectory prediction ; deep learning ; graph convolutional network ; spatial-temporal graph convolution ; temporal attention ; spatial attention ; trajectory sampling

PDF (3819KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

向晓倩, 陈璟. 基于双重注意力时空图卷积网络的行人轨迹预测. 浙江大学学报(工学版)[J], 2024, 58(12): 2586-2595 doi:10.3785/j.issn.1008-973X.2024.12.018

XIANG Xiaoqian, CHEN Jing. Pedestrian trajectory prediction based on dual-attention spatial-temporal graph convolutional network. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2586-2595 doi:10.3785/j.issn.1008-973X.2024.12.018

行人轨迹预测是一项关键技术,旨在根据行人的历史轨迹和当前状态,准确预测其未来的位置坐标序列. 这项技术在自动驾驶[1]和智能监控系统[2]领域具有广泛的应用前景. 在智能监控系统中,行人轨迹预测可用于异常情况检测,有助于及时发现潜在的安全问题. 在自动驾驶领域,行人轨迹预测则提供了关键的行人运动信息,为车辆路径规划和行车安全性提供了必要的参考依据.

由于行人之间的复杂互动和环境的不确定性,行人轨迹预测是一项具有挑战性的任务. 随着深度学习的发展,许多基于深度学习的方法在这个领域中出现. 最初的研究主要集中在循环神经网络(recurrent neural network,RNN)[3-5]上,并取得了显著的成果. 然而,尽管RNN具备显著的序列建模能力,但在处理行人运动时存在无法直观地表达时空结构的问题. 在这方面,图结构成为一种表示行人之间的交互行为的更为自然的方法,相比之下,图卷积网络(graph convolutional network,GCN)方法更加直观和有效. 尽管目前许多方法[6-8]都将GCN作为基本组成部分,但现有的大多数研究中存在以下问题:1)行人在连续时间内的移动是连贯的,而不是随机的. 为了准确预测未来的行人位置,必须同时考虑行人之间的空间关系和时间上的连续性. 2)在轨迹采样的过程中通常采用高斯分布方法,但往往容易受到采样偏差的影响,导致性能被低估.

为了解决上述问题,提出基于双重注意力的时空图卷积网络与目的抽样网络相结合的行人轨迹预测模型. 该模型将行人之间的交互建模为时空图表示,并利用双重注意力机制在时间和空间维度上对行人之间的社会交互关系进行建模,从而有效捕捉行人之间的动态时空特征. 此外,该模型结合了时空图卷积网络(spatial-temporal graph convolutional network,STGCN)和时间外推器卷积神经网络(temporal extrapolator convolutional neural network,TXPCNN)来建模行人之间的内部依赖关系和时间相关性,最后通过可学习的网络进行轨迹采样预测,以获得最终的预测结果. 在实验中,本研究模型在ETH、UCY和SDD数据集上进行了广泛验证,结果证明了该模型的可靠性和有效性.

1. 相关工作

1.1. GCN

近年来,GCN被广泛应用于视觉追踪、视频轨迹预测和人类交互行为识别等任务中[9]. 在行人轨迹预测中,GCN可以有效地学习行人之间复杂的空间关系,有效提高预测的准确性. 在之前的研究中,如Social-STGCNN首次将STGCN应用到行人轨迹预测中,来处理时空图数据. 尽管利用STGCN可以较好地表示行人之间的相互关系,但通常将所有交互影响视为相同,而实际情况是不同行人之间交互的影响是不同的. SGCN是在Social-STGCNN基础上的改进,它提出了稀疏有向交互作用算法,解决了行人之间交互作用无向的问题. 然而之前的方法没有考虑如何通过时空注意力机制优化行人间的社会交互关系,从而减少模型冗余度. 因此,本研究提出了一种新方法,将STGCN和时空注意力机制相结合应用于行人轨迹预测,以更充分地考虑行人之间的时空相关性,并减少模型的冗余程度.

1.2. 轨迹采样

轨迹采样在行人轨迹预测中具有重大作用,有助于模型更精确地预测未来行人的轨迹. 早期研究常采用确定性轨迹预测方法进行轨迹采样,但这种单一预测无法完全反映行人之间的复杂性和不确定性. 为了解决这个问题,Social-GAN[10]提出多模态轨迹预测的方法,使用随机抽样的方式进行轨迹采样,但由于采样数量有限,随机采样可能无法覆盖所有可能的模态[11]. 为了使采样的轨迹可以覆盖更多的模态且更加均匀,一些先进的采样方法被提出. 例如,Ma等[12]提出似然多元采样的方法,通过平衡可能性和空间分离来训练采样模型,以提高方法的质量和多样性并使其适用于其他框架. Bae等[11]则利用Quasi-Monte Carlo方法的非概率抽样网络(non-probability sampling network,NPSN),该方法能够覆盖样本空间并生成均匀分布的轨迹样本,从而实现更有效的轨迹预测. 本研究受到Bae等[11]的启发,采用NPSN方法来实现轨迹采样,通过对输入的信息提取特征生成多条均匀分布的轨迹样本,能更好地反映行人之间的复杂性和不确定性,提高预测的准确性和鲁棒性.

1.3. 注意力机制

目前,注意力机制已成为各种序列建模任务中引人注目的组成部分,在行人轨迹预测中,先前的研究工作已经广泛采用了注意力机制来提高模型的性能. 例如Social Attention[13]提出使用社交池化和自注意力模块来学习行人之间的关系,并在预测过程中使用注意力机制聚焦于最相关的行人. Social GAN[10]提出GAN的方法,用于生成符合社交规则的行人轨迹. 在生成过程中,模型使用注意力机制来考虑其他行人的影响,并生成与社交规则一致的轨迹. Social-BIGAT[14]利用图注意网络(graph attention network,GAT)和图像上的自注意力机制来考虑场景的社交和物理特征. PECNET[15]提出符合社会标准的以端点为条件的变分自动编码器,并利用基于自注意力的社交池化来实现行人轨迹预测. 与上述工作不同,本研究在轨迹编码器阶段采用了时间和空间注意力结合的双重注意力机制,这一机制能够高效地捕获行人之间的动态时空相关性. 它通过聚焦于重要信息,同时降低对不重要信息的关注,显著提高了任务处理的效率和准确性.

2. 本研究方法

2.1. 问题定义

轨迹预测问题可以被视为序列决策问题,即根据已观察到的行人过去的轨迹序列来预测行人未来的位置坐标序列. 该问题的输入为$L$位行人在过去$ {T_{{\text{obs}}}} $时间内的轨迹,其观察到的轨迹序列表示为$ X_l^{1:{T_{{\text{obs}}}}} = \{ {\boldsymbol{X}}_l^t|t =1, \cdots, {T_{{\text{obs}}}} $$ l =1, \cdots $$ ,L\} $,其中,${\boldsymbol{X}}_l^t$为第$l$位行人在$t$时刻的空间坐标. 目标是为每位行人在${T_{{\text{pred}}}}$时间内生成$N$条可能的轨迹序列$ \hat {{Y}}_{{l}}^{1:{T_{{\text{pred}}}}} = \{ \hat {\boldsymbol{Y}}_{{{l,n}}}^t|t =1, \cdots ,{T_{{\text{pred}}}} $$ n =1, \cdots ,N\} $,其中,$\hat{\boldsymbol{ Y}}_{l,n}^t$为第$l$位行人在$t$时刻第$n$条样本的空间坐标.

2.2. 模型整体框架

提出基于双重注意力的时空图卷积网络与目的抽样网络结合的行人轨迹预测模型,其模型结构如图1所示,包括编码器Encoder、解码器Decoder和轨迹采样Sampling共3部分. 编码器模块利用行人轨迹的图表示,在空间和时间维度上提取特征. 解码器模块使用提取的特征预测$L$位行人在未来$ {T_{{\text{pred}}}} $时间内的概率分布. 轨迹采样模块采用可学习的方式来实现轨迹采样,从而为每个行人在未来$ {T_{{\text{pred}}}} $时间内的概率分布中生成$N$条可能的轨迹序列.

图 1

图 1   模型总体架构

Fig.1   Overall architecture of model


2.3. 时空图表示

在轨迹预测问题中,假设当任意2个距离小于$d$的行人之间形成一个无向边$(i,j)$时,就会在每个时刻$t$形成一个时空图${G_t} = ({V_t},{E_t})$,其中Vt为顶点集,$ {V_t} = \{ V_t^i\} = \{ (x_t^i,y_t^i)| \;\;i \in \{ 1, \cdots ,L\} \} $Et为边集,$ {E_t} = \{ e_t^{ij}|\; i,j \in \{ 1, \cdots ,L\} \} $,如果$V_t^i$$V_t^j$连接,则$e_t^{ij} = 1$,否则$e_t^{ij} = 0$.${G_t}$对应的邻接矩阵${{\boldsymbol{A}}_t}$可以使用$L \times L$矩阵表示.

为了更准确地模拟行人之间的相互影响,采用逆欧氏距离来定义邻接矩阵${{\boldsymbol{A}}_t}$. 逆欧氏距离的定义反映了行人之间的相互影响关系,即行人之间距离越近,相互影响程度越大,连接权重也越高. 相比之下,传统方法是使用$ {{{L}}_{\text{2}}} $范数来衡量行人之间的距离,但采用这种方法行人更容易受到远处行人的影响. 因此,采用逆欧氏距离更符合行人之间的真实关系,有助于提高模型的性能. L2范数和逆欧氏距离的表达式分别如下:

$ {A}_{{L}_2}^{ij}=\left\{\begin{array}{ll}\left\|V_t^i-V_t^j\right\|_2, & \left\|V_t^i-V_t^j\right\|_2 \neq 0; \\0, & {\text { 其他. }}\end{array}\right. $

$ {A}_t^{i j}=\left\{\begin{array}{ll}{1}\Big/{\left\|V_t^i-V_t^j\right\|_2}, & \left\|V_t^i-V_t^j\right\|_2 \neq 0; \\0, & {\text { 其他. }}\end{array}\right. $

式中:${\left\| {V_t^i - V_t^j} \right\|_2}$表示$t$时刻相邻2个行人$ i $$ j $之间的欧氏距离.

2.4. 轨迹编码器模块

2.4.1. 时空注意机制

为了捕捉行人的动态时空相关性,提出新的时空注意力机制,这一机制在空间和时间维度上均采用了注意力机制,以便模型能够自动关注有价值的信息并赋予其更高的权重.

在空间维度上使用注意力机制,这种机制允许模型聚焦于行人在不同的空间位置上的信息. 在行人轨迹预测任务中,考虑行人与其他行人、障碍物或道路结构之间的关系至关重要. 通过空间注意力可以使得模型具有对行人未来位置的预测能力. 此外,这一机制还有助于应对拥挤场景,减少行人之间的碰撞风险,提高行人轨迹预测的安全性. 总的来说,通过空间注意力机制可以更有针对性地关注与当前行人位置相关的其他行人及因素.

空间注意力的表达式如下:

$ {\boldsymbol{S}} = {{\boldsymbol{V}}_{\mathrm{s}}} \sigma \{ ({\boldsymbol{X}} \cdot {{\boldsymbol{W}}_1}) {{\boldsymbol{W}}_2} {({{\boldsymbol{W}}_3} {\boldsymbol{X}})^{\mathrm{T}}}+{{\boldsymbol{b}}_{\mathrm{s}}}\}, $

$ {S}_{i j}^{\prime}=\operatorname{softmax}_j\;\left({S}_{i j}\right)=\frac{\exp \;\left({S}_{i j}\right)}{\sum_{j=1}^{L} \exp\; \left({S}_{i j}\right)}, $

$ {{\boldsymbol{X}}_{\rm{s}}} = {\boldsymbol{X}}{{\boldsymbol{S}}^{'}}. $

式中:${\boldsymbol{X}}$表示输入数据,${\boldsymbol{X}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}}$,其中$C$为数据输入的通道大小;$ {\boldsymbol{V}}_{{\mathrm{s}}}\in {\bf{R}}^{L\times L} ,\;{{\boldsymbol{b}}_{\mathrm{s}}} \in {{\bf{R}}^{L \times L}},\; {{\boldsymbol{W}}_1} \in {{\bf{R}}^{{T_{{\text{obs}}}}}},\;{{\boldsymbol{W}}_2} \in $$ {{\bf{R}}^{C \times {T_{{\text{obs}}}}}}$$ {{\boldsymbol{W}}_3} \in {{\bf{R}}^C} $均为可学习的参数;$\sigma $为激活函数;${\boldsymbol{S}}$为根据当前输入动态计算的注意力矩阵;${{{S}}_{ij}}$为节点$i$和节点$j$之间的相关强度,${{{S}}_{ij}} $S中的元素;${{{S}}'_{ij}}$${{{S}}_{ij}}$通过softmax函数得到一个归一化值,${{S}}_{ij}' $S'中的元素,最终得到的空间注意力矩阵${{\boldsymbol{X}}_{\mathrm{s}}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}}$.

在时间维度上使用注意力机制,可以允许模型在处理序列数据时关注不同时间步长上的信息,这对于行人轨迹预测非常重要,因为行人的移动是一个动态的过程,其速度和方向在不同时间点可能会有所不同. 时间注意力机制可以根据不同的时间帧动态调整对过去时间帧的关注程度,使越接近当前时刻的轨迹对预测结果的影响越大.

时间注意力的表达式如下:

$ {\boldsymbol{D}} = {{\boldsymbol{V}}_{\rm{d}}} \sigma \{ ({{\boldsymbol{X}}^{\mathrm{T}}} {{\boldsymbol{U}}_1}) {{\boldsymbol{U}}_2} ({\boldsymbol{X}} {{\boldsymbol{U}}_3})+{{\boldsymbol{b}}_{\rm{d}}}\}, $

$ {{D}}_{ij}^{'} = {{{\mathrm{softmax}}} _{{j}}}\;({{{D}}_{ij}}) = \frac{{\exp\; ({{{D}}_{ij}})}}{{\sum\limits_{j = 1}^{ {T_{{\text{obs}}}}} {\exp \;({{{D}}_{ij}})} }}, $

$ {{\boldsymbol{X}}_{\rm{d}}} = {\boldsymbol{X}}{{\boldsymbol{D}}^{'}} . $

式中:${\boldsymbol{X}}$表示输入数据,${\boldsymbol{X}} \in {{\bf{R}}^{L \times C \times {T_{{\text{obs}}}}}};\;{{\boldsymbol{V}}_{\rm{d}}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times {T_{{\text{obs}}}}}}$${{\boldsymbol{b}}_{\rm{d}}} \in {{\bf{R}}^{{T_{{\text{obs}}}} \times {T_{{\text{obs}}}}}}$${{\boldsymbol{U}}_1} \in {{\bf{R}}^L}$${{\boldsymbol{U}}_2} \in {{\bf{R}}^{C \times L}}$${{\boldsymbol{U}}_3} \in {{\bf{R}}^C}$均为可学习的参数;$\sigma $为激活函数;${{D}}_{ij}^{'}$表示节点$i$和节点$j$之间的依赖关系强度,${{D}}'_{ij} 为 {{{{\boldsymbol{D}}}}'}$中的元素;${{D}}'_{ij} $${{{D}}_{ij}}$通过softmax函数得到的归一化值,${{D}}'_{ij} 为 {{{{\boldsymbol{D}}}}'}$中的元素,最终得到时间注意力矩阵$ {{\boldsymbol{X}}}_{\rm{d}}\in {\bf{R}}^{L\times C\times {T}_{\text{obs}}} $.

通过同时考虑空间和时间的注意力权重,它能够更全面地捕捉行人轨迹数据的动态变化和相关性,进而提高模型的学习能力,在处理时序数据方面具有较大的优势.

2.4.2. STGCN

本研究所提出的时空注意机制可从行人轨迹的时空图表示中提取空间和时间依赖性特征,并通过时空图卷积对其进行进一步提取特征. 如图2所示展示了时空图卷积的过程,首先在空间维度上执行图卷积操作(即GCN,见图2(a)),GCN旨在进一步捕获节点之间的空间依赖性.

图 2

图 2   时空图卷积结构图

Fig.2   Convolutional structure chart of spatial-temporal graph


$ \hat{\boldsymbol{ A}} = {{\boldsymbol{\varLambda }}^{ - {1}/{2}}}({\boldsymbol{A}}+{\boldsymbol{I}}){{\boldsymbol{\varLambda }}^{ - {1}/{2}}}, $

$ f({\boldsymbol{V}},{\boldsymbol{A}}) = \sigma (\hat{\boldsymbol{ A}} {\boldsymbol{V}} {\boldsymbol{W}}). $

式中:${\boldsymbol{I}}$为单位矩阵;${\boldsymbol{A}}$为邻接矩阵,${\boldsymbol{A}} = \left\{ {{\boldsymbol{A}}_1}, \cdots ,\right. \left.{{\boldsymbol{A}}_{\boldsymbol{t}}} \right\}$${{\boldsymbol{\varLambda }}^{ - \frac{1}{2}}}$为对角矩阵;${\boldsymbol{W}}$为可训练参数的矩阵;${\boldsymbol{V}}$为特征向量.

在进行GCN计算时,对邻接矩阵进行归一化处理是至关重要的,因此本研究使用式(9)对邻接矩阵${\boldsymbol{A}}$进行对称归一化处理. 接着,如式(10)所示,邻接矩阵$\hat{\boldsymbol{ A}}$会和特征矩阵${\boldsymbol{V}}$结合在一起动态调整节点之间的权重. 在时间维度上,使用时间卷积操作(即TCN,见图2(b))将空间维度的特征映射到时间维度上. 通过时空图卷积操作,可以进一步提高模型的性能.

2.5. 轨迹解码器模块

解码器模块的任务是利用编码器模块提取的特征来预测未来轨迹. 相比于递归神经网络,TXPCNN通过在特征空间上进行卷积运算实现时间外推,从而解决参数过多的问题,并且,其被认为是更高效地学习时间依赖关系的方法. 具体而言,解码器模块由6层TXPCNN构成,TXPCNN是在时域维度上进行卷积操作. 第1层TXPCNN用于调整维度;中间4层TXPCNN用于进一步提取时域特征,此外每个TXPCNN层都与前一层进行残差连接,以增强网络容量和表示能力;最后1层TXPCNN输出概率分布的结果,用于预测未来轨迹.

2.6. GAT

在轨迹采样模块中采用GAT模块来提取特征. GAT的核心工作原理是利用注意力机制来计算节点之间的关系. 在传统神经网络中,每个节点的状态更新是独立进行的,而在GAT中,每个节点的状态更新会考虑到其邻居节点的状态. GAT会计算节点与其邻居节点之间的注意力权重,然后根据这些权重来更新节点的状态. 这种计算权重并更新信息的方式使得GAT能够更好地捕捉图中的结构信息. GAT采用类似于Transformer的自注意力机制,由堆叠在一起的图注意力层构成. 每个图注意力层接收节点嵌入作为输入,并输出转换后的嵌入,使得节点嵌入可以关注到其连接的其他节点的嵌入. 如图3所示为图注意力网络结构图,图中,GAT采用了Multi-Head Attention,使用虚线、实线、点线、虚点线表示4个不同的Head. 在不同的Head下,节点$ {{\boldsymbol{h}}_1} $可以学习到不同的embedding,然后将这些embedding进行拼接或取平均值生成$ {\boldsymbol{h}}_1^{'} $. 这样做的好处是,每个注意力头可以关注到不同的特征,从而使得GAT能够捕捉到更多的信息.

图 3

图 3   图注意力网络结构图

Fig.3   Structure chart of graph attention network


2.7. 轨迹采样模块

在轨迹采样模块中,引入目的抽样网络代替传统的随机抽样方法. 传统的随机抽样方法存在随机性,可能导致生成的轨迹分布有偏差,无法涵盖所有模态. 相比之下,目的抽样网络是一种可学习方法,它利用过去轨迹信息进行目的抽样,从而在样本空间中生成均匀分布的轨迹,能够包含所有可能的模态. 如图1中的Sampling所示,该模块的输入是以时空图表示的轨迹信息. 首先,它使用GAT来捕捉行人之间的社会关系并聚合邻居特征,在经过GAT提取特征后,通过多层MLP为每个行人在$1:{T_{{\text{pred}}}}$时间内生成$N$条轨迹$ {\hat Y}_l = \left\{ { {\hat {\boldsymbol{Y}}}_{l,1} , \cdots ,{\hat {\boldsymbol{Y}}}_{l,N} } \right\}$,其中$l = {1, \cdots ,L} $. 这一方法明显提高了轨迹预测的准确性,为行人轨迹预测研究提供了新的思路和方法.

2.8. 损失函数

使用2种不同的损失函数来联合优化模型的性能. 首先,对于每位行人$l$$ {{L}_1} $可以计算其生成的所有$N$条轨迹与ground-truth之间的${{{L}}_{2}}$距离,并选择距离最小的一条轨迹用于模型的训练. 其次,为了避免所有$N$条预测的轨迹都接近它对应的ground-truth,引入差异损失${{L}_2}$. ${{L}_2}$的目标是要求预测的$N$条轨迹的最近邻之间的距离最大,如果距离更近,则将施加更高的惩罚,以确保对采样空间的覆盖更加均匀. 具体表达式如下:

$ {{\mathrm{Loss}}} = {{L}_1}+\lambda {{L}_2}, $

$ {{L}_1} = \frac{1}{L}\sum\limits_{l = 1}^L {\mathop {\min }\limits_{n \in \{1, \cdots ,N\}} } \left\| {\hat {\boldsymbol{Y}}_{l,n}^{1:{T_{{\text{pred}}}}} - {\boldsymbol{Y}}_l^{1:{T_{{\text{pred}}}}}} \right\|, $

$ {{L}_2=\dfrac{1}{L N} \displaystyle\sum_{l=1}^L \displaystyle\sum_{i=1}^N-\log\; \min _{\substack{j \in\{1, \cdots, N\}, \\ j \neq i}}\left\|\hat {\boldsymbol{Y}}_{l,i}^{1:{T_{{\text{pred}}}}}-\hat {\boldsymbol{Y}}_{l,j}^{1:{T_{{\text{pred}}}}}\right\|.} $

式中:$\lambda = 0.01$$N = 20$$\hat {\boldsymbol{Y}}_{l,n}^{1:{T_{{\text{pred}}}}}$为第$l$位行人在$1:{T_{{\text{pred}}}}$时间内预测的第$n$条轨迹,${\boldsymbol{Y}}_l^{1:{T_{{\text{pred}}}}}$为第$l$位行人在$1:{T_{{\text{pred}}}}$时间内真实的轨迹,$\hat {\boldsymbol{Y}}_{l,i}^{1:{T_{{\text{pred}}}}}$$\hat {\boldsymbol{Y}}_{l,j}^{1:{T_{{\text{pred}}}}}$为第$l$位行人预测的第$i$条和第$j$条轨迹.

3. 实 验

3.1. 数据集

为了验证本研究方法的有效性,使用3个真实世界的数据集:ETH、UCY和斯坦福无人机数据集(SDD). ETH/UCY数据集为行人轨迹预测邻域的经典基准,其中ETH数据集包含ETH和HOTEL共2个场景,UCY数据集包含ZARA1、ZARA2和UNIV共3个场景. 这些数据集包含了上千条真实的行人轨迹,展现了多种多样的行人交互情况. 在ETH/UCY数据集中,轨迹坐标以m为单位进行计算,并采用留一法交叉验证[8],将数据集分成5个子集,每次使用4个子集进行训练和验证,1个子集用于测试. 此外,为了验证所提方法在各种场景下的适用性,还在包含大量不同场景的SDD数据集上进行了实验. SDD数据集是行人轨迹预测领域提出的第1个大规模数据集,由无人机从鸟瞰图的角度捕获了大学校园的几个大区域,它被分成60个记录,展示了复杂的行人动态和与周围环境的强烈互动. 在该数据集中,轨迹坐标以像素为单位进行计算,并采用与NPSN[11]方法相同的数据分割方式.

3.2. 实验设置

本研究模型在PyTorch框架下构建,并使用2张2080TI GPU对其训练. 在评估过程中,该模型观察前8帧(3.2 s)的轨迹,并预测接下来12帧(4.8 s)的轨迹. 在模型参数设置方面,本研究使用AdamW优化器对模型进行优化,batch size为512,学习率为0.001,训练250个epoch. 式(10)中的$\sigma $激活函数采用PRelu,轨迹采样模块中的GAT使用LeakyRelu作为激活函数. 本研究采用与Social-STGCNN相同的设置,即使用1层STGCN、6层TPCNN. 由于GAT中存在多头注意力机制,为了优化模型的性能,对GAT不同头数进行消融实验.

3.3. 评价指标

采用ADE和FDE这2个指标来评估模型的性能. 其中,ADE用于衡量所有被测行人在每个时刻的预测轨迹与真实轨迹之间的平均距离,而FDE则只关注所有被测行人在最后时刻的预测轨迹与真实轨迹之间的最终位移距离. 2个指标的值越小,表明模型预测效果越好. 这2个指标的定义如下:

${\mathrm{ADE}} = \dfrac{1}{LT_{{\mathrm{pred}}}}{{{{\displaystyle\sum_{l = 1}^L {\displaystyle\sum_{t = 1}^{T_{{\rm{pred}}} } {\left\| { {\hat {\boldsymbol{Y}}_l^t } - {{\boldsymbol{Y}}_l^t} } \right\|_2} } }}}}, $

$ {\mathrm{FDE}} = \dfrac{1}{L}{{\displaystyle\sum_{l = 1}^L {{{\left\| { {\hat {\boldsymbol{Y}}_l^t } - \mathop {\boldsymbol{Y}}\nolimits_l^t } \right\|}_2}} }};\;t = \mathop T\nolimits_{{\rm{pred}}} . $

式中:${T_{{\text{pred}}}}$为最后的时刻,$ {\hat {\boldsymbol{Y}}_l^t }$为预测的轨迹,$ {{\boldsymbol{Y}}_l^t }$为真实的轨迹.

3.4. 实验结果与对比

部分近4 a效果较优的模型如下.

PITF[16]:利用人的行为模块和人的交互模块,将丰富的视觉语义编码为特征.

STGAT[17]:在对行人运动进行建模的背景下,将GAT与LSTM结合起来的首次尝试.

BIGAT[14]:基于GAN的方法,利用GAT和图像上的self-attention来考虑场景的社交和物理特征.

Social-STGCNN[7]:先由STGCN提取特征,然后通过TXPCNN来预测未来的轨迹.

PECNET[15]:提出符合社会标准以端点为条件的变分自动编码器,以及结合自注意力机制的社交池层.

STAR[18]:在2个编码块中交叉使用空间Transformer和时间Transformer提取时空行人依赖关系,同时还使用外部可读可写图形存储模块.

AGENTFORMER[19]:设计了一种独特的agent-ware注意力,同时采用时间编码减少时间损失.

SGCN[8]:提出新的稀疏图卷积网络,它将稀疏有向交互和运动趋势相结合.

SIT[20]:提出简单而有效的基于树的方法,首先构建粗轨迹树,然后采用由粗到细的策略获得最终的多模态未来轨迹.

NPSN[11]:提出非概率抽样网络,利用行人过去的路径和社会互动产生样本序列.

Graph-TERN[21]:提出通过预测的一组控制点确定行人的最终目的地,接着通过轨迹优化进一步提升路径预测的准确性.

3.4.1. 模型性能对比

采用ADE和FDE指标对模型的性能进行评估. 如表12所示为本研究模型和其他模型在ETH、UCY和SDD数据集上的性能对比,表中模型均预测20条轨迹,并选择其中误差最小的一条进行评估. 最佳结果在表中使用加粗标注,次优结果使用下划线标注.

表 1   ETH和UCY数据集上的结果(ADE/FDE)对比表

Tab.1  Comparison of results (ADE/FDE) on ETH and UCY datasets

模型年份ADE/FDE
ETHHOTELUNIVZARA1ZARA2平均值
PITF[16]20190.73/1.650.30/0.590.60/1.270.38/0.810.31/0.680.46/1.00
STGAT[17]20190.50/0.840.26/0.460.51/1.070.33/0.640.30/0.610.38/0.72
BIGAT[14]20190.69/1.290.49/1.010.55/1.320.30/0.620.36/0.750.48/1.00
Social-STGCNN[7]20200.64/1.110.49/0.850.44/0.790.34/0.530.30/0.480.44/0.75
PECNET[15]20200.54/0.870.18/0.240.35/0.600.22/0.390.17/0.300.29/0.48
STAR[18]20200.36/0.650.17/0.360.31/0.620.26/0.550.22/0.460.26/0.53
SGCN[8]20210.63/1.030.32/0.550.37/0.700.29/0.530.25/0.450.37/0.65
AGENTFORMER[19]20210.45/0.750.14/0.220.25/0.450.18/0.300.14/0.240.23/0.39
SIT[20]20220.42/0.600.21/0.370.51/0.940.20/0.340.17/0.300.30/0.51
Social-STGCNN+NPSN[11]20220.44/0.650.21/0.340.27/0.440.24/0.430.21/0.370.28/0.44
SGCN+NPSN[11]20220.35/0.580.15/0.250.22/0.390.18/0.310.13/0.240.21/0.36
Graph-TERN[21]20230.42/0.580.14/0.230.26/0.450.21/0.370.17/0.290.24/0.38
本研究模型0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.38

新窗口打开| 下载CSV


表1所示展示了本研究模型在ETH/UCY数据集上的性能. 实验结果表明,本研究模型的整体性能(AVG)处于第2优. 与AGENTFORMER相比,本研究模型在ADE和FDE上分别降低4.0%和2.5%,与Social-STGCNN+NPSN模型相比,本研究模型在ADE指标上降低了21.0%,在FDE指标上降低了15.0%. 与SGCN+NPSN模型相比,本研究模型在ADE指标和FDE指标上有所提升,但是本研究模型在模型参数量方面减少1.65×104,并且推理时间也减少0.147 s. 如表2所示为本研究模型在SDD数据集上的性能对比结果. 实验结果表明,本研究模型的性能明显优于SGCN、Social-STGCNN+NPSN、SGCN+NPSN等模型;但是与Graph-TERN模型相比,本研究模型在ADE和FDE指标上有所提升,这是因为Graph-TERN模型首先通过预测一组控制点来确定最终目的地,然后通过模型优化轨迹,从而显著提高模型的预测精度.

表 2   SDD数据集上的结果对比

Tab.2  Comparison of results on SDD dataset

模型年份ADEFDE
STGAT[17]201918.8031.30
Social-STGCNN[7]202020.7633.18
PECNET[15]20209.9615.88
SGCN[8]202111.6719.10
Social-STGCNN+NPSN202211.8018.43
SGCN+NPSN[11]202217.1228.97
Graph-TERN[21]20238.4314.26
本研究模型9.1615.21

新窗口打开| 下载CSV


针对不同数据集体现出的各自的优越性,发现采用NPSN方法实现的轨迹采样,能更好地反映行人之间的复杂性和不确定性,提高预测的准确性和鲁棒性. 其次,为了解决行人前后帧之间的时空相关性,将时间注意力和空间注意力结合在一起,以提取有价值的信息并降低无价值信息的影响. 此外,通过改进邻接矩阵的计算方式,也可以有效地提取行人之间的信息,进一步提升模型的性能. 这些是未来改进的方向之一.

3.4.2. 模型参数和推理速度对比

为了评估本研究模型的效率,与PITF、PECNET、Social-STGCNN、SGCN、SGCN+NPSN、Graph-TERN方法在参数量M和推理时间t上进行比较,并且也列出本研究模型各个模块的参数量,实验结果如表3所示. 相较于SGCN方法,本研究模型参数减少1.11×104,推理时间减少0.0267 s;相较于SGCN+NPSN方法,本研究模型参数减少1.65×104,推理时间减少0.147 s;相较于PECNET方法,本研究模型在参数上减少7.1×103;与Graph-TERN方法相比,本研究模型在推理时间相近的情况下,参数量减少了3.46×104. 本研究模型相较于Social-STGCNN方法的参数量和推理时间都有所增加,这是因为本研究方法在Social-STGCNN基础上增加了双重注意机制和目的抽样网络,从而导致推理时间也会相应增加.

表 3   模型参数和推理时间对比表

Tab.3  Comparison of model parameters and inference time

模型M/103t/s
PITF[16]360.00.1145
PECNET[15]21.00.1376
Social-STGCNN[7]7.60.0020
SGCN[8]25.00.1146
SGCN+NPSN[11]30.40.2349
Graph-TERN[21]48.50.0945
TAtt+SAtt1.1
STGCN+6层TXPCNN7.7
Sampling5.1
本研究模型13.90.0879

新窗口打开| 下载CSV


3.5. 消融研究

为了验证本研究方法的有效性,进行了一系列消融实验,分别在ETH、UCY和SDD数据集上对每个子模块的效果进行评估,同时保持其他模块的设置与最终模型一致.

实验结果如表4所示. 表中,下划线表示对最终模型使用的配置的标注. 去除任何一个组件都会导致行人轨迹预测性能的降低. 特别是,本研究使用的目的采样(purpose)模型,在ETH和UCY数据集上相比于使用随机采样模型(random)的ADE指标下降0.21,FDE指标下降0.34;在SDD数据集上,ADE和FDE指标分别下降0.14和0.37,验证了目的采样网络对行人轨迹预测性能的重要贡献. 此外,还对轨迹采样中GAT的多头注意力及其头数进行消融实验,结果表明在Multi-head为4时整体性能最佳,进一步验证了轨迹抽样模块的重要性. 其次,加权邻接矩阵给不同行人之间的连接赋予不同的权重,它可以反映出行人之间的相对距离和关系强度,从而更准确地描述行人之间的互动. 本研究分别使用式(1)中的${L_2}$范数和式(2)中的逆欧氏距离进行消融实验,实验结果表明,使用逆欧氏距离获得的加权邻接矩阵与使用${L_2}$范数相比,在ETH和UCY数据集中,ADE和FDE指标分别下降0.02和0.03;在SDD数据集中,ADE和FDE指标分别下降0.02和0.04. 在注意力的消融实验中,设置了4个不同的变体:去除双重注意力机制(w/o)、仅空间注意力(SAtt)、仅时间注意力(TAtt)以及时间注意力和空间注意力结合(SAtt+TAtt),实验结果表明两者结合效果最优,验证了其对行人轨迹预测的影响. 最后,分别对损失函数${{L}_1}$${{L}_2}$${{L}_1}+{{L}_2}$进行消融实验,并可视化出对应的Loss收敛曲线,如图4所示. 实验结果表明,当损失函数为${{L}_1}+{{L}_2}$时,模型效果最佳.

表 4   本研究模型在不同组件下的消融实验结果(ADE/FDE)

Tab.4  Ablation experiment results (ADE/FDE) of propsed model in different components

组件变体ADE/FDESDD
ETHHOTELUNIVZARA1ZARA2平均值
Attentionw/o0.43/0.700.21/0.360.28/0.460.24/0.420.20/0.350.27/0.459.28/15.35
SAtt0.40/0.680.19/0.350.23/0.400.19/0.350.14/0.270.23/0.419.20/15.28
TAtt0.37/0.630.19/0.330.22/0.390.19/0.340.14/0.270.24/0.399.18/15.25
TAtt+SAtt0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.389.16/15.21
WeightAw/o0.41/0.670.21/0.370.25/0.430.24/0.380.18/0.290.26/0.429.23/15.30
${{A}_{{L_2}}}$0.39/0.650.19/0.360.25/0.410.21/0.360.15/0.270.24/0.419.18/15.25
${\underline { A_t }} $0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.389.16/15.21
Samplingrandom0.62/1.100.42/0.640.47/0.850.34/0.500.30/0.490.43/0.719.30/15.58
$\underline{{\rm{purpose}}}$0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.389.16/15.21
Multi-headw/o0.41/0.670.17/0.300.23/0.390.19/0.340.14/0.250.23/0.399.20/15.25
20.36/0.600.18/0.330.23/0.390.19/0.350.14/0.260.22/0.399.18/15.24
$\underline 4$0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.389.16/15.21
60.44/0.760.17/0.300.23/0.410.19/0.350.15/0.280.24/0.429.19/15.23
80.39/0.630.16/0.280.23/0.400.19/0.350.15/0.270.22/0.399.17/15.23
Loss${{L}_1}$0.40/0.670.19/0.370.28/0.400.21/0.370.20/0.300.25/0.429.18/15.27
${{L}_2}$0.39/0.650.20/0.360.24/0.430.23/0.350.17/0.270.24/0.419.17/15.25
$ \underline{ {{L}}_1 + {{L}}_2 } $0.37/0.600.17/0.300.23/0.390.19/0.330.14/0.260.22/0.389.16/15.21

新窗口打开| 下载CSV


图 4

图 4   不同损失函数在消融实验中的收敛曲线比较

Fig.4   Convergence curve comparison of different loss functions in ablation experiments


3.6. 可视化

图5所示展示了在ETH和UCY数据集中5个真实场景下部分轨迹预测的可视化结果.图中,红实线是历史轨迹,蓝实线是真实轨迹,绿虚线是预测轨迹,阴影区域是模型预测出来的概率分布结果. 通过比较预测轨迹和概率分布图,可以明显看出本研究的模型相比于Social-STGCNN和SCN模型预测的轨迹更加接近真实轨迹. 在ETH和HOTEL场景中,人群相对稀疏,行人通常只在某个方向行走,各个模型都能相对准确地预测这种情况,但本研究模型的预测结果最准确. 在UNIV场景下,人群相对密集,行人之间也会有相对较多的交互. 在这种情况下,行人的轨迹受到周围行人影响较大,由图5可以看出,Social-STGCNN和SGCN模型预测的轨迹方向存在偏差,而本研究模型采用的目的抽样方法能够有效解决这个问题,其预测的轨迹分布更贴近真实轨迹. ZARA1和ZARA2是同一场景下采集的数据,区别在于ZARA2比ZARA1的行人数量多. 在ZARA1场景中,行人沿不同方向行走,本研究模型预测的轨迹更符合实际情况,也更接近真实的轨迹. 在ZARA2场景中,可以观察到图中两人有密切的交互,本研究模型能够更好地提取这一特征,并预测出更准确的轨迹,而Social-STGCNN和SGCN会预测出相反的轨迹. 综上所述,传统的行人轨迹预测模型在行人稀疏的情况下表现较好,但在行人密集、多位行人存在空间交互的情况下效果不佳. 然而,本研究的模型将时间注意力和空间注意力结合,有效提取了时空相关性,从而能够较好地解决这一问题.

图 5

图 5   轨迹可视化

Fig.5   Trajectory visualization


4. 结 语

本研究提出基于双重注意力的时空图卷积网络与目的抽样网络相结合的行人轨迹预测模型,该模型能较好地考虑行人之间的时空相关性. 同时,本研究通过引入可学习的轨迹采样网络,解决了采样分布不均匀的问题. 大量实验表明,本研究模型在ETH、UCY和SDD数据集上的性能优于当前最先进的方法. 此外,通过可视结果也可以看出,本研究模型预测的轨迹更接近于真实轨迹. 未来考虑在编码器模块中使用更高效的GCN来提取特征,进一步提高模型的性能.

参考文献

LUO Y, CAI P, BERA A, et al

Porca: modeling and planning for autonomous driving among many pedestrians

[J]. IEEE Robotics and Automation Letters, 2018, 3 (4): 3418- 3425

DOI:10.1109/LRA.2018.2852793      [本文引用: 1]

RUDENKO A, PALMIERI L, HERMAN M, et al

Human motion trajectory prediction: a survey

[J]. The International Journal of Robotics Research, 2020, 39 (8): 895- 935

DOI:10.1177/0278364920917446      [本文引用: 1]

ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE , 2016: 961–971.

[本文引用: 1]

XUE H, HUYNH D Q, REYNOLDS M. SS-LSTM: a hierarchical LSTM model for pedestrian trajectory prediction [C]// 2018 IEEE Winter Conference on Applications of Computer Vision (WACV) . Lake Tahoe: IEEE, 2018: 1186–1194.

ZHANG P, OUYANG W L, ZHANG P F, et al. SR-LSTM: state refinement for LSTM towards pedestrian trajectory prediction [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 12085–12094.

[本文引用: 1]

孔玮, 刘云, 李辉, 等

基于图卷积网络的行为识别方法综述

[J]. 控制与决策, 2021, 36 (7): 1537- 1546

[本文引用: 1]

KONG Wei, LIU Yun, LI Hui, et al

A survey of action recognition methods based on graph convolutional network

[J]. Control and Decision, 2021, 36 (7): 1537- 1546

[本文引用: 1]

MOHAMED A, QIAN K, ELHOSEINY M, et al. Social-STGCNN: a social spatio-temporal graph convolutional neural network for human trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 14424–14432.

[本文引用: 4]

SHI L, WANG L, LONG C, et al. SGCN: sparse graph convolution network for pedestrian trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 8994–9003.

[本文引用: 6]

WU Z, PAN S, CHEN F, et al

A comprehensive survey on graph neural networks

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32 (1): 4- 24

[本文引用: 1]

GUPTA A, JOHNSON J, FEI-FEI L, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake: IEEE, 2018: 2255–2264.

[本文引用: 2]

BAE I, PARK J H, JEON H G. Non-probability sampling network for stochastic human trajectory prediction [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 6477–6487.

[本文引用: 9]

MA Y J, INALA J P, JAYARAMAN D, et al. Likelihood-based diverse sampling for trajectory forecasting [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 13279–13288.

[本文引用: 1]

VEMULA A, MUELLING K, OH J. Social attention: modeling attention in human crowds [C]// 2018 IEEE International Conference on Robotics and Automation . Brisbane: IEEE, 2018: 4601–4607.

[本文引用: 1]

KOSARAJU V, SADEGHIAN A, MARTÍN-MARTÍN R, et al. Social-bigat: multimodal trajectory forecasting using bicycle-gan and graph attention networks [C]// Proceedings of the Annual Conference on Neural Information Processing Systems . Vancouver: NeurIPS, 2019: 1–10.

[本文引用: 3]

MANGALAM K, GIRASE H, AGARWAL S, et al. It is not the journey but the destination: endpoint conditioned trajectory prediction [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer International Publishing, 2020: 759–776.

[本文引用: 5]

LIANG J, JIANG L, NIEBLES J C, et al. Peeking into the future: predicting future person activities and locations in videos [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5725–5734.

[本文引用: 3]

HUANG Y, BI H, LI Z, et al. Stgat: modeling spatial-temporal interactions for human trajectory prediction [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 6272–6281.

[本文引用: 3]

YU C, MA X, REN J, et al. Spatio-temporal graph transformer networks for pedestrian trajectory prediction [C]// Computer Vision-ECCV 2020: 16th European Conference . Glasgow: Springer International Publishing, 2020: 507–523.

[本文引用: 2]

YUAN Y, WENG X, OU Y, et al. Agentformer: agent-aware transformers for socio-temporal multi-agent forecasting [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 9813–9823.

[本文引用: 2]

SHI L, WANG L, LONG C, et al. Social interpretable tree for pedestrian trajectory prediction [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [s.l.]: AAAI, 2022, 36(2): 2235–2243.

[本文引用: 2]

BAE I, JEON H G. A set of control points conditioned pedestrian trajectory prediction [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington D. C.: AAAI , 2023, 37(5): 6155–6165.

[本文引用: 4]

/