<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于时空特征增强的单目标跟踪算法的整体网络架构

Fig.1 Overall network architecture of single object tracking algorithm based on spatio-temporal feature enhancement

首先，使用特征提取网络，利用图块分割和线性映射等操作，提取模板区域和搜索区域的特征，并融合相对位置编码以增加相对位置信息. 在模板区域$ {{\boldsymbol{Z}}_n} \in {{\bf{R}}^{3 \times {H_{\boldsymbol{Z}}} \times {W_{\boldsymbol{Z}}}}} $和搜索区域$ {{\boldsymbol{X}}_n} \in {{\bf{R}}^{3 \times {H_{\boldsymbol{X}}} \times {W_{\boldsymbol{X}}}}} $中，$ {H_{\boldsymbol{Z}}} $和$ {W_{\boldsymbol{Z}}} $为模板区域的高和宽，$ {H_{\boldsymbol{X}}} $和$ {W_{\boldsymbol{X}}} $为搜索区域的高和宽. 融合位置编码的模板与搜索序列特征被送入特征融合网络，在经过多头空间关联注意力模块的编码器结构后，模型在空间和通道上的特征表示能力得到了增强. 之后，模型将由注意力机制计算得到的特征相似度输入包含分类和回归任务的预测头结构，得到当前帧的预测位置信息. 最终，为了实现长时序鲁棒的时空建模，将邻近时序的搜索特征信息、预测得到的当前帧搜索特征信息和模板特征信息一并送入时空模板更新策略中，判别漂移状态并确定模板更新状态.

1.1. 多头空间关联注意力模块

提出的多头空间关联注意力模块旨在结合空间注意力（spatial attention, SA）和多头上下文关联注意力（multi-head context association attention, MHCAA）的优势，全面增强模型在空间和通道维度上的特征表达能力. 首先，通过空间注意力机制增强空间内显著区域特征的表示能力；随后，利用多头上下文关联注意力机制完善多头注意力机制中的特征关联性，将强化后的特征信息输入预测头结构中，用于后续的分类和回归任务.

1.1.1. 空间注意力

在基准算法OSTrack中，对模板区域与搜索区域的特征直接映射与拼接，容易为特征图引入冗余信息，导致注意力计算的权重变得稀疏，使潜在关联信息难以被有效关注. 因此，提出用于增强全局和局部特征的轻量化空间注意力模块，基本结构如图2所示.

图 2

图 2 空间注意力模块的结构图

Fig.2 Structural diagram of spatial attention module

特征提取网络的输出特征是带有相对位置编码的四维特征.在送入空间注意力模块前，需要将其重组为三维特征$ {\boldsymbol{F}} \in {{\bf{R}}^{B \times N \times C}} $，其中B为批次数量，$ N = \left( {{W_{\boldsymbol{X}}}+{W_{\boldsymbol{Z}}}} \right) \times \left( {{H_{\boldsymbol{X}}}+{H_{\boldsymbol{Z}}}} \right) $为融合后的特征数量，C为特征通道数.提出的空间注意力模块由全局和局部注意力增强2个分支组成，分别用于增强全局和局部的特征表达能力.

首先，对输入特征的维度进行通道归一化处理，完成对输入特征的建模，其中2个分支的输入特征相同. 在全局注意力增强分支中，为了减少参数量，全局特征图$ {{\boldsymbol{F}}_{\text{G}}} \in {{\bf{R}}^{B \times N \times C}} $通过自适应平均池化聚合特征分布，使空间维度由$ N $降低到$ N/2 $. 利用1×1的逐点卷积运算，实现全局特征在通道之间的特征交互，再经过线性处理，得到增强后的全局特征$ {{\boldsymbol{G}}_{\text{c}}} \in {{\bf{R}}^{B \times {N_1} \times {C_{\text{G}}}}} $.具体过程可以表示为

(1)$ {{\boldsymbol{G}}_{\text{c}}} = {\text{FC}}\left[ {{\mathrm{PWC}} \;({\mathrm{AAP}}\;({{\boldsymbol{F}}_{\text{G}}}))} \right]. $

式中：$ {\text{AAP}}\;( \cdot ) $表示自适应平均池化操作，$ {\text{PWC}}\;( \cdot ) $表示逐点卷积运算，$ {\text{FC}}\;( \cdot ) $表示线性处理.

在局部注意力增强分支中，为了获得具有层次的局部特征图，首先在通道维度上，按照原始模板和搜索特征图的尺寸比例分割局部特征图$ {{\boldsymbol{F}}_{\text{L}}} \in {{\bf{R}}^{B \times N \times C}} $，得到2个局部并行分支$ {{\boldsymbol{L}}_1} \in {{\bf{R}}^{B \times N \times {C_{\text{1}}}}} $和$ {{\boldsymbol{L}}_2} \in {{\bf{R}}^{B \times N \times {C_{\text{2}}}}} $，其中$ {C_{\text{1}}}+{C_{\text{2}}} = C $. 针对不同分支的特征，进行分组归一化处理，分组数与分割后的通道数保持一致；并利用不同尺度的膨胀卷积操作增强不同分支下局部特征的感受野. 具体过程可以表示为

(2)$ {{\boldsymbol{L}}}'_{n}={\mathrm{DSC}}\left({\mathrm{GN}}\;({\boldsymbol{F}})\right);\quad n\in \left\{1,2\right\}. $

式中：$ {\boldsymbol{L}}_n' $为2个分支最后输出的局部特征； $ {\mathrm{GN}}\;( \cdot ) $表示分组归一化处理；$ {\mathrm{DSC}}\;( \cdot ) $表示二维深度可分离膨胀卷积操作，其中卷积核大小均为3×3，2个分支的膨胀率D分别为1和3. 通过最大池化操作融合分支特征，以增强局部特征关联性，从而得到强化后的局部特征图${{\boldsymbol{L}}_{\text{c}}} \in {{\bf{R}}^{B \times {N_2} \times {C_{\text{L}}}}}$. 相较于直接使用卷积操作，采用分组归类的方式处理不同层级的局部特征，能够增强深层与浅层局部特征的表达能力和关联能力.

对全局特征图$ {{\boldsymbol{G}}_{\text{c}}} $和局部特征图$ {{\boldsymbol{L}}_{\text{c}}} $进行逐元素相乘运算，以融合空间特征，并结合1×1大小的深度可分离卷积来调节通道数，再建立残差连接保留原始特征，最终得到增强后的空间特征图$ {{\boldsymbol{F}}'} \in {{\bf{R}}^{B \times N \times C}} $，具体过程表示为

(3)$ {{\boldsymbol{F}}'} = \sigma \left[ {\left( {{\mathrm{DSC}}\;\left( {{{\boldsymbol{G}}_{\text{c}}} \odot {{\boldsymbol{L}}_{\text{c}}}} \right)+{\boldsymbol{F}}} \right)} \right]. $

式中：$ \odot $表示逐元素相乘运算，$ \sigma $表示非线性激活函数Sigmoid. 通过轻量化的卷积计算，空间注意力模块在不改变原始特征结构的前提下，分组、分层处理局部特征和全局特征，增强了模型在空间上的全局和局部特征表达能力和不同特征间的关联能力.

1.1.2. 多头上下文关联注意力

多头自注意力机制利用多个并行的注意力头来捕捉不同的特征表示. 为了增强模型在单个注意力头中的全局特征表示能力和上下文感知能力，提出多头上下文关联注意力模块，基本结构如图3所示.

图 3

图 3 多头上下文关联注意力模块结构图

Fig.3 Structural diagram of multi-head context association attention module

多头上下文关联注意力模块由上下文关联注意力（context association attention, CAA）模块和多头自注意力机制组成. CAA在每个注意力头上建立空间和通道间的特征关联，增强注意力机制的上下文特征表示. 上下文关联注意力模块主要由通道分支、空间分支和残差连接分支组成，其输入为空间注意力模块的输出特征图$ {{\boldsymbol{F}}'} \in {{\bf{R}}^{B \times N \times C}} $. 在通道分支上，利用全局平均池化来建模全局特征表示$ {{\boldsymbol{M}}_{\text{s}}} $.在空间分支上，首先通过单向卷积实现不同方向的局部特征提取，再拼接通道分支响应$ {{\boldsymbol{M}}_1} $，建立初步的上下文关联，之后通过大核卷积扩充空间特征，输出特征$ {{\boldsymbol{M}}_{\text{p}}} $. 具体过程可以表示为

(4)$ \left. \begin{gathered} {{\boldsymbol{M}}_1} = {\mathrm{Con}}{{\text{v}}_{1 \times 1}}\left( {{\mathrm{GAP}}\;({{\boldsymbol{F}}'})} \right), \\ {{\boldsymbol{M}}_2} = \sigma \left[ {{\text{BN}}\left( {{\mathrm{Con}}{{\text{v}}_{1\times 3}}({{\boldsymbol{F}}'})} \right)} \right], \\ {{\boldsymbol{M}}_{\text{s}}} = {\text{Con}}{{\text{v}}_{1 \times 1}}\left( {{{\mathrm{Re}}} {\mathrm{LU}}\left( {{{\boldsymbol{M}}_1}} \right)} \right), \\ {{\boldsymbol{M}}_{\text{p}}} = {\text{Con}}{{\text{v}}_{5 \times 5}}\left( {{\mathrm{cat}}\left( {{{\boldsymbol{M}}_1},{{\boldsymbol{M}}_2}} \right)} \right). \\ \end{gathered} \right\} $

式中：$ {\mathrm{Con}}{{\mathrm{v}}_\beta }\left( \cdot \right) $表示内核大小为β的卷积层，$ {\mathrm{GAP}}\;( \cdot ) $表示全局平均池化处理，$ {\mathrm{BN}}\;( \cdot ) $表示批量归一化处理，$ {\mathrm{c}}{\text{at}}\;( \cdot ) $表示矩阵通道连接操作，$ {\mathrm{R}}{\text{e}}{\mathrm{LU}}\;( \cdot ) $表示线性整流激活函数.

为了强化上下文关联性，将通道特征$ {{\boldsymbol{M}}_{\text{s}}} $与空间特征$ {{\boldsymbol{M}}_{\text{p}}} $融合，获得空间通道特征$ {{\boldsymbol{M}}_{\text{e}}} $. 为了保留底层特征，对$ {{\boldsymbol{M}}_{\text{e}}} $与初始特征建立残差连接，获得上下文特征$ {{\boldsymbol{M}}_{\text{c}}} $. 通过线性转换特征与通道层，并使用深度可分离卷积调整特征形状，得到最终的特征图$ {{\boldsymbol{M}}'_{\text{c}}} \in {{\bf{R}}^{B \times N \times C}} $. 具体过程可以表示为

(5)$ {{\boldsymbol{M}}_{\text{c}}} = {\mathrm{cat}}\left( {{{\boldsymbol{F}}'},\left( {{{\boldsymbol{M}}_{\text{s}}}+{{\boldsymbol{M}}_{\text{p}}}} \right)} \right), $

(6)$ {{\boldsymbol{M}}'_{\text{c}}} = \sigma \left[ {{\mathrm{DSC}}\left( {{\text{FC}}\left( {{{\boldsymbol{M}}_{\text{c}}}} \right)} \right)} \right]. $

式中：深度可分离卷积的卷积核大小为$1 \times 1$. CAA模块经过2次空间通道特征的融合，空间上下文信息的表示和关联性均得到了有效增强.模型能够获得更细致的空间通道权值，并据此进行更准确的特征选择.

当强化的上下文特征图$ {{\boldsymbol{M}}'_{\text{c}}} $被送入每个单头注意力机制时，由于没有改变特征原有的表示形式，注意力机制仍然按照以下步骤进行：先对查询向量Q和键向量K进行相关性计算，再对得分矩阵进行缩放，并对值向量V进行加权. 这种融合不同上下文信息的缩放点积注意力计算，让模型不仅能够强化特征图中的全局信息交互，而且能够对特定的通道和空间区域进行针对性的关注. 此外，针对单目标跟踪任务，注意力机制本质上是对模板区域和搜索区域的相似度计算. 多头上下文关联注意力模块通过联合上下文关联注意力模块和多头自注意力机制，有效增强了特征在单个注意力头上的特征表示，并通过建立空间上下文关系，增强了自注意力头对不同特征的动态建模能力.

1.2. 时空模板更新策略

在跟踪目标短暂消失或周围相似目标数量较多的场景中，模型容易积累无关特征，干扰有效特征的判别，长久可能导致跟踪漂移现象. 针对因跟踪目标短暂消失而出现的跟踪漂移现象，提出基于时序漂移预测的时空模板更新策略. 通过时域卷积网络^[27]完成运动轨迹建模，预测时序上可能出现的漂移现象，并结合特征匹配的相似度，评估模板在当前时刻的更新状态.该策略的基本结构如图4所示.

图 4

图 4 时空模板更新策略结构图

Fig.4 Structural diagram of spatio-temporal template update strategy

模型通过预测头结构完成对当前时刻的目标位置回归，在进行下一帧的目标位置预测前，需要将评估结果的相关特征送入时空模板更新策略中. 时空模板更新策略包含空间特征增强模块、时序位置预测模块和在线模板更新策略. 模型将搜索特征送入空间特征增强模块，利用Sobel算子调整历史帧和当前帧搜索图像的边界特征，以增强搜索特征在边界位置的目标特征表示，具体过程表示为

(7)$ {\boldsymbol{X}}_n' = {\text{BN}}\left( {{\text{Sobel}}\;({{\boldsymbol{X}}_n})} \right). $

式中：$ {\boldsymbol{X}}_n' $为增强后的搜索特征图，$ {\mathrm{Sobel}}\;( \cdot) $表示利用Sobel算子对特征图的边缘特征进行增强. 经过边缘算子和卷积增强后，全局特征图中的有效局部特征信息将得到增强，位置编码信息能够更加精确地描述真实位置.

时序位置预测模块利用多层时序神经网络对目标位置轨迹$ {{\boldsymbol{R}}_n} $进行建模，预测下一帧中搜索目标的位置$ {{\boldsymbol{P}}_{n+1}} $. 该模块的输入为经过空间特征增强后，搜索区域$ {\boldsymbol{X}}_n' $对应的位置信息$ {{\boldsymbol{P}}_n} $. 为了保证真实特征的时效性，设定时序神经网络的总层数$i = 3$. 具体过程可以表示为

(8)$ {{\boldsymbol{R}}_n} = \left\{ {{{\boldsymbol{P}}_{n - t}},{{\boldsymbol{P}}_{n-t+1}}, \cdot \cdot \cdot ,{{\boldsymbol{P}}_n}} \right\}, $

(9)$ {{\boldsymbol{P}}_{n+1}}{\text{ = ReLU}}\left( {{\text{Chp}}\left( {{\text{Conv1d}}\left( {{{\boldsymbol{R}}_n}} \right)} \right)} \right). $

式中：n为当前帧数；t为有效时序间距，本研究中t=4，即使用包含当前帧的前4帧来预测位置信息和建立轨迹信息；$ {\text{Conv1d}}\left( \cdot \right) $表示一维伸缩膨胀卷积处理，卷积核大小为3；$ {\text{Chp}}\left( \cdot \right) $表示一维因果卷积处理，通过逐步移除多余的位置填充序列，增强邻帧中位置信息的敏感性.

在线模板更新策略包含时序漂移预测、相似度计算和模板更新步骤. 对于目标位置漂移预测，假设相机在相邻时刻之间的偏移量不会影响目标位置的特征变化，利用时序网络预测的下一帧位置信息$ {{\boldsymbol{P}}_{n+1}} $与跟踪网络预测的当前位置信息$ {{\boldsymbol{P}}_n} $，通过计算二者的位置偏移量$ \Delta {P_{\text{d}}} $可以判别位置漂移状态. 当$ \Delta {P_{\text{d}}} $超过搜索区域尺寸的5%时，判定目标发生位置漂移，并优先进行模板更新，将当前搜索区域特征${\boldsymbol{X}}_n'$作为更新后的模板特征$ {\boldsymbol{Z}}_{n+1}^{} $. 针对特征漂移预测，通过融合当前特征图$ {\boldsymbol{X}}_n' $与历史特征图$ {\boldsymbol{X}}_{n - 1}' $在注意力得分加权后的特征表示，获得历史搜索特征序列$ {{\boldsymbol{X}}_{\text{h}}} $. 将其与当前帧的模板特征$ {\boldsymbol{Z}}_n $进行余弦相似度计算，判别历史特征相似度$ {\mathrm{Sim}}\;({{\boldsymbol{X}}_{\text{h}}},{{\boldsymbol{Z}}_n}) $.上述过程可以表示为

(10)$ \Delta {P_{\text{d}}} = \left\| {{{\boldsymbol{P}}_{n+1}} - {{\boldsymbol{P}}_n}} \right\|, $

(11)$ {{\boldsymbol{X}}_{\text{h}}} = \lambda {\boldsymbol{X}}_n'+(1 - \lambda ){\boldsymbol{X}}_{n - 1}', $

(12)$ {\text{Sim}}\;({{\boldsymbol{X}}_{\text{h}}},{{\boldsymbol{Z}}_n}{\text{)}} = \frac{{{{\boldsymbol{X}}_{\text{h}}} \cdot {{\boldsymbol{Z}}_n}}}{{\parallel {{\boldsymbol{X}}_{\text{h}}}\parallel \cdot \parallel {{\boldsymbol{Z}}_n}\parallel }}. $

式中：$ \Delta {P_{\text{d}}} $为模板区域上的搜索区域在相邻时刻之间的位置漂移量，$ \parallel \cdot \parallel $表示对向量求二范数，$\lambda $为注意力权重，$ {\text{Sim}}\;( \cdot {\text{)}} $表示历史余弦相似度计算.

当目标未发生位置漂移时，利用历史余弦相似度$ {\text{Sim}}\;({{\boldsymbol{X}}_{\text{h}}},{{\boldsymbol{Z}}_n}{\text{)}} $评估模板更新状态. 如果$ {\text{Sim}}\;({{\boldsymbol{X}}_{\text{h}}},{{\boldsymbol{Z}}_n}{\text{) >}} {\text{0.85}} $，证明特征变化不明显，原有模板特征仍然能够有效地维持，故模板不进行更新，将当前模板特征$ {\boldsymbol{Z}}_n^{} $作为更新后的模板特征$ {\boldsymbol{Z}}_{n+1}^{} $. 反之，则模板更新. 为了防止因长期未更新模板而丢失目标的特征变化，当距离上一次模板更新超过35帧时，强制进行1次模板更新.

提出的时空模板更新策略主要基于时序神经网络与在线模板更新策略实现. 通过对时序位置进行建模，简单地预测目标在未来时刻中可能出现的位置，并结合对特征漂移现象的分析与判别，有效提升模板更新策略的准确率.

2. 实验分析

为了验证所提算法的有效性和泛化性，先进行消融实验和横向对比实验，然后分别在LaSOT^[28]、GOT-10k^[29]数据集和自建的快速运动数据集SportsSOT上，对OSTrack-ST与目前先进跟踪算法开展定性和定量分析实验.

2.1. 数据集与评价指标

LaSOT是大规模、高质量的长时序单目标跟踪基准数据集，包含平均帧数超过2500帧的1400个长时视频序列，并拥有面向各种复杂场景的跟踪评估基准，可用于评估跟踪器在各种场景中的跟踪性能. 视频中包含有许多相似的干扰物体和快速移动的小物体. LaSOT数据集使用单次初始化评估方法，评价指标包括跟踪成功率曲线下面积AUC（area under curve）、跟踪归一化精度$ {P_{{\text{norm}}}} $（normalized precision）和跟踪精度P（precision）.

GOT-10k是从真实环境中捕获视频片段的目标跟踪数据集，包含10 000个多种环境和类别下的短时视频序列，通常用于评估跟踪算法的泛化能力. GOT-10k的评价指标包括预测边界框与真实边界框之间的平均重叠率AO（average overlap）以及成功率SR（success rate），即预测边界框与真实边界框之间的重叠比例超过阈值（如0.5、0.75）的帧数占总帧数的比例. 其中SR₅₀表示重叠比例超过阈值0.5的成功率，为中等精度跟踪成功率；SR₇₅表示重叠比例超过阈值0.75的成功率，为高等精度跟踪成功率.

SportsSOT基于SportsMOT^[30]数据集制作，通过将MOT格式的多目标数据集转换为COCO格式的单目标跟踪数据集，并弱化标签信息以适应单目标跟踪任务. SportsSOT针对体育场景中的目标跟踪任务，选取了足球、篮球和排球3项体育项目，场景中包含大量特征相似的目标及其快速运动. 本研究对场景中每个球员进行了密集注释. SportsSOT由120个视频序列组成，平均帧数超过300帧，用于评估跟踪算法在快速变化的场景中的跟踪性能. SportsSOT参考LaSOT进行分类与标注，评价指标与LaSOT数据集一致，包含AUC、$ {{{P}}_{{\text{norm}}}} $和P，但是难以对运动场景的属性进行定性分析，缺少对复杂场景的评估基准.

2.2. 实验设置

在CPU为Intel(R) Xeon(R) Xeon Gold 6142、GPU为Nvidia GeForce RTX 3090×2、显存为24 GB、操作系统为Ubuntu 22.05 LTS的服务器上进行训练，深度学习框架为Pytorch 1.8.1和CUDA 11.3.实时跟踪效率实验在CPU为Intel(R) Core(TM) i5-13500HX、GPU为NVIDIA RTX 4060 GPU、RAM为32 GB的个人电脑上进行.

网络设置如下. 模板区域为128×128像素，搜索区域为256×256像素. 预测头的分类分支采用高斯权重的焦点损失，回归分支选择L1损失和GIoU损失来计算总损失. 整个模型采用离线训练方式，将掩码自编码器MAE^[31]预训练后的ViT-base模型作为骨干网络. 训练数据集为LaSOT、GOT-10k、SportsSOT和OTB100^[32] .使用水平翻转和亮度抖动方法增强数据. 训练总周期数为240，每个周期训练60 000对图像，批次大小为32. 优化器选择Adam-W，权值衰减为10⁻⁴，初始化学习率为10⁻⁵，在训练周期数达到200后学习率降低10倍. 在测试和验证方面，选择LaSOT、GOT-10k和SportsSOT数据集的测试集作为测试样本，使用汉明窗作为评判标准，即选择得分最高的预测框与边界框进行匹配，分析模型在多种场景下的鲁棒性.其他相关参数设置均参考OSTrack.

2.3. 对比实验

所提算法与先进跟踪算法在LaSOT和GOT-10k数据集上的对比结果如表1所示.可以看出，与其他先进算法相比，所提算法在短时和长时跟踪数据集上均取得了最优或次优的性能.

表 1 不同算法在LaSOT和GOT-10k测试集上的跟踪结果对比

Tab.1 Comparison of tracking results of different algorithms on LaSOT and GOT-10k test sets

算法	LaSOT			GOT-10k
算法	AUC/%	P_norm/%	P/%	AO/%	SR₅₀/%	SR₇₅/%
SiamRPN^[8]	43.7	47.8	41.5	40.8	46.4	19.8
TAN^[14]	47.4	53.5	45.3	—	—	—
SiamFC++^[9]	54.1	62.2	54.6	59.4	69.3	47.1
TransT^[16]	64.8	73.7	69.0	66.9	76.7	60.8
STARK^[17]	67.2	76.9	—	68.9	78.0	64.2
KeepTrack^[13]	67.3	77.4	70.4	68.3	79.3	61.0
MixViT^[23]	68.7	78.4	74.3	70.4	79.8	67.9
OSTrack^[26]	69.0	78.6	75.1	70.9	80.2	68.2
SwinTrack^[21]	69.2	78.3	74.0	69.4	78.0	64.3
AiATrack^[18]	69.3	79.2	73.5	69.9	80.1	63.5
FEHST^[22]	70.1	78.8	75.1	71.4	81.7	68.3
LGTrack^[24]	70.2	80.4	76.4	72.4	82.3	69.6
EVPTrack^[25]	70.4	80.6	77.4	73.3	83.6	70.7
OSTrack-ST	70.5	80.8	77.1	73.7	84.1	71.4

选取的先进算法包括各类基于深度学习的单目标跟踪算法，其中SiamRPN、SiamFC++和TAN是完全不使用Transformer架构的跟踪算法，在参数量和推理速度方面优于其他同类算法，但是在各项基准测试中均难以体现性能优势；KeepTrack、TransT、STARK、AiATrack、SwinTrack、FEHST和LGTrack均为优秀的双流双阶段跟踪算法，通过分别对搜索区域和模板区域进行特征提取和融合并建立特征关联来实现目标跟踪；MixViT、EVPTrack和OSTrack均为单流单阶段跟踪算法，通过直接对搜索区域和模板区域进行特征融合与提取，建立直接高效的特征关联，从而完成目标跟踪.

为了证明提出的算法在复杂运动场景中的可靠性，在自建的SportsSOT数据集上测试所提算法与部分同类算法的性能，对比结果如表2所示. 可以看出，提出的OSTrack-ST算法取得了最先进的性能水平，其AUC、$ {P_{{\text{norm}}}} $和P分别为68.7%、76.2%和73.7%，在所有对比算法中排第一位；相较于基准算法OSTrack，分别提升了2.6、2.5和4.3个百分点.

表 2 不同算法在SportsSOT测试集上的跟踪结果对比

Tab.2 Comparison of tracking results of different algorithms on SportsSOT test set

算法	AUC/%	P_norm/%	P/%
MixViT	66.4	73.2	69.0
OSTrack	66.1	73.7	69.4
FEHST	67.0	74.3	70.9
LGTrack	67.1	74.5	71.7
EVPTrack	68.4	75.9	73.5
OSTrack-ST	68.7	76.2	73.7

为了证明所提算法在实际场景中的应用能力，在基准测试集LaSOT上对所提算法与其他优秀跟踪算法进行实时跟踪效率对比，结果如表3所示. 其中，分辨率(模板，搜索)表示模型的输入分辨率参数，例如，(128, 256)表示模板分辨率为128×128，搜索分辨率为256×256；FPS表示模型每秒处理的帧数，用于评估模型的实时性；FLOPs为模型浮点运算量，可以评估模型的计算开销和性能；N_p表示所有权重和偏置参数的总数，用于评估模型的规模和复杂度.

表 3 基准测试集LaSOT上所提算法与其他跟踪算法的实时效率比较

Tab.3 Comparison of real-time efficiency between proposed and other tracking algorithms on LaSOT benchmark dataset

模型	分辨率(模板, 搜索)	AUC/%	FPS/(帧·s⁻¹)	FLOPs/10⁹	N_p/10⁶
TransT	(128, 256)	64.8	45.7	16.7	23.0
STARK	(128, 320)	67.2	43.6	18.5	47.2
MixViT	(128, 288)/(192, 384)	68.7/71.9	50.3/10.8	20.9/113.1	97.4/195.4
OSTrack	(128, 256)/(192, 384)	69.0/71.2	101.3/44.6	21.5/48.2	92.7/92.7
LGTrack	(128, 256)/(192, 384)	70.2/71.4	29.4/16.5	39.2/92.7	87.9/87.9
EVPTrack	(128, 256)/(192, 384)	70.4/72.3	70.7/27.6	35.7/69.1	73.7/73.7
OSTrack-ST	(128, 256)/(192, 384)	70.5/72.6	49.8/18.9	32.4/74.5	98.3/98.3

在对比算法中，TransT、STARK和MixViT的特征提取网络需要对特征图进行逐层处理，而使用指定分辨率会导致特征融合过程中模板区域与搜索区域的尺寸不匹配，因此这些算法未能提供指定尺寸的输入分辨率. 更高的分辨率通常会提供额外的特征，从而提高跟踪成功率. TransT和STARK模型在特征提取阶段均使用ResNet架构的骨干网络，相较于完全使用Transformer的跟踪网络，在参数量和计算复杂度方面都有明显优势，但是其跟踪效率不佳. MixViT利用在线样本置信度预测模块优化模板更新机制，导致相应的参数量和计算复杂度增加，跟踪实时性降低.基准算法OSTrack未使用模板更新策略，其计算复杂度和参数量相对较低，跟踪实时性明显优于其他算法，但是在长时序和复杂背景下的跟踪任务中表现不佳. LGTrack利用不同的搜索方式动态调整跟踪策略，需要占用更多的计算资源，所需的推理时间更长. EVPTrack通过建立多帧时空特征编码，充分地利用了时空特征，虽然模型的计算量明显增加，但是仍能保持较好的实时性.

在常规输入分辨率下，所提算法在跟踪速率上的实时性与MixViT接近，明显优于LGTrack，且在保证计算复杂度和参数量增加较小的情况下，在跟踪准确性上优于其他对比算法. 在更高的输入分辨率下，虽然所提算法引入了额外的计算复杂度，导致实时性下降，但是其跟踪精度仍然优于其他对比算法，证明所提算法在多种跟踪分辨率下均能实现稳定、高效的目标跟踪.

为了评估所提算法在各种场景下的具体性能表现，对所提算法与TransT、STARK、OSTrack、FHEST和EVPTrack算法在LaSOT数据集的不同属性场景中的跟踪成功率进行对比，结果如图5所示. 其中，括号内的数值表示当前属性场景中算法跟踪成功率的最小值和最大值.

图 5

图 5 不同算法在LaSOT数据集的不同属性场景中的AUC性能

Fig.5 AUC performance of different algorithms in scenarios with different attribute of LaSOT dataset

在部分遮挡、完全遮挡、运动模糊、背景杂乱和旋转等变化明显的场景中，所提算法的跟踪成功率明显优于其他算法. 当视角变化、尺度变化、超出视野或出现相机运动等属性上的变化时，所提算法与先进的时空跟踪算法EVPTrack和FHEST仍有差距. EVPTrack联合时间特征和空间特征进行建模，通过特征传播机制，优化模板特征更新；FHEST通过引入额外的自适应历史帧信息来对时空特征建模；提出的时空模板更新策略中未引入额外的时空特征，因此在特长时序的跟踪鲁棒性方面表现略差. 在光照变化、纵横比变化、低分辨率、形态变化等场景中，模型更依赖于局部特征信息来定位目标位置，故所提算法与先进对比算法的差距较小.

综上所述，所提算法在绝大多数复杂场景中均能展现出准确、可靠的跟踪性能.

2.4. 消融实验

相较于基准模型OSTrack，提出2点改进方法：1）使用多头空间关联注意力模块来改进特征融合效果；2）采取基于时序漂移预测的时空模板更新策略. 为了测试所提模块对跟踪性能的影响，在LaSOT、GOT-10k和 SportsSOT数据集上进行消融实验，结果如表4和图6所示.

表 4 MixViT和OSTrack算法的消融实验结果

Tab.4 Results of ablation experiments on MixViT和OSTrack algorithms

算法	改进策略		LaSOT			GOT-10k			SportsSOT
算法	(1)	(2)	AUC/%	P_norm/%	P/%	AO/%	SR₅₀/%	SR₇₅/%	AUC/%	P_norm/%	P/%
MixViT	×	×	68.7	78.4	74.3	70.4	79.8	67.9	66.4	73.2	69.0
MixViT	√	×	69.5	79.2	74.8	71.2	81.4	68.7	66.7	73.3	69.5
MixViT	×	√	69.4	79.6	75.4	70.9	82.1	67.9	67.4	74.4	72.3
MixViT	√	√	70.2	80.0	76.5	73.7	83.6	70.4	67.8	74.9	72.7
OSTrack	×	×	69.0	78.6	75.1	70.9	80.2	68.2	66.1	73.7	69.4
OSTrack	√	×	69.6	79.1	76.0	72.2	82.0	69.8	67.4	74.9	71.8
OSTrack	×	√	70.2	79.7	76.2	72.9	81.7	70.4	67.9	75.2	72.9
OSTrack-ST	√	√	70.5	80.8	77.2	73.7	84.1	71.4	68.7	76.2	73.7

图 6

图 6 MixViT和OSTrack采取不同改进策略后的特征图比较

Fig.6 Comparison of feature maps of MixViT and OSTrack adopting different improvement strategies

表4展示了依次向基准算法OSTrack和MixViT中添加或替换2类改进策略后算法的性能表现，其中改进策略(1)表示多头空间关联注意力模块，改进策略(2)表示时空模板更新策略，√表示使用策略，×表示不使用策略. 图6展示了模型在使用不同改进策略后搜索区域的特征图. 可以看出，引入多头空间关联注意力模块后，模型对边界特征和关键特征的感知能力得到了增强，对无关区域的关注得到了有效的抑制. MixViT和OSTrack基准算法在使用多头空间关联注意力模块后，GOT-10k数据集上的AO分别提升了0.8和1.3个百分点，SR₅₀分别提升了1.6和1.8个百分点，证明了该策略在空间特征变化明显的场景中的可靠性. 引入时空模板更新策略后，模型选取时序中更可靠的模板特征，增强了搜索特征与模板特征的时空关联，不仅有效补充了缺失的特征信息，而且修正了可能出现在边缘区域的错误注意力. MixViT和OSTrack在使用时空模板更新策略后，长时序数据集LaSOT上的AUC分别提升了0.7和1.2个百分点，自建的运动数据集SportsSOT上的AUC分别提升了1.0和1.8个百分点，均证明了时空模板更新策略在长时序任务中的有效性.

综上所述，当目标处于复杂的运动状态时，提出的2类改进策略不仅能够有效地提升跟踪模型的性能，而且能够使模型保持有效性和实时性.

2.5. 可视化分析

从LaSOT、GOT-10k和SportsSOT数据集中选择5个具有挑战性的序列，将关键帧的跟踪结果与真实结果进行比较与分析，结果如图7所示.

图 7

图 7 复杂场景中不同算法的跟踪结果对比

Fig.7 Comparison of tracking results of different algorithms in complex scenarios

图7(a)为伴随着频繁遮挡场景的运动序列，其中相似目标多且互相遮挡. 从第51帧起，STARK因目标特征丢失导致跟踪失败，OSTrack出现了短暂的跟踪漂移现象；在第51~88帧，受相机运动和目标移动的影响，场景的光照条件发生变化，FEHST发生短暂的跟踪漂移现象；直至第158帧时，目标特征恢复，FEHST丢失了关键特征，导致跟踪失败；持续至第218帧时，OSTrack-ST和OSTrack均跟踪成功. OSTrack-ST利用多头空间关联注意力模块有效地感知关键特征位置；在整个跟踪过程中，仅有OSTrack-ST在大部分时间能够维持稳定跟踪，证明了其在频繁遮挡场景中的跟踪鲁棒性.

图7(b)为伴随着低光照场景的运动序列，特点是场景昏暗、分辨率低且目标经常超出视野. 在第10帧之前，除STARK之外的算法均能够有效地跟踪目标. 当持续到第115帧时，伴随着相机运动和目标的快速运动，FEHST因运动模糊和局部特征丢失，出现了特征漂移现象. 当持续至第208帧时，跟踪目标的部分特征超出视野，STARK与OSTrack损失了核心特征，导致长时间跟踪失败，FEHST算法出现了短时间内丢失目标的情况，但是在大部分时间仍然能够进行有效的跟踪. 当持续到第667帧时，车辆回归正常视野，FEHST和OSTrack-ST均成功地完成跟踪. OSTrack-ST利用更可靠的模板特征，在大部分时间均能成功地跟踪目标车辆，证明了其在低光照场景中的跟踪鲁棒性.

图7(c)为伴随着旋转场景的运动序列，特点是快速运动、尺度变化和低分辨率. 在第51帧前，目标运动表现为简单的肢体动作和位置变化，除了STARK外的其他算法均能有效跟踪. 之后，伴随着背景干扰，目标的体态和尺度均发生变化，跟踪算法均出现了目标丢失的情况. OSTrack-ST算法利用时空特征关联性进行运动建模，减小了跟踪漂移出现的频率，在大部分时间内均能准确地定位目标.

图7(d)为伴随着相机运动的运动序列，其中相似目标互相遮挡且快速运动，并且伴随着运动模糊和特征丢失现象. 在第5帧前，各算法均准确跟踪目标；持续至第75帧时，随着相机运动和相似目标的出现，OSTrack和FEHST出现了跟踪漂移问题，STARK只捕获到局部特征，表现为跟踪框变小；持续至第130帧时，除了提出的OSTrack-ST算法，其他算法均难以适应特征变化，无法有效拟合模板特征，故跟踪失败. OSTrack-ST通过增强目标特征间的关联性和时空特征表征，跟踪的准确性和鲁棒性明显优于其他算法.

图7(e)为伴随着恶劣天气的运动序列，其中目标处于低光照的暴雨场景中. 在第3帧前，目标变化幅度小，各算法均能利用原始模板进行有效跟踪. 当持续至第897帧时，目标远离视野，STARK、OSTrack和FEHST均无法维持稳定跟踪，频繁发生漂移现象. 当持续至第2 174帧时，STARK和OSTrack受到背景干扰，已经跟踪失败，FEHST和OSTrack-ST利用模板更新机制捕获关键特征，仍能成功跟踪目标. 当持续至2 516帧时，目标背景发生变化，FEHST和OSTrack-ST均受到时空特征变化的影响，出现了跟踪漂移问题.这表明在特长时序跟踪任务中，跟踪算法需要更加关注目标特征变化，并利用长时序建模实现鲁棒跟踪.

3. 结　语

在OSTrack网络的基础上，提出基于时空特征增强的高性能单目标跟踪网络OSTrack-ST.为了解决由场景变化带来的目标遮挡、背景干扰、尺度变化和运动模糊等问题，通过融合空间注意力和多头上下文关联注意力机制，提出多头空间关联注意力机制，增强了特征在空间维度上的表达能力. 为了增强时序任务中跟踪的准确性和鲁棒性，采用时空模板更新策略增强对时空特征的利用，通过时空位置预测并结合特征相似度来评估模板更新策略，增强了模板更新的准确度. 大量实验结果表明，在复杂且迅速变化的环境中，提出的目标跟踪算法相较于其他算法更为有效，说明其具有广泛的适用性，能够应用于大多数复杂的运动场景. 然而，当跟踪任务中出现较多的相似目标时，所提算法仍会发生跟踪漂移现象. 后续研究将围绕相似特征的鉴别展开.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

JAVED S, DANELLJAN M, KHAN F S, et al

Visual object tracking with discriminative filters and Siamese networks: a survey and outlook

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (5): 6552- 6574

[2]

孙训红, 都海波, 陈维乐, 等

基于移动机器人机载视觉云台的有限时间目标跟踪控制

[J]. 控制与决策, 2023, 38 (10): 2875- 2880

SUN Xunhong, DU Haibo, CHEN Weile, et al

Finite-time target tracking control based on mobile robot’s onboard PanTilt-Zoom camera system

[J]. Control and Decision, 2023, 38 (10): 2875- 2880

[3]

江佳鸿, 夏楠, 李长吾, 等

基于多尺度增量学习的单人体操动作中关键点检测方法

[J]. 电子学报, 2024, 52 (5): 1730- 1742

JIANG Jiahong, XIA Nan, LI Changwu, et al

Keypoint detection method for single person gymnastics actions based on multi-scale incremental learning

[J]. Acta Electronica Sinica, 2024, 52 (5): 1730- 1742

[4]

MARVASTI-ZADEH S M, CHENG L, GHANEI-YAKHDAN H, et al

Deep learning for visual tracking: a comprehensive survey

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (5): 3943- 3968

DOI:10.1109/TITS.2020.3046478 [本文引用: 1]

[5]

卢湖川, 李佩霞, 王栋

目标跟踪算法综述

[J]. 模式识别与人工智能, 2018, 31 (1): 61- 76

LU Huchuan, LI Peixia, WANG Dong

Visual object tracking: a survey

[J]. Pattern Recognition and Artificial Intelligence, 2018, 31 (1): 61- 76

[6]

DU S, WANG S

An overview of correlation-filter-based object tracking

[J]. IEEE Transactions on Computational Social Systems, 2022, 9 (1): 18- 31

DOI:10.1109/TCSS.2021.3093298 [本文引用: 1]

[7]

张津浦, 王岳环

融合检测技术的孪生网络跟踪算法综述

[J]. 红外与激光工程, 2022, 51 (10): 1- 14

ZHANG Jinpu, WANG Yuehuan

A survey of Siamese networks tracking algorithm integrating detection technology

[J]. Infrared and Laser Engineering, 2022, 51 (10): 1- 14

[8]

LI B, YAN J, WU W, et al. High performance visual tracking with Siamese region proposal network [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8971–8980.

[9]

XU Y, WANG Z, LI Z, et al. SiamFC++: towards robust and accurate visual tracking with target estimation guidelines [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 12549–12556.

[10]

CHEN D, TANG F, DONG W, et al

SiamCPN: visual tracking with the Siamese center-prediction network

[J]. Computational Visual Media, 2021, 7 (2): 253- 265

DOI:10.1007/s41095-021-0212-1 [本文引用: 1]

[11]

ZHANG L, GONZALEZ-GARCIA A, VAN DE WEIJER J, et al. Learning the model update for Siamese trackers [C]// IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4009–4018.

[12]

SARIBAS H, CEVIKALP H, KÖPÜKLÜ O, et al

TRAT: tracking by attention using spatio-temporal features

[J]. Neurocomputing, 2022, 492 (1): 150- 161

[13]

MAYER C, DANELLJAN M, PANI PAUDEL D, et al. Learning target candidate association to keep track of what not to track [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 13424–13434.

[14]

王蒙蒙, 杨小倩, 刘勇

利用时空特征编码的单目标跟踪网络

[J]. 中国图象图形学报, 2022, 27 (9): 2733- 2748

DOI:10.11834/jig.211157 [本文引用: 2]

WANG Mengmeng, YANG Xiaoqian, LIU Yong

A spatio-temporal encoded network for single object tracking

[J]. Journal of Image and Graphics, 2022, 27 (9): 2733- 2748

DOI:10.11834/jig.211157 [本文引用: 2]

[15]

HAN K, WANG Y, CHEN H, et al

A survey on vision Transformer

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (1): 87- 110

DOI:10.1109/TPAMI.2022.3152247 [本文引用: 1]

[16]

CHEN X, YAN B, ZHU J, et al. Transformer tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8122–8131.

[17]

YAN B, PENG H, FU J, et al. Learning spatio-temporal Transformer for visual tracking [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 10428–10437.

[18]

GAO S, ZHOU C, MA C, et al. AiATrack: attention in attention for Transformer visual tracking [C]// European Conference on Computer Vision. Tel Aviv: Springer, 2022: 146–164.

[19]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[20]

WANG N, ZHOU W, WANG J, et al. Transformer meets tracker: exploiting temporal context for robust visual tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 1571–1580.

[21]

LING L T, FAN H, ZHANG Z P, et al. SwinTrack: a simple and strong baseline for Transformer tracking [C]// Conference on Neural Information Processing Systems. New Orleans: [s. n.], 2022: 16743–16754.

[22]

侯志强, 杨晓麟, 马素刚, 等

基于特征增强和历史帧选择的Transformer视觉跟踪算法

[J]. 控制与决策, 2024, 39 (10): 3506- 3512

HOU Zhiqiang, YANG Xiaolin, MA Sugang, et al

Feature enhancement and history frame selection based Transformer visual tracking

[J]. Control and Decision, 2024, 39 (10): 3506- 3512

[23]

CUI Y, JIANG C, WU G, et al

MixFormer: end-to-end tracking with iterative mixed attention

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46 (6): 4129- 4146

DOI:10.1109/TPAMI.2024.3349519 [本文引用: 2]

[24]

LIU C, ZHAO J, BO C, et al

LGTrack: exploiting local and global properties for robust visual tracking

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34 (9): 8161- 8171

DOI:10.1109/TCSVT.2024.3390054 [本文引用: 2]

[25]

SHI L, ZHONG B, LIANG Q, et al. Explicit visual prompts for visual object tracking [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2024: 4838–4846.

[26]

YE B, CHANG H, MA B, et al. Joint feature learning and relation modeling for tracking: a one-stream framework [C]// European Conference on Computer Vision. Tel Aviv: Springer, 2022: 341–357.

[27]

WANG Y, DENG L, ZHENG Y, et al

Temporal convolutional network with soft thresholding and attention mechanism for machinery prognostics

[J]. Journal of Manufacturing Systems, 2021, 60 (1): 512- 526

[28]

FAN H, LIN L T, YANG F, et al. LaSOT: a high-quality benchmark for large-scale single object tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5369–5378.

[29]

HUANG L, ZHAO X, HUANG K

GOT-10k: a large high-diversity benchmark for generic object tracking in the wild

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (5): 1562- 1577

DOI:10.1109/TPAMI.2019.2957464 [本文引用: 1]

[30]

CUI Y, ZENG C, ZHAO X, et al. SportsMOT: a large multi-object tracking dataset in multiple sports scenes [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 9887–9897.

[31]

HE K, CHEN X, XIE S, et al. Masked autoencoders are scalable vision learners [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 15979–15988.