浙江大学学报(工学版), 2024, 58(12): 2427-2437 doi: 10.3785/j.issn.1008-973X.2024.12.002

计算机技术

基于动态位置编码和注意力增强的目标跟踪算法

熊昌镇,, 郭传玺, 王聪

北方工业大学 城市道路交通智能控制技术北京市重点实验室,北京 100144

Target tracking algorithm based on dynamic position encoding and attention enhancement

XIONG Changzhen,, GUO Chuanxi, WANG Cong

Beijing Key Laboratory of Urban Road Transportation Intelligent Control Technology, North China University of Technology, Beijing 100144, China

收稿日期: 2023-11-1  

基金资助: 车路一体智能交通全国重点实验室开放基金资助项目(2024-A001);国家重点研发计划资助项目(2022YFB4300400).

Received: 2023-11-1  

Fund supported: 车路一体智能交通全国重点实验室开放基金资助项目(2024-A001);国家重点研发计划资助项目(2022YFB4300400).

作者简介 About authors

熊昌镇(1979—),男,副教授,从事计算机视觉、深度学习、视频分析方面的研究.orcid.org/0000-0001-7645-5181.E-mail:xczkiong@ncut.edu.cn , E-mail:xczkiong@ncut.edu.cn

摘要

为了充分利用模板和搜索区域之间的位置信息以及提高融合特征的表征能力,提出使用动态位置编码和多域注意力特征增强的方法. 在注意力模块内部嵌入带有卷积操作的位置编码模块,随注意力计算更新位置编码,提高自身空间结构信息的利用率. 引入多域注意力增强模块,在空间维度上使用不同空洞率和步长的平行卷积进行采样,以应对不同大小的目标物,并聚合通道注意力增强后的特征. 在解码器中加入空间域注意力增强模块,为预测头提供更精确的分类回归特征. 本算法在GOT-10K数据集上的平均重叠度(AO)为73.9%;在TrackingNet、UAV123和OTB100数据集上分别取得了82.7%、69.3%和70.9%的曲线下面积(AUC). 与主流算法的对比结果表明,融合了动态位置编码和通道、空间注意力增强的跟踪模型可以有效提升模板和搜索区域间的信息交互,提高跟踪的精度.

关键词: transformer ; 注意力机制 ; 目标跟踪模型 ; 位置编码 ; 孪生网络

Abstract

A method based on dynamic position encoding and multi-domain attention feature enhancement was proposed to fully exploit the positional information between the template and search region and harness the feature representation capabilities. Firstly, a position encoding module with convolutional operations was embedded within the attention module. Position encoding was updated with attention calculations to enhance the utilization of spatial structural information. Next, a multi-domain attention enhancement module was introduced. Sampling was conducted in the spatial dimension using parallel convolutions with different dilation rates and strides to cope with targets of different sizes and aggregate the enhanced channel attention features. Finally, a spatial domain attention enhancement module was incorporated into the decoder to provide accurate classification and regression features for the prediction head. The proposed algorithm achieved an average overlap (AO) of 73.9% on the GOT-10K dataset. It attained area under the curve (AUC) scores of 82.7%, 69.3%, and 70.9% on the TrackingNet, UAV123, and OTB100 datasets, respectively. Comparative results with state-of-the-art algorithms demonstrated that the tracking model, which integrated dynamic position encoding as well as channel and spatial attention enhancement, effectively enhanced the interaction of information between the template and search region, leading to improved tracking accuracy.

Keywords: transformer ; attention mechanism ; object tracking ; positional encoding ; siamese network

PDF (1684KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

熊昌镇, 郭传玺, 王聪. 基于动态位置编码和注意力增强的目标跟踪算法. 浙江大学学报(工学版)[J], 2024, 58(12): 2427-2437 doi:10.3785/j.issn.1008-973X.2024.12.002

XIONG Changzhen, GUO Chuanxi, WANG Cong. Target tracking algorithm based on dynamic position encoding and attention enhancement. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2427-2437 doi:10.3785/j.issn.1008-973X.2024.12.002

视觉跟踪是指在视频序列第1帧指定目标后,在后续帧持续跟踪目标,实现目标的定位与尺度估计[1-2],广泛应用于体育赛事、安防、无人车和机器人等领域. 其受目标形变、遮挡、相似物体干扰和跟踪速度等因素的影响,面临着很多挑战. 自从SiamFC[3]将目标跟踪问题转化为模板和搜索区域间的特征匹配问题后,孪生网络跟踪算法因其较高的精度和超高的运行速度备受研究者青睐[4-5]. SiameseRPN[6]在SiamFC[3]基础上增加了区域候选模块,能进行更有效的目标状态估计,提高了跟踪精度,但受限于锚框先验知识. Ocean[7]受目标检测框架影响,提出基于目标感知的无锚框实时跟踪算法,引入特征对齐模块,能够在预测的边界框中感知特征.

随着Transformer[8]在目标检测领域展现出强大的能力,Wang等[9]将其集成到基于孪生网络的视觉跟踪算法中. TransT[10]利用注意力机制捕获全局信息,融合模板和搜索区域信息,大大提升了跟踪精度. AiATrack[11]通过计算2次注意力矩阵来增强向量之间的相关性并抑制错误的相关性. TCTrack[12]提出新的结合历史帧信息的框架,可以有效利用整个视频序列. KeepTrack[13]提出可学习的目标候选关联网络,通过逐帧传播的形式对所有目标候选者进行优化,研究如何解决相似物干扰挑战. ToMP[14]使用类相关滤波的目标模型用于定位目标,其权重通过Transformer预测器获得. MixFormer[15]使用Transformer结构进行特征提取和特征融合,能够有效建立全局特征关系,达到了较高的跟踪精度. DropMAE[16]提出自适应的空间-注意力剔除技术,对于给定的query序列,自适应地放弃一部分帧内线索以促进模型学习更可靠的时空对应关系. SeqTrack[17]提出用于视觉跟踪的序列到序列学习框架, 将视觉跟踪问题转换为序列生成问题,以自回归的方式预测目标边界框,采用预训练的Vit进行特征融合计算. 但以上模型在注意力计算时均采用固定的位置编码,未能充分利用模板和搜索区域的位置信息;在特征融合计算时主要使用交叉注意力和自注意力进行,空间和通道维度的特征受到限制.

Chu等[18]提出带有卷积计算的位置编码生成器,Woo等[19]利用空间注意力和通道注意力对特征增强,Wang等[20]利用卷积嵌入的方式改进Vision Transformer架构,这些改进方法有效提升了包括跟踪算法在内的多种视觉任务的算法性能. 受以上方法启发,本研究基于TransT[10]框架,设计动态位置编码方法,提高位置信息利用率. 通过多域注意力增强方法,增强混合了模板和搜索区域的特征. 在特征融合解码计算时使用多个不同空洞率的平行卷积融合信息,提高特征表达能力.

1. 本研究算法

本研究算法整体框架如图1所示,算法整体结构由5部分组成:基于Resnet50的特征提取主干网络、基于注意力机制的特征融合模块、多域注意力增强模块、特征解码器模块和预测头. 本研究算法提出的动态位置编码模块和多域注意力增强模块分别应用于特征融合层、多域注意力增强层和解码器. 首先,使用修改的 Resnet50主干网络提取模板帧与搜索区域帧的特征,将得到的特征图按通道重新组合为二维向量后引入自注意力特征增强(self-attention feature enhancement, SFE)模块. 其次,分别使用动态位置编码(dynamic position encoding, DPE)模块为其添加位置信息. 将编码后的模板、搜索区域特征传入交叉注意力特征融合 (cross-attention feature fusion, CFF)模块,再进行 DPE 提高位置信息的利用率. 然后,通过多域注意力增强(multi-domain attention enhancement, MDAE)模块,从空间和通道2个维度建模,增强特征表征能力. 随后,将混合了模板和搜索区域的特征序列通过由CFF和空间域注意力增强(spatial-domain attention, SDA)模块组成的解码器(decoder)模块进一步融合,得到更完备的特征. 最后,将增强后的信息传入分类回归预测头,得到目标边界框. 本研究分类和回归预测头与TransT[10]的相同.

图 1

图 1   所提算法整体框架

Fig.1   Overall framework of proposed algorithm


1.1. Backbone特征提取模块

为了保证提取的特征具备更丰富的语义信息和细节特征,对Resnet50网络进行修改.

1)仅使用Resnet50网络的前4层作为特征提取主干,同时移除Block4的下采样步骤,确保特征图可以保留更多的细节信息.

2)使用空洞率为2的卷积代替第4层中原有的卷积计算,以增加局部感受野,提高表达能力.

3)使用1×1的卷积压缩特征维度,将特征图通道数由1024降为256,减少特征融合模块计算量. 具体计算如下:

$ {{{\boldsymbol{f}}}_{{\boldsymbol{x}}}} = {\text{con}}{{\text{v}}_{1 \times 1}}\;({{\mathrm{Re}}} {{{\mathrm{s}}} _3}\;({{\boldsymbol{x}}})+{\text{relu}}\;({\text{con}}{{\text{v}}^{{\mathrm{r}}2}}{{\mathrm{Re}}} {{{\mathrm{s}}} _3}\;({{\boldsymbol{x}}}))). $

式中:x为输入的模板帧或搜索区域帧,$ {{\boldsymbol{x}}} \in {{{\bf{R}}}^{C \times H \times W}} $${\boldsymbol{f}}_{\boldsymbol{x}} $为经过Backbone得到的特征图,$ {{{\boldsymbol{f}}}_{{\boldsymbol{x}}}} \in {{{\bf{R}}}^{C \times {H_0} \times {W_0}}} $,其中 $ {H_0} = H/8,{W_0} = W/8,C = 256 $${{\mathrm{Re}}} {{{\mathrm{s}}} _3}$表示Resnet50网络前3层的操作;${\text{con}}{{\text{v}}^{{\mathrm{r}}2}}$表示空洞率为2的空洞卷积.

1.2. 特征融合模块

基于注意力机制的Transformer可以提取长距离依赖的全局信息,但是并没有关注输入的token之间所具备的空间信息和局部依赖. 因此,本研究设计了基于动态位置编码和多域注意力增强的特征融合模块. 首先,将模板帧和搜索区域的特征图分别传入自注意力特征增强模块,利用自注意力计算加强自身的特征表达,然后使用带有卷积计算的动态位置编码模块提升特征的位置表达和增强局部信息建模. 最后,将特征图传入带有动态位置编码的交叉注意力特征融合模块,聚合模板和搜索区域信息生成特征编码.

1.2.1. 动态位置编码模块DPE

为了保证Transformer在计算过程中可以兼顾到不同位置的信息,通常使用绝对位置编码来确定单个token中各元素的位置关系. 实验已经证明,这种方法可以有效地提升注意力计算的精度. 但这种编码方式忽略了输入的特征图中蕴含的丰富的空间信息,即token之间的相对位置关系,尤其在2次相邻的注意力计算之间,缺失的空间信息会对下一次计算造成干扰. 受文献[18]启发,利用二维卷积计算的方法对上述场景进行动态位置编码,其结构如图2所示.

图 2

图 2   动态位置编码模块

Fig.2   Dynamic position encoding module


首先将输入序列Input tokens$ \in {{\bf{R}}^{N \times S}} $重组为三维特征图$ {{\boldsymbol{F}}} \in {{\bf{R}}^{S \times W \times H}} $,其中$N = H \times W$,然后利用3×3的卷积核对其建模生成动态位置因子${{{\boldsymbol{F}}}_{{\text{dpe\_factor}}}} \in {{\bf{R}}^{1 \times W \times H}}$,使用带有一个隐藏层的多层感知机(multilayer perceptron, MLP)来增强动态位置因子的表达能力. 最后将动态位置因子扩展为与特征图${{\boldsymbol{F}}}$相同的维度,即${{{\boldsymbol{F}}}_{{\text{dpe\_factor}}}} \in {{\bf{R}}^{S \times W \times H}}$,将特征图与动态位置因子相乘再与原始特征图相加得到空间信息增强后的特征图$ {{\boldsymbol{F}}_{{\mathrm{SE}}}} $. 计算过程如下:

$ {{{\boldsymbol{F}}}_{{\text{SE}}}} = {\zeta _2}(\sigma ({{\mathrm{MLP}}} \;({\text{conv}}\;({\zeta _1}({{\boldsymbol{{\mathrm{Input}}}}}))))+ {\zeta _1}({{\boldsymbol{{\mathrm{Input}}}}})). $

式中:$ {\zeta _1} $${\zeta _2} $表示将特征图按照维度重新组合,$ {\zeta _1} $表示升维,${{\bf{R}}^{N \times S}} \to {{\bf{R}}^{S \times W \times H}}$$ {\zeta _2} $表示降维,${{\bf{R}}^{S \times W \times H}} \to {{\bf{R}}^{N \times S}}$$ \sigma $表示沿通道维度扩张,${{\bf{R}}^{1 \times W \times H}} \to {{\bf{R}}^{S \times W \times H}}$.

1.2.2. 自注意力特征增强和交叉注意力特征融合

本研究基线算法TransT[10] 中使用语境增强(ego-context augment, ECA)模块和交叉特征增强(cross-feature augment, CFA)模块来对模板和搜索区域的特征进行融合,结合残差结构的多头注意力机制和前馈网络来增强特征表征. 但在训练时,ECA和CFA模块需要进行多次计算,且每次计算时须添加同样的位置编码信息. 为此,本研究设计了自注意力特征增强 SFE 和交叉注意力特征融合CFF 模块,由于添加了动态位置编码模块,仅在第1次计算时须添加固定的位置信息.

图3所示为SFE和CFF模块添加动态位置编码后的结构图,由多头注意力、前馈神经网络(feedforward neural network, FNN)以及动态位置编码模块组成.

图 3

图 3   融合动态位置编码的自注意力特征增强和交叉注意力特征融合模块

Fig.3   Self-attention feature enhancement and cross-attention feature fusion module with dynamic positional encoding


注意力机制是Transformer中最重要的一部分,单头注意力计算过程如下:对于输入token,经过3次线性变换得到${\boldsymbol{Q}}$${\boldsymbol{K}} $${\boldsymbol{V}} $,对其通过缩放点积的方式计算注意力,经过${\mathrm{softmax}}$后得到各token之间的注意力权重矩阵,最终将该权重矩阵与${\boldsymbol{V}}$相乘,得到注意力增强后的矩阵. 其中,${\boldsymbol{Q}}$${\boldsymbol{K}}$${\boldsymbol{V}} $可以来自同一特征序列,也可以分别来自不同特征序列,前者称为自注意力计算,后者为交叉注意力计算. 具体表达式如下:

$ {{\mathrm{Attention}}}\; ({{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}}) = {{\mathrm{softmax}}} \; \left(\frac{{{{\boldsymbol{Q}}}{{{\boldsymbol{K}}}^{\mathrm{T}} }}}{{\sqrt {{d_{\boldsymbol{K}}}} }}\right){{\boldsymbol{V}}}. $

式中:${d_{\boldsymbol{K}}}$${{\boldsymbol{K}}}$的维度. 为了提升注意力机制的建模能力和抗干扰能力,采用多头注意力. 多头注意力本质上是将token分为多个部分,形成多个子空间,在每个子空间分别进行注意力计算,最终将各子空间结果拼接. 计算过程如下:

$ \left. \begin{gathered} {{\mathrm{MutilHead}}} \;({{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}}) = {{\mathrm{Concat}}}\; ({{{\boldsymbol{H}}}_{\text{1}}}{,} \cdots {,}{{{\boldsymbol{H}}}_{{n}}}){{{\boldsymbol{W}}}^{\text{O}}}, \\ {{{\boldsymbol{H}}}_i} = {{\mathrm{Attention}}} \;({{{\boldsymbol{Q}}}_i}{,}{{{\boldsymbol{K}}}_i}{,}{{{\boldsymbol{V}}}_i}) = {{\mathrm{softmax}}} \;\left(\frac{{{{{\boldsymbol{Q}}}_i}{{{\boldsymbol{K}}}_i}^{\mathrm{T}} }}{{\sqrt {{d_{\boldsymbol{K}}}} }}\right){{{\boldsymbol{V}}}_i}, \\ {{{\boldsymbol{Q}}}_i}{ = {\boldsymbol{Q}}}{{{\boldsymbol{W}}}_i}^{\boldsymbol{Q}}{,}\;{{{\boldsymbol{K}}}_i}{ = {\boldsymbol{K}}}{{{\boldsymbol{W}}}_i}^{\boldsymbol{K}}{,}\;{{{\boldsymbol{V}}}_i}{ = {\boldsymbol{V}}}{{{\boldsymbol{W}}}_i}^{\boldsymbol{V}}. \\ \end{gathered} \right\} $

式中:${\boldsymbol{W}}^{\rm{O}} $为原始token的线性变换矩阵,$ {\boldsymbol{W}}^{\rm{O}} \in {{\bf{R}}^{{d_{\rm{m}}} \times {d_{\rm{m}}}}} $,原始token按照头数$ n_{\rm{h}} $分为多个子空间;${{\boldsymbol{W}}_i}^{\boldsymbol{Q}}{、}{{\boldsymbol{W}}_i}^{\boldsymbol{K}}{、}{{\boldsymbol{W}}_i}^{\boldsymbol{V}} $为每个子空间上对应的$ {\boldsymbol{Q}}、{\boldsymbol{K}}、{\boldsymbol{V}} $的线性变换矩阵,$ {{\boldsymbol{W}}_i}^{\boldsymbol{Q}}{,}{{\boldsymbol{W}}_i}^{\boldsymbol{K}}{,}{{\boldsymbol{W}}_i}^{\boldsymbol{V}} \in {{\bf{R}}^{{d_{\rm{m}}} \times {d_{\boldsymbol{K}}}}} $$d_{\rm{m}} $为特征维度,$ d_{\rm{m}}=d_{\boldsymbol{K}} \cdot n_{\rm{h}} $,本研究取$\;d_{\rm{m}}=256 $,头数$ n_{\rm{h}}=8 $,则$d_{\boldsymbol{K}}=32 $.

对于自注意力特征增强模块,首先将输入的token序列$ {{\boldsymbol{X}}^{{\text{in}}}} \in {{\bf{R}}^{N \times S}} $添加固定位置编码得到${{\boldsymbol{X}}^{{\text{inpe}}}} = {{\boldsymbol{X}}^{{\text{in}}}}+{{\boldsymbol{X}}^{{\text{pe}}}}$,进而生成${{{\boldsymbol{Q}}}}$KV子空间$ {\boldsymbol{X}}_{\text{inpe}}^{{\boldsymbol{Q}}}$${\boldsymbol{X}}_{\text{inpe}}^{{\boldsymbol{K}}} $$ {\boldsymbol{X}}_{\text{in}}^{{\boldsymbol{V}}} $,随后进行多头意力计算,将结果使用LayerNorm归一化后与${{\boldsymbol{X}}^{{\text{in}}}}$相加. 计算过程如下:

$ \boldsymbol{X}^{\text {SFEI }}=\boldsymbol{X}^{\text {in }}+\operatorname{Norm}\left[\operatorname{MutilHead}\left(\boldsymbol{X}_{\text {inpe }}^{\boldsymbol{Q}}, \boldsymbol{X}_{\text {inpe }}^{\boldsymbol{K}}, \boldsymbol{X}_{\text {in}}^{\boldsymbol{V}}\right)\right]. $

最后经过带有LayerNorm的DPE模块得到输出${{\boldsymbol{X}}^{{\text{SFE}}}},{{\boldsymbol{X}}^{{\text{SFE}}}} \in {{\bf{R}}^{N \times S}}$. 具体表达式如下:

$ {{\boldsymbol{X}}^{{\text{SFE}}}} = {{\boldsymbol{X}}^{{\text{SFE1}}}}+{\mathrm{Norm}}\;[{{\mathrm{DPE}}} \;({{\boldsymbol{X}}^{{\text{SFE1}}}})]. $

交叉注意力特征融合模块与自注意力特征增强模块类似,主要差别在于后者的输入分别来自模板帧和搜索区域. 为了增加模型对模板帧和搜索区域特征的融合能力,该模块加入了FNN层. 计算流程如下.

首先对输入${{\boldsymbol{f}}_{\boldsymbol{Q}}}{,}{{\boldsymbol{f}}_{\boldsymbol{K}}}{,}{{\boldsymbol{f}}_{\boldsymbol{V}}} \in {{\bf{R}}^{N \times S}}$,添加位置编码后进行多头注意力计算,然后进行LayerNorm归一化和残差连接. 得到输出表达式$ {{\boldsymbol{X}}^{{{\mathrm{CFF1}}}}} $如下:

$ {{\boldsymbol{X}}^{{\text{CFF1}}}} = {{\boldsymbol{f}}_{\boldsymbol{Q}}}+{\mathrm{Norm}}\;({\mathrm{MutilHead}}\;({{\boldsymbol{f}}_{{\boldsymbol{Q}}\_{\mathrm{pe}}}}{,}{{\boldsymbol{f}}_{{\boldsymbol{K}}\_{\mathrm{pe}}}}{,}{{\boldsymbol{f}}_{\boldsymbol{V}}})) .$

式中:$ {{\boldsymbol{f}}_{{\boldsymbol{Q}}\_{\mathrm{pe}}}}{,}{{\boldsymbol{f}}_{{\boldsymbol{K}}\_{\mathrm{pe}}}} $表示加入固定位置编码后的特征token. 将得到的token送入前馈神经网络,得到输出$ {{\boldsymbol{X}}^{{\text{CFF2}}}} $:

$ {{\boldsymbol{X}}^{{\text{CFF2}}}} = {{\boldsymbol{X}}^{{\text{CFF1}}}}+{{\mathrm{Norm}}} \;({{\mathrm{FNN}}} \;({{\boldsymbol{X}}^{{\text{CFF1}}}})). $

式中:FNN表示前馈神经网络,本研究隐藏层神经元数量为$ {\mathrm{dim}} = 2\;048$. 最后,CFF模块的输出可表示为

$ {{\boldsymbol{X}}^{{\text{CFF}}}} = {{\boldsymbol{X}}^{{\text{CFF2}}}}+{\mathrm{Norm}}\;({\text{DPE}}\;({{\boldsymbol{X}}^{{\text{CFF2}}}})). $

式中:DPE为动态位置编码模块运算.

1.3. 多域注意力增强模块

本研究的多域注意力增强模块由通道域注意力(channel domain attention,CDA)和空间域注意力(spatial domain attention,SDA) 2个分支组成,能够利用通道域和空间域2个分支所具备的不同维度的信息加强特征表达.

具体结构如图4所示,上方为通道注意力分支,下方为空间注意力分支. 首先,将混合了模板帧和搜索区域信息的特征token拼接为三维特征图$ {{{\boldsymbol{F}}}^\prime } \in {{\bf{R}}^{C \times H \times W}} $,分别经过上述2个分支后得到的最终输出可以表示为

图 4

图 4   多域注意力增强模块

Fig.4   Multi-domain attention enhancement module


$ {{\boldsymbol{F}}_{{\text{C\_S}}}} = \delta ({{{\boldsymbol{F}}}^\prime }+({{\boldsymbol{F}}_{{\text{CDA}}}} \otimes {{\boldsymbol{F}}_{{\text{SDA}}}})). $

式中:$ \delta $表示将三维特征图转换为二维特征序列;$ {{\boldsymbol{F}}_{{\text{CDA}}}} $表示通道注意力分支结果,$ {{\boldsymbol{F}}_{{\text{CDA}}}} \in {{\bf{R}}^{C \times H \times W}} $$ {{\boldsymbol{F}}_{{\text{SDA}}}} $表示空间注意力分支结果,$ {{\boldsymbol{F}}_{{\text{SDA}}}} \in {{\bf{R}}^{C \times H \times W}} $.

具体来看,在通道注意力分支,$ {{\boldsymbol{F}}_{{\text{CDA}}}} $表示为

$ {{\boldsymbol{F}}_{{\text{CDA}}}} = \gamma ({{\mathrm{FFN}}_2}\;({{\mathrm{FFN}}_1}\;({\mathrm{avg}}\;({{\boldsymbol{F}}})))) .$

式中:$ \gamma $表示沿空间维度扩张,${{\bf{R}}^{C \times 1 \times 1}} \to {{\bf{R}}^{C \times W \times H}}$$ {{{\mathrm{FFN}}} _1} $表示升维;$ {{{\mathrm{FFN}}} _2} $表示降维;隐藏层维度为2 048;$ {\mathrm{avg}} $为全局平均池化.

在空间注意力分支,为了减少参数量,首先将特征图${\boldsymbol{F}}$沿通道维度降维,使用1×1卷积将通道数降为原来的$1/a$,得到特征${{\boldsymbol{F}}_{\mathrm{d}}} = {\mathrm{Con}}{{\mathrm{v}}_\alpha }\;({\boldsymbol{F}})$. 之后经过多个平行卷积,得到$ {\boldsymbol{\theta}}_{n}={\zeta }_{({h}_{n},{v}_{n})}^{n}({\boldsymbol{F}}_{{\mathrm{d}}}) $,其中,$ {\zeta }_{({h}_{n},{v}_{n})}^{n} $表示空洞率为$n$,步长为${h_n}、{v_n}$的空洞卷积运算. 最终,$ {{\boldsymbol{F}}_{{\text{SDA}}}} $可以表示为

$ {{\boldsymbol{F}}_{{\text{SDA}}}} = {\mathrm{Con}}{{\mathrm{v}}_\beta }\;({\mathrm{cat}}\;({{{\boldsymbol{\theta}} }_1},{{{\boldsymbol{\theta}} }_2}, \cdots, {{{\boldsymbol{\theta}} }_n})). $

式中:$ {\mathrm{Con}}{{\mathrm{v}}_\beta } $表示参数膨胀率为$ \beta $的1×1卷积计算,将通道数变为原来的$ \beta $倍;${\text{cat}}$表示按通道拼接.

1.4. 解码模块

解码器由交叉注意力特征融合(CFF)模块和空间域注意力增强(SDA)模块组成,其结构如图5所示. CFF、SDA的连接形式与CFF、DPE相同,将模板和搜索区域特征经过多头注意力计算后经FNN模块增强特征表达,最后传入SDA模块得到用于分类回归的特征.

图 5

图 5   解码器模块

Fig.5   Decoder module


2. 实验与结果分析

2.1. 实验环境及配置

本研究模型的训练数据集由GOT-10K、TrackingNet、LaSOT和COCO2014、COCO2017组成. Batch Size设置为18,epoch为1000,每个epoch迭代次数为固定值2000、使用数据量为36000. 初始学习率在Backbone部分设置为1×10−5,在其余部分为1×10−4,每500个epoch衰减一次,衰减系数为0.1,优化器使用AdamW. 设置特征融合层数N=4. 在多域注意力增强模块中,参数缩减因子、膨胀因子分别为$\alpha = 3,\;\beta = 4/3$,FFN1、FNN2的隐藏层神经元个数为2048,平行卷积个数3,空洞率分别为1、2、4;步长分别为(1,1),(1,2),(2,1). 在Ubuntu20.04系统上使用Python3.7和Pytorch1.10的软件框架,实验过程训练阶段使用i5-12400F CPU和RTX 3090GPU的硬件平台,测试阶段在R7-5800H CPU和RTX 3060GPU上完成.

2.2. 数据集及实验结果

为了充分验证本研究算法的有效性,从整体评价指标、不同干扰场景、运行速度等多个角度出发,与当前主流算法在GOT-10K、TrackingNet、UAV123、LaSOT和OTB100上分别进行测试评估.

GOT-10K是通用目标跟踪基准数据集,包含10000多条真实拍摄的视频片段,有560种运动物体的87种运动模式. 测试集包含180个视频,涵盖了常见的跟踪挑战. 其评测指标主要包括平均重合度(average overlap,AO)和SR成功率. 其中,SR成功率指在一定AO阈值下成功跟踪的准确度,有0.50和0.75这2个阈值. TrackingNet是大规模目标跟踪数据集,包含30643个视频片段,其中测试集包含511个视频序列,涵盖了不同的对象类别和场景. 将本研究算法的跟踪结果提交到官方在线评估服务器,并报告曲线下面积(AUC)、精度(P)和归一化精度(PNorm). UAV123是由低空无人机捕获视频组成的数据集,其包含共计 123 个视频序列以及超过 110 k的视频帧. 其测评指标包括曲线下面积(AUC)和精度(P).

本研究算法与主流跟踪器在GOT-10K、TrackingNet和UAV123数据集上的对比实验结果如表1所示. 表中,最优结果加粗显示,次优结果下划线显示. 可以看出,与当前最先进的跟踪器相比,本研究算法在3个数据集下的测试指标均处于最优或次优的位置,较本研究的基线算法TransT[10]有大幅提升. 其中,在GOT-10K数据集上,平均重合度(AO)比TransT[10]和MixFormer[15]的分别提升了1.6个百分点和0.7个百分点;在TrackingNet数据集上,相比于TransT[10]和ToMP[14],AUC分别提高1.3个百分点和4.3个百分点;在UAV123数据集上,相比于TransT[10]和MixFormer[15],AUC分别提高0.2个百分点和0.6个百分点.

表 1   GOT-10K、TrackingNet、UAV123上不同算法的对比

Tab.1  Comparison of different algorithms on GOT-10K, TrackingNet and UAV123

TrackersGOT-10KTrackingNetUAV123
AO/%SR0.50/%SR0.75/%AUC/%PNorm/%P/%AUC/%P/%
SiamFC[3]34.835.39.857.166.353.348.569.3
SiamPRN++[21]51.761.632.573.380.069.464.284.0
ATOM[22]55.663.440.270.377.164.864.3
Ocean[7]61.172.147.362.182.3
DiMP[23]61.171.749.274.080.168.765.485.8
KYS[24]63.675.151.574.080.068.8
DTT[25]63.474.951.479.685.078.9
PrDiMP[26]63.473.854.375.881.670.466.987.8
TrSiam[9]66.076.657.178.182.972.7
TrDimp[9]67.177.758.378.483.373.167.5
KeepTrack[13]68.379.361.078.183.573.869.7
STARK[27]68.878.164.182.086.9
TransT[10]72.382.468.281.486.780.369.1
CTT[28]81.486.4
TCTrack[12]60.480.0
AiATrack[11]69.677.763.282.787.880.469.390.7
ToMP[14]73.585.666.581.586.478.965.985.2
MixFormer[15]73.283.270.282.687.781.268.789.5
本研究算法73.983.368.682.787.780.869.390.5

新窗口打开| 下载CSV


为了测试本研究算法在不同干扰场景下的跟踪能力,选择在LaSOT(large-scale single object tracking)数据集上进行测试. LaSOT数据集由1400个序列组成,测试集包含280个视频序列,分为快速运动(fast motion)、遮挡(occlusion)、明暗变化(illumination)、运动模糊(motion blur)、形变(deformation)、尺度变化(scale variation)、超出视线之外(out-of-view)等14个属性. 如图6所示展示了不同算法在14个属性下的结果对比. 图中,[x, y]中xy分别表示在该属性下,测试算法AUC得分的最低值和最高值. 本研究算法结果在背景杂质(background clutter)属性下较TrDiMP[9]的略低,其他属性均优于其他算法的,尤其是在视点变化(viewpoint change) 、明暗变化(illumination)和尺度变化(scale variation)属性上均有较大提升. 此外,14个属性下的AUC得分均高于本研究的基线算法TransT[10]的,反映了所提出的带有动态位置编码和多域注意力增强的模型针对多种场景都有强大的特征提取和融合能力,具备良好的鲁棒性.

图 6

图 6   在LaSOT数据集中不同属性上的AUC表现

Fig.6   AUC performance of different attributes on LaSOT dataset


为了测试本研究模型的跟踪实时性, 将本研究算法与目前主流的跟踪算法在OTB100数据集上进行跟踪精度与速度的对比实验. OTB100由100个视频序列组成,包括25%的灰度序列,评价指标为AUC和P. 如图7所示列出了本研究算法和其他几种算法的AUC、精度和运行速度(使用2.1节中的测试环境)的对比结果. 图中,Le表示定位误差阈值,Ot表示预测值与真值之间框的重叠阈值,方框中的数值为定位误差阈值取20时对应的纵坐标的值. 可以看出,本研究算法的速度达到35.1帧/s,而MixFormer[15]的速度仅为24.8帧/s;AUC达到最优;P为次优,仅比具有相似物干扰分析模块的KeepTrack[13]算法略低,但KeepTrack[13]运行速度较低. 本研究算法的P比基线算法TransT[10]的提升2.4个百分点,比其他同样使用Transformer结构的ToMP[14]和TCTrack[12]分别高1.1个百分点和9.6个百分点,略高于MixFormer[15]算法的. 结果表明,本研究算法在OTB数据集上有较好的跟踪效果和跟踪速度.

图 7

图 7   OTB100上不同算法的成功率、精度和运行速度

Fig.7   Success rates, accuracy, and execution speeds of different algorithms on OTB100 dataset


2.3. 可视化分析

为了更直观地展示出本研究跟踪算法在目标形变、相似物混淆、快速移动和遮挡等复杂场景下的鲁棒性,测试了篮球、打斗、钞票和遮挡4个场景下不同算法的跟踪效果. 如图8所示,红色框代表本研究模型的跟踪结果,绿色框代表目标真实位置.

图 8

图 8   不同算法在4个场景下的表现

Fig.8   Performance of different algorithms in four scenarios


1)在篮球的视频序列中,在目标发生形变的同时出现相似物体,TransT[10]在此类场景下的跟踪能力不足,出现了跟踪失败的情况. 在第346帧时,其他算法均将目标识别到了其他相似球衣的运动员上. 本研究算法则正确跟踪了目标,展现出更强的特征表征能力.

2)在打斗场景中,跟踪物体较小且存在背景干扰. 在第36、37和51帧目标物较小时,本研究模型较其他算法得到了更加准确的目标框,TransT[10]和TCTrack[12]的表现不佳. TransT[10]在第92帧将背景中的雨滴误认为跟踪对象,本研究模型仍然可以得到较好的跟踪结果.

3)在钞票视频序列中,出现与目标物相同的物体,对跟踪器造成了干扰. 在第126帧将目标钞票折叠时,5个跟踪器都能够定位目标. 当第306、322、326帧出现相同钞票时,TransT[10]、TCTrack[12]和PrDiMP[26]将另外钞票误认为目标,DiMP[23]则是将2个钞票均识别成目标,本研究模型在此场景下体现出了较强的跟踪能力.

4)在第4个视频序列目标被大部分遮挡时,TransT[10]仅能跟踪目标露出的部分,本研究算法可以有效预测被遮挡的目标物.

为了探究模型在采用的特征融合模块(SEF、CFF)、动态位置编码(DPE)、多域注意力增强(MDAE)和空间域注意力增强(SDA)模块对跟踪结果会产生哪些影响,将模板和搜索区域特征图进行了可视化处理,结果如图9所示. 其中,第1、2行是模板和搜索区域进行SFE时的注意力图;第3、4行是模板和搜索区域进行SFF时的注意力图;第5行为在解码器阶段进行CFF和SDA时的注意力图;最后一列为MDAE增强后的注意力图. Nc为特征融合计算层数,取4.

图 9

图 9   特征融合及解码特征图可视化

Fig.9   Feature map visualization of feature fusion and feature decoding


整体来看,在自注意力特征增强(SFE)计算时,要分别提取模板和搜索区域的关键信息,模型此时更关注目标的中心位置. 而在交叉注意力特征融合(CFF)计算时,要依靠SFE提取的特征进行特征融合,实现对搜索区域的目标定位,模型此时更关注目标的边缘位置.在网络较浅即Nc=1、2时,仅依靠注意力计算不能有效提取模板的中心位置信息,动态位置编码(DPE)模块显著增强了模型提取模板图片和搜索区域中心区域的能力. 在Nc=3、4时,DPE模块有效解决了模型对模板特征注意力错位的问题,同时加强了模型对搜索区域边缘信息的注意力. 这表明,融合了动态位置编码的特征融合模块可以通过提高对位置信息的利用来修正错误的注意力,提高模型表达能力. 为了充分验证上述结论,将DPE模块嵌入到ToMP[14]和OSTrack[29]模型中,得到结果如表2所示. 可以看出,对ToMP[14]和OSTrack[29]增加DPE后,AO分别提升0.6个百分点和0.5个百分点. 此外,将ToMP[14]和OSTrack[29]计算时的特征图进行可视化,如图10所示. 可以看出,加入DPE模块,在3种场景下均对原本模型计算产生的错误的注意力有一定的修正效果,当第1行场景存在背景干扰时,DPE模块在ToMP[14]和OSTrack[29]上均使得注意力更集中到物体本身. 从第3行可以看出,DPE明显修正了原本模型错误的注意力.

表 2   ToMP、OSTrack中嵌入DPE在GOT-10K上的表现

Tab.2  Performance of ToMP and OSTrack with DPE embedded on GOT-10K

模块AO/%SR0.50/%SR0.75/%
ToMP[14]71.983.166.7
ToMP[14]+DPE72.583.466.8
OSTrack[29]73.182.570.9
OSTrack[29]+DPE73.682.870.8

新窗口打开| 下载CSV


引入多域注意力增强(MDAE)模块后,模型更加关注模板的中心位置和搜索区域的边缘位置. 同样,解码器在添加空间域增强(SDA)模块后,对目标边缘信息的捕捉更加明显. 这是因为预测头由分类+回归组成,边缘信息更有助于区分前景和背景,从而实现目标定位.

图 10

图 10   ToMP、OSTrack嵌入DPE的特征图可视化展示

Fig.10   Feature map visualization of ToMP, OSTrack with DPE embedded


2.4. 消融实验

为了测试动态位置编码(DPE)模块、空间域注意力(SDA)模块和多域注意力(MDAE)模块对跟踪结果的影响,在GOT-10K上进行消融实验. 具体测试结果如表3所示. 表中,fps为速度. 第1行为本地复现TransT[10]结果,由于实验设备、数据量、运行环境等原因,本研究测试的Base算法TransT效果与原文[10]有所不同(原文中GOT-10K数据集测试AO为72.3%,速度为50.0帧/s).

表 3   GOT-10K数据集上消融实验结果

Tab.3  Results of ablation experiment on GOT-10K

BaseDPEMDAEDecoderAO/%fps/(帧·s−1
SDACDA
71.740.1
72.836.7
73.435.7
72.638.6
73.934.5
73.935.1

新窗口打开| 下载CSV


表3中第1行可以看出,添加DPE模块后,AO相比较基线算法TransT[10]增长了1.1个百分点,验证了在注意力计算后附加的动态位置编码DPE模块可以随注意力计算逐层添加特征图的位置信息,从而有效提升注意力精确度. 加入DPE模块后,速度为36.7帧/s,降低幅度不大. 在算法设计中,MDAE和Decoder-SDA相较DPE模块参数量更少. 如表中第3行数据所示,在加入MDAE后,相比于第2行数据,AO增长0.6个百分点,速度仅降低1.0帧/s,说明融合了通道和空间注意力的特征可以有效提升模型的跟踪精度. 而在仅添加MDAE和Decoder-SDA模块时,运行速度降低并不明显,AO提升0.9个百分点,表明MDAE模块中的参数缩减策略可以在保证精度提高的同时降低算法复杂度. 从第6行可以看出,在解码器中添加SDA模块后,相较于第3行,AO提升0.5个百分点,表明SDA中3个平行卷积的设计可以为分类回归预测头提供更加精确的信息. 此外,第5行的实验结果显示,将CDA模块应用到解码器中对模型准确率并没有有效提升.为了使模型更为简洁高效,在Decoder设计中仅保留SDA模块.

3. 结 语

在融合模板和搜索区域特征时引入动态位置编码模块,提高位置信息利用率,同时使用空间和通道注意力增强模块增强特征的表征能力. 在解码器模块将融合了模板和搜索区域的特征序列通过交叉注意力CFF和空间域注意力SDA增强模块进一步增强,得到更突出边缘信息的搜索区域特征. 在GOT-10K、TrackingNet、OTB、UAV123、LaSOT数据集上验证本研究算法的有效性,结果表明,与当前其他优异的跟踪器相比,本研究模型能更好地适应尺度变化、遮挡、相似物干扰等情况.

实验过程中发现本研究算法在目标发生严重形变和相似物体干扰同时出现的情况下,仍会出现错误跟踪的结果,后续将结合上下文时序信息进行研究,进一步提升算法精度.

参考文献

韩瑞泽, 冯伟, 郭青, 等

视频单目标跟踪研究进展综述

[J]. 计算机学报, 2022, 45 (9): 1877- 1907

DOI:10.11897/SP.J.1016.2022.01877      [本文引用: 1]

HAN Ruize, FENG Wei, GUO Qing, et al

Single object tracking research: a survey

[J]. Chinese Journal of Computers, 2022, 45 (9): 1877- 1907

DOI:10.11897/SP.J.1016.2022.01877      [本文引用: 1]

卢湖川, 李佩霞, 王栋

目标跟踪算法综述

[J]. 模式识别与人工智能, 2018, 31 (1): 61- 76

[本文引用: 1]

LU Huchuan, LI Peixia, WANG Dong

Visual object tracking: a survey

[J]. Pattern Recognition and Artificial Intelligence, 2018, 31 (1): 61- 76

[本文引用: 1]

BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking [C]// 14th European Conference on Computer Vision . Amsterdam: Springer, 2016: 850–865.

[本文引用: 3]

陈志旺, 张忠新, 宋娟, 等

基于目标感知特征筛选的孪生网络跟踪算法

[J]. 光学学报, 2020, 40 (9): 110- 126

[本文引用: 1]

CHEN Zhiwang, ZHANG Zhongxin, SONG Juan, et al

Tracking algorithm for siamese network based on target-aware feature selection

[J]. Acta Optica Sinica, 2020, 40 (9): 110- 126

[本文引用: 1]

陈法领, 丁庆海, 罗海波, 等

基于自适应多层卷积特征决策融合的目标跟踪

[J]. 光学学报, 2020, 40 (23): 175- 187

[本文引用: 1]

CHEN Faling, DING Qinghai, LUO Haibo, et al

Target tracking based on adaptive multilayer convolutional feature decision fusion

[J]. Acta Optica Sinica, 2020, 40 (23): 175- 187

[本文引用: 1]

LI B, YAN J, WU W, et al. High performance visual tracking with Siamese region proposal network [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE, 2018: 8971–8980.

[本文引用: 1]

ZHANG Z, PENG H, FU J, et al. ocean: object-aware anchor-free tracking [C]// 16th European Conference on Computer Vision . Glasgow : Springer, 2020: 771–787.

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// 31st Annual Conference on Neural Information Processing Systems . Long Beach: IEEE, 2017: 5998–6010.

[本文引用: 1]

WANG N, ZHOU W, WANG J, et al. Transformer meets tracker: exploiting temporal context for robust visual tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . [s.l.]: IEEE, 2021: 1571–1580.

[本文引用: 4]

CHEN X, YAN B, ZHU J, et al. Transformer tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . [s.l.]: IEEE, 2021: 8126–8135.

[本文引用: 19]

GAO S, ZHOU C, MA C, et al. Aiatrack: attention in attention for transformer visual tracking [C]// 17th European Conference on Computer Vision . Tel Aviv: Springer, 2022: 146–164.

[本文引用: 2]

CAO Z, HUANG Z, PAN L, et al. TCTrack: temporal contexts for aerial tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 14798–14808.

[本文引用: 5]

MAYER C, DANELLJAN M, PAUDEL D P, et al. Learning target candidate association to keep track of what not to track [C]// 18th IEEE/CVF International Conference on Computer Vision . [s.l.]: IEEE, 2021: 13444–1345.

[本文引用: 4]

MAYER C, DANELLJAN M, BHAT G, et al. Transforming model prediction for tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8731–8740.

[本文引用: 10]

CUI Y, JIANG C, WANG L, et al. Mixformer: end-to-end tracking with iterative mixed attention [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 13608–13618.

[本文引用: 6]

WU Q, YANG T, LIU Z, et al. Dropmae: masked autoencoders with spatial-attention dropout for tracking tasks [C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE, 2023: 14561–14571.

[本文引用: 1]

CHEN X, PENG H, WANG D, et al. Seqtrack: sequence to sequence learning for visual object tracking [C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE, 2023: 14572–14581.

[本文引用: 1]

CHU X, TIAN Z, ZHANG B, et al. Conditional positional encodings for vision transformers. (2021-02-22)[2023-10-10]. https://www.arxiv.org/abs/2102.10882v2.

[本文引用: 2]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// 15th European Conference on Computer Vision . Munich: Springer, 2018: 3–19.

[本文引用: 1]

WANG C, XU H, ZHANG X, et al. Convolutional embedding makes hierarchical vision transformer stronger [C]// 17th European Conference on Computer Vision . Tel Aviv: Springer, 2022: 739–756.

[本文引用: 1]

LI B, WU W, WANG Q, et al. Siamrpn++: evolution of siamese visual tracking with very deep networks [C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 15–20.

[本文引用: 1]

DANELLJAN M, BHAT G, KHAN F S, et al. ATOM: accurate tracking by overlap maximization [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 4660–4669.

[本文引用: 1]

BHAT G, DANELLJAN M, GOOL L V, et al. Learning discriminative model prediction for tracking [C]// IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 6182–6191.

[本文引用: 2]

BHAT G, DANELLJAN M, VAN G L, et al. Know your surroundings: exploiting scene information for object tracking [C]// 16th European Conference on Computer Vision . Glasgow: Springer, 2020: 205–221.

[本文引用: 1]

YU B, TANG M, ZHENG L, et al. High-performance discriminative tracking with transformers [C]// 18th IEEE/CVF International Conference on Computer Vision . [s.l.]: IEEE, 2021: 9856–9865.

[本文引用: 1]

DANELLJAN M, GOOL L V, TIMOFTE R. Probabilistic regression for visual tracking [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . [s.l.]: IEEE, 2020: 7183–7192.

[本文引用: 2]

YAN B, PENG H, FU J, et al. Learning spatio-temporal transformer for visual tracking [C]// 18th IEEE/CVF International Conference on Computer Vision . [s.l.]: IEEE, 2021: 10448–10457.

[本文引用: 1]

ZHONG M, CHEN F, XU J, et al. Correlation-based transformer tracking [C]// 31st International Conference on Artificial Neural Networks . Bristol: European Neural Networks Soc, 2022: 85–96.

[本文引用: 1]

YE B, CHANG H, MA B, et al. Joint feature learning and relation modeling for tracking: a one-stream framework [C]// 17th European Conference on Computer Vision . Tel Aviv: Springer, 2022: 341–357.

[本文引用: 6]

/