基于双注意力机制的多分支孪生网络目标跟踪

doi:10.3785/j.issn.1008-973X.2023.07.005

基于双注意力机制的多分支孪生网络目标跟踪

李晓艳^,, 王鹏^,, 郭嘉, 李雪, 孙梦宇

西安工业大学电子信息工程学院，陕西西安 710021

Multi branch Siamese network target tracking based on double attention mechanism

LI Xiao-yan^,, WANG Peng^,, GUO Jia, LI Xue, SUN Meng-yu

School of Electronic and Information Engineering, Xi’an Technological University, Xi’an 710021, China

通讯作者: 王鹏，男，教授. orcid.org/0000-0002-2801-4012. E-mail： wang_peng@xatu.edu.cn

收稿日期: 2022-06-20

基金资助:

国家自然基金资助项目（62171360）；陕西省科技厅重点研发计划资助项目（2022GY-110）；2023年陕西省高校工程研究中心资助项目；2022年度陕西高校青年创新团队资助项目；山东省智慧交通重点实验室（筹）

Received: 2022-06-20

Fund supported:

作者简介 About authors

李晓艳（1982—），女，副教授，从事目标识别与跟踪的研究.orcid.org/0000-0002-1459-428X.E-mail：76469715@qq.com , E-mail：76469715@qq.com

摘要

为了解决SiamRPN++单目标跟踪算法在目标被短时遮挡及外观剧烈变化时定位不准确的问题，提出基于双注意力机制的多分支孪生网络目标跟踪算法. 采用具有轻量化主干网络的SiamRPN++为基础算法，结合轻量化的通道和空间注意力机制，提升跟踪过程中应对遮挡挑战时的抗干扰能力. 新增上一帧模板分支，动态更新目标外观变化，利用三元组损失增强跟踪过程中前景与背景的判别能力. 根据目标的移动速度进行局部扩大搜索，使目标被短时遮挡后仍可以及时、准确地跟踪到目标. 实验结果表明，改进后的算法在OTB100数据集的成功率和精确度较原算法分别提高了2.4%和1.6%，平均中心位置误差降低了28.97个像素，平均重叠率提高了14.5%.

关键词： 孪生网络 ; 注意力机制 ; 模板更新 ; 局部扩大

Abstract

A multi branch Siamese network target tracking algorithm based on dual attention mechanism was proposed in order to solve the problem of inaccurate positioning in the SiamRPN++ single target tracking algorithm when the target was briefly occluded and the appearance drastically changed. SiamRPN++ with lightweight backbone network was adopted as the basic algorithm. The algorithm was combined with lightweight channel and spatial attention mechanism in order to improve the anti-interference ability when dealing with occlusion challenges during the tracking process. A template branch was added from the previous frame, and the appearance changes of the target were dynamically updated. The ability to distinguish between foreground and background was enhanced during the tracking process using triplet loss. Local expansion search was conducted based on the speed of the target’s movement in order to enable timely and accurate tracking of the target even after short-term occlusion. The experimental results showed that the improved algorithm improved the success rate and precision of the OTB100 dataset by 2.4% and 1.6%, respectively, compared to the original algorithm. The average center position error decreased by 28.97 pixels, and the average overlap rate increased by 14.5%.

Keywords： Siamese network ; attention mechanism ; template update ; local enlargement

PDF (2692KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李晓艳, 王鹏, 郭嘉, 李雪, 孙梦宇. 基于双注意力机制的多分支孪生网络目标跟踪. 浙江大学学报(工学版)[J], 2023, 57(7): 1307-1316 doi:10.3785/j.issn.1008-973X.2023.07.005

LI Xiao-yan, WANG Peng, GUO Jia, LI Xue, SUN Meng-yu. Multi branch Siamese network target tracking based on double attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(7): 1307-1316 doi:10.3785/j.issn.1008-973X.2023.07.005

近年来，随着人工智能和智能算法处理技术的不断发展和广泛应用，目标跟踪一直备受关注. 目标跟踪主要是在目标受到光照变化、遮挡、尺度变换、形变等复杂情况下，仅通过首帧中的目标位置和尺度信息，便可以实时、准确地对后续帧中的目标进行定位和尺度估计.

基于孪生网络的目标跟踪一直是国内外该领域的重点研究方向. Bertinetto等^[1]提出基于离线端到端训练的SiamFC算法. Valmadre等^[2]提出CF-Net，是在SiamFC的结构上加入可以端到端训练的相关滤波器层. He等^[3]提出SA-Siam，构建2个孪生网络框架，一个是语义网络，另一个是外观网络，2种网络互补，提升了目标跟踪的性能. Li等^[4]为了应对基于孪生网络的目标跟踪无法有效利用深度网络特征的问题，成功训练了基于ResNet^[5]架构的SiamRPN++算法. Wang等^[6]提出的SiamMask结合目标跟踪和目标分割2种网络，可以同时完成视频跟踪和分割的任务. 为了使跟踪领域的理论结构更加完善，Xu等^[7]提出SiamFC++，在SiamFC的基础上引入分类分支和目标状态估计分支. 本文通过加入双注意力机制，新增上一帧模板分支及局部扩大搜索方式，提升了目标跟踪的性能.

1. 本文算法

由于SiamRPN++在跟踪过程中不能有效地应对严重遮挡或目标严重形变的问题，使得在跟踪过程中应对遮挡情况的效果不佳，对复杂背景下的目标判别能力不强. 针对以上问题，在原有的主干网络上加入双注意力机制，提升跟踪过程的抗干扰能力. 增加上一帧模板分支，采用三元组损失用以应对目标严重形变时的情况. 在判断目标受到遮挡后，依据目标移动速度进行局部扩大搜索，做到跟踪过程中目标在受到短时完全遮挡后可以重新跟踪到目标. 改进后的算法跟踪模型的总体结构如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 提出算法模型的总体结构图

Fig.1 Overall structure diagram of proposed algorithm model

图1中，ECA_GEC_RPN表示添加双注意力机制改进后的RPN模块，经过共同加权融合定位目标后，确定目标位置及尺度. 在此过程中会监测跟踪目标的置信度，当置信度低于阈值 ${\tau _1}$时，上一帧模板分支对样本及时进行更新，共同加权融合，确保在目标产生较大变化时，对目标的预测保持稳定. 当置信度低于阈值 ${\tau _0}$时，依据目标的运行速度，对跟踪区域进行局部扩大搜索，直至发现目标.

2. 相关工作

2.1. 融合双注意力机制

注意力机制能够根据不同特征在分类和回归操作中的贡献程度，为特征的重要通道或空间分配较高的权重，使得整体网络表现出更强的跟踪效果^[8]. 将双注意力机制与RPN区域提议网络相结合，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 结合双注意力的RPN结构图

Fig.2 RPN structure diagram combined with dual attention

ECA^[9]结构即是通道注意力模块，用以学习生成不同模板特征的通道相关的权重. 为了减少无关图像区域的干扰，提高图像的空间感知性能，搜索图像不直接通过通道注意力机制模块. 搜索分支的优化是从网络特性的角度考虑，孪生网络中采用卷积神经网络对目标进行特征提取，但在该方式下提取到的目标特征只是目标的局部特征，没有获取全局上下文特征. 为了更好地使用本文特征提取网络中所提取的浅层、中层和深层特征，也为了增强搜索分支的特征提取能力，引入全局上下文注意力机制，提升目标跟踪过程中的泛化能力.

通道注意力ECA模块由平均池化层、全连接层、一维卷积核和激活函数层组成，结构如图3所示.该模块的输入为各个通道的深度特征图 $ {{\boldsymbol{F}}^{w \times h \times d}} = $ $\{ {{\boldsymbol{F}}_i}\} _{i = 1}^d $，其中 $w、h、d$分别为宽、长和通道数，即模板分支不同层次的特征. 经过平均池化层降采样缩小输入特征图的规模，减少与空间无关的计算，生成尺度较小的通道特征图 ${{\boldsymbol{F}}^{w' \times h' \times d'}}$作为第1个全连接层的输入. SE-Net^[10]注意力机制模块采用激活函数跨通道降维的方式实现非线性跨通道交互，会造成有效信息的丢失. 为了更准确地赋予通道权重，如图3所示，采用无降维的局部跨通道交互策略，利用大小为 $k$的快速一维卷积生成新的全连接层，其中 $k$通过通道数 $d$自适应确定. 通过Sigmoid激活，得到各个通道的权重. 将生成的权重与输入特征相乘，以此来得到最终的通道注意力特征图 ${\boldsymbol{F}}_{{\text{ECA}}}^{w \times h \times d} = \{ {{\boldsymbol{F}}_{{\text{ECA}},i}}\} _{i = 1}^d$. 通道 $i$的注意力特征图如下：

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 通道注意力模块结构图

Fig.3 Structure diagram of channel attention model

(1) $ {{\boldsymbol{F}}_{{{\rm{ECA}}},i}} = {{{w}}_{{i}}} \times {{\boldsymbol{F}}_{{i}}}. $

式中： $ \times $为矩阵向量的数乘.

$k$决定交互的覆盖范围，不同的通道数和卷积块可能会有不同的表现. 一般认为通道尺寸越大，长交互作用效果越强；通道尺寸越小，短交互作用效果越强. 根据这种映射关系，求取 $k$的关系式如下：

(2) $ d{\text{ = }}\phi (k) \approx \exp\; (\gamma k - q). $

由于通道数常为2的整数次幂，用 ${2^{(\gamma k - b)}}$取代指数次幂，其中 $\gamma $和 $q$表示常数经验值. 对于给定的 $d$，可以自适应确定内核 $k$：

(3) $ k = \psi (d) = \left| {\frac{{{{\log }_2}d}}{\gamma }+\frac{q}{\gamma }} \right|. $

对搜索分支进行优化后，再将改进后的GC-Net^[11]添加至搜索分支，用于获取非局部信息. 主要的工作过程如下：采用1×1卷积 ${{\boldsymbol{W}}_k}$和Softmax函数在上下文建模的全局注意力机制中得到自注意力权重；通过特征转换，获取通道依赖性；使用加权，将全局上下文特征聚合到每一个位置的特征上. 全局上下文模块工作过程的表达式如下：

(4) $ {{\boldsymbol{Z}}_i} = M\left({{\boldsymbol{X}}_i},\;\delta \left(\sum\nolimits_{j = 1}^{{N_{\rm{p}}}} {{\alpha _j}{{\boldsymbol{X}}_j}} \right)\right). $

式中： ${\boldsymbol{X}}$为该网络结构的输入， ${\boldsymbol{Z}}$为该网络结构的输出， ${N_{\rm{p}}}$为图像上的所有位置数， $\displaystyle\sum {{\alpha _j}{{\boldsymbol{X}}_j}} $为上下文模型， $ \delta (\cdot) $为捕获信道依赖关系的特征变换， $ M(\cdot,\cdot) $为融合函数.

改进前、后的全局上下文模型的详细结构如图4所示. 如图4(a)所示为未改进的全局上下文模块，如图4(b)所示为改进后的全局上下文模块，模块内的各阶段与3个过程对应. 从图4(a)可以看出，全局上下文注意力模块结合了全局注意力模块 ${{\boldsymbol{W}}_k}$与SE-NET模块 ${{\boldsymbol{W}}_{v1}}$，由于ECA具有更优的通道注意力性能，将 ${{\boldsymbol{W}}_{v1}}$模块中的LayerNorm操作替换为ECA的快速一维卷积.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 全局上下文注意力模块的结构图

Fig.4 Structure diagram of global context attention module

搜索分支的特征输入至改进后的全局上下文网络，依次通过主要操作的3个过程. 通过3个过程对特征进行转化后，获取到通道依赖性的部分. 使用ECA通道注意力机制，既提升了通道注意力机制的性能，又使得网络结构轻量化. 全局上下文模型表示如下：

(5) $ \begin{split} &{{\boldsymbol{Z}}_i} =\\ &{{\boldsymbol{X}}_i}+{{\boldsymbol{W}}_{v2}}F \left( {{\boldsymbol{W}}_{v1}} \sum\limits_{j = 1}^{{N_{\rm{p}}}} \left( {{{\rm{exp}}\;({{{\boldsymbol{W}}_k}{{\boldsymbol{X}}_j})}} \Bigg/ {\sum\limits_{m = 1}^{{N_{\rm{p}}}} {{{\rm{exp}}\;({{\boldsymbol{W}}_k}{{\boldsymbol{X}}_m})}} }} \right){{\boldsymbol{X}}_j} \right). \end{split} $

式中： ${{{{\rm{exp}}\left({{{\boldsymbol{W}}_k}{{\boldsymbol{X}}_j}}\right)}}\Bigg / {\displaystyle\sum\nolimits_{m = 1}^{{N_{\rm{p}}}} {{{\rm{exp}}\;\left({{{\boldsymbol{W}}_k}{{\boldsymbol{X}}_m}}\right)}} }}$为全局注意力池化权重， $ {{\boldsymbol{W}}}_{v2}F({{\boldsymbol{W}}}_{v1}(\cdot)) $表示将特征的全局注意力转化为通道注意力.

该网络结构属于轻量级模型，全局注意力的应用使得网络能够捕获远程非局部特征. 经过全局注意力特征提取后，再转化为通道注意力进行权重赋值，可以有效地提升孪生网络的目标跟踪性能.

2.2. 三分支与三元组损失的目标定位

为了提升孪生网络目标跟踪在应对目标形变较大或短时严重遮挡情况下的跟踪性能，如图1所示，添加上一帧模板分支. 图中，上层表示模板分支，固定以第1帧 ${z_0}$为模板，输入图像的大小为 $127 \times 127$像素；中间部分是搜索分支，也是后续帧 $x$的输入，输入图像的大小为 $255 \times 255$像素；下层表示上一帧模板分支，当判别目标受到部分遮挡时发生的较大形变后，将遮挡前的定位结果进行裁剪，得到新的模板帧 ${z_{\rm{p}}}$，输入图像的大小与第1帧模板分支相同，与搜索分支进行相似性判别后，开展深度特征融合与联合判别.

与双分支不同的是，三分支孪生网络在训练过程中将图像分成3组. 第1帧模板分支是随机从一个视频序列中选择一帧，搜索分支中正样本是从当前视频序列中随机选取图像，负样本是从其他视频序列或添加好的目标跟踪数据集中获取. 为了防止目标外观变化过大所带来的不利影响，设定两分支中选取的2帧图像之间间隔不超过100帧，上一帧模板的选取与搜索帧的序号有关. 为了使得搜索分支的图像与上一帧模板分支图像中的目标外观相差较小，上一帧模板选取的设计条件如下：

(6) $ \# x = \left\{ \begin{gathered} \max \;\{ 0,\;{z_{\rm{p}}} - g\} ,\;\# {z_{\rm{p}}} < \# {z_1} ; \\ \min \;\{ |L|,\;{z_{\rm{p}}}+g\} ,\;\# {z_{\rm{p}}} > \# {z_1} . \\ \end{gathered} \right. $

式中： $\# $为帧序号； $g$为帧间隔，取值为较小的正整数； $\left| L \right|$为视频序列的长度，通过该操作可以达到搜索帧与上一模板帧相近的采样效果.

跟踪初始化时，获取第1帧图像同时作为第1帧模板和下一帧模板. 在跟踪过程中，第1帧模板不发生改变，当跟踪输出的评分一直为较高值时，不进行更新. 当目标发生部分遮挡或形态变化时，跟踪输出的评分会低于阈值 ${\tau _1}$，此时上一帧模板进行更新，在该过程中，会对上一次的跟踪结果进行裁剪. 为了避免较严重遮挡和短时完全遮挡，上一帧模板分支会在高于阈值 ${\tau _0}$的情况下进行更新，裁剪过程如下：

(7) $ {z_{\rm{s}}} = {\text{wrap}}\;({(f({z_0},x,{z_{\rm{p}}}))_{b - 1}}){\kern 1pt} . $

式中： $\text{wrap}\;(\cdot)$为图像的裁剪函数， $f({z_0},x,{z_{\rm{p}}}) \in [{\tau _0},{\tau _1}]$为三分支孪生网络目标跟踪所得到的响应得分， $b - 1$为选取上一帧的目标跟踪框.

若判断出目标响应得分处于 $[{\tau _0},{\tau _1}]$，则对跟踪结果进行裁剪，得到上一帧模板帧. 将裁剪得到的样本作为上一帧模板帧，更新模板分支中的第1帧图像，更新模板进行加权判决，提高了跟踪的抗遮挡和严重形变的能力. 模板更新的过程如图5所示. 图中， ${{H}}$表示不断更新的搜索分支； ${z_{\rm{p}}}$表示在固定阈值内对上一帧模板分支进行更新，上一帧模板分支与第1帧模板分支一起加权融合定位目标，可以有效地提升目标跟踪过程中算法在复杂场景下性能的鲁棒性.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 模板更新的示意图

Fig.5 Schematic diagram of template update

由于在目标形态发生严重变化时，引入了上一帧模板分支，用于对模板分支的图像进行更新，这对网络的训练过程带来了一定的挑战. 考虑到样本特征的聚合，在增强目标判别能力的同时，正负样本的特征数量会增加，此时使用传统的交叉熵损失可能提取不到表达深层特征的目标信息. 为了准确地区分复杂环境下的前景与背景，不同于双分支孪生网络的训练过程，上一帧模板分支采用判别能力更强的三元组损失进行分类判别.

2.3. 局部扩大搜索

目标在运动过程中可能会受到车辆、树木和建筑物的干扰，在行径间被遮挡的情况下目标会在一段时间间隔后再次出现. 此时若判别目标丢失后直接启动全局搜索，则会大大增加计算成本. 为了防止搜索过多的无效区域，在目标丢失后，采用局部扩大搜索的机制.

将目标的中点 $(x+{w}/{2},y+{h}/{2})$视作目标在图像中表示的位置，其中 $x、y、w、h$分别为预测目标框左上角的横、纵坐标以及框的宽和长. 确定中点的优点是可以将目标视为质点，方便确定目标的运动轨迹和运动速度. 计算视频中质点的运动速度 $v$通过帧之间质点的移动像素数 $n$及所用时间 $t$计算，即 $v = n/ t$可以表示目标的运行速度. 为了更好地将速度作为参考量，开展归一化操作，如下所示：

(8) $ {v_{{\text{norm}}}} = \frac{{v - {v_{\min }}}}{{{v_{\max }} - {v_{\min }}}}. $

式中： ${v_{\max }}$、 ${v_{\min }}$分别为速度列表中目标运动速度的最大值和最小值，通过归一化操作，将速度的表示量限定在 $[0,1.0]$. 通过实验可知，扩大搜索的区域是样本分支中目标区域的3~6倍，以此达到有效重检测的效果. 构建扩大搜索函数如下：

(9) $ y = 500{v_{{\text{norm}}}}+255. $

式中：255为原搜索模板的大小，500为扩大后的最大搜索模板大小. 为了不引入过多的干扰量，扩大搜索期间不进行模板更新.

当跟踪的得分小于一定阈值时，可以认为已经丢失目标. 此时，根据目标的运行速度进行局部扩大搜索，三分支共同定位增大了目标框的稳定性，减少了漂移情况的发生，目标框的逐步扩大有利于短时完全遮挡后更加高效地跟踪到目标.

3. 实验方法和结果

3.1. 实验环境及参数设置

本文的实验环境是Intel Xeon(R) Gold 5118 CPU @2.30 GHz*48处理器、NVIDIA Quadro P6000 24 GB专业图形显卡，使用的深度学习框架为PyTorch1.2.0开发环境，编程语言及版本为python3.6.5. 在上述实验环境下，批处理大小batch size设置为64，训练的初始学习率为 $3 \times {10^{ - 2}}$，终止学习率为 $5 \times {10^{ - 4}}$，采用随机梯度下降(SGD)的方式，动量大小设置为0.9，权重衰减率为 ${10^{ - 4}}$.

3.2. 训练集和测试集

在以下4个训练集上对改进算法进行训练.

1）COCO数据集：共20 GB，主要从复杂的日常场景中截取，图像包括328 000个视频和2 500 000个标签数据. 每幅图像平均包含的目标数较多，因此该数据集常用作目标跟踪算法训练的数据集，可以有效地增强跟踪过程中的判别能力.

2）ImageNet-DET数据集，使用49 GB，该数据集已标记图像中所有类别的边界框. 类别是根据不同的因素选择的，例如对象比例、图像混乱程度、对象实例的平均数量等.

3）ImageNet-VID数据集：约86 GB，数据集包含3 862个片段用于训练，每个片段包括56~458帧图像. 在跟踪算法训练时，可以有效地提供目标在运动时的变化情况.

4）YOUTUBEBB数据集：共400 GB，含23个类别，共500万个手动注释的目标、紧密贴合对象边界的边界框，精度高于95%. 由于孪生网络的目标跟踪算法训练过程主要是训练得到目标运动过程中的变化情况，因此需要大量且丰富的数据集对其进行训练.

为了证明所提算法的有效性，在OTB100^[12]数据集上分别选取若干具有挑战的图像序列进行测试，对算法进行定性与定量分析. 定性分析是指对不同算法在相同视频序列下的实际跟踪效果进行对比评判，定量分析是指选取中心位置误差、重叠率、成功率和精确度4个指标评价跟踪结果.

3.3. 定性分析与讨论

为了对比所提算法，将所提算法称为DSiamRPNMEG++，将仅加入双注意力机制后的算法称为SiamRPNMEG++，将原算法称为SiamRPNM++算法，选取跟踪效果较优的DaSiamRPN算法与上述3种算法进行实验对比.

如表1所示为选取的跟踪视频序列，在该视频序列下分别对4种算法进行定性及定量分析. 这些视频序列以完全遮挡属性为主，每个视频序列还包含了其他属性. 在测试中不只考虑算法在遮挡时的表现，也能够体现算法在其他属性下的性能表现.

表 1 跟踪视频序列及属性

Tab.1 Tracking video sequence and attributes

视频序列	视频序列属性
Suv	短时完全遮挡，平面内旋转，超出视野范围
Skating1	光照变化，尺度变化，遮挡，形变，平面外翻转，背景干扰
Girl2	短时遮挡，旋转，尺度变化，形变，快速移动
Ironman	光照变化，尺度变化，复杂部分与完全遮挡，平面内、外旋转，背景干扰，快速移动，运动模糊，超出视野，低分辨率

新窗口打开| 下载CSV

如图6所示为4种算法在4个序列上的定性分析结果.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 定性分析结果图

Fig.6 Results of qualitative analysis

如图6(a)所示，在Suv序列中，运动目标高速移动，且受到严重遮挡. 第476帧时，采用4种算法都可以准确地跟踪目标. 第551帧时，DaSiamRPN发生目标框漂移. 第618帧时，目标被遮挡部分所占的比重极大，只有DSiamRPNMEG++算法可以跟踪目标. 第688帧时，只有DSiamRPNMEG++算法与SiamRPNMEG++算法可以准确地跟踪运动目标，其他算法均没有及时地跟踪重新出现后的目标.

在图6 (b)的Skating1序列中，光照变化、平面外翻转及遮挡情况较严重. 第27帧时，目标状态不具有挑战性. 第162帧时，目标发生遮挡，利用提出的DSiamRPNMEG++算法可以准确地跟踪到目标， SiamRPNMEG++算法、DaSiamRPN算法及SiamRPNM++算法中的目标跟踪框均开始有漂移的趋势. 第191帧与第241帧时，SiamRPNM++算法与DaSiamRPN算法均无法跟踪到目标.

在图6 (c)的Girl2序列中，目标受到相似物体的完全遮挡. 第10帧时，利用4种算法都可以跟踪到目标. 第112帧时，遮挡物出现，目标不处于视野中，SiamRPNM++发生轻微漂移，10帧之后行人不再对目标形成遮挡，只有DSiamRPNMEG++算法逐步扩大搜索，跟踪到了目标，其他算法都形成了漂移. 第172帧时，利用SiamRPNMEG++、SiamRPNM++及DaSiamRPN算法无法跟踪到目标.

在图6(d)的Ironman中，目标受到低光照、快速移动、旋转、遮挡等恶劣环境的影响. 第21帧时，利用4种算法均可以跟踪目标. 第29帧时，DaSiamRPN发生目标框漂移，利用其他算法均可以跟踪目标，但SiamRPNMEG++的尺度判别略微大于目标. 第114帧与第142帧时，SiamRPNM++的目标跟踪框随着DaSiamRPN发生了漂移，脱离了目标，而利用DSiamRPNMEG++算法可以准确地跟踪目标.

3.4. 定量分析与讨论

3.4.1. 中心位置误差测评

中心位置误差的计算公式如下：

(10) $ l = \sqrt {{{\left\| {{\boldsymbol{C}} - {\boldsymbol{C}}'} \right\|}^2}} . $

式中： ${\boldsymbol{C}}$为由算法计算得到的目标中心位置， ${\boldsymbol{C}}'$为数据集中由人工标定的实际目标中心位置. 中心位置误差越小，算法越好.

从图7的4个中心位置误差结果可知，与SiamRPNM++算法模型相比，DSiamRPNMEG++算法的中心位置误差都降低. 相较于SiamRPNMEG++算法，Suv序列误差降低了2.6个像素点，Skating1的中心误差减少了0.39个像素点，Girl2序列中由于SiamRPNMEG++算法不具备应对短时完全遮挡的原因表现最明显，减少了30.15个像素点，Ironman序列减少了2.34个像素点. 4个序列中心位置误差相较于原算法平均降低了28.97个像素点.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 中心位置误差结果的曲线图

Fig.7 Curve chart of center position error results

3.4.2. 重叠率测评

重叠率的计算公式如下：

(11) $ O = \frac{{\bar S \cap S}}{{\bar S \cup S}}. $

式中： $ \bar S $为由算法计算得到的目标覆盖范围， $S$为数据集中由人工标定的实际目标覆盖范围. 重叠率越高，算法越好.

从图8可知，利用DSiamRPNMEG++算法所得的重叠率表现最优，4个视频序列均有提升，相较于SiamRPNM++算法，本文算法的重叠率平均提升了14.5%，说明三分支模板更新的孪生网络目标跟踪，可以有效地提高目标在复杂环境下的跟踪性能. 为了说明本文算法在遮挡属性下的有效性，在OTB100数据集上选取10个复杂环境下的严重遮挡与短时完全遮挡序列，测试结果如表2所示. 表中，l_avg为平均中心位置误差，O_avg为平均重叠率.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 重叠率结果曲线图

Fig.8 Overlap rate result curve

表 2 10个跟踪视频序列下的平均中心位置误差与重叠率

Tab.2 Average center position error and overlap rate for 10 tracking video sequences

算法	l_avg	O_avg
DSiamRPNMEG++	13.22	0.69
SiamRPNMEG++	16.57	0.63
SiamRPNM++	50.32	0.57
DaSiamRPN	22.56	0.59

新窗口打开| 下载CSV

从表2可知，在具有严重遮挡与短时完全遮挡属性的视频序列上进行测试，改进后的DSiamRPNMEG++的平均中心位置误差较改进前的SiamRPNM++降低了37.1个像素点，平均重叠率提升了12%，证明本文算法在跟踪结果上有一定的提升.

3.4.3. 成功率

成功率指的是所有视频序列中重叠率大于特定阈值的帧数占总帧数的比例. 所得的结果越高，跟踪效果越好. 成功率的计算公式如下：

(12) $ s = {{T_{\rm{s}}}}/{T}. $

式中： ${T_{\rm{s}}}$为跟踪重叠率大于特定阈值的帧数， $T$为跟踪视频的总帧数.

3.4.4. 精确度

精确度指的是所有视频序列中，中心位置误差小于固定阈值的帧数占总帧数的比例. 精确度的计算公式如下：

(13) $ p = {{T_{\rm{p}}}}/{T}. $

式中： ${T_{\rm{p}}}$为跟踪误差小于跟踪阈值的帧数， $T$为跟踪视频的总帧数.

为了更好地表现本文算法的跟踪性能，在OTB100整体数据集上开展实验，分别得到成功率和精确度结果曲线图，如图9所示为实验结果.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 OTB100数据集下的成功率和精确度结果曲线图

Fig.9 Curve of success rate and precision results under OTB100 data set

从图9(a)、(b)可知，在OTB100数据集上，DSiamRPNMEG++算法在所测试的4种算法上取得了最优成绩. 相较于SiamRPNM++算法，DSiamRPNMEG++算法在成功率上提升了2.4%，在精确度上提升了1.6%，提升效果显著；相较于SiamRPNMEG++算法，成功率提升比较明显，提升了1.4%，精确度提升了0.4%.

当受到遮挡和目标发生形变时，在OTB100数据集下的总体成功率如图10所示.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 OTB100数据集下包含遮挡和形变属性序列下的总体成功率结果曲线图

Fig.10 Overall success rate result curve under OTB100 dataset including occlusion and deformation attributes

当受到遮挡和目标发生形变时，在OTB100数据集下的总体精确度如图11所示.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 OTB100数据集下包含遮挡和形变属性序列下的总体精确度结果曲线图

Fig.11 Overall precision result curve under OTB100 dataset including occlusion and deformation attributes

4. 结　语

本文针对目标跟踪受到遮挡的问题，通过提出加入双注意力机制，新增上一帧模板分支及局部扩大搜索策略来提升目标跟踪性能. 在目标跟踪领域，解决长时场景下目标受到遮挡时跟踪性能下降的问题是未来需要突破的方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BERTINETTO L, VALMADRE J, HENRIQUE J F, et al. Fully-convolutional siamese networks for object tracking [C]// European Conference on Computer Vision. Berlin: Springer, 2016: 850-865.

[本文引用: 1]

[2]

VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 2805-2813.

[本文引用: 1]

[3]

HE A, LUO C, TIAN X, et al. A twofold Siamese network for real-time object tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4834-4843.

[本文引用: 1]

[4]

LI B, WU W, WANG Q, et al. SiamRPN++: evolution of siamese visual tracking with very deep networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4282-4291.

[本文引用: 1]

[5]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

[6]

WANG Q, ZHANG L, BERTINETTO L, et al. Fast online object tracking and segmentation: a unifying approach [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1328-1338.

[本文引用: 1]

[7]

XU Y, WANG Z, LI Z, et al. SiamFC++: towards robust and accurate visual tracking with target estimation guidelines [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 12549-12556.

[本文引用: 1]

[8]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2022-06-15].https://xueshu.baidu.com/usercenter/paper/show?paperid=93f237b1172b174c55f3bdfd91d2f2d2&site=xueshu_se&apm;hitarticle=1, 2022.6.10.

[本文引用: 1]

[9]

WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531-11539.

[本文引用: 1]

[10]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

[11]

CAO Y, XU J, LIN S, et al. GCNet: non-local networks meet squeeze-excitation networks and beyond [C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Seoul: IEEE, 2019.

[本文引用: 1]

[12]

WU Y, LIM J, YANG M H. Online object tracking: a benchmark [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 2411-2418.

[本文引用: 1]

... 基于孪生网络的目标跟踪一直是国内外该领域的重点研究方向. Bertinetto等^[1]提出基于离线端到端训练的SiamFC算法. Valmadre等^[2]提出CF-Net，是在SiamFC的结构上加入可以端到端训练的相关滤波器层. He等^[3]提出SA-Siam，构建2个孪生网络框架，一个是语义网络，另一个是外观网络，2种网络互补，提升了目标跟踪的性能. Li等^[4]为了应对基于孪生网络的目标跟踪无法有效利用深度网络特征的问题，成功训练了基于ResNet^[5]架构的SiamRPN++算法. Wang等^[6]提出的SiamMask结合目标跟踪和目标分割2种网络，可以同时完成视频跟踪和分割的任务. 为了使跟踪领域的理论结构更加完善，Xu等^[7]提出SiamFC++，在SiamFC的基础上引入分类分支和目标状态估计分支. 本文通过加入双注意力机制，新增上一帧模板分支及局部扩大搜索方式，提升了目标跟踪的性能. ...

... 注意力机制能够根据不同特征在分类和回归操作中的贡献程度，为特征的重要通道或空间分配较高的权重，使得整体网络表现出更强的跟踪效果^[8]. 将双注意力机制与RPN区域提议网络相结合，如图2所示. ...

... ECA^[9]结构即是通道注意力模块，用以学习生成不同模板特征的通道相关的权重. 为了减少无关图像区域的干扰，提高图像的空间感知性能，搜索图像不直接通过通道注意力机制模块. 搜索分支的优化是从网络特性的角度考虑，孪生网络中采用卷积神经网络对目标进行特征提取，但在该方式下提取到的目标特征只是目标的局部特征，没有获取全局上下文特征. 为了更好地使用本文特征提取网络中所提取的浅层、中层和深层特征，也为了增强搜索分支的特征提取能力，引入全局上下文注意力机制，提升目标跟踪过程中的泛化能力. ...

... 通道注意力ECA模块由平均池化层、全连接层、一维卷积核和激活函数层组成，结构如图3所示.该模块的输入为各个通道的深度特征图

$ {{\boldsymbol{F}}^{w \times h \times d}} = $

$\{ {{\boldsymbol{F}}_i}\} _{i = 1}^d $

，其中

$w、h、d$

分别为宽、长和通道数，即模板分支不同层次的特征. 经过平均池化层降采样缩小输入特征图的规模，减少与空间无关的计算，生成尺度较小的通道特征图

${{\boldsymbol{F}}^{w' \times h' \times d'}}$

作为第1个全连接层的输入. SE-Net^[10]注意力机制模块采用激活函数跨通道降维的方式实现非线性跨通道交互，会造成有效信息的丢失. 为了更准确地赋予通道权重，如图3所示，采用无降维的局部跨通道交互策略，利用大小为

$k$

的快速一维卷积生成新的全连接层，其中

$k$

通过通道数

$d$

自适应确定. 通过Sigmoid激活，得到各个通道的权重. 将生成的权重与输入特征相乘，以此来得到最终的通道注意力特征图

${\boldsymbol{F}}_{{\text{ECA}}}^{w \times h \times d} = \{ {{\boldsymbol{F}}_{{\text{ECA}},i}}\} _{i = 1}^d$

. 通道

$i$

的注意力特征图如下： ...

... 对搜索分支进行优化后，再将改进后的GC-Net^[11]添加至搜索分支，用于获取非局部信息. 主要的工作过程如下：采用1×1卷积

${{\boldsymbol{W}}_k}$

和Softmax函数在上下文建模的全局注意力机制中得到自注意力权重；通过特征转换，获取通道依赖性；使用加权，将全局上下文特征聚合到每一个位置的特征上. 全局上下文模块工作过程的表达式如下： ...

... 为了证明所提算法的有效性，在OTB100^[12]数据集上分别选取若干具有挑战的图像序列进行测试，对算法进行定性与定量分析. 定性分析是指对不同算法在相同视频序列下的实际跟踪效果进行对比评判，定量分析是指选取中心位置误差、重叠率、成功率和精确度4个指标评价跟踪结果. ...

〈

〉