浙江大学学报(工学版), 2021, 55(5): 966-975 doi: 10.3785/j.issn.1008-973X.2021.05.017

计算机与控制工程

整体特征通道识别的自适应孪生网络跟踪算法

宋鹏,, 杨德东,, 李畅, 郭畅

河北工业大学 人工智能与数据科学学院,天津 300130

An adaptive siamese network tracking algorithm based on global feature channel recognition

SONG Peng,, YANG De-dong,, LI Chang, GUO Chang

School of Artificial Intelligence, Hebei University of Technology, Tianjin 300130, China

通讯作者: 杨德东,男,副教授,博导. orcid.org/0000-0002-7960-0070. E-mail: ydd12677@163.com

收稿日期: 2020-09-10  

基金资助: 河北省自然科学基金资助项目(F2017202009);河北省创新能力提升计划资助项目(18961604H)

Received: 2020-09-10  

Fund supported: 河北省自然科学基金资助项目(F2017202009);河北省创新能力提升计划资助项目(18961604H)

作者简介 About authors

宋鹏(1994—),男,硕士生,从事深度学习、目标跟踪研究.orcid.org/0000-0002-1380-7861.E-mail:spgoup@foxmail.com , E-mail:spgoup@foxmail.com

摘要

针对孪生网络目标跟踪算法仅使用特征提取网络提取特征,在遮挡、旋转、光照与尺度变化中容易出现跟踪失败的问题,提出整体特征通道识别的自适应孪生网络跟踪算法. 将高效的通道注意力模块引入ResNet22孪生网络中,提高特征的判别能力. 使用整体特征识别功能计算全局信息,提取更为丰富的语义信息,提高跟踪算法精度. 同时,引入自适应模板更新机制,解决遮挡与长期跟踪导致的模板退化问题. 为了验证所提方法的有效性,在OTB2015、VOT2016与VOT2018等公开数据集上进行测试,并与其他跟踪算法进行对比. 结果表明,所提算法在精确度与成功率上表现较好,在背景杂乱、旋转、光照与尺度变化等情况中表现稳定.

关键词: 目标跟踪 ; 孪生网络 ; 整体特征识别 ; 通道注意力 ; 模板更新

Abstract

Siamese network target tracking algorithm only uses the feature extraction network to extract features, leading to tracking failures in occlusion, rotation, illumination and scale changes. An adaptive siamese network tracking algorithm with global feature channel recognition was proposed. The efficient channel attention module is introduced into the ResNet22 siamese network to improve the ability to distinguish features. The global feature recognition function is used to calculate global information, extract richer semantic information, and improve the accuracy of tracking algorithms. At the same time, an adaptive template update mechanism is introduced to solve the problem of template degradation caused by occlusion and long-term tracking. In order to verify the effectiveness of the proposed method, the proposed method was tested on public data sets such as OTB2015、VOT2016 and VOT2018, and compared with other tracking algorithms. Results show that the proposed algorithm performs well in accuracy and success rate. The proposed method is stable under background clutter, rotation, as well as illumination and scale changes.

Keywords: visual tracking ; siamese network ; global feature recognition ; channel attention ; template update

PDF (1281KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋鹏, 杨德东, 李畅, 郭畅. 整体特征通道识别的自适应孪生网络跟踪算法. 浙江大学学报(工学版)[J], 2021, 55(5): 966-975 doi:10.3785/j.issn.1008-973X.2021.05.017

SONG Peng, YANG De-dong, LI Chang, GUO Chang. An adaptive siamese network tracking algorithm based on global feature channel recognition. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(5): 966-975 doi:10.3785/j.issn.1008-973X.2021.05.017

目标跟踪是计算机视觉领域热点研究方向,广泛运用于智能视频监控[1]、智能交通[2]、现代化军事中[3]. 虽然近年来目标跟踪取得了丰富的研究成果,但是目标的快速移动和运动模糊、外观与光照变换、背景干扰、遮挡等难题仍使得目标跟踪在实际应用过程中存在诸多问题,因此仍是计算机视觉中最活跃的研究领域之一[4].

基于深度学习的目标跟踪可以分为两大类. 一类是使用深度神经网络提取的特征与传统的算法相结合. 比如,HDT[5]采用多层深度特征与相关滤波相结合,DeepSRDCF[6]、CCOT[7]、ECO[8]等算法也都使用此种方式. 另一类是根据目标跟踪任务设计出相应的卷积神经网络,进行端到端离线训练,然后再进行在线跟踪. Bertinetto等[9]提出SiamFC,构造孪生网络结构,分别提取搜索区域与目标区域的特征进行互相关操作,由于没有判别网络在线更新的过程,算法在保证精度的同时,速度较快. 在文献[9]的基础上,CFNet[10]将相关滤波器的在线学习与卷积神经网络的离线训练结合,获得了不错的跟踪效果. Li等[11]提出SiamRPN算法,将区域回归网络和孪生网络相结合,取得了较好的效果. Wang等[12]将注意力机制和孪生网络相结合取得了较好的效果. 可见,基于Siamese网络的目标跟踪算法是目前跟踪领域的研究重点.

SiamFC算法的孪生网络结构较简单,能够符合跟踪对于精度与速度的要求. 不过,基于匹配思想的SiamFC算法也有其缺点. 一方面由于孪生网络算法相对于其他深度学习算法而言,缺少分类器训练的模式,其特征网络和判别网络自成一体,如何训练好的特征提取网络变得尤为关键. 由于目标跟踪在光照与尺度变换、背景杂乱、遮挡等场景的复杂性,过于简单的特征提取网络不能较好地提取足够强大并且自带判别效果的特征,难以提高跟踪效果. 另一方面由于SiamFC算法没有模板自适应更新策略,在遮挡情况和长时跟踪过程中极易导致跟踪失败.

针对以上问题,本研究设计了整体特征通道识别的自适应孪生网络跟踪算法. 将高效通道注意力模块引入特征提取网络,以提高对于不同通道特征的判别能力;使用整体特征识别机制进行特征提取,以提高跟踪在背景杂乱情况下提取特征的能力;加入自适应模板更新功能,以提高算法在遮挡情况发生时的跟踪精度. 为了验证所提算法的效果,使用OTB[13]与VOT[14]标准测试数据集测试所提算法.

1. 基本原理

SiamFC算法本质上是匹配方法与深度学习思想的融合,将目标跟踪转换为寻找一个相似性度量最大值位置的问题. 该算法构造了结构相同并且权值共享的孪生网络结构,网络将第1帧看作模板,使用该孪生网络结构分别提取搜索帧区域与模板帧区域的特征,使用互相关操作获得相似度得分图,通过找到最大响应位置来定位目标位置,以此进行目标跟踪. 网络结构示意图[9]图1所示.

图 1

图 1   孪生网络结构图

Fig.1   Framework of siamese network


孪生网络进行目标跟踪的实质可以视作相似性学习. 相似性度量函数可以描述为

$f({{x}},{{z}}) = \phi (\varphi ({{z}}),\;\varphi ({{x}})).$

式中: ${{z}}$为模板帧, ${{x}}$为搜索帧, $\varphi $为特征提取函数, $\phi $为相似性度量函数,函数 $f({{x}},{{z}})$表示模板帧与搜索帧的相似度.

SiamFC算法关键在于通过网络离线训练得到一个效果较好的相似性度量函数,利用它来计算搜索帧与模板帧之间特征的相似度,找到相似度得分最高的位置即为目标跟踪的区域. SiamFC相似性度量函数可以描述为

$f({{x}},{{z}}) = \varphi ({{z}}) * \varphi ({{x}}) + {{c}}.$

式中:函数 $\varphi $为特征提取函数,即卷积神经网络提取特征的操作;*为互相关操作; ${{c}}$为偏置项,表示在响应图每个位置取值的偏差信号, ${{c}} \in {{\bf{R}}^{n \times n}}$.

2. 整体特征通道识别跟踪算法

在SiamFC算法的基础上,提出整体特征通道识别的自适应孪生网络跟踪算法. 算法框架图如图2所示.如图2(a)所示为算法的整体结构图. 所使用的提取特征网络在ResNet22的基础之上,在Conv3阶段的4个卷积层加入高效的通道注意力机制,所使用的残差单元如图2(b)所示. 在提取完特征后,对所得到的特征图使用整体特征识别模块进行无位置依赖的整体特征上下文建模,AM模块为整体感知模块,TM模块为特征转化模块,模块详细结构见3.2节. 之后逐像素相加得到响应图. 将得到的得分图进行模板更新判断,如果符合条件,则进行模板更新.

图 2

图 2   整体特征通道识别的自适应孪生网络跟踪算法示意图

Fig.2   Schematic diagram of adaptive siamese network tracking algorithm based on global feature channel recognition


2.1. 融合通道注意力的孪生网络

孪生神经网络的特征提取网络和判别网络自成一体,所以特征提取对于孪生网络跟踪算法极其关键. 传统SiamFC算法所使用的AlexNet特征提取网络不能够充分发挥深度神经网络提取特征的能力. 文献[15]指出使用特殊结构的ResNet结构,可以提高特征提取的能力. 该ResNet22的网络参数[15]表1所示.

表 1   ResNet22网络参数

Tab.1  Network parameters of ResNet22

层名 核尺寸 模板尺寸 搜索尺寸
input $127 \times 127$ $255 \times 255$
Conv1 $7 \times 7$,64 $64 \times 64$ $128 \times 128$
Crop $60 \times 60$ $124 \times 124$
Maxpool $2 \times 2$ $30 \times 30$ $62 \times 62$
Conv2_x+Crop×3 $\left[ {\begin{array}{*{20}{c}} {1 \times 1,64} \\ {3 \times 3,64} \\ {1 \times 1,256} \end{array}} \right]$ $24 \times 24$ $56 \times 56$
Conv3_1+Crop $\left[ {\begin{array}{*{20}{c}} {1 \times 1,{\rm{128}}} \\ {3 \times 3,{\rm{128}}} \\ {1 \times 1,{\rm{512}}} \end{array}} \right]$ $22 \times 22$ $54 \times 54$
Maxpool $2 \times 2$ $11 \times 11$ $27 \times 27$
Conv3_x+Crop×3 $\left[ {\begin{array}{*{20}{c}} {1 \times 1,{\rm{128}}} \\ {3 \times 3,{\rm{128}}} \\ {1 \times 1,{\rm{512}}} \end{array}} \right]$ $5 \times 5$ $21 \times 21$

新窗口打开| 下载CSV


本研究算法将SiamFC传统的AlexNet特征提取网络更换为ResNet22. 研究发现当网络加深的过程中,网络的通道数会增加,但是卷积层的输出并没有考虑到对于各个通道的依赖性,所以本研究将高效通道注意力机制[16]融入骨干网络具有较多通道数的Conv3阶段的卷积层中. 当前许多目标跟踪算法仅是将较复杂的通道注意力模块加入到特征提取网络的最后,效果提升不太明显,同时也会造成计算量的增加. 本算法选择了一种计算量较小的通道注意力机制,并将其融入到残差网络的骨干中,发挥通道注意力的性能. 该高效的通道注意力模块如图2(b)所示. 将此模块加入残差单元中,可以有选择性地提取有用通道信息而抑制无用通道信息,通过计算各个通道的权重信息让所有的通道共享权重信息,从而实现跨通道信息交互的通道注意力,提高网络的表征能力,其结构如图3所示. 可知,该模块输入与输出一个相同大小的特征图,通过GAP与1个1D卷积,得到一个对于不同特征通道有不同权重的特征图,从而提高提取特征的质量.

图 3

图 3   高效通道注意力结构图

Fig.3   Mechanism diagram of efficient channel attention


首先须计算每个通道所需要的权重因子:

${w_i} = \sigma \left( {\mathop \sum \limits_{n = 1}^k {w_i^n}x_i^n} \right);\;x_i^n \in \varOmega _i^k.$

式中: $n$为邻域通道数,i为当前通道数, $x_i^n$为所增强的特征, ${w_i^n}$为所计算的 $x_i^n$的权重, $\varOmega _i^k$$x_i^n$$k$个相邻通道的特征集合, $\sigma $为函数.

为了加速这一过程,可以使用快速的1D卷积进行实现:

$w = \sigma ({\rm{C}}1{{\rm{D}}_k}(x)).$

式中: ${\rm{C1D}}$为1D卷积,使用快速策略,只有 $k$个参数.

为了寻找卷积核的数量 $k$,须找到通道数 $C$$k$的映射关系:

$C = \rho (k) = {2^{(\lambda k - b)}}.$

式中: $\lambda $b为参数.

此时通过C来求解 $k$

$k = \psi (C) = \left| {\frac{{{{\log }_2}\;C}}{\lambda } + \frac{b}{\lambda }} \right|.$

使用该通道注意力,可以使特征提取网络更加关注须关注通道的特征,提高跟踪精度.

2.2. 整体特征识别机制的特征提取网络

近年来,注意力机制广泛运用于计算机视觉. 对于目标跟踪任务而言,复杂的背景信息与跟踪物体的多种变化使得对于跟踪目标的特征提取充满难度,同时如何利用跟踪序列中较少的样本信息获得更好的整体特征尤为关键. 当前在目标跟踪领域使用较多的空间注意力与通道注意力仅仅是在局部空间与通道特征方面进行操作,而忽略了每个特征点对于整体特征的重要性. 因此,本研究使用较为简化的自注意力机制,既可以简化提取特征的计算量,又可以解决局部局限的问题,获得较好的整体特征.

将整体特征识别机制[17]融入孪生网络中,来减少外部依赖,以获得特征内部的相关性,最后得到独立的整体特征注意力特征图,以缓解复杂的跟踪场景对于特征提取的影响,提高跟踪精度. 整体特征识别模块如图4所示. 图中,r为瓶颈层比例.

本研究使用改进的特征提取网络提取输入帧与模板帧的特征,将得到的通道为 $C$、高为 $H$、宽为 $W$的特征图作为模块的输入,经过整体特征识别网络. 该网络首先使用整体感知模块AM(见图4),使用1个 $1 \times 1$的卷积核和1个Softmax函数所构成,用来感知整体特征中上下文特征中每个特征点所需要的注意力特征权重. 然后使用特征转化模块TM(见图4),使用2个 $1 \times 1$的卷积核和1个正则化层与1个Relu函数构成,用来获取整体特征中各个通道间的依赖. 最后采取广泛的逐像素相加,将整体特征与通道识别的特征聚合到每个位置的特征上. 经过该网络输出与原特征图相同尺寸的,包含不同通道的全局特征的特征图:

$\left. {\begin{array}{l}{{{y}}_i} = {{{x}}_i} + {\varphi _{{\rm{f}}2}}{\rm{RELU}}\left( {{\rm{BN}}\left( {{\varphi _{{\rm{f}}1}{{E}}} } \right)} \right),\\ {{E}}=\displaystyle\sum \limits_{j{\rm{ = }}1}^N \dfrac{{{{\rm{e}}^{{W_{\rm{k}}}{{{x}}_j}}}}}{{\displaystyle\sum \limits_{m = 1}^N {{\rm{e}}^{{W_{\rm{k}}}{{{x}}_m}}}}}{{{x}}_j}. \end{array}} \right\}$

式中: ${{{y}}_i}$为该模块的输出特征; ${{{x}}_i}$为模块的输入特征; ${\varphi _{{\rm{f}}1}}$${\varphi _{{\rm{f}}2}}$为实现特征转化的卷积操作;RELU、BN为对应的层; $N$为图中要素的数量, $N = H W$${W_{\rm{k}}}$为经过 $1 \times 1$卷积核的卷积操作; ${{{x}}_j}{\text{、}}{{{x}}_m}$为不同位置的特征.

使用整体特征识别机制,可以得到具有丰富整体上下文信息的,拥有更好判别效果的相同大小的特征图,从而提高跟踪效果.

图 4

图 4   整体特征识别网络示意图

Fig.4   Schematic diagram of global feature recognition network


2.3. 引入模板自适应更新的目标跟踪算法

基于SiamFC的目标跟踪算法在跟踪时,模板并没有在线更新的过程. 所以当跟踪器面对遮挡与长时跟踪情况时,极易出现跟丢目标的情况. 为了解决模板退化的问题,采用模板自适应更新的方式来跟踪模板. 另外,如果不考虑模板更新的条件,容易造成模板污染现象,造成跟踪精度的下降,所以本研究将平均峰值相关能量(APCE)评价指标与模板更新的方式进行结合,提高跟踪精度.

使用线性加权的方式,用当前帧的模板和之前积累的模板来生成下一帧的模板:

${F_i} = (1 - \gamma ){F_{i - 1}} + \gamma {T_i}.$

式中: $i$为当前帧的帧数, ${F_i}$为更新后的模板, $\gamma $为模板更新的权重因子, ${T_i}$为当前检测帧所提取的模板, ${F_{i - 1}}$为历史帧所积累的模板.

使用更新后的模板 ${F_i}$与当前帧经过卷积网络所提取的特征进行相关操作得到最后得分响应图. 同时使用APCE[18]来判断模板是否自适应在线更新:

${\rm{APC}}{\rm{E}} = {\frac{{\left| {{F_{\max }} - {F_{\min }}} \right|}^2}{{{\rm{mean}}\;\left( {{{\displaystyle\sum\limits_{w,h} {({F_{w,h}} - {F_{\min }})} }^2}} \right)}}}.$

式中: $w{\text{、}}h$为得分响应图的位置, ${F_{\max }}$为响应最大值, ${F_{\min }}$为响应最小值, ${F_{w,h}}$为对应的响应值.

同时,判断是否进行模板更新:

$\frac{{\left| {{\rm{APC}}{\rm{E}} - H({\rm{apce}})} \right|}}{{H({\rm{apce}})}} > {\eta},$

$\frac{{\left| {{F_{\max }} - H({F_{\max }})} \right|}}{{H({F_{\max }})}} > {\theta }.$

式中: $\eta $$\theta $分别为APCE与 ${F_{\max }}$这2个判别指标所设置阈值, $H({\rm{apce}})$为APCE在该视频序列的历史均值, $H({F_{\max }})$${F_{\max }}$在该视频序列的历史均值. 当满足式(10)、(11)时,算法使用式(8)来进行模板更新,使用更新后的模板与当检测帧进行相关操作得到目标位置.

3. 实验分析及性能评估

3.1. 实验环境及参数设定

运行平台配置如下:CPU为Intel I7-8700K,内存为32 G,显卡为2块NVIDIA GTX1080TI,操作系统为64位Ubuntu 16.04. 编程软件使用Pycharm. 编程环境为基于python3.6的Pytorch.

在训练阶段,epoch设置为50,动量设置为0.9,学习率从0.0100至0.0001随着epoch逐渐衰减,batch size设置为16. 在训练过程中,首先加载文献[15]在大规模数据集[19]上训练的模型作为预训练模型,使用大规模数据集[20]进行网络的训练.

在测试阶段,在模板更新判据中,参数 $\gamma $选定为固定值0.0102,是根据Siam系列算法默认的线性模板更新因子进行设定的,能够减少参数设定的影响,从而更好地检测算法性能. $\theta $$\eta $是通过大量实验得到的,通过实验探究,当 $\theta $$\eta $分别设置为0.10、0.25时效果较好,参数设置过小会导致模板更新过于频繁,将遮挡情况下的模板加入其中,造成模板污染. 设置过大会导致模板更新间隔过大,容易丢失一些模板信息. 以上情况发生均会导致算法性能下降,基于此参数选择如上. 采用3个尺度,变化尺度为[0.9745,1.0000,1.0375],其他测试阶段的超参数参照文献[15]设置.

3.2. 利用OTB2015目标跟踪标准测试集测试算法性能

3.2.1. 数据集介绍

为了分析所提跟踪算法的性能,选取OTB2015数据集测试精确度曲线图和成功率曲线图. 使用OTB2015中OPE(one-pass evaluation)来计算精确度与成功率评判算法性能. 相关参数定义如下:目标中心位置误差为当前跟踪框中心位置与人工标定的实际跟踪框中心位置之间的欧式距离;精确度为目标中心位置误差小于某一个阈值的帧数占总帧数的比值,在目标跟踪领域该阈值通常设置为20;重叠率为当前跟踪框与人工标定跟踪框之间重叠面积与并集面积的比值;成功率为重叠率大于一定阈值的帧数占总帧数的比值,在目标跟踪领域该阈值通常设置为0.5.

3.2.2. 实验分析

为了测试算法的性能,选取9种算法DeepSRDCF[6]、ECO-HC[8]、SiamFC[9]、CFNET[10]、SiamDW[15]、DsiamM[21]、Staple[22]、SiamTri[23]、LMCF[24]与本研究所提算法进行对比。这9种算法都是目标跟踪领域较优秀的方法,并且是被广泛运用到对比算法中的当前最流行的算法。进行性能测试并对实验结果进行分析和对比,算法的成功率与准确度曲线如图5所示。图中,S为成功率,P为精确度,TOTL分别为重叠率、位置误差阈值。可以看出,本研究跟踪算法在成功率与准确度两方面相对于基础的SiamFC算法和最新的SiamDW算法均有提升,说明所提算法表现较好。

图 5

图 5   10种跟踪算法在OTB2015数据集上的结果图

Fig.5   Results of ten tracking algorithms on OTB2015 dataset


表2所示为本研究跟踪算法在OTB2015数据集11种属性上的准确度,如表3所示为本研究跟踪算法在OTB2015数据集11种属性上的成功率,每个包含不同属性的视频序列能够代表不同情况下不同种算法的表现。由表2可知,本研究算法在全部11种属性中均排名第一,表现突出,表明本研究算法在准确度方面提升较大。由表3可知,在11种属性的成功率上,本研究算法除了在出视野、低分辨率2种属性上表现略有不足之外,在其他多种属性中表示突出,并且优于基础的SiamFC算法和最新的SiamDW算法。综上所述,在背景杂乱、形变、旋转、光照变化等属性下,跟踪效果都有大幅度的提升,这得益于算法对于特征较好的提取。

表 2   10种跟踪算法在OTB上11种属性的准确度

Tab.2  Accuracy of ten tracking algorithms on eleven attributes of OTB

算法 光照变化 面内旋转 低分辨率 遮挡 面外旋转 出视野 尺度变化 快速移动 背景干扰 运动模糊 形变
CFNET 0.706 0.768 0.760 0.703 0.741 0.536 0.727 0.716 0.734 0.633 0.696
SiamFC 0.741 0.742 0.847 0.726 0.756 0.669 0.738 0.743 0.690 0.705 0.693
SiamTri 0.752 0.774 0.897 0.730 0.763 0.723 0.752 0.763 0.715 0.727 0.683
LMCF 0.795 0.755 0.679 0.736 0.760 0.693 0.723 0.730 0.822 0.730 0.729
DSiamM 0.805 0.807 0.857 0.794 0.829 0.684 0.778 0.759 0.792 0.721 0.761
Staple 0.787 0.770 0.631 0.721 0.730 0.661 0.715 0.697 0.766 0.707 0.743
ECO-HC 0.792 0.783 0.798 0.806 0.811 0.737 0.805 0.792 0.824 0.780 0.818
DeepSRDCF 0.786 0.818 0.708 0.822 0.835 0.781 0.817 0.814 0.841 0.823 0.779
SiamDW 0.854 0.841 0.882 0.786 0.842 0.782 0.842 0.808 0.800 0.842 0.831
本研究算法 0.910 0.898 0.913 0.846 0.915 0.792 0.888 0.866 0.898 0.875 0.883

新窗口打开| 下载CSV


表 3   10种跟踪算法在OTB上11种属性的成功率

Tab.3  Success rate of ten tracking algorithms on eleven attributes of OTB

算法 光照变化 面内旋转 低分辨率 遮挡 面外旋转 出视野 尺度变化 快速移动 背景干扰 运动模糊 形变
CFNET 0.551 0.572 0.576 0.542 0.547 0.423 0.552 0.558 0.565 0.514 0.510
SiamFC 0.574 0.557 0.592 0.547 0.558 0.506 0.556 0.568 0.523 0.550 0.510
SiamTri 0.585 0.580 0.634 0.554 0.563 0.543 0.567 0.585 0.542 0.567 0.504
LMCF 0.601 0.543 0.450 0.554 0.553 0.539 0.519 0.551 0.606 0.561 0.525
DSiamM 0.608 0.599 0.606 0.583 0.599 0.509 0.576 0.579 0.589 0.562 0.544
Staple 0.596 0.552 0.418 0.545 0.531 0.481 0.518 0.537 0.574 0.546 0.552
ECO-HC 0.615 0.567 0.562 0.605 0.594 0.549 0.599 0.614 0.618 0.616 0.601
DeepSRDCF 0.624 0.589 0.475 0.603 0.607 0.553 0.607 0.628 0.627 0.642 0.567
SiamDW 0.656 0.611 0.607 0.598 0.615 0.588 0.625 0.627 0.596 0.659 0.608
本研究算法 0.666 0.633 0.585 0.618 0.642 0.582 0.636 0.648 0.636 0.669 0.638

新窗口打开| 下载CSV


为了全面验证算法的有效性,选取10种跟踪算法在4个视频序列的跟踪效果,如图6所示. 选取OTB测试集中包含11种属性较多的4个视频序列,用这些较难的视频序列来可视化各个跟踪器在面对复杂的场景环境时的具体表现,以验证本研究跟踪算法的有效性.

图 6

图 6   10种跟踪算法在4个视频序列的跟踪效果图

Fig.6   Ten algorithms' tracking results on four video sequences


图6(a)所示,该视频序列包含除低分辨率、出视野、形变之外的8种属性. 在67帧开始时出现背景杂乱、光照变换、旋转等情况,多种算法的跟踪器发生偏移现象. 在第299帧时,只有极少数跟踪器可以跟上,本研究算法表现良好,一直跟踪在目标的中心位置. 该视频序列发生了严重的背景杂乱现象,本研究所用的整体特征感知功能,能够较好地把握所需特征对于整体的依赖,获得较好的属性.

图6(b)所示,该序列包含OTB中除形变之外的11种属性之中的10种属性,是难度较大的视频序列. 在第10帧开始出现形变、尺度变化、运动模糊等情况. 有部分跟踪器开始发生偏移现象. 在序列的第165帧时,绝大多数跟踪算法均已跟踪失败,而本研究所提出的算法跟踪成功,得益于本研究的自适应模板更新策略,即使发生遮挡与出视野的情况,也可以较好地处理,验证了本研究算法的鲁棒性与成功率.

图6(c)所示,该序列包含除光照变换、运动模糊、低分辨率之外的8种属性. 可以看出,本研究算法在复杂的情况下,不仅能够跟踪在目标的中心位置,也能够极其准确地跟住目标,得益于算法多种注意力机制,即使在发生形变时也可以选择有用的信息而抑制无用信息,可以看出本研究算法精度较高.

图6(d)所示,该序列包含除形变、快速变换、低分辨率之外的8种属性. 经过一系列复杂的情况之后,本研究所提算法依旧是极少数能够不被丢失的跟踪器之一,而且还能够保持相应的精度.

3.3. 利用VOT2016目标跟踪标准测试集测试算法性能
3.3.1. 数据集介绍

在目标跟踪VOT数据集中,所提算法使用VOT2016来评价算法的优劣. VOT基准使用平均重叠率(expected average overlap,EAO)为主要的评测指标. EAO越高,表示跟踪器的性能越好.

3.3.2. 实验分析

为了测试算法的性能,选取6种算法Staple[22]、SiamDW[15]、DeepSRDCF[6]、SiamAN[9]、SiamRN[9]、MDNET_N[25]与本研究所提算法进行对比. SiamAN算法为基准的使用AlexNet为骨干的SiamFC算法,SiamRN算法为使用ResNet为骨干的SiamFC算法,都是以SiamFC算法为基础. 7种算法的EAO曲线图如图7所示. 图中,O为排名. EAO曲线图横轴表示从小到大算法的排名情况,本研究算法在7种算法中排名第1,远超基准的SiamFC算法与最新的SiamDW算法,证明了算法成功率与准确性.

图 7

图 7   7种算法在VOT2016数据集上的EAO结果图

Fig.7   EAO score results of seven tracking algorithms on VOT2016 dataset


EAO数值如表4所示. 表中,排名前3的结果粗体标出. 可以看出,本研究算法的EAO比SiamAN算法的高出11.30%,比SiamRN算法的高出7.16%,比最新的SiamDW算法的高出5.97%. 通过实验分析可以清楚看到所提算法在VOT2016数据集表现较好.

表 4   7种跟踪算法在VOT2016数据集上的性能评估

Tab.4  Performance evaluation of seven tracking algorithms on VOT2016 dataset

跟踪算法 EAO 跟踪算法 EAO
本研究算法 0.3482 DeepSRDCF 0.2763
staple 0.2952 MDNET_N 0.2572
SiamDW 0.2885 SiamAN 0.2352
SiamRN 0.2766

新窗口打开| 下载CSV


3.4. 利用VOT2018目标跟踪标准测试集测试算法性能

为了测试算法的性能,选取6种算法Staple[22]、SiamDW[15]、DeepSRDCF[6]、SiamFC[9]、DSiam[21]、UpdateNet[26]与本研究所提算法进行对比. 7种算法的EAO曲线如图8所示. 可以看出,在7种算法中,所提算法EAO排名第1,远超基准的SiamFC算法与最新的SiamDW算法,证明了算法的成功率与准确性.

具体的EAO数值如表5所示.本研究算法的EAO比SiamFC算法的高出7.34%,比最新的SiamDW算法的高出3.48%. 通过实验分析可以看到本研究所提出的算法在VOT2018数据集表现良好,充分证明了本研究算法的性能.

图 8

图 8   7种算法在VOT2018数据集上的EAO结果图

Fig.8   EAO score results of seven tracking algorithms on VOT2018 dataset


表 5   7种跟踪算法在VOT2018数据集上的性能评估

Tab.5  Performance evaluation of seven tracking algorithms on VOT2018 dataset

跟踪算法 EAO 跟踪算法 EAO
本研究算法 0.2610 SiamFC 0.1876
UpdateNet 0.2431 Staple 0.168 5
SiamDW 0.2262 DeepSRDCF 0.154 0
DSiam 0.195 9

新窗口打开| 下载CSV


4. 结 语

针对SiamFC算法仅使用特征匹配的方法进行目标跟踪,当面对复杂场景,尤其是背景杂乱、形变、光照与尺度变换等情况,难以较好地提取目标特征的问题,提出整体特征通道识别的自适应孪生网络跟踪算法,将高效的通道注意力机制与全局特征识别机制融入特征提取网络中,优化提取的特征,提高了算法的精度;针对传统Siam系列算法没有模板更新会导致在遮挡场景下跟踪失败的问题,使用模板自适应在线跟踪策略,提高算法在以上场景下的成功率. 利用目标跟踪标准测试集OTB2015测试算法效果,本研究算法成功率为0.650,精确度为0.894,较基准SiamFC算法分别提高了6.8%、12.3%,较最新的SiamDW算法分别提高了1.2%、4.1%. 在VOT2016数据集进行测试,所提算法的EAO较SiamRN算法的提高了7.16%,较SiamAN算法的提升了11.30%,较最新的SiamDW算法的提高了5.97%. 在VOT2018数据集进行测试,所提算法的EAO较SiamFC的提升了7.34%,较SiamDW的提高了3.48%. 通过实验验证,本研究所提算法在背景杂乱、形变、光照与尺度变换、旋转等情况下能够较好地跟踪目标,具有一定的研究价值.

参考文献

TANG S Y, ANDRILUKA M, ANDRES B, et al. Multiple people tracking by lifted multicut and person re-identification [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3539-3548.

[本文引用: 1]

LEE K H, HWANG J N

On-road pedestrian tracking across multiple driving recorders

[J]. IEEE Transactions on Multimedia, 2015, 17 (9): 1429- 1438

DOI:10.1109/TMM.2015.2455418      [本文引用: 1]

TEUTSCH M, KRUGER W. Detection, segmentation, and tracking of moving objects in uav videos [C]// 2012 IEEE Ninth International Conference on Advanced Video and Signal-based Surveillance. Beijing: IEEE, 2012: 313-318.

[本文引用: 1]

SMEULDERS A W M, CHU D M, CUCCHIARA R, et al

Visual tracking: an experimental survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36 (7): 1442- 1468

DOI:10.1109/TPAMI.2013.230      [本文引用: 1]

QI Y, ZHANG S, LEI Q, et al. Hedged deep tracking [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4303-4311.

[本文引用: 1]

DANELLJAN M, HAGER G, SHAHBAZ K F, et al. Convolutional features for correlation filter based visual tracking [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 58-66.

[本文引用: 4]

DANELLJAN M, ROBINSON A, KHAN F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking [C]// Computer Vision-ECCV 2016. Cham: Springer, 2016: 472-488.

[本文引用: 1]

DANELLJAN M, BHAT G, KHAN F S, et al. Eco: efficient convolution operators for tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 21-26.

[本文引用: 2]

BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking [C]// Computer Vision-ECCV 2016. Cham: Springer, 2016: 850-865.

[本文引用: 7]

VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5000-5008.

[本文引用: 2]

LI B, YAN J J, WU W, et al. High performance visual tracking with siamese region proposal network [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8971-8980.

[本文引用: 1]

WANG Q, TENG Z, XING J L, et al. Learning attentions: residual attentional siamese network for high performance online visual tracking [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4854-4863.

[本文引用: 1]

WU Y, LIM J, YANG M H

Object tracking benchmark

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1834- 1848

DOI:10.1109/TPAMI.2014.2388226      [本文引用: 1]

KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking VOT2016 challenge results [C]// 14th European Conference on Computer Vision. Amsterdam: Springer, 2016, 9914: 777-823.

[本文引用: 1]

ZHANG Z P, PENG H W. Deeper and wider siamese networks for real-time visual tracking [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4591-4600.

[本文引用: 7]

WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531-11539.

[本文引用: 1]

CAO Y, X J R, LIN S, et al. GCNet: non-local networks meet squeeze-excitation networks and beyond [C]// 2019 IEEE/CVF International Conference on Computer Vision Workshop. Seoul: IEEE, 2019: 1971-1980.

[本文引用: 1]

WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 4800-4808.

[本文引用: 1]

OLGA R, JIA D, HAO S, et al

ImageNet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y      [本文引用: 1]

HUANG L, ZHAO X, HUANG K. GOT-10k: a large high-diversity benchmark for generic object tracking in the wild [EB/OL]. [2020-05-18]. https://arxiv.org/abs/1810.11981.

[本文引用: 1]

GUO Q, FENG W, ZHOU C, et al. Learning dynamic siamese network for visual object tracking [C]// IEEE International Conference on Computer Vision. Venice: IEEE, 1781-1789.

[本文引用: 2]

BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1401-1409.

[本文引用: 3]

DONG X P, SHEN J B. Triplet loss in siamese network for object tracking [C]// Proceedings of European Conference on Computer Vision. Munich: Springer, 2018: 459–474.

[本文引用: 1]

WANG M M, LIU Y, HUANG Z Y. Large margin object tracking with circulant feature maps [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 4021-4029.

[本文引用: 1]

NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4293-4302.

[本文引用: 1]

ZHANG L C, ABEL G, JOOST V D W, et al. Learning the model update for siamese trackers [C]// Proceedings of the IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 4010-4019.

[本文引用: 1]

/