整体特征通道识别的自适应孪生网络跟踪算法
An adaptive siamese network tracking algorithm based on global feature channel recognition
通讯作者:
收稿日期: 2020-09-10
基金资助: |
|
Received: 2020-09-10
Fund supported: | 河北省自然科学基金资助项目(F2017202009);河北省创新能力提升计划资助项目(18961604H) |
作者简介 About authors
宋鹏(1994—),男,硕士生,从事深度学习、目标跟踪研究.orcid.org/0000-0002-1380-7861.E-mail:
针对孪生网络目标跟踪算法仅使用特征提取网络提取特征,在遮挡、旋转、光照与尺度变化中容易出现跟踪失败的问题,提出整体特征通道识别的自适应孪生网络跟踪算法. 将高效的通道注意力模块引入ResNet22孪生网络中,提高特征的判别能力. 使用整体特征识别功能计算全局信息,提取更为丰富的语义信息,提高跟踪算法精度. 同时,引入自适应模板更新机制,解决遮挡与长期跟踪导致的模板退化问题. 为了验证所提方法的有效性,在OTB2015、VOT2016与VOT2018等公开数据集上进行测试,并与其他跟踪算法进行对比. 结果表明,所提算法在精确度与成功率上表现较好,在背景杂乱、旋转、光照与尺度变化等情况中表现稳定.
关键词:
Siamese network target tracking algorithm only uses the feature extraction network to extract features, leading to tracking failures in occlusion, rotation, illumination and scale changes. An adaptive siamese network tracking algorithm with global feature channel recognition was proposed. The efficient channel attention module is introduced into the ResNet22 siamese network to improve the ability to distinguish features. The global feature recognition function is used to calculate global information, extract richer semantic information, and improve the accuracy of tracking algorithms. At the same time, an adaptive template update mechanism is introduced to solve the problem of template degradation caused by occlusion and long-term tracking. In order to verify the effectiveness of the proposed method, the proposed method was tested on public data sets such as OTB2015、VOT2016 and VOT2018, and compared with other tracking algorithms. Results show that the proposed algorithm performs well in accuracy and success rate. The proposed method is stable under background clutter, rotation, as well as illumination and scale changes.
Keywords:
本文引用格式
宋鹏, 杨德东, 李畅, 郭畅.
SONG Peng, YANG De-dong, LI Chang, GUO Chang.
基于深度学习的目标跟踪可以分为两大类. 一类是使用深度神经网络提取的特征与传统的算法相结合. 比如,HDT[5]采用多层深度特征与相关滤波相结合,DeepSRDCF[6]、CCOT[7]、ECO[8]等算法也都使用此种方式. 另一类是根据目标跟踪任务设计出相应的卷积神经网络,进行端到端离线训练,然后再进行在线跟踪. Bertinetto等[9]提出SiamFC,构造孪生网络结构,分别提取搜索区域与目标区域的特征进行互相关操作,由于没有判别网络在线更新的过程,算法在保证精度的同时,速度较快. 在文献[9]的基础上,CFNet[10]将相关滤波器的在线学习与卷积神经网络的离线训练结合,获得了不错的跟踪效果. Li等[11]提出SiamRPN算法,将区域回归网络和孪生网络相结合,取得了较好的效果. Wang等[12]将注意力机制和孪生网络相结合取得了较好的效果. 可见,基于Siamese网络的目标跟踪算法是目前跟踪领域的研究重点.
SiamFC算法的孪生网络结构较简单,能够符合跟踪对于精度与速度的要求. 不过,基于匹配思想的SiamFC算法也有其缺点. 一方面由于孪生网络算法相对于其他深度学习算法而言,缺少分类器训练的模式,其特征网络和判别网络自成一体,如何训练好的特征提取网络变得尤为关键. 由于目标跟踪在光照与尺度变换、背景杂乱、遮挡等场景的复杂性,过于简单的特征提取网络不能较好地提取足够强大并且自带判别效果的特征,难以提高跟踪效果. 另一方面由于SiamFC算法没有模板自适应更新策略,在遮挡情况和长时跟踪过程中极易导致跟踪失败.
1. 基本原理
图 1
孪生网络进行目标跟踪的实质可以视作相似性学习. 相似性度量函数可以描述为
式中:
SiamFC算法关键在于通过网络离线训练得到一个效果较好的相似性度量函数,利用它来计算搜索帧与模板帧之间特征的相似度,找到相似度得分最高的位置即为目标跟踪的区域. SiamFC相似性度量函数可以描述为
式中:函数
2. 整体特征通道识别跟踪算法
图 2
图 2 整体特征通道识别的自适应孪生网络跟踪算法示意图
Fig.2 Schematic diagram of adaptive siamese network tracking algorithm based on global feature channel recognition
2.1. 融合通道注意力的孪生网络
表 1 ResNet22网络参数
Tab.1
层名 | 核尺寸 | 模板尺寸 | 搜索尺寸 |
input | − | | |
Conv1 | | | |
Crop | − | | |
Maxpool | | | |
Conv2_x+Crop×3 | | | |
Conv3_1+Crop | | | |
Maxpool | | | |
Conv3_x+Crop×3 | | | |
本研究算法将SiamFC传统的AlexNet特征提取网络更换为ResNet22. 研究发现当网络加深的过程中,网络的通道数会增加,但是卷积层的输出并没有考虑到对于各个通道的依赖性,所以本研究将高效通道注意力机制[16]融入骨干网络具有较多通道数的Conv3阶段的卷积层中. 当前许多目标跟踪算法仅是将较复杂的通道注意力模块加入到特征提取网络的最后,效果提升不太明显,同时也会造成计算量的增加. 本算法选择了一种计算量较小的通道注意力机制,并将其融入到残差网络的骨干中,发挥通道注意力的性能. 该高效的通道注意力模块如图2(b)所示. 将此模块加入残差单元中,可以有选择性地提取有用通道信息而抑制无用通道信息,通过计算各个通道的权重信息让所有的通道共享权重信息,从而实现跨通道信息交互的通道注意力,提高网络的表征能力,其结构如图3所示. 可知,该模块输入与输出一个相同大小的特征图,通过GAP与1个1D卷积,得到一个对于不同特征通道有不同权重的特征图,从而提高提取特征的质量.
图 3
首先须计算每个通道所需要的权重因子:
式中:
为了加速这一过程,可以使用快速的1D卷积进行实现:
式中:
为了寻找卷积核的数量
式中:
此时通过C来求解
使用该通道注意力,可以使特征提取网络更加关注须关注通道的特征,提高跟踪精度.
2.2. 整体特征识别机制的特征提取网络
近年来,注意力机制广泛运用于计算机视觉. 对于目标跟踪任务而言,复杂的背景信息与跟踪物体的多种变化使得对于跟踪目标的特征提取充满难度,同时如何利用跟踪序列中较少的样本信息获得更好的整体特征尤为关键. 当前在目标跟踪领域使用较多的空间注意力与通道注意力仅仅是在局部空间与通道特征方面进行操作,而忽略了每个特征点对于整体特征的重要性. 因此,本研究使用较为简化的自注意力机制,既可以简化提取特征的计算量,又可以解决局部局限的问题,获得较好的整体特征.
本研究使用改进的特征提取网络提取输入帧与模板帧的特征,将得到的通道为
式中:
使用整体特征识别机制,可以得到具有丰富整体上下文信息的,拥有更好判别效果的相同大小的特征图,从而提高跟踪效果.
图 4
2.3. 引入模板自适应更新的目标跟踪算法
基于SiamFC的目标跟踪算法在跟踪时,模板并没有在线更新的过程. 所以当跟踪器面对遮挡与长时跟踪情况时,极易出现跟丢目标的情况. 为了解决模板退化的问题,采用模板自适应更新的方式来跟踪模板. 另外,如果不考虑模板更新的条件,容易造成模板污染现象,造成跟踪精度的下降,所以本研究将平均峰值相关能量(APCE)评价指标与模板更新的方式进行结合,提高跟踪精度.
使用线性加权的方式,用当前帧的模板和之前积累的模板来生成下一帧的模板:
式中:
使用更新后的模板
式中:
同时,判断是否进行模板更新:
式中:
3. 实验分析及性能评估
3.1. 实验环境及参数设定
运行平台配置如下:CPU为Intel I7-8700K,内存为32 G,显卡为2块NVIDIA GTX1080TI,操作系统为64位Ubuntu 16.04. 编程软件使用Pycharm. 编程环境为基于python3.6的Pytorch.
在测试阶段,在模板更新判据中,参数
3.2. 利用OTB2015目标跟踪标准测试集测试算法性能
3.2.1. 数据集介绍
为了分析所提跟踪算法的性能,选取OTB2015数据集测试精确度曲线图和成功率曲线图. 使用OTB2015中OPE(one-pass evaluation)来计算精确度与成功率评判算法性能. 相关参数定义如下:目标中心位置误差为当前跟踪框中心位置与人工标定的实际跟踪框中心位置之间的欧式距离;精确度为目标中心位置误差小于某一个阈值的帧数占总帧数的比值,在目标跟踪领域该阈值通常设置为20;重叠率为当前跟踪框与人工标定跟踪框之间重叠面积与并集面积的比值;成功率为重叠率大于一定阈值的帧数占总帧数的比值,在目标跟踪领域该阈值通常设置为0.5.
3.2.2. 实验分析
为了测试算法的性能,选取9种算法DeepSRDCF[6]、ECO-HC[8]、SiamFC[9]、CFNET[10]、SiamDW[15]、DsiamM[21]、Staple[22]、SiamTri[23]、LMCF[24]与本研究所提算法进行对比。这9种算法都是目标跟踪领域较优秀的方法,并且是被广泛运用到对比算法中的当前最流行的算法。进行性能测试并对实验结果进行分析和对比,算法的成功率与准确度曲线如图5所示。图中,S为成功率,P为精确度,TO、TL分别为重叠率、位置误差阈值。可以看出,本研究跟踪算法在成功率与准确度两方面相对于基础的SiamFC算法和最新的SiamDW算法均有提升,说明所提算法表现较好。
图 5
图 5 10种跟踪算法在OTB2015数据集上的结果图
Fig.5 Results of ten tracking algorithms on OTB2015 dataset
表 2 10种跟踪算法在OTB上11种属性的准确度
Tab.2
算法 | 光照变化 | 面内旋转 | 低分辨率 | 遮挡 | 面外旋转 | 出视野 | 尺度变化 | 快速移动 | 背景干扰 | 运动模糊 | 形变 |
CFNET | 0.706 | 0.768 | 0.760 | 0.703 | 0.741 | 0.536 | 0.727 | 0.716 | 0.734 | 0.633 | 0.696 |
SiamFC | 0.741 | 0.742 | 0.847 | 0.726 | 0.756 | 0.669 | 0.738 | 0.743 | 0.690 | 0.705 | 0.693 |
SiamTri | 0.752 | 0.774 | 0.897 | 0.730 | 0.763 | 0.723 | 0.752 | 0.763 | 0.715 | 0.727 | 0.683 |
LMCF | 0.795 | 0.755 | 0.679 | 0.736 | 0.760 | 0.693 | 0.723 | 0.730 | 0.822 | 0.730 | 0.729 |
DSiamM | 0.805 | 0.807 | 0.857 | 0.794 | 0.829 | 0.684 | 0.778 | 0.759 | 0.792 | 0.721 | 0.761 |
Staple | 0.787 | 0.770 | 0.631 | 0.721 | 0.730 | 0.661 | 0.715 | 0.697 | 0.766 | 0.707 | 0.743 |
ECO-HC | 0.792 | 0.783 | 0.798 | 0.806 | 0.811 | 0.737 | 0.805 | 0.792 | 0.824 | 0.780 | 0.818 |
DeepSRDCF | 0.786 | 0.818 | 0.708 | 0.822 | 0.835 | 0.781 | 0.817 | 0.814 | 0.841 | 0.823 | 0.779 |
SiamDW | 0.854 | 0.841 | 0.882 | 0.786 | 0.842 | 0.782 | 0.842 | 0.808 | 0.800 | 0.842 | 0.831 |
本研究算法 | 0.910 | 0.898 | 0.913 | 0.846 | 0.915 | 0.792 | 0.888 | 0.866 | 0.898 | 0.875 | 0.883 |
表 3 10种跟踪算法在OTB上11种属性的成功率
Tab.3
算法 | 光照变化 | 面内旋转 | 低分辨率 | 遮挡 | 面外旋转 | 出视野 | 尺度变化 | 快速移动 | 背景干扰 | 运动模糊 | 形变 |
CFNET | 0.551 | 0.572 | 0.576 | 0.542 | 0.547 | 0.423 | 0.552 | 0.558 | 0.565 | 0.514 | 0.510 |
SiamFC | 0.574 | 0.557 | 0.592 | 0.547 | 0.558 | 0.506 | 0.556 | 0.568 | 0.523 | 0.550 | 0.510 |
SiamTri | 0.585 | 0.580 | 0.634 | 0.554 | 0.563 | 0.543 | 0.567 | 0.585 | 0.542 | 0.567 | 0.504 |
LMCF | 0.601 | 0.543 | 0.450 | 0.554 | 0.553 | 0.539 | 0.519 | 0.551 | 0.606 | 0.561 | 0.525 |
DSiamM | 0.608 | 0.599 | 0.606 | 0.583 | 0.599 | 0.509 | 0.576 | 0.579 | 0.589 | 0.562 | 0.544 |
Staple | 0.596 | 0.552 | 0.418 | 0.545 | 0.531 | 0.481 | 0.518 | 0.537 | 0.574 | 0.546 | 0.552 |
ECO-HC | 0.615 | 0.567 | 0.562 | 0.605 | 0.594 | 0.549 | 0.599 | 0.614 | 0.618 | 0.616 | 0.601 |
DeepSRDCF | 0.624 | 0.589 | 0.475 | 0.603 | 0.607 | 0.553 | 0.607 | 0.628 | 0.627 | 0.642 | 0.567 |
SiamDW | 0.656 | 0.611 | 0.607 | 0.598 | 0.615 | 0.588 | 0.625 | 0.627 | 0.596 | 0.659 | 0.608 |
本研究算法 | 0.666 | 0.633 | 0.585 | 0.618 | 0.642 | 0.582 | 0.636 | 0.648 | 0.636 | 0.669 | 0.638 |
为了全面验证算法的有效性,选取10种跟踪算法在4个视频序列的跟踪效果,如图6所示. 选取OTB测试集中包含11种属性较多的4个视频序列,用这些较难的视频序列来可视化各个跟踪器在面对复杂的场景环境时的具体表现,以验证本研究跟踪算法的有效性.
图 6
图 6 10种跟踪算法在4个视频序列的跟踪效果图
Fig.6 Ten algorithms' tracking results on four video sequences
如图6(a)所示,该视频序列包含除低分辨率、出视野、形变之外的8种属性. 在67帧开始时出现背景杂乱、光照变换、旋转等情况,多种算法的跟踪器发生偏移现象. 在第299帧时,只有极少数跟踪器可以跟上,本研究算法表现良好,一直跟踪在目标的中心位置. 该视频序列发生了严重的背景杂乱现象,本研究所用的整体特征感知功能,能够较好地把握所需特征对于整体的依赖,获得较好的属性.
如图6(b)所示,该序列包含OTB中除形变之外的11种属性之中的10种属性,是难度较大的视频序列. 在第10帧开始出现形变、尺度变化、运动模糊等情况. 有部分跟踪器开始发生偏移现象. 在序列的第165帧时,绝大多数跟踪算法均已跟踪失败,而本研究所提出的算法跟踪成功,得益于本研究的自适应模板更新策略,即使发生遮挡与出视野的情况,也可以较好地处理,验证了本研究算法的鲁棒性与成功率.
如图6(c)所示,该序列包含除光照变换、运动模糊、低分辨率之外的8种属性. 可以看出,本研究算法在复杂的情况下,不仅能够跟踪在目标的中心位置,也能够极其准确地跟住目标,得益于算法多种注意力机制,即使在发生形变时也可以选择有用的信息而抑制无用信息,可以看出本研究算法精度较高.
如图6(d)所示,该序列包含除形变、快速变换、低分辨率之外的8种属性. 经过一系列复杂的情况之后,本研究所提算法依旧是极少数能够不被丢失的跟踪器之一,而且还能够保持相应的精度.
3.3. 利用VOT2016目标跟踪标准测试集测试算法性能
3.3.1. 数据集介绍
在目标跟踪VOT数据集中,所提算法使用VOT2016来评价算法的优劣. VOT基准使用平均重叠率(expected average overlap,EAO)为主要的评测指标. EAO越高,表示跟踪器的性能越好.
3.3.2. 实验分析
图 7
图 7 7种算法在VOT2016数据集上的EAO结果图
Fig.7 EAO score results of seven tracking algorithms on VOT2016 dataset
EAO数值如表4所示. 表中,排名前3的结果粗体标出. 可以看出,本研究算法的EAO比SiamAN算法的高出11.30%,比SiamRN算法的高出7.16%,比最新的SiamDW算法的高出5.97%. 通过实验分析可以清楚看到所提算法在VOT2016数据集表现较好.
表 4 7种跟踪算法在VOT2016数据集上的性能评估
Tab.4
跟踪算法 | EAO | 跟踪算法 | EAO | |
本研究算法 | 0.3482 | DeepSRDCF | 0.2763 | |
staple | 0.2952 | MDNET_N | 0.2572 | |
SiamDW | 0.2885 | SiamAN | 0.2352 | |
SiamRN | 0.2766 | − | − |
3.4. 利用VOT2018目标跟踪标准测试集测试算法性能
具体的EAO数值如表5所示.本研究算法的EAO比SiamFC算法的高出7.34%,比最新的SiamDW算法的高出3.48%. 通过实验分析可以看到本研究所提出的算法在VOT2018数据集表现良好,充分证明了本研究算法的性能.
图 8
图 8 7种算法在VOT2018数据集上的EAO结果图
Fig.8 EAO score results of seven tracking algorithms on VOT2018 dataset
表 5 7种跟踪算法在VOT2018数据集上的性能评估
Tab.5
跟踪算法 | EAO | 跟踪算法 | EAO | |
本研究算法 | 0.2610 | SiamFC | 0.1876 | |
UpdateNet | 0.2431 | Staple | 0.168 5 | |
SiamDW | 0.2262 | DeepSRDCF | 0.154 0 | |
DSiam | 0.195 9 | − | − |
4. 结 语
针对SiamFC算法仅使用特征匹配的方法进行目标跟踪,当面对复杂场景,尤其是背景杂乱、形变、光照与尺度变换等情况,难以较好地提取目标特征的问题,提出整体特征通道识别的自适应孪生网络跟踪算法,将高效的通道注意力机制与全局特征识别机制融入特征提取网络中,优化提取的特征,提高了算法的精度;针对传统Siam系列算法没有模板更新会导致在遮挡场景下跟踪失败的问题,使用模板自适应在线跟踪策略,提高算法在以上场景下的成功率. 利用目标跟踪标准测试集OTB2015测试算法效果,本研究算法成功率为0.650,精确度为0.894,较基准SiamFC算法分别提高了6.8%、12.3%,较最新的SiamDW算法分别提高了1.2%、4.1%. 在VOT2016数据集进行测试,所提算法的EAO较SiamRN算法的提高了7.16%,较SiamAN算法的提升了11.30%,较最新的SiamDW算法的提高了5.97%. 在VOT2018数据集进行测试,所提算法的EAO较SiamFC的提升了7.34%,较SiamDW的提高了3.48%. 通过实验验证,本研究所提算法在背景杂乱、形变、光照与尺度变换、旋转等情况下能够较好地跟踪目标,具有一定的研究价值.
参考文献
On-road pedestrian tracking across multiple driving recorders
[J].DOI:10.1109/TMM.2015.2455418 [本文引用: 1]
Visual tracking: an experimental survey
[J].DOI:10.1109/TPAMI.2013.230 [本文引用: 1]
Object tracking benchmark
[J].DOI:10.1109/TPAMI.2014.2388226 [本文引用: 1]
ImageNet large scale visual recognition challenge
[J].DOI:10.1007/s11263-015-0816-y [本文引用: 1]
/
〈 |
|
〉 |
