自适应上下文感知的目标追踪方法

doi:10.3785/j.issn.1008-973X.2021.10.005

自适应上下文感知的目标追踪方法

柏昀旭^,, 陆新江^,, 骆锐

1. 中南大学机电工程学院，湖南长沙 410083

2. 湖南工业职业技术学院，湖南长沙 410083

Adaptive context-aware target tracking method

BAI Yun-xu^,, LU Xin-jiang^,, LUO Rui

1. College of Mechanical and Electrical Engineering, Central South University, Changsha 410083, China

2. Hunan Industry Polytechnic, Changsha 410083, China

通讯作者: 陆新江，男，教授. orcid.org/0000-0002-5100-1092. E-mail： xjlu@csu.edu.cn

收稿日期: 2020-11-3

基金资助:

国家重点研发计划资助项目（2018YFB1308202）；国家自然科学基金资助项目（52075556）；湖南省杰青资助项目（2019JJ20030）；湖南省高新技术产业科技创新引领计划资助项目（2020GK4097）；湖南省教育厅科学研究资助项目（12B035）

Received: 2020-11-3

Fund supported:

作者简介 About authors

柏昀旭（1995—），男，博士生，从事机器学习与目标跟踪的研究.orcid.org/0000-0003-1601-7184.E-mail：yxbai2017@csu.edu.cn , E-mail：yxbai2017@csu.edu.cn

摘要

针对相关滤波方法容易受到背景干扰导致跟踪漂移的问题，提出自适应上下文感知图像跟踪方法. 为了减少背景干扰，选取离目标位置远的高响应区域为自适应上下文区域，赋予该区域自适应的低响应值. 根据上下文区域与目标区域响应的相对差值，给上下文区域自适应的惩罚因子，使得该算法具有更好的鲁棒性. 该算法在OTB2013、OTB2015及Temple-Color128标准数据集上都展现了优秀的跟踪性能，OTB2015的重叠率精度达到61.53%，超过大部分已有的优秀算法，特别是在背景混叠及部分遮挡的情况下有着更卓越的表现. 该算法的平均跟踪速度为24.5帧/s，实时性较好.

关键词： 相关滤波 ; 目标追踪 ; 自适应上下文感知 ; 背景干扰 ; 跟踪漂移

Abstract

An adaptive context-aware target tracking method was proposed aiming at the problem that the correlation filtering methods were easily interfered by background, which led to tracking drift. The high response area far from the target position was selected as the adaptive context area in order to reduce the background interference. Then the adaptive low response value was assigned to the area. The penalty factor was adaptively given to the context area according to the relative difference of response value between the context area and the target area, which made the algorithm more robust. The algorithm showed excellent tracking performance on OTB2013, OTB2015 and Temple-Color128 benchmark. The overlapping rate accuracy of OTB2015 was 61.53%, which was superior to most existing excellent algorithms. The algorithm performed better especially in the case of background clutter and partial occlusion. The average tracking speed of the algorithm was 24.5 frames per second, and the algorithm had a good real-time effect.

Keywords： correlation filtering ; target tracking ; adaptive context-aware ; background interference ; tracking drift

PDF (3165KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

柏昀旭, 陆新江, 骆锐. 自适应上下文感知的目标追踪方法. 浙江大学学报(工学版)[J], 2021, 55(10): 1834-1846 doi:10.3785/j.issn.1008-973X.2021.10.005

BAI Yun-xu, LU Xin-jiang, LUO Rui. Adaptive context-aware target tracking method. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(10): 1834-1846 doi:10.3785/j.issn.1008-973X.2021.10.005

目标跟踪是机器视觉主流的研究方向之一，它广泛应用于智能视频监控^[1-2]、机器人视觉导航^[3]、医学诊断^[4]等领域. 目标跟踪过程容易受到复杂背景干扰，从而导致跟踪漂移甚至目标丢失；因此，如何研究出鲁棒性强、实时性好及跟踪精度高的模型成为目标跟踪研究的重点之一^[5].

复杂背景干扰主要包括相似背景干扰、光照变化及遮挡等^[6]情况. 为了解决这些问题，国内外学者都开展了许多研究. 其中相关滤波算法受到了广泛的应用，这得益于简洁的原理和高效的计算速度. 在面对背景干扰的问题上，相关滤波面临很大的挑战.

针对背景干扰的问题，一些学者对目标区域的特征进行改进. Henriques等^[7]采用方向梯度直方图（histogram of oriented gradient，HOG）特征的同时引入脊回归，在增强跟踪性能的同时保证了滤波器的鲁棒性. Yang等^[8]结合HOG特征和颜色特征（color name，CN），使得模型能够适应更广泛的场景. Bertinetto等^[9]融合HOG特征和CN特征，综合跟踪得分信息与统计得分信息，提高了跟踪算法的准确度. Danelljan等^[10]将深度特征引入目标跟踪中，该算法用深度学习网络提取目标特征，使得特征具有更好的抵抗复杂背景和噪声干扰的能力. Ma等^[11]采用多层卷积的特征，对目标进行更深层次的表达. Choi等^[12]融合meta-learner网络提取的特征与Siamese网络提取的特征，得到自适应的目标特征. Xu^[13]等在空间层面和通道层面对提取的特征进行选择，减少多通道特征的冗余性. 除了对特征进行改进，Tang等^[14]引入多核方法，能够更有效地将目标从搜索区域中分离出来. Bhat等^[15]建立端到端学习，考虑背景信息，能够更好地区分目标. Li等^[16]利用梯度信息对模板进行更新，提高了跟踪精度. 这些方法通过改善目标区域的特征和模型学习能力，从而抵抗复杂的背景干扰，提高模型的跟踪性能.

为了解决以上问题，本文在传统上下文感知算法的基础上，提出新的自适应上下文感知方法. 该方法能够检测跟踪过程中潜在的背景干扰区域，对该区域进行抑制，从而对目标进行精确的跟踪. 本文的贡献如下. 1）通过检测响应图，提出自适应的潜在背景干扰区域检测方法. 2）根据潜在背景干扰区域中包含的目标信息，建立科学的抑制背景区域响应的自适应模型. 3）提出合理的模型参数（惩罚因子）自适应方法. 4）利用该方法可以植入特征改进及尺度估计的算法中，使得算法在更有挑战的跟踪环境下，能够达到良好的跟踪性能.

1. 目标跟踪算法

目前，目标跟踪算法分为相关滤波和深度学习2个主流方向. 相关滤波类算法的性能受背景干扰的影响，也受限于边界效应和尺度问题. 为了减缓边界效应，Galoogahi等^[17]采用更大的搜索域，利用裁剪矩阵以获得循环位移后真实的负样本. Galoogahi等^[18]采用较大的检测图像块并引入空间约束，保持样本的真实性. Danelljan等^[19]对滤波器增加正则化的惩罚系数，减少边界部分的背景响应. 上下文感知方法^[20]（context-aware correlation filter tracking，CACF）通过引入上下文区域作为负样本，对上下文区域的响应进行抑制，从而解决背景干扰及边界效应. Lukei等^[21]融合空间可靠性和通道可靠性，让滤波器更专注于对目标区域的建模. Huang等^[22]通过对检测阶段生成的响应图变化速率进行限制，从而抑制边界效应. 这些方法能够抑制由循环位移带来的边界效应影响，但是对于较复杂的背景干扰，存在一定的局限性.

尺度估计方法通过对目标建立合适的尺度模型，最大程度地学习到目标模型，减少无用的背景信息. Li等^[23]将单一特征扩展为多个特征，建立不同的尺度池来实现对目标尺度的自适应. 该方法需要设置尺度步长，步长设置不合理会出现偏移过大的情况. Danelljan等^[24]训练2个不同的滤波器，分别用来跟踪及尺度估计，目标变化大则尺度估计不准. Danelljan在原有的基础上引入特征降维和插值方法^[25]，使得算法在精度和速度上都有提升. Wang等^[26]结合深度特征提出单独的平移和尺度估计，完成目标的精确定位. Girshick等^[27]提出基于深度学习的方法进行目标的尺度估计，能够更好地建立目标的尺度模型. 这类方法没有很好的更新策略，容易受到目标周围复杂背景的干扰.

除了相关的滤波类跟踪算法外，深度学习类跟踪算法在目标跟踪算法中有很广泛的应用. Qi等^[28]通过对不同卷积层的特征分别进行处理，组合得到更强力的滤波器. Valmadre等^[29]引入相关滤波到SiamFC^[30]结构，开展端到端的网络训练，减少了卷积的层数. Danelljan等^[31]在连续的空间域中学习一个判别算子，在融合多分辨率特征的同时实现了亚像素的定位. Huang等^[32]将检测引入跟踪，通过2个网络分别选取相似样本，区分分类目标. 深度学习能够对目标进行更精确的表征，但是由于计算速度较慢，对硬件的要求较高，难以在CPU上满足实时性.

总的来说，相关滤波和深度学习在目标跟踪算法中都有很好的发展. 深度学习对硬件有更高的要求，相关滤波在精度和鲁棒性方面需要改进.

2. 上下文感知算法回顾

由于传统相关滤波方法受到边界效应及搜索区域的限制，导致滤波器模板学习到的背景信息不足，遇到复杂的背景干扰时容易发生漂移. 针对以上问题，上下文感知算法提出新的学习框架，可以显式地学习目标周围的背景信息. 如图1所示，在训练阶段，该方法将目标周围的4个上下文区域作为正样本，标记为A_i. 将目标区域作为正样本，标记为A₀. 通过抑制上下文区域的响应，减少背景产生的干扰.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 传统上下文感知的示意图

Fig.1 Schematic diagram of traditional context awareness

中间的区域A₀为目标区域，训练时令滤波器在中心处产生最大的响应；目标周围4个区域A_i为上下文区域；标记为负样本，训练时令A_i区域产生的响应为0. 传统的CF目标函数与本文的目标函数如下所示：

(1) $ \mathop {\min }\limits_{\boldsymbol{h}} \;\left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 , $

(2) $ \mathop {\min }\limits_{\boldsymbol{h}} \;\left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 + {\lambda _2}\sum\limits_{i = 1}^4 {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}}} \right\|} _2^2 . $

式中：A₀为目标区域经过循环位移后的图像；A_i代表上下文区域经过循环位移后的图像；h为滤波器；y为期望的响应标签值，服从二维高斯函数； ${\lambda _1}$为正则化因子； ${\lambda _2}$为惩罚因子. 和传统的相关滤波方法相比，该方法加了第3项 $\displaystyle \sum\nolimits_{i = 1}^4 {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}}} \right\|} _2^2$作为惩罚项，目的是使训练的模板在上下文区域A_i处产生的响应尽量小，从而抑制该区域产生的干扰.

为了求解式（1）的目标函数，对A₀和y进行拓展：

(3) $ {\boldsymbol{B}} = \left[ \begin{array}{l} {{\boldsymbol{A}}_0} \\ \sqrt {{\lambda _2}} {{\boldsymbol{A}}_1} \\ \vdots \\ \sqrt {{\lambda _2}} {{\boldsymbol{A}}_k} \end{array} \right],\;\bar {\boldsymbol{y}} = \left[ \begin{array}{l} {\boldsymbol{y}} \\ {\boldsymbol{0}} \\ \vdots \\ {\boldsymbol{0}} \end{array} \right]. $

将式（3）、（2）合并，则目标函数变为

(4) $ {f_{\rm{p}}}({\boldsymbol{h}},{\boldsymbol{B}}) = \mathop {\min }\limits_{\boldsymbol{h}} \left\| {{\boldsymbol{Bh}} - \bar {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2. $

${f_{\rm{p}}}({\boldsymbol{h}},{\boldsymbol{B}})$有着和传统相关滤波一样的形式，因此有着类似的解：

(5) $ {\boldsymbol{h}} = {({{\boldsymbol{B}}^{\rm{T}}}{\boldsymbol{B}} + {\lambda _1}{\boldsymbol{I}})^{ - 1}}{{\boldsymbol{B}}^{\rm{T}}}\bar {\boldsymbol{y}}. $

利用循环矩阵对角化的性质，得到h在傅里叶域的解：

(6) $ \hat {\boldsymbol{h}} = \frac{{\hat {\boldsymbol{a}}_0^* \odot \hat {\boldsymbol{y}}}}{{\hat {\boldsymbol{a}}_0^* \odot {{\hat {\boldsymbol{a}}}_0} + {\lambda _1{\boldsymbol{I}}} + {\lambda _2}\displaystyle\sum\nolimits_{i = 1}^k {\hat {\boldsymbol{a}}_i^* \odot {{\hat {\boldsymbol{a}}}_i}} }}. $

式中：*表示共轭，^表示傅里叶变换，a₀和a_i为目标区域和上下文区域原本的图像块.

上下文感知算法选取目标周围4个区域作为上下文区域，在训练的过程添加为新的负样本. 这种选取方法没有针对性，若背景干扰区域分布不在目标区域的周围，则不能学习到有效的背景信息. 对于背景区域的选取，需要更合理且有针对性的检测方法. 由于上下文区域包含部分目标信息，将上下文区域的响应抑制为0，会丢失原有的真实性. 对于区域响应的赋予，应该研究更合理的方式. 视频序列每帧的背景干扰程度不同，对于背景干扰较小的帧，抑制响应的意义相对较小. 针对惩罚因子的选取，应给予自适应的值. 基于以上分析，本文将研究更合理、有效的自适应上下文感知方法.

3. 自适应上下文感知算法

3.1. 上下文区域的自适应选取

上下文感知算法的性能极大程度上取决于上下文区域的选取. 传统的做法是在目标周围固定地选取上下文区域. 这种上下文区域的选取方法缺乏针对性，因为目标区域周围的区域不一定是背景干扰最大的区域，若是选中对目标没有干扰的区域，则会导致模型的性能没有提高. 通过实验可知，潜在导致跟踪发生漂移的干扰背景会产生较高的响应值，当响应值高于目标时会导致跟踪漂移及丢失. 自适应上下文区域的选取策略以响应值为依据，响应值最大的位置即为目标位置，响应值较大（不是最大）的位置为潜在的背景干扰位置，即上下文区域位置. 上下文区域的自适应选取策略如图2所示. 对于每一帧的检测响应图，不仅要找到最大响应位置判定为目标位置，也要找到响应值第2、第3、第K（K为选取的上下文区域个数）的位置作为上下文区域位置，以进行下一帧的模型训练. 目标区域的周围是高响应区域，这些区域包含了大量的目标信息，但这是正常的响应区域，不能作为上下文区域. 上下文区域的中心至少要与目标区域相隔半个检测框的距离. 目标函数（1）的形式变为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 上下文区域的自适应选取思路

Fig.2 Adaptive selection of context region

(7) $ \mathop {\min }\limits_{\boldsymbol{h}} \;\left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 + {\lambda _2}\sum\limits_{i = 1}^k {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}}} \right\|_2^2} . $

3.2. 自适应的上下文区域响应值赋予方法

在选定上下文区域后，将其区域向外扩散一周，以学习到更多的信息. 上下文感知区域在进行了扩散之后，可能会包含部分真实目标的模型. 传统的上下文感知算法没有考虑到该问题，将上下文区域的响应值标定为0来进行训练，丢失了图像的真实性. 为了解决该问题，本文进行改进，根据上下文区域离目标区域的中心距离来决定上下文区域应具有的响应值，如图3所示. 对于中心距离越近的上下文区域，包含的目标信息越丰富，给定的响应值越大，将二维高斯函数作为自上下文区域响应值的自适应赋予方法：

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 上下文区域响应值

Fig.3 Context area response value

(8) ${y_i^{\rm{m}}} = \exp \; \left(- {\frac{{d_x^2 + d_y^2}}{{2{\sigma ^2}}}} \right).$

式中： ${y_i^{\rm{m}}}$为上下文区域中心的响应值，d_x为上下文区域中心与目标中心的横向距离，d_y为上下文区域中心与目标中心的纵向距离， $\sigma $为高斯函数的参数. 目标函数（7）变为

(9) $ \mathop {\min }\limits_{\boldsymbol{h}} \;\left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 + {\lambda _2}\sum\limits_{i = 1}^k {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}} - {{\boldsymbol{y}}_i}} \right\|_2^2} . $

3.3. 惩罚因子的自适应选取方法

在目标函数中，惩罚因子 ${\lambda _2}$决定上下文区域的重要程度. 若 ${\lambda _2}$小，则上下文区域对目标函数的影响变小，训练过程将更专注于对目标区域进行建模. 反之，上下文区域建模对目标函数的影响变大，训练过程将专注于对上下文区域的建模. 对于每一帧训练图像，上下文的干扰程度不同，因此上下文区域的重要程度不同. 然而，传统的上下文感知方法通过手动调参的方式，使得 ${\lambda _2}$固定，因此模型在每一帧对上下文区域的背景抑制程度相同，这种建模方法不能很好地表达背景的干扰程度. 本文认为上下文区域的响应值越接近目标区域，说明干扰越大， ${\lambda _2}$越大. 选取响应最大的上下文区域来决定 ${\lambda _2}$，定义相对响应差值：

(10) $ {\delta _i} = \frac{{\left| {y^{\rm{m}} - {y_i^{\rm{m}}}} \right|}}{y^{\rm{m}}}. $

式中：y^m为目标区域中心的响应值. 惩罚因子的选取如下：

(11) $ {\lambda _2} = \left( \begin{array}{l} 1,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\text{ }}{\delta _i} \leqslant 0.1; \\ \exp\; \left( { - \dfrac{{{{({\delta _i} - 0.1)}^2}}}{{2{\theta ^2}}}} \right),\;\;\;\;{\text{ 0}}{\text{.1 < }}{\delta _i} < 1 .\end{array} \right. $

式中： $\theta $为惩罚因子递减参数. 由式（11）可知，当 ${\delta _i} $ < 0.1时，认为上下文区域对目标区域造成了较大的干扰，此时赋予惩罚因子的值为1；当0.1 < ${\delta _i} $< 1.0时，随着差值的增大，惩罚因子逐渐减小. 惩罚因子选取的示意图如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 自适应惩罚因子

Fig.4 Adaptive penalty factor

3.4. 目标函数的构建及求解

新的目标函数为

(12) $ {f_{\rm{p}}}({\boldsymbol{h}}) = \mathop {\min }\limits_{\boldsymbol{h}} \left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 + {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 + {\lambda _2}\sum\limits_{i = 1}^k {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}} - {{\boldsymbol{y}}_i}} \right\|_2^2} . $

式中：A₀、A_i分别表示目标区域和上下文区域经过循环位移后的图像，y、y_i分别为目标和上下文区域的响应值， ${\lambda _1}、{\lambda _2}$为模型参数. 目标函数具有以下特质.

1）第1项 $ \left\| {{{\boldsymbol{A}}_0}{\boldsymbol{h}} - {\boldsymbol{y}}} \right\|_2^2 $是对目标区域的建模，该项的意义在于训练出来的模型要在目标区域处产生最大响应.

2）第2项 $ {\lambda _1}\left\| {\boldsymbol{h}} \right\|_2^2 $是正则化项，是为了保证模型的泛化性能及避免欠拟合.

3）第3项 $ {\lambda _2}\displaystyle\sum\nolimits_{i = 1}^k {\left\| {{{\boldsymbol{A}}_i}{\boldsymbol{h}} - {{\boldsymbol{y}}_i}} \right\|_2^2} $是对上下文区域的建模，该项的意义在于模型要在上下文区域处产生较小的响应，抑制该区域产生的干扰.

为了求解式（12），将上下文区域与目标区域合并，令

(13) $ {\boldsymbol{C}} = \left[ \begin{array}{l} {{\boldsymbol{A}}_0} \\ \sqrt {{\lambda _1}} {{\boldsymbol{A}}_1} \\ \vdots \\ \sqrt {{\lambda _k}} {{\boldsymbol{A}}_k} \end{array} \right],\;\bar {\boldsymbol{y}} = \left[ \begin{array}{l} {\boldsymbol{y}} \\ {{\boldsymbol{y}}_1} \\ \vdots \\ {{\boldsymbol{y}}_k} \end{array} \right]. $

将式（13）代入式（12），可得

(14) $ {f_{\rm{p}}}({\boldsymbol{C}},{\boldsymbol{h}}) = \left\| {{\boldsymbol{Ch}} - \bar {\boldsymbol{y}}} \right\|_2^2 + \lambda \left\| {\boldsymbol{h}} \right\|_2^2. $

对h求偏导，可得

(15) $ \frac{{\partial f}}{{\partial {\boldsymbol{h}}}} = 0 \to {\boldsymbol{h}} = {({{\boldsymbol{C}}^{\rm{T}}}{\boldsymbol{C}} + \lambda {\boldsymbol{I}})^{ - 1}}{{\boldsymbol{C}}^{\rm{T}}}\bar{\boldsymbol{ y}}. $

对于循环矩阵A，有以下性质：

(16) $ {\boldsymbol{A}} = {\boldsymbol{F}}{\rm{diag}}\;(\hat a){{\boldsymbol{F}}^{\rm{H}}}. $

式中：*表示共轭，^表示傅里叶变换，F为离散傅里叶变换矩阵，上标H表示共轭转置.

频域中滤波器的形式为

(17) $ \hat {\boldsymbol{h}} = \frac{{\hat {\boldsymbol{a}}_0^* \odot \hat {\boldsymbol{y}} + \displaystyle\sum\nolimits_{i = 1}^k {\sqrt {{\lambda _i}} (\hat {\boldsymbol{a}}_i^* \odot {{\hat {\boldsymbol{y}}}_i})} }}{{\hat {\boldsymbol{a}}_0^* \odot {{\hat {\boldsymbol{a}}}_0} + \lambda {\bf{1}}+ \displaystyle\sum\nolimits_{i = 1}^k {{\lambda _i}(\hat {\boldsymbol{a}}_i^* \odot {{\hat {\boldsymbol{a}}}_i})} }} . $

式中：1为所有元素为1的矩阵， $ \odot $表示矩阵点乘.

自适应上下文感知算法流程如图5所示，步骤如下.

1）第1帧图像选取目标周围上下左右4个区域作为上下文区域，按照传统上下文感知方法训练滤波器.

2）用前一帧训练好的滤波器，在后一帧进行检测. 找到响应最大的位置作为目标位置.

3）找到偏移目标位置半个框之外的k个响应最大位置作为上下文区域的选取位置.

4）按照式（9）给定上下文区域的标签值.

5）结合式（10）、（11），计算惩罚因子.

6）利用式（17），求解新的滤波器形式.

7）重复2）~6），得到每一帧的目标位置.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 自适应上下文感知算法的流程图

Fig.5 Flow chart of adaptive context-aware algorithm

4. 实验与分析

该算法在Intel core（TM）i7-4700MQ、CPU@2.40 GHz、8 GB内存的PC机上用Matlab R2017b编程实现的. 实验选取OTB2013^[33]、OTB2015^[34]和Temple-Color128^[35]所有视频序列，验证提出的算法在快速移动、背景混杂、目标变形及遮挡情况下所表现的性能.

4.1. 实验细节与参数设置

特征选取. 选取的特征为多维HOG+CN. 对于该算法来说，特征的选取和该算法是相互独立的，所以更合适、更强大的特征能够进一步提高算法的跟踪性能.

尺度选择. 建立尺度池，用于检测当前样本的最佳尺度. 检测过程中最大响应对应的尺度为最佳尺度. 尺度池包含5个尺度，尺度步长为1.01.

上下文区域个数K的选取. 选取K=1，2，3，4，分别验证该算法的性能.

目标定位. 通过在频域中快速计算得到目标当前位置：

(18) $ S({\boldsymbol{z}}) = {F^{ - 1}}\left( {\sum\limits_{d = {\text{1}}}^D {{{{\hat{\boldsymbol{z}}}}^d} \odot {{\hat {\boldsymbol{h}}}^d}} } \right) . $

式中： ${\hat {\boldsymbol{z}}^d}$为当前搜索区域的d通道特征图， ${\hat {\boldsymbol{h}}^d}$为d通道的滤波器.

模型更新. 采取固定更新率的模型更新方式：

(19) $ {{\hat{\boldsymbol{h}}}_{{\text{new}}}} = (1 - \eta ){{\hat{\boldsymbol{h}}}_{{\rm{old}}}} + \eta {{\hat{\boldsymbol{h}}}^*} . $

式中： ${\hat {\boldsymbol{h}}_{{\rm{old}}}}$、 ${\hat {\boldsymbol{h}}_{{\rm{new}}}}$为更新前、后的滤波器， $\hat {\boldsymbol{h}}^{\rm{*}}$为当前帧学习到的滤波器.

参数设置. 填充大小为2倍的目标区域，特征单元格大小为4×4像素，正则化因子为10⁻⁴，高斯标签的带宽为0.1，惩罚因子递减参数为0.2，学习率为0.015.

对比算法. 本文算法（ACACF）基于相关滤波框架，对比传统CACF^[20]算法与K=1，2，3，4时的性能. 将本文算法与现有的优秀算法进行对比，其中包括相关滤波类跟踪算法（BACF^[17]、ARCF^[22]、Staple^[9]、SRDCF^[19]、CSRDCF^[21]、LMCF^[36]、LCT^[37]、SAMF^[23]、fDSST^[25]、MEEM^[38]），也包括基于深度特征和深度学习类跟踪算法（CFNet^[29]、SiamFC^[30]、DCFNet^[39]、ACFN^[40]、HDT^[28]、HCF^[11]）. 对比算法中最优秀的7种算法.

复杂度分析. 通过使用快速傅里叶变换，目标函数（12）的复杂度为 $ O{\text{ (}}DHW{\text{)}} $，其中H、W、D分别表示滤波器的尺寸（长和宽）、通道. D的大小为33，包括31维的HOG特征、1维的CN特征及1维的灰度特征.

有效性分析. 分析跟踪失败的案例，探明跟踪失败的原因以及算法的有效性及适用范围.

评价指标. 使用OPE协议作为评价标准，包括距离精度（distance precision，DP）、重叠率精度（overlap precision，OP）及重叠率曲线下面积精度（area under curve，AUC）. 其中距离误差阈值（location error threshold，LET）为20，重叠率阈值（overlap threshold，OT）为0.5. 通过检测速度v来对比各个算法的速度.

4.2. 上下文区域数量对模型性能的影响

验证ADA_CA在上下文区域个数分别为1、2、3、4时的跟踪性能及速度，将其与传统CACF方法进行对比. 在传统CACF方法中，使用HOG+CN特征，尺度预测方面包含5个尺度，步长为1.01. 为了更客观、全面地对比模型的性能，选取视频较复杂的OTB2015数据集进行测试. 如图6所示分别为中心误差阈值、重叠度阈值与跟踪成功率的曲线. 如表1所示为算法在DP、OP、AUC及FPS等评价指标下的得分情况. 从图6和表1可以看出，本文算法在K=2时取得最好效果，获得了DP（86.87%）、OP（74.74%）和AUC（60.39%）的高分，之后随着K的增大效果变差. 这是由于随着K的增大，模型会将干扰较小的区域选为上下文区域. 在训练滤波器的时候受到惩罚因子的影响，过多地考虑了对这块区域响应的抑制，导致目标区域的建模精度受到影响. 由FPS可以看出，由于算法增加了对响应图的处理步骤，速度有所下降，但能够满足实时性的要求. 这说明本文算法较传统CACF有较大的改进，能够更加有效地抑制复杂背景的干扰.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同K下提出算法与传统CACF方法的DP精度和AUC成功率对比

Fig.6 Comparison of DP accuracy and AUC success rate between traditional CACF algorithm and proposed algorithm under different K value

表 1 不同K下的各评价指标得分

Tab.1 Scores of each evaluation index under different K values

算法	DP /%	OP /%	AUC /%	v /（帧·s⁻¹）
ACACF（K=1）	85.72	72.63	60.39	25.8
ACACF（K=2）	86.87	74.74	61.53	24.5
ACACF（K=3）	85.43	72.21	60.10	23.8
ACACF（K=4）	79.73	67.79	56.81	21.8
CACF	80.11	70.24	58.56	25.7

新窗口打开| 下载CSV

4.3. OTB2013数据集

OTB2013视频序列源自2013年在CVPR上发表的数据集. 其中包含51个视频序列，每个视频序列都对应不同的属性，这些属性对应视频中包含的复杂背景干扰，包括光照变化、平面外旋转、尺度变化、背景杂乱、遮挡、变形、运动模糊、低分辨率、快速运动、平面内旋转、超出视野等.

如表2所示为本文算法与优秀跟踪算法在OTB2013上的跟踪表现对比. 其中算法CFNet和SiamFC无法实现在CPU上实时跟踪，因此无法计算FPS，FPS用NaN表示，DP精度和AUC成功率是在GPU上运行获得的数据. 从表2可以看出，相关滤波类算法普遍速度较快，而精度较低；深度类算法的FPS普遍较低，实时性较差；利用本文算法获得了最高的DP和AUC得分以及第2的OP得分，在FPS上能够满足实时性的要求，说明本文算法的精度和速度都很有竞争力. 如图7所示为不同算法的跟踪成功率对比曲线.

表 2 优秀跟踪算法在OTB2013上的各评价指标得分

Tab.2 Scores of each evaluation index between outstanding algorithms on OTB2013 database

算法	DP /%	OP /%	AUC /%	v /（帧·s⁻¹）
ADA_CA（K=2）	88.16	81.12	64.29	27.2
BACF	83.87	81.41	63.78	27.1
ARCF	82.84	79.18	62.62	4.5
Staple	79.26	75.39	59.95	44.9
SRDCF	83.79	78.13	62.62	4.5
CSRDCF	80.28	73.78	59.33	22.8
LMCF	84.20	80.03	62.76	77.6
LCT	84.12	80.70	62.37	21.6
SAMF	78.50	73.19	57.93	18.6
fDSST	73.97	67.03	55.42	19.4
CFNet	78.49	75.19	58.89	NaN
SiamFC	80.93	77.86	60.73	NaN
DCFNet	79.45	77.86	62.24	21.2
ACFN	85.96	75.03	60.71	7.0
HCF	87.86	73.22	59.75	8.0
HDT	87.74	72.96	59.64	4.3

新窗口打开| 下载CSV

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 提出算法与优秀跟踪算法在OTB2013数据集上的DP精度和AUC成功率对比

Fig.7 Comparison of DP accuracy and AUC success rate between proposed algorithm and outstanding tracking algorithm on OTB2013 database

4.4. OTB2015数据集

OTB2015视频序列源自2015年在CVPR上发表的数据集，它是OTB2013的扩充，其中包含了100个视频序列和11个不同的属性. 测试不同算法在100个视频序列下的跟踪性能以及在不同属性的视频序列下的跟踪表现，展示算法的跟踪效果.

如表3所示为本文算法与优秀跟踪算法在OTB2015数据集上的性能对比. 可以看出，提出的算法获得了第1的DP（86.87%）、AUC（61.53%）以及第2的OP（76.34%）得分，实时性能够满足要求，由此可以证明本文算法的有效性及优秀的跟踪性能. 如图8所示为各个算法的跟踪成功率曲线. 可以看出，本文算法具有更高的跟踪成功率.

表 3 优秀跟踪算法在OTB2015数据集上的各评价指标得分

Tab.3 Scores of each evaluation index between outstanding algorithms on OTB2015 database

算法	DP /%	OP /%	AUC /%	v /（帧·s⁻¹）
ADA_CA（K=2）	86.87	76.34	61.53	24.5
BACF	81.06	76.74	61.09	27.5
ARCF	80.65	74.65	60.66	24.4
Staple	78.40	70.92	58.13	42.9
SRDCF	78.95	72.84	59.80	4.3
CSRDCF	80.24	70.19	58.69	22.6
LMCF	78.85	71.88	58.01	42.9
LCT	75.84	69.77	55.95	20.7
SAMF	75.13	67.37	55.32	17.0
fDSST	68.67	60.53	51.73	17.7
CFNet	77.71	73.67	58.62	NaN
SiamFC	77.05	73.05	58.21	NaN
DCFNet	75.07	41.20	57.99	41.2
ACFN	79.90	69.25	57.31	10.0
HCF	83.10	65.14	55.81	10.4
HDT	84.20	65.35	56.11	5.5

新窗口打开| 下载CSV

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 提出算法与优秀跟踪算法在OTB2015数据集上的DP精度和AUC成功率对比

Fig.8 Comparison of DP accuracy and AUC success rate between proposed algorithm and outstanding tracking algorithm on OTB2015 database

4.5. Temple-Color128数据集

为了测试本文算法在更具挑战性的数据集上的跟踪效果，选取Temple-Color128（TC128）作为新的测试集来验证算法的性能. 对比更多优秀的跟踪算法，包括在OTB2015中表现较好的算法（BACF^[17]、ARCF^[22]、Staple^[9]、SRDCF^[19]、CSRDCF^[21]、LCT^[37]、SAMF^[23]、fDSST^[25]、MEEM^[38]），还有近年优秀的跟踪算法（RCT^[41]、WSCF^[42]、TRACF^[43]、TSC^[44]、DAMA^[45]、PSCA^[46]）. Temple-Color128一共包含128个彩色视频序列，包含了更多的颜色信息，因此更具有挑战性.

如表4所示为本文算法与优秀跟踪算法在TC128数据集上的性能对比. 可以看出，与现有的相关滤波类优秀算法相比，利用提出的算法获得了第1的DP（72.81%）、AUC（53.41%）和第2的OP（66.01%）得分，实时性能够满足要求. 由此可以证明，在更具挑战性难度的彩色视频序列中，本文算法展现了更高的有效性及更优秀的跟踪性能. 如图9所示为各个算法的跟踪精度曲线与成功率曲线. 可知，利用提出的算法能够更好地克服彩色视频序列中的跟踪难题，达到更准确的跟踪效果. 从FPS可以看出，算法的复杂度较低，能够满足实时性的要求.

表 4 优秀跟踪算法在TC128数据集上的各评价指标得分

Tab.4 Scores of each evaluation index between outstanding algorithms on TC128 database

算法	DP /%	OP /%	AUC /%	v /（帧·s⁻¹）
ADA_CA（K=2）	72.81	66.01	53.41	21.1
BACF	64.58	61.30	48.64	37.6
ARCF	70.27	64.59	51.94	22.2
Staple	66.66	62.01	49.71	83.2
SRDCF	68.91	61.30	50.53	2.8
CSRDCF	67.74	59.19	50.04	16.6
MEEM	70.87	61.16	49.77	20.5
LCT	60.59	52.56	43.17	39.3
SAMF	63.07	57.88	46.56	27.1
fDSST	53.34	46.95	40.50	16.3
RCT	72.60	65.60	52.95	34.3
WSCF	69.98	63.90	51.08	24.5
TRACF	71.33	64.81	52.21	23.7
TSC	72.09	66.50	53.34	2.2
DAMA	67.69	61.01	49.72	30.4
PSCA	71.03	63.23	51.33	1.8

新窗口打开| 下载CSV

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 提出算法与优秀跟踪算法在TC128数据集上的DP精度和AUC成功率对比

Fig.9 Comparison of DP accuracy and AUC success rate between proposed algorithm and outstanding tracking algorithm on TC128 database

4.6. 跟踪结果可视化

如图10所示为提出算法及其他跟踪算法在部分复杂视频序列上跟踪的可视化结果，对比的跟踪算法包括表现较好的BACF、ARCF、CSRDCF、SRDCF、SiamFC、CFNet、Staple. 得益于自适应的上下文方法，提出算法在这些视频序列中表现优秀，能够精准地跟踪目标；其他算法受到背景的干扰，丢失了目标.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 在复杂的视频序列上可视化的跟踪结果（Human3，Girl，Soccer，DragonBaby，iroman）

Fig.10 Visual tracking performance on complex video sequences (Human 3, Girl, Soccer, DragonBaby, iroman)

4.7. 算法有效性分析

从OTB2013、OTB2015及Temple-Color128视频序列的结果可以看出，提出算法在面对大多数视频序列的时候都能够展现卓越的跟踪效果. 如图11所示为提出算法与现有优秀算法在11个属性图上的AUC成功率曲线. 可知，提出算法在低分辨率及快速移动的视频序列中的表现不佳，结合部分跟踪失败视频序列（见图12）进行分析，探究本文算法的适用范围及有效性.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 优秀跟踪算法在OTB-2015 11个属性上的成功率曲线图

Fig.11 Success plots of outstanding algorithm with 11 video attributes on OTB2015 dataset.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 跟踪失败案例（carScale，freeman4，matrix，motorRolling）

Fig.12 Failure case (carScale, freeman4, matrix, motorRolling)

综合图12中4幅跟踪失败的案例可以看出，在carScale、freeman4中跟踪失败的时刻，目标受到了大范围的遮挡，导致有效信息大量丢失，造成了跟踪漂移. 在matrix、motorRolling中目标本身的快速移动造成了目标模糊的问题，使得模型提取到的特征对目标的表征能力欠缺，从而导致了跟踪失败.

总结11个属性图的跟踪效果及跟踪失败的案例可知，提出算法在目标受到大范围遮挡以及目标特征表征能力弱的情况下容易导致跟踪失败. 由于目标特征表征能力弱导致的跟踪失败主要是由于特征选取不当导致的，与本文算法的核心无关，因此可以通过选取更深层次或者更合适的特征来解决这类问题. 大范围遮挡造成大量的有效目标信息丢失，模型将遮挡部分误认为是目标，对于这类问题，由于算法未考虑目标的历史信息，且滤波器的更新速度较快，从而导致跟踪失败，这是本文算法需要进一步考虑的问题.

本文算法在大部分难点视频下都表现很好，结合图10的跟踪可视化结果可以发现，利用提出的算法能够克服大部分视频序列存在的难题，特别是在背景混叠及部分遮挡的情况下有着卓越的表现. 这是由于背景混叠与部分遮挡产生的背景干扰在模型的训练过程中被抑制，算法的跟踪性能得到提升.

如图12所示为算法在各个属性视频序列下的AUC精度对比. 可知，本文算法在大部分属性的视频序列下都展示了优秀的跟踪性能，证明了利用本文算法能够有效地抑制复杂背景的干扰，提高跟踪性能.

5. 结　语

本文在传统上下文感知方法的基础上，引入自适应上下文区域选取、标签值给定及惩罚因子选取方法. 通过检测响应图中的响应值，自适应地选定上下文区域的位置；根据上下文区域离目标中心的距离，选取自适应的低响应值；研究上下文区域产生的响应对目标的干扰程度，给定自适应的惩罚因子. 通过对这些指标的分析，提出新的自适应上下文感知方法，建立新的自适应模型，求得滤波器在频域中的闭式解. 该方法实现了对背景和目标区域的精准建模，提高了模型的跟踪性能和鲁棒性. 数据集的实验结果显示，本文算法具有优越的跟踪性能和跟踪速度，超过了大部分现有的相关滤波算法. 由于本文算法中所有上下文区域的惩罚因子是相同的，都取决于响应最大的上下文区域，这种选取方式对其他上下文区域不合理，且正则化参数影响每一项的重要性，固定的选取方式有待改善，从实验中证明了这点. 接下来的工作将探索正则化参数的自适应及惩罚因子相对于每个上下文区域的自适应方法.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MOROZOV A

Development of a method for intelligent video monitoring of abnormal behavior of people based on parallel object-oriented logic programming

[J]. Pattern Recognition and Image Analysis, 2015, 25 (3): 481- 492

DOI:10.1134/S1054661815030153 [本文引用: 1]

[2]

CHEN D, BHARUCHA A J, WACTLAR H D. Intelligent video monitoring to improve safety of older persons [C]// Proceedings of the 29th Annual International Conference of the IEEE-Engineering-in-Medicine-and-Biology-Society. Lyon: IEEE, 2007: 3814-3817.