浙江大学学报(工学版), 2020, 54(2): 301-310 doi: 10.3785/j.issn.1008-973X.2020.02.011

计算机技术、信息工程

基于各向异性高斯分布的视觉跟踪算法

熊昌镇,, 卢颜, 闫佳庆

Visual tracking algorithm based on anisotropic Gaussian distribution

XIONG Chang-zhen,, LU Yan, YAN Jia-qing

收稿日期: 2019-01-6  

Received: 2019-01-6  

作者简介 About authors

熊昌镇(1979—),男,副教授,从事深度学习、视频分析研究.orcid.org/0000-0001-7645-5181.E-mail:xczkiong@163.com , E-mail:xczkiong@163.com

摘要

为了提高使用传统特征的有效卷积操作算法(ECOhc)的跟踪性能,提出基于各向异性高斯分布的视觉跟踪算法. 该方法根据不同目标的形状比构造水平和垂直方向上带宽不同的各向异性高斯函数,利用该函数训练跟踪器预测目标位置,提高算法的跟踪精度;提取颜色直方图特征跟踪预测新的目标位置,并在决策层加权融合2个预测位置,进一步提高跟踪精度. 在标准数据集OTB-100、VOT2016中测试算法,本研究算法在数据集OTB-100上的平均距离精度为89.6%,平均重叠率为83.7%,比ECOhc算法分别提高4.67%、6.62%;本研究算法在数据集VOT2016上的平均期望重叠率为33.3%,比ECOhc算法提高3.42%. 所提算法能有效提高目标跟踪的精度,在遇到遮挡、光线变化、变形等干扰时仍能稳定跟踪目标.

关键词: 视觉跟踪 ; 相关滤波 ; 各向异性高斯分布 ; 颜色直方图 ; 加权融合

Abstract

A visual tracking algorithm based on the anisotropic Gaussian distribution was proposed, in order to improve the tracking performance of the effective convolution operation algorithm (ECOhc) with traditional features. The anisotropic Gaussian function with different horizontal and vertical bandwidths is constructed according to the shape ratio of different objects and then the function is used to train the tracker so as to predict the position and improve the tracking accuracy. The color histogram features of the object are extracted to track and predict the new position. And then the two predicted positions are weighted fused at the decision layer, which further improves the tracking accuracy. The algorithm was evaluated on the OTB-100 and VOT2016 datasets. The average distance accuracy and overlap rate of the proposed algorithm in OTB-100 were 89.6% and 83.7%, which were 4.67% and 6.62% higher than that of the ECOhc method, respectively. The expected average overlap rate in VOT2016 was 33.3%, which was 3.42% higher than that of the ECOhc method. The proposed algorithm can effectively improve the accuracy of tracking, and it has good robustness when encountering interferences such as occlusion, illumination variation and deformation.

Keywords: visual tracking ; correlation filter ; anisotropic Gaussian distribution ; color histogram ; weighted fusion

PDF (1507KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

熊昌镇, 卢颜, 闫佳庆. 基于各向异性高斯分布的视觉跟踪算法. 浙江大学学报(工学版)[J], 2020, 54(2): 301-310 doi:10.3785/j.issn.1008-973X.2020.02.011

XIONG Chang-zhen, LU Yan, YAN Jia-qing. Visual tracking algorithm based on anisotropic Gaussian distribution. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(2): 301-310 doi:10.3785/j.issn.1008-973X.2020.02.011

视频跟踪是计算机视觉技术的重要分支之一,被广泛应用于智能驾驶、人机交互和运动分析等领域. 近年来,相关滤波跟踪方法[1]因其计算高效性得以快速发展. Henriques等[2]提出利用循环矩阵进行稠密采样的相关滤波,以提升跟踪性能,但其仅使用灰度特征表征目标,在目标和背景灰度特征相似时易发生跟丢情况. 为了改善目标表观模型,陆续出现使用方向梯度直方图(histogram of oriented gradient,HOG)特征[3]、颜色属性特征(color names,CN)[4]、融合HOG和CN特征[5]、融合HOG和颜色直方图特征[6]、融合多层卷积特征[7-8]、融合卷积特征和传统特征[9-10]的相关滤波跟踪算法. 随着新特征的引入,相关滤波跟踪算法的精度得到较大提升. 为了提高预测目标框与真实目标框的重叠率,研究者们引入尺度估计算法. Danelljan等[11]提出判别式尺度空间跟踪算法,快速估计目标尺度,使目标具有更好的重叠率;Li等[12]设计基于特征融合的尺度自适应核相关滤波跟踪算法,采用尺度池技术估计最佳目标尺度,使得尺度预测和跟踪性能都有较大的提升. 以上算法在特征选择和尺度预测方面进行深入研究并取得了较好的结果,但在跟踪过程中使用循环矩阵近似采样易引起边界效应,影响跟踪精度的提升. Galoogahi等[13]设计背景感知相关滤波器,能有效解决循环移位产生的边界效应,提高滤波器的跟踪性能;Lukezic等[14]引入颜色直方图特征进行空域可靠性判断,让滤波器仅学习颜色特征较显著的部分来缓解边界效应;Danelljan等[15]提出学习空间正则化判别相关滤波器(spatially regularized discriminative correlation filters,SRDCF)用于视觉跟踪来缓解边界效应. 为了进一步提高相关滤波算法的性能,Danelljan等[9]提出学习连续卷积操作器(continuous convolution operators tracker,C-COT)用于视觉跟踪,并融合卷积、HOG和CN特征提高跟踪精度,但提取卷积特征的过程较为复杂导致跟踪速度较慢;为了提高跟踪速度,Danelljan等[10]提出有效卷积操作(efficient convolution operators,ECO)算法,引入因式分解、稀疏更新,同时改变训练样本分布,提升算法的速度和精度.

尽管相关滤波跟踪算法取得了长足的进步,然而现有算法在跟踪速度和精度上仍存在较大的矛盾. 跟踪精度较高的算法速度较慢,跟踪速度较快的算法精度较低,如何使两者达到更好的平衡值得深入研究. 使用HOG和CN特征的有效卷积操作(efficient convolution operators with HOG and CN,ECOhc)[10]算法的速度为60帧/s,精度为85.6%,优于部分卷积特征跟踪算法[7, 15]. 为了进一步提高ECOhc算法的跟踪精度,在根据目标形状选择形状比合适的高斯带宽因子后,使用新的高斯函数求取目标期望值用于训练相关滤波器,得到更优的目标位置;提取颜色直方图特征得到前景、背景概率图以预测目标新位置,将2个新位置进行加权融合得到最终目标位置.

1. 有效卷积操作算法

本研究基准算法选用ECO算法的传统特征版本ECOhc,该算法以连续卷积相关滤波算法C-COT为基础. 在 $M$个训练样本 $\left\{ {{{{x}}_j}} \right\}_1^M$学习卷积滤波器的过程中,使用插值操作符 ${{{J}}_d}$将特征图转化到连续空间域 $t \in \left[ {0, T} \right)$.$d$个通道的特征图为

${{{J}}_d}\left\{ {{{ x}^d}} \right\}\left( t \right) = \sum\nolimits_{n = 0}^{{N_d} - 1} {{{{x}}^d}\left[ n \right]{{{b}}_d}\left( {t - {Tn}/{{{N_d}}}} \right)} .$

式中:Nd为第d个特征通道的分辨率, bd为第d个特征通道的周期性插值核, xd[n]为离散空间变量n∈{0,···,Nd−1}索引的特征通道函数.

利用训练的连续域 $D$通道相关滤波器 ${{f}} = \left( {{{{f}}^1},\cdots,{{{f}}^D}} \right)$与完整的插值特征图 ${{J}}\left\{ { x} \right\}$进行卷积操作得到目标响应图:

${{S}}{}_{{f}}\left\{ {{x}} \right\} = {{f}} * {{J}}\left\{ {{x}} \right\} = \sum\nolimits_{d = 1}^D {{{{f}}^d} * {{{J}}_d}\left\{ {{{{x}}^d}} \right\}}. $

式中:*表示卷积操作.

在跟踪过程中,根据每一帧得到的响应图 ${{S}}{}_{{f}}\left\{ {{x}} \right\}$训练更新滤波器 ${{f}}$,其训练损失函数为

$E\left( {{f}} \right) = \sum\nolimits_{j = 1}^M {{{{\alpha }}_j}} \left\| {{{{S}}_{{f}}}\left\{ {{{{x}}_j}} \right\} - {{{y}}_j}} \right\|_{{L^2}}^2 + \sum\nolimits_{d = 1}^D {\left\| {{{\omega }}{{{f}}^d}} \right\|} _{{L^2}}^2.$

式中: ${{{y}}_j}$为第 $j$个样本 ${{{x}}_j}$的期望响应,可由高斯函数得到; ${{{\alpha }}_j}$为响应损失的权重; ${{\omega }}$为正则化项中d通道滤波器的权重; $\left\| \cdot \right\|_{{{L}^{2}}}^{2}$${L^2}$范数表达符. ECOhc算法提取传统HOG和CN特征分别训练相关滤波器得到各自目标响应图,两者响应融合后的最大值位置为预测的目标中心. 在跟踪过程中采用固定帧更新滤波器以显著提高跟踪速度. ECOhc与传统特征版本的C-COT相比,速度提升约6倍,其跟踪性能优于使用深度卷积特征的SRDCF算法,因此本研究选用ECOhc算法作为基准算法.

2. 本研究算法

本研究所提算法在ECOhc基础上进行2点改进:各向异性高斯函数的引入和多特征融合算法的设计. 所提算法整体框架图如图1所示. 图中, ${{{J}}_{{\rm{hog}}}}$${{{f}}_{{\rm{hog}}}}$${{{S}}_{{\rm{hog}}}}$分别为HOG特征的特征图、滤波器和响应图, ${{{J}}_{{\rm{cn}}}}$${{{f}}_{{\rm{cn}}}}$${{{S}}_{{\rm{cn}}}}$分别为CN特征的特征图、滤波器和响应图, ${{{S}}_{{\rm{hc}}}}$为HOG和CN融合响应图, ${p_{{\rm{hc}}}}$为HOG和CN的预测目标位置, ${p_{{\rm{his}}}}$为颜色直方图特征预测位置, $p$为最终目标预测位置, $\alpha $为位置融合因子. 根据视频首帧的目标长宽比选择合适的横、纵方向带宽因子代入各向异性高斯函数,并求得期望卷积输出 ${{{y}}_j}$用于训练和更新相关滤波器;在跟踪过程中,从当前帧中得到HOG和CN的特征图,再将特征图与滤波器进行相关卷积得到特征响应,然后将2种特征响应按中心融合的方式处理,得到最终响应图,图中响应值最高点为目标预测位置 ${p_{{\rm{hc}}}}$;此外,从当前帧中提取颜色直方图特征,利用余弦窗过滤其多余背景后使用积分图法得到新的预测位置 ${p_{{\rm{his}}}}$,最后将2个位置加权融合得到最终跟踪预测位置 $p$.

图 1

图 1   本研究所提算法整体框架图

Fig.1   Overall framework diagram of proposed algorithm


2.1. 各向异性高斯标签函数

相关滤波跟踪方法主要是利用显著特征训练稳定的相关滤波器完成跟踪目标的任务,所以滤波器的性能决定跟踪目标的精确度. 训练更新相关滤波器 ${{f}}$的过程是使式(3)得到的损失函数 $E({{f}}{\rm{)}}$不断缩小的优化过程. 式(3)中的 ${{{y}}_j}$表示期望卷积输出,即目标的期望特征响应. 一般地, ${{{u}}_j}$表示样本目标的估计位置,以 ${{{u}}_j}$为中心的高斯函数 $g$= $\exp\; ( - {({{t}} - {{{u}}_j})^2}/(2{\sigma ^2}))$${{t}}$为样本每个像素点位置, $\sigma $为带宽调整因子[9]. ${{{y}}_j}$可以通过上述高斯函数的连续傅里叶变换得到. 现有算法为了提高滤波器的性能通常从两方面入手:一是不断提高样本质量,使 ${{{S}}_{{f}}}({{{x}}_j})$越来越接近 ${{{y}}_j}$;另一方面是通过改变高斯函数的带宽因子 $\sigma $提高期望卷积输出 ${{{y}}_j}$的准确性. 当 $\sigma $较小时,带宽较窄,各部分权重差别较大,易形成尖锐的峰值,目标特征主要集中在中心部位;当 $\sigma $较大时,带宽相对较宽,整体平缓且分布均匀,各部分对结果影响程度差别较小,目标特征分布范围较广.

一般算法通过调节 $\sigma $使 ${{{y}}_j}$更准确地描述真实目标,提高滤波器的跟踪性能[9]. 但是实际跟踪的目标千差万别,其最显著的特点是长宽比分配不同. 不同长宽比的目标具有的特征分布特点差别较大,如图2所示,以人为例的长条形目标特征在横轴上分布集中于中心,而在纵轴上分布较为分散,呈现出各向异性;以车为例的方形目标在横、纵坐标方向上分布相似,呈现出各向同性. 针对此种情况,仍使用传统的高斯函数会存在偏差. 为了充分发挥高斯函数求取期望输出值的优势,且在更大程度上使用目标的长宽比特征,引入各向异性的二维高斯标签函数:

图 2

图 2   长宽比不同的2种目标的特征分布图对比

Fig.2   Comparison of two target feature distribution with different aspect ratios


$g\left( {m,n} \right) = \exp \;\left( { - \left( {\frac{{{{\left( {m - h/2} \right)}^2}}}{{2\sigma _{\rm{h}}^2}} + \frac{{{{\left( {n - v/2} \right)}^2}}}{{2\sigma _{\rm{v}}^2}}} \right)} \right).$

式中: $\left( {m,n} \right)$为所求像素点坐标, $\left( {h/2,v/2} \right)$为中心点坐标, ${\sigma _{\rm{h}}}$${\sigma _{\rm{v}}}$分别为水平和垂直方向上的带宽调整因子, $h$$v$分别为目标的宽、高. 在以往的相关滤波跟踪算法中,高斯函数均选择 ${\sigma _{\rm{h}}} = {\sigma _{\rm{v}}}$,重点突出各向同性的优点,搜索区域中横纵方向采用相同的权重分布,对于方形目标的特征提取有较大的作用. 但是,很多情况是对行人进行跟踪,人是典型的长条形目标,高宽相差较大,横、纵方向特征分布差距显著, ${\sigma _{\rm{h}}} \ne {\sigma _{\rm{v}}}$的选择体现了目标长、宽方向的各向异性.

根据高斯函数各向异性的特点,对原ECOhc算法的高斯标签函数进行调整,设计分类带宽因子调节算法. 当目标的宽高比或高宽比小于给定阈值 ${r_1}$时,认为目标是方形图像块,取相同的高斯带宽因子;当目标为非方形图像块时,若目标块高度大于宽度,垂直方向取更大的带宽因子,水平方向取更小的带宽因子,反之亦然. 因此,分类高斯带宽调节公式为

$\left. {\begin{array}{*{20}{c}} {{\sigma _{\rm{h}}} = {\sigma _{\rm{v}}},}&{h/v < {r_1},v/h < {r_1};}\\ {{\sigma _{\rm{h}}} > {\sigma _{\rm{v}}},}&{h/v \geqslant {r_1};}\\ {{\sigma _{\rm{h}}} < {\sigma _{\rm{v}}},}&{v/h \geqslant {r_1}.} \end{array}} \right\}$

各向异性高斯函数的引入利用了目标的长宽比特征,能更具针对性地跟踪不同类型的目标.

2.2. 多特征融合跟踪

随着目标跟踪领域的发展,许多算法证实了多特征融合表征目标的能力远高于单一特征[5, 16]. 在传统特征中,常选用HOG、CN和颜色直方图特征进行融合. HOG特征描述局部区域提取的目标轮廓和形状信息,可忽略目标的细微变形,对行人跟踪更有效,且对光照有较好的鲁棒性[3]. CN特征通过计算11种颜色的分布概率得到全局颜色特征,更易区分背景和目标颜色相差较大的情况,且对目标形变有较好的鲁棒性[4]. 根据颜色直方图特征统计前景与背景的颜色分布,计算2种分布的概率得到最终目标特征图预测位置,同样对目标形变的鲁棒性较强[6].

特征融合一般分为特征层融合、响应层融合和决策层融合三类. 特征层融合是指使用多个特征融合的特征向量训练相关滤波器进行目标跟踪[14]. 响应层融合是将不同特征的相关滤波响应值进行融合后取响应值最大处为目标位置[9]. 决策层融合是通过融合多个特征预测的多个目标位置得到最终的目标跟踪位置[5]. 不同特征拥有不同的提取方法及功能特点,其所对应的特征向量和相关滤波响应的维度大小不同,将不同特征的向量或响应值转换为统一大小再进行融合是常用做法. 不过,文献[10]使用新的融合方法,保持不同特征向量原有大小不变,通过中心融合方法将两者结合.

ECOhc算法结合HOG与CN特征的外观与颜色、局部与全局的互补特性预测目标位置,跟踪精度较高,但HOG与CN均是基于相关滤波的模板特征,无法应对边界效应带来的影响,所以在跟踪快速运动的目标时易失败. 为了解决边界效应,Staple[6]算法提取统计类颜色直方图特征代替CN特征,利用积分图方法计算目标匹配概率预测目标位置. 为了获得更加鲁棒的跟踪算法,本研究算法采用HOG、CN和颜色直方图这3种特征进行多级融合. 其中,HOG和CN特征采用特征层中心融合方法预测目标位置 ${p_{{\rm{hc}}}}$;在按文献[6]提取颜色直方图特征后,加入余弦窗消除边界背景的影响,得到预测目标位置 ${p_{{\rm{his}}}}$;使用决策层加权融合的方法将2个预测位置融合得到最终的目标位置:

$p = \alpha {p_{{\rm{his}}}} + (1 - \alpha ){p_{{\rm{hc}}}}.$

式中: $\alpha $为固定的位置融合因子,取决于3种特征对跟踪过程的影响程度.

3. 实验结果与分析

为了验证本研究算法的有效性,分别在标准数据集OTB-100[17]、VOT2016[18]上进行测试. 数据集OTB-100有100组视频序列,其中74个为彩色图,26个为灰度图;跟踪目标主要有36个人体、26个人脸或头部,其余目标为汽车、玩具等物体;数据集OTB-100中视频的长短不一,包括短时跟踪和长时跟踪的视频序列;在跟踪难度上,数据集OTB-100中包括11种跟踪问题:光照变化(illumination variation)、尺度变化(scale variation)、遮挡(occlusion)、形变(deformation)、运动模糊(motion blur)、快速运动(fast motion)、平面内旋转(in-plane rotation)、平面外旋转(out-of-plane rotation)、出视野(out-of-view)、背景杂波(background clutters)、低分辨率(low resolution);主要通过计算中心位置误差(center local error,CLE)、距离精度(distance precision,DP)、重叠精度(overlap precision,OP)和成功曲线下的面积(area under curve of success plot,AUC)评估跟踪算法的性能. 其中,重叠精度即重叠率. 数据集VOT2016是视频跟踪大赛的官方数据集,有60组视频,分辨率普遍较高,且均属于彩色视频短时跟踪,在跟踪过程中也存在实际场景中的遮挡、背景杂波等问题,根据期望平均重叠率(expect average overlap rate,EAO)、精确性(accuracy)和鲁棒性(robustness)评估跟踪算法的整体性能. 2种数据集的素材取自各种实际环境,含有各种实际跟踪问题,能有效模拟实际跟踪过程. 选用数据集OTB-100、VOT2016可有效测试算法的性能.

实验的硬件平台配置为Intel Core i7-4790K CPU,内存为16 GB的台式电脑,软件平台为ubuntu16.04系统下的MATLAB R2015b. 实验在ECOhc算法的软件基础上进行改进,针对不同的测试数据调整相应参数. 在数据集OTB-100上,调整参数如下:搜索区域尺度因子为3.5,共轭梯度迭代次数为2,初始化高斯牛顿迭代次数为3,降维后的CN特征维度为2,滤波器更新间隔为2. 其余参数与ECOhc算法一致,颜色直方图特征提取的参数与文献[6]一致.

决定高斯函数带宽调整因子的重要参数 ${r_1}$主要通过研究数据集OTB-100中的100组视频目标的宽高比和高宽比来确定. 100组视频的宽高比和高宽比如图3所示. 图中,r为宽高比或高宽比,n为视频序列号. 图中有一条r=1.35的分界线,大部分宽高比均处于该分界线以下,高宽比的极大值点大多位于分界线以上、极小值点大多位于分界线以下,所以将此分界线作为调节带宽因子最终分配的阈值 ${r_1}$,经实验证明此阈值可以较好地对目标进行分类.

图 3

图 3   数据集OTB-100视频中跟踪目标的宽高比和高宽比

Fig.3   Aspect ratios of tracking objects on dataset OTB-100


选用ECOhc算法作为基础,引入各向异性高斯标签函数,并融合颜色直方图特征提高跟踪性能. 在数据集OTB-100、VOT2016上对算法进行验证.

3.1. 数据集OTB-100上的验证实验

在数据集OTB-100上验证多特征融合策略,并找到最优位置融合因子. 使用文献[6]所提方法提取颜色直方图特征并计算特征响应值. 考虑到积分图法求得的响应值较大,且颜色直方图忽略了颜色的空间信息,文献[6]中给予颜色直方图特征较小的融合权重,基于此,本研究位置融合因子设为[0.2,0.3],以0.01为间隔进行实验,结果如图4所示. 图中, $\overline {\rm{DP}}$为平均距离精度. 当 $\alpha {\rm{ = }}0.23$$ \overline {\rm{DP}}$最高,为86.9%.

图 4

图 4   不同位置融合因子下的平均距离精确度

Fig.4   Average distance precision under different position fusion factors


利用高斯函数求取期望卷积输出一般选用较小的带宽因子以获得尖锐的目标响应峰值,因此各向异性高斯函数的横纵方向带宽因子范围为[1/16,1/9]. 在引入颜色直方图特征的算法中针对不同带宽因子进行对比实验,结果如表1所示. 表中, $\overline{\rm{OP}} $为重叠精度平均值. 可以看出,当带宽因子组合为(1/15,1/10)时,跟踪效果最好,其 $\overline{\rm{DP}} $$\overline{\rm{OP}} $分别为89.6%、83.7%.

表 1   不同带宽因子下跟踪算法在数据集OTB-100上的对比结果

Tab.1  Comparison results of tracking algorithms with different bandwidths on dataset OTB-100

带宽因子组合 $\overline{\rm{DP}} $/ % $\overline{\rm{OP}} $/ %
1)注:第1、2名分别用粗体字和下划线标出
(1/15,1/12) 88.31) 83.2
(1/15,1/11) 88.0 83.1
(1/15,1/10) 89.6 83.7
(1/14,1/13) 87.3 82.0

新窗口打开| 下载CSV


3.1.1. 应用不同策略的算法跟踪结果对比

在通过上述实验确认算法基本参数后,提出2个改进策略:1)策略a. 各向异性高斯标签函数选用r1=1.35. 当h/vr1时, ${\sigma _{\rm h}} = 1/10$${\sigma _{\rm v}} = 1/15$;当v/hr1时,σh=1/15,σv=1/10;当h/v < r1v/h < r1时, ${\sigma _{\rm h}}{\rm{ = }}{\sigma _{\rm v}} = 1/15$. 2)策略b. 颜色直方图特征融合策略选用 $\alpha {\rm{ = }}0.23$.

为了评估每种改进策略的效果,在数据集OTB-100上进行对比实验,结果如表2所示. 表中,V为速度, $\overline{\rm{CLE}} $为CLE的平均值. 其中,ECOhc_sig算法采用策略a,ECOhc_his算法采用策略b,本研究算法同时采用a、b策略. 通过 $\overline{\rm{CLE}} $$\overline{\rm{DP}} $$\overline{\rm{OP}} $以及运行速度评估算法. 可以看出,与ECOhc算法相比,引入各向异性高斯标签函数的跟踪算法ECOhc_sig的 $\overline{\rm{DP}} $提高了1.29%, $\overline{\rm{OP}} $提高了1.66%, $\overline{\rm{CLE}} $下降了3.2个像素,跟踪速度上升了9 帧/s. 融合颜色直方图的跟踪算法ECOhc_his的 $\overline{\rm{DP}} $提高了1.52%, $\overline{\rm{OP}} $提高了4.46%, $\overline{\rm{CLE}} $下降了4.3个像素, $\overline{\rm{OP}} $有较大提升说明融合颜色直方图对提高算法的鲁棒性有较大帮助. 综合2种策略的本研究算法的 $\overline{\rm{DP}} $=89.6%, $\overline{\rm{OP}} $=83.7%;速度与ECOhc相比下降了17.4 帧/s,主要由于提取颜色直方图特征的过程较为繁琐,但42.6 帧/s的跟踪速度仍可以满足实时性跟踪的要求.

表 2   数据集OTB-100上不同算法的对比结果

Tab.2  Comparison results of different algorithms on dataset OTB-100

跟踪算法 $\overline{\rm{CLE}} $/pixel $\overline{\rm{DP}} $/% $\overline{\rm{OP}} $/% V/(帧·s−1
1)注:第1、2名分别用粗体字和下划线标出
ECOhc 22.7 85.6 78.5 60.0
ECOhc_sig 19.5 86.7 79.8 69.0
ECOhc_his 18.41) 86.9 82.0 56.1
本研究算法 15.9 89.6 83.7 42.6

新窗口打开| 下载CSV


为了充分验证本研究算法的改进效果,选用ECOhc跟踪失败的4组视频序列(box、girl2、singer2、soccer)进行实验,得到4种算法的精度曲线和成功率曲线,如图5所示. 图中,t1为位置误差阈值(location error threshold),t2为重叠阈值(overlap threshold). 这4种视频序列包括数据集OTB-100的11种干扰,有一定的研究意义. box、girl2、singer2视频第一帧目标高宽比均大于1.35,属于竖高形目标,各向异性高斯标签函数可显著提升跟踪器的性能,避免目标跟踪失败. soccer视频中的目标属于方形物体,融合颜色直方图跟踪结果的ECO_his和本研究算法均可显著提升其跟踪精度. 因此,提出的2种策略均可有效提升算法的跟踪性能.

图 5

图 5   4组视频下不同算法的精度曲线和成功率曲线

Fig.5   Precision and success plots of different algorithms for four different videos


3.1.2. 不同优秀算法跟踪结果对比

为了进一步验证本研究所提算法性能的优越性,选取9种经典跟踪算法进行对比,分别为ECO[10]、ECOhc[10]、C-COT[9]、HCFTS[8]、CSR-DCF[14]、D_SRDCF[19]、Staple[6]、Siamese-FC[20]和CFNet[21]. 其中,ECOhc、Staple、CSR-DCF这3种算法为采用多种传统特征融合的相关滤波算法,ECO、C-COT、HCFTS、D_SRDCF这4种算法为使用深度卷积特征的相关滤波算法,Siamese-FC、CFNet这2种算法为使用孪生网络的跟踪算法.

图6所示为10种跟踪算法的精度曲线和成功率曲线. 本研究所提算法的平均跟踪精确度 $\overline{\rm{DP}} $为89.6%,平均成功率 $\overline{\rm{AUC}} $为66.5%. 与使用深度卷积特征和孪生网络的算法相比,本研究所提算法的 $\overline{\rm{DP}} $$\overline{\rm{AUC}} $均高于HCFTS、D_SRDCF、Siamese-FC和CFNet这4种跟踪算法;与使用卷积特征的C-COT相比,本研究所提算法在 $\overline{\rm{DP}} $上仅低0.22%,在 $\overline{\rm{AUC}} $上低0.89%,但本研究算法速度远高于C-COT;与传统特征算法相比,本研究所提算法在 $\overline{\rm{DP}} $$\overline{\rm{AUC}} $这2个指标上均最高,且分别高出ECOhc算法4.67%、3.42%.

图 6

图 6   数据集OTB-100上10种算法的距离精度和成功率曲线

Fig.6   Distance precision and success rates of ten algorithms on dataset OTB-100


表3所示为所提算法与近年的跟踪算法的对比结果. 其中,SiamRPN[22]、DaSiamRPN[23]、SiamFC+CIR[24]、SiamRPN+CIR[24]、C-RPN[25]为现阶段最流行的孪生网络跟踪算法;LDES[26]算法在相关滤波的基础上增加了对大位移相似变换的鲁棒性估计;DAT[27]是利用视觉注意机制训练深度分类器的跟踪算法. 可以看出,本研究所提算法在 $\overline{\rm{DP}} $上高于其他7种算法,而 $\overline{\rm{AUC}} $处于第3名,但与第1、2名算法相比仅降低0.75%、0.45%.

表 3   近年跟踪算法在数据集OTB-100上的对比结果

Tab.3  Comparison results of different algorithms on dataset OTB-100 in recent years

跟踪算法 $\overline{\rm{DP}} $ / % $\overline{\rm{AUC}} $ / %
1)注:第1、2名分别用粗体字和下划线标出
本研究算法 89.61) 66.5
SiamRPN 85.1 63.7
DaSiamRPN 88.0 65.8
SiamFC+CIR 85.0 64.0
SiamRPN+CIR 86.0 67.0
C-RPN 66.3
LDES 76.0 63.4
DAT 89.5 66.8

新窗口打开| 下载CSV


根据本研究所提算法与图6中的经典算法和表3中的新算法的对比结果得出,所提算法的跟踪精度和稳定性较高. 此外,本研究算法属于相关滤波跟踪算法,且只使用传统的手工特征表征目标,所以在单个CPU上就可以达到42.6 帧/s的速度;使用深度卷积特征的算法和以孪生网络为基础的算法均须额外的图形处理器的支持,增加实际跟踪过程的成本,对于环境单一、干扰较少的跟踪任务,造成资源的浪费.

为了更加直观地显示本研究算法的优势,如图7所示,对比10种算法在human3、girl2、soccer这3组包括尺度变化、遮挡、形变、平面外旋转、背景混乱、运动模糊等多种干扰的典型视频上的可视化跟踪结果. 通过human3和girl2的第1帧给定目标大小可知,目标高宽比均大于给定阈值 ${r_1} = 1.35$,所以2种视频序列的高斯带宽因子选用 ${\sigma _{\rm{h}}} = 1/15$${\sigma _{\rm{v}}} = 1/10$;soccer视频第1帧目标的高宽比约为1.2,小于阈值1.35,所以高斯函数带宽因子选用 ${\sigma _{\rm{h}}}{\rm{ = }}{\sigma _{\rm{v}}} = 1/15$;选用的位置融合因子为固定值0.23. 如图7(a)所示,当human3视频中出现其他人物遮挡后,Siamese-FC和CFNet跟踪失败;在第42帧之后出现路标和行人遮挡后,更多算法跟丢目标,仅本研究所提算法、ECO、C-COT、ECOhc和D_SRDCF能准确跟踪目标;在第582帧遇到背景相似物干扰和第1 234帧出现相机调焦之后,本研究所提算法、ECO、C-COT、ECOhc的尺度估计明显优于D_SRDCF. 如图7(b)所示,在girl2视频中,在第104帧后遇到外物完全遮挡和粉色自行车的干扰,在遮挡结束后仅本研究所提算法和C-COT能跟踪到目标,且尺度仍如遮挡前一样准确;随着目标运动,在第336帧,多个算法又重新找到跟踪目标,但是由于人物的非刚性形变、尺度变化和其他干扰因素,在第723帧能跟踪到目标物体的仅有5种算法,其中尺度预测最优的是本研究算法、ECO和C-COT算法. 如图7(c)所示,在soccer视频中,在第78帧左右由于目标剧烈上下跳动使得多个算法跟丢目标,在仅存的几种跟踪到目标的算法中,尺度最优的是本研究所提算法;在第104、126帧之间一直出现目标物体剧烈运动以及红色干扰物遮挡的情况,使得跟踪变得更加困难,很多算法无法应对此类复杂环境而跟丢目标,本研究所提算法则保持较高的跟踪鲁棒性,一直可以跟到目标且拥有较好的尺度预测;通过由于快速运动而出现运动模糊的第307帧也可以看出本研究所提算法在目标跟踪和尺度预测两方面均有较大的优势.

图 7

图 7   10种算法在典型视频上的跟踪结果

Fig.7   Tracking results of ten algorithms for typical video sequences


3.2. 数据集VOT2016上的验证实验

数据集VOT2016包含60组高分辨率视频序列,在此数据集上对本研究算法进行反复实验,通过EAO、精确性A、鲁棒性R进行评估. 为了发挥改进算法的最大作用,调整实验参数:尺度因子为4,共轭梯度迭代次数为5,初始化高斯牛顿迭代次数为10,降维后的CN特征维度为3,滤波器更新间隔为5;各向异性高斯函数的带宽因子为 $\left( {1/14,1/11} \right)$,多特征融合的权重因子 $\alpha $=0.23,其余参数依照OTB-100实验设定. 由表4可以看出,本研究所提算法的期望平均重叠率为33.3%,低于ECO和CSR-DCF算法,为第3名,但比基准算法ECOhc提高约3.42%,且略优于C-COT算法. 实验表明,本研究所提算法提高了基准算法的跟踪精确度和鲁棒性,但与使用深度卷积特征的ECO算法相比,仍有较大的差距,还须进一步改善.

表 4   不同算法在数据集VOT2016上的对比结果

Tab.4  Comparison results of different algorithms on dataset VOT2016

跟踪算法 EAO A R
1)注:第1、2名分别用粗体字和下划线标出
本研究算法 0.333 0.53 1.03
ECO 0.3731) 0.54 0.72
C-COT 0.331 0.52 0.85
ECOhc 0.322 0.53 1.08
CSR-DCF 0.338 0.51 0.85
Staple 0.295 0.54 1.35
D_SRDCF 0.274 0.52 1.23

新窗口打开| 下载CSV


4. 结 论

提出基于各向异性高斯分布的视觉跟踪算法. 通过引入各向异性高斯函数使算法在处理以人类为主的长条形目标时有更准确的目标期望,从而训练更优的相关滤波器用于跟踪,有助于提升跟踪算法的精度;通过提取统计类颜色直方图特征表征目标,缓解原有模板类特征引起的边界效应,有利于解决快速运动的目标跟踪失败的问题.

在数据集OTB-100和VOT2016上比较本研究所提算法与其他优秀跟踪算法. 结果表明,在数据集OTB-100上,本研究算法的平均距离精度为89.6%,平均重叠率为83.7%,成功率为66.5%,较ECOhc算法分别提高约4.67%、6.62%、3.42%;在数据集VOT2016上,本研究算法的平均期望重叠率为33.3%,比ECOhc高约3.42%. 改进后的算法在CPU上的整体性能有较大的提高,且跟踪速度达到42.6 帧/s,满足实时跟踪的要求.

本研究跟踪算法在跟踪精确度和稳定性方面取得了一定的进步,但与先进的融合深度特征的跟踪算法相比还存在一定差距. 今后的工作重点将在保证跟踪实时性的前提下提高跟踪精度和鲁棒性,以更好地满足实际跟踪的需求.

参考文献

BOLME D S, BEVERIDGEJ R, DRAPERB A, et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2544-2550.

[本文引用: 1]

HENRIQUES J F, RUI C, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// Computer Vision-ECCV 2012. Florence: Springer, 2012: 702-715.

[本文引用: 1]

HENRIQUESJ F, CASEIRO R, MARTINS P, et al

High-speed tracking with kernelized correlation filters

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (3): 583- 596

DOI:10.1109/TPAMI.2014.2345390      [本文引用: 2]

DANELLJAN M, KHAN F S, FELSBERG M. Adaptive color attributes for real-time visual tracking [C]// Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1090-1097.

[本文引用: 2]

熊昌镇, 赵璐璐, 郭芬红

自适应特征融合的核相关滤波跟踪算法

[J]. 计算机辅助设计与图形学学报, 2017, 29 (6): 1068- 1074

DOI:10.3969/j.issn.1003-9775.2017.06.012      [本文引用: 3]

XIONG Chang-zhen, ZHAO Lu-lu, GUO Fen-hong

Kernelized correlation filters tracking based on adaptive feature fusion

[J]. Journal of Computer-Aided Design and Computer Graphics, 2017, 29 (6): 1068- 1074

DOI:10.3969/j.issn.1003-9775.2017.06.012      [本文引用: 3]

BERTINETTO L, VALMADRE J, GOLODETZ S, et al. Staple: complementary learners for real-time tracking [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. California: IEEE, 2016: 1401-1409.

[本文引用: 8]

MA C, HUANG J, YANG X, et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3074-3082.

[本文引用: 2]

MA C, HUANG J B, YANG X, et al

Robust visual tracking via hierarchical convolutional features

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41 (11): 2709- 2723

DOI:10.1109/TPAMI.2018.2865311      [本文引用: 2]

DANELLJAN M, ROBINSON A, KHAN F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking [C]// Computer Vision-ECCV 2016. Amsterdam: Springer, 2016: 472-488.

[本文引用: 6]

DANELLJAN M, BHAT G, KHAN F S, et al. ECO: efficient convolution operators for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6931-6939.

[本文引用: 6]

DANELLJAN M, HAGER G, KHAN F S, et al

Discriminative scale space tracking

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (8): 1561- 1575

DOI:10.1109/TPAMI.2016.2609928      [本文引用: 1]

LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration [C]// Proceedings of 2014 European Conference on Computer Vision. Zurich: Springer, 2014: 254-265.

[本文引用: 1]

GALOOGAHI H K, FAGG A, LUCEY S. Learning background-aware correlation filters for visual tracking [C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 1144-1152.

[本文引用: 1]

LUKEZIC A, VOJIR T, ČEHOVIN L, et al. Discriminative correlation filter with channel and spatial reliability [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 4847-4856.

[本文引用: 3]

DANELLJAN M, HAGER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking [C]// Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4310-318.

[本文引用: 2]

卢维, 项志宇, 于海滨, 刘济林

基于自适应多特征表观模型的目标压缩跟踪

[J]. 浙江大学学报: 工学版, 2014, 48 (12): 2132- 2138

[本文引用: 1]

LU Wei, XIANG Zhi-yu, YU Hai-bin, LIU Ji-lin

Object compressive tracking based on adaptive multi-feature appearance model

[J]. Journal of Zhejiang University: Engineering Science, 2014, 48 (12): 2132- 2138

[本文引用: 1]

WU Y, LIM J, YANG M

Object tracking benchmark

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1834- 1848

DOI:10.1109/TPAMI.2014.2388226      [本文引用: 1]

KRISTAN M, MATAS J, LEONARDIS A, et al. The visual object tracking VOT2016 challenge results [C]// Computer Vision-ECCV 2016. Amsterdam: Springer, 2016: 777-823.

[本文引用: 1]

DANELLJAN M, HAGER G, KHAN F S, et al. Convolutional features for correlation filter based visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision Workshop. Santiago: IEEE, 2015: 621-629.

[本文引用: 1]

BERTINETTO L, VALMADRE J, HENRIQUESJ F, et al. Fully-convolutional siamese networks for object tracking [C]// Computer Vision-ECCV 2016. Amsterdam: Springer, 2016: 850-865.

[本文引用: 1]

VALMADRE J, BERTINETTO L, HENRIQUESJ F, et al. End-to-end representation learning for correlation filter based tracking [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5000-5008.

[本文引用: 1]

LI B, YAN J, WU W, et al. High performance visual tracking with siamese region proposal network [C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8971-8980.

[本文引用: 1]

ZHU Z, WANG Q, LI B, et al. Distractor-aware siamese networks for visual object tracking [C]// Computer Vision - ECCV 2018. Munich: Springer, 2018: 103-119.

[本文引用: 1]

ZHANG Z, PENG H, WANG Q, et al. Deeper and wider siamese networks for real-time visual tracking [C]// Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4591-4600.

[本文引用: 2]

FAN H, LING H. Siamese cascaded region proposal networks for real-time visual tracking [C]// Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: [S. n.], 2019.

[本文引用: 1]

LI Y, ZHU J, HOI S, et al

Robust estimation of similarity transformation for visual object tracking

[J]. AAAI Technical Track: Vision, 2019, 33 (1): 8666- 8673

[本文引用: 1]

PU S, SONG Y, MA C, et al. Deep attentive tracking via reciprocative learning [C]// Proceedings of the Conference on Neural Information Processing Systems. Montreal: Neural Information Processing Systems Foundation, 2018: 1931-1941.

[本文引用: 1]

/