浙江大学学报(工学版), 2019, 53(8): 1488-1495 doi: 10.3785/j.issn.1008-973X.2019.08.007

计算机与控制工程

基于多高斯相关滤波的实时跟踪算法

熊昌镇,, 王润玲, 邹建成

Real-time tracking algorithm based on multiple Gaussian-distribution correlation filters

XIONG Chang-zhen,, WANG Run-ling, ZOU Jian-cheng

收稿日期: 2018-07-19  

Received: 2018-07-19  

作者简介 About authors

熊昌镇(1979—),男,副教授,从事视频分析、深度学习研究.orcid.org/0000-0001-7645-5181.E-mail:xczkiong@163.com , E-mail:xczkiong@163.com

摘要

针对分层卷积特征目标跟踪算法实时性不足和单分类器对目标表观变化适应能力差的问题,提出多高斯相关滤波器融合的实时目标跟踪算法. 为了加快跟踪算法,提取VGG-19网络的Pool4和Conv5-3层的多通道卷积特征,通过稀疏采样减少卷积特征通道数;为了防止特征减少造成精确度下降,利用不同高斯分布样本训练多个相关滤波器,并对所有分类器预测的目标位置进行自适应加权融合,提高算法对目标姿态变化的鲁棒性;采用稀疏模型更新策略,进一步提高算法速度,使算法具有实时性. 在OTB100标准数据集上对算法进行测试,结果表明,该算法的平均距离精度为86.6%,比原分层卷积特征目标跟踪算法提高了3.5%,在目标发生遮挡、形变、相似背景干扰等复杂情况时具有较好的鲁棒性;平均跟踪速度为43.7帧/s,实时性更好.

关键词: 视觉跟踪 ; 卷积特征 ; 相关滤波 ; 高斯分布 ; 自适应融合

Abstract

Aiming at the shortage of real-time performance of the hierarchical convolutional features for visual tracking algorithm and the poor adaptability of single classifier to target appearance changes, a real-time visual tracking algorithm based on multiple Gaussian-distribution correlation filters was proposed. Features with high dimensions of convolution channels were extracted from Pool4 and Conv5-3 layers of VGG-19 networks, and the sparse sampling approach was used to reduce the number of convolution channels to speed up the tracking algorithm. In order to prevent the decrease of tracking accuracy caused by the reduction of features, the multiple correlation filters based on different Gaussian-distribution samples were trained and all the predicted target positions were fused by adaptive weights, expecting for the better robustness for target posture changes. The sparse model update strategy was applied to further improve the algorithm’s speed and achieve the real-time performance. Experimental results on OTB100 benchmark dataset showed that the proposed algorithm had an average distance precision of 86.6%, which was 3.5% higher than that of the original hierarchical convolutional features for visual tracking method. The proposed method has better robustness under complex conditions, for example occlusion, deformation, similar background interferences. The average tracking speed was 43.7 frames per second, and it had a better real-time effect.

Keywords: visual tracking ; convolutional feature ; correlation filter ; Gaussian distribution ; adaptive fusion

PDF (2641KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

熊昌镇, 王润玲, 邹建成. 基于多高斯相关滤波的实时跟踪算法. 浙江大学学报(工学版)[J], 2019, 53(8): 1488-1495 doi:10.3785/j.issn.1008-973X.2019.08.007

XIONG Chang-zhen, WANG Run-ling, ZOU Jian-cheng. Real-time tracking algorithm based on multiple Gaussian-distribution correlation filters. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(8): 1488-1495 doi:10.3785/j.issn.1008-973X.2019.08.007

视觉跟踪即为通过计算机获取并分析视频信息,找出视频后续帧中的运动目标并标记出来. 在安全监控、智能交通、医疗诊断以及气象分析等方面具有广泛的应用.

相关滤波跟踪算法利用快速傅里叶变换进行滤波器训练和响应图计算,具有较好的跟踪实时性. Henriques等[1]设计单通道核相关滤波器,速度为362帧/s,简单的灰度特征不能适应较大的目标表观变化,易导致跟踪失败,因此将灰度特征扩展为多通道的方向梯度直方图(histogram of oriented gradient,HOG)特征[2],提高算法鲁棒性. 熊昌镇等[3]提出自适应加权融合颜色属性(color names,CN)特征[4]和HOG特征的跟踪算法,解决由遮挡和光照变化引起的跟踪失败问题. 马晓楠等[5]提出自适应尺度快速相关滤波算法,将目标的尺度变化转化为位移信号,提高算法的跟踪速度. Bertinetto等[6]融合局部HOG特征和全局颜色直方图特征的互补优势,引入尺度金字塔策略[7],提高算法精度,且使速度达到80 帧/s. Lukezic等[8]将相关滤波和颜色概率结合,提出自适应空域可靠性和通道可靠性,解决循环移位导致的边界效应问题,鲁棒性较好. 陈倩茹等[9]在空间正则化相关滤波[10]的基础上,训练不同的相关滤波器进行自适应融合,提高跟踪效果.

基于传统特征的相关滤波算法的实时性能较好,但在有遮挡或相似物体干扰等复杂情况下,易发生跟踪错误或跟丢. 因此,研究者们将深度特征较强的表现力和相关滤波的速度优势相结合,提高算法的跟踪效果和速度. 蔡玉柱等[11]对高维卷积特征进行自适应降维,并对跟踪失败情况进行重检测,实现长时间鲁棒跟踪. Danelljan等[12]提出连续卷积操作相关滤波算法,但速度缓慢且易引起过拟合;其改进算法[13]采用因式分解的方法对卷积特征降维,并利用稀疏模型更新策略防止模型漂移,能有效提高算法的精度和速度. Ma等[14]提出分层卷积相关滤波目标跟踪算法(CF2),利用高、中、低3层卷积特征在语义表达和空间定位上的互补性,结合相关滤波器来定位目标,但未对目标尺度进行评估,且速度仅约为10 帧/s. 为了提高CF2算法的跟踪速度,Wang等[15]训练多尺度域的相关滤波器,对高维的卷积特征进行降维以达到实时的效果,但精确度略有下降.

为了解决分层卷积特征相关滤波跟踪算法[14]实时性和跟踪效果互相制约的问题,本研究主要工作如下:1)为了提高跟踪算法的实时性,减少卷积特征提取层数,并通过稀疏采样减少高维特征通道数,同时对模型进行稀疏更新,以达到实时跟踪的要求;2)为了避免速度提升造成精度下降,融合2层更深层的卷积特征,利用不同高斯样本分布训练多个相关滤波分类器,对所有分类器的预测结果进行自适应融合,提高跟踪的精确度.

1. 相关滤波器

单个高斯样本分布的相关滤波框架如下. 记输入图像特征为 ${{x}} \in {{\bf R}^{M \times N \times D}}$MN分别为图像特征的长和宽, $D$为特征通道数),经循环移位后获得的单个训练样本为 ${{{x}}_{m,n}}$,其类标函数为 $g(m,n)$,则最优相关滤波器 ${{W}}$的目标函数表达式为

$ {{W}} = \mathop {\arg \min }\limits_{ w} \left(\sum\limits_{m,n} {{{\left\| {\sum\limits_{d = 1}^D {{{{w}}^d}{{x}}_{m,n}^d - g(m,n)} } \right\|}^2} + \lambda \left\| {{w}} \right\|_2^2} \right). $

式中: $d$为特征通道数, ${{w}}$为分类器参数, $\lambda \geqslant 0$为正则化参数.

$\varsigma = \sum\limits_{m,n} {{{\left\| {\sum\limits_{d = 1}^D {{{{w}}^d}} {{x}}_{m,n}^d - g(m,n)} \right\|}^2}} + \lambda \left\| {{w}} \right\|_2^2.$

其在频域的表达式为

$\varsigma * = \frac{1}{{MN}}\left({\left\| {\sum\limits_{d = 1}^D {{{{W}}^d}} \odot {{\overline {{X}} }^d} - {{G}}} \right\|^2} + \lambda \sum\limits_{d = 1}^D {{{\left\| {{{{W}}^d}} \right\|}^2}} \right).$

式中: $ \varsigma * $${{X}}$$ G$$ W$分别为 $ \varsigma $$ x$$ g$$ w$的离散傅里叶变换形式; $\overline {{X}} $${{X}}$的共轭复数; $ \odot $表示Hadamard积,即矩阵中对应位置元素相乘. 通道 $d$上的最优滤波器为

${{{W}}^d} = {{\left( {{{G}} \odot {{\overline {{X}} }^d}} \right)} \Bigg/ {\left( {\sum\limits_{i = 1}^D {{{X}}^i \odot {{\overline {{X}} }^i} + \lambda } } \right)}}.$

${{{Q}}^d} = {{{{\overline {{X}} }^d}} \Bigg/ {\left( {\sum\limits_{i = 1}^D {{{{X}}^i} \odot {{\overline {{X}} }^i} + \lambda } } \right)}}.$

则相关滤波器 ${{{W}}^d}$可以表示为2个因式的Hadamard积的形式:

${{{W}}^d} = {{G}} \odot {{{Q}}^d}.$

2. 多高斯相关滤波实时跟踪算法

相关滤波目标跟踪算法将提取的特征输入相关滤波器,然后根据获取的相关滤波响应图进行目标定位. 因此,本研究从图像特征提取和滤波器两方面着手,提高算法的速度和精度. 1)对于输入的第1帧图像,利用VGG-19网络[16]提取目标搜索区域的Pool4和Conv5-3层的稀疏卷积特征,采用不同带宽的高斯分布样本训练多个相关滤波分类器;2)对于后续输入的视频帧,通过训练好的多相关滤波器预测出多个目标位置,将所有位置进行自适应加权融合得到目标的预测位置;3)更新多相关滤波器.

该研究算法框架图如图1所示.

图 1

图 1   多高斯相关滤波算法框架图

Fig.1   Framework of multiple Gaussian-distribution correlation filter algorithm


2.1. 分层稀疏卷积特征

VGG-19网络不同层所提取的卷积特征的侧重点不同,低层特征保留了更多的纹理信息,对目标的精确定位更有效;高层特征含有较丰富的语义信息,对目标表观变化的适应性较强. 因此,分层卷积相关滤波目标跟踪算法[14]融合高、中、低3个卷积分层提取图像特征进行目标跟踪.在响应图融合时低层的权重较小,对跟踪任务的贡献可以忽略不计,且增加计算的复杂度,严重影响算法的速度.

为了提高算法的速度和精度,仅选取Pool4与Conv5-3层作为特征提取层.Conv5-3卷积层接近全连接层,具有更强的分类效果,对目标的形变、遮挡等的鲁棒性更强,但也更易受到背景中的相似目标的干扰. Pool4层特征由Conv4-4层池化后得到,保留了有效的特征,又具有高低层特征的性质,既能用于目标定位,又可充分表示目标外观.

卷积神经网络的许多特征图存在噪声或者对区分视频帧中的目标和背景的作用不大[17]. 这些冗余特征不仅会对目标的定位造成干扰,还会增加计算负担,影响算法速度. 实验发现,等间隔采样并不会造成相关滤波响应值的大幅降低. 如图2所示为Jogging-1视频某一帧图片在经过VGG-19网络后,Pool4层输出的512维通道、等间隔提取的128维通道(即取第1,5,9,···,509维通道)以及64维通道(即取第1,9,17,···,505维通道)的输出响应图.实验发现,等间隔采样未明显降低相关滤波响应值(图2中各响应图上方数值),即对目标位置预测的影响较小,且128维通道特征的响应值最高. 因此,可以对多通道的卷积特征降维,采用等间隔的方式获取稀疏的卷积特征图,提高相关滤波跟踪算法的跟踪速度.

图 2

图 2   不同维数卷积特征响应图

Fig.2   Response maps of convolutional features with different dimensions


2.2. 多相关滤波分类器

VGG-19网络由大型分类数据库训练而来,学习到的特征更侧重于区分类间物体而忽略类内物体的差异性. 分类任务与目标跟踪的差别在于前者以相似物体为一类,后者以同一物体的不同表观为一类. 因此,在将该网络中擅长区分不同类别物体的高层特征用于跟踪时,易受背景相似物干扰的影响.本研究提出利用多个高斯样本分布训练多个相关滤波分类器,将多个分类器的预测结果融合以避免相似目标的干扰,使模型对目标姿态变化鲁棒的同时,能够区分目标和背景中的同类或相似物体.

在训练相关滤波器时,采用二维高斯分布的类标函数,分布的分散程度由高斯函数的带宽σ决定. 现有跟踪算法通常选用固定样本分布来训练分类器. 实验发现,不同样本分布对同一视频图像的特征响应的影响不同.样本的分布决定像素的分类状况(目标或背景),高斯分布的带宽越大,样本分布越分散,差异性越大,对目标姿态变化的学习越有帮助;高斯分布的带宽越小,样本分布越集中,对目标的定位越有利.

图3所示为不同高斯样本分布对不同视频图像特征响应的可视化对比. 如图3(a)所示为Girl2视频图像输入(含相似物干扰),带宽 ${\sigma _1} = 0.06$的类标函数得到的分类器可以较好地预测目标位置;如图3(b)所示为Lemming视频图像输入(含遮挡),带宽 ${\sigma _3}{\rm{ = }}0.10$的类标函数得到的分类器可以较好地预测目标位置;如图3(c)所示为MotorRolling视频图像输入(含光照、快速运动),带宽 ${\sigma _2}{\rm{ = }}0.12$的类标函数得到的分类器可以较好地预测目标位置.单个高斯分布样本下训练的分类器无法适用于所有的目标跟踪.

图 3

图 3   不同高斯样本分布对不同视频图像的特征响应图

Fig.3   Feature response maps with different Gaussian distributions for different video images


采用多个高斯样本分布类标函数训练多个相关滤波分类器,并将所有分类器的预测结果进行自适应融合:

${g_b}(m,n) = \exp\, \left\{ {{{ - [{{(m - M/2)}^2} + {{(n - N/2)}^2}]} / ({2{\sigma _b}^2})}} \right\}.$

式中: ${g_b}$${\sigma _b}$分别为第 $b$个高斯分布样本的类标函数和带宽.

利用多通道的卷积特征图 ${{x}} \in {{\bf R}^{M \times N \times D}}$,构造融合 $l$层卷积特征的相关滤波分类器:

${{W}}_b^d{\rm{ = }}\sum\limits_{l = 1}^2 {{{W}}_{l,b}^d} = {{{G}}_b} \odot \sum\limits_{l = 1}^2 {{{Q}}_l^d}. $

式中: $l \in \{ 1,2\} $,为特征提取的层数.

2.3. 多分类器预测位置融合

对于给定目标候选区域的傅里叶变换后的 $l$$d$通道特征 ${{Z}}_l^d$,计算第 $b$个相关滤波分类器的响应图:

${f_b} = {F^{ - 1}}\left({{{G}}_b} \odot \sum\limits_{d = 1}^D {\sum\limits_{l = 1}^2 {{{Q}}_l^d \odot } \overline {{Z}} _l^d} \right). $

式中: ${F^{ - 1}}$为傅里叶逆变换. 通过寻找 ${f_b}$中的最大响应值可以得到第 $b$个分类器预测的目标位置 ${p_b}$. 由式(9)可知,多高斯分布样本训练的多个分类器只是在目标预测时增加了Hadamard积操作,对算法速度的影响不大.

相关滤波响应值表示输入图像与滤波模板的相似程度,选用单个分类器的最大响应与所有分类器最大响应之和的比值作为第 $b$个分类器所预测的目标位置 ${p_b}$与其他预测位置自适应融合的权值:

${\gamma _b} = ({\max\; {f_b}} )\Bigr/ {\sum\nolimits_b}( {\max \; {f_b}}).$

对不同高斯分布下所得到的所有目标位置进行自适应加权融合:

$p = \sum\nolimits_b {{\gamma _b}} {p_b}.$

目标在运动过程中尺度会发生改变,因此采用文献[7]的尺度金字塔策略对目标进行尺度估计.

2.4. 稀疏模型更新

在目标跟踪过程中,目标物体自身表观会发生变化,还可能有遮挡、复杂背景等干扰因素,须对模型进行更新.当目标发生严重遮挡或者相似背景干扰时,若对视频每帧更新易造成模型漂移;若不更新或者更新间隔太大,会使模型跟不上目标变化的速度,造成跟踪失败. 经过大量实验,选择间隔3帧更新模型,在提高精确度的同时,保证算法速度. 设 ${{A}}_t^d$${{B}}_t^d$分别为无类标函数滤波器因式 ${{Q}}_t^d$的分子、分母,每隔3帧对 ${{Q}}_t^d$进行更新:

$\left.\begin{gathered} {{A}}_t^d = (1 - \eta ){{A}}_{t{\rm{ - }}1}^d + \eta \overline {{X}} _t^d, \\ {{B}}_t^d = (1 - \eta ){{B}}_{t{\rm{ - }}1}^d + \eta \sum\limits_{i = 1}^D {{{X}}_t^i \odot \overline {{X}} _t^i} , \\ {{Q}}_t^d = {{{{A}}_t^d}}/\left({{{{B}}_t^d + \lambda }}\right). \end{gathered}\right\} $

式中:t为帧序列,η为学习率.

在模型更新阶段仅对 ${{Q}}_t^d$进行更新,在目标预测时与多高斯样本的离散傅里叶变换 ${{{G}}_b}$做Hadamard积运算,所以对跟踪速度影响不大.由于目标物体尺度变化较快,尺度滤波器在每帧图像进行更新.

3. 实验结果分析

3.1. 数据集、实验平台及算法评估指标

在标准测试数据集OTB2013[18]和OTB100[19]上对本研究所提出算法的鲁棒性进行评估,干扰因素有11种,包含尺度变化(scale variation,SV)、背景混乱(background clusters,BC)、遮挡(occlusion,OCC)、快速运动(fast motion,FM)、超出视野(out-of-view,OV)、运动模糊(motion blur,MB)、低分辨率(low resolution,LR).

实验平台为ubuntu16.04系统下的MATLAB R2015b;电脑配置为IntelCore i7-7800XCPU,GTX1080Ti GPU,内存为16 GB,所有实验均在此配置下完成. 算法的具体参数设置如下:稀疏采样间隔为4,正则化参数 $\lambda = 10^{-4}$,学习率 $\eta =10^{-2}$,多带宽组合为 $\sigma = [0.06,0.10,0.12,0.18]$,尺度相关滤波器相关参数与DSST算法[6]的设置相同.

3.2. 跟踪性能对比实验

选取基于深度特征的CF2[14]、MSDAT[15]、HDT[20]、DeepSRDCF[21]和基于相关滤波的KCF[2]、SRDCF[10]、SAMF[22]、DSST[7]、Staple[6]这9种优秀算法与本研究所提出的算法进行对比实验. MSDAT、SAMF、DSST、Staple算法考虑了目标尺度的变化.

测试OTB2013和OTB100数据集上的平均中心位置误差(center location error,CLE)、平均距离精度(distance precision,DP)、平均重叠精度(overlap precision,OP)和平均速度,结果如表1所示.本研究算法所得出的平均DP、OP、CLE均为最优,平均DP较CF2算法在OTB2013和OTB100数据集上分别提高0.45%、3.50%;平均CLE分别减小19.1%、32.9%. 就速度而言,所提出算法的平均速度在深度特征跟踪器中最快,较CF2算法在OTB2013、OTB100数据集上分别增加35.2、33.3 帧/s,提高了约3倍.

表 1   不同算法平均DP、OP、CLE及速度对比1)

Tab.1  Comparisons of average DP、OP、CLE and speed for different algorithms

数据集 变量 深度特征跟踪器 相关滤波跟踪器
本研究算法 CF2 MSDAT HDT DeepSRDCF KCF SRDCF SAMF DSST Staple
1)注:测试的9种算法速度为对应原算法文献中给出的速度。
OTB 2013 平均DP/% 89.5 89.1 86.3 88.9 84.9 74.0 83.8 78.5 74.0 79.3
平均OP/% 83.8 74.0 74.1 73.7 79.5 62.3 78.1 73.2 67.0 75.4
平均CLE/像素 12.7 15.7 14.6 15.9 25.7 35.5 35.2 30.1 41.2 30.6
平均速度/(帧·s−1 46.2 11.0 23.7 6.3 0.2 273.0 3.6 18.6 26.0 45.0
OTB 100 平均DP/% 86.6 83.7 82.1 84.8 85.1 69.6 78.9 75.1 68.0 78.4
平均OP/% 78.0 65.5 65.5 65.7 77.3 55.1 72.8 67.4 60.1 70.9
平均CLE/像素 15.3 22.8 20.5 20.1 21.4 45.0 38.6 36.5 50.4 31.5
平均速度/(帧·s−1 43.7 10.4 23.5 5.5 0.2 266.0 3.5 17.0 22.0 42.9

新窗口打开| 下载CSV


3.3. 鲁棒性评估实验

为了评估算法的鲁棒性,在OTB2013、OTB100数据集上测试表1中精确度前5名的算法的精确度DP曲线和成功率SR曲线,如图4所示. 图中, $\delta $为位置误差阈值, $\varDelta $为重叠阈值,SR为成功率. 所提算法在OTB2013、OTB100上的一次通过评估(one pass evaluation,OPE)精确度(见图中方框中数值)分别为89.5%、86.6%,优于其他4种算法;OPE成功率分别为65.6%、62.5%,在OTB100上排名第2,但较CF2算法分别提高了8.43%、11.20%.

图 4

图 4   OPE精确度和成功率对比曲线

Fig.4   Comparison plots of precision and success for OPE


为了进一步分析所提算法的性能,测试所提算法与其他4种算法在OTB100不同属性数据集中的精确度图,结果如表2所示.所提算法在背景混乱、非刚性形变(deformation,DEF)、光照变化(illumination variation,IV)及旋转(in-plane rotation,IPR、out-of-plane rotation,OPR)等情况下的鲁棒性较好.

表 2   不同属性数据集上的成功率对比

Tab.2  Comparison of success rates of different attribute datasets

算法 BC OV IPR FM MB DEF OCC IV SV OPR LR
本研究算法 80.7 60.2 73.8 72.3 75.0 71.4 73.0 79.3 69.1 75.0 60.2
DeepSRDCF 74.9 65.5 71.8 75.5 78.2 69.0 73.7 74.1 73.0 73.8 71.3
CF2 72.1 54.0 66.2 66.8 69.8 60.3 60.6 61.6 51.9 62.9 32.7
HDT 71.3 54.7 65.7 66.4 68.9 61.8 61.1 60.8 51.4 62.7 35.4
MSDAT 72.5 56.0 67.6 63.4 65.9 60.4 59.7 63.5 50.8 63.6 35.9

新窗口打开| 下载CSV


为了评估所提出算法的各策略的有效性,在OTB100上对单高斯样本分布的相关滤波跟踪算法(baseline)、多高斯样本分布训练的多相关滤波算法(baseline+m)、有稀疏特征选择但无稀疏模型更新的多相关滤波算法(baseline+mm)以及本研究算法进行精确度和速度对比,结果如图5所示.图中, $v$为平均速度,本研究算法_512、本研究算法_64分别为所提算法在取512、64维特征通道时的跟踪方法.

图 5

图 5   不同策略的精确度和速度对比

Fig.5   Comparison of precision and speed for different strategies


高斯带宽直接影响样本的分布状况,且不同带宽样本间的差异性较大,将其用于分类器训练,便于分类器学习到更好的特征. 因此,使用不同高斯分布的样本训练多个相关滤波分类器并对所有分类器的预测结果进行自适应融合能使算法的效果得以提升. 稀疏特征选择方法在保证精确度的基础上降低特征运算的复杂度. 与baseline+m算法相比,baseline+mm算法的精确度略有下降,但跟踪速度增加了约10 帧/s. 最后,将baseline+mm算法与稀疏模型更新相结合,在进一步提高速度的同时使算法的跟踪效果达到最佳. 在本研究算法中取128维稀疏特征对应的跟踪精度比取512、64维特征时对应的跟踪精确度高,说明128维稀疏特征对该数据集视频序列具有普遍适用性. 本研究算法优于其他算法,充分验证了各策略结合的有效性.

实验还给出了本研究算法和其他3种优秀算法DSST、CF2以及KCF在具有挑战性的代表性视频序列上的部分跟踪结果,如图6所示. 图中,灰色实线框为本研究算法的跟踪结果,黑色虚线框为DSST算法的跟踪结果,白色虚线框为CF2算法的跟踪结果,灰色虚线框为KCF算法的跟踪结果. 如图6(a)所示为MotorRolling部分跟踪结果. 在目标旋转或者受强光干扰时,DSST和KCF丢失目标;本研究所提出算法具备尺度变化能力,与CF2相比,跟踪误差更小. 如图6(b)所示为BlurOwl部分跟踪结果.当目标运动模糊时,DSST和KCF跟踪失败;当目标快速旋转时,CF2跟丢但又重新找回目标,与本研究算法一起完成了跟踪. 如图6(c)所示为CarScale部分跟踪结果. 由于目标尺度不断变化,各跟踪器定位出现分歧;所提出的算法可以更好地定位目标并适应目标的快速尺度变化.如图6(d)所示为Diving部分跟踪结果. 由于严重形变,DSST和KCF跟踪器出现漂移,丢失目标. CF2跟踪器定位稍有偏差,本研究所提出算法顺利完成跟踪.

图 6

图 6   4种算法对具有挑战性的视频序列的跟踪效果对比

Fig.6   Tracking result comparison of four algorithms on several challenging video sequences


4. 结 语

本研究融合2层稀疏卷积特征,利用多个不同高斯分布的类标签函数训练多个相关滤波分类器,并对所有分类器的预测结果进行自适应加权融合,提高目标跟踪器的泛化性能. 在标准数据集OTB2013和OTB100上与其他9种算法进行多组对比实验验证本研究算法,结果表明本研究算法的精确度分别为89.5%、86.6%,速度分别为46.2、43.7 帧/s,优于其他对比算法,拥有良好的跟踪效果和实时性能. 然而,稀疏卷积特征方法虽然有效,但未对高维通道特征的有效性进行区分. 另外,4个高斯带宽组合的训练样本分布固然对跟踪器性能的提升有着显著的作用,但单个分类器的作用被弱化,造成了资源的浪费. 因此,在以后的研究工作中,将探索自适应特征选择方法和分类器评估方法来提高算法的精度.

参考文献

HERIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2012: 702-715.

[本文引用: 1]

HERIQUES J F, CASEIRO R, MARTINS P, et al

High-speed tracking with kernelized correlation filters

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37 (3): 583- 596

[本文引用: 2]

熊昌镇, 赵璐璐, 郭芬红

自适应特征融合的核相关滤波跟踪算法

[J]. 计算机辅助设计与图形学学报, 2017, 29 (6): 1068- 1074

[本文引用: 1]

XIONG Chang-zhen, ZHAO Lu-lu, GUO Fen-hong

Kernelized correlation filters tracking based on adaptive feature fusion

[J]. Journal of Computer-Aided Design and Computer Graphics, 2017, 29 (6): 1068- 1074

[本文引用: 1]

DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking [C]// Proceeding of CVPR 2014. Washington D C: IEEE, 2014: 1090-1097.

[本文引用: 1]

马晓楠, 刘晓利, 李银伢

自适应尺度的快速相关滤波跟踪算法

[J]. 计算机辅助设计与图形学学报, 2017, 29 (3): 450- 458

DOI:10.3969/j.issn.1003-9775.2017.03.007      [本文引用: 1]

MA Xiao-nan, LIU Xiao-li, LI Yin-ya

Fast scale-adaptive correlation tracking

[J]. Journal of Computer-Aided Design and Computer Graphics, 2017, 29 (3): 450- 458

DOI:10.3969/j.issn.1003-9775.2017.03.007      [本文引用: 1]

BERTINETTO L, VALMADRE J, GOLODETZ S. Staple: complementary learners for real-time tracking [C]// Proceeding of CVPR 2016. Washington D C: IEEE, 2016: 1401-1409.

[本文引用: 3]

DANELLJAN M, HAGER G, KHAN F, et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of British Machine Vision Conference. Nottingham: BMVA Press, 2014: 1-11.

[本文引用: 3]

LUKEZIC A, VOJIR T, ZAJC L C, et al. Discriminative correlation filter with channel and spatial reliability [C]// Proceeding of CVPR 2017. Washington D C: IEEE, 2017: 4847-4856.

[本文引用: 1]

陈倩茹, 刘日升, 樊鑫, 等

多相关滤波自适应融合的鲁棒目标跟踪

[J]. 中国图象图形学报, 2018, 23 (2): 269- 276

[本文引用: 1]

CHEN Qian-ru, LIU Ri-sheng, FAN Xin, et al

Multi-correlation filters method for robust visual tracking

[J]. Journal of Image and Graphics, 2018, 23 (2): 269- 276

[本文引用: 1]

DANELLJAN M, HAGER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking [C]// Proceedings of ICCV 2016. Santiago: IEEE, 2016: 4310-4318.

[本文引用: 2]

蔡玉柱, 杨德东, 毛宁, 等

基于自适应卷积特征的目标跟踪算法

[J]. 光学学报, 2017, (3): 262- 273

[本文引用: 1]

CAI Yu-zhu, YANG De-dong, MAO Ning, et al

Visual tracking algorithm based on adaptive convolutional features

[J]. Acta Optica Sinica, 2017, (3): 262- 273

[本文引用: 1]

DANELLJAN M, ROBINSON A, KHAN F S. Beyond correlation filters: learning continuous convolution operators for visual tracking [C]// Proceedings of ECCV. Amsterdam: Springer, 2016: 472-488.

[本文引用: 1]

DANELLJAN M, BHAT G, KHAN F, et al. ECO: efficient convolution operators for tracking [C]// Proceedings of CVPR 2017. Washington D C: IEEE, 2017: 6931-6939.

[本文引用: 1]

MA C, HUANG J B, YANG X K, et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of CVPR 2015. Washington D C: IEEE, 2015: 3074-3082.

[本文引用: 4]

WANG X Y, LI H X, LI Y, et al. Robust and real-time deep tracking via multi-scale domain adaptation [C]// Proceeding of IEEE International Conference on Multimedia and Expo. Washington D C: IEEE, 2017: 1338-1343.

[本文引用: 2]

SIMONYAN K, ZISSERMAN A

Very deep convolutional networks for large-scale image recognition

[J]. Computer Science, 2014, 34 (2): 1409- 1422

[本文引用: 1]

WANG L J, OUYANG W L, WANG X G, et al. Visual tracking with fully convolutional networks [C]// Proceedings of ICCV 2015. Santiago: IEEE, 2015: 3119-3127.

[本文引用: 1]

WU Y, LIM J, YANG M H. Online object tracking: a benchmark [C]// Proceeding of CVPR 2013. Portland: IEEE, 2013: 2411-2418.

[本文引用: 1]

WU Y, LI M J, YANG M H

Object tracking benchmark

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1834- 1848

DOI:10.1109/TPAMI.2014.2388226      [本文引用: 1]

QI Y K, ZHANG S P, QIN L, et al. Hedged deep tracking [C]// Proceeding of CVPR 2016. Las Vegas: IEEE, 2016: 4303-4311.

[本文引用: 1]

DANELLJAN M, HAGER G, KHAN F S, et al. Convolutional features for correlation filter based visual tracking [C]// Proceeding of ICCVW. Santiago: IEEE, 2016: 621-629.

[本文引用: 1]

LI Y, ZHU J K. A scale adaptive kernel correlation filter tracker with feature integration [C]// Proceeding of ECCV 2014. Zurich: Springer, 2014: 254-265.

[本文引用: 1]

/