基于策略梯度的目标跟踪方法

doi:10.3785/j.issn.1008-973X.2020.10.008

基于策略梯度的目标跟踪方法

王康豪^,, 殷海兵^,, 黄晓峰

Visual object tracking based on policy gradient

WANG Kang-hao^,, YIN Hai-bing^,, HUANG Xiao-feng

通讯作者: 殷海兵，男，教授. orcid.org/0000-0002-3025-0938. E-mail： yhb@hdu.edu.cn

收稿日期: 2019-09-5

Received: 2019-09-5

作者简介 About authors

王康豪（1995—），男，硕士生，从事计算机视觉的研究.orcid.org/0000-0001-6127-2059.E-mail：wangkh@hdu.edu.cn , E-mail：wangkh@hdu.edu.cn

摘要

针对目标跟踪过程中的遮挡、形变和快速运动等问题，提出基于策略梯度的目标跟踪方法. 该方法利用策略梯度算法训练策略网络. 该策略网络能够根据当前跟踪结果的可靠性进行动作决策，以避免错误的模板更新或者重新检测丢失的目标. 在决策过程中，通过计算加权置信度差值分析当前跟踪结果的鲁棒性和准确性，使得策略网络能够更准确地评估跟踪结果. 在重检测过程中，提出有效的重检测方法，对大量的搜索区域进行过滤，大大提高了搜索效率，利用决策模块检验重检测结果，确保重检测结果的准确性. 利用提出的算法在OTB数据集及LaSOT数据集上进行评估. 实验结果表明，提出的跟踪算法在原算法的基础上提高了2.5%~4.0%的性能.

关键词： 目标跟踪 ; 决策 ; 策略梯度 ; 重检测 ; 模板更新

Abstract

An object tracking method based on policy gradient was proposed aiming at the problems of occlusion, deformation and fast motion in the process of object tracking. The policy gradient algorithm was used to train the policy network. The policy network can make action decisions founded on the reliability of current tracking results to avoid the incorrect template update or re-detect the missing targets. During the decision-making process, the robustness and accuracy of the current tracking result were both analyzed by calculating the weighted confidence margin, which helped the policy network to evaluate the tracking results more accurately. During the re-detection process, an efficient re-detection method was proposed to filter a large number of searching areas, which greatly improved the search efficiency. The decision-making module was utilized to examine the re-detected result, which ensured the accuracy of the re-detected results. The proposed algorithm was evaluated on OTB dataset and LaSOT dataset. The experimental results show that the proposed tracking algorithm improves performance by 2.5%-4.0% based on the original algorithm.

Keywords： visual object tracking ; decision making ; policy gradient ; re-detection ; template update

PDF (847KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王康豪, 殷海兵, 黄晓峰. 基于策略梯度的目标跟踪方法. 浙江大学学报(工学版)[J], 2020, 54(10): 1923-1928 doi:10.3785/j.issn.1008-973X.2020.10.008

WANG Kang-hao, YIN Hai-bing, HUANG Xiao-feng. Visual object tracking based on policy gradient. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(10): 1923-1928 doi:10.3785/j.issn.1008-973X.2020.10.008

视觉目标跟踪(visual object tracking, VOT)是计算机视觉领域中最具挑战性的问题之一. 它在视频监控、人机交互和自动驾驶领域中有着广泛的应用. 尽管近几年VOT技术取得了显著的进步，但面临着遮挡、形变和快速运动等诸多挑战.

近年来，检测跟踪(tracking-by-detection)类跟踪方法成为目标跟踪的最成功的范例之一. 遵循这种模式，跟踪器通过学习辨别模型来检测对象，并随着时间的推移对模型进行更新，以补偿目标外观和比例的变化. 尽管这类方法性能出众，但是当目标出现严重的遮挡或者剧烈的形变时，辨别模型可能会学习到背景的特征，从而导致模型漂移. 这需要跟踪器实时作出决定，何时更新外观模型，这种决定对于最终性能的提升至关重要.

为了解决上述问题，熊昌镇等^[1]采取稀疏更新的策略，减弱遮挡、形变及快速运动等挑战导致的漂移问题. Wang等^[2-3]采取高置信度更新的策略，即将相关滤波的最大响应值作为评估跟踪结果的指标，只有该值高于某个人为设定的阈值，跟踪器才更新模板. 最大响应值有时候不准确，在一些复杂的跟踪场景中，最大响应值会存在高于阈值的情况. 为了找到更准确的置信度指标，Bolme等^[4]提出峰值旁瓣比(peak sidelobe ratio, PSR)，Wang等^[5]提出平均峰值相关能量(average peak-to-correlation energy, APCE). 虽然上述指标取得了更好的效果，但是阈值需要人为设定.

近年来，受强化学习(reinforcement learning, RL)算法在围棋和雅达利游戏中所展现的出色的学习策略的能力所吸引，一些研究开始在视觉跟踪领域探索这种数据驱动的学习策略的方式. Huang等^[6]利用RL学习一种策略，决定跟踪器是使用浅层特征还是深层特征来定位目标. Choi等^[7]使用RL方法构建模板选择策略，鼓励跟踪器从每帧的有限候选模板中选择最佳模板. Supancic等^[8]通过RL算法学习在线决策策略，决定何时更新目标外观模板以及是否要全局搜索整个图像.

受到上述方法的启发，本文提出的方法学习了一种策略来决定何时更新模板以及是否要进行重新检测. 与之前的工作相比，主要有以下几点贡献：1)使用基于帧的策略梯度算法来训练策略网络，具备完全可观测性，能够学习更加可靠的策略；2)使用加权置信度差值图替代响应图来表示状态，使得状态表达更加准确全面；3)在重检测模块中，通过粒子滤波器及稀疏编码方法过滤大量的搜索区域，相比于全局搜索大大提高了速度，利用策略网络来检验重检测结果，确保重检测结果的准确性.

1. 方法介绍

如图1所示，提出的算法框架由一个跟踪网络和和一个策略网络组成. 在第t帧中，根据上一帧目标的位置信息裁剪得到搜索图像x. 通过输入初始模板图像z和搜索图像x，跟踪网络输出响应图h_t. 通过计算加权置信度差值，将响应图h_t转换成加权置信度差值图q_t，再将q_t输入策略网络中，得到动作集A中各个动作的正则化分数. 执行动作集A中得分最高的动作a_t.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 提出算法的总体框架

Fig.1 Overall framework of proposed algorithm

1.1. 全卷积Siamese网络

提出算法的跟踪模块基于SiamFC^[9]方法构建. SiamFC学习了一个相似度度量函数f，比较127×127模板图像z与较大的255×255搜索图像x中相同大小的候选区域的相似程度. 函数f是一个全卷积siamese网络，能够在一次评估中计算搜索图像的所有子窗口与模板图像的相似度：

(1) $f({{z}},{{x}}) = \varphi ({{z}}) * \varphi ({{x}}) + b.$

式中： $\varphi $为卷积嵌入函数，*表示2个特征图之间的互相关， $b$为偏移量. 在输入模板图像z和搜索图像x之后， $f({{z,x}})$生成尺寸为33×33的响应图h. 响应图h上最大值的坐标表示目标的预测位置.

1.2. 强化学习概述

强化学习是一种重要的机器学习方法，用于解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题. 强化学习问题通常由马尔可夫决策过程(Markov decision process, MDP)进行描述.

如图2所示，在t时刻给定一个状态s_t，agent必须根据策略π从给定的动作集中选择一个动作a_t，动作a_t和当前状态s_t决定了奖励r_t和下一时刻的状态s_t+₁. 在一次MDP中，所有状态和动作的集合称为一个轨迹，表示为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 马尔可夫决策过程

Fig.2 Markov decision process

(2) ${\rm{Trajectory}}\;{\rm{ }}\tau = \{ {s_1},{a_1},{s_2},{a_2}, \cdots ,{s_T},{a_T}\} .$

式中：T为一个轨迹的长度. 假设策略π已经被给定，对于每一个轨迹，可以计算它的累积回报以及发生的几率：

(3) $R(\tau ) = \sum\limits_{t = 1}^T {{r_t}} ,$

(4) ${P_\pi }(\tau ) = P({s_1})\prod\limits_{t = 1}^T {{P_\pi }({a_t}|{s_t})} P({s_{t + 1}}|{s_t},{a_t}).$

RL的任务是找到一个最优策略π，最大化期望回报，即

(5) $\mathop {\max }\limits_\pi \sum\limits_\tau {R(\tau ){P_\pi }} (\tau ) = \mathop {\max }\limits_\pi {E_{\tau \sim {P_\pi }(\tau )}}[R(\tau )].$

RL算法主要分为两大类：基于价值的方法和基于策略的方法. 基于价值的方法旨在学习一个最优值函数来获取最大期望回报. Q学习是典型的基于价值的方法. 基于策略的方法是直接对策略函数进行建模，策略梯度算法是该类方法中最关键的一种.

1.3. 基于策略梯度算法的策略学习

在上述RL模型的描述中，需要引入几个关键假设. 1）当agent与环境交互时，时间域被认为是离散的. 2）假设提供的环境包含一些奖励功能，作为成功的监督指标. 3）假设所设定的环境具有完全可观测性，即agent可以观测到完整的世界状态信息，此时满足马尔可夫性质：下一时刻的状态s_t₊₁只取决于当前时刻的状态s_t和此时选择的动作a_t.

现实世界的任务通常具有不完整和嘈杂的状态信息. 跟踪问题更是如此，在以往的工作中，响应图表示当前时刻的状态，即当前时刻所观测到的目标的位置. 仅根据当前时刻的目标的位置和动作无法决定下一时刻目标的状态，下一时刻的目标状态还与上一时刻目标的速度及方向等因素相关，因此不具备完全可观测性. 此时，跟踪过程变成部分可观测马尔可夫决策过程(partially observable Markov decision processes, POMDP)，从观测值决定动作可能是错误的^[10].

为了解决上述问题，采用基于帧的策略梯度算法训练策略网络，即将一帧的跟踪过程视为一个轨迹而不是一段视频序列的跟踪过程. 在一个轨迹中只有一个状态，所以满足马尔可夫性质，具备完全可观测性. 从某种程度上来说，基于帧的策略网络可以看作一个分类网络，将结果分为3类，对应3种动作. 训练数据在跟踪过程中生成，奖励对应训练数据的标签.

1.4. 跟踪过程中的状态表达

在评估跟踪器性能时，有2个重要的标准：准确性和鲁棒性. 在之前的工作中，用响应图h $ \in $R^33×33表示状态s，但是响应图不能直接反映准确性和鲁棒性. 其中，准确性与响应图主峰的尖锐程度有关，更尖锐的峰值表示更准确的定位能力. 鲁棒性由主峰与干扰峰之间的差值决定，若差值很小，则预测不明确；若差值较大，则表示预测位置的置信度高于其他候选区域.

为了使状态表达更加准确全面，使用加权置信度差值图q∈R^33×33表示状态s，通过计算响应图上每一个坐标的加权置信度差值^[11]同时衡量准确性和鲁棒性：

(6) ${{q}}(c) = \frac{{{{h}}(c^*) - {{h}}(c)}}{{\varDelta (c - c^*)}}.$

式中：h(c)为坐标c上的响应；c*为最大响应所对应的坐标； $\varDelta$为距离度量函数，

(7) $\varDelta (d) = 1 - {{\rm exp}}\;({ - {k}{{\left| d \right|}^2}}/2).$

假设c远离c*，可得 $\varDelta (c - c^*) \approx 1$，此时， ${{q}}(c)$近似等于2个坐标的响应的差值， ${{q}}(c)$越大表示干扰因素越小. 反之，假设c接近于c*，且 ${{q}}(c)$是在二维实数连续域上定义的，且是二次连续可微的，则此时可以将 ${{q}}(c)$看作坐标c上响应的导数. ${{q}}(c)$越大，表示峰值越尖锐，即准确度越高. 距离度量函数 $\varDelta$实际上是一个高斯分布函数，参数k相当于方差系数，它决定了距离分布的离散程度，k越小则分布越分散，越平坦，反之则越集中，越尖锐，因此参数k控制着鲁棒性和准确性之间的权衡.

1.5. 跟踪过程中的动作表达

动作集A包含3种类型的动作：“跟踪”、“更新”及“重检测”. “跟踪”动作表示在跟踪过程中，不更新目标外观模板. “更新”动作表示在每一帧跟踪后更新目标外观模板.

当执行“重检测”动作时，重检测模块会通过粒子滤波器^[12]在前一帧的跟踪结果周围画出N个候选搜索区域. 为了从大量候选搜索区域中获得可靠的搜索区域，采用简单的基于稀疏编码的方法^[2]进行有效地粗定位. 在跟踪过程中，设定一个模板集D，其中包含靠近目标的正模板D₊和远离目标的负模板D₋. 对于每一个候选搜索区域x，通过模板集D计算重构误差，可以粗略预测第i个候选搜索区域的可靠性R_i：

(8) ${R_i} = \left\| {{{{x}}_i} - {{{D}}_ - }{{{\alpha}} _ - }} \right\|_2^2 - \left\| {{{{x}}_i} - {{{D}}_ + }{{{\alpha}} _ + }} \right\|_2^2.$

式中： $\left\| {{{{x}}_i} - {{{D}}_ - }{{{\alpha}} _ - }} \right\|_2^2$为负模板集的重构误差； $\left\| {{{{x}}_i} - {{{D}}_ + }{{{\alpha}} _ + }} \right\|_2^2$为正模板集的重构误差；系数 ${{\alpha}}$通过下式得到：

(9) $\mathop {\min }\limits_{{\alpha}} \left\| {{{x}} - {{D\alpha}} } \right\|_2^2 + \lambda {\left\| {{\alpha}} \right\|_1}.$

当一个搜索区域x在正模板集的重构误差越小或者负模板集的重构误差越大时，表示该区域越可能存在目标. 更高的R_i意味着目标在该区域的可能性越高，计算每个候选搜索区域的R_i，然后舍弃R_i较低的候选搜索区域. 对于剩下的候选搜索区域，通过跟踪网络得到响应图，选择经过距离惩罚后响应值最大的候选搜索区域区域作为最佳候选搜索区域. 类似地，最佳候选搜索区域的响应图上最大值的坐标决定了重检测目标的位置. 将最佳候选搜索区域所对应的响应图输入策略网络来检验重检测结果. 当在同一帧内执行2次及以上“重检测”动作时，将放弃重检测结果，采用最初的跟踪结果.

1.6. 训练策略网络

为了学习到可靠的策略，采用基于帧的策略梯度算法. 在训练过程中，将策略网络π_θ(a_t|s_t)用卷积神经网络近似表示，采用梯度下降算法最大化期望回报，梯度表示为

(10) $\Delta \theta = {\nabla _\theta }\log \;{\pi _\theta }({a_t}|{s_t})R(\tau ).$

式中： $\theta $为策略网络的参数. 由于轨迹 $\tau $只包含一个动作状态对，将奖励函数定义为

(11) $\left.\begin{array}{l} R({s_t},a_t^1){\rm{ = }}\left\{ \begin{array}{l} + 1,\quad{\rm{IoU}}(b,g) > 0.6; \\ - 1,\quad{\text{其他}} ;\\ \end{array} \right. \\ R({s_t},a_t^2) = \left\{ \begin{array}{l} + 1,\quad0.2 < {\rm{IoU}}(b,g) \leqslant 0.6; \\ - 1,\quad{\text{其他}} ; \\ \end{array} \right. \\ R({s_t},a_t^3) = \left\{ \begin{array}{l} + 1,\quad{\rm{IoU}}(b,g) \leqslant 0.2; \\ - 1,\quad{\text{其他}}. \\ \end{array} \right. \\ \end{array} \right\}$

式中：a¹、a²、a³分别表示“更新”、“跟踪”及“重检测”这3个动作. IoU表示预测框b和真实框g的重叠率. 当IoU > 0.6时，预测结果与真实的目标相接近，所以应该更新模板. 当0.2 < IoU $\leqslant $ 0.6时，预测结果不是很明确，可能受到了背景干扰，因此不应该更新模板. 当IoU $\leqslant $0.2时，说明目标已经丢失，此时应该进行重检测.

策略网络由2个卷积层、1个全连接层以及1个输出层组成. 其中第1个卷积层有6个6×6×1的卷积核，卷积步长为1，并经过一个2×2的步长为2的最大池化层. 第2个卷积层有6个5×5×6的卷积核，卷积步长为1. 全连接层有128个节点，输出层有3个输出动作. 整个算法在大规模单目标跟踪(large-scale single object tracking, LaSOT)数据集^[13]上训练50个周期，对于每一个周期，在经验池收集到4096个样本后，策略网络随机抽取经验池中的64个样本进行学习. 继续采样新的样本，收集到的新样本将替换经验池中老的样本. 每次收集到新的32个样本后，策略网络将再次抽取经验池中的64个样本进行一次迭代学习. 如此循环往复，直到agent与所有的训练图像完成交互. 在整个训练过程中，学习率从10⁻⁶下降到10⁻⁸.

2. 实验结果

实验运行平台为Python3.6、Tensorflow1.9、Cuda9.0，运行环境配置为Intel Core i7，Nvidia GeForce Titan V，显存为12 GB，内存为16 GB.

采用提出的方法在目标跟踪数据集(object tracking benchmark, OTB)^[14]上进行评估，与5种最先进的跟踪器进行比较：KCF^[15]、DSST^[16]、SAMF^[17]、Staple^[18]、SiamFC. 所有的跟踪算法都是通过2个指标进行评估：20像素阈值下的距离精度(distance precision, DP)以及0.5重叠阈值下的重叠精度(overlap precision, OP). 如图3所示，δ为距离阈值，T_o为重叠率阈值，SR为成功率，与其他几种算法相比，提出的算法表现出了具有竞争力的性能.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 OTB数据集的OPE结果比较

Fig.3 OPE result comparison on OTB benchmark dataset

为了证明提出方法的有效性，分别在LaSOT数据集的部分序列及OTB数据集上对不更新模板的SiamFC算法(Never update)、更新模板的SiamFC算法(Always update)、基于加权置信度差值图进行自适应模板更新的SiamFC算法(Adaptive update without re-detection)、基于响应图进行动作决策的SiamFC算法(response map based)以及基于加权置信度差值图进行动作决策的SiamFC(weighted confidence margin map based)进行性能对比. 结果如表1所示，虽然SiamFC算法在处理遮挡和变形方面表现出很强的鲁棒性，但是使用提出的决策策略获得了显著的提升(DP大约提升了4%，OP大约提升了2.5%).

表 1 不同设定下的算法性能对比

Tab.1 Performance of proposed algorithm with different settings

设定	LaSOT结果		OTB100结果		平均速度/(帧·s⁻¹)
设定	DP	OP	DP	OP	平均速度/(帧·s⁻¹)
Never update (Baseline)	42.5%	0.363	74.2%	0.567	67
Always update (Baseline)	38.1%	0.337	75.8%	0.571	50
Adaptive update without re-detection	40.8%	0.359	78.0%	0.587	46
Response map based	43.8%	0.366	77.8%	0.587	33
Weighted confidence margin map based	44.2%	0.368	78.5%	0.592	32

新窗口打开| 下载CSV

给出提出算法和SiamFC算法在具有挑战性的代表性视频序列上的部分跟踪过程，结果如图4所示. 其中Basketball序列包含了光照变化、遮挡、形变等挑战，Bird2序列包含了遮挡、形变、快速运动等挑战，Girl2序列包含了完全遮挡、形变、尺度变化等挑战. 图4中，实线为所提出算法的跟踪结果，虚线为SiamFC算法跟踪结果. 在Basketball序列第85帧以及Bird2序列第78帧的跟踪结果中，由于部分遮挡，SiamFC算法受到背景信息的干扰导致了跟踪器漂移，但提出的算法通过识别不可靠的跟踪结果避免了错误的模板更新，因此能够继续跟上目标. 在Girl2序列第124帧跟踪结果中，由于完全遮挡，提出算法和SiamFC算法都失去了目标，但是在第139帧，提出算法通过重检测找回了目标. 以上实验结果反映了利用提出算法能够有效地应对遮挡、形变、快速运动等重大挑战.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 视频序列跟踪结果

Fig.4 Tracking results of video sequences

3. 结　语

本文提出鲁棒的跟踪算法，能够准确地识别不可靠的跟踪结果. 通过连续决策，有效地解决了严重遮挡、视线模糊、外观变化等问题. 在OTB数据集上对该算法进行评估. 实验结果表明，提出的算法在面临诸多挑战的情况下，取得了显著的性能提升. 在实验过程中发现，使用了重检测模块后，算法性能相对于自适应更新的算法版本没有特别大的提升，在速度方面有着明显的下降. 该问题的原因可能是策略网络存在小部分误判，导致错误地进行重检测. 在后续的研究中，将着重解决该问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

熊昌镇, 王润玲, 邹建成

基于多高斯相关滤波的实时跟踪算法

[J]. 浙江大学学报: 工学版, 2019, 53 (8): 1488- 1495