浙江大学学报(工学版), 2022, 56(7): 1464-1472 doi: 10.3785/j.issn.1008-973X.2022.07.022

航空航天技术

视觉感知的无人机端到端目标跟踪控制技术

华夏,, 王新晴,, 芮挺, 邵发明, 王东

中国人民解放军陆军工程大学 野战工程学院,江苏 南京 210007

Vision-driven end-to-end maneuvering object tracking of UAV

HUA Xia,, WANG Xin-qing,, RUI Ting, SHAO Fa-ming, WANG Dong

College of Field Engineering, Army Engineering University of PLA, Nanjing 210007, China

通讯作者: 王新晴,男,教授,博导. orcid.org/0000-0001-6841-7716. E-mail: 17626039818@163.com

收稿日期: 2021-06-22  

基金资助: 国家重点研发计划资助项目(2016YFC0802904);国家自然科学基金资助项目(61671470);江苏省自然科学基金资助项目(BK20161470);中国博士后科学基金第62批面上资助项目(2017M623423)

Received: 2021-06-22  

Fund supported: 国家重点研发计划资助项目(2016YFC0802904);国家自然科学基金资助项目(61671470);江苏省自然科学基金资助项目(BK20161470);中国博士后科学基金第62批面上资助项目(2017M623423)

作者简介 About authors

华夏(1995—),男,博士生,从事计算机图形学、机器视觉、数字图像处理及人工智能的研究.orcid.org/0000-0002-0953-3044.E-mail:huaxia120888@163.com , E-mail:huaxia120888@163.com

摘要

针对无人机机动目标跟踪的自主运动控制问题,提出连续型动作输出的无人机端到端主动目标跟踪控制方法. 设计基于视觉感知和深度强化学习策略的端到端决策控制模型,将无人机观察的连续帧视觉图像作为输入状态,输出无人机飞行动作的连续型控制量. 为了提高控制模型的泛化能力,改进基于任务分解和预训练的高效迁移学习策略. 仿真结果表明,该方法能够在多种机动目标跟踪任务中实现无人机姿态的自适应调整,使得无人机在空中能够稳定跟踪移动目标,显著提高了无人机跟踪控制器在未知环境下的泛化能力和训练效率.

关键词: 深度强化学习 ; 机器视觉 ; 自主无人机 ; 迁移学习 ; 目标跟踪

Abstract

An end-to-end active object tracking control method of UAV with continuous motion output was proposed aiming at the autonomous motion control problem of UAV maneuvering object tracking. An end-to-end decision-making control model based on visual perception and deep reinforcement learning strategy was designed. The continuous visual images observed by UAV were taken as the input state, and the continuous control quantity of UAV flight action was output. An efficient transfer learning strategy based on task decomposition and pre training was proposed in order to improve the generalization ability of control model. The simulation results show that the method can realize the adaptive adjustment of UAV attitude in a variety of maneuvering object tracking tasks and make the UAV stably track the moving object in the air. The generalization ability and training efficiency of UAV tracking controller in unknown environment were significantly improved.

Keywords: deep reinforcement learning ; machine vision ; autonomous UAV ; transfer learning ; object tracking

PDF (2109KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

华夏, 王新晴, 芮挺, 邵发明, 王东. 视觉感知的无人机端到端目标跟踪控制技术. 浙江大学学报(工学版)[J], 2022, 56(7): 1464-1472 doi:10.3785/j.issn.1008-973X.2022.07.022

HUA Xia, WANG Xin-qing, RUI Ting, SHAO Fa-ming, WANG Dong. Vision-driven end-to-end maneuvering object tracking of UAV. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(7): 1464-1472 doi:10.3785/j.issn.1008-973X.2022.07.022

无人机的运动目标跟踪技术被广泛应用于各个领域,如监视预警、探测救援、高空射击等[1-4]. 对于无人机机动目标跟踪任务,我们应该寻求主动跟踪的解决方案,统一物体跟踪和运动控制2个子任务. 传统的无人机目标跟踪系统主要基于规则进行决策. 当面对复杂多变的场景时,规则构建复杂[5-7],难以覆盖可能出现的场景. 随着人工智能技术在无人驾驶领域的应用,复杂的场景理解与决策均由神经网络来执行,不需要人为地制定规则,形成端到端的决策控制模型,即通过获取无人机及飞行场景的相关信息( 如飞行姿态、速度、障碍距离、环境图像等) ,经过神经网络的处理后,直接输出无人机运动控制信号. 端到端决策系统简单且性能良好,受到学术界和工业界的广泛关注[8].

基于深度强化学习[9]的研究方法是当前主流的端到端无人机控制决策方法,深度强化学习(deep reinforcement learning, DRL)通过智能体和环境之间的交互过程在线生成自适应策略[10-11],在无人机运动规划领域表现良好[12-14].

这些方法虽然已成功地应用于无人机目标跟踪任务中,但在建立决策模型之前,过分简化了无人机的飞行环境,将连续动作空间划分为有限的动作间隔,对无人机的姿态稳定性和跟踪精度有着重要的影响[15-16].

为了实现无人机的连续动作控制,研究人员探索其他基于策略梯度的深度强化学习(DRL)算法. De Blasi等[17]通过在Actor-Critic框架[18]中引入DQN,提出高效、可行的深度确定性策略梯度(DDPG)算法,它可以将连续观测值直接映射到持续的行动. DDPG算法在无人机智能连续控制中得到越来越广泛的应用,但是现有的基于DDPG的无人机智能动作控制远远不够智能,解决方案往往由于确定性策略的产生而陷入局部最优. 现有基于DDPG算法的策略仅限于单个预定义的任务,很难推广到目标以随机轨迹运动的新任务.

Wan等[19]提出新的深度强化学习方法和鲁棒深度确定性策略梯度,用于开发控制器,使得无人机(unmanned aerial vehicle, UAV)在动态不确定环境中实现鲁棒飞行. Yang等[20]提出新的架构,其中有监督的分割网络以奖励驱动的方式由Actor-Critic网络[21-23]所制作的标签来训练.

针对传统方法和现有基于深度强化学习方法模型的部分局限性,本文提出改进的视觉感知的端到端深度强化学习算法. 该方法为无人机在不确定环境下对机动目标的跟踪提供了精确的运动控制策略. 本文研究的主要贡献如下. 1)设计基于奖励驱动深度强化学习策略的端到端视觉感知-运动决策控制模型. 采用U-Net分割模型来简化无人机第一人称视角(first-person perspective, FPV)原始图像中的信息,使得深度强化学习模型能够在连续的动作空间中学习导航. 利用分割网络与深度强化学习模型之间的交互作用,取代了奖赏函数的设计. 利用仿真环境对Actor-Critic网络和分割模型进行训练,结果表明,该模型能够成功地学习如何控制无人机稳定地追踪运动目标. 2)为了提高无人机跟踪控制模型的泛化能力,引入基于迁移学习的训练方法,使得无人机在能够熟练跟踪简单运动目标后,快速学习跟踪随机复杂运动目标. 通过预训练,帮助无人机作了更充分的准备. 仿真结果表明,该训练方法能够提高深度强化学习训练过程的效率和稳定性.

1. 端到端视觉感知-运动决策控制模型

本文设计的端到端视觉感知-运动决策控制模型的2个学习过程是交互协作的,整个系统的学习过程可以分为环境探索及网络训练2部分. 训练好的运动控制模型包含以下2部分:1)以目标分割图的形式对场景进行视觉表示的模型;2)用于控制连续动作空间中的无人机的Actor-Critic强化学习模型. 运动控制决策模型的整体训练框架如图1所示. Actor网络与Target-Actor网络用来输出动作,Critic网络与Target-Critic网络来计算action的值,经验回放池用来存储探索数据,Airsim是无人机运行的仿真交互环境,运动控制动作的奖励通过奖励函数来计算. U-Net分割网络的输出通过池化和矢量化过程输入到Actor网络[22],无人机接收Actor网络的输出并生成相应的飞行策略来跟踪目标. 在与环境的交互过程中,网络可以更新,无人机可以不断地学习和制定有效的顺序控制策略.

图 1

图 1   决策系统模型框图

Fig.1   Decision model block diagram


本文的分割模型与Actor-Critic网络同时进行学习训练,利用Critic网络来指导分割模型的参数调整,利用分割网络与RL模型之间的交互作用,取代了奖赏函数的设计;由于强化学习模型的表现良好,分割模型得到了改进. 在测试过程中,只使用经过训练的分割网络和Actor网络来控制无人机.

本文的Actor-Critic网络通过分割模型输出的结果学习到如何稳定跟踪运动目标,Actor-Critic网络良好的跟踪效果会指导分割模型学习到如何精确生成分割图. 为了降低计算复杂度,便于仿真实现,假设无人机借助自动驾驶仪在固定高度飞行(即不考虑俯仰角和飞行高度的变化). 本文的控制命令为航向角速度 $ {\dot \varphi _t} $及飞行加速度 $ {\dot v_t} $. Actor-network为每一个状态(即单帧图像)产生1个连续的速度和1个加速度,这个命令用于控制无人机进行训练和测试,总体的控制结构框图如图2所示.

图 2

图 2   决策系统模型框图

Fig.2   UAV control block diagram


DDPG算法是成熟的DRL算法,可以用于解决连续动作控制的问题. 该算法主要基于Actor-Critic框架组成,利用Actor-online网络 $ \;\mu $根据当前agent的状态输出动作 $ {\boldsymbol{a}}_{t} = \mu \left( {{{\boldsymbol{s}}_t}\left| {{{\boldsymbol{\theta}\,} ^\mu }} \right.} \right) $,利用Critic-online网络 $ Q $评价该动作值 $ r_t = Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}\left| {{{\boldsymbol{\theta}} ^Q}} \right.} \right) $,其中 ${{\boldsymbol{\theta}\,} ^\mu }$$ {{\boldsymbol{\theta}} ^Q} $为Actor-online网络和Critic-online网络的参数向量. 构造Target-Actor网络 $\; \mu ' $和评论家目标网络 $ Q' $,用于后续的更新过程[4]. 当更新Actor和Critic网络时,从经验重放缓冲区中取样 $ N $个过渡 $ \left[ {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t},{r_t},{{\boldsymbol{s}}_{t + 1}}} \right] $,计算Critic网络的损失函数:

$ L\left( {{{\boldsymbol{\theta}} ^Q}} \right) = {N^{ - 1}}\sum\limits_{i=t}^N {{{\left[ {{Y_i} - Q\left( {{{\boldsymbol{s}}_i},{{\boldsymbol{a}}_i}\left| {{{\boldsymbol{\theta}} ^Q}} \right.} \right)} \right]}^2}} . $

式中: $ {Y_i}{\text{ = }}{r_i} + \gamma Q'\left( {{{\boldsymbol{s}}_{i + 1}},\mu '\left( {{{\boldsymbol{s}}_{i + 1}}\left| {{{\boldsymbol{\theta}\,} ^{\mu '}}} \right.} \right)\left| {{{\boldsymbol{\theta}} ^{Q'}}} \right.} \right) $为目标值,其中 $ \gamma $为折现系数, $ i $为抽取样本的序列号, $ {{\boldsymbol{\theta}\,} ^{\mu '}} $$ {{\boldsymbol{\theta}} ^{Q'}} $分别为Target-Actor网络和Target-Critic网络的参数向量. 根据策略梯度训练Actor网络,策略梯度表示为

$ {\nabla _{{{\boldsymbol{\theta}} ^\mu }}}J \approx {N^{ - 1}}\sum\limits_t^N {{\nabla _{{{\boldsymbol{a}}_t}}}Q\left( {{{\boldsymbol{s}}_t},{\boldsymbol{a}}{}_t\left| {{{\boldsymbol{\theta}}^Q}} \right.} \right){\nabla _{{{\boldsymbol{\theta}} ^\mu }}}\mu \left( {{{\boldsymbol{s}}_t}\left| {{{\boldsymbol{\theta}\,} ^\mu }} \right.} \right)} . $

通过软更新策略[4],对 $ {{\boldsymbol{\theta}\,} ^{\mu '}} $$ {{\boldsymbol{\theta}} ^{Q'}} $ 2个目标网络的参数进行更新:

$ \left. \begin{gathered} {{\boldsymbol{\theta}} ^{Q'}} = \tau {{\boldsymbol{\theta}} ^Q} + \left( {1 - \tau } \right){{\boldsymbol{\theta}} ^{Q'}}, \\ {{\boldsymbol{\theta}\,} ^{\mu '}} = \tau {{\boldsymbol{\theta}\,} ^\mu } + \left( {1 - \tau } \right){{\boldsymbol{\theta}\,} ^{\mu '}}. \\ \end{gathered} \right\} $

式中: $ \tau $为可配置的常数系数,用于调节软更新系数. 为了简洁和不失一般性,假设无人机借助自动驾驶仪在固定高度飞行. 四自由度无人机的连续运动方程[4]可以表示为

$ \left[ \begin{gathered} \dot x\left( t \right) \\ \dot y\left( t \right) \\ \dot \varphi \left( t \right) \\ \dot v\left( t \right) \\ \end{gathered} \right] = \left[ \begin{gathered} v\left( t \right)\cos \; \varphi \left( t \right) \\ v\left( t \right)\sin \; \varphi \left( t \right) \\ \omega \left( t \right) \\ \alpha \left( t \right) \\ \end{gathered} \right]. $

式中: $ x $$ y $为无人机的二维坐标, $ \varphi $为无人机的航向角, $ v $为无人机的飞行速度. 无人机在时间间隔 $ t $的状态更新可以描述为

$ \left. \begin{gathered} x\left( t \right) = x\left( {t - 1} \right) + v\left( {t - 1} \right)\Delta t\cos \; \varphi \left( {t - 1} \right), \\ y\left( t \right) = y\left( {t - 1} \right) + v\left( {t - 1} \right)\Delta t\sin \; \varphi \left( {t - 1} \right), \\ v\left( t \right) = {v\left( {t - 1} \right) + \alpha \left( {t - 1} \right)\Delta t} , \\ \varphi \left( t \right) = \varphi \left( {t - 1} \right) + \omega \left( {t - 1} \right)\Delta t. \\ \end{gathered} \right\} $

假设无人机的速度在一定范围内,即 $ v\left( t \right) \in \left[ {{v_{\min }},{v_{\max }}} \right] $. 在目标跟踪过程中,无人机通过视觉图像系统连续实时获取目标的运动信息,考虑到无人机在固定高度上飞行,在二维坐标系下简化了跟踪过程. 考虑到无人机在执行跟踪任务时须保持合理的速度和稳定的航向,采用基于无人机飞行速度和航向变化率的无人机策略控制器,因此定义无人机的动作输出为

$ {\boldsymbol{a}}_t = \left[ {{{\dot v}_t},\;{{\dot \varphi }_t}} \right]. $

$ t $ 时刻,根据 $ {\dot v_t} $$ {\dot \varphi _t} $ 操纵无人机姿态(见式(5)). 使用的U-Net分割网络的结构如图3所示. 该网络将原始图像归一化为256×256×3像素,在最后一层使用Sigmoid函数输出256 × 256 ×1像素的分割特征图,包含对输入图像的奖励分割. 在训练阶段,U-Net、Actor和Critic都参与训练;在测试阶段,只使用U-Net和Actor-network,采用文献[22]方法初始化权重,将偏差设为0.

图 3

图 3   U-Net分割网络的结构框图

Fig.3   Structure of U-Net segmentation network


设计的Actor网络和Critic网络的结构如图4所示. Actor 网络为全连接网络,网络输入为 $ t $时刻的状态 $ {{\boldsymbol{s}}_t} $,经过2层全连接层后输出动作 $ {{\boldsymbol{a}}_t} $. 各隐层之间使用 Relu 激活函数,在最终的输出层中使用tanh激活函数,将各方向运动动作规范在(−1,1).

图 4

图 4   Actor网络和Critic网络的结构框图

Fig.4   Structure of Actor network and Critic network


Target-Actor 网络结构与 Actor 网络结构相同,Critic 网络输入包含 $ {{\boldsymbol{s}}_t} $$ {{\boldsymbol{a}}_t} $2部分. 其中将 $ {{\boldsymbol{s}}_t} $作为输入,通过2层全连接层之后得到特征 $ {l_{\rm{s}}} $.$ {{\boldsymbol{a}}_t} $作为输入,通过隐层后得到特征 $ {l_{\rm{a}}} $. 此时, $ {l_{\rm{s}}} $$ {l_{\rm{a}}} $的维度相同,将 $ {l_{\rm{s}}} $$ {l_{\rm{a}}} $逐级相加融合得到 $ {l_{\rm{sa}}} $,通过最后的全连接层得到 $ Q $. $ {l_{\rm{s}}} $$ {l_{\rm{a}}} $均无激活函数, $ {l_{{\rm{sa}}}} $通过全连接层后,使用 Relu 作为激活函数. 最终输出的 $ Q $无激活函数, Target-Critic 网络与 Critic 网络的结构相同.

为了进行主动跟踪,奖励函数应鼓励智能体密切跟踪目标. 定义二维局部坐标系,如图5所示,用S表示. 使用固定位置的矩形框表示无人机的跟踪瞄准框,x轴从瞄准框的左肩指向右肩,y轴垂直于x轴并指向瞄准框的前进方向. 原点是瞄准框所在的位置,可以获得目标的局部坐标 $ \left( {x,y} \right) $及相对于系统S的方向 $ {R_S} $(半径).

图 5

图 5   目标跟踪的二维局部坐标系

Fig.5   Two-dimensional local coordinate system for object tracking


最终的跟踪奖励函数为

$ {r_{{\text{tra}}}} = A - \left[ {{{\sqrt {{x^2} + {{\left( {y - d} \right)}^2}} }}\bigg/ {c} + \lambda \left| \omega \right|} \right]. $

式中: $A、c、d、\lambda $为调整参数, $ A > 0 $$ c > 0 $$ d > 0 $$ \lambda > 0 $. 式(7)表示当目标与无人机正面的距离为d并表现出无旋转时,获得最大回报 $ A $(见图5). $ c $起着类似于异常化因子的作用,使距离标准化[1]. 式(7)中,省略了时间步长下标. 由于虚拟环境提供的API能够访问感兴趣的内部状态,建立所需的奖励函数. 除了跟踪奖励以外,添加无人机稳定飞行奖励 $ {r_{{\text{ste}}}} $和无人机航向奖励 $ {r_{{\text{cou}}}} $来指导模型的训练[4],分别如下所示:

$ {r_{{\text{ste}}}}{\text{ = }} - \left| {{{\dot v}_t}} \right|, $

$ {r_{{\text{cou}}}}{\text{ = }}\cos \; \phi . $

式中: $ \phi $为无人机与目标之间的相对方位角. 学习过程中的最终奖励函数定义为

$ r = {\lambda _1} {r_{{\text{tra}}}} + {\lambda _2} {r_{{\text{ste}}}} + {\lambda _3} {r_{{\text{cou}}}}. $

式中: $ {\lambda _1} $$ {\lambda _2} $$ {\lambda _3} $为对应奖励的权重参数.

基于DDPG的连续动作空间学习的主要挑战是探索. 在无人机的训练过程中,随着目标轨迹和环境的变化,无人机需要探索新的策略来完成跟踪任务. 引入改进的MN-DDPG算法[4],该算法将高斯噪声和欧恩斯坦-乌伦贝克(OU)噪声混合在一起,对DDPG生成的确定性策略进行优化,指导无人机进行策略探索. 考虑到DRL将跟踪任务建模为序贯决策问题,根据无人机连续动作输出的特点,采用序列相关的Ornstein-Uhlenbeck(OU)随机过程为无人机应对不断变化的环境提供动作探索. 基于OU过程的噪声向量 $ {{\boldsymbol{N}}_{{\text{OU}}}} $

$ {{\boldsymbol{N}}_{{\text{OU}}}} = \beta \left( {\bar {\boldsymbol{a}} - {{\boldsymbol{a}}_t}} \right){\text{d}}t + {\sigma _1}{{\boldsymbol{W}}_t}. $

式中: $ \bar {\boldsymbol{a}} $为动作采样数据的平均值, $ \;\beta $为随机过程的学习率, $ {\sigma _1} $为OU随机权重, $ {{\boldsymbol{W}}_t} $表示Wiener过程的计算结果[3]. 考虑到转移模型对先前任务的确定性最优策略在新的任务场景中可能不适用,引入另一种高斯噪声来帮助无人机学习的自适应随机行为. 这一探索过程在迁移学习的初期尤为重要. 基于策略的优化行为通过混合噪声网络[3]输出更新为

$ {{\boldsymbol{a}}_t} \sim {N_{{\text{Gaussian}}}}\left( {{\mu _t} + {N_{{\text{OU}}}}\left( {{\text{d}}{{\boldsymbol{a}}_t}} \right),{\sigma _2}{{\left( e \right)}^2}} \right). $

式中: $ {\sigma _2}{\left( e \right)^2} $为第 $ e $次迭次中的高斯方差,保证无人机在每一个回合都具有均匀稳定的探测能力,保持探测效果和纠偏. 随着学习的开展,转移模型逐渐适应新的任务场景,这需要高斯方差的指数衰减,如下所示:

$ {\sigma _2}{\left( e \right)^2} = {\sigma _2}{\left( 0 \right)^2}{\text{exp}\;{ (- \delta e)}}. $

式中: $ \delta $为衰减系数. 在训练过程中,引入MN-DDPG算法对DDPG控制框架进行更新,加入混合噪声进行无人机随机策略探索,将训练过程与后续的迁移学习进行结合.

2. 结合迁移学习的模型优化训练策略

端到端深度模型尽管具有简单、高效的特点,但是因为其不可解释性,对于一些特别复杂的任务,模型的训练效率和收敛性都得不到保证. 参考人类先学习和掌握简单的任务,再学习和完成更加复杂的任务的学习策略. 训练智能体首先完成较简单的任务,通过迁移学习引导智能体完成更复杂的任务,这样能够有效地提高模型的训练效率,避免因为任务过于复杂导致的模型不能收敛或者过收敛问题.

参考文献[4],讨论将迁移学习方法与DDPG相结合的过程. 本质上,该过程将跟踪任务连续分解为2个子任务,对跟踪任务进行双重训练. 为了帮助无人机逐步学习如何高效、稳定地跟踪目标,将无人机跟踪复杂机动目标的总体任务分解为2个简单的子任务:无人机对匀速直线运动目标的跟踪任务(子任务1)和无人机对复杂曲线运动目标的跟踪任务(子任务2). 如图6所示为基于任务分解和双重训练的跟踪任务迁移学习.

图 6

图 6   基于任务分解和双重训练的跟踪任务迁移学习

Fig.6   Tracking task transfer learning based on task decomposition and dual training


在子任务1的无人机与环境交互过程中,即首次预训练时,基于DDPG算法对无人机的初始跟踪模型进行训练. 将当前网络的权值和偏差参数保存为 $ {{\boldsymbol{N}}_1} $,将预训练的 $ {{\boldsymbol{N}}_1} $作为子任务2的初始网络,当目标以不同的轨迹运动时,基于DDPG算法对无人机进行训练,不断学习新的策略. 在完成子任务2的学习后,将网络保存为 $ {{\boldsymbol{N}}_2} $,该模型通过训练,既能够保持对简单运动目标的精确跟踪,又能够学习到新的跟踪复杂运动目标的策略. 随着每个训练子任务模型的连续迁移,可以训练无人机生成综合策略.

3. 仿真实验验证

3.1. 仿真环境设置

用于训练和测试的实验平台为配备Intel i7 3.4 GHz CPU和Nvidia Titan X显卡的工作站,使用Ubuntu 16.04操作系统以及Python 3.6、Tensorflow 1.10.0和OpenCV 3.4.1搭建本文的网络模型.

基于Microsoft Airsim[24]搭建无人机机动目标跟踪的仿真环境,生成虚拟世界,主要包括丛林和沙漠2个场景. 在这些场景中搭建包括道路、仓库、民房、车库等常规军事和民用建筑,设置车辆、人作为跟踪目标,在虚拟环境中训练无人机进行目标跟踪,如图7所示.

图 7

图 7   Airsim无人机虚拟测试场景

Fig.7   Airsim UAV virtual test scene


3.2. 实验参数设置

在本文的实验中,模拟步长为0.1 s. 若无人机在规定时间内完成跟踪任务或目标超出摄像机的探测范围,则认为当前训练集的任务结束,重置模拟环境. 当经验回放缓冲区充满数据时,采用Adam优化算法对神经网络参数进行更新. 不同训练阶段的具体超参数设置如表1所示. 混合噪声的相关参数用随机过程的学习率 $ \;\beta {\text{ = }}0.1 $来设定,OU随机权重 $ {\sigma _1}{\text{ = }}0.1 $,初始高斯方差 $ {\sigma _2}{\left( 0 \right)^2}{\text{ = }}0.3 $,高斯方差的衰减系数 $ \delta {\text{ = }}0.001 $. 采用四自由度无人机模型,UAV飞行高度为 50 m,飞行加速度为[−5, 5] m/s2,起点坐标为(0,0),滚转角限制为[−5°, 5°],FVP 的分辨率设置为256 × 256,纵向和横向视场角均为80°[25].

表 1   深度强化学习的实验参数设置

Tab.1  Experimental parameter settings of deep reinforcement learning experiment

阶段 ${C_{\rm{a}}}$ $ {N_{\rm{b}}} $ $ {l_1} $ $ {l_2} $ $ {e_{\max }} $ $ s_{\rm{i}} $ $ R_{\rm{u}} $ $ T_{\rm{b}} $
预训练 10000 64 0.001 0.001 1000 500 0.03 20
训练 2000 32 0.0001 0.0002 1000 500 0.05 20

新窗口打开| 下载CSV


具体的参数设置如表1所示. 表中, $ {C_{\rm{a}}} $为经验回放缓冲区容量, $ {N_{\rm{b}}} $为最小批次大小, $ {l_1} $为Actor 学习率, $ {l_2} $为Critic学习率, $ {e_{\max }} $为最大迭代次数, $ s_{\rm{i}} $为最大步长, $ R_{\rm{u}} $为软更新率, $ T_{\rm{b}} $为目标网络更新间隔.

3.3. 跟踪算法的跟踪结果

本文模型虚拟环境中对车辆和人员跟踪的部分输出如图8所示. 将直线运动作为简单运动的代表,将包含转弯和避障的曲线运动作为复杂运动,运动曲线. 将车辆速度为20 m/s且人员速度为2 m/s定义为低速运动,将车辆速度为25 m/s且人员速度为3 m/s定义为高速运动.

图 8

图 8   虚拟测试场景中对车辆和人员的跟踪效果

Fig.8   Tracking effects of vehicles and personnel in virtual test scenarios


图8中,长方形框表示检测目标所在的有效矩形区域,第1行是对作简单低速度运动的车辆目标的跟踪效果,第2行是对作复杂高速运动的车辆目标且存在遮挡的跟踪效果,第3行是对作复杂低速度往返运动的人员目标的跟踪效果,第4行是对作简单高速运动的人员目标且存在视觉遮挡的跟踪效果. 从实验结果可知,本文的模型在多种场景下都能够取得较好的跟踪效果,有效地对抗遮挡、光照、阴影等干扰因素的影响.

本文模型的输入图像为分辨率为256×256×3的彩色图像,在低速直线运动车辆跟踪、低速直线运动人员跟踪、复杂曲线高速运动车辆跟踪、复杂曲线高速运动人员跟踪这4个实验任务中单帧图像的处理时间tp表2所示. 从表2可知,在多种场景下,对不同运动状态目标跟踪的平均速度为65.3 ms/帧,基本能够满足实时性的要求.

表 2   单帧图像模型的处理效率

Tab.2  Processing efficiency of single-frame image

环境 tp/ms
低速直线运动车辆跟踪 66.3
低速直线运动人员跟踪 63.1
复杂曲线高速运动车辆跟踪 68.5
复杂曲线人员跟踪 63.6

新窗口打开| 下载CSV


为了验证引入的U-Net和迁移学习方法的有效性,采用传统的DDPG+CNN模型作为基线模型,分别添加U-Net和迁移学习策略以及两者的融合策略作为对比模型,采集000轮的无人机奖励数据进行分析.

图9所示为经过平滑后的实验数据. 图中,点划线是使用传统的DDPG算法从初始网络到最终复杂场景的训练过程中奖励的相关变化曲线,奖励均值为7.35. 结合迁移学习算法,实线表示任务中每轮的累计奖励,奖励均值为28.75. 双点划线表示DDPG结合U-Net学习优化的每轮奖励的总和,奖励均值为38.66. 虚线表示同时结合U-Net和迁移学习策略每轮奖励的总和,曲线更稳定,在迭代360次时完成了收敛,奖励均值为39.16,较其他模型平均提高了13.5. 相比于基础DDPG模型,U-Net和迁移学习方法的引入都能够有效地提高模型的学习效果,迁移学习策略有效地提高了模型训练的收敛效率,U-Net的引入提高了模型的奖励值和模型的跟踪精度.

图 9

图 9   设计的策略的奖励消融实验

Fig.9   Ablation experiment of designed strategy


为了讨论本文方法较其他基于Actor-Critic的方法在给定目标跟踪任务上的性能,通过逐个替换Actor-Critic算法,开展对比试验. U-Net和奖励方案是相同的,对比算法为DDPG、TRPO[26]、PPO[27]和ACKTR[28].

图10所示为经过平滑后的实验数据. 本文方法的奖励值相对稳定且最高,在迭代300次时完成了收敛,奖励均值为56.9,较其他模型平均提高了25.6. 本文模型的综合性能优于其他4种算法,说明使用本文算法训练的无人机可以在复杂的环境下探索有效的控制策略,完成机动目标的跟踪任务.

图 10

图 10   与其他先进模型的奖励值对比结果

Fig.10   Comparison results of reward with other advanced models


将设计的跟踪模型和一些传统视觉跟踪模型在上述4个不同任务场景下进行性能比较,包括MIL[29]、Meanshift[30]、KCF[31]及TLD[32]. 通过直接调用OpenCV的接口来实现以上算法,通过增加PID的模块来控制无人机飞行.

实验采用2个度量标准,即计算每一代(episode)的累积奖励(accumulated rewards, AR)和代的长度(episode length, EL)进行定量评估[1]. 实验结果如表34所示. 结果表明,设计的端到端主动跟踪器与模拟的传统跟踪器相比,性能提升明显,在多种任务中都能够对目标进行稳定且精确的跟踪.

表 3   不同跟踪任务和场景中不同模型的AR比较结果

Tab.3  AR comparison results of different models in different tracking tasks and scenarios

环境 AR
MIL Meanshift KCF TLD 本文算法
低速直线车辆 −432.3 −455.6 −407.3 −489.2 458.2
低速直线人员 −358.2 −367.8 −330.2 −355.7 646.3
曲线高速车辆 −595.6 −653.6 −638.6 −599.7 285.9
曲线高速人员 −495.7 −503.7 −525.3 −498.7 373.4

新窗口打开| 下载CSV


表 4   不同跟踪任务和场景中不同模型的EL比较结果

Tab.4  EL comparison results of different models in different tracking tasks and scenarios

环境 EL
MIL Meanshift KCF TLD 本文算法
低速直线车辆 64.7 55.8 40.7 69.2 168.3
低速直线人员 91.2 67.2 53.2 69.2 186.5
曲线高速车辆 33.6 31.2 38.6 69.2 165.9
曲线高速人员 35.7 33.8 37.3 69.2 172.4

新窗口打开| 下载CSV


4. 结 语

基于视觉感知和奖励驱动的深度强化学习策略,设计连续型动作输出的无人机端到端主动目标跟踪控制技术,智能体仅依靠视觉图像就能够实现无人机对机动目标的自主跟踪. 仿真实验结果表明,利用引入的U-Net和迁移学习策略,可以有效地提高原DDPG算法中神经网络的收敛速度,提高无人机控制模型的泛化能力. 下一步将会把本文的工作扩展到真实的三维空间,加速模型从数字仿真向真实无人机应用的成果转化.

参考文献

LUO W, SUN P, ZHONG F, et al. End-to-end active object tracking and its real-world deployment via reinforcement learning [EB/OL]. [2021-05-20]. https://ieeexplore.ieee.org/document/8642452/footnotes#footnotes.

[本文引用: 3]

李轶锟. 基于视觉的四旋翼飞行器地面目标跟踪技术[D]. 南京: 南京航空航天大学, 2019.

LI Yi-kun. Ground target tracking technology of quadrotor based on vision [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2019.

刘亮. 四旋翼飞行器移动目标跟踪控制研究[D]. 西安: 西安电子科技大学, 2020.

[本文引用: 2]

LIU Liang. Research on moving target tracking control of quadrotor aircraft [D]. Xi'an: Xi'an University of Electronic Science and Technology, 2020.

[本文引用: 2]

LI B, YANG Z, CHEN D, et al

Maneuvering target tracking of UAV based on MN-DDPG and transfer learning

[J]. Defence Technology, 2021, 17 (2): 457- 466

[本文引用: 7]

罗伟, 徐雪松, 张煌军

多旋翼无人机目标跟踪系统设计

[J]. 华东交通大学学报, 2019, 36 (3): 72- 79

[本文引用: 1]

LUO Wei, XU Xue-song, ZHANG Huang-jun

Design of multi rotor UAV target tracking system

[J]. Journal of East China Jiaotong University, 2019, 36 (3): 72- 79

[本文引用: 1]

张兴旺, 刘小雄, 林传健, 等

基于Tiny-YOLOV3的无人机地面目标跟踪算法设计

[J]. 计算机测量与控制, 2021, 29 (2): 76- 81

ZHANG Xing-wang, LIU Xiao-xiong, LIN Chuan-jian, et al

Design of UAV ground target tracking algorithm based on Tiny-YOLOV3

[J]. Computer Measurement and Control, 2021, 29 (2): 76- 81

张昕, 李沛, 蔡俊伟

基于非线性导引的多无人机协同目标跟踪控制

[J]. 指挥信息系统与技术, 2019, 10 (4): 47- 54

[本文引用: 1]

ZHANG Xin, LI Pei, CAI Jun-wei

Multi UAV cooperative target tracking control based on nonlinear guidance

[J]. Command Information System and Technology, 2019, 10 (4): 47- 54

[本文引用: 1]

黄志清, 曲志伟, 张吉, 等

基于深度强化学习的端到端无人驾驶决策

[J]. 电子学报, 2020, 48 (9): 1711- 1719

DOI:10.3969/j.issn.0372-2112.2020.09.007      [本文引用: 1]

HUANG Zhi-qing, QU Zhi-wei, ZHANG Ji, et al

End-to-end autonomous driving decision based on deep reinforcement learning

[J]. Acta Electronica Sinica, 2020, 48 (9): 1711- 1719

DOI:10.3969/j.issn.0372-2112.2020.09.007      [本文引用: 1]

VOLODYMYR M, KORAY K, DAVID S, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2019, 518 (7540): 529

[本文引用: 1]

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521 (7553): 436

DOI:10.1038/nature14539      [本文引用: 1]

MATTHEW B, SAM R, et al

Reinforcement learning, fast and slow

[J]. Trends in Cognitive Sciences, 2019, 23 (5): 408- 422

[本文引用: 1]

LIU Q, SHI L, SUN L, et al

Path planning for UAV-mounted mobile edge computing with deep reinforcement learning

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (5): 5723- 5728

DOI:10.1109/TVT.2020.2982508      [本文引用: 1]

KHAN A, FENG Jiang, LIU Shao-hui, et al

Playing a FPS Doom video game with deep visual reinforcement learning

[J]. Automatic Control and Computer Sciences, 2019, 53 (3): 214- 222

DOI:10.3103/S0146411619030052     

SEWAK M. Deep Q network (DQN), double DQN, and dueling DQN: a step towards general artificial intelligence [M]. Singapore: Springer, 2019.

[本文引用: 1]

ZENG Y, XU X, JIN S, et al

Simultaneous navigation and radio mapping for cellular-connected UAV with deep reinforcement learning

[J]. IEEE Transactions on Wireless Communications, 2021, 20 (7): 4205- 4220

DOI:10.1109/TWC.2021.3056573      [本文引用: 1]

LUO C, JIN L, SUN Z

MORAN: a multi-object rectified attention network for scene text recognition

[J]. Pattern Recognition, 2019, 90: 109- 118

DOI:10.1016/j.patcog.2019.01.020      [本文引用: 1]

DE BLASI S, KLÖSER S, MÜLLER A, et al

KIcker: an industrial drive and control Foosball system automated with deep reinforcement learning

[J]. Journal of Intelligent and Robotic Systems, 2021, 102 (1): 107

[本文引用: 1]

HE G, LIU T, WANG Y, et al. Research on Actor-Critic reinforcement learning in RoboCup [C]// World Congress on Intelligent Control and Automation. Dalian: IEEE, 2006: 205.

[本文引用: 1]

WAN K F, GAO X G, HU Z J, et al. Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning [EB/OL]. [2021-05-20]. https://www.mdpi.com/2072-4292/12/4/640.

[本文引用: 1]

YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm [C]// 2019 IEEE 15th International Conference on Control and Automation. Edinburgh: IEEE, 2019.

[本文引用: 1]

WAN K, GAO X, HU Z, et al

Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning

[J]. Remote Sensing, 2020, 12 (4): 640

DOI:10.3390/rs12040640      [本文引用: 1]

SHIN S, KANG Y, KIM Y

Reward-driven U-net training for obstacle avoidance drone

[J]. Expert Systems with Applications, 2019, 143: 113064

[本文引用: 2]

POLVARA R, PATACCHIOLA M, HANHEIDE M, et al. Sim-to-real quadrotor landing via sequential deep Q-networks and domain randomization [EB/OL]. [2021-05-20]. https://www.mdpi.com/2218-6581/9/1/8.

[本文引用: 1]

SHAH S, KAPOOR A, DEY D, et al

AirSim: high-fidelity visual and physical simulation for autonomous vehicles

[J]. Field and Service Robotics, 2017, 11 (1): 621- 635

[本文引用: 1]

林传健, 章卫国, 史静平, 等

无人机跟踪系统仿真平台的设计与实现

[J]. 哈尔滨工业大学学报, 2020, 52 (10): 119- 127

[本文引用: 1]

LIN Chuan-jian, ZHANG Wei-guo, SHI Jing-ping, et al

Design and implementation of UAV tracking system simulation platform

[J]. Journal of Harbin Institute of Technology, 2020, 52 (10): 119- 127

[本文引用: 1]

LIU H, WU Y, SUN F

Extreme trust region policy optimization for active object recognition

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29 (6): 2253- 2258

DOI:10.1109/TNNLS.2017.2785233      [本文引用: 1]

WANG Z, LI H, WU Z, et al

A pretrained proximal policy optimization algorithm with reward shaping for aircraft guidance to a moving destination in three-dimensional continuous space

[J]. International Journal of Advanced Robotic Systems, 2021, 18 (1): 1- 9

[本文引用: 1]

WU Y, MANSIMOV E, GROSSE R B, et al

Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

[J]. Advances in Neural Information Processing Systems, 2017, 30 (1): 5279- 5288

[本文引用: 1]

BABENKO B, YANG M H, BELONGIE S. Visual tracking with online multiple instance learning [C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009.

[本文引用: 1]

D COMANICIU, RAMESH V, MEER P. Real-time tracking of non-rigid objects using mean shift [C]// IEEE Conference on Computer Vision and Pattern Recognition. Nice: IEEE, 2003.

[本文引用: 1]

HENRIQUES J F, CASEIRO R, MARTINS P, et al

High-speed tracking with kernelized correlation filters

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (3): 583- 596

DOI:10.1109/TPAMI.2014.2345390      [本文引用: 1]

KALAL Z, MIKOLAJCZYK K, MATAS J

Tracking-learning-detection

[J]. IEEE Transactions on Software Engineering, 2011, 34 (7): 1409- 1422

[本文引用: 1]

/