视觉感知的无人机端到端目标跟踪控制技术
Vision-driven end-to-end maneuvering object tracking of UAV
通讯作者:
收稿日期: 2021-06-22
基金资助: |
|
Received: 2021-06-22
Fund supported: | 国家重点研发计划资助项目(2016YFC0802904);国家自然科学基金资助项目(61671470);江苏省自然科学基金资助项目(BK20161470);中国博士后科学基金第62批面上资助项目(2017M623423) |
作者简介 About authors
华夏(1995—),男,博士生,从事计算机图形学、机器视觉、数字图像处理及人工智能的研究.orcid.org/0000-0002-0953-3044.E-mail:
针对无人机机动目标跟踪的自主运动控制问题,提出连续型动作输出的无人机端到端主动目标跟踪控制方法. 设计基于视觉感知和深度强化学习策略的端到端决策控制模型,将无人机观察的连续帧视觉图像作为输入状态,输出无人机飞行动作的连续型控制量. 为了提高控制模型的泛化能力,改进基于任务分解和预训练的高效迁移学习策略. 仿真结果表明,该方法能够在多种机动目标跟踪任务中实现无人机姿态的自适应调整,使得无人机在空中能够稳定跟踪移动目标,显著提高了无人机跟踪控制器在未知环境下的泛化能力和训练效率.
关键词:
An end-to-end active object tracking control method of UAV with continuous motion output was proposed aiming at the autonomous motion control problem of UAV maneuvering object tracking. An end-to-end decision-making control model based on visual perception and deep reinforcement learning strategy was designed. The continuous visual images observed by UAV were taken as the input state, and the continuous control quantity of UAV flight action was output. An efficient transfer learning strategy based on task decomposition and pre training was proposed in order to improve the generalization ability of control model. The simulation results show that the method can realize the adaptive adjustment of UAV attitude in a variety of maneuvering object tracking tasks and make the UAV stably track the moving object in the air. The generalization ability and training efficiency of UAV tracking controller in unknown environment were significantly improved.
Keywords:
本文引用格式
华夏, 王新晴, 芮挺, 邵发明, 王东.
HUA Xia, WANG Xin-qing, RUI Ting, SHAO Fa-ming, WANG Dong.
无人机的运动目标跟踪技术被广泛应用于各个领域,如监视预警、探测救援、高空射击等[1-4]. 对于无人机机动目标跟踪任务,我们应该寻求主动跟踪的解决方案,统一物体跟踪和运动控制2个子任务. 传统的无人机目标跟踪系统主要基于规则进行决策. 当面对复杂多变的场景时,规则构建复杂[5-7],难以覆盖可能出现的场景. 随着人工智能技术在无人驾驶领域的应用,复杂的场景理解与决策均由神经网络来执行,不需要人为地制定规则,形成端到端的决策控制模型,即通过获取无人机及飞行场景的相关信息( 如飞行姿态、速度、障碍距离、环境图像等) ,经过神经网络的处理后,直接输出无人机运动控制信号. 端到端决策系统简单且性能良好,受到学术界和工业界的广泛关注[8].
针对传统方法和现有基于深度强化学习方法模型的部分局限性,本文提出改进的视觉感知的端到端深度强化学习算法. 该方法为无人机在不确定环境下对机动目标的跟踪提供了精确的运动控制策略. 本文研究的主要贡献如下. 1)设计基于奖励驱动深度强化学习策略的端到端视觉感知-运动决策控制模型. 采用U-Net分割模型来简化无人机第一人称视角(first-person perspective, FPV)原始图像中的信息,使得深度强化学习模型能够在连续的动作空间中学习导航. 利用分割网络与深度强化学习模型之间的交互作用,取代了奖赏函数的设计. 利用仿真环境对Actor-Critic网络和分割模型进行训练,结果表明,该模型能够成功地学习如何控制无人机稳定地追踪运动目标. 2)为了提高无人机跟踪控制模型的泛化能力,引入基于迁移学习的训练方法,使得无人机在能够熟练跟踪简单运动目标后,快速学习跟踪随机复杂运动目标. 通过预训练,帮助无人机作了更充分的准备. 仿真结果表明,该训练方法能够提高深度强化学习训练过程的效率和稳定性.
1. 端到端视觉感知-运动决策控制模型
本文设计的端到端视觉感知-运动决策控制模型的2个学习过程是交互协作的,整个系统的学习过程可以分为环境探索及网络训练2部分. 训练好的运动控制模型包含以下2部分:1)以目标分割图的形式对场景进行视觉表示的模型;2)用于控制连续动作空间中的无人机的Actor-Critic强化学习模型. 运动控制决策模型的整体训练框架如图1所示. Actor网络与Target-Actor网络用来输出动作,Critic网络与Target-Critic网络来计算action的值,经验回放池用来存储探索数据,Airsim是无人机运行的仿真交互环境,运动控制动作的奖励通过奖励函数来计算. U-Net分割网络的输出通过池化和矢量化过程输入到Actor网络[22],无人机接收Actor网络的输出并生成相应的飞行策略来跟踪目标. 在与环境的交互过程中,网络可以更新,无人机可以不断地学习和制定有效的顺序控制策略.
图 1
本文的分割模型与Actor-Critic网络同时进行学习训练,利用Critic网络来指导分割模型的参数调整,利用分割网络与RL模型之间的交互作用,取代了奖赏函数的设计;由于强化学习模型的表现良好,分割模型得到了改进. 在测试过程中,只使用经过训练的分割网络和Actor网络来控制无人机.
本文的Actor-Critic网络通过分割模型输出的结果学习到如何稳定跟踪运动目标,Actor-Critic网络良好的跟踪效果会指导分割模型学习到如何精确生成分割图. 为了降低计算复杂度,便于仿真实现,假设无人机借助自动驾驶仪在固定高度飞行(即不考虑俯仰角和飞行高度的变化). 本文的控制命令为航向角速度
图 2
DDPG算法是成熟的DRL算法,可以用于解决连续动作控制的问题. 该算法主要基于Actor-Critic框架组成,利用Actor-online网络
式中:
通过软更新策略[4],对
式中:
式中:
假设无人机的速度在一定范围内,即
图 3
设计的Actor网络和Critic网络的结构如图4所示. Actor 网络为全连接网络,网络输入为
图 4
Target-Actor 网络结构与 Actor 网络结构相同,Critic 网络输入包含
为了进行主动跟踪,奖励函数应鼓励智能体密切跟踪目标. 定义二维局部坐标系,如图5所示,用S表示. 使用固定位置的矩形框表示无人机的跟踪瞄准框,x轴从瞄准框的左肩指向右肩,y轴垂直于x轴并指向瞄准框的前进方向. 原点是瞄准框所在的位置,可以获得目标的局部坐标
图 5
图 5 目标跟踪的二维局部坐标系
Fig.5 Two-dimensional local coordinate system for object tracking
最终的跟踪奖励函数为
式中:
式中:
式中:
基于DDPG的连续动作空间学习的主要挑战是探索. 在无人机的训练过程中,随着目标轨迹和环境的变化,无人机需要探索新的策略来完成跟踪任务. 引入改进的MN-DDPG算法[4],该算法将高斯噪声和欧恩斯坦-乌伦贝克(OU)噪声混合在一起,对DDPG生成的确定性策略进行优化,指导无人机进行策略探索. 考虑到DRL将跟踪任务建模为序贯决策问题,根据无人机连续动作输出的特点,采用序列相关的Ornstein-Uhlenbeck(OU)随机过程为无人机应对不断变化的环境提供动作探索. 基于OU过程的噪声向量
式中:
式中:
2. 结合迁移学习的模型优化训练策略
端到端深度模型尽管具有简单、高效的特点,但是因为其不可解释性,对于一些特别复杂的任务,模型的训练效率和收敛性都得不到保证. 参考人类先学习和掌握简单的任务,再学习和完成更加复杂的任务的学习策略. 训练智能体首先完成较简单的任务,通过迁移学习引导智能体完成更复杂的任务,这样能够有效地提高模型的训练效率,避免因为任务过于复杂导致的模型不能收敛或者过收敛问题.
图 6
图 6 基于任务分解和双重训练的跟踪任务迁移学习
Fig.6 Tracking task transfer learning based on task decomposition and dual training
在子任务1的无人机与环境交互过程中,即首次预训练时,基于DDPG算法对无人机的初始跟踪模型进行训练. 将当前网络的权值和偏差参数保存为
3. 仿真实验验证
3.1. 仿真环境设置
用于训练和测试的实验平台为配备Intel i7 3.4 GHz CPU和Nvidia Titan X显卡的工作站,使用Ubuntu 16.04操作系统以及Python 3.6、Tensorflow 1.10.0和OpenCV 3.4.1搭建本文的网络模型.
图 7
3.2. 实验参数设置
在本文的实验中,模拟步长为0.1 s. 若无人机在规定时间内完成跟踪任务或目标超出摄像机的探测范围,则认为当前训练集的任务结束,重置模拟环境. 当经验回放缓冲区充满数据时,采用Adam优化算法对神经网络参数进行更新. 不同训练阶段的具体超参数设置如表1所示. 混合噪声的相关参数用随机过程的学习率
表 1 深度强化学习的实验参数设置
Tab.1
阶段 | | | | | | | | |
预训练 | 10000 | 64 | 0.001 | 0.001 | 1000 | 500 | 0.03 | 20 |
训练 | 2000 | 32 | 0.0001 | 0.0002 | 1000 | 500 | 0.05 | 20 |
具体的参数设置如表1所示. 表中,
3.3. 跟踪算法的跟踪结果
本文模型虚拟环境中对车辆和人员跟踪的部分输出如图8所示. 将直线运动作为简单运动的代表,将包含转弯和避障的曲线运动作为复杂运动,运动曲线. 将车辆速度为20 m/s且人员速度为2 m/s定义为低速运动,将车辆速度为25 m/s且人员速度为3 m/s定义为高速运动.
图 8
图 8 虚拟测试场景中对车辆和人员的跟踪效果
Fig.8 Tracking effects of vehicles and personnel in virtual test scenarios
图8中,长方形框表示检测目标所在的有效矩形区域,第1行是对作简单低速度运动的车辆目标的跟踪效果,第2行是对作复杂高速运动的车辆目标且存在遮挡的跟踪效果,第3行是对作复杂低速度往返运动的人员目标的跟踪效果,第4行是对作简单高速运动的人员目标且存在视觉遮挡的跟踪效果. 从实验结果可知,本文的模型在多种场景下都能够取得较好的跟踪效果,有效地对抗遮挡、光照、阴影等干扰因素的影响.
表 2 单帧图像模型的处理效率
Tab.2
环境 | tp/ms |
低速直线运动车辆跟踪 | 66.3 |
低速直线运动人员跟踪 | 63.1 |
复杂曲线高速运动车辆跟踪 | 68.5 |
复杂曲线人员跟踪 | 63.6 |
为了验证引入的U-Net和迁移学习方法的有效性,采用传统的DDPG+CNN模型作为基线模型,分别添加U-Net和迁移学习策略以及两者的融合策略作为对比模型,采集000轮的无人机奖励数据进行分析.
如图9所示为经过平滑后的实验数据. 图中,点划线是使用传统的DDPG算法从初始网络到最终复杂场景的训练过程中奖励的相关变化曲线,奖励均值为7.35. 结合迁移学习算法,实线表示任务中每轮的累计奖励,奖励均值为28.75. 双点划线表示DDPG结合U-Net学习优化的每轮奖励的总和,奖励均值为38.66. 虚线表示同时结合U-Net和迁移学习策略每轮奖励的总和,曲线更稳定,在迭代360次时完成了收敛,奖励均值为39.16,较其他模型平均提高了13.5. 相比于基础DDPG模型,U-Net和迁移学习方法的引入都能够有效地提高模型的学习效果,迁移学习策略有效地提高了模型训练的收敛效率,U-Net的引入提高了模型的奖励值和模型的跟踪精度.
图 9
如图10所示为经过平滑后的实验数据. 本文方法的奖励值相对稳定且最高,在迭代300次时完成了收敛,奖励均值为56.9,较其他模型平均提高了25.6. 本文模型的综合性能优于其他4种算法,说明使用本文算法训练的无人机可以在复杂的环境下探索有效的控制策略,完成机动目标的跟踪任务.
图 10
图 10 与其他先进模型的奖励值对比结果
Fig.10 Comparison results of reward with other advanced models
表 3 不同跟踪任务和场景中不同模型的AR比较结果
Tab.3
环境 | AR | ||||
MIL | Meanshift | KCF | TLD | 本文算法 | |
低速直线车辆 | −432.3 | −455.6 | −407.3 | −489.2 | 458.2 |
低速直线人员 | −358.2 | −367.8 | −330.2 | −355.7 | 646.3 |
曲线高速车辆 | −595.6 | −653.6 | −638.6 | −599.7 | 285.9 |
曲线高速人员 | −495.7 | −503.7 | −525.3 | −498.7 | 373.4 |
表 4 不同跟踪任务和场景中不同模型的EL比较结果
Tab.4
环境 | EL | ||||
MIL | Meanshift | KCF | TLD | 本文算法 | |
低速直线车辆 | 64.7 | 55.8 | 40.7 | 69.2 | 168.3 |
低速直线人员 | 91.2 | 67.2 | 53.2 | 69.2 | 186.5 |
曲线高速车辆 | 33.6 | 31.2 | 38.6 | 69.2 | 165.9 |
曲线高速人员 | 35.7 | 33.8 | 37.3 | 69.2 | 172.4 |
4. 结 语
基于视觉感知和奖励驱动的深度强化学习策略,设计连续型动作输出的无人机端到端主动目标跟踪控制技术,智能体仅依靠视觉图像就能够实现无人机对机动目标的自主跟踪. 仿真实验结果表明,利用引入的U-Net和迁移学习策略,可以有效地提高原DDPG算法中神经网络的收敛速度,提高无人机控制模型的泛化能力. 下一步将会把本文的工作扩展到真实的三维空间,加速模型从数字仿真向真实无人机应用的成果转化.
参考文献
Maneuvering target tracking of UAV based on MN-DDPG and transfer learning
[J].
多旋翼无人机目标跟踪系统设计
[J].
Design of multi rotor UAV target tracking system
[J].
基于Tiny-YOLOV3的无人机地面目标跟踪算法设计
[J].
Design of UAV ground target tracking algorithm based on Tiny-YOLOV3
[J].
基于非线性导引的多无人机协同目标跟踪控制
[J].
Multi UAV cooperative target tracking control based on nonlinear guidance
[J].
基于深度强化学习的端到端无人驾驶决策
[J].DOI:10.3969/j.issn.0372-2112.2020.09.007 [本文引用: 1]
End-to-end autonomous driving decision based on deep reinforcement learning
[J].DOI:10.3969/j.issn.0372-2112.2020.09.007 [本文引用: 1]
Human-level control through deep reinforcement learning
[J].
Deep learning
[J].DOI:10.1038/nature14539 [本文引用: 1]
Reinforcement learning, fast and slow
[J].
Path planning for UAV-mounted mobile edge computing with deep reinforcement learning
[J].DOI:10.1109/TVT.2020.2982508 [本文引用: 1]
Playing a FPS Doom video game with deep visual reinforcement learning
[J].
Simultaneous navigation and radio mapping for cellular-connected UAV with deep reinforcement learning
[J].DOI:10.1109/TWC.2021.3056573 [本文引用: 1]
MORAN: a multi-object rectified attention network for scene text recognition
[J].DOI:10.1016/j.patcog.2019.01.020 [本文引用: 1]
KIcker: an industrial drive and control Foosball system automated with deep reinforcement learning
[J].
Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning
[J].DOI:10.3390/rs12040640 [本文引用: 1]
Reward-driven U-net training for obstacle avoidance drone
[J].
AirSim: high-fidelity visual and physical simulation for autonomous vehicles
[J].
无人机跟踪系统仿真平台的设计与实现
[J].
Design and implementation of UAV tracking system simulation platform
[J].
Extreme trust region policy optimization for active object recognition
[J].DOI:10.1109/TNNLS.2017.2785233 [本文引用: 1]
A pretrained proximal policy optimization algorithm with reward shaping for aircraft guidance to a moving destination in three-dimensional continuous space
[J].
Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation
[J].
High-speed tracking with kernelized correlation filters
[J].DOI:10.1109/TPAMI.2014.2345390 [本文引用: 1]
Tracking-learning-detection
[J].
/
〈 |
|
〉 |
