<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 决策系统模型框图

Fig.1 Decision model block diagram

本文的分割模型与Actor-Critic网络同时进行学习训练，利用Critic网络来指导分割模型的参数调整，利用分割网络与RL模型之间的交互作用，取代了奖赏函数的设计；由于强化学习模型的表现良好，分割模型得到了改进. 在测试过程中，只使用经过训练的分割网络和Actor网络来控制无人机.

本文的Actor-Critic网络通过分割模型输出的结果学习到如何稳定跟踪运动目标，Actor-Critic网络良好的跟踪效果会指导分割模型学习到如何精确生成分割图. 为了降低计算复杂度，便于仿真实现，假设无人机借助自动驾驶仪在固定高度飞行（即不考虑俯仰角和飞行高度的变化）. 本文的控制命令为航向角速度 $ {\dot \varphi _t} $及飞行加速度 $ {\dot v_t} $. Actor-network为每一个状态（即单帧图像）产生1个连续的速度和1个加速度，这个命令用于控制无人机进行训练和测试，总体的控制结构框图如图2所示.

图 2

图 2 决策系统模型框图

Fig.2 UAV control block diagram

DDPG算法是成熟的DRL算法，可以用于解决连续动作控制的问题. 该算法主要基于Actor-Critic框架组成，利用Actor-online网络 $ \;\mu $根据当前agent的状态输出动作 $ {\boldsymbol{a}}_{t} = \mu \left( {{{\boldsymbol{s}}_t}\left| {{{\boldsymbol{\theta}\,} ^\mu }} \right.} \right) $，利用Critic-online网络 $ Q $评价该动作值 $ r_t = Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}\left| {{{\boldsymbol{\theta}} ^Q}} \right.} \right) $，其中 ${{\boldsymbol{\theta}\,} ^\mu }$和 $ {{\boldsymbol{\theta}} ^Q} $为Actor-online网络和Critic-online网络的参数向量. 构造Target-Actor网络 $\; \mu ' $和评论家目标网络 $ Q' $，用于后续的更新过程^[4]. 当更新Actor和Critic网络时，从经验重放缓冲区中取样 $ N $个过渡 $ \left[ {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t},{r_t},{{\boldsymbol{s}}_{t + 1}}} \right] $，计算Critic网络的损失函数：

(1) $ L\left( {{{\boldsymbol{\theta}} ^Q}} \right) = {N^{ - 1}}\sum\limits_{i=t}^N {{{\left[ {{Y_i} - Q\left( {{{\boldsymbol{s}}_i},{{\boldsymbol{a}}_i}\left| {{{\boldsymbol{\theta}} ^Q}} \right.} \right)} \right]}^2}} . $

式中： $ {Y_i}{\text{ = }}{r_i} + \gamma Q'\left( {{{\boldsymbol{s}}_{i + 1}},\mu '\left( {{{\boldsymbol{s}}_{i + 1}}\left| {{{\boldsymbol{\theta}\,} ^{\mu '}}} \right.} \right)\left| {{{\boldsymbol{\theta}} ^{Q'}}} \right.} \right) $为目标值，其中 $ \gamma $为折现系数， $ i $为抽取样本的序列号， $ {{\boldsymbol{\theta}\,} ^{\mu '}} $和 $ {{\boldsymbol{\theta}} ^{Q'}} $分别为Target-Actor网络和Target-Critic网络的参数向量. 根据策略梯度训练Actor网络，策略梯度表示为

(2) $ {\nabla _{{{\boldsymbol{\theta}} ^\mu }}}J \approx {N^{ - 1}}\sum\limits_t^N {{\nabla _{{{\boldsymbol{a}}_t}}}Q\left( {{{\boldsymbol{s}}_t},{\boldsymbol{a}}{}_t\left| {{{\boldsymbol{\theta}}^Q}} \right.} \right){\nabla _{{{\boldsymbol{\theta}} ^\mu }}}\mu \left( {{{\boldsymbol{s}}_t}\left| {{{\boldsymbol{\theta}\,} ^\mu }} \right.} \right)} . $

通过软更新策略^[4]，对 $ {{\boldsymbol{\theta}\,} ^{\mu '}} $和 $ {{\boldsymbol{\theta}} ^{Q'}} $ 2个目标网络的参数进行更新：

(3) $ \left. \begin{gathered} {{\boldsymbol{\theta}} ^{Q'}} = \tau {{\boldsymbol{\theta}} ^Q} + \left( {1 - \tau } \right){{\boldsymbol{\theta}} ^{Q'}}, \\ {{\boldsymbol{\theta}\,} ^{\mu '}} = \tau {{\boldsymbol{\theta}\,} ^\mu } + \left( {1 - \tau } \right){{\boldsymbol{\theta}\,} ^{\mu '}}. \\ \end{gathered} \right\} $

式中： $ \tau $为可配置的常数系数，用于调节软更新系数. 为了简洁和不失一般性，假设无人机借助自动驾驶仪在固定高度飞行. 四自由度无人机的连续运动方程^[4]可以表示为

(4) $ \left[ \begin{gathered} \dot x\left( t \right) \\ \dot y\left( t \right) \\ \dot \varphi \left( t \right) \\ \dot v\left( t \right) \\ \end{gathered} \right] = \left[ \begin{gathered} v\left( t \right)\cos \; \varphi \left( t \right) \\ v\left( t \right)\sin \; \varphi \left( t \right) \\ \omega \left( t \right) \\ \alpha \left( t \right) \\ \end{gathered} \right]. $

式中： $ x $和 $ y $为无人机的二维坐标， $ \varphi $为无人机的航向角， $ v $为无人机的飞行速度. 无人机在时间间隔 $ t $的状态更新可以描述为

(5) $ \left. \begin{gathered} x\left( t \right) = x\left( {t - 1} \right) + v\left( {t - 1} \right)\Delta t\cos \; \varphi \left( {t - 1} \right), \\ y\left( t \right) = y\left( {t - 1} \right) + v\left( {t - 1} \right)\Delta t\sin \; \varphi \left( {t - 1} \right), \\ v\left( t \right) = {v\left( {t - 1} \right) + \alpha \left( {t - 1} \right)\Delta t} , \\ \varphi \left( t \right) = \varphi \left( {t - 1} \right) + \omega \left( {t - 1} \right)\Delta t. \\ \end{gathered} \right\} $

假设无人机的速度在一定范围内，即 $ v\left( t \right) \in \left[ {{v_{\min }},{v_{\max }}} \right] $. 在目标跟踪过程中，无人机通过视觉图像系统连续实时获取目标的运动信息，考虑到无人机在固定高度上飞行，在二维坐标系下简化了跟踪过程. 考虑到无人机在执行跟踪任务时须保持合理的速度和稳定的航向，采用基于无人机飞行速度和航向变化率的无人机策略控制器，因此定义无人机的动作输出为

(6) $ {\boldsymbol{a}}_t = \left[ {{{\dot v}_t},\;{{\dot \varphi }_t}} \right]. $

在 $ t $ 时刻，根据 $ {\dot v_t} $ 和 $ {\dot \varphi _t} $ 操纵无人机姿态（见式（5））. 使用的U-Net分割网络的结构如图3所示. 该网络将原始图像归一化为256×256×3像素，在最后一层使用Sigmoid函数输出256 × 256 ×1像素的分割特征图，包含对输入图像的奖励分割. 在训练阶段，U-Net、Actor和Critic都参与训练；在测试阶段，只使用U-Net和Actor-network，采用文献[22]方法初始化权重，将偏差设为0.

图 3

图 3 U-Net分割网络的结构框图

Fig.3 Structure of U-Net segmentation network

设计的Actor网络和Critic网络的结构如图4所示. Actor 网络为全连接网络，网络输入为 $ t $时刻的状态 $ {{\boldsymbol{s}}_t} $，经过2层全连接层后输出动作 $ {{\boldsymbol{a}}_t} $. 各隐层之间使用 Relu 激活函数，在最终的输出层中使用tanh激活函数，将各方向运动动作规范在(−1，1).

图 4

图 4 Actor网络和Critic网络的结构框图

Fig.4 Structure of Actor network and Critic network

Target-Actor 网络结构与 Actor 网络结构相同，Critic 网络输入包含 $ {{\boldsymbol{s}}_t} $与 $ {{\boldsymbol{a}}_t} $2部分. 其中将 $ {{\boldsymbol{s}}_t} $作为输入，通过2层全连接层之后得到特征 $ {l_{\rm{s}}} $. 将 $ {{\boldsymbol{a}}_t} $作为输入，通过隐层后得到特征 $ {l_{\rm{a}}} $. 此时， $ {l_{\rm{s}}} $与 $ {l_{\rm{a}}} $的维度相同，将 $ {l_{\rm{s}}} $与 $ {l_{\rm{a}}} $逐级相加融合得到 $ {l_{\rm{sa}}} $，通过最后的全连接层得到 $ Q $. $ {l_{\rm{s}}} $与 $ {l_{\rm{a}}} $均无激活函数， $ {l_{{\rm{sa}}}} $通过全连接层后，使用 Relu 作为激活函数. 最终输出的 $ Q $无激活函数， Target-Critic 网络与 Critic 网络的结构相同.

为了进行主动跟踪，奖励函数应鼓励智能体密切跟踪目标. 定义二维局部坐标系，如图5所示，用S表示. 使用固定位置的矩形框表示无人机的跟踪瞄准框，x轴从瞄准框的左肩指向右肩，y轴垂直于x轴并指向瞄准框的前进方向. 原点是瞄准框所在的位置，可以获得目标的局部坐标 $ \left( {x,y} \right) $及相对于系统S的方向 $ {R_S} $（半径）.

图 5

图 5 目标跟踪的二维局部坐标系

Fig.5 Two-dimensional local coordinate system for object tracking

最终的跟踪奖励函数为

(7) $ {r_{{\text{tra}}}} = A - \left[ {{{\sqrt {{x^2} + {{\left( {y - d} \right)}^2}} }}\bigg/ {c} + \lambda \left| \omega \right|} \right]. $

式中： $A、c、d、\lambda $为调整参数， $ A > 0 $， $ c > 0 $， $ d > 0 $， $ \lambda > 0 $. 式（7）表示当目标与无人机正面的距离为d并表现出无旋转时，获得最大回报 $ A $（见图5）. $ c $起着类似于异常化因子的作用，使距离标准化^[1]. 式（7）中，省略了时间步长下标. 由于虚拟环境提供的API能够访问感兴趣的内部状态，建立所需的奖励函数. 除了跟踪奖励以外，添加无人机稳定飞行奖励 $ {r_{{\text{ste}}}} $和无人机航向奖励 $ {r_{{\text{cou}}}} $来指导模型的训练^[4]，分别如下所示：

(8) $ {r_{{\text{ste}}}}{\text{ = }} - \left| {{{\dot v}_t}} \right|, $

(9) $ {r_{{\text{cou}}}}{\text{ = }}\cos \; \phi . $

式中： $ \phi $为无人机与目标之间的相对方位角. 学习过程中的最终奖励函数定义为

(10) $ r = {\lambda _1} {r_{{\text{tra}}}} + {\lambda _2} {r_{{\text{ste}}}} + {\lambda _3} {r_{{\text{cou}}}}. $

式中： $ {\lambda _1} $、 $ {\lambda _2} $和 $ {\lambda _3} $为对应奖励的权重参数.

基于DDPG的连续动作空间学习的主要挑战是探索. 在无人机的训练过程中，随着目标轨迹和环境的变化，无人机需要探索新的策略来完成跟踪任务. 引入改进的MN-DDPG算法^[4]，该算法将高斯噪声和欧恩斯坦-乌伦贝克（OU）噪声混合在一起，对DDPG生成的确定性策略进行优化，指导无人机进行策略探索. 考虑到DRL将跟踪任务建模为序贯决策问题，根据无人机连续动作输出的特点，采用序列相关的Ornstein-Uhlenbeck（OU）随机过程为无人机应对不断变化的环境提供动作探索. 基于OU过程的噪声向量 $ {{\boldsymbol{N}}_{{\text{OU}}}} $为

(11) $ {{\boldsymbol{N}}_{{\text{OU}}}} = \beta \left( {\bar {\boldsymbol{a}} - {{\boldsymbol{a}}_t}} \right){\text{d}}t + {\sigma _1}{{\boldsymbol{W}}_t}. $

式中： $ \bar {\boldsymbol{a}} $为动作采样数据的平均值， $ \;\beta $为随机过程的学习率， $ {\sigma _1} $为OU随机权重， $ {{\boldsymbol{W}}_t} $表示Wiener过程的计算结果^[3]. 考虑到转移模型对先前任务的确定性最优策略在新的任务场景中可能不适用，引入另一种高斯噪声来帮助无人机学习的自适应随机行为. 这一探索过程在迁移学习的初期尤为重要. 基于策略的优化行为通过混合噪声网络^[3]输出更新为

(12) $ {{\boldsymbol{a}}_t} \sim {N_{{\text{Gaussian}}}}\left( {{\mu _t} + {N_{{\text{OU}}}}\left( {{\text{d}}{{\boldsymbol{a}}_t}} \right),{\sigma _2}{{\left( e \right)}^2}} \right). $

式中： $ {\sigma _2}{\left( e \right)^2} $为第 $ e $次迭次中的高斯方差，保证无人机在每一个回合都具有均匀稳定的探测能力，保持探测效果和纠偏. 随着学习的开展，转移模型逐渐适应新的任务场景，这需要高斯方差的指数衰减，如下所示：

(13) $ {\sigma _2}{\left( e \right)^2} = {\sigma _2}{\left( 0 \right)^2}{\text{exp}\;{ (- \delta e)}}. $

式中： $ \delta $为衰减系数. 在训练过程中，引入MN-DDPG算法对DDPG控制框架进行更新，加入混合噪声进行无人机随机策略探索，将训练过程与后续的迁移学习进行结合.

2. 结合迁移学习的模型优化训练策略

端到端深度模型尽管具有简单、高效的特点，但是因为其不可解释性，对于一些特别复杂的任务，模型的训练效率和收敛性都得不到保证. 参考人类先学习和掌握简单的任务，再学习和完成更加复杂的任务的学习策略. 训练智能体首先完成较简单的任务，通过迁移学习引导智能体完成更复杂的任务，这样能够有效地提高模型的训练效率，避免因为任务过于复杂导致的模型不能收敛或者过收敛问题.

参考文献[4]，讨论将迁移学习方法与DDPG相结合的过程. 本质上，该过程将跟踪任务连续分解为2个子任务，对跟踪任务进行双重训练. 为了帮助无人机逐步学习如何高效、稳定地跟踪目标，将无人机跟踪复杂机动目标的总体任务分解为2个简单的子任务：无人机对匀速直线运动目标的跟踪任务（子任务1）和无人机对复杂曲线运动目标的跟踪任务（子任务2）. 如图6所示为基于任务分解和双重训练的跟踪任务迁移学习.

图 6

图 6 基于任务分解和双重训练的跟踪任务迁移学习

Fig.6 Tracking task transfer learning based on task decomposition and dual training

在子任务1的无人机与环境交互过程中，即首次预训练时，基于DDPG算法对无人机的初始跟踪模型进行训练. 将当前网络的权值和偏差参数保存为 $ {{\boldsymbol{N}}_1} $，将预训练的 $ {{\boldsymbol{N}}_1} $作为子任务2的初始网络，当目标以不同的轨迹运动时，基于DDPG算法对无人机进行训练，不断学习新的策略. 在完成子任务2的学习后，将网络保存为 $ {{\boldsymbol{N}}_2} $，该模型通过训练，既能够保持对简单运动目标的精确跟踪，又能够学习到新的跟踪复杂运动目标的策略. 随着每个训练子任务模型的连续迁移，可以训练无人机生成综合策略.

3. 仿真实验验证

3.1. 仿真环境设置

用于训练和测试的实验平台为配备Intel i7 3.4 GHz CPU和Nvidia Titan X显卡的工作站，使用Ubuntu 16.04操作系统以及Python 3.6、Tensorflow 1.10.0和OpenCV 3.4.1搭建本文的网络模型.

基于Microsoft Airsim^[24]搭建无人机机动目标跟踪的仿真环境，生成虚拟世界，主要包括丛林和沙漠2个场景. 在这些场景中搭建包括道路、仓库、民房、车库等常规军事和民用建筑，设置车辆、人作为跟踪目标，在虚拟环境中训练无人机进行目标跟踪，如图7所示.

图 7

图 7 Airsim无人机虚拟测试场景

Fig.7 Airsim UAV virtual test scene

3.2. 实验参数设置

在本文的实验中，模拟步长为0.1 s. 若无人机在规定时间内完成跟踪任务或目标超出摄像机的探测范围，则认为当前训练集的任务结束，重置模拟环境. 当经验回放缓冲区充满数据时，采用Adam优化算法对神经网络参数进行更新. 不同训练阶段的具体超参数设置如表1所示. 混合噪声的相关参数用随机过程的学习率 $ \;\beta {\text{ = }}0.1 $来设定，OU随机权重 $ {\sigma _1}{\text{ = }}0.1 $，初始高斯方差 $ {\sigma _2}{\left( 0 \right)^2}{\text{ = }}0.3 $，高斯方差的衰减系数 $ \delta {\text{ = }}0.001 $. 采用四自由度无人机模型，UAV飞行高度为 50 m，飞行加速度为[−5, 5] m/s²，起点坐标为(0，0)，滚转角限制为[−5°, 5°]，FVP 的分辨率设置为256 × 256，纵向和横向视场角均为80°^[25].

表 1 深度强化学习的实验参数设置

Tab.1 Experimental parameter settings of deep reinforcement learning experiment

阶段	${C_{\rm{a}}}$	$ {N_{\rm{b}}} $	$ {l_1} $	$ {l_2} $	$ {e_{\max }} $	$ s_{\rm{i}} $	$ R_{\rm{u}} $	$ T_{\rm{b}} $
预训练	10000	64	0.001	0.001	1000	500	0.03	20
训练	2000	32	0.0001	0.0002	1000	500	0.05	20

具体的参数设置如表1所示. 表中， $ {C_{\rm{a}}} $为经验回放缓冲区容量， $ {N_{\rm{b}}} $为最小批次大小， $ {l_1} $为Actor 学习率， $ {l_2} $为Critic学习率， $ {e_{\max }} $为最大迭代次数， $ s_{\rm{i}} $为最大步长， $ R_{\rm{u}} $为软更新率， $ T_{\rm{b}} $为目标网络更新间隔.

3.3. 跟踪算法的跟踪结果

本文模型虚拟环境中对车辆和人员跟踪的部分输出如图8所示. 将直线运动作为简单运动的代表，将包含转弯和避障的曲线运动作为复杂运动，运动曲线. 将车辆速度为20 m/s且人员速度为2 m/s定义为低速运动，将车辆速度为25 m/s且人员速度为3 m/s定义为高速运动.

图 8

图 8 虚拟测试场景中对车辆和人员的跟踪效果

Fig.8 Tracking effects of vehicles and personnel in virtual test scenarios

图8中，长方形框表示检测目标所在的有效矩形区域，第1行是对作简单低速度运动的车辆目标的跟踪效果，第2行是对作复杂高速运动的车辆目标且存在遮挡的跟踪效果，第3行是对作复杂低速度往返运动的人员目标的跟踪效果，第4行是对作简单高速运动的人员目标且存在视觉遮挡的跟踪效果. 从实验结果可知，本文的模型在多种场景下都能够取得较好的跟踪效果，有效地对抗遮挡、光照、阴影等干扰因素的影响.

本文模型的输入图像为分辨率为256×256×3的彩色图像，在低速直线运动车辆跟踪、低速直线运动人员跟踪、复杂曲线高速运动车辆跟踪、复杂曲线高速运动人员跟踪这4个实验任务中单帧图像的处理时间t_p如表2所示. 从表2可知，在多种场景下，对不同运动状态目标跟踪的平均速度为65.3 ms/帧，基本能够满足实时性的要求.

表 2 单帧图像模型的处理效率

Tab.2 Processing efficiency of single-frame image

环境	t_p/ms
低速直线运动车辆跟踪	66.3
低速直线运动人员跟踪	63.1
复杂曲线高速运动车辆跟踪	68.5
复杂曲线人员跟踪	63.6

为了验证引入的U-Net和迁移学习方法的有效性，采用传统的DDPG+CNN模型作为基线模型，分别添加U-Net和迁移学习策略以及两者的融合策略作为对比模型，采集000轮的无人机奖励数据进行分析.

如图9所示为经过平滑后的实验数据. 图中，点划线是使用传统的DDPG算法从初始网络到最终复杂场景的训练过程中奖励的相关变化曲线，奖励均值为7.35. 结合迁移学习算法，实线表示任务中每轮的累计奖励，奖励均值为28.75. 双点划线表示DDPG结合U-Net学习优化的每轮奖励的总和，奖励均值为38.66. 虚线表示同时结合U-Net和迁移学习策略每轮奖励的总和，曲线更稳定，在迭代360次时完成了收敛，奖励均值为39.16，较其他模型平均提高了13.5. 相比于基础DDPG模型，U-Net和迁移学习方法的引入都能够有效地提高模型的学习效果，迁移学习策略有效地提高了模型训练的收敛效率，U-Net的引入提高了模型的奖励值和模型的跟踪精度.

图 9

图 9 设计的策略的奖励消融实验

Fig.9 Ablation experiment of designed strategy

为了讨论本文方法较其他基于Actor-Critic的方法在给定目标跟踪任务上的性能，通过逐个替换Actor-Critic算法，开展对比试验. U-Net和奖励方案是相同的，对比算法为DDPG、TRPO^[26]、PPO^[27]和ACKTR^[28].

如图10所示为经过平滑后的实验数据. 本文方法的奖励值相对稳定且最高，在迭代300次时完成了收敛，奖励均值为56.9，较其他模型平均提高了25.6. 本文模型的综合性能优于其他4种算法，说明使用本文算法训练的无人机可以在复杂的环境下探索有效的控制策略，完成机动目标的跟踪任务.

图 10

图 10 与其他先进模型的奖励值对比结果

Fig.10 Comparison results of reward with other advanced models

将设计的跟踪模型和一些传统视觉跟踪模型在上述4个不同任务场景下进行性能比较，包括MIL^[29]、Meanshift^[30]、KCF^[31]及TLD^[32]. 通过直接调用OpenCV的接口来实现以上算法，通过增加PID的模块来控制无人机飞行.

实验采用2个度量标准，即计算每一代（episode）的累积奖励（accumulated rewards, AR）和代的长度（episode length, EL）进行定量评估^[1]. 实验结果如表3、4所示. 结果表明，设计的端到端主动跟踪器与模拟的传统跟踪器相比，性能提升明显，在多种任务中都能够对目标进行稳定且精确的跟踪.

表 3 不同跟踪任务和场景中不同模型的AR比较结果

Tab.3 AR comparison results of different models in different tracking tasks and scenarios

环境	AR
环境	MIL	Meanshift	KCF	TLD	本文算法
低速直线车辆	−432.3	−455.6	−407.3	−489.2	458.2
低速直线人员	−358.2	−367.8	−330.2	−355.7	646.3
曲线高速车辆	−595.6	−653.6	−638.6	−599.7	285.9
曲线高速人员	−495.7	−503.7	−525.3	−498.7	373.4

表 4 不同跟踪任务和场景中不同模型的EL比较结果

Tab.4 EL comparison results of different models in different tracking tasks and scenarios

环境	EL
环境	MIL	Meanshift	KCF	TLD	本文算法
低速直线车辆	64.7	55.8	40.7	69.2	168.3
低速直线人员	91.2	67.2	53.2	69.2	186.5
曲线高速车辆	33.6	31.2	38.6	69.2	165.9
曲线高速人员	35.7	33.8	37.3	69.2	172.4

4. 结　语

基于视觉感知和奖励驱动的深度强化学习策略，设计连续型动作输出的无人机端到端主动目标跟踪控制技术，智能体仅依靠视觉图像就能够实现无人机对机动目标的自主跟踪. 仿真实验结果表明，利用引入的U-Net和迁移学习策略，可以有效地提高原DDPG算法中神经网络的收敛速度，提高无人机控制模型的泛化能力. 下一步将会把本文的工作扩展到真实的三维空间，加速模型从数字仿真向真实无人机应用的成果转化.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LUO W, SUN P, ZHONG F, et al. End-to-end active object tracking and its real-world deployment via reinforcement learning [EB/OL]. [2021-05-20]. https://ieeexplore.ieee.org/document/8642452/footnotes#footnotes.

[本文引用: 3]

[2]

李轶锟. 基于视觉的四旋翼飞行器地面目标跟踪技术[D]. 南京: 南京航空航天大学, 2019.

LI Yi-kun. Ground target tracking technology of quadrotor based on vision [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2019.

[3]

刘亮. 四旋翼飞行器移动目标跟踪控制研究[D]. 西安: 西安电子科技大学, 2020.

[本文引用: 2]

LIU Liang. Research on moving target tracking control of quadrotor aircraft [D]. Xi'an: Xi'an University of Electronic Science and Technology, 2020.

[本文引用: 2]

[4]

LI B, YANG Z, CHEN D, et al

Maneuvering target tracking of UAV based on MN-DDPG and transfer learning

[J]. Defence Technology, 2021, 17 (2): 457- 466

[本文引用: 7]

[5]

罗伟, 徐雪松, 张煌军

多旋翼无人机目标跟踪系统设计

[J]. 华东交通大学学报, 2019, 36 (3): 72- 79

LUO Wei, XU Xue-song, ZHANG Huang-jun

Design of multi rotor UAV target tracking system

[J]. Journal of East China Jiaotong University, 2019, 36 (3): 72- 79

[6]

张兴旺, 刘小雄, 林传健, 等

基于Tiny-YOLOV3的无人机地面目标跟踪算法设计

[J]. 计算机测量与控制, 2021, 29 (2): 76- 81

ZHANG Xing-wang, LIU Xiao-xiong, LIN Chuan-jian, et al

Design of UAV ground target tracking algorithm based on Tiny-YOLOV3

[J]. Computer Measurement and Control, 2021, 29 (2): 76- 81

[7]

张昕, 李沛, 蔡俊伟

基于非线性导引的多无人机协同目标跟踪控制

[J]. 指挥信息系统与技术, 2019, 10 (4): 47- 54

ZHANG Xin, LI Pei, CAI Jun-wei

Multi UAV cooperative target tracking control based on nonlinear guidance

[J]. Command Information System and Technology, 2019, 10 (4): 47- 54

DOI:10.3969/j.issn.0372-2112.2020.09.007 [本文引用: 1]

[8]

黄志清, 曲志伟, 张吉, 等

基于深度强化学习的端到端无人驾驶决策

[J]. 电子学报, 2020, 48 (9): 1711- 1719

HUANG Zhi-qing, QU Zhi-wei, ZHANG Ji, et al

End-to-end autonomous driving decision based on deep reinforcement learning

[J]. Acta Electronica Sinica, 2020, 48 (9): 1711- 1719

DOI:10.3969/j.issn.0372-2112.2020.09.007 [本文引用: 1]

[9]

VOLODYMYR M, KORAY K, DAVID S, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2019, 518 (7540): 529

[10]

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521 (7553): 436

DOI:10.1038/nature14539 [本文引用: 1]

[11]

MATTHEW B, SAM R, et al

Reinforcement learning, fast and slow

[J]. Trends in Cognitive Sciences, 2019, 23 (5): 408- 422

[12]

LIU Q, SHI L, SUN L, et al

Path planning for UAV-mounted mobile edge computing with deep reinforcement learning

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (5): 5723- 5728

DOI:10.1109/TVT.2020.2982508 [本文引用: 1]

[13]

KHAN A, FENG Jiang, LIU Shao-hui, et al

Playing a FPS Doom video game with deep visual reinforcement learning

[J]. Automatic Control and Computer Sciences, 2019, 53 (3): 214- 222

DOI:10.3103/S0146411619030052

[14]

SEWAK M. Deep Q network (DQN), double DQN, and dueling DQN: a step towards general artificial intelligence [M]. Singapore: Springer, 2019.

DOI:10.1016/j.patcog.2019.01.020 [本文引用: 1]

[15]

ZENG Y, XU X, JIN S, et al

Simultaneous navigation and radio mapping for cellular-connected UAV with deep reinforcement learning

[J]. IEEE Transactions on Wireless Communications, 2021, 20 (7): 4205- 4220

DOI:10.1109/TWC.2021.3056573 [本文引用: 1]

[16]

LUO C, JIN L, SUN Z

MORAN: a multi-object rectified attention network for scene text recognition

[J]. Pattern Recognition, 2019, 90: 109- 118

[17]

DE BLASI S, KLÖSER S, MÜLLER A, et al

KIcker: an industrial drive and control Foosball system automated with deep reinforcement learning

[J]. Journal of Intelligent and Robotic Systems, 2021, 102 (1): 107

[18]

HE G, LIU T, WANG Y, et al. Research on Actor-Critic reinforcement learning in RoboCup [C]// World Congress on Intelligent Control and Automation. Dalian: IEEE, 2006: 205.

[19]

WAN K F, GAO X G, HU Z J, et al. Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning [EB/OL]. [2021-05-20]. https://www.mdpi.com/2072-4292/12/4/640.

[20]

YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm [C]// 2019 IEEE 15th International Conference on Control and Automation. Edinburgh: IEEE, 2019.

[21]

WAN K, GAO X, HU Z, et al

Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning

[J]. Remote Sensing, 2020, 12 (4): 640

DOI:10.3390/rs12040640 [本文引用: 1]

[22]

SHIN S, KANG Y, KIM Y

Reward-driven U-net training for obstacle avoidance drone

[J]. Expert Systems with Applications, 2019, 143: 113064

[本文引用: 2]

[23]

POLVARA R, PATACCHIOLA M, HANHEIDE M, et al. Sim-to-real quadrotor landing via sequential deep Q-networks and domain randomization [EB/OL]. [2021-05-20]. https://www.mdpi.com/2218-6581/9/1/8.

[24]

SHAH S, KAPOOR A, DEY D, et al

AirSim: high-fidelity visual and physical simulation for autonomous vehicles

[J]. Field and Service Robotics, 2017, 11 (1): 621- 635

[25]

林传健, 章卫国, 史静平, 等

无人机跟踪系统仿真平台的设计与实现

[J]. 哈尔滨工业大学学报, 2020, 52 (10): 119- 127

LIN Chuan-jian, ZHANG Wei-guo, SHI Jing-ping, et al

Design and implementation of UAV tracking system simulation platform

[J]. Journal of Harbin Institute of Technology, 2020, 52 (10): 119- 127

[26]

LIU H, WU Y, SUN F

Extreme trust region policy optimization for active object recognition

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29 (6): 2253- 2258

DOI:10.1109/TNNLS.2017.2785233 [本文引用: 1]

[27]

WANG Z, LI H, WU Z, et al

A pretrained proximal policy optimization algorithm with reward shaping for aircraft guidance to a moving destination in three-dimensional continuous space

[J]. International Journal of Advanced Robotic Systems, 2021, 18 (1): 1- 9

[28]

WU Y, MANSIMOV E, GROSSE R B, et al

Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

[J]. Advances in Neural Information Processing Systems, 2017, 30 (1): 5279- 5288

[29]

BABENKO B, YANG M H, BELONGIE S. Visual tracking with online multiple instance learning [C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009.

[30]

D COMANICIU, RAMESH V, MEER P. Real-time tracking of non-rigid objects using mean shift [C]// IEEE Conference on Computer Vision and Pattern Recognition. Nice: IEEE, 2003.

[31]

HENRIQUES J F, CASEIRO R, MARTINS P, et al

High-speed tracking with kernelized correlation filters

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (3): 583- 596

DOI:10.1109/TPAMI.2014.2345390 [本文引用: 1]

[32]

KALAL Z, MIKOLAJCZYK K, MATAS J

Tracking-learning-detection

[J]. IEEE Transactions on Software Engineering, 2011, 34 (7): 1409- 1422