基于改进强化学习的多智能体追逃对抗

doi:10.3785/j.issn.1008-973X.2023.08.001

基于改进强化学习的多智能体追逃对抗

薛雅丽^,, 叶金泽, 李寒雁

南京航空航天大学自动化学院，江苏南京 211106

Multi-agent pursuit and evasion games based on improved reinforcement learning

XUE Ya-li^,, YE Jin-ze, LI Han-yan

College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China

收稿日期: 2022-11-23

基金资助:

国家自然科学基金资助项目（62073164）

Received: 2022-11-23

Fund supported:

国家自然科学基金资助项目（62073164）

作者简介 About authors

薛雅丽（1974—），女，副教授，从事飞行器自适应控制、多智能体协同控制以及目标识别研究.orcid.org/0000-0002-6514-369X.E-mail：xueyali@nuaa.edu.cn , E-mail：xueyali@nuaa.edu.cn

摘要

针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法. 将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）. 针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验. 设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法. 基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少. 在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者.

关键词： 追逃对抗 ; 强化学习 ; 经验回放 ; 多智能体 ; 奖励函数

Abstract

A multi-agent reinforcement learning algorithm based on priority experience replay and decomposed reward function was proposed in multi-agent pursuit and evasion games. Firstly, multi-agent twin delayed deep deterministic policygradient algorithm (MATD3) algorithm based on multi-agent deep deterministic policy gradient algorithm (MADDPG) and twin delayed deep deterministic policy gradient algorithm (TD3) was proposed. Secondly, the priority experience replay was proposed to determine the priority of experience and sample the experience with high reward, aiming at the problem that the reward function is almost sparse in the multi-agent pursuit and evasion problem. In addition, a decomposed reward function was designed to divide multi-agent rewards into individual rewards and joint rewards to maximize the global and local rewards. Finally, a simulation experiment was designed based on DEPER-MATD3. Comparison with other algorithms showed that DEPER-MATD3 algorithm solved the over-estimation problem, and the time consumption was improved compared with MATD3 algorithm. In the decomposed reward function environment, the global mean rewards of the pursuers were improved, and the pursuers had a greater probability of chasing the evader.

Keywords： pursuit-evasion games ; reinforcement learning ; experience replay ; multi agent ; reward function

PDF (1158KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

薛雅丽, 叶金泽, 李寒雁. 基于改进强化学习的多智能体追逃对抗. 浙江大学学报(工学版)[J], 2023, 57(8): 1479-1486 doi:10.3785/j.issn.1008-973X.2023.08.001

XUE Ya-li, YE Jin-ze, LI Han-yan. Multi-agent pursuit and evasion games based on improved reinforcement learning. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(8): 1479-1486 doi:10.3785/j.issn.1008-973X.2023.08.001

针对复杂多变的战场环境，仅靠人类大脑实时做出决策在效率上远远不够，智能体（agent）须在对抗博弈方面更加智能化，拥有自主作战、高效决策能力. 无人集群自主作战能力是提升作战效能的关键因素，多智能体追逃问题是无人协同攻防任务的典型范例.

学术界对追捕-逃逸问题的研究展开了大量探索性工作. 追捕-逃逸问题的解决方法可以分为确定性方法和智能优化算法. 确定性方法的主流方法为微分博弈论. 通过对多智能体追捕-逃跑问题建模并搭建追逃双方的策略选择模型，得出实时策略选择算法^[1]. 李龙跃等^[2]将追逃微分博弈问题转化为单边最优对策问题，提出用改进多项式配点法近似状态变量对时间的微分，降低了问题复杂度. 刘坤等^[3]针对追逃双方分散的情形，将多智能体追逃转化为多组双智能体博弈，并求解了追逃双方的最优策略. 刘肇隆等^[4]在微分博弈论的基础上通过改进图注意力网络，构建了轨迹预测模型，并用圆环覆盖双方运动的轨迹，建立轨迹连接图，预测指标有明显提升. 除了微分博弈论外，阿波罗尼斯圆也可以用于解决追击-逃逸问题^[5-7]. 基于阿波罗尼斯圆构建多智能体追逃模型可以求解逃逸成功条件. 若逃逸者在绝对逃逸区域中，则一定能成功逃脱. 确定性方法用数学公式描述模型，有严格的推导过程，求解难度会因对象数量增加成指数增长，且在设计追击策略时通常须对逃逸者的动作做出假定约束或已知逃逸者的控制策略. 因此，该类方法在多智能体对抗的复杂高动态场景下很难取得较好的应用效果.

智能优化算法可以分为仿生学算法、智能群体算法及强化学习算法. 起初，学术界对强化学习算法的研究集中于Q学习算法. 在多智能体追逃问题中，研究者们对其计算难度高、存在维度爆炸的问题做出了各种改进与尝试^[8-10]. 随着计算机技术和人工智能技术的快速发展，深度强化学习理论为多智能体追逃问题提供了一条新的发展道路. 相对于单智能体的强化学习理论，多智能体强化学习在智能体的合作对抗任务中更为复杂. 学术界对多智能体强化学习（multi-agent reinforcement learning，MARL）方法的追逃问题开展了大规模的探索性研究. 2019年，Alexandre 等^[11]在无人机跟随和追踪任务中使用了深度强化学习框架. 实验结果表明，所提出的算法在室外场景中展现出了较高的性能. Zhang等^[12]使用概率分布奖励值来代替Q函数并将其引入到多智能体深度确定性策略梯度算法（multi-agent deep deterministic policy gradient algorithm，MADDPG）中，消除了奖励的延迟，提高了策略的效率，获得了更好的追击结果. Zhou等^[13]提出了基于改进的MADDPG的多机器人追捕方法，通过结合内部奖励和外部环境来解决多机器人追逃场景中的稀疏奖励问题. 夏家伟等^[14]基于多智能体近端策略优化算法，结合围捕任务需求设计围捕距离、动作空间以及奖励函数，实现了多无人艇对单无人艇的围捕.

上述文献给出了很多关于多智能体的追逃问题的有效对抗算法，但仍存在一些不足：1）较少考虑环境中的障碍物问题，除无人机外，其他智能体在实际应用中都会涉及避障问题. 2）针对奖励值的设计为全局奖励，智能体的负奖励也会施加至友方智能体，使全局奖励降低. 在稀疏奖励环境下，奖励池中的经验整体奖励值偏低，奖励值高的经验在经验池中占比少，被采样学习的概率较小，会导致学习效率的下降. 3）在仿真实验时，对逃逸智能体的动作设定为随机动作或规律性动作，缺乏智能体间的对抗性.

针对上述问题设计解耦奖励函数，并设计避障奖励函数作为个体奖励仅作用于单个智能体，将追击者与逃逸者间的追逃关系奖励函数设计为联合奖励作用于整个多智能体系统以最大化全局奖励. 同时，使用优先经验回放解决稀疏奖励问题. 此外，敌方智能体采用深度确定性策略梯度算法（deep deterministic policy gradient algorithm，DDPG）训练，以加强智能体间的对抗.

1. 问题描述与建模

1.1. 智能体运动学模型

采用非完整性约束运动学模型描述单个智能体，追击者（pursuer）与逃逸者（evader）为同构智能体，具有相同的运动学模型.

设点 $p$为智能体在地面坐标系中的位置坐标； ${\alpha _i}$为智能体运动方向与x轴的夹角； ${v_i}$为线速度，表示智能体运动方向上的速度数值； ${\omega _i}$为转向时的横摆角速度，以逆时针为正. 取智能体在地面坐标系x轴的位移量 ${x_i}$，y轴的位移量 ${y_i}$以及 ${\alpha _i}$作为智能体的状态变量建立状态空间方程^[15]，表达式如下：

(1) $ \left[ {\begin{array}{*{20}{c}} {{{\dot x}_i}} \\ {{{\dot y}_i}} \\ {{{\dot \alpha }_i}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\cos\; {\alpha _i}}&0 \\ {\begin{array}{*{20}{c}} {\sin \;{\alpha _i}} \\ 0 \end{array}}&{\begin{array}{*{20}{c}} 0 \\ 1 \end{array}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{v_i }} \\ {{\omega _i}} \end{array}} \right] . $

1.2. 多智能体追逃问题描述

在战场环境中，智能体间不仅存在协同合作关系，还存在对抗博弈关系. 追击-逃逸问题为经典多智能体对抗问题之一：由多个同类型、速度慢的智能体追击一个速度相对较快的智能体. 追击者的目标为所有追击者作为一个群体移动，使逃逸者被限制在追击者能够尽可能短时间内追捕到的目标点上. 如在追击过程中，逃逸者和至少一个追击者之间的距离小于预先给定的安全距离，视为追击成功. 若在预先设定的追击时间内仍未实现上述条件则视为追击失败. 追击者之间若发生碰撞不判定为失败，但是会使该追击者自身得到负奖励.

追逃示意图如图1所示，对每个智能体和障碍物都设定一个安全距离，分别表示为 ${R_{{\text{safe}}}}$和 ${R_{{\text{obs}}}}$. 若智能体间的距离 ${d_{ij}}$小于各自的安全距离之和判定为相撞. 同理，若智能体与障碍物间的距离 ${d_{{\text{po}}}}$小于 ${R_{{\text{safe}}}}$与 ${R_{{\text{obs}}}}$之和判定为避障失败. ${P_i}$表示第 $i$个追击者， ${E_1}$表示逃逸者，在追击过程中追击者的主要任务是接近逃逸者并与之相撞，次要任务是避免与墙体、友方智能体和障碍物相撞；逃逸者的主要任务是与所有追击者拉开距离，次要任务是避免与墙体和障碍物发生碰撞. 考虑到多角度饱和攻击的进攻战术，追击者考虑形成包围态势，将包围态势加入奖励函数，包围态势便于追击者更有效率地追击，提升追击成功率. S_o1~S_o5表示障碍物1~5的状态信息.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 多智能体追逃问题示意图

Fig.1 Diagram of multi-agent pursuit-evasion problem

2. 多智能体追逃对抗算法设计

2.1. MATD3算法

提出多智能体双延迟-确定策略梯度算法（multi-agent twin delayed deep deterministic policy gradient algorithm，MATD3），集成了MADDPG与双延迟-确定策略梯度算法（twin delayed deep deterministic policy gradient algorithm，TD3）的核心思想.

MATD3算法借鉴MADDPG集中式训练、分布式执行的核心思想，执行框架如图2所示^[16].

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 集中式训练分布式执行框架

Fig.2 Framework of centralized training and distributed execution

该思想可以解决环境不稳定带来的经验回放失效问题. 对多智能体系统取任意策略 $ {{\boldsymbol{\pi}} _i} \ne {{\boldsymbol{\pi}} '_i} $，都有

(2) $ \begin{split} & P(s'|s,{{\boldsymbol{a}}_1},\cdots ,{{\boldsymbol{a}}_N},{{\boldsymbol{\pi}} _1},\cdots ,{{\boldsymbol{\pi}} _N}) = \\ &\qquad P(s'|s,{{\boldsymbol{a}}_1},\cdots ,{{\boldsymbol{a}}_N},{{{\boldsymbol{\pi}} '_1}},\cdots ,{{{\boldsymbol{\pi}} '_N}}). \end{split} $

式中： $ P $为环境的状态转移概率， $ s $为多智能体的当前状态集合， $ s' $为多智能体下一时刻的状态集合， $ {{\boldsymbol{a}}_i} $为第 $i$个智能体采取的动作， $ {{\boldsymbol{\pi}} _i} $为第 $i$个智能体采取的策略， $ {{\boldsymbol{\pi}} '_i} $为第 $i$个智能体采取的另一个策略. 当 $ {{\boldsymbol{\pi}} _i} \ne {{\boldsymbol{\pi}} '_i} $时，系统的状态转移概率不变，因此环境具有稳定性.

MATD3算法训练的Policy、Critic网络参数集合以及策略集合表达式如下：

(3) $ \left. {\begin{array}{*{20}{l}} {\theta {\text{ = \{ }}{\theta _{\text{1}}}{\text{,}}\cdots {\text{,}}\;{\theta _N}{\text{\} }}}, \\ \begin{gathered} {w_1}{\text{ = \{ }}{w_{{\text{1,1}}}}{\text{,}}\cdots {\text{,}}\;{w_{N,1}}{\text{\} }} , \\ {w_2}{\text{ = \{ }}{w_{{\text{1,2}}}}{\text{,}}\cdots {\text{,}}\;{w_{N,2}}{\text{\} }}, \\ \end{gathered} \\ {\pi {\text{ = \{ }}{{\boldsymbol{\pi}} _{\text{1}}}{\text{,}}\cdots {\text{,}}\;{{\boldsymbol{\pi}} _N}{\text{\} }}}. \end{array}} \right\} $

式中： $ \theta $表示所有智能体Policy网络的参数集合， $ {w_1} 、{w_2}$表示所有智能体第1、2个Critic网络的参数集合， $ \pi $表示所有智能体的策略集合.

在MADDPG算法中，Critic网络的功能与深度Q网络（deep Q network，DQN）中Q网络相似，须通过时序差分（temporal difference，TD）误差更新网络参数. 在使用梯度下降法更新参数时，目标Q值函数根据贪心策略取估计值中的最大值，会导致Q值过估计. 若过估计产生的误差在计算损失函数过程中不断累积，容易造成模型不收敛. TD3算法使用双层Critic网络结构，有效改善了过估计问题^[17]. MATD3算法借用该思想，将Q值目标值计算2次，表达式如下：

(4) $ \left. {\begin{array}{*{20}{c}} {{y_1} = {r_i}+\gamma Q_i^{{{w'_{i,2}}}}(s',{{\boldsymbol{a}}_1'},\cdots ,{{\boldsymbol{a}}_N'}){|_{{{\boldsymbol{a}}_{\boldsymbol{j}}'} = {\mu _j}^\prime ({o_j})}}}, \\ {{y_2} = {r_i}+\gamma Q_i^{{{w'_{i,1}}}}(s',{{\boldsymbol{a}}_1'},\cdots ,{{\boldsymbol{a}}_N'}){|_{{{\boldsymbol{a}}_{\boldsymbol{j}}'} = {\mu _j}^\prime ({o_j})}}} . \end{array}} \right\} $

式中: $ {w'_{i,1}}、{w'_{i,2}} $为第i个智能体的第1、2个Critic目标网络的参数；Q表示状态-动作价值函数，即Q值函数；γ为折扣因子； ${{\boldsymbol{a}}_j'}$表示下一步长下智能体采取的动作； $ {y_i} $表示第i个网络的Q现实值计算； $ {r_i} $表示第i步产生的瞬时奖励； $ {\mu _j}^\prime $表示智能体在当前状态o下得到智能体动作 $ {{\boldsymbol{a}}_j}^\prime $的确定性策略.

在使用2个Critic网络来近似动作选择和动作评估时，对于2个Q值，总是存在大小关系，较大的目标Q值导致策略过估计的可能性越大. 因此，本着“宁可低估也不高估”的思想，选用较小的Q值作为目标Q值，以解决Q值过估计问题，使算法收敛性更强. 表达式如下：

(5) $ \begin{split} y =\;& {r_i}+\gamma \min \; \;(Q_i^{{{w'_{i,1}}}}(s',{{\boldsymbol{a}}_1'},\cdots,{{\boldsymbol{a}}_N'}){|_{{{\boldsymbol{a}}_j'} = {\mu _j}^\prime ({o_j})}}, \\ \;&Q_i^{{{w'_{i,2}}}}(s',{{\boldsymbol{a}}_1'},\cdots,{{\boldsymbol{a}}_N'}){|_{{{\boldsymbol{a}}_j'} = {\mu _j}^\prime ({o_j})}}) . \end{split} $

Critic网络参数更新的损失函数表达式如下：

(6) $ \left. {\begin{array}{*{20}{c}} {{\rm{los}}{{\rm{s}}_1} = {E_{s,{{\boldsymbol{a}}_{{t}}},{R_t},s'}}[{{({Q_i}(s,{{\boldsymbol{a}}_t};{w_{i,1}}) - y)}^2}]}, \\ {{\rm{los}}{{\rm{s}}_2} = {E_{s,{{\boldsymbol{a}}_{{t}}},{R_t},s'}}[{{({Q_i}(s,{{\boldsymbol{a}}_t};{w_{i,2}}) - y)}^2}]}. \end{array}} \right\} $

式中：E表示数学期望；s为全局状态， $s = \left\{ {o_1},\cdots , {o_N} \right\}$； ${{\boldsymbol{a}}_t}$为联合动作， ${{\boldsymbol{a}}_t} = [{{\boldsymbol{a}}_1},\cdots ,{{\boldsymbol{a}}_N}]$； ${R_t}$为联合奖励， ${R_t} = \{ {r_1},\cdots ,{r_N} \}$； ${Q_i}(x,{{\boldsymbol{a}}_t};{w_i})$为中心化动作价值函数.

根据损失函数使用梯度下降法对Critic网络参数进行更新：

(7) $\left. {\begin{array}{*{20}{c}} {{{\boldsymbol{w}}_{i,1}} \leftarrow {{\boldsymbol{w}}_{i,1}} - \rho \times {\rm{los}}{{\rm{s}}_1} \times {\nabla _{w_{i,1}}}{Q_i}(s,{{\boldsymbol{a}}_1},\cdots,{{\boldsymbol{a}}_N},{w_{i,1}})} ,\\ {{{\boldsymbol{w}}_{i,2}} \leftarrow {{\boldsymbol{w}}_{i,2}} - \rho \times {\rm{los}}{{\rm{s}}_2} \times {\nabla _{w_{i,2}}}{Q_i}(s,{{\boldsymbol{a}}_1},\cdots,{{\boldsymbol{a}}_N},{w_{i,2}})} . \end{array}} \right\} $

式中：w_i,1、w_i,2为w_i,1、w_i,2的矢量表达，ρ为学习率， ${\nabla _{w_{i,1}}}、{\nabla _{w_{i,2}}} $表示 $Q_i $在 $w_{i,1} $、 $w_{i,2} $上的梯度. 使用策略梯度对Actor网络参数进行更新，仅须使用一个Critic网络参数即可，此处使用 $ {w_{i,1}} $，策略梯度表达式如下：

(8) $ \begin{split} ||{\nabla _{{\theta _i}}}J({\mu _i})|| = &{E_{s\sim D}}[{\nabla _{{\theta _i}}}{\mu _i}({o_i};{\theta _i}) \cdot \\ &{\nabla _{{{\boldsymbol{a}}_{{i}}}}}{Q_i}(s,{{\boldsymbol{a}}_1},\cdots ,{{\boldsymbol{a}}_i},\cdots ,{{\boldsymbol{a}}_N};{w_{i,1}}){|_{{{\boldsymbol{a}}_i} = {\mu _i}({o_i})}}] . \end{split} $

式中：D为经验回放池，储存的四元组数据为 $(s,{{\boldsymbol{a}}_t},{R_t},s')$； $ {\mu _i} $表示智能体在当前状态o下得到智能体动作 $ {{\boldsymbol{a}}_i} $的确定性策略.

为了实现分布式控制，在更新Policy网络时，每个智能体的Actor网络仅可观测局部信息. 根据式（8），使用梯度上升法，得到Actor网络的参数 ${\theta _i}$更新公式：

(9) $ {{\boldsymbol{\theta}} _i} \leftarrow {{\boldsymbol{\theta}} _i}+\rho {\nabla _{{\theta _i}}}J. $

式中：θ_i为θ_i的矢量表达.

目标Actor网络和目标Critic的参数更新方式相同，均使用软更新的方式：

(10) $ {w_i}^\prime \leftarrow \tau {w_i}+(1 - \tau ){w_i}^\prime , $

(11) $ {\theta _i}^\prime \leftarrow \tau {\theta _i}+(1 - \tau ){\theta _i}^\prime . $

式中： ${\theta _i}^\prime $为Policy目标网络的网络参数，τ为惯性更新率.

由于TD3依旧是确定性策略，为了增加策略的探索度，在动作选取时增加扰动ε：

(12) $ {{\boldsymbol{a}} = \mu ({o_1})+{\boldsymbol{\varepsilon }}}, \; {|{\boldsymbol{\varepsilon }}|\sim {\rm{clip}}\;(N(0,\sigma ), - c,c)} . $

在训练回合达到预设回合数后，每个智能体根据自身的局部观测状态独立决策，实现分布式执行.

2.2. 优先经验回放

经验回放方法首次在DQN算法中被提出，经验回放方法2个最关键的设计点：一是如何存放那些经验，二是如何重放那些经验. PER（priority experience replay）方法的改进之处即是如何重放那些经验.

PER方法摒弃了经典经验回放中随机采样进行回放的方法，利用TD误差的大小衡量一组经验的优先度. 多智能体追逃问题中的奖励函数包含很多稀疏奖励，当奖励稀疏时，一些少量的高价值经验被采样的频率较低，该方法可以增加高价值经验的采样的权重. TD误差表达式如下：

(13) $ \delta = {(y - {Q^\pi }(s,{{\boldsymbol{a}}_1},\cdots,\; {{\boldsymbol{a}}_N}))^2}. $

式中： $Q^\pi $表示在s状态下，根据策略π智能体动作取a₁~a_N得到的Q值.

TD误差越大，说明当前网络的Q函数与目标网络的Q值相差较大，该样本应该更优先被学习，在此状态处学习效率也更高，价值更高. 然而，采用纯贪心抽取价值最高的经验会造成模型的过拟合. 因此，提出一种贪心和均匀采样相结合的随机采样方法，保证低价值的经验也有可能抽取，每个经验的价值优先级^[18-19]如下：

(14) $ P(i) = {{p_i^\alpha } \Big{/}{\sum {p_i^\alpha } } }. $

式中：α为权重优先级参数，α=0退化为均匀采样，α=1.0退化为贪心策略； ${p_i}$为第i个经验的优先级，采用基于排名的优先级. ${p_i}$表达式如下：

(15) $ {p_i} = { {1 /{{\text{rank}}}_i}} . $

式中： ${\text{rank}}_i$表示第i个经验的排名， $\delta $越大排名越靠前， ${\text{rank}}_i$越小， ${p_i}$越大.

最后，由于优先经验回放引入了TD误差，以一种不受控的形式改变了样本分布. 为了抵消不同抽样概率造成的学习偏差，使用重要性采样可以保证每个样本被采样概率不同，又可以保证其对梯度下降的影响相同. 为此设计重要性采样权重 ${\omega _j}$：

(16) $ {\omega _j} = {( {{M \cdot P(i))^{-\beta}}}}. $

式中：M为样本池中样本个数；β为重要性采样参数，β决定了优先经验回放对样本分布影响的程度，若β=1.0退化为经典经验回放，在实现时，一般将其归一化处理. 加入样本优先级后新的损失函数表达式如下：

(17) $ \left. {\begin{array}{*{20}{c}} {{\rm{los}}{{\rm{s}}_1} = \dfrac{1}{M}\displaystyle \sum\limits_{j = 1}^M {({\omega _j}{{({Q_i}(x,{{\boldsymbol{a}}_{{t}}};{w_{i,1}}) - y)}^2})} }, \\ {{\rm{los}}{{\rm{s}}_2} = \dfrac{1}{M}\displaystyle \sum\limits_{j = 1}^M {({\omega _j}{{({Q_i}(x,{{\boldsymbol{a}}_{{t}}};{w_{i,2}}) - y)}^2})} }. \end{array}} \right\} $

在有些情况下优先经验回放会加大训练所需的时长. 因此，本研究的经验回放算法在前半段步长的网络训练中采用优先经验回放的方法，在后半段步长的网络训练中仍采用经典经验回放方法.

2.3. 状态、动作空间设计

在多智能体追逃环境中，存在追击者和逃逸者. 在强化学习训练时，根据集中式训练的思想，追击者和逃逸者双方均可观测全局状态. 在训练完成后，根据分布式执行的思想，各个智能体只能观测到自身的局部状态，根据自身状态做出决策，输出动作，不受其他智能体策略影响.

全局状态空间矩阵包含4个状态信息向量，定义状态矩阵如下：

(18) $ {{\boldsymbol{o}}_i} = [{{\boldsymbol{s}}_i},{{\boldsymbol{s}}_{{\text{oth}}}},{{\boldsymbol{s}}_{{\text{tar}}}},{{\boldsymbol{p}}_{{\text{obs}}}}]. $

式中： ${{\boldsymbol{s}}_i}$为自身的位姿信息， ${{\boldsymbol{s}}_{{\text{oth}}}}$为同阵营智能体与自身的相对位置和速度信息， ${{\boldsymbol{s}}_{{\text{tar}}}}$为敌对阵营的智能体的相对位置和速度信息， ${{\boldsymbol{p}}_{{\text{obs}}}}$为空间中障碍物的位置信息.

逃逸者只有一个，因此在逃逸者观测到的全局状态中， ${{\boldsymbol{s}}_{{\text{oth}}}}$=0.

对于动作空间设定，为了使实验更加贴合真实环境，设定动作空间为连续型动作，智能体的动作输出为二维加速度向量.

(19) $ {\boldsymbol{a}} = [{a_x},{a_y}]^{\rm{T}}. $

2.4. 解耦奖励函数设计

在多智能体追逃问题中，存在一个目标和多个约束：一个目标表示追击者须追到逃逸者，逃逸者须逃避追击者，多个约束包含了所有智能体的避障、追击者内部避碰以及相对距离约束.

在追逃任务过程中，每个智能体在每个时间步长（step）都会各自累积奖励值，并存入经验回放池中. 在回合结束时，所有智能体都会一次性获得追逃任务奖励.

采取引导性奖励与稀疏奖励相结合的方式，完成智能体的2项任务：一是追击者与逃逸者之间的追逃任务，二是智能体的避障以及智能体间的避碰. 对于追击者，奖励函数的定义如下：

(20) $ {R_i}{\text{ = }}\left\{ {\begin{array}{*{20}{l}} {r_{{\text{cap}}}} ,& {d_{i,{\text{T}}}} \leqslant {d_{{\rm{cap}}}}; \\ {r_{{\text{help}}}}, & {d_j}_{,{\text{T}}} \leqslant {d_{{\rm{cap}}}},\; \exists j \ne i; \\ {r_{{\text{step}}}} ,& 其他. \end{array}} \right. $

式中： ${d_{{\text{cap}}}}$为捕获距离， $ {d_{i,{\text{T}}}} $为第i个智能体与目标的距离， ${r_{{\text{cap}}}}$为捕获奖励， ${r_{{\text{help}}}}$为协同奖励， ${r_{{\text{step}}}}$为该时间步长下的动作奖励.

对于捕获奖励和协同奖励设计包含捕获成功奖励以及包围态势奖励2个部分：

(21) $ {r_{{\text{cap}}}} = {r_{{\text{help}}}} = {C_{{\text{cap}}}} - \eta \max \; ({\alpha _{ij}} - 2{\text{π}} /N) . $

式中： ${C_{{\text{cap}}}}$和 $\eta $为奖励幅度系数， $ {\alpha _{ij}} $为2个相邻智能体之间的相对角度.

每个时间步长的动作奖励由多个约束加权组成：

(22) $ {r_{{\text{step}}}} = {k_1}{r_{{\text{dist}}}}+{k_2}{r_{{\text{coll}}}}+{k_3}{r_{{\text{crash}}}}. $

式中： ${k_1}+{k_2}+{k_3} = 1$， ${r_{{\text{dist}}}}$为相对距离约束惩罚， ${r_{{\text{coll}}}}$为障碍物碰撞惩罚， ${r_{{\text{crash}}}}$为己方碰撞惩罚. 包含的各个惩罚奖励计算公式如下.

1）相对距离约束惩罚：

(23) $ \left. {\begin{array}{*{20}{l}} {{r_{{\text{dist}}}} = - {\eta _1}{d_{\min }}}, \\ {{d_{\min }} = \mathop {\arg \min } \limits_{i \in (1,N)}\; \left [ {({x_i} - {x_{\rm{e}}})}^2+{{({y_i} - {y_{\rm{e}}})}^2}\right ]^{1/2} } . \end{array}} \right\} $

式中： ${d_{\min }}$为所有追击者和逃逸者间的最短距离； ${\eta _1}$为奖励幅度系数，控制奖励值大小，决定该指标在任务中的重要程度； $({x_i},{y_i})$表示第i个追击者的位置； $({x_{\rm{e}}},{y_{\rm{e}}})$表示逃逸者的位置. 此惩罚奖励引导追击者缩短与逃逸者的距离.

2）障碍物碰撞惩罚：

(24) $ {r_{{\text{coll}}}} = \left\{ {\begin{array}{*{20}{l}} - {\eta _2}{{({d_{\text{s}}} - {d_{{\rm{po}}}})}^2} ，& {d_{{\rm{po}}}} < {d_{\text{s}}} ;\\ 0, & 其他. \end{array}} \right. $

式中： ${d_{{\rm{po}}}}$为当前该追击者与障碍物之间的实际距离， ${d_{\text{s}}} = {R_{{\text{safe}}}}+{R_{{\text{obs}}}}$， ${\eta _2}$为奖励幅度系数. 此惩罚奖励用于训练追击者学习避障策略.

3）己方碰撞惩罚：

(25) $ {r_{{\text{crash}}}} = \left\{ {\begin{array}{*{20}{l}} - {\eta _3}{{({d_{{\text{safe}}}} - {d_{ij}})}^2}, & {d_{ij}} < {d_{{\text{safe}}}} ;\\ 0, & 其他. \end{array}} \right. $

式中： ${d_{ij}}$为当前追击者i与追击者j之间的实际距离， ${d_{{\text{safe}}}}{\text{ = }}2{R_{{\text{safe}}}}$， ${\eta _3}$为奖励幅度系数. 此惩罚奖励用于训练追击者学习对友方目标的避让策略，若友方产生碰撞会损失速度，降低追击效率.

综上所述即为所有奖励函数. 若每个智能体直接使用以上奖励函数进行环境交互和训练，一个追击者的惩罚值会施加至所有追击者造成全局奖励降低多倍，进而影响该交互经验的权重优先级，最终导致追击者的训练效果变差. 为了实现全局奖励和局部奖励最大化，对奖励函数解耦，将奖励函数分为个体奖励和联合奖励^[20-21]. 在奖励函数中 ${r_{{\text{cap}}}}$、 ${r_{{\text{help}}}}$、 $ {r_{{\text{dist}}}} $为联合奖励，作用于所有智能体的Critic网络. $ {r_{{\text{coll}}}} $、 $ {r_{{\text{crash}}}} $为个体奖励，仅作用于当前智能体的Critic网络. 追击仍为追击者群体的主要目标，联合奖励权值设计须比个体奖励权值大，并且在形成包围态势时允许一定的避障失误. 将基于此解耦型奖励函数的PER-MATD3算法称为DEPER-MATD3.

对于逃逸者使用DDPG算法训练，设定的动作奖励函数仅包含相对距离约束奖励以及碰撞奖励，碰撞奖励与追击者相同. 相对距离约束奖励与追击者相反，离追击者距离越远奖励越高：

(26) $ \left. {\begin{array}{*{20}{l}} {{r_{{\text{dist}}}} = {\eta _4}{d_{\min }}}, \\ {{d_{\min }} = \mathop {\arg \min }\limits_{i \in (1,N)}\; \left[{{{({x_i} - {x_{\rm{e}}})}^2}+{{({y_i} - {y_{\rm{e}}})}^2}}\right]^{1/2}. } \end{array}} \right\} $

式中： ${d_{\min }}$表示所有追击者和逃逸者间最短距离， ${\eta _4}$为奖励幅度系数.

此外，逃逸者在被追击者碰撞时，获取逃逸失败奖励，奖励值减少 $ C_{{\text{cap}}}' $并结束当前回合.

3. 多智能体协同追逃实验设计及分析

3.1. 实验环境与超参数设置

实验计算机配置如下：CPU为AMD Ryzen 7 2.30 GHz，GPU为GTX1660Ti，内存为16 GB. 使用的深度学习框架为TensorFlow 2.5.0，强化学习训练环境框架为Gym 0.10.5.

考虑智能体均设定安全距离 ${R_{{\text{safe}}}}$，所有智能体可以用一个半径为 ${R_{{\text{safe}}}}$的圆模型表示. 多智能体追逃实验场景设定为一个封闭的正方形区域，设正方形区域的边为1单位长度. 区域内存在多个追击者和一个逃逸者，初始速度和加速度均为0，追击者的最大速度设定为1.0，最大加速度设定为3.0，安全距离设定为0.075；逃逸者的最大速度设定为1.3，最大加速度设定为4.0，安全距离设定为0.050. 区域中会随机出现2个障碍物，障碍物的碰撞半径为0.050，具体环境设置如图3所示. 为了防止模型过拟合，智能体的位置随机生成. 训练所涉及的训练超参数设定如表1所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 多智能体追逃仿真环境

Fig.3 Simulation environment of multi-agent pursuit-evasion

表 1 训练超参数设定

Tab.1 Setting of training hyperparameters

训练超参数	超参数符号	数值
折扣因子	γ	0.95
惯性更新率	τ	0.01
经验池大小	ReplayBuffer	1×10⁶
回放样本数	BatchSize	1024
回合数	Ep	60000
每回合时间步	Maxstep	30
神经网络学习率	ρ	0.01
更新率	UpdateFre	100
探索率	ε	0.5
权重优先级	α	0.6
重要性采样参数	β	0.5

新窗口打开| 下载CSV

3.2. 实验结果分析

分别使用DEPER-MATD3、MADDPG、MATD3作为追击者，在解耦奖励函数下进行训练，对比算法性能，验证算法对过估计问题的改善. 采用不同随机数种子各训练5个epoch以确保训练结果不存在偶然性.

如图4所示为3种强化学习算法训练的平均奖励曲线. 图中，粗蓝色实线表示DEPER-MATD算法，粗橙色虚线表示MADDPG算法，细绿色实线表示MATD3算法，阴影部分表示5次epoch平均奖励值的方差，Ep表示交互回合数，MR表示4个追击者的奖励平均值. 在训练初期，3种算法都处于探索阶段，经验回放池未达到回放样本数，平均奖励在−50以下. 在回放池中样本大于回放样本数之后，曲线呈现快速上升的趋势，追击者在训练下逐步学习到正确的追击策略. 在20000回合之后，平均奖励值趋于收敛，逃逸者学习到最优策略. MADDPG算法整体平均奖励大于零，并且方差较大，收敛性较差. 而DEPER-MATD3算法多次训练结果的方差较小，收敛性较强，收敛速度快，平均奖励收敛于0附近. 由奖励函数可知，平均奖励收敛于0附近说明所有智能体已学会避碰与避障，追击者及逃逸者双方均已学到最优策略，两者在追逃问题中都有一定的胜率，与奖励函数中相对距离约束奖励、捕获奖励、协同奖励以及被捕获奖励在计算平均奖励时会一定程度相互抵消的设计相照应，而MADDPG算法收敛于0上方违背了计算平均奖励时奖励函数相互抵消的设计. 由此可见DEPER-MATD3算法较好地解决了过估计问题.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 3种强化学习算法训练的平均奖励曲线

Fig.4 Mean rewards curve of three reinforcement learning algorithms

此外，由图4可以看出，MATD3算法基本趋势为渐进增长，基本没有出现较大峰值，说明敌我智能体学习效率较为均衡. 而DEPER-MATD3相较于MATD3与MADDPG均出现了较大峰值，DEPER-MATD3算法在10000回合之前到达峰值，MADDPG算法在10000回合后到达峰值，证明优先经验回放使得算法的训练效果得到了提升. 基于DEPER-MATD3训练的追击者能在较少回合内找出最优追击策略，完成追击任务，获得更高奖励值，在20000回合后算法均趋于收敛，最终收敛于零附近. 由此可知，在有限学习回合下，DEPER-MATD3算法可以更快学习到最优策略从而占领战场对抗先机.

在MATD3用于解决多智能体问题时，由于每个智能体都存在2个Critic网络，会导致训练时长大大增加，使用部分优先经验回放机制可以相对减少训练时长. 在上述实验中训练相同回合数的5个epoch后，DEPER-MATD3、MADDPG、MATD3算法的平均训练时长分别为235.81 、135.99 、283.89 min. 可见DEPER-MATD3和MATD3与MADDPG算法相比，训练时长相对长很多. MATD3算法由于存在2个Critic网络，训练时长近似为MADDPG算法的2倍. 而DEPER-MATD3由于加入优先经验回放机制，并采用了求和树数据结构存放经验，平均训练时长有所改善.

在解耦型奖励函数环境下使用DEPER-MATD3和非解耦奖励函数环境下使用PER-MATD3训练，结果如图5所示. 图中，粗蓝色实线表示解耦型奖励函数环境下的训练结果，细橙色虚线表示非解耦型奖励函数环境下的训练结果. 可以看出，收敛后解耦奖励函数环境下的回合MR整体高于非解耦奖励函数环境下的MR.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 解耦奖励和非解耦奖励下的平均奖励曲线

Fig.5 Mean rewards curve under decoupling reward and non-decoupling reward

除了平均奖励曲线外，算法在对抗中的胜率也可以体现解耦型奖励函数对全局奖励的提高. 为了避免偶然，总计进行8组实验. 每组实验分别使用DEPER-MATD3、MADDPG和PER-MATD3算法在环境中进行100次追逃，并计算追击成功率. 如图6所示为各算法追击成功次数对比. 图中，ET表示实验次数，ST表示成功追击次数. 可以看出，DEPER-MATD3、MADDPG、MATD3实验法平均成功率分别为83.250%、67.125%、73.625%. DEPER-MATD3在追击成功率上显著较高，证明了其全局奖励函数更高.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 3种强化学习算法追逃成功次数曲线图

Fig.6 Curve of number of successful pursuit of three reinforcement learning algorithms

分析在仿真环境下单次追逃试验各个智能体的运动情况. 如图7所示为实验环境下固定智能体和障碍物位置后一次实验的过程图，根据箭头指向命名为图7(a)~(d). 图7(a)中追击者初始位置一字排开，中间的追击者离逃逸者最近. 图7(b)中虽然中间智能体离逃逸者较近，但并没有直接追击，而是等待队友追击形成合围态势，此时逃逸者向上逃离. 图7(c)中上方追击者即将拦截逃逸者，中间智能体与下方智能体放慢速度形成包围态势. 图7(d)中上方追击者追击成功. 若逃逸者向下逃逸，由于包围态势已形成，也有其他追击者可以拦截.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 单次追逃试验的智能体运动图

Fig.7 Agent motion diagram of single pursuit and evasion test

4. 结　论

（1）与MADDPG算法相比，DEPER-MATD3算法解决了奖励高估问题，整体奖励值收敛水平优于MADDPG.

（2）DEPER-MATD3算法中优先经验回放机制可以使智能体在有限回合内更快地找出最优策略，获得较高的奖励值. 在复杂多变的战场中可以比敌方智能体训练更快找出最优策略. 且该算法可以一定程度降低MATD3的训练时长.

（3）DEPER-MATD3算法训练的追击者追击成功率比MADDPG和MATD3高，侧面反映了MADDPG的对策略的高估和解耦型奖励函数对全局奖励的提高.

即使是采用本研究提出的改进算法训练的追击者网络模型，追击成功率也仅有83.25%. 在多目标对单目标的场景下追击成功率仍有较大改进空间.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

周浦城, 洪炳镕

基于对策论的群机器人追捕-逃跑问题研究

[J]. 哈尔滨工业大学学报, 2003, (9): 1056- 1059

DOI:10.3321/j.issn:0367-6234.2003.09.010 [本文引用: 1]

ZHOU Pu-cheng, HONG Bing-rong

Research on the pursuit and escape problem of swarm robots based on game theory

[J]. Journal of Harbin Institute of Technology, 2003, (9): 1056- 1059

DOI:10.3321/j.issn:0367-6234.2003.09.010 [本文引用: 1]

[2]

李龙跃, 刘付显, 史向峰, 等

导弹攻防对抗中追逃对策模型与配点求解法

[J]. 系统工程与电子技术, 2016, 38 (5): 1067- 1073

DOI:10.3969/j.issn.1001-506X.2016.05.15 [本文引用: 1]

LI Long-yue, LIU Fu-xian, SHI Xiang-feng, et al

Model of pursuit and escape countermeasures in missile attack and defense countermeasures and collocation solution

[J]. Journal of Systems Engineering and Electronics, 2016, 38 (5): 1067- 1073

DOI:10.3969/j.issn.1001-506X.2016.05.15 [本文引用: 1]

[3]

刘坤, 郑晓帅, 林业茗, 等. 基于微分博弈的追逃问题最优策略设计[J]. 2021, 47(8): 1840-1854.