基于改进强化学习的多智能体追逃对抗
Multi-agent pursuit and evasion games based on improved reinforcement learning
收稿日期: 2022-11-23
基金资助: |
|
Received: 2022-11-23
Fund supported: | 国家自然科学基金资助项目(62073164) |
作者简介 About authors
薛雅丽(1974—),女,副教授,从事飞行器自适应控制、多智能体协同控制以及目标识别研究.orcid.org/0000-0002-6514-369X.E-mail:
针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法. 将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3). 针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验. 设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法. 基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少. 在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.
关键词:
A multi-agent reinforcement learning algorithm based on priority experience replay and decomposed reward function was proposed in multi-agent pursuit and evasion games. Firstly, multi-agent twin delayed deep deterministic policygradient algorithm (MATD3) algorithm based on multi-agent deep deterministic policy gradient algorithm (MADDPG) and twin delayed deep deterministic policy gradient algorithm (TD3) was proposed. Secondly, the priority experience replay was proposed to determine the priority of experience and sample the experience with high reward, aiming at the problem that the reward function is almost sparse in the multi-agent pursuit and evasion problem. In addition, a decomposed reward function was designed to divide multi-agent rewards into individual rewards and joint rewards to maximize the global and local rewards. Finally, a simulation experiment was designed based on DEPER-MATD3. Comparison with other algorithms showed that DEPER-MATD3 algorithm solved the over-estimation problem, and the time consumption was improved compared with MATD3 algorithm. In the decomposed reward function environment, the global mean rewards of the pursuers were improved, and the pursuers had a greater probability of chasing the evader.
Keywords:
本文引用格式
薛雅丽, 叶金泽, 李寒雁.
XUE Ya-li, YE Jin-ze, LI Han-yan.
针对复杂多变的战场环境,仅靠人类大脑实时做出决策在效率上远远不够,智能体(agent)须在对抗博弈方面更加智能化,拥有自主作战、高效决策能力. 无人集群自主作战能力是提升作战效能的关键因素,多智能体追逃问题是无人协同攻防任务的典型范例.
学术界对追捕-逃逸问题的研究展开了大量探索性工作. 追捕-逃逸问题的解决方法可以分为确定性方法和智能优化算法. 确定性方法的主流方法为微分博弈论. 通过对多智能体追捕-逃跑问题建模并搭建追逃双方的策略选择模型,得出实时策略选择算法[1]. 李龙跃等[2]将追逃微分博弈问题转化为单边最优对策问题,提出用改进多项式配点法近似状态变量对时间的微分,降低了问题复杂度. 刘坤等[3]针对追逃双方分散的情形,将多智能体追逃转化为多组双智能体博弈,并求解了追逃双方的最优策略. 刘肇隆等[4]在微分博弈论的基础上通过改进图注意力网络,构建了轨迹预测模型,并用圆环覆盖双方运动的轨迹,建立轨迹连接图,预测指标有明显提升. 除了微分博弈论外,阿波罗尼斯圆也可以用于解决追击-逃逸问题[5-7]. 基于阿波罗尼斯圆构建多智能体追逃模型可以求解逃逸成功条件. 若逃逸者在绝对逃逸区域中,则一定能成功逃脱. 确定性方法用数学公式描述模型,有严格的推导过程,求解难度会因对象数量增加成指数增长,且在设计追击策略时通常须对逃逸者的动作做出假定约束或已知逃逸者的控制策略. 因此,该类方法在多智能体对抗的复杂高动态场景下很难取得较好的应用效果.
智能优化算法可以分为仿生学算法、智能群体算法及强化学习算法. 起初,学术界对强化学习算法的研究集中于Q学习算法. 在多智能体追逃问题中,研究者们对其计算难度高、存在维度爆炸的问题做出了各种改进与尝试[8-10]. 随着计算机技术和人工智能技术的快速发展,深度强化学习理论为多智能体追逃问题提供了一条新的发展道路. 相对于单智能体的强化学习理论,多智能体强化学习在智能体的合作对抗任务中更为复杂. 学术界对多智能体强化学习(multi-agent reinforcement learning,MARL)方法的追逃问题开展了大规模的探索性研究. 2019年,Alexandre 等[11]在无人机跟随和追踪任务中使用了深度强化学习框架. 实验结果表明,所提出的算法在室外场景中展现出了较高的性能. Zhang等[12]使用概率分布奖励值来代替Q函数并将其引入到多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient algorithm,MADDPG)中,消除了奖励的延迟,提高了策略的效率,获得了更好的追击结果. Zhou等[13]提出了基于改进的MADDPG的多机器人追捕方法,通过结合内部奖励和外部环境来解决多机器人追逃场景中的稀疏奖励问题. 夏家伟等[14]基于多智能体近端策略优化算法,结合围捕任务需求设计围捕距离、动作空间以及奖励函数,实现了多无人艇对单无人艇的围捕.
上述文献给出了很多关于多智能体的追逃问题的有效对抗算法,但仍存在一些不足:1)较少考虑环境中的障碍物问题,除无人机外,其他智能体在实际应用中都会涉及避障问题. 2)针对奖励值的设计为全局奖励,智能体的负奖励也会施加至友方智能体,使全局奖励降低. 在稀疏奖励环境下,奖励池中的经验整体奖励值偏低,奖励值高的经验在经验池中占比少,被采样学习的概率较小,会导致学习效率的下降. 3)在仿真实验时,对逃逸智能体的动作设定为随机动作或规律性动作,缺乏智能体间的对抗性.
针对上述问题设计解耦奖励函数,并设计避障奖励函数作为个体奖励仅作用于单个智能体,将追击者与逃逸者间的追逃关系奖励函数设计为联合奖励作用于整个多智能体系统以最大化全局奖励. 同时,使用优先经验回放解决稀疏奖励问题. 此外,敌方智能体采用深度确定性策略梯度算法(deep deterministic policy gradient algorithm,DDPG)训练,以加强智能体间的对抗.
1. 问题描述与建模
1.1. 智能体运动学模型
采用非完整性约束运动学模型描述单个智能体,追击者(pursuer)与逃逸者(evader)为同构智能体,具有相同的运动学模型.
设点
1.2. 多智能体追逃问题描述
在战场环境中,智能体间不仅存在协同合作关系,还存在对抗博弈关系. 追击-逃逸问题为经典多智能体对抗问题之一:由多个同类型、速度慢的智能体追击一个速度相对较快的智能体. 追击者的目标为所有追击者作为一个群体移动,使逃逸者被限制在追击者能够尽可能短时间内追捕到的目标点上. 如在追击过程中,逃逸者和至少一个追击者之间的距离小于预先给定的安全距离,视为追击成功. 若在预先设定的追击时间内仍未实现上述条件则视为追击失败. 追击者之间若发生碰撞不判定为失败,但是会使该追击者自身得到负奖励.
追逃示意图如图1所示,对每个智能体和障碍物都设定一个安全距离,分别表示为
图 1
2. 多智能体追逃对抗算法设计
2.1. MATD3算法
提出多智能体双延迟-确定策略梯度算法(multi-agent twin delayed deep deterministic policy gradient algorithm,MATD3),集成了MADDPG与双延迟-确定策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)的核心思想.
图 2
图 2 集中式训练分布式执行框架
Fig.2 Framework of centralized training and distributed execution
该思想可以解决环境不稳定带来的经验回放失效问题. 对多智能体系统取任意策略
式中:
MATD3算法训练的Policy、Critic网络参数集合以及策略集合表达式如下:
式中:
在MADDPG算法中,Critic网络的功能与深度Q网络(deep Q network,DQN)中Q网络相似,须通过时序差分(temporal difference,TD)误差更新网络参数. 在使用梯度下降法更新参数时,目标Q值函数根据贪心策略取估计值中的最大值,会导致Q值过估计. 若过估计产生的误差在计算损失函数过程中不断累积,容易造成模型不收敛. TD3算法使用双层Critic网络结构,有效改善了过估计问题[17]. MATD3算法借用该思想,将Q值目标值计算2次,表达式如下:
式中:
在使用2个Critic网络来近似动作选择和动作评估时,对于2个Q值,总是存在大小关系,较大的目标Q值导致策略过估计的可能性越大. 因此,本着“宁可低估也不高估”的思想,选用较小的Q值作为目标Q值,以解决Q值过估计问题,使算法收敛性更强. 表达式如下:
Critic网络参数更新的损失函数表达式如下:
式中:E表示数学期望;s为全局状态,
根据损失函数使用梯度下降法对Critic网络参数进行更新:
式中:wi,1、wi,2为wi,1、wi,2的矢量表达,ρ为学习率,
式中:D为经验回放池,储存的四元组数据为
为了实现分布式控制,在更新Policy网络时,每个智能体的Actor网络仅可观测局部信息. 根据式(8),使用梯度上升法,得到Actor网络的参数
式中:θi为θi的矢量表达.
目标Actor网络和目标Critic的参数更新方式相同,均使用软更新的方式:
式中:
由于TD3依旧是确定性策略,为了增加策略的探索度,在动作选取时增加扰动ε:
在训练回合达到预设回合数后,每个智能体根据自身的局部观测状态独立决策,实现分布式执行.
2.2. 优先经验回放
经验回放方法首次在DQN算法中被提出,经验回放方法2个最关键的设计点:一是如何存放那些经验,二是如何重放那些经验. PER(priority experience replay)方法的改进之处即是如何重放那些经验.
PER方法摒弃了经典经验回放中随机采样进行回放的方法,利用TD误差的大小衡量一组经验的优先度. 多智能体追逃问题中的奖励函数包含很多稀疏奖励,当奖励稀疏时,一些少量的高价值经验被采样的频率较低,该方法可以增加高价值经验的采样的权重. TD误差表达式如下:
式中:
式中:α为权重优先级参数,α=0退化为均匀采样,α=1.0退化为贪心策略;
式中:
最后,由于优先经验回放引入了TD误差,以一种不受控的形式改变了样本分布. 为了抵消不同抽样概率造成的学习偏差,使用重要性采样可以保证每个样本被采样概率不同,又可以保证其对梯度下降的影响相同. 为此设计重要性采样权重
式中:M为样本池中样本个数;β为重要性采样参数,β决定了优先经验回放对样本分布影响的程度,若β=1.0退化为经典经验回放,在实现时,一般将其归一化处理. 加入样本优先级后新的损失函数表达式如下:
在有些情况下优先经验回放会加大训练所需的时长. 因此,本研究的经验回放算法在前半段步长的网络训练中采用优先经验回放的方法,在后半段步长的网络训练中仍采用经典经验回放方法.
2.3. 状态、动作空间设计
在多智能体追逃环境中,存在追击者和逃逸者. 在强化学习训练时,根据集中式训练的思想,追击者和逃逸者双方均可观测全局状态. 在训练完成后,根据分布式执行的思想,各个智能体只能观测到自身的局部状态,根据自身状态做出决策,输出动作,不受其他智能体策略影响.
全局状态空间矩阵包含4个状态信息向量,定义状态矩阵如下:
式中:
逃逸者只有一个,因此在逃逸者观测到的全局状态中,
对于动作空间设定,为了使实验更加贴合真实环境,设定动作空间为连续型动作,智能体的动作输出为二维加速度向量.
2.4. 解耦奖励函数设计
在多智能体追逃问题中,存在一个目标和多个约束:一个目标表示追击者须追到逃逸者,逃逸者须逃避追击者,多个约束包含了所有智能体的避障、追击者内部避碰以及相对距离约束.
在追逃任务过程中,每个智能体在每个时间步长(step)都会各自累积奖励值,并存入经验回放池中. 在回合结束时,所有智能体都会一次性获得追逃任务奖励.
采取引导性奖励与稀疏奖励相结合的方式,完成智能体的2项任务:一是追击者与逃逸者之间的追逃任务,二是智能体的避障以及智能体间的避碰. 对于追击者,奖励函数的定义如下:
式中:
对于捕获奖励和协同奖励设计包含捕获成功奖励以及包围态势奖励2个部分:
式中:
每个时间步长的动作奖励由多个约束加权组成:
式中:
1)相对距离约束惩罚:
式中:
2)障碍物碰撞惩罚:
式中:
3) 己方碰撞惩罚:
式中:
综上所述即为所有奖励函数. 若每个智能体直接使用以上奖励函数进行环境交互和训练,一个追击者的惩罚值会施加至所有追击者造成全局奖励降低多倍,进而影响该交互经验的权重优先级,最终导致追击者的训练效果变差. 为了实现全局奖励和局部奖励最大化,对奖励函数解耦,将奖励函数分为个体奖励和联合奖励[20-21]. 在奖励函数中
对于逃逸者使用DDPG算法训练,设定的动作奖励函数仅包含相对距离约束奖励以及碰撞奖励,碰撞奖励与追击者相同. 相对距离约束奖励与追击者相反,离追击者距离越远奖励越高:
式中:
此外,逃逸者在被追击者碰撞时,获取逃逸失败奖励,奖励值减少
3. 多智能体协同追逃实验设计及分析
3.1. 实验环境与超参数设置
实验计算机配置如下:CPU为AMD Ryzen 7 2.30 GHz,GPU为GTX1660Ti,内存为16 GB. 使用的深度学习框架为TensorFlow 2.5.0,强化学习训练环境框架为Gym 0.10.5.
考虑智能体均设定安全距离
图 3
表 1 训练超参数设定
Tab.1
训练超参数 | 超参数符号 | 数值 |
折扣因子 | γ | 0.95 |
惯性更新率 | τ | 0.01 |
经验池大小 | ReplayBuffer | 1×106 |
回放样本数 | BatchSize | 1024 |
回合数 | Ep | 60000 |
每回合时间步 | Maxstep | 30 |
神经网络学习率 | ρ | 0.01 |
更新率 | UpdateFre | 100 |
探索率 | ε | 0.5 |
权重优先级 | α | 0.6 |
重要性采样参数 | β | 0.5 |
3.2. 实验结果分析
分别使用DEPER-MATD3、MADDPG、MATD3作为追击者,在解耦奖励函数下进行训练,对比算法性能,验证算法对过估计问题的改善. 采用不同随机数种子各训练5个epoch以确保训练结果不存在偶然性.
如图4所示为3种强化学习算法训练的平均奖励曲线. 图中,粗蓝色实线表示DEPER-MATD算法,粗橙色虚线表示MADDPG算法,细绿色实线表示MATD3算法,阴影部分表示5次epoch平均奖励值的方差,Ep表示交互回合数,MR表示4个追击者的奖励平均值. 在训练初期,3种算法都处于探索阶段,经验回放池未达到回放样本数,平均奖励在−50以下. 在回放池中样本大于回放样本数之后,曲线呈现快速上升的趋势,追击者在训练下逐步学习到正确的追击策略. 在20000回合之后,平均奖励值趋于收敛,逃逸者学习到最优策略. MADDPG算法整体平均奖励大于零,并且方差较大,收敛性较差. 而DEPER-MATD3算法多次训练结果的方差较小,收敛性较强,收敛速度快,平均奖励收敛于0附近. 由奖励函数可知,平均奖励收敛于0附近说明所有智能体已学会避碰与避障,追击者及逃逸者双方均已学到最优策略,两者在追逃问题中都有一定的胜率,与奖励函数中相对距离约束奖励、捕获奖励、协同奖励以及被捕获奖励在计算平均奖励时会一定程度相互抵消的设计相照应,而MADDPG算法收敛于0上方违背了计算平均奖励时奖励函数相互抵消的设计. 由此可见DEPER-MATD3算法较好地解决了过估计问题.
图 4
图 4 3种强化学习算法训练的平均奖励曲线
Fig.4 Mean rewards curve of three reinforcement learning algorithms
此外,由图4可以看出,MATD3算法基本趋势为渐进增长,基本没有出现较大峰值,说明敌我智能体学习效率较为均衡. 而DEPER-MATD3相较于MATD3与MADDPG均出现了较大峰值,DEPER-MATD3算法在10000回合之前到达峰值,MADDPG算法在10000回合后到达峰值,证明优先经验回放使得算法的训练效果得到了提升. 基于DEPER-MATD3训练的追击者能在较少回合内找出最优追击策略,完成追击任务,获得更高奖励值,在20000回合后算法均趋于收敛,最终收敛于零附近. 由此可知,在有限学习回合下,DEPER-MATD3算法可以更快学习到最优策略从而占领战场对抗先机.
在MATD3用于解决多智能体问题时,由于每个智能体都存在2个Critic网络,会导致训练时长大大增加,使用部分优先经验回放机制可以相对减少训练时长. 在上述实验中训练相同回合数的5个epoch后,DEPER-MATD3、MADDPG、MATD3算法的平均训练时长分别为235.81 、135.99 、283.89 min. 可见DEPER-MATD3和MATD3与MADDPG算法相比,训练时长相对长很多. MATD3算法由于存在2个Critic网络,训练时长近似为MADDPG算法的2倍. 而DEPER-MATD3由于加入优先经验回放机制,并采用了求和树数据结构存放经验,平均训练时长有所改善.
在解耦型奖励函数环境下使用DEPER-MATD3和非解耦奖励函数环境下使用PER-MATD3训练,结果如图5所示. 图中,粗蓝色实线表示解耦型奖励函数环境下的训练结果,细橙色虚线表示非解耦型奖励函数环境下的训练结果. 可以看出,收敛后解耦奖励函数环境下的回合MR整体高于非解耦奖励函数环境下的MR.
图 5
图 5 解耦奖励和非解耦奖励下的平均奖励曲线
Fig.5 Mean rewards curve under decoupling reward and non-decoupling reward
除了平均奖励曲线外,算法在对抗中的胜率也可以体现解耦型奖励函数对全局奖励的提高. 为了避免偶然,总计进行8组实验. 每组实验分别使用DEPER-MATD3、MADDPG和PER-MATD3算法在环境中进行100次追逃,并计算追击成功率. 如图6所示为各算法追击成功次数对比. 图中,ET表示实验次数,ST表示成功追击次数. 可以看出,DEPER-MATD3、MADDPG、MATD3实验法平均成功率分别为83.250%、67.125%、73.625%. DEPER-MATD3在追击成功率上显著较高,证明了其全局奖励函数更高.
图 6
图 6 3种强化学习算法追逃成功次数曲线图
Fig.6 Curve of number of successful pursuit of three reinforcement learning algorithms
图 7
图 7 单次追逃试验的智能体运动图
Fig.7 Agent motion diagram of single pursuit and evasion test
4. 结 论
(1)与MADDPG算法相比,DEPER-MATD3算法解决了奖励高估问题,整体奖励值收敛水平优于MADDPG.
(2)DEPER-MATD3算法中优先经验回放机制可以使智能体在有限回合内更快地找出最优策略,获得较高的奖励值. 在复杂多变的战场中可以比敌方智能体训练更快找出最优策略. 且该算法可以一定程度降低MATD3的训练时长.
(3)DEPER-MATD3算法训练的追击者追击成功率比MADDPG和MATD3高,侧面反映了MADDPG的对策略的高估和解耦型奖励函数对全局奖励的提高.
即使是采用本研究提出的改进算法训练的追击者网络模型,追击成功率也仅有83.25%. 在多目标对单目标的场景下追击成功率仍有较大改进空间.
参考文献
基于对策论的群机器人追捕-逃跑问题研究
[J].DOI:10.3321/j.issn:0367-6234.2003.09.010 [本文引用: 1]
Research on the pursuit and escape problem of swarm robots based on game theory
[J].DOI:10.3321/j.issn:0367-6234.2003.09.010 [本文引用: 1]
导弹攻防对抗中追逃对策模型与配点求解法
[J].DOI:10.3969/j.issn.1001-506X.2016.05.15 [本文引用: 1]
Model of pursuit and escape countermeasures in missile attack and defense countermeasures and collocation solution
[J].DOI:10.3969/j.issn.1001-506X.2016.05.15 [本文引用: 1]
图注意力网络的微分博弈追逃问题最优策略
[J].
Optimal strategy of differential game pursuit problem in graph attention network
[J].
Research on high speed evader vs. multi lower speed pursuers in multi pursuit-evasion games
[J].DOI:10.3923/itj.2012.989.997 [本文引用: 1]
基于阿波罗尼奥斯圆的无人机追逃问题研究
[J].DOI:10.3969/j.issn.1673-2421.2021.05.008
Research on the pursuit and escape of UAVs based on Apollonius circle
[J].DOI:10.3969/j.issn.1673-2421.2021.05.008
水面无人艇的抗追捕-逃跑策略
[J].DOI:10.11990/jheu.201705092 [本文引用: 1]
The anti-pursuit and escape strategy of unmanned surface craft
[J].DOI:10.11990/jheu.201705092 [本文引用: 1]
A new approach of multi-robot cooperative pursuit based on association rule data mining
[J].
A decentralized fuzzy learning algorithm for pursuit-evasion differential games with superior evaders
[J].DOI:10.1007/s10846-015-0315-y [本文引用: 1]
基于多智能体强化学习的无人艇协同围捕方法
[J].DOI:10.13195/j.kzyjc.2022.0564 [本文引用: 1]
Research on the method of unmanned boat cooperative encirclement based on multi-agent reinforcement learning
[J].DOI:10.13195/j.kzyjc.2022.0564 [本文引用: 1]
基于趋近律滑模控制的智能车辆轨迹跟踪研究
[J].DOI:10.6041/j.issn.1000-1298.2018.03.048 [本文引用: 1]
Research on intelligent vehicle trajectory tracking based on reaching law sliding mode control
[J].DOI:10.6041/j.issn.1000-1298.2018.03.048 [本文引用: 1]
基于MADDPG的边缘网络任务卸载与资源管理
[J].DOI:10.3969/j.issn.1002-0802.2021.04.014 [本文引用: 1]
Edge network task offloading and resource management based on MADDPG
[J].DOI:10.3969/j.issn.1002-0802.2021.04.014 [本文引用: 1]
基于深度强化学习的多智能体对抗策略算法
[J].
Multi-agent confrontation strategy algorithm based on deep reinforcement learning
[J].
/
〈 |
|
〉 |
