浙江大学学报(工学版), 2026, 60(7): 1369-1380 doi: 10.3785/j.issn.1008-973X.2026.07.001

计算机与控制工程

基于自适应课程强化学习的多无人艇对抗围捕决策

陈浪,, 刘增力, 赵宣植,

昆明理工大学 信息工程与自动化学院,云南 昆明 650500

Decision-making for multi-USV adversarial encirclement based on adaptive curriculum reinforcement learning

CHEN Lang,, LIU Zengli, ZHAO Xuanzhi,

Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

通讯作者: 赵宣植,男,副教授. orcid.org/0000-0002-9370-8053. E-mail: zhaoxuanzhi@kust.edu.cn

收稿日期: 2025-06-23  

基金资助: 汉江国家实验室资助项目(KF2024025);国防科技重点实验室基金资助项目(2023JCJQLB3301).

Received: 2025-06-23  

Fund supported: 汉江国家实验室资助项目(KF2024025);国防科技重点实验室基金资助项目(2023JCJQLB3301).

作者简介 About authors

陈浪(1998—),男,硕士生,从事多智能体强化学习、无人艇智能控制研究.orcid.org/0009-0003-9574-1898.E-mail:2594489733@qq.com , E-mail:2594489733@qq.com

摘要

针对无人艇集群在复杂海洋环境中的围捕与博弈对抗问题,提出基于自适应课程学习和多智能体近端策略优化(MAPPO)算法的围捕决策方法. 针对海上围捕与防御任务,构建包含动态目标与多岛礁的作战仿真环境,确定围捕成功及任务终止的判定条件. 为了提升复杂对抗环境下的决策效率,设计表征敌我双方运动态势的归一化状态空间、多尺度奖励函数以及连续动作空间. 在集中式训练、分散式执行的训练框架中引入自适应课程调度器,动态调整训练环境复杂度和动作探索的噪声强度. 多组对抗仿真实验的结果表明,相较于基准方法(如无课程学习和传统课程学习方法),所提方法能够有效提升围捕成功率,缩短平均任务完成时间和平均围捕路径长度,降低碰撞次数,并展现出良好的泛化能力与对抗适应性.

关键词: 无人艇 ; 围捕与防御 ; 自适应课程学习 ; 多智能体强化学习 ; 多智能体近端策略优化 ; MAPPO

Abstract

An encirclement decision-making method based on adaptive curriculum learning and multi-agent proximal policy optimization (MAPPO) algorithm was proposed to address the problem of encirclement and game confrontation for unmanned surface vehicle (USV) swarms in complex marine environments. For maritime encirclement and defense tasks, a combat simulation environment including dynamic targets and multiple reefs was constructed, and the judgement criteria for successful encirclement and task termination were defined. To improve the decision-making efficiency in complex adversarial environments, a normalized state space representing the motion states of both friendly and hostile parties, multi-scale reward functions, and a continuous action space were designed. An adaptive curriculum scheduler was introduced into the centralized training and decentralized execution framework to dynamically adjust the environmental complexity and the noise intensity of action exploration. The results of multiple sets of adversarial simulation experiments indicate that, compared to the baseline methods (i.e., no curriculum learning and traditional curriculum learning methods), the proposed method effectively improves the encirclement success rate, shortens the average task completion time and the average encirclement path length, reduces the number of collisions, and exhibits good generalization ability and adversarial adaptability.

Keywords: unmanned surface vehicle ; encirclement and defense ; adaptive curriculum learning ; multi-agent reinforcement learning ; multi-agent proximal policy optimization ; MAPPO

PDF (5491KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈浪, 刘增力, 赵宣植. 基于自适应课程强化学习的多无人艇对抗围捕决策. 浙江大学学报(工学版)[J], 2026, 60(7): 1369-1380 doi:10.3785/j.issn.1008-973X.2026.07.001

CHEN Lang, LIU Zengli, ZHAO Xuanzhi. Decision-making for multi-USV adversarial encirclement based on adaptive curriculum reinforcement learning. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1369-1380 doi:10.3785/j.issn.1008-973X.2026.07.001

在局部战争中,水面无人艇(unmanned surface vehicle, USV)等智能化无人装备展现出强大的作战效能. 各方广泛部署自杀式无人艇,可以执行对高价值目标的精准打击、诱骗消耗目标火力、扰乱决策部署等多样化任务[1]. 随着陆、空无人集群博弈对抗技术的快速发展[2],海洋无人艇集群的博弈对抗研究逐步开展,旨在推动海陆空一体化的智能无人集群协同作战体系的建设. 然而,当前海洋无人艇集群对抗研究仍然处于起步阶段,亟须在智能协同、对抗博弈等关键技术领域取得突破.

针对多无人艇围捕问题,宋利飞等[3]利用改进势点法与匈牙利算法动态分配目标点,并结合阿波罗尼奥斯圆,缩紧对目标的包围区域. Chen等[4]提出基于分布式拍卖的任务分配机制,采用量子粒子群优化算法来优化初始包围圈;经仿真验证,该算法提升了围捕效率. 杨惠珍等[5]基于几何关系分析自主水面无人艇(autonomous surface vehicle, ASV)协同围捕中的目标逃逸因素,结合微分博弈与粒子群优化(particle swarm optimization, PSO)算法来求解最优策略. 然而,传统的基于规则或优化理论的方法在处理此类高度动态、不确定性强的对抗博弈问题时,往往面临模型构建复杂、泛化能力不足等挑战.

随着人工智能技术的快速发展,多智能体强化学习(multi-agent reinforcement learning, MARL)凭借其在复杂决策问题中通过与环境交互进行端到端学习的强大能力[6],为解决多无人艇智能决策问题提供了新的范式. 于长东等[7]采用多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法来解决无人艇群博弈对抗下的协同围捕决策问题,并通过3对1和6对2仿真实验验证了模型的有效性. Qu等[8]提出面向多种随机场景的对抗进化博弈训练方法,并结合课程学习技术,使双方在对抗训练中不断优化决策模型,提升了模型的追逃和避障能力. Li等[9]结合多智能体近端策略优化(multi-agent proximal policy optimization, MAPPO)算法与新型速度控制机制,并引入课程学习技术,验证了该方法在策略收敛和捕获效率上具有显著优势. Li等[10]提出基于课程经验学习的CEL-MADDPG算法,将多无人机围捕任务分为3个子任务,以提高模型学习效率. Xia等[11]提出基于分布式部分可观测马尔可夫决策过程的多智能体近端策略优化算法,用于解决无边界、无障碍约束的围捕问题. Hou等[12]结合分布式软演员-评论家算法与课程学习技术,以应对传统追捕方法在复杂水下环境中的局限性. 苏震等[13]针对无人艇集群在无障碍物作战区域内的动态博弈对抗问题,采用基于双评价网络改进的深度确定性策略梯度算法,并验证了算法的有效性. 符小卫等[14]提出解耦的MADDPG算法,并在无障碍物的环境中验证了无人机对高速逃跑目标的围捕有效性. Gan等[15]提出基于课程式深度强化学习的障碍物辅助多USV协同追逐框架,有效提高了追逐效率. 然而,上述研究仍然存在场景简单化、训练与学习效率低、奖励稀疏、泛化性差等问题;尤其是在敌我双方均为学习型智能体的复杂对抗场景中,这些问题更为突出.

针对上述问题,面向无人艇多对一围捕对抗任务,构建包含多岛礁与动态目标等复杂元素的仿真环境,在状态空间建模过程中融合自身、邻居、目标和障碍物等多源信息并进行归一化处理. 针对围捕任务的对抗性,设计多尺度奖励函数,以缓解奖励稀疏问题. 提出基于自适应课程学习(adaptive curriculum learning, ACL)和MAPPO算法的围捕决策方法,在集中式训练、分散式执行的框架中,动态调整训练环境的复杂度和动作探索的噪声强度. 与基准方法相比,所提方法能够有效提升围捕成功率,缩短平均任务完成时间和平均围捕路径长度,并降低碰撞次数. 此外,该方法在不同环境复杂度和目标策略下均表现出良好的泛化能力与对抗适应性.

1. 模型建立

USV运动模型如图1所示. 将USV的运动限制在水平面上,忽略横摇和纵摇运动,将运动模型的运算复杂度控制在可接受的范围内. 同时,基于双方USV建立距离探测模型[10],模拟USV艇身,安装24个呈环状均匀分布的激光测距传感器,以帮助其检测到可能的实体障碍物. 定义二阶运动学方程和传感器数量:

图 1

图 1   USV运动模型图

Fig.1   Diagram of USV motion model


$ \left.\begin{array}{l}x_{t+\Delta t}^i=x_t^i+\Delta t \cdot v_t^i \cos \psi_t^i, \; 0 \leqslant x_t^i \leqslant X_{\max } ; \\y_{t+\Delta t}^i=y_t^i+\Delta t \cdot v_t^i \sin \psi_t^i, \; 0 \leqslant y_t^i \leqslant Y_{\max } ; \\\dot{\psi}^i_t=\omega_i, \;\; \dot{v}^i_t=a_v, \;\; \dot{\omega}_i=a_\omega .\end{array}\right\} $

$ {L}_{\text{obs}}=\left[{l}_{1},{l}_{\text{2}},\cdots ,{l}_{\text{24}}\right];  \;{l}_{i}\in \left[0,L\right]. $

式中:$ (x_{t}^{i},y_{t}^{i}) $为USV在当前时刻的位置;$ {v}^i_t $$ {\omega }_i $$ {\psi }^i_t $分别为航速、角速度、航向角,其中航速$ {v}^i_t $和角速度$ {\omega }_{i} $受到约束限制,即$ -{\omega }_{\text{max}}\leqslant {\omega }_{i}\leqslant {\omega }_{\text{max}} $,$ 0\leqslant v_{t}^{i}\leqslant {v}_{\max } $$ \Delta t $为仿真时间步长;$ {X}_{\max } $$ {Y}_{\max } $分别为环境在横、纵轴上的最大长度;$ {a}_{v} $$ {a}_{\omega } $分别为加速度和角加速度;L为传感器的最大检测范围,设置为100 m;$ {l}_{i} $为USV与障碍物、环境边界或其他USV之间的距离. 当传感器未检测到障碍物、环境边界或USV时,$ {l}_{i}=L $;当传感器检测到障碍物、环境边界或USV时,$ {l}_{i}\in \left[0,L\right] $.

2. 问题描述与约束条件

2.1. 问题描述

构建二维海域作战仿真环境,场景中分布有若干岛礁作为障碍物,并设有1处包含工作站的己方岛礁. 由多艘USV组成的己方团队执行协同围捕任务. 在任务开始时,系统根据目标USV的初始位置动态选择距离目标最近的3艘USV,将其激活,使其承担主动追捕任务,其余USV处于待命状态;这样不仅减少了任务完成时间,而且避免了资源浪费. 己方的作战目标是通过多艇协同形成有效的包围态势,在距离、角度和朝向约束下成功拦截目标;而目标USV需要规避围捕、突破防线并攻击己方岛礁.

在现有的大部分研究中,将围捕成功的判定条件设置为己方与目标的距离小于阈值[6,10,12-14,16],未考虑角度约束. 一部分研究将合围态势纳入考虑范围,即有效包围角度$ \leqslant 180{^{\circ}} $且各USV与目标的距离均小于捕获阈值[8,11],这可能造成包围间隙过大,使目标容易逃脱. 另一部分研究从实际工程出发,允许围捕夹角存在一定的角度偏移,并且距离约束设有上、下限[17-18],但是未考虑己方是否朝向目标,以及是否形成有效且严谨的包围态势.

综上,如图2所示,考虑USV的欠驱动性,为了确保在多障碍物场景中让目标无过大的逃脱空隙并保持严谨的合围态势,在3围1的仿真实验中,定义围捕成功的约束条件:

图 2

图 2   围捕成功的约束条件示意图

Fig.2   Schematic diagram of constraints for successful encirclement


$ \left.\begin{array}{ll}{d}_{\text{safe}}\leqslant {d}_{I \text{T}}\leqslant {d}_{\text{fin}},&   I \in \left\{i,j,k\right\};\\\left| {\alpha }_{\mathit{\Lambda }}-120{^{\circ}}\right| \leqslant 15{^{\circ}},&  \mathit{\Lambda }\in \left\{ij,jk,ki\right\};\\{\theta }_{I \text{T}}\leqslant 90{^{\circ}},& I \in \left\{i,j,k\right\}.\end{array}\right\} $

式中:I为己方USV,ijk为3艘己方USV的编号;$ {d}_{I \text{T}} $为己方USV与目标USV之间的欧氏距离;$ {d}_{\text{safe}} $为USV之间的安全距离,也是最小捕获距离;$ {d}_{\text{fin}} $为捕获距离;$ {\alpha }_{\mathit{\Lambda }} $为任意相邻2艘USV以目标为顶点形成的夹角,例如,$ {\alpha }_{ij} $为USVi与USVj相对于目标的夹角,其理想值为120°;$ {\theta }_{I \text{T}} $为USV速度矢量与USV到目标的连线向量形成的夹角.

2.2. 任务终止条件

为了更加贴合真实的军事化作战场景,规定对抗过程中须满足以下约束条件:1)双方任意USV若超出作战范围,则当前任务回合结束;2)若己方USV之间发生碰撞,则当前任务回合结束;3)若双方任意USV与障碍物发生碰撞,则当前任务回合结束.

3. 对抗围捕决策方法

3.1. 部分可观测马尔可夫决策过程

己方USV的决策过程可以使用分布式部分可观测马尔可夫决策过程(partially observable Markov decision process, Dec-POMDP)来定义[19]. 在Dec-POMDP中,每个智能体只能获得局部的观测信息,而无法获得全局的状态信息. 在每一时间步,每个智能体根据其局部观测信息做出行动决策,且所有智能体通过执行联合动作来刷新环境状态.

将Dec-POMDP定义为$ \left(N,\boldsymbol{S},\boldsymbol{A},\boldsymbol{O},Z,F,R,\gamma \right) $,其中N为智能体的数量;S为环境的全局状态空间,用$ \boldsymbol{s}\in \boldsymbol{S} $表示当前环境状态;$ \boldsymbol{A}=\left({{\boldsymbol{A}}}^{1},{{\boldsymbol{A}}}^{2}\text{,}\cdots ,{{\boldsymbol{A}}}^{N}\right) $为所有智能体的联合动作空间,其中$ {\boldsymbol{A}}^{i} $为第i个智能体的动作空间,用$ {\boldsymbol{a}}_{i}\in {\boldsymbol{A}}^{i} $表示智能体i的动作,$ \boldsymbol{a}=\left({\boldsymbol{a}}_{1},{\boldsymbol{a}}_{2},\cdots ,{\boldsymbol{a}}_{N}\right) $表示所有智能体的联合动作;$ \boldsymbol{O}=({\boldsymbol{O}}^{1},{\boldsymbol{O}}^{2},\cdots ,{\boldsymbol{O}}^{N}) $为所有智能体对环境的观测量空间,其中$ {\boldsymbol{o}}_{i}\in {\boldsymbol{O}}^{i} $为第i个智能体的局部观测量,用$ \boldsymbol{o}=\left({\boldsymbol{o}}_{\text{1}}\text{,}{\boldsymbol{o}}_{\text{2}}\text{,}\cdots \text{,}{\boldsymbol{o}}_{N}\right) $表示所有智能体的联合观测量;Z为观测模型,$ {\boldsymbol{o}}_{i}=Z(\boldsymbol{s},i) $表示在给定全局状态s下智能体i获得的观测信息;$ F\colon P\left({\boldsymbol{s}}^{\prime}|\boldsymbol{s},\boldsymbol{a}\right)$为状态转移概率函数,表示所有智能体在状态s下执行联合动作a时,环境状态改变到下一个环境状态$ {\boldsymbol{s}}^{\prime} $的概率分布模型;$ R\left(\boldsymbol{s}\text{,}\boldsymbol{a}\right) $为在环境状态s下执行联合动作a的联合奖励函数;$ \gamma \in [0, 1.0] $为用于调整未来奖励对当前决策的影响的折扣因子.

在Dec-POMDP框架下,每个智能体根据各自的策略$ {{\textit{π}}}^{i}\colon {\boldsymbol{O}}^{i}\mapsto {\boldsymbol{A}}^{i} $而做出行动决策,联合策略为$ {{\textit{π}}}=(\pi ^{1},\pi ^{2},\cdots ,\pi ^{N}) $. 给定联合观测量$ \boldsymbol{o} $和联合策略$ {{\textit{π}}} $,智能体i的状态价值函数$ V_{{\textit{π}}}^{i}(\boldsymbol{o}) $、动作价值函数$ Q_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a}) $和优势函数$ A_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a}) $分别为

$ \left.\begin{array}{c} V_{{\textit{π}}}^{i}(\boldsymbol{o})={E}_{{\textit{π}}}\left[\displaystyle\sum\limits_{t=0}^{\mathrm{\infty }}{\gamma }^{t}r_{t}^{i}\mid {\boldsymbol{o}}_{t=0}=\boldsymbol{o}\right],\\Q_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a})={E}_{{\textit{π}}}\left[\displaystyle\sum\limits_{t=0}^{\mathrm{\infty }}{\gamma }^{t}r_{t}^{i}\mid {\left(\boldsymbol{o},\boldsymbol{a}\right)}_{t=0}=(\boldsymbol{o},\boldsymbol{a})\right].\end{array}\right\} $

$ A_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a})=Q_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a})-V_{{\textit{π}}}^{i}(\boldsymbol{o}). $

式中:$ r_{t}^{i} $为第i个智能体在时刻t获得的奖励;优势函数$ A_{{\textit{π}}}^{i}(\boldsymbol{o},\boldsymbol{a}) $负责评估智能体的动作优劣程度,确保多智能体协同策略的收敛;$ {E}_{{\textit{π}}} $为期望算子.

3.2. 状态空间设计

3.2.1. 己方USV的状态空间设计

每个USV都带有传感器,负责检测和获取观测信息. 己方USV的观测模型如图3所示. 现有的大多数研究在设计状态空间时未对其进行归一化处理[20-21],从而导致训练不稳定以及智能体学习困难. 因此,以场景边界为参考范围将位置特征归一化至[−1.0,1.0],基于最大速度将速度特征归一化至[−1.0,1.0],基于场景对角线长度将距离特征归一化至[0, 1.0],再分别以最大角度$ 180{^{\circ}} $$ 360{^{\circ}} $将航向夹角特征和围捕角特征归一化至[0, 1.0]. 定义USVi的归一化观测模型为$ {\boldsymbol{o}}_{i}=\left[{\boldsymbol{o}}_{i\text{T}},{\boldsymbol{o}}_{i,j},{\boldsymbol{o}}_{i,\text{other}},{\boldsymbol{o}}_{i,\text{obs}},{\boldsymbol{o}}_{\text{self}}\right] $,对目标和友方的观测信息向量分别为

图 3

图 3   己方USV观测模型

Fig.3   Observation model for friendly USVs


$ {\boldsymbol{o}}_{i\text{T}}=\left[\Delta {x}_{i\text{T}}, \Delta {y}_{i\text{T}}, {\theta }_{i\text{T}}, \Delta {v}_{x\text{,}i\text{T}}, \Delta {v}_{y\text{,}i\text{T}}, {d}_{i\text{T}}\right], $

$ {\boldsymbol{o}}_{i,j}=\left[\Delta {x}_{ij}, \Delta {y}_{ij}, {d}_{ij}, {\theta }_{ij}\right]. $

式中:$ \left(\Delta {x}_{i\text{T}},\Delta {y}_{i\text{T}}\right) $为目标相对于USVi的位置信息,$ {\theta }_{i\text{T}} $为USVi的速度矢量与USV到目标的连线向量所形成的夹角,$ \left(\Delta {v}_{x\text{,}i\text{T}},\Delta {v}_{y\text{,}i\text{T}}\right) $为目标相对于USVi的速度信息,$ {d}_{i\text{T}} $为USVi与目标USV之间的距离,$ \left(\Delta {x}_{ij},\Delta {y}_{ij}\right) $$ {\text{USV}}_{j} $相对于USVi的位置信息,$ {d}_{ij} $为2艘USV之间的距离,$ {\theta }_{ij} $为USVi的速度矢量与2艘USV之间的连线向量之间的夹角.

协同观测信息向量、测距传感器和自身的观测信息向量分别为

$ {\boldsymbol{o}}_{i,\text{other}}=\left[{\overline{d}}_{\text{T}},\Delta {{\alpha }}_{i}\right], $

$ {\boldsymbol{o}}_{i,\text{obs}}=\left[{l}_{\text{1}}, {l}_{2}, \cdots , {l}_{24}\right]/L, $

$ {\boldsymbol{o}}_{\text{self}}=\left[\begin{array}{c} {x}_{i}/{X}_{\max },\;{y}_{i}/{Y}_{\max },\;{v }_{{{{x}}_{i}}}/{v }_{\max },\;{v }_{{{y}_{i}}}/{v }_{\max } \end{array}\right]. $

式中:$ {\overline{d}}_{\text{T}} $为剩余捕获距离的均值,$ \Delta {{\alpha }}_{i} $为USVi$ {\text{USV}}_{j} $$ {\text{USV}}_{k} $形成的2个围捕角之差,$ {\boldsymbol{o}}_{i,\text{obs}} $为测距传感器返回的数据,$ {\boldsymbol{o}}_{\text{self}} $为USVi的位置信息和速度信息,$v_{\max }$为USV的最大速度.

全局状态s由参与围捕任务的各艘USV的局部观测向量拼接而成,其表达式为$ \boldsymbol{s}\mathbf{=}\left[{\boldsymbol{o}}_{i},{\boldsymbol{o}}_{j},{\boldsymbol{o}}_{k}\right]. $其中,$ {\boldsymbol{o}}_{i}、{\boldsymbol{o}}_{j}、{\boldsymbol{o}}_{k} $分别表示编号为$ i、j、k $的USV的局部观测信息向量.

3.2.2. 目标USV的状态空间设计

目标USV的观测模型如图4所示,其归一化观测信息向量为$ {\boldsymbol{o}}_{\text{T}}=\left[{\boldsymbol{o }}_{\text{T}}{}_{\text{,u}},{\boldsymbol{o}}_{\text{T,obs}},{\boldsymbol{o}}_{\text{TW}},{\boldsymbol{o }}_{\text{T,self}}\right] $,其中目标对己方USV的观测信息向量为$ {\boldsymbol{o }}_{\text{T,u}}=[{\boldsymbol{o}}_{\text{u,}i},{\boldsymbol{o}}_{\text{u,}j},{\boldsymbol{o}}_{\text{u,}k}] $,且

图 4

图 4   目标USV观测模型

Fig.4   Observation model for target USV


$ {\boldsymbol{o}}_{\text{u,}i}=[\Delta {x}_{\text{T}i},\Delta {y}_{\text{T}i},{\mathit{\Phi }}_{\text{T}i},\Delta {v}_{x,i},\Delta {v}_{y,i},{d}_{\text{T}i}]. $

式中:$ \left(\Delta {x}_{\text{T}i},\Delta {y}_{\text{T}i}\right) $$ {\text{USV}}_{i} $相对于目标的位置信息,$ {\mathit{\Phi }}_{\text{T}i} $为目标与$ {\text{USV}}_{i} $的相对方位角,$ \left(\Delta {v}_{x,i},\Delta {v}_{y,i}\right) $$ {\text{USV}}_{i} $相对于目标的速度信息,$ {d}_{\text{T}i} $为目标与$ {\text{USV}}_{i} $之间的距离.

艇身搭载的测距传感器观测到的信息向量为$ {\boldsymbol{o }}_{\text{T,obs}}=\left[{\gamma }_{1}, {\gamma }_{2}, \cdots , {\gamma }_{24}\right]/L $,目标USV自身的观测信息向量为$ {\boldsymbol{o }}_{\text{T,self}}=\left[{{x}_{{\mathrm{T}}}}/{X}_{\max }, {{y}_{{\mathrm{T}}}}/{Y}_{\max }, {{{v}_{x,{\mathrm{T}}}}}/{v }_{\max }, {{{v}_{y,{\mathrm{T}}}}}/{v }_{\max }\right] $,对己方岛礁的观测信息向量为$ {\boldsymbol{o}}_{\text{TW}}=\left[{d}_{\text{TW}}\right] $,其中$ {d}_{\text{TW}} $为目标与己方岛礁的距离.

3.3. 动作空间设计

考虑到USV的欠驱动性,需要调整的参数主要包括沿航向的线速度(航速)和航向角速度. 通过借鉴文献[22]的思想来设计连续动作空间,再引入文献[23]中根据误差反馈来实现轨迹跟踪控制的思想,通过输入期望航速$ {v}_{\exp } $和期望航向角度$ {\varphi }_{\exp } $来间接地控制USV的加速度$ {a}_{v} $和角加速度$ {a}_{\omega } $,从而减小系统的决策难度. 因此,定义动作空间的核心表达式:

$ \left.\begin{array}{l}{v}_{\exp }={v}_{\text{max}}\left|\left|\boldsymbol{\delta }\right|\right|,\\{\varphi }_{\exp }=\text{arctan}\left({a}_{y}/{a}_{x}\right).\end{array}\right\} $

$ \left.\begin{array}{l}{a}_{v}=\left({v}_{\text{exp}}-{v}_{\text{cur}}\right)/\Delta t,\\{a}_{\omega }=\left({\varphi }_{\text{exp}}-{\varphi }_{\text{cur}}\right)/\Delta t.\end{array}\right\} $

式中:$ \boldsymbol{\delta }=[{a}_{x}, {a}_{y}] $$ {a}_{x}、{a}_{y} $xy方向上2个正交的独立控制量,其值由策略网络生成,并且$ {a}_{x}、 {a}_{y}\in [-1.0, 1.0] $$ {v}_{\text{cur}} $$ {\varphi }_{\text{cur}} $分别为当前的速度和航向角度.

3.4. 双方奖励函数设计
3.4.1. 己方USV的奖励函数设计

为了确保所有追捕目标的USV都可以保持高速状态并抵达目标附近,同时能够围绕目标形成均匀分布的包围态势,并避免消极掉队行为,定义距离奖励函数、围捕角度奖励函数、速度奖励函数和协同奖励函数,分别为

$ {R}_{\text{dis}} = - \left\{{k}_{\text{d1}}{d}_{i\text{T}} + {k}_{\text{d2}}\exp \left[\left({d}_{i\text{T}}-\overline{d}\right) /\max \left({{\sigma } }_{\text{d}},{\sigma }_{\text{d,min}}\right)\right] - 1\right\}, $

$\begin{split} R_{\text {ang }}=&k_{\text {a1 }}\left[\operatorname { m i n } \left(\exp \left(-\left|\alpha_{i j}-\alpha_{\text {opt }}\right|\right), \exp \left(-\mid \alpha_{i k}-\right.\right.\right. \\& \left.\left.\left.\alpha_{\text {opt }} \mid\right)\right)-1\right]+k_{\text {a2 }}\left(\exp \left(-\Delta \alpha_i\right)-1\right),\end{split} $

$ {R}_{\text{vel}}={k}_{\text{v}}\cdot {v}_{i}/{v}_{\text{max}}, $

$ R_{\text {cop }}=\left\{\begin{array}{ll}1.8, & d_{i{ \mathrm{T}}} \leqslant d_{\text {fin }} ; \\ 1.3, & d_{i{ \mathrm{T}}}> d_{\text {fin }}{ \text { 且 }} \exists j \neq i, d_{j \mathrm{T}} \leqslant d_{\text {fin}}; \\ 0, & { \text { 其他. }}\end{array}\right. $

式中:$ \overline{d} $为所有已激活的USV到目标的距离均值,$ {\sigma }_{\text{d}} $为所有USV到目标的距离标准差(最小值$ {\sigma }_{\text{d,min}}=0.01 $),理想夹角αopt=120°,$ \Delta {\overline{\alpha }}_{i}=\left| {\alpha }_{ij}-{\alpha }_{ik}\right| $为角度差,$ {v}_{i} $为当前速度,$ {k}_{\text{d1}}、{k}_{\text{d2}} $为距离奖励系数,$ {k}_{\text{a1}}、{k}_{\text{a2}}$为围捕角度奖励系数,${k}_{\text{v}} $为速度奖励系数.

为了确保USV始终在有效区域内活动,在防止碰撞的同时不过度抑制探索行为,定义惩罚函数为

$ {R}_{\text{las}}={l}_{\text{min}}-1. $

$ R_{\mathrm{act}}= \left\{\begin{array}{rl}-25, & \text { 超出边界; } \\-20, & \text { 发生碰撞; } \\0, & \text { 其他. }\end{array}\right. $

$ {R}_{\text{col}}=\min \;({R}_{\text{act}},{R}_{\text{las}}). $

式中:$ {R}_{\text{las}} $为激光预警惩罚,$ {l}_{\text{min}}\in \left[0, 1.0\right] $为归一化后的最小激光读数,$ {R}_{\text{act}} $为实际碰撞惩罚,$ {R}_{\text{col}} $为最终碰撞惩罚.

USV在每个时间步获得固定的耗时惩罚$ {R}_{\text{time}}\text{=} -\text{0.02} $,旨在让围捕任务尽快完成. 围捕成功可获得一次性奖励,其值为50. 最后,USV在每个时间步获得的总奖励$ {R}_{\text{step}} $

$ {R}_{\text{step}}\text={R}_{\text{cop}}\text+{R}_{\text{time}}+\sum\limits_{i=1}^{4}{w}_{i}{R}_{i}. $

式中:$ {w}_{i} $为权重系数,其和始终为1;$ {R}_{i} $$ \{{R}_{\text{dis}}, {R}_{\text{ang}}, {R}_{\text{vel}},{R}_{\text{col}}\} $中的第i类奖励.

3.4.2. 目标USV的奖励函数设计

目标的总奖励由5个部分组成:接近工作站奖励、躲避奖励、碰撞惩罚、时间步惩罚以及工作站到达奖励. 其中,时间步惩罚$ {R}_{\text{time}} $=−0.01;当目标到达己方岛礁时,给予一次性正向激励,其值为20.

接近工作站奖励和躲避奖励的表达式分别为

$ {R}_{\text{aph}}={K}_{\text{aph}}({\mathit{\Gamma }}_{\text{last}}-{\mathit{\Gamma }}_{\text{cur}}), $

$ {R}_{\text{eva}}={K}_{\text{eva}}({d}_{\text{min,cur}}-{d}_{\text{min,last}}). $

式中:$ {K}_{\text{aph}} $为接近工作站奖励系数,$ {\mathit{\Gamma }}_{\text{last}} $为上一时刻目标与己方岛礁的距离,$ {\mathit{\Gamma }}_{\text{cur}} $为当前时刻目标与己方岛礁的距离,$ {K}_{\text{eva}} $为躲避奖励系数,$ {d}_{\text{min,cur}}、{d}_{\text{min,last}} $分别为当前时刻和上一时刻目标与己方USV的最短距离.

碰撞惩罚由3个子项组成,取其中最严重的惩罚,表达式为$ {R}_{\text{col},{\mathrm{T}}}=\min ({R}_{\text{bnd}},{R}_{\text{ety}},{R}_{\text{las},{\mathrm{T}}}) $. $ {R}_{\text{bnd}}、 {R}_{\text{ety}}、 {R}_{\text{las},{\mathrm{T}}} $分别为边界碰撞惩罚、实体障碍物碰撞惩罚、基于激光的碰撞惩罚,其设计与己方碰撞惩罚函数相同.

3.5. 自适应课程学习-多智能体近端策略优化算法

ACL-MAPPO算法的训练架构如图5所示. 自适应课程调度器通过动态调整环境难度,实现高效且具备环境适应性的智能体训练. 在每轮训练结束后,调度器统计当前难度下滑动窗口的成功率,若成功率高于设定的阈值且训练回合数满足最小要求,则提升场景难度;若成功率低于降级阈值,则降低场景难度;若己方USV在长时间内获得的平均奖励值无明显提升,则触发降级信号,从而避免策略陷入局部最优. 环境难度更新的核心表达式为

图 5

图 5   自适应课程学习-多智能体近端策略优化算法训练架构

Fig.5   Training architecture of ACL-MAPPO algorithm


$ {g}_{t+1}=\begin{cases} {g}_{t}+1, &  {S} _{{{g}_{t}}}\geqslant {\rho }_{{{g}_{t}}}且{E}_{{{g}_{t}}}\geqslant {E}_{{{g}_{t}},\min };\\{g}_{t}-1, & {S} _{{{g}_{t}}} \lt \lambda \cdot {\rho }_{{{g}_{t}}} 或{N}_{{{g}_{t}}}\geqslant {P}_{{{g}_{t}}};\\{g}_{t}, & 其他.\end{cases} $

式中:$ {g}_{t} $为当前难度值;$ {S} _{{{g}_{t}}} $为滑动窗口成功率;$ {\rho }_{{{g}_{t}}} $为升级阈值;$ {E}_{{{g}_{t}}} $为当前难度下的训练回合数;$ {E}_{{{g}_{t}},\min } $为最小训练回合数;$ \lambda $为降级系数;$ {N}_{{{g}_{t}}} $为实际停滞次数;$ {P}_{{{g}_{t}}} $为耐心阈值,即允许的最大停滞次数.

己方USV的策略训练采用MAPPO算法,该算法是在线策略(on-policy)算法[24]. 与离线式多智能体强化学习算法如MADDPG算法相比,MAPPO无须在训练之前收集大量经验数据. 此外,MAPPO限制了策略熵和策略更新程度,从而提高了算法的稳定性和性能. 如图5所示,MAPPO采用集中式训练、分散式执行的训练框架:每个USV根据当前时刻的局部观测量$ \boldsymbol{o}_{i}^{t} $,通过策略网络独立选择下一时刻的动作$ \boldsymbol{a}_{i}^{t+1} $,以实现分散式执行;价值网络根据全局状态$ \boldsymbol{s} $来估计全局价值,并调整策略网络参数,从而实现集中式训练. 在执行器中,针对多智能体情况,策略网络的优化目标是使引入近端策略优化约束的策略梯度损失最大化:

$\left.\begin{array}{l}L(\theta)=\dfrac{1}{B N} \displaystyle\sum_{i=1}^B \displaystyle\sum_{j=1}^N \min \left(c_{\theta, i}^{j} \hat{A}_i^{j}, \operatorname{clip}\left(c_{\theta, i}^{j}, 1-\epsilon, 1+\right.\right. \\\left.\quad \epsilon) \hat{A}_i^{j}\right)+\dfrac{\alpha_{\mathrm{H}}}{B N} \displaystyle\sum_{i=1}^B \displaystyle\sum_{j=1}^N H\left[\pi_{\theta_i}\left(\cdot \mid \boldsymbol{o}_j^{i}\right)\right], \\c_{\theta, i}^{j}(\theta)=\pi_\theta\left(\boldsymbol{a}_j^{i} \mid \boldsymbol{o}_j^{i}\right) / \pi_{\theta_{\mathrm{old}}}\left(\boldsymbol{a}_j^{i} \mid \boldsymbol{o}_j^{i}\right), \\\theta=\arg \max _\theta L(\theta) .\end{array}\right\}$

式中:B为批次大小,N为己方参与围捕的USV数量,$ \theta $为策略网络参数,$ c_{\theta ,i}^{j}(\theta ) $为新、旧策略的概率比值,${\mathrm{clip}}\,(\cdot) $为截断函数,$ \hat{A}_{i}^{j} $为优势函数,$ \epsilon $为裁剪系数,$ H[{{{\pi}} }_{{{\theta }_{i}}}(\cdot |\boldsymbol{o}_{i}^{j})] $为策略熵,$ {\alpha }_{\text{H}} $为策略熵系数.

评价器中的价值网络采用时间差分算法来最小化损失函数,同时使用价值裁剪操作来增强稳定性,进而更新神经网络参数. 其损失函数为

$ \begin{split} L(\phi)=&\frac{1}{B N} \sum_{i=1}^B \sum_{j=1}^N \max \left[\left(V_\phi\left(\boldsymbol{s}_i^{j}\right)-\hat{R}_i\right)^2,\right. \\&\left(\operatorname {clip} \left(V_\phi\left(\boldsymbol{s}_i^{j}\right), V_{\phi_{\text {old }}}\left(\boldsymbol{s}_i^{j}\right)-\right.\right. \\& \left.\left.\left.\epsilon, V_{\phi_{\text {old }}}\left(\boldsymbol{s}_i^{j}\right)+\epsilon\right)-\hat{R}_i\right)^2\right].\end{split} $

式中:$ {\phi} $为价值网络参数,$ {V}_{{\phi}}\left(\boldsymbol{s}_{i}^{j}\right) $为价值网络对全局状态$ {{\boldsymbol{s}}}_{i}^{j} $的估计值,$ {\hat{R}}_{i} $为计算得到的目标回报值.

采用广义优势估计(generalized advantage estimation, GAE)方法[25]来计算评估USV的动作优劣程度,表示为

$ \begin{split} {\hat{A}}^{t}=&{\delta }_{t}+(\gamma {\lambda }_{\text{GAE}}){\delta }_{t+1}+(\gamma {{\lambda }_{\text{GAE}}})^{2}{\delta }_{t+2}+\\&\cdots +(\gamma {{\lambda }_{\text{GAE}}})^{T-t-1}{\delta }_{T-1}.\end{split} $

式中:$ {\delta }_{t}={r}^{t}+\gamma V({\boldsymbol{s}}^{t+1})-V({\boldsymbol{s}}^{t}) $为时序差分误差;$ {r}^{t} $为USV在时间步t执行动作后,从环境中获得的即时奖励;$ V({\boldsymbol{s}}^{t}) 、V({\boldsymbol{s}}^{t+1})$为当前全局状态和下一时刻全局状态的价值估计;$ \gamma $为折扣因子;$ {\lambda }_{\text{GAE}} $为GAE参数,用于平衡偏差和方差.

在训练过程中,MAPPO经验池负责收集已激活的己方所有USV执行任务时的联合观测数据$ \left\{{\boldsymbol{s}}^{t},\boldsymbol{a}_{N}^{t},\boldsymbol{r}_{N}^{t},{\boldsymbol{s}}^{t+1},\ln [{{{\pi}} }_{{{\theta }_{\text{old}}}}(\boldsymbol{a}_{N}^{t}|\boldsymbol{o}_{N}^{t})]\right\} $;同时,PPO经验池负责存储目标USV的观测数据$ \{\boldsymbol{o}_{\text{T}}^{t},\boldsymbol{a}_{\text{T}}^{t},\boldsymbol{r}_{\text{T}}^{t},\boldsymbol{o}_{\text{T}}^{t+1}\} $. 在数据收集过程中,每达到预设的轨迹长度就进行1次策略更新,对每个批次的数据$\left\{{{\boldsymbol{s}}}_{\text{batch}}^{{t}}, {\boldsymbol{a}}_{{\mathrm{batch}}}^{t}, {\boldsymbol{r}}_{{\mathrm{batch}}}^{t},{\boldsymbol{s}}_{{\mathrm{batch}}}^{t+1}\right\} $执行多轮策略和价值网络更新,并在更新结束后清空经验池.

为了提升己方USV在不同课程阶段的探索能力,设计随课程难度进行动态调整的动作噪声调节机制[26]来模拟海洋扰动,并结合策略网络通过抽样得到的动作,具体表达式为

$ \begin{cases} \boldsymbol{a}={\boldsymbol{a}}_{\text{sam}}+\boldsymbol{\varepsilon },\\\boldsymbol{\varepsilon }=\boldsymbol{\xi }\cdot {u}_{\text{noi}}\cdot {\boldsymbol{\sigma }}_{\theta }.\end{cases} $

$ \begin{cases} {u}_{\text{noi}}(n)=\max \left(u_{\text{noi}}^{\min },{u}_{\text{noi}}(n-1)\cdot {\beta }^{n}\right),\\u_{\text{noi}}^{\min }({g}_{t})=u_{\text{noi}}^{\min }\cdot (1+0.5\cdot {g}_{t}).\end{cases} $

$ \boldsymbol{\xi }=\begin{cases} {\boldsymbol{\xi }}_{\text{gau}}\sim G(0, 1), & {g}_{t}\geqslant 3;\\{\boldsymbol{\xi }}_{\text{uni}}\sim U(-1, 1), & {g}_{t} \lt 3.\end{cases} $

式中:$ \boldsymbol{a} $为最终执行的二维动作向量;$ {\boldsymbol{a}}_{\text{sam}} $为策略网络抽样所得的二维动作向量;$ \boldsymbol{\xi } $为二维噪声分布采样向量,其中$ {\boldsymbol{\xi }}_{\text{gau}} $为二维标准正态分布采样向量,$ {\boldsymbol{\xi }}_{\text{uni}} $为二维均匀分布采样向量;$ {u}_{\text{noi}} $为噪声强度;$ {\boldsymbol{\sigma }}_{\theta } $为策略网络输出的二维标准差向量;n为累计训练步数;$ u_{\text{noi}}^{\min } $为最小噪声尺度,取值为0.08;$ \beta $为噪声衰减系数,取值为0.999. 此外,初始噪声尺度取值为0.75.

4. 仿真实验与结果分析

4.1. 仿真环境构建与参数设置

实验程序基于Python 3.10.15编写. 采用OpenCV(CV2)构建二维战场环境,调用OpenAI Gym库的空间类对USV的状态空间和动作空间进行初始化处理,并基于Pytorch 1.4.1框架实现神经网络的构建和训练. 硬件配置为NVIDIA GeForce RTX GPU 4070 Ti SUPER,处理器为Intel(R) Core(TM) i5-14600K,内存为64 GB. 实验中难度最高的场景如图6所示.

图 6

图 6   最高难度的二维作战仿真场景

Fig.6   Two-dimensional combat simulation scenario with highest difficulty


实验环境及各USV的关键参数设定如下:仿真环境为二维连续的矩形区域,其在X轴上的最大范围设定为0~550 m,在Y轴上的最大范围设定为0~450 m,时间步长为0.5 s,每个回合的最大步数为300. 场景中包含5艘己方USV和1艘目标USV. 己方每艘USV的初始速度vo=1 m/s,最大速度vmax=12 m/s,最大角速度$ {\omega }_{\text{max}} $≈0.611 rad/s,最大线加速度$ {a}_{v,\max } $=4 m/s2,安全距离dsafe=10 m,并采用固定的初始部署与朝向. 目标USV的初始速度$ v_{\text{o}}^{\text{T}} $=2 m/s,最大转向角速度$ \omega _{\text{max}}^{\text{T}} $=0.524 rad/s,最大线性加速度$ a_{v,\max }^{\text{T}} $=4 m/s2,其初始位置在警戒线附近随机生成. 如图6所示,己方岛礁的方位为(40, 210) m,半径为15 m,岛礁1、2、3的方位分别为(190, 80)、(200, 350)、(325, 190) m,半径分别为65、45、35 m.

自适应课程学习调度器和自适应课程学习环境的参数配置如表12所示. 表1中,$ {E}_{\text{p},\max } $为最大评估回合数,$ {W}_{\text{base}} $为基础评估回合数; 表2中,W为己方岛礁,$ {H}_{\text{1}}、{H}_{\text{2}}、{H}_{\text{3}} $分别为不同半径的岛礁,$ v_{\max }^{\text{T}} $为目标的最大速度,$ {d}_{\text{fin}} $为捕获距离,$ {h}_{{x}} $为警戒线基准横坐标位置. 表12的设计旨在平衡学习效率与稳定性,确保USV在较低难度下快速掌握基础技能,在较高难度下获得充分的学习时间以应对复杂环境下的挑战.

表 1   自适应课程学习调度器的参数配置

Tab.1  Parameter configuration of adaptive curriculum learning scheduler

参数数值
$ {E}_{\text{p},\max } $10
$ {\rho }_{{{g}_{t}}} $0.75, 0.65, 0.55, 0.45, 0.40
$ \lambda $$ 0.6 $
$ {E}_{{{g}_{t}},\min } $20, 35, 60, 70, 80
$ {W}_{\text{base}} $60, 70, 80, 90, 100

新窗口打开| 下载CSV


表 2   自适应课程学习环境的参数配置

Tab.2  Parameter configuration of adaptive curriculum learning environment

场景布局$ v_{\text{max}}^{\text{T}} $/($ \mathrm{m}\cdot {\mathrm{s}}^{-1} $)$ {d}_{\text{fin}} $/m$ {h}_{x} $/m
370225
W560275
$ {H}_{\text{1}}\text{,}W $755315
$ {H}_{1}\text{,}{H}_{2}\text{,}W $950365
$ {H}_{1}\text{,}{H}_{2}\text{,}{H}_{3}\text{,}W $1045400

新窗口打开| 下载CSV


经过多次实验和参数调整,确定算法训练的超参数. 奖励函数中各参数的设置如表3所示,MAPPO和PPO算法的超参数配置如表4所示. 其中,M为缓冲器容量,Bs为数据批次大小,lr为学习率,Tmax为每回合最大步数,Eepoch为批数据训练轮数,τclip为梯度裁剪阈值,nh为隐藏层神经元数. 特别地,根据多智能体协同学习的特点,MAPPO算法采用更大的缓冲器容量、数据批次大小、学习率、隐藏层神经元数和批数据训练轮数,同时将GAE系数设为0.95,熵正则系数$ {\alpha }_{\text{H}} $设为0.01,梯度裁剪上限设为0.5,以降低优势估计方差,抑制梯度爆炸,并提升多智能体训练的稳定性与收敛性.

表 3   奖励函数参数设置

Tab.3  Setting of reward function parameters

参数数值参数数值
$ {k}_{\text{d1}} $,$ {k}_{\text{d2}} $0.01, 0.15$ {K}_{\text{aph}} $300
$ {k}_{\text{a1}} $,$ {k}_{\text{a2}} $0.5, 0.1$ {K}_{\text{eva}} $0.8
$ {k}_{\text{v}} $0.5$ {w}_{1},{w}_{2},{w}_{3},{w}_{4} $0.35, 0.17, 0.28, 0.20

新窗口打开| 下载CSV


表 4   MAPPO和PPO算法的超参数设置

Tab.4  Hyperparameter settings of MAPPO and PPO algorithms

参数数值
MAPPOPPO
M2 0481 024
Bs256128
$ {l}_{{\mathrm{r}}} $2×10−410−4
$ \gamma $0.990.99
$ \epsilon $0.20.2
$ {\lambda }_{\text{GAE}} $0.950.95
$ {\alpha }_{\text{H}} $0.010.01
Tmax300300
Eepoch103
τclip0.5
nh2×2562×128

新窗口打开| 下载CSV


最后,对实验条件作以下假设:1)己方USV皆为同构配置,即所有USV的性能参数完全一致,且在训练阶段,己方USV之间能够相互通信并共享目标位置信息;2)实验中的仿真环境为有界区域,同时为了确保存在可行的解决方案,仅考虑己方USV最大速度高于目标USV最大速度的围捕对抗情况.

4.2. 实验与结果分析

4.2.1. 方法有效性验证

为了验证基于ACL-MAPPO的无人艇对抗围捕决策方法的有效性,在多USV对抗围捕环境中进行仿真实验. 通过计算各USV在每个回合内的每步平均奖励Rstep,评估奖励变化趋势以及算法的收敛性能. 在配备NVIDIA GeForce RTX GPU 4070的计算机上,完整的训练过程大约需要7 h.

图7分别展示了己方3艘USV在训练过程中的奖励曲线以及目标USV的奖励曲线,其中E为训练的回合数. 如图7(a)所示,在初始阶段的约0~700回合内,由于场景中没有引入岛礁且目标的机动性差,各USV的奖励值持续升高. 在大约800~5 000回合内,随着难度的不断升级,各USV的奖励值波动较大且普遍较低. 在5 000~15 000回合内,各USV的奖励值逐渐上升并趋于一致,表明其逐步学会了有效的围捕和避障策略. 在训练后期,奖励值稳定收敛在1.25左右,且各USV的奖励曲线接近,说明智能体之间达成了良好的协作行为模式. 如图7(b)所示,目标USV的奖励曲线在0~2 500回合内呈现上升趋势,表明智能体在不断探索环境并逐渐学习逃跑策略. 在5 000回合后,随着围捕方USV协同能力以及追捕能力的提升,目标USV的平均奖励值下降,并且在15 000回合后趋于稳定,平均奖励值收敛在0.20左右,表明目标USV的逃避策略变得相对稳定.

图 7

图 7   不同USV的奖励曲线

Fig.7   Reward curves of different USVs


4.2.2. 性能对比分析

为了评估不同算法在围捕对抗任务中的性能,对4种算法进行对比实验,分别为无课程学习MAPPO(NOCL-MAPPO)、传统课程学习MAPPO(CL-MAPPO)、融合自适应课程学习的MADDPG(ACL-MADDPG)以及提出的ACL-MAPPO算法. 无课程学习方法直接在复杂环境下训练智能体,通常面临学习效率低、收敛速度慢的问题[6-7,13,20]. 传统课程学习方法相较于无课程学习方法有所改善,但是其采用静态的课程和固定规则进行难度推进,无法与智能体的实时学习状态实现最优匹配[8-12,22].

图8展示了不同算法的总奖励值(Rtotal)和训练累计成功比例(ps)随训练轮数的变化规律. 如图8(a)所示,ACL-MAPPO算法在训练初期就能够快速获得较高的奖励值,且奖励值持续增长,最终稳定收敛在145左右,显著优于其他3种算法. CL-MAPPO算法的奖励曲线虽然也呈现上升趋势,但是增速较缓,最终收敛后的奖励值低于ACL-MAPPO. ACL-MADDPG算法相较于CL-MAPPO算法,其整体获得的奖励值较低,并且增速较缓. 而NOCL-MAPPO算法的奖励曲线在整个训练过程中均处于较低水平,波动较大,说明其学习效果不佳. 如图8(b)所示,ACL-MAPPO、CL-MAPPO、NOCL-MAPPO、ACL-MADDPG算法的最高累计成功比例分别约为0.84、0.71、0.34、0.66,可见ACL-MAPPO算法的成功比例显著较高,在训练过程中增长最快,并最早达到平稳状态.

图 8

图 8   不同算法的性能对比

Fig.8   Performance comparison of different algorithms


4.2.3. 分组评估与测试

在各算法训练完成后,保存策略网络权重参数. 在实际部署和测试评估中,己方USV只需要加载策略网络参数,无须加载价值网络参数,完全依赖自身的观测信息做出决策,且USV间不再进行实时通信.

为了全面评估所提ACL-MAPPO算法的性能,设计分组对比实验,分别在2种模式下测试算法性能:1)目标随机(random)运动,即采用Gym库的sample方法随机生成维度为2的动作值来驱动目标随机运动;2)目标强化学习(RL)运动,即采用由强化学习算法训练得到的策略网络来输出动作值,驱动目标完成自主运动. 在5 000回合内随机生成不同难度级别的环境进行测试,设置回合内最大步数为300,仿真时间步长为0.5 s.

各算法在2种目标运动模式下的围捕成功率(Sr)和完成任务所需的平均步数(favg)如图9所示,其中Random为随机运动模式,RL为强化学习运动模式. 由图9(a)可知,在目标强化学习运动模式下,ACL-MAPPO、CL-MAPPO、NOCL-MAPPO、ACL-MADDPG算法的围捕成功率分别约为89%、76%、41%、71%;当目标随机运动时,4种算法的成功率分别为68%、60%、33%、59%,这主要是因为目标USV缺乏规避障碍物和环境边界的能力,导致碰撞障碍物和超出边界的次数增多,从而降低了最终的围捕成功率. 尽管如此,ACL-MAPPO算法仍然取得了最高的围捕成功率. 如图9(b)所示,当面对智能目标时,ACL-MAPPO、CL-MAPPO、NOCL-MAPPO、ACL-MADDPG算法的平均任务完成步数分别为55、65、78和69. 这表明ACL-MAPPO算法能够高效地完成围捕任务,节省计算资源并提高响应速度.

图 9

图 9   各算法在2种目标运动模式下的性能比较

Fig.9   Performance comparison of various algorithms under two target motion modes


目标USV的速度和加速度变化如图10所示,其中vT$ {a}_{\text{T}} $分别为目标USV的速度和加速度,t为时间. 在初期,目标USV不断加速靠近己方守护的岛礁,但是随着己方USV的协同追捕与紧逼,其速度逐渐减小,被迫驶向岛礁,因而无法逃脱. 图11为己方USV在围捕过程中的速度(vp)、加速度(ap)、角度($ {\alpha }_{\mathit{\Lambda }} $)和距离(dT)变化曲线图. 从图11(a)、(b)可以看出,USV不断调整自身的加速度,使其保持高速状态并快速接近目标,实现对目标的围捕. 由图11(c)、(d)可以看出,各USV与目标的距离随时间的增长而不断减小,同时各USV不断调整围捕角度,最终在t=27 s时各指标均满足围捕成功约束条件. 己方USV成功围捕目标的轨迹如图12所示.

图 10

图 10   目标USV的速度与加速度变化曲线

Fig.10   Velocity and acceleration variation curves of target USV


图 11

图 11   围捕过程中己方USV的参数变化曲线

Fig.11   Parameter variation curves of friendly USVs during encirclement process


图 12

图 12   成功围捕目标的轨迹图

Fig.12   Trajectory diagram of successful target capture


各算法的性能指标对比如表5所示,其中,$ {C}_{\text{u}} $$ {C}_{\text{T}} $分别为己方、目标的碰撞次数,$ {P}_{\text{u}} $$ {P}_{\text{T}} $为己方、目标的越界次数,$ {D}_{\text{avg}} $为平均围捕路径长度,$ {R}_{\text{avg}} $为己方USV的平均奖励值. 以目标策略RL为例,ACL-MAPPO算法的己方碰撞次数、目标碰撞次数、己方越界次数、目标越界次数和己方平均围捕路径长度均为最低,且己方USV所获得的平均奖励值明显高于其他算法. 相比之下,其他3种算法在碰撞次数、越界次数和平均奖励等指标上均明显落后,尤其是NOCL-MAPPO算法的己方平均奖励值仅为17.367,远低于ACL-MAPPO算法.

表 5   各算法在2种目标策略下的性能指标对比

Tab.5  Comparison of performance metrics of different algorithms under two target strategies

目标策略算法$ {C}_{\text{u}} $$ {C}_{\text{T}} $$ {P}_{\text{u}} $$ {P}_{\text{T}} $$ {D}_{\text{avg}} $/m$ {R}_{\text{avg}} $
RLACL-MAPPO19440462302.32455.253
CL-MAPPO364587122367.47442.437
NOCL-MAPPO1 40113443238421.16117.367
ACL-MADDPG389678331381.19340.152
RandomACL-MAPPO94230115454285.39137.113
CL-MAPPO1 22430420552321.48230.172
NOCL-MAPPO1 55815036756343.51413.627
ACL-MADDPG1 28731722161337.64325.241

新窗口打开| 下载CSV


4种算法在不同目标策略下的典型围捕轨迹如图13所示. 当面对随机目标和智能目标时,如图13(b)、(e)所示,基于ACL-MAPPO的决策方法均能够实现高效且协同的围捕,3艘USV能够快速形成合围态势,有效限制了目标的机动空间. 相比之下,在智能目标场景下,如图13(c)、(d)所示,基于CL-MAPPO和ACL-MADDPG的2种决策方法虽然能够实现对目标的围捕,但是USV之间的协作性较弱,运动路径较长. 此外,在部分回合中甚至出现了USV分散、未能及时合围的现象. 尤其是在无课程学习的情况下,如图13(f)所示,当面对智能目标时,基于NOCL-MAPPO的决策方法未能形成有效的包围圈,让目标逃脱,导致围捕任务失败.

图 13

图 13   不同算法的围捕对抗仿真轨迹图

Fig.13   Simulation trajectory diagrams of encirclement and confrontation with different algorithms


5. 结 语

提出的基于ACL-MAPPO的围捕决策方法有效解决了现有方法在多无人艇协同围捕与入侵防御任务中训练效率低、奖励稀疏和泛化性差的问题. 实验结果表明,ACL-MAPPO算法在关键性能指标上均优于对比算法;当面对智能目标时,ACL-MAPPO的训练累计成功比例最高达到约0.84,高于CL-MAPPO、NOCL-MAPPO、ATCL-MADDPG算法. 在不同目标策略下,其平均捕获步数以及平均路径长度均低于3种对比算法,表明所提算法在围捕任务中更加高效. 同时,己方USV所获得的平均奖励值均高于3种对比算法,进一步展示出所提算法更优的性能. 此外,在碰撞和越界指标方面,也展现出更优的协同和避障能力.

总体而言,所提方法中基于自适应课程学习机制的训练架构在提升多智能体系统的协同性能和泛化能力方面具备有效性. 该方法为海洋多无人艇系统在复杂动态环境下的协同防御与智能对抗提供了理论与实践参考. 然而,本研究局限于多对一以及面对凸障碍物时的对抗局面. 未来将考虑多目标入侵背景下的多对多对抗场景,引入更为复杂的海洋扰动和非凸障碍物,最终将仿真模型迁移至真实场景并开展实海环境测试.

参考文献

张家奎, 李晓东, 周河宇, 等

俄乌冲突中无人艇作战运用的分析研究

[J]. 数字海洋与水下攻防, 2024, 7 (6): 616- 622

[本文引用: 1]

ZHANG Jiakui, LI Xiaodong, ZHOU Heyu, et al

Analysis and research on operational application of unmanned surface vehicles in Russia-Ukraine conflict

[J]. Digital Ocean & Underwater Warfare, 2024, 7 (6): 616- 622

[本文引用: 1]

梁晓龙, 杨爱武, 张佳强, 等

无人集群博弈对抗系统仿真验证及决策关键技术综述

[J]. 系统仿真学报, 2024, 36 (4): 805- 816

DOI:10.16182/j.issn1004731x.joss.23-0072      [本文引用: 1]

LIANG Xiaolong, YANG Aiwu, ZHANG Jiaqiang, et al

Simulation verification and decision-making key technologies of unmanned swarm game confrontation: a survey

[J]. Journal of System Simulation, 2024, 36 (4): 805- 816

DOI:10.16182/j.issn1004731x.joss.23-0072      [本文引用: 1]

宋利飞, 徐凯凯, 史晓骞, 等

多无人艇协同围捕智能逃跑目标方法研究

[J]. 中国舰船研究, 2023, 18 (1): 52- 59

[本文引用: 1]

SONG Lifei, XU Kaikai, SHI Xiaoqian, et al

Multiple USV cooperative algorithm method for hunting intelligent escaped targets

[J]. Chinese Journal of Ship Research, 2023, 18 (1): 52- 59

[本文引用: 1]

CHEN M, ZHU D, PANG W, et al

An effective strategy for distributed unmanned underwater vehicles to encircle and capture intelligent targets

[J]. IEEE Transactions on Industrial Electronics, 2024, 71 (10): 12570- 12580

DOI:10.1109/tie.2023.3342281      [本文引用: 1]

杨惠珍, 李建国, 吴天宇, 等

基于逃逸角的多ASV微分博弈协同围捕方法

[J]. 水下无人系统学报, 2024, 32 (4): 730- 738

[本文引用: 1]

YANG Huizhen, LI Jianguo, WU Tianyu, et al

Cooperative hunting method for multiple ASVs using differential games based on escape angle

[J]. Journal of Unmanned Undersea Systems, 2024, 32 (4): 730- 738

[本文引用: 1]

薛雅丽, 叶金泽, 李寒雁

基于改进强化学习的多智能体追逃对抗

[J]. 浙江大学学报: 工学版, 2023, 57 (8): 1479- 1486

DOI:10.3785/j.issn.1008-973X.2023.08.001      [本文引用: 3]

XUE Yali, YE Jinze, LI Hanyan

Multi-agent pursuit and evasion games based on improved reinforcement learning

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (8): 1479- 1486

DOI:10.3785/j.issn.1008-973X.2023.08.001      [本文引用: 3]

于长东, 刘新阳, 陈聪, 等

基于多智能体深度强化学习的无人艇集群博弈对抗研究

[J]. 水下无人系统学报, 2024, 32 (1): 79- 86

DOI:10.11993/j.issn.2096-3920.2023-0159      [本文引用: 2]

YU Changdong, LIU Xinyang, CHEN Cong, et al

Research on game confrontation of unmanned surface vehicles swarm based on multi-agent deep reinforcement learning

[J]. Journal of Unmanned Undersea Systems, 2024, 32 (1): 79- 86

DOI:10.11993/j.issn.2096-3920.2023-0159      [本文引用: 2]

QU X, GAN W, SONG D, et al

Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment

[J]. Ocean Engineering, 2023, 273: 114016

DOI:10.1016/j.oceaneng.2023.114016      [本文引用: 3]

LI F, YIN M, WANG T, et al

Distributed pursuit-evasion game of limited perception USV swarm based on multiagent proximal policy optimization

[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2024, 54 (10): 6435- 6446

DOI:10.1109/TSMC.2024.3429467      [本文引用: 1]

LI B, WANG J, SONG C, et al

Multi-UAV roundup strategy method based on deep reinforcement learning CEL-MADDPG algorithm

[J]. Expert Systems with Applications, 2024, 245: 123018

DOI:10.1016/j.eswa.2023.123018      [本文引用: 3]

XIA J, LUO Y, LIU Z, et al

Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning

[J]. Defence Technology, 2023, 29: 80- 94

DOI:10.1016/j.dt.2022.09.014      [本文引用: 2]

HOU Y, HAN G, ZHANG F, et al

Distributional soft actor-critic-based multi-AUV cooperative pursuit for maritime security protection

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (6): 6049- 6060

DOI:10.1109/TITS.2023.3341034      [本文引用: 3]

苏震, 张钊, 陈聪, 等

基于深度强化学习的无人艇集群博弈对抗

[J]. 兵器装备工程学报, 2022, 43 (9): 9- 14

[本文引用: 2]

SU Zhen, ZHANG Zhao, CHEN Cong, et al

Deep reinforcement learning based swarm game confrontation of unmanned surface vehicles

[J]. Journal of Ordnance Equipment Engineering, 2022, 43 (9): 9- 14

[本文引用: 2]

符小卫, 王辉, 徐哲

基于DE-MADDPG的多无人机协同追捕策略

[J]. 航空学报, 2022, 43 (5):

[本文引用: 2]

FU Xiaowei, WANG Hui, XU Zhe

Cooperative pursuit strategy for multi-UAVs based on DE-MADDPG algorithm

[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43 (5):

[本文引用: 2]

GAN W, QU X, SONG D, et al

Multi-USV cooperative chasing strategy based on obstacles assistance and deep reinforcement learning

[J]. IEEE Transactions on Automation Science and Engineering, 2024, 21 (4): 5895- 5910

DOI:10.1109/TASE.2023.3319510      [本文引用: 1]

孙懿豪, 闫超, 相晓嘉, 等

基于分层强化学习的多无人机协同围捕方法

[J]. 控制理论与应用, 2025, 42 (1): 96- 108

DOI:10.7641/CTA.2024.30439      [本文引用: 1]

SUN Yihao, YAN Chao, XIANG Xiaojia, et al

Multi-UAV collaborative pursuit method via hierarchical reinforcement learning

[J]. Control Theory & Applications, 2025, 42 (1): 96- 108

DOI:10.7641/CTA.2024.30439      [本文引用: 1]

曲星儒, 江雨泽, 龙飞飞, 等

基于阶段诱导学习的多无人艇协同目标围捕策略

[J]. 中国舰船研究, 2025, 20 (1): 162- 171

DOI:10.19693/j.issn.1673-3185.04030      [本文引用: 1]

QU Xingru, JIANG Yuze, LONG Feifei, et al

Stage-induced learning-based cooperative target hunting strategy for multiple unmanned surface vehicles

[J]. Chinese Journal of Ship Research, 2025, 20 (1): 162- 171

DOI:10.19693/j.issn.1673-3185.04030      [本文引用: 1]

苏牧青, 王寅, 濮锐敏, 等

基于强化学习的多无人车协同围捕方法

[J]. 工程科学学报, 2024, 46 (7): 1237- 1250

DOI:10.13374/j.issn2095-9389.2023.09.15.004      [本文引用: 1]

SU Muqing, WANG Yin, PU Ruimin, et al

Cooperative encirclement method for multiple unmanned ground vehicles based on reinforcement learning

[J]. Chinese Journal of Engineering, 2024, 46 (7): 1237- 1250

DOI:10.13374/j.issn2095-9389.2023.09.15.004      [本文引用: 1]

ZHOU W, LI J, ZHANG Q

Joint communication and action learning in multi-target tracking of UAV swarms with deep reinforcement learning

[J]. Drones, 2022, 6 (11): 339

DOI:10.3390/drones6110339      [本文引用: 1]

符小卫, 徐哲, 朱金冬, 等

基于PER-MATD3的多无人机攻防对抗机动决策

[J]. 航空学报, 2023, 44 (7): 327083

[本文引用: 2]

FU Xiaowei, XU Zhe, ZHU Jindong, et al

Maneuvering decision-making of multi-UAV attack-defence confrontation based on PER-MATD3

[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44 (7): 327083

[本文引用: 2]

严锐驰, 李帅, 王晨, 等

基于自博弈强化学习的异构无人机集群协同对抗决策方法

[J]. 中国科学: 信息科学, 2024, 54 (7): 1709- 1729

DOI:10.1360/SSI-2023-0267      [本文引用: 1]

YAN Ruichi, LI Shuai, WANG Chen, et al

Cooperative decision-making for heterogeneous UAV swarm confrontation based on self-play reinforcement learning

[J]. Scientia Sinica Informationis, 2024, 54 (7): 1709- 1729

DOI:10.1360/SSI-2023-0267      [本文引用: 1]

夏家伟, 朱旭芳, 张建强, 等

基于多智能体强化学习的无人艇协同围捕方法

[J]. 控制与决策, 2023, 38 (5): 1438- 1447

DOI:10.13195/j.kzyjc.2022.0564      [本文引用: 2]

XIA Jiawei, ZHU Xufang, ZHANG Jianqiang, et al

Research on cooperative hunting method of unmanned surface vehicle based on multi-agent reinforcement learning

[J]. Control and Decision, 2023, 38 (5): 1438- 1447

DOI:10.13195/j.kzyjc.2022.0564      [本文引用: 2]

WU C, YU W, LIAO W, et al

Deep reinforcement learning with intrinsic curiosity module based trajectory tracking control for USV

[J]. Ocean Engineering, 2024, 308: 118342

DOI:10.1016/j.oceaneng.2024.118342      [本文引用: 1]

YU C, VELU A, VINITSKY E, et al. The surprising effectiveness of PPO in cooperative, multi-agent games [EB/OL]. (2022-11-04) [2025-06-22]. https://arxiv.org/abs/2103.01955.

[本文引用: 1]

SCHULMAN J, MORITZ P, LEVINE S, et al. High-dimensional continuous control using generalized advantage estimation [EB/OL]. (2018-10-20) [2025-06-22]. https://arxiv.org/abs/1506.02438.

[本文引用: 1]

任璐, 柯亚男, 柳文章, 等

基于优势函数输入扰动的多无人艇协同策略优化方法

[J]. 自动化学报, 2025, 51 (4): 824- 834

DOI:10.16383/j.aas.c240453      [本文引用: 1]

REN Lu, KE Yanan, LIU Wenzhang, et al

Multi-USVs cooperative policy optimization method based on disturbed input of advantage function

[J]. Acta Automatica Sinica, 2025, 51 (4): 824- 834

DOI:10.16383/j.aas.c240453      [本文引用: 1]

/