基于自适应课程强化学习的多无人艇对抗围捕决策

陈浪,刘增力,赵宣植

Decision-making for multi-USV adversarial encirclement based on adaptive curriculum reinforcement learning

Lang CHEN,Zengli LIU,Xuanzhi ZHAO

表 4 MAPPO和PPO算法的超参数设置

Tab.4 Hyperparameter settings of MAPPO and PPO algorithms