基于改进强化学习的多智能体追逃对抗
薛雅丽,叶金泽,李寒雁

Multi-agent pursuit and evasion games based on improved reinforcement learning
Ya-li XUE,Jin-ze YE,Han-yan LI
表 1 训练超参数设定
Tab.1 Setting of training hyperparameters
训练超参数 超参数符号 数值
折扣因子 γ 0.95
惯性更新率 τ 0.01
经验池大小 ReplayBuffer 1×106
回放样本数 BatchSize 1024
回合数 Ep 60000
每回合时间步 Maxstep 30
神经网络学习率 ρ 0.01
更新率 UpdateFre 100
探索率 ε 0.5
权重优先级 α 0.6
重要性采样参数 β 0.5