基于改进强化学习的多智能体追逃对抗
薛雅丽,叶金泽,李寒雁
Multi-agent pursuit and evasion games based on improved reinforcement learning
Ya-li XUE,Jin-ze YE,Han-yan LI
表 1
训练超参数设定
Tab.1
Setting of training hyperparameters
训练超参数
超参数符号
数值
折扣因子
γ
0.95
惯性更新率
τ
0.01
经验池大小
ReplayBuffer
1×10
6
回放样本数
BatchSize
1024
回合数
Ep
60000
每回合时间步
Maxstep
30
神经网络学习率
ρ
0.01
更新率
UpdateFre
100
探索率
ε
0.5
权重优先级
α
0.6
重要性采样参数
β
0.5