基于改进强化学习的多智能体追逃对抗

基于改进强化学习的多智能体追逃对抗

薛雅丽,叶金泽,李寒雁

Multi-agent pursuit and evasion games based on improved reinforcement learning

Ya-li XUE,Jin-ze YE,Han-yan LI

表 1 训练超参数设定

Tab.1 Setting of training hyperparameters

训练超参数	超参数符号	数值
折扣因子	γ	0.95
惯性更新率	τ	0.01
经验池大小	ReplayBuffer	1×10⁶
回放样本数	BatchSize	1024
回合数	Ep	60000
每回合时间步	Maxstep	30
神经网络学习率	ρ	0.01
更新率	UpdateFre	100
探索率	ε	0.5
权重优先级	α	0.6
重要性采样参数	β	0.5