基于异步优势演员-评论家的交通信号控制方法

基于异步优势演员-评论家的交通信号控制方法

叶宝林,孙瑞涛,吴维敏,陈滨,姚青

Traffic signal control method based on asynchronous advantage actor-critic

Baolin YE,Ruitao SUN,Weimin WU,Bin CHEN,Qing YAO

表 2 对比实验中各深度强化学习模型的参数设置

Tab.2 Parameter setting of various deep reinforcement learning model in comparative experiment

实验对比	参数	数值
融合权重增益网络的A3C 算法、传统A3C算法	Actor网络学习率	0.000 02
	Critic网络学习率	0.000 2
	Actor网络神经元数量	200
	Critic网络神经元数量	100
	折扣因子	0.9
	训练步数	200
	训练时间/s	7 200
DQN算法	学习率	0.000 02
	神经元数量	200
	折扣因子	0.9
	训练步数	200
	训练时间/s	7 200