基于异步优势演员-评论家的交通信号控制方法
叶宝林,孙瑞涛,吴维敏,陈滨,姚青

Traffic signal control method based on asynchronous advantage actor-critic
Baolin YE,Ruitao SUN,Weimin WU,Bin CHEN,Qing YAO
表 2 对比实验中各深度强化学习模型的参数设置
Tab.2 Parameter setting of various deep reinforcement learning model in comparative experiment
实验对比参数数值
融合权重增益网络的A3C
算法、传统A3C算法
Actor网络学习率0.000 02
Critic网络学习率0.000 2
Actor网络神经元数量200
Critic网络神经元数量100
折扣因子0.9
训练步数200
训练时间/s7 200
DQN算法学习率0.000 02
神经元数量200
折扣因子0.9
训练步数200
训练时间/s7 200