浙江大学学报(工学版), 2024, 58(8): 1671-1680 doi: 10.3785/j.issn.1008-973X.2024.08.014

交通工程、土木工程

基于异步优势演员-评论家的交通信号控制方法

叶宝林,, 孙瑞涛, 吴维敏, 陈滨, 姚青

1. 浙江理工大学 信息科学与工程学院,浙江 杭州 310018

2. 嘉兴大学 嘉兴市智慧交通重点实验室,浙江 嘉兴 314001

3. 浙江大学 工业控制技术全国重点实验室,智能系统与控制研究所,浙江 杭州 310027

4. 浙江理工大学 计算机科学与技术学院,浙江 杭州 310018

Traffic signal control method based on asynchronous advantage actor-critic

YE Baolin,, SUN Ruitao, WU Weimin, CHEN Bin, YAO Qing

1. School of Information Science and Engineering, Zhejiang Sci-Tech University, Hangzhou 310018, China

2. Jiaxing Key Laboratory of Smart Transportations, Jiaxing University, Jiaxing 314001, China

3. State Key Laboratory of Industrial Control Technology, Institute ofCyber-Systems and Control, Zhejiang University, Hangzhou 310027, China

4. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

收稿日期: 2023-08-26  

基金资助: 国家自然科学基金资助项目(61603154);浙江省自然科学基金资助项目 ( LTGS23F030002); 嘉兴市应用性基础研究项目(2023AY11034);浙江省尖兵领雁研发攻关计划资助项目(2023C01174);工业控制技术国家重点实验室开放课题资助项目 (ICT2022B52).

Received: 2023-08-26  

Fund supported: 国家自然科学基金资助项目(61603154);浙江省自然科学基金资助项目(LTGS23F030002);嘉兴市应用性基础研究项目(2023AY11034);浙江省尖兵领雁研发攻关计划资助项目(2023C01174);工业控制技术国家重点实验室开放课题资助项目(ICT2022B52).

作者简介 About authors

叶宝林(1984—),男,副教授,博士,从事智能交通的研究.orcid.org/0000-0002-5369-6246.E-mail:yebaolin@zjxu.edu.cn , E-mail:yebaolin@zjxu.edu.cn

摘要

针对现有基于深度强化学习的交通信号控制方法的模型学习和决策成本高的问题,提出基于异步优势演员-评论家(A3C)算法的单交叉口交通信号控制方法. 在模型输入端分别从交叉口和车道2个不同维度构建车辆权重增益网络,对采集的车辆状态信息进行预处理. 设计新的奖励机制,提出融合车辆权重增益网络的A3C算法. 基于微观交通仿真软件SUMO的仿真测试结果表明,相比于传统的交通信号控制方法和基准强化学习方法,所提方法在低、中、高3种不同的交通流量状态下,均能够取得更好的交通信号控制效益.

关键词: 交通信号控制 ; 深度强化学习 ; A3C ; 权重增益网络

Abstract

A single intersection traffic signal control method based on the asynchronous advantage actor-critic (A3C) algorithm was proposed aiming at high cost of model learning and decision making in the existing traffic signal control methods based on deep reinforcement learning. Vehicle weight gain network was constructed from two different dimensions at the input side of the model, namely intersections and lanes, in order to preprocess the collected vehicle state information. A new reward mechanism was designed and an A3C algorithm that integrated vehicle weight gain networks was proposed. The simulation test results based on the microscopic traffic simulation software simulation of urban mobility (SUMO) show that the proposed method achieves better traffic signal control performance under three different traffic flow conditions of low, medium and high levels compared with traditional traffic signal control methods and benchmark reinforcement learning methods.

Keywords: traffic signal control ; deep reinforcement learning ; A3C ; weight gain network

PDF (1889KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

叶宝林, 孙瑞涛, 吴维敏, 陈滨, 姚青. 基于异步优势演员-评论家的交通信号控制方法. 浙江大学学报(工学版)[J], 2024, 58(8): 1671-1680 doi:10.3785/j.issn.1008-973X.2024.08.014

YE Baolin, SUN Ruitao, WU Weimin, CHEN Bin, YAO Qing. Traffic signal control method based on asynchronous advantage actor-critic. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(8): 1671-1680 doi:10.3785/j.issn.1008-973X.2024.08.014

设计有效的交通信号控制方法来提高路网智能化服务水平,是提升路网通行效率、缓解交通拥堵的关键技术之一[1-2]. 不同于传统交通信号控制方法,基于强化学习的交通信号控制方法无需先验知识和对真实交通环境进行简化假设[3],它通过与环境的交互来学习和搜索最佳交通信号控制策略. 由于具有适应性强、灵活性高的特点,基于深度强化学习的交通信号控制方法已成为交通信号控制领域的研究热点[4-6].

Wang等[7]提出基于优势参与者-批评者(advantage actor-critic)算法的交通信号控制方法. 为了有效利用周边智能体的空间信息,Wang等[7]设计了基于图注意力网络的区域感知合作策略. 由于使用分散式控制,容易导致用于模型训练的环境状态不完整. Wang等[8]提出基于多智能体强化学习的交通信号控制方法. 为了能够更好地从相邻交叉口的历史数据中学习经验,Wang等[8]提出新的经验共享策略. Ma等[9]提出基于强化学习Actor-Critic模型的交通信号配时方法. 该方法在一定程度上避免了单纯基于值或策略的强化学习方法的缺陷,提高了交叉口的通行效率. Bouktif等[10]提出基于混合深度强化学习的交通信号控制方法,设计分层决策深度强化学习网络,优化下一个阶段待执行的相位及绿灯持续时间. Chu等[11]提出基于可扩展分散多智能体强化学习的交通信号控制方法. 虽然该方法通过提高环境的可观察性来稳定学习过程,但对所采样的经验信息的利用不够充分. 刘智敏等[12]提出基于改进深度强化学习的交通信号控制方法. 利用相邻时间步交叉口车辆数变化量构建新的奖励函数,能够及时跟踪和准确描述车道上交通状态的动态变化过程.

上述方法一般直接定义车辆速度和位置矩阵作为深度强化学习模型的输入,不仅因为涉及的参数多,增加了模型计算量,也忽略了速度矩阵和位置矩阵之间存在的冗余信息. 为了解决上述问题,本文提出基于车辆权重的A3C强化学习交通信号控制方法. 通过设计权重神经网络,对采集的交通状态进行预处理,提升强化学习模型的学习和决策能力. 在强化学习模型的输入端分别从交叉口和车道2个不同维度构建车辆权重增益网络,对车辆运动状态信息进行处理,网络输出的车辆权重系数可以更有效地反映不同运动状态下车辆的通行优先级. 以定时控制、模糊自适应控制及基于DQN和A3C的交通信号控制方法作为对照,在低、中、高3种不同交通流量模式下进行仿真测试,实验结果验证了本文所提方法的有效性.

1. 交通信号控制强化学习要素的定义

图1所示,以典型十字交叉口为例进行具体描述. 该交叉口有4个进车方向,且每个进车方向上有3条车道,分别为1条直行右转车道、1条直行车道、1条左转车道. 为了便于描述,在交通信号控制框架下,分别定义强化学习的3个要素:状态、动作和奖励.

图 1

图 1   交叉口的示意图

Fig.1   Diagram of intersection


1.1. 输入状态和动作空间

Wu等[13-14]的研究表明,简化状态空间可以提高智能体的训练性能,因此应该构建尽可能简单的状态空间. 考虑实际应用的需求,输入的状态要素应该能够直观并容易获取. 进口道延误、进口道车辆排队时间及车辆平均停车次数等复杂计算或者估计的要素不适合作为输入状态.

在所构建的权重网络中,需要基于各个车道上的车辆数量和各个车道排队等待通行的车辆数量确定车辆的权重关系. 考虑到如图1所示的交叉口共有12条进口车道,可以将采集的该交叉口输入交通状态定义为矩阵M2×12. 从北进口方向的直行和右转共用车道开始,按顺时针方向依次采集各条车道的交通状态信息. 矩阵第1行中的各元素分别表示各条车道上的车辆总数,第2行中的各元素分别表示各条车道上排队等待通行的车辆数.

将智能体的动作空间定义为4个相位[15],每个控制步智能体只能执行并选择图2所示的4个相位中的一个. 4个相位分别为东西直行、东西左转、南北直行、南北左转. 在每个控制步结束时,智能体可以选择保持当前相位或按智能体的决策执行下一个相位,如图3所示.

图 2

图 2   交叉口相位配置的示意图

Fig.2   Diagram of phase setting of intersection


图 3

图 3   动作空间的示意图

Fig.3   Diagram of action space


1.2. 奖励函数

在基于深度强化学习的交通信号控制方法中,设计奖励函数的根本原则是驱动智能交通信号控制器在每一个控制步能够尽可能快速地搜索到最优交通信号控制策略[16-18]. 在设计奖励函数时,主要基于以下2个方面的考虑. 1)应尽量减少车辆在交叉口的等待时间,确保所选动作能够减少车辆通过交叉口的平均等待时间,提高交叉口的通行效率. 2)应合理分配绿灯时间给不同的车道或方向,以确保更多的车辆在各个绿灯放行相位内一次性通过,增加单位时间内通过交叉口的总车辆数.

综合考虑通过交叉口的车辆数和车辆等待时间这2个交通效益评价指标来设计奖励函数,能够更全面地评估当前输出动作决策的有效性. 根据多个指标来综合评定动作决策的优劣,可以激励强化学习算法进行多目标优化,使其在不同的交通状态下均能有良好的表现. 为了提高深度强化学习算法的决策能力,设计新的奖励函数,即采用当前采样时间步交叉口总的车辆等待时间的变化率和通过交叉口的车辆数的变化率来定义强化学习的奖励函数. 计算车辆等待时间的变化率${W_{\mathrm{{change\_rate}}}} $和通过交叉口的车辆数的变化率${P_{\mathrm{{change\_rate}}}} $如下所示.

$ {W_{{\mathrm{change}}}} = {w_{t - 1}} - {w_t}, $
(1)

$ {W_{\mathrm{{change\_rate}}}} = {W_{{\mathrm{change}}}}/{w_{t - 1}}. $
(2)

式中: wt为在第t个采样时间步交叉口各条车道上车辆的等待时间之和,wt−1为第t−1个采样时间步交叉口各条车道上车辆的等待时间之和.

$ {P_{{\mathrm{change}}}} = {p_{t - 1}} - {p_t}, $
(3)

$ {P_{\mathrm{{change\_rate}}}} = {P_{{\mathrm{change}}}}/{p_{t - 1}}. $
(4)

式中: pt为在第t个采样时间步通过交叉口各车道的车辆数之和,pt−1为第t−1个采样时间步通过交叉路口各车道的车辆数之和.

在复杂系统中,连续的输入空间可能会导致控制策略过于复杂,难以优化和实施. 对得到的变化率进行处理,根据Wchange_ratePchange_rate确定等待时间的奖励值Rw和通过车辆数的奖励值Rp. 具体的分段计算规则如表1所示.

表 1   奖励分段规则

Tab.1  Reward setting rules

RwRpWchange_ratePchange_rate
4(0.35, +∞)
3(0.25, 0.35]
2(0.15, 0.25]
1[0, 0.15]
−1[−0.15, 0)
−2[−0.25, −0.15)
−3[−0.35, −0.25)
−4(−∞, −0.35)

新窗口打开| 下载CSV


综上所述,设计的目标奖励函数定义如下:

$ R = {\lambda _1} {R_{\mathrm{w}}}+{\lambda _2} {R_{\mathrm{p}}}. $
(5)

式中:λ1λ2分别为奖励RwRp对应的权重系数. 设计上述奖励函数的目的是使深度强化学习智能体能够更好地响应车流的动态变化过程,使用变化率作为奖励来提高模型对突发事件的敏感度及强化学习算法的稳定性.

2. 车辆权重增益网络

对采样的交通状态信息进行处理和分析,提前获取一部分有代表性的交通特征信息,可以提高深度神经网络在挖掘深层次特征信息时的学习能力.

图4所示,利用车辆权重增益网络对采集的交叉口车辆运动状态信息矩阵$ {{\boldsymbol{M}}}_{2\times 12} $进行处理,利用深度神经网络输出的车辆权重和$ {{\boldsymbol{M}}}_{2\times 12} $获得新的交通状态信息. 将更新的交通状态信息输入深度强化学习模型A2C中的Actor网络和Critic网络,根据强化学习模型反馈的奖励动态更新车辆权重增益网络的超参数.

图 4

图 4   车辆权重增益网络与A2C网络信息交互的示意图

Fig.4   Diagram of information exchange between vehicle weight gain network and network of A2C


从交叉口和车道2个不同维度上对车辆运动状态进行分析,构建交叉口级车辆权重增益网络(intersection vehicle weight gain network,IVWGN)和车道级车辆权重增益(lane vehicle weight gain network,LVWGN),对采集的车辆运动状态信息进行处理.

2.1. 交叉口级车辆权重增益网络

图5所示,本文所提交叉口级车辆权重增益网络示意图中,全连接层的输入是交叉口各进口方向上各条车道上的车辆总数和各条车道上排队等待通行的车辆数. 图1所示的交叉口共有4个进口方向、12条车道,所以输入的状态是2×12的矩阵$ {{\boldsymbol{M}}}_{2\times 12} $. 矩阵中的第1行元素表示各条车道上的车辆总数,第2行元素表示各条车道上排队等待通行的车辆数.

图 5

图 5   交叉口级车辆权重增益网络的示意图

Fig.5   Diagram of intersection vehicle weight gain network


在交叉口级车辆权重增益网络中,所有排队等待通行车辆的权重增益相同,因此输出权重矩阵的维度为1×1. 在得到增益权重后,利用下式计算各条车道上加权增益后的车辆数:

$ N_i^{\text{I}} = {D_i}+p{P_i}. $
(6)

式中:$ {N}_{i}^{{\mathrm{I}}} $为经过交叉口级车辆权重增益网络处理后交叉口第i条车道上的车辆数,Di为采样得到的第i个车道上的车辆数,p为交叉口级车辆增益网络计算出的排队等待放行车辆增益权重,Pi为采样得到的第i个车道上的等待放行车辆数.

2.2. 车道级车辆权重增益网络

图6所示,车道级车辆权重增益网络的输入与交叉口级车辆权重增益网络的输入相同,但在不同车道上的权重增益不同. 以图1所示包含有12条车道的交叉口为研究对象,输出矩阵的维度为12×1. 每个权重表示对应车道上排队等待通行车辆的增益. 在得到增益权重后,利用下式可计算得到各条车道上加权增益后的车辆数:

图 6

图 6   车道级车辆权重增益网络的示意图

Fig.6   Diagram of lane vehicle weight gain network


$ N_i^{\text{L}} = {D_i}+{q_i}{P_i}. $
(7)

式中:$ {N}_{i}^{\mathrm{L}} $为经过车道级车辆权重增益网络处理后交叉口第i条车道上的车辆数,qi为车道级车辆增益网络计算得到的第i条车道上排队等待通行车辆的权重.

3. 基于融合车辆权重增益网络A3C的交通信号控制方法

3.1. 优势演员-评论家模型

由于基于Actor-Critic的强化学习方法在实际应用中收敛效果不佳[19-20],将不依赖于动作A的任意函数作为动作价值函数的基线,可以提高算法的收敛速度. 对策略梯度进行蒙特卡洛方法近似,可以得到策略梯度的无偏估计,如下所示:

$ {\boldsymbol{g}}(s,a;{\boldsymbol{\theta}} ) = [{Q_\pi }(s,a) - {V_\pi }(s)] \cdot {\nabla _{\boldsymbol{\theta}} }\ln\; \pi (a\left| {s;{\boldsymbol{\theta}} } \right.). $
(8)

式中:g$ (s,a;{\boldsymbol{\theta}} ) $为随机梯度,$ {Q}_{\pi }(s,a) $为动作价值函数,$ {V}_{\pi }\left(s\right) $为状态价值函数,$ {\nabla } _{{\boldsymbol{\theta}} }{\mathrm{l}\mathrm{n}}\; {\pi }\left(a\left|s;{\boldsymbol{\theta}} \right.\right) $为策略梯度的无偏估计. 当训练价值网络时,需要用到贝尔曼方程,如下所示:

$ {V_\pi }({s_t}) = {{ E}_{{A_t}\sim \pi ( \cdot |{s_t};{\boldsymbol{\theta}} )}}[{{ E}_{{S_{t+1}}\sim p( \cdot |{s_t},{A_t})}}{\text{ }}({R_t}+\gamma {V_\pi }({S_{t+1}}))]. $
(9)

式中: $ {V}_{\pi }\left({s}_{t}\right) $Rt分别为t时刻的状态价值和奖励,$ \gamma $为折扣因子,$ {V}_{\pi }\left({s}_{t+1}\right) $t+1时刻的状态价值. 其中$ {V}_{\pi }\left({s}_{t}\right) $t时刻近似成$ v({s}_{t};{\boldsymbol{\omega}} ) $. 智能体执行动作$ {a}_{t} $,环境会给出奖励$ {r}_{t} $和新的状态$ {s}_{t+1} $,用观测到的奖励和新的状态对期望进行蒙特卡洛近似,得到

$ y_t^{\mathrm{g}} = {R_t}+\gamma {V_\pi }({S_{t+1}}) \approx {\text{ }}{r_t}+\gamma v({s_{t+1}};{\boldsymbol{\omega}} ). $
(10)

式中:$ {y}_{t}^{{\mathrm{g}}} $t+1时刻对$ {V}_{\pi }\left({s}_{t}\right) $的估计. 根据式(8)~(10),定义价值网络的损失函数为

$ L({\boldsymbol{\omega}} )\mathop = \limits^\Delta 0.5{[v({s_t};{\boldsymbol{\omega}} ) - y_t^{\mathrm{g}}]^2}. $
(11)

$ {\nabla _\omega }L({\boldsymbol{\omega}} ) = (v_t^{\mathrm{g}} - y_{_t}^{\mathrm{g}}) {\nabla _{\boldsymbol{\omega}} }v({s_t};{\boldsymbol{\omega}} ). $
(12)

$ {\boldsymbol{\omega}} \leftarrow {\boldsymbol{\omega}} - \alpha {\delta _t} {\nabla _{\boldsymbol{\omega}} }v({s_t};{\boldsymbol{\omega}} ). $
(13)

式中:$ {\delta }_{t}={v}_{t}^{{\mathrm{g}}}-{y}_{t}^{{\mathrm{g}}} $$ {\nabla }_{{\boldsymbol{\omega}}}L\left({\boldsymbol{\omega}} \right) $为损失函数的梯度,$ {\boldsymbol{\omega}} $为价值网络的参数,$ \alpha $为价值网络的学习率.

当训练策略网络时,对式(8)作近似,如下所示:

$ {Q_\pi }({s_t};{a_t}) = {{ E}_{{S_{t+1}}\sim p( \cdot |{s_t},{a_t})}}[{R_t}+\gamma {V_\pi }({S_{t+1}})], $
(14)

$ {\boldsymbol{g}}(s,a;{\boldsymbol{\theta}} ) = [{{ E}_{{S_{t+1}}}}({R_t}+\gamma {V_\pi }({S_{t+1}})) - {\text{ }}{V_\pi }(s)] {\nabla _{\boldsymbol{\theta}} }\ln \; \pi (a\left| {s;{\boldsymbol{\theta}} } \right.). $
(15)

智能体执行动作at,环境会给出奖励rt和新的状态st+1,用观测到的奖励和新的状态对期望进行蒙特卡洛近似,得到

$ \tilde {\boldsymbol{g}}({s_t};{a_t};{\boldsymbol{\theta}} )\mathop = \limits^\Delta - [y_t^g - v({s_t};{\boldsymbol{\omega}} )] \nabla {\ln \;\pi }({a_t}|{s_t};{\boldsymbol{\theta}} ). $
(16)

式中:$ \tilde {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $$ {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $的近似. 用$ \tilde {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $更新策略网络参数,可以得到

$ {\boldsymbol{\theta}} \leftarrow {\boldsymbol{\theta}} +\beta \tilde {\boldsymbol{g}}({s_t};{a_t};{\boldsymbol{\theta}} ). $
(17)

式中:θ为策略网络的参数,β为策略网络的学习率.

3.2. 车辆权重增益网络参数的更新

权重增益网络是基于A3C强化学习智能体的奖励来动态更新网络参数,更具体地说,车辆权重增益网络的参数是朝着使智能体产生正收益的方向进行动态更新.

在训练过程中,车辆权重的真实值无法直接得到,采用自举法对估计的车辆权重真实值进行更新计算. 在t时刻,环境状态为st,智能体执行动作at后,环境状态更新为st+1,智能体获得奖励rt . 假设t时刻车辆权重的估计值记为g($ {\boldsymbol{\psi}} $; st+1),在t−1时刻和t时刻车辆权重的观测值分别记为g($ {\boldsymbol{\psi}} $; st−1)和g($ {\boldsymbol{\psi}} $; st),且智能体从t−1时刻更新到t时刻时获得奖励rt−1,则t时刻车辆权重的估计值可以更新为

$ {\hat y_t} = g({\boldsymbol{\psi}} ;{s_{t+1}})+({{{r_{t - 1}}} / {\left| {{r_{t - 1}}} \right|}}) \left( {g({\boldsymbol{\psi}} ;{s_t}) - g({\boldsymbol{\psi}} ;{s_{t - 1}})} \right). $
(18)

式中:当rt−1 > 0时,rt−1/|rt−1|为正,表示车辆权重g($ {\boldsymbol{\psi}} $; st−1)变化成g($ {\boldsymbol{\psi}} $; st)后奖励增大,即车辆权重朝着使智能体获得正收益的方向变化,则下一步继续沿着该方向更新权重. 反之,当rt−1 < 0时,rt−1/|rt−1|为负,表示车辆权重g($ {\boldsymbol{\psi}} $; st−1)变化成g($ {\boldsymbol{\psi}} $; st)后奖励减少,即车辆权重朝着使智能体获得负收益的方向变化,则下一步逆着该方向更新权重. g(${\boldsymbol{ \psi}} $; st+1)和$ \widehat{y} $t都是对车辆权重的估计,由于$ \widehat{y} $t中部分是基于观测值得到的,$ \widehat{y} $tg($ {\boldsymbol{\psi}} $; st+1)更接近真实权重,所以可以固定$ \widehat{y} $t后再更新权重网络参数${\boldsymbol{ \psi}} $. 更新网络参数$ {\boldsymbol{\psi}} $的具体方法如下. 定义损失函数:

$ L({\boldsymbol{\psi}} )\mathop = \limits^\Delta 0.5 {[g({\boldsymbol{\psi}} ;{s_t}) - {\hat y_t}]^2}. $
(19)

$ {\hat g_t}\mathop = \limits^\Delta g({\boldsymbol{\psi}} ;{s_t}). $
(20)

$ {\nabla _\psi }L({{\boldsymbol{\psi}} _t}) = ({\hat g_t} - {y_t}) {\nabla _{\boldsymbol{\psi}} }g({{\boldsymbol{\psi}} _t};{s_t}). $
(21)

式中:L($ {\boldsymbol{\psi}} $)为定义的损失函数,$ {\nabla }_{{\boldsymbol{\psi}} } $L(${\boldsymbol{\psi}} $)为损失函数的梯度.

$ {\boldsymbol{\psi}} \leftarrow {\boldsymbol{\psi}} - \rho {\nabla _{\boldsymbol{\psi}} }L({\boldsymbol{\psi}} ). $
(22)

式中:${\boldsymbol{ \psi }}$为权重增益网络的参数,ρ为权重神经网络的学习率. 通过梯度下降,获得新的网络参数$ {\boldsymbol{\psi}} $.

3.3. 融合车辆权重增益的A3C算法(XVWG-A3C)

强化学习算法通常面临的共性问题是训练速度较慢[21]. 为了应对该问题,并行化训练被引入异步优势演员-评论家算法中. 该算法包括一个服务器和多个worker节点,通过并行化操作来提高训练速度.

在异步优势演员-评论家算法中,服务器维护策略网络和价值网络的最新参数,使用worker节点传来的梯度进行参数更新. 每个worker节点拥有独立的环境,通过本地策略网络控制智能体与环境进行交互,计算得到状态、动作和奖励对应的梯度,将梯度发送到服务器.

通过并行化训练流程,利用A3C算法能够同时训练多个子模型,大幅度减少训练时间,不受其他线程的干扰. 公共部分的网络模型是要学习的模型,线程中的网络模型主要用于与环境进行交互.

算法1 XVWG-A3C算法
1)设定全局共享参数向量$ \boldsymbol{\theta } $$ {\boldsymbol{\theta }}_{v} $,全局共享计数器T. 假设线程特定的参数为$ {\boldsymbol{\theta }}' $$ {\boldsymbol{\theta }}_{v}' $. 2)初始化线程步骤计数器t←13)训练A3C网络和权重增益网络XVWG:1 repeat2 重置梯度$ {\mathrm{d}}\boldsymbol{\theta } $←0和d$ {\boldsymbol{\theta }}_{v} $0,重置线程参数$ {\boldsymbol{\theta }}' $=$ \boldsymbol{\theta } $, $ {\boldsymbol{\theta }}_{v}' $= $ {\boldsymbol{\theta }}_{v} $tstart = t;3 初始化神经网络的输入s,根据式(6)、(7)计算经过权重网络之后的状态st4 repeat5 根据策略函数$ \pi ({a_t}|{s_t};{{\boldsymbol{\theta}} '}) $执行动作at,得到奖励rt和经过权重网络之和的状态st+1;6 更新tt+1,TT+1;7 until 得到最终状态st 或者t−tstart==tmax7 若st+1为最终状态,R=0. 否则$ R = V({s_{t+1}},{\boldsymbol{\theta}} _v^{'}) $8 for $ i \in \{ t - 1, \cdots ,{t_{{\mathrm{start}}}}\} $do9 $ R \leftarrow {r_i}+\gamma R $10 计算累计梯度$ {{\boldsymbol{\theta}} ^{'}} \leftarrow {\mathrm{d}}{\boldsymbol{\theta}} + {\nabla _{{{\boldsymbol{\theta}} ^{'}}}}\ln \pi ({a_i}|{s_i};{{\boldsymbol{\theta}} ^{'}})(R - V({s_i};{\boldsymbol{\theta}} _v^{'})) $; $ {\boldsymbol{\theta}} _v^{'} \leftarrow {\mathrm{d}}{{\boldsymbol{\theta}} _v}+\partial {(R - V({s_i};{\boldsymbol{\theta}} _v^{'}))^2}/\partial {\boldsymbol{\theta}} _v^{'} $11 end for12 使用$ {\mathrm{d}}\boldsymbol{\theta } $和d$ {\boldsymbol{\theta }}_{v} $异步更新$ \boldsymbol{\theta } $$ {\boldsymbol{\theta }}_{v} $,使用式(18)~(22)更新车辆权重增益网络的参数Ψ;
13 until T > Tmax

采样状态输入强化学习模型前需要进行预处理,对排队等待通行车辆权重进行动态增益. 算法1具体描述了融合车辆权重增益网络的A3C强化学习算法的具体执行步骤,图7展示了基于融合车辆权重增益网络的强化学习A3C的交通信号控制框架.

图 7

图 7   融合车辆权重增益网络的强化学习A3C交通信号控制框架

Fig.7   Framework of A3C based traffic signal control fused with vehicle weight gain network


4. 仿真与结果分析

4.1. 仿真环境与参数设置

为了验证所提方法的有效性,以如图1所示的交叉口为例开展仿真测试. 使用具备开源、微观和多模态特性的仿真软件SUMO作为测试平台,利用SUMO的Traci接口获取车辆实时交通状态信息.

将所提的基于融合车辆权重增益网络的A3C强化学习算法与DQN强化学习算法和基准A3C强化学习算法进行对比,具体参数如表2所示.

表 2   对比实验中各深度强化学习模型的参数设置

Tab.2  Parameter setting of various deep reinforcement learning model in comparative experiment

实验对比参数数值
融合权重增益网络的A3C
算法、传统A3C算法
Actor网络学习率0.000 02
Critic网络学习率0.000 2
Actor网络神经元数量200
Critic网络神经元数量100
折扣因子0.9
训练步数200
训练时间/s7 200
DQN算法学习率0.000 02
神经元数量200
折扣因子0.9
训练步数200
训练时间/s7 200

新窗口打开| 下载CSV


为了测试交通信号控制在不同交通流量下的效果,设置低、中、高3种不同的车流量. 分别对应低流量(600辆/h)、中流量(1 000辆/h)和高流量(1 400辆/h),从4个不同进口方向随机生成车辆. 具体的参数设置如表3所示.

表 3   交通仿真环境的参数设置

Tab.3  Parameter setting of traffic simulation environment

参数数值
车道长度/m100
平均车辆长度/m5
最小车辆间隔/m2.5
车辆最大速度/(m·s−1)13.89
车辆最大加速度/(m·s−2)2.6
车辆最大减速度/(m·s−2)4.6
黄灯时间/s3
相位保持时绿灯持续时间/s5
相位最小绿灯时间/s15
车辆直行概率0.5
车辆左转概率0.3
车辆右转概率0.2

新窗口打开| 下载CSV


4.2. 实验结果与分析

为了展示基于深度强化学习的交通信号控制方法相较于传统交通信号控制方法的优越性,选取传统的定时控制方法和模糊自适应方法作为对照组,开展仿真测试. 在定时控制下,交叉口各个相位的配时时间和顺序在不同的交通情况下保持不变. 模糊自适应方法依靠采集到的交通数据信息来调整模糊逻辑系统的参数,实时动态更新各个相位的绿灯时间,不改变相位的执行顺序. 为了分析和比较不同的交通信号控制方法在不同的交通流量条件下的控制效果,选择回合累积奖励、车辆平均等待时间、车辆平均排队长度和车辆平均停车次数4个评价指标,对各种交通信号控制方法进行评价,如图8~11所示. 图中,n为智能体的训练回合步数,R为智能体的累计回合奖励,W为车辆的平均等待时间,L为车辆的平均排队长度,P为车辆的平均停车次数. 在每个回合内,累积奖励越大,车辆平均等待时间越短,车辆平均排队长度和车辆停车次数越少,表示利用该方法确定交通信号配时方案的效果越好.

图 8

图 8   回合累计奖励

Fig.8   Cumulative round reward


图 9

图 9   平均车辆等待时间

Fig.9   Average waiting time of vehicles


图 10

图 10   平均车辆排队长度

Fig.10   Average queue length of vehicles


图 11

图 11   平均车辆停车次数

Fig.11   Average number of vehicle stops


图8(a)~(c)的结果可以看出,在基于深度强化学习的4种交通信号控制方法中,不同流量下各个强化学习模型都能收敛. 与深度强化学习模型DQN和基准A3C深度强化学习模型相比,融合了车辆权重增益网络的A3C深度强化学习模型LVWG-A3C和IVWG-A3C具有更好的模型收敛性能和更大的累计奖励. 与车道级车辆权重增益网络LVWG-A3C模型相比,交叉口级车辆权重增益网络的IVWG-A3C模型的收敛效果进一步增强. 上述实验结果表明,车辆权重增益网络可以显著改善深度强化学习A3C模型的收敛性能,采用交叉口级的车辆权重增益网络的效果更好.

与传统的交通信号控制方法相比,从图9~11所示的测试结果可知,定时控制和模糊自适应控制在低、中、高3种流量下的整体表现比较平稳,随着交通流量的增加,车辆平均等待时间、平均排队长度和平均停车次数均不断增大. 在各种流量条件下,模糊自适应控制算法在车辆平均等待时间、车辆平均排队长度和平均停车次数这3个指标上都优于定时控制. 在低流量交通状态下,模糊自适应在平均等待时间、平均排队长度和平均停车次数等指标上优于深度强化学习算法DQN,但弱于其他几种深度强化学习方法. 在中流量和高流量交通状态下,传统的定时控制方法和模糊自适应控制方法明显弱于所有参与对比的深度强化学习方法. 这表明随着车流量的不断增加,相比于传统控制方法,深度强化学习方法具有更好的控制效果.

图8~11所示,在低、中、高3种流量条件下,无论是交叉口级车辆权重增益A3C算法还是车道级车辆权重增益A3C算法,在回合累计奖励、车辆平均等待时间、车辆平均排队长度和平均停车次数这4个交通指标方面都明显优于基准的DQN和A3C强化学习控制算法.

表4所示为不同交通信号控制方法的测试结果. 当采用LVWG-A3C算法时,与传统的DQN算法相比,在低、中、高流量下车辆的平均等待时间分别减少了16%、17%和14%,平均排队长度分别减少了7%、8%和7%,平均停车次数分别减少了8%、16%和11%. 与传统的DQN算法相比,采用IVWG-A3C算法得到的结果在低、中、高流量下的平均等待时间分别减少了23%、33%和37%,平均排队长度分别减少了13%、22%和24%,车辆平均停车次数减少了15%、21%和20%.

表 4   单路口情况下不同交通信号控制方法的测试结果

Tab.4  Test result of different traffic signal control methods under isolated intersection condition

控制方法低流量中流量高流量
W/sL/mPW/sL/mPW/sL/mP
固定配时13.855.830.7715.686.280.9117.318.621.01
自适应5.403.730.557.854.000.5713.344.610.63
DQN6.143.540.47`7.383.810.558.324.050.59
A3C5.883.430.466.903.730.497.453.830.56
LVWG-A3C5.133.280.436.113.520.467.223.760.52
IVWG-A3C4.723.180.404.923.260.436.313.500.47

新窗口打开| 下载CSV


当采用LVWG-A3C算法时,与传统的A3C算法相比,在低、中、高流量下车辆的平均等待时间分别减少了14%、11%和3%,平均排队长度分别减少了4%、5%和2%,车辆的平均停车次数减少了6%、6%和7%. 当采用IVWG-A3C算法时,与传统的A3C算法相比,在低、中、高流量下车辆的平均等待时间分别减少了19%、28%和15%,平均排队长度分别减少了7%、12%和8%,车辆平均停车次数分别减少了13%、12%和16%.

实验结果表明,与传统基于DQN和A3C强化学习的交通信号控制方法相比,基于融合车辆权重网络A3C强化学习的交通信号控制方法展现了更好的控制效果. 其中,以基于交叉口级车辆权重增益的A3C强化学习算法表现最出色,该方法有助于交通信号系统更均匀地分配绿灯时间给所有车道. 降低某些车道出现过度拥堵的风险,同时确保其他车道能够保持通畅,进而减少整体的车辆等待时间. 综上所述,基于深度强化学习的交通信号控制算法在评价指标方面,以交叉口车辆平均等待时间、车辆平均排队长度和平均停车次数为例,明显优于传统的定时控制和模糊自适应控制方法. 相较于传统的DQN和A3C深度强化学习方法,本研究提出的基于车辆权重增益的交通信号控制算法表现更好,尤其是基于融合交叉口级车辆权重增益网络的IVWG-A3C强化学习方法表现最佳.

5. 结 语

本文提出融合车辆权重增益的深度强化学习交通信号控制方法,通过提前捕捉关键交通特征信息,提升深度神经网络在特征提取过程中的学习能力. 该方法的核心是利用车辆权重增益网络对不同运动状态的车辆通行优先级进行区分. 当某车道存在大量排队等待通行车辆时,智能体会更倾向于让该车道上的车辆优先通行,提高了交叉口的通行效率. 为了验证本文方法的有效性,基于微观交通仿真软件SUMO,采用不同方法,对单交叉口在低流量、中流量、高流量3种不同交通状态下进行交通信号控制时的控制效果进行仿真测试. 测试结果表明,与其他基线方法相比,所提LVWG-A3C方法和IVWG-A3C方法具有更好的控制效果.

所提方法主要是针对单个交叉口,且在强化学习模型构建和训练过程中,尚未考虑诸如极端天气、交通事故等异常交通场景下的交通状态信息. 为了提高所提方法的实用性,未来研究工作的重点是拓展所提方法去解决区域交通信号协调控制问题.

参考文献

YE B-L, WU W, RUAN K, et al

A survey of model predictive control methods for traffic signal control

[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6 (3): 623- 640

DOI:10.1109/JAS.2019.1911471      [本文引用: 1]

彭渠栩

优化双向“绿波带”关键路口控制参数算法的研究

[J]. 应用数学进展, 2023, 12 (2): 781

[本文引用: 1]

PENG Quxu

Research on the algorithm for optimizing the key intersection control parameters of two-way “Green Wave Belt”

[J]. Advances in Applied Mathematics, 2023, 12 (2): 781

[本文引用: 1]

刘建伟, 高峰, 罗雄麟

基于值函数和策略梯度的深度强化学习综述

[J]. 计算机学报, 2019, 42 (6): 1406- 1438

DOI:10.11897/SP.J.1016.2019.01406      [本文引用: 1]

LIU Jianwei, GAO Feng, LUO Xionglin

Review of deep reinforcement learning based on value functions and policy gradients

[J]. Chinese Journal of Computers, 2019, 42 (6): 1406- 1438

DOI:10.11897/SP.J.1016.2019.01406      [本文引用: 1]

刘义, 何均宏

强化学习在城市交通信号灯控制方法中的应用

[J]. 科技导报, 2019, 37 (6): 84- 90

[本文引用: 1]

LIU Yi, HE Junhong

application of reinforcement learning in city traffic signal control methods.

[J]. Science and Technology Review, 2019, 37 (6): 84- 90

[本文引用: 1]

FARID A, HUSSAIN F, KHAN K, et al

A fast and accurate real-time vehicle detection method using deep learning for unconstrained environments

[J]. Applied Sciences, 2023, 13 (5): 3059

DOI:10.3390/app13053059     

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533

DOI:10.1038/nature14236      [本文引用: 1]

WANG M, WU L, LI J, et al

Traffic signal control with reinforcement learning based on region-aware cooperative strategy

[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23 (7): 6774- 6785

[本文引用: 2]

WANG Z, YANG K, LI L, et al

Traffic signal priority control based on shared experience multi-agent deep reinforcement learning

[J]. IET Intelligent Transport Systems, 2023, 17 (7): 1363- 1379

[本文引用: 2]

MA D, ZHOU B, SONG X, et al

A deep reinforcement learning approach to traffic signal control with temporal traffic pattern mining

[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23 (8): 11789- 11800

[本文引用: 1]

BOUKTIF S, CHENIKI A, OUNI A

Traffic signal control using hybrid action space deep reinforcement learning

[J]. Sensors, 2021, 21 (7): 2302

DOI:10.3390/s21072302      [本文引用: 1]

CHU T, WANG J, CODECA L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (3): 1086- 1095

[本文引用: 1]

刘智敏, 叶宝林, 朱耀东, 等

基于深度强化学习的交通信号控制方法

[J]. 浙江大学学报: 工学版, 2022, 56 (6): 1249- 1256

[本文引用: 1]

LIU Zhimin, YE Baolin, ZHU Yaodong, et al

Traffic signal control methods based on deep reinforcement learning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (6): 1249- 1256

[本文引用: 1]

WU T, ZHOU P, LIU K, et al

Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (8): 8243- 8256

DOI:10.1109/TVT.2020.2997896      [本文引用: 1]

赵乾, 张灵, 赵刚, 等

双环相位结构约束下的强化学习交通信号控制方法

[J]. 交通运输工程与信息学报, 2023, 21 (1): 19- 28

[本文引用: 1]

ZHAO Qian, ZHANG Ling, ZHAO Gang, et al

Reinforcement learning traffic signal control method under dual-ring phase structure constraints

[J]. Journal of Transportation Engineering and Information, 2023, 21 (1): 19- 28

[本文引用: 1]

王安麟, 孙晓龙, 钟馥声

一种基于通行优先度规则的城市交通信号自组织控制方法

[J]. 重庆交通大学学报: 自然科学版, 2018, 37 (2): 96

[本文引用: 1]

WANG Anlin, SUN Xiaolong, ZHONG Fusheng

A self-organized control method for urban traffic signals based on priority rules for passage

[J]. Journal of Chongqing Jiaotong University: Natural Science, 2018, 37 (2): 96

[本文引用: 1]

ASIAIN E, CLEMPNER J B, POZNYAK A S

Controller exploitation-exploration reinforcement learning architecture for computing near-optimal policies

[J]. Soft Computing, 2019, 23 (11): 3591- 3604

DOI:10.1007/s00500-018-3225-7      [本文引用: 1]

TROIA S, SAPIENZA F, VARÉ L, et al

On deep reinforcement learning for traffic engineering in SD-WAN

[J]. IEEE Journal on Selected Areas in Communications, 2021, 39 (7): 2198- 2212

DOI:10.1109/JSAC.2020.3041385     

TAN K L, SHARMA A, SARKAR S

Robust deep reinforcement learning for traffic signal control

[J]. Journal of Big Data Analytics in Transportation, 2020, 2: 263- 274

DOI:10.1007/s42421-020-00029-6      [本文引用: 1]

LI M, LI Z, XU C, et al

Deep reinforcement learning-based vehicle driving strategy to reduce crash risks in traffic oscillations

[J]. Transportation Research Record, 2020, 2674 (10): 42- 54

DOI:10.1177/0361198120937976      [本文引用: 1]

CHU T, WANG J, CODECÀ L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (3): 1086- 1095

DOI:10.1109/TITS.2019.2901791      [本文引用: 1]

WU Q, CHEN X, ZHOU Z

Deep reinforcement learning with spatio-temporal traffic forecasting for data-driven base station sleep control

[J]. IEEE/ACM Transactions on Networking, 2021, 29 (2): 935- 948

DOI:10.1109/TNET.2021.3053771      [本文引用: 1]

/