浙江大学学报(工学版), 2023, 57(12): 2524-2532 doi: 10.3785/j.issn.1008-973X.2023.12.019

交通工程

结合领域经验的深度强化学习信号控制方法

张萌,, 王殿海, 金盛,

浙江大学 建筑工程学院,浙江 杭州 310058

Deep reinforcement learning approach to signal control combined with domain experience

ZHANG Meng,, WANG Dian-hai, JIN Sheng,

College of Civil Engineering and Architecture, Zhejiang University, Hangzhou 310058, China

通讯作者: 金盛,男,教授. orcid.org/0000-0001-6110-0783. E-mail: jinsheng@zju.edu.cn

收稿日期: 2023-03-16  

基金资助: 国家自然科学基金资助项目(52131202,52072340,71901193);浙江省杰出青年科学基金资助项目(LR23E080002)

Received: 2023-03-16  

Fund supported: 国家自然科学基金资助项目(52131202,52072340,71901193);浙江省杰出青年科学基金资助项目(LR23E080002)

作者简介 About authors

张萌(1998—),男,硕士生,从事交通信息工程与控制研究.orcid.org/0000-0003-3270-1920.E-mail:22112093@zju.edu.cn , E-mail:22112093@zju.edu.cn

摘要

针对深度强化学习信号控制方法存在训练不稳定、收敛慢以及相位频繁改变的问题,基于双决斗深度Q网络(3DQN)算法引入预训练模块和相位绿灯时间计算模块,提出结合领域经验的信号控制方法. 通过优化双重Q学习损失、监督式边际分类损失和正则化损失,使预训练模块引导3DQN智能体模仿Max-Pressure方法的策略,以稳定并加快智能体的训练过程. 相位绿灯时间计算模块基于平均车头时距和排队长度动态调整相位绿灯时间以减少绿灯损失. 以杭州市萧山区机场城市大道和博奥路交叉口为例,在仿真平台SUMO上对所提方法进行验证. 实验结果表明,所提方法能有效改进传统3DQN算法的训练速度. 相比于传统控制方法,所提方法明显缩短了车辆平均旅行时间,提高了交叉口运行效率.

关键词: 交通信号控制 ; 强化学习 ; 深度强化学习 ; 监督学习 ; 预训练

Abstract

To address the problems of unstable training, slow convergence and frequent phase changes of signal control methods based on deep reinforcement learning, a signal control method that integrates domain expertise was proposed by incorporating a pre-training module and a phase green time calculation module based on the double-dueling deep Q network (3DQN) algorithm. The pre-training module was introduced to guide the 3DQN agent to mimic the strategy of Max-Pressure method by optimizing the dual Q learning loss, supervised marginal classification loss and regularization loss, whereby the training process was stabilized and accelerated. The phase green light time calculation module dynamically adjusted the phase green light time to reduce green light loss based on the average time headway and queue length of the current phase. The intersection of Airport City Avenue and Boao Road in Xiaoshan District, Hangzhou was used as an example to verify the algorithm on the simulation platform SUMO. The simulation test results show that the proposed method can not only effectively improve the training speed of the traditional 3DQN algorithm, but also significantly reduce the average vehicle travel time and improve the intersection operation efficiency compared with the traditional control method.

Keywords: traffic signal control ; reinforcement learning ; deep reinforcement learning ; supervised learning ; pre-training

PDF (1262KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张萌, 王殿海, 金盛. 结合领域经验的深度强化学习信号控制方法. 浙江大学学报(工学版)[J], 2023, 57(12): 2524-2532 doi:10.3785/j.issn.1008-973X.2023.12.019

ZHANG Meng, WANG Dian-hai, JIN Sheng. Deep reinforcement learning approach to signal control combined with domain experience. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(12): 2524-2532 doi:10.3785/j.issn.1008-973X.2023.12.019

针对交叉口信号优化控制的研究按照控制方法可划分为3类:基于历史交通流数据的预定时信号控制[1],基于实时交通状态的响应控制(包括感应控制[2]、自适应控制[3])以及基于模型的协调控制. 采用上述方法进行优化交叉口信号控制存在一定的理想假设,具有一定的局限性. 随着人工智能技术和交通信息采集技术的发展,通过数据驱动实现信号控制成为交叉口信号优化的新发展方向.

强化学习属于人工智能技术,以马尔可夫决策为基础,通过反馈机制进行学习,适用于具有顺序决策特征的交通信号控制问题. 由于交通状态的随机性、复杂性和动态性,传统强化学习在表达交通状态时存在局限. 将深度学习与强化学习结合的深度强化学习方法使得强化学习应用于交通信号控制的研究有了新的突破. 学者开始应用深度强化学习方法解决交叉口信号控制问题. Genders等[4]提出使用离散状态编码表示交叉口的交通状态,并使用深度学习中的卷积神经网络提取车辆速度和位置特征. 与使用排队车辆数为特征的浅层神经网络相比,Genders等[4]的方法控制效果更佳,证明了深度卷积神经网络的有效性. Li等[5]将堆叠自编码器(stacked auto-encoder, SAE)引入强化学习,证明了在减少排队长度上,结合深度学习网络与强化学习的信号控制方法相比于传统的强化学习信号控制方法更有优势. Gao等[6]基于离散状态编码和深度Q网络 (deep Q network, DQN)算法进行仿真实验,证明了深度强化学习方法在车辆延误指标上优于最长队列优先 (longest queue first, LQF)算法和定时信号控制方法. Mousavi等[7]使用基于策略和基于值函数的深度强化学习方法控制信号灯;与定时信号控制方法相比,2种深度强化学习方法均能够显著降低车辆的延误. Wei等[8]在DQN算法的基础上提出分区记忆和相位门控机制,在仿真交通流数据和真实交通流数据上验证了所提方法的优越性. Liang等[9]基于双决斗深度Q网络(double-dueling deep Q network, 3DQN) [10]算法进行信号优化,采用离散状态编码表示交叉口状态,动作空间为延长5 s或缩短5 s某个相位的持续时间;奖励函数采用动作执行前后交叉口内车辆等待时间的差值. 孙浩等[11]提出基于深度分布强化学习单交叉口信号控制方法. 刘志等[12]通过设计优先级序列经验回放和动作奖惩系数改进深度强化学习算法的性能,所提算法在车辆平均等待时间和路口总排队长度上优于实际配时策略和传统的DQN算法. 刘智敏等[13]构建基于相邻采样时间步实时车辆数变化量的奖励函数,使用改进的DQN算法进行信号控制. 赵乾等[14]基于近端策略优化 (proximal policy optimization, PPO)算法进行单交叉口信号控制并设计NEMA双环相位结构的动作空间,通过设置低中高交通需求实验验证了所提算法在控制排队长度和车均延误方面优于固定配时方案.

基于深度强化学习的城市单交叉口信号控制的研究在状态定义、动作空间设置、奖励函数、网络结构等方面均进行了较为深入的探索,但在实践中依然存在训练过程不稳定、迭代收敛慢以及动作频繁改变的问题. 本研究在深度强化学习算法3DQN的基础上增加模型预训练模块,通过引入Max-Pressure方法的经验对智能体的网络进行初始化,在1步Q学习损失的基础上引入n步Q学习损失、监督式边际分类损失和正则化损失,引导智能体模仿Max-Pressure方法的动作策略,从而得到初始化参数较好的智能体. 同时,本研究引入平均车头时距,提出根据排队长度动态设置相位绿灯时间的方法,以减少相位频繁改变带来的绿灯损失问题. 以杭州市萧山区机场城市大道和博奥路形成的单交叉口为例,在仿真平台SUMO上对本研究算法进行验证.

1. 基于深度强化学习的信号控制方法

1.1. 模型建立

深度强化学习模型的结构如图1所示. 强化学习算法包含5个要素:环境、状态、动作、智能体和奖励. 在单交叉口信号控制问题中,一般将交通信号灯抽象为强化学习模型当中的智能体,交叉口处车辆的运行状况看作模型中的环境. 基于深度强化学习的交通信号控制方法可以概括为4个步骤:1)环境将交叉口处的车辆运行状况传递给作为智能体的交通信号灯;2)交通信号灯根据各个车道内车辆的运行状况,做出相应的动作,即激活相应的相位,使得对应方向的车流驶离交叉口;3)动作结束后,交通信号灯收集交叉口车辆的变化情况(如排队长度的变化、延误的变化的反馈信息)作为之前动作的奖励;4)返回步骤1).

图 1

图 1   深度强化学习模型示意图

Fig.1   Schematic diagram of deep reinforcement learning model


基于深度强化学习算法的智能体通过以上4个步骤与环境进行不断地交互并在该过程中收集经验,通过策略迭代或值迭代的方式优化自身网络参数,以获得最优的控制策略. 为了保证智能体能够学习交叉口处车流的变化并做出合适的动作,须合理定义深度强化学习模型中的要素. 本研究以杭州市萧山区机场城市大道和博奥路形成的单交叉口为例,在适当简化交通场景的基础上,依据交通控制领域内的相关指标来设计状态特征、动作和奖励函数.

1.1.1. 状态

状态的设计对于深度强化学习模型的学习有至关重要的作用. 状态的设计可以分为2类:1)采用如交通评价指标的统计值来刻画交叉口每条车道内的交通需求以及交通状态(如每条车道的排队长度[15]、交通流量[16]、车流密度[17]等);2)使用图像表示方法对交叉口的每条车道进行离散化编码,即将每条车道划分为长宽固定的元胞,当元胞中含有车辆时,使用与元胞对应的速度矩阵和位置矩阵表示车辆的信息,进而利用卷积神经网络处理矩阵. 考虑到状态的维度不宜过大,且使用如交通评价指标的统计值可以达到与图像表示方法同等的控制效果[17],本研究采用状态1)表示方法. 结合交叉口的时空因素,采用与交叉口相连的进口道的排队强度 ${I_{{\text{q,in}}}}$,车流强度 ${I_{{\text{D,in}}}}$、车辆平均等待时间强度 ${I_{{\text{w,in}}}}$、出口道的排队强度 ${I_{{\text{q,out}}}}$、车流强度 ${I_{{\text{D,out}}}}$、当前相位 $i$的独热编码以及相位绿灯时长是否达到最小绿灯时间作为交叉口的状态特征. 其中每条车道的排队强度 ${I_{\text{q}}}$、车流强度 ${I_{\text{D}}}$、车辆平均等待时间强度 ${I_{\text{w}}}$的定义式为

$ {I_{\text{q}}} = {{{N_{{\text{stop}}}}}}/{{{N_{\max }}}}, $

$ {I_{\text{D}}} = {{{N_{{\text{veh}}}}}}/{{{N_{\max }}}}, $

$ {I_{\text{w}}} = {{\displaystyle\sum\nolimits_i^{{N_{{\text{stop}}}}} {{T_i}} }}/{{{T_{\max }}}}. $

式中: ${N_{{\text{stop}}}}$为车道内速度低于0.1 m/s的车辆; ${N_{\max }}$为单条车道所能容纳的最大车辆数; ${N_{{\text{veh}}}}$为车道内的车辆数; ${T_i}$为速度低于0.1 m/s的每一辆车的等待时间, ${T_{\max }}$为驾驶员容忍的最大等待时间,设定为60 s. 以杭州市萧山区机场城市大道和博奥路形成的单交叉口为例,其东西南北方向各有4条进口道和3条出口道,总计81个特征构成该交叉口的状态特征空间,如图2所示,其中 $0,\cdots,{P_i},\cdots,0$为当前相位 $i$的独热编码, ${P_i}$=1.

图 2

图 2   状态向量表

Fig.2   State vector scale


1.1.2. 动作

动作的设置可以分为4类:1)设置相位持续时间、2)设置相位绿信比、3)保持或切换当前相位、4)从相位集合中选择某一相位. 固定相位相序的动作设置须提前考虑各进口道的车流量制定相位方案. 当相位方案改变时,智能体须重新训练. 本研究采用动作设置方案4). 如图3所示为本研究采用的8种相位. 智能体将在每个决策时刻根据当前状态从动作空间中选取1种相位. 如果选择的相位与信号灯当前相位一致或未达到最小绿灯时长,则延长信号灯显示相位的绿灯时间;否则先执行3 s黄灯,再根据选择的动作切换至对应的相位.

图 3

图 3   交叉口相位方案集合

Fig.3   Combination diagram of intersection phase scheme


1.1.3. 奖励函数

传统信号控制领域已总结出较多的交通指标来评价交叉口处车辆的通行效率,比如排队长度、吞吐量、车辆延误等. 交叉口信号控制的目标是降低所有通行者的平均旅行时间. 在强化学习处理信号控制问题当中,奖励函数一般通过动作执行前后某些指标的变化来给予智能体反馈,比如排队长度的变化[18]、延误时间的差值[13]. 由于不考虑行人过街,本研究将降低交叉口所有车辆的平均旅行时间作为优化目标. 在仿真过程中,车辆的旅行时间无法通过直接测量得到,Zheng等[17]指出使用交叉口的排队长度作为奖励函数与优化车辆的旅行时间具有较强的相关性,因此本研究使用动作执行前后的排队强度之差 $\Delta L$作为奖励函数的首要指标. 考虑到交通量小的方向排队强度一直很小,智能体在选择相位时可能忽略该方向的车辆,导致车流量小的方向单车延误较高,在排队强度指标的基础上加入车辆最大等待时间 ${W_{\max }}$,引导智能体更加合理地选择相位. 智能体的奖励函数定义式为

$ R = {k_1}\Delta L - {k_2}\frac{{{W_{\max }}}}{{60}}. $

式中: ${k_1}$${k_2}$为每个指标对应的权重系数,取值均为1.

1.2. 预训练模型

通过专家数据对模型进行初始化训练以获得性能较好的策略是解决深度强化学习方法学习速度慢的方法之一. Hester等[19]将人类玩游戏的经验数据与深度强化学习进行融合,提出学习演示的深度 Q 学习(deep Q-learning from demonstrations, DQFD)方法. DQFD通过离线的方式利用人类的经验数据对DQN算法中的神经网络进行初始化,缓解了深度强化学习模型初始化不稳定的状况,在一定程度上加快了网络的学习. 与DQFD解决的问题不同,在交通信号控制领域中不存在专家轨迹样本. 本研究须解决2个问题:1)采用何种交通控制方法作为模仿的专家方法,2)如何利用该交通控制方法产生的数据对深度强化学习智能体进行预训练.

Max-Pressure方法[20]旨在通过最小化交叉口的压力来平衡相邻交叉口之间的排队长度,从而降低过度饱和的风险. 在Max-Pressure方法中,信号灯每间隔固定的时间切换相位,其中相位根据各个相位的压力差从给定的相位方案中选取,相位方案如图3所示. 压力差定义为相位控制的进口车道排队车辆数与相应出口车道排队车辆数的差值. Max-Pressure方法与本研究设计的智能体动作空间一致,且该方法作为对比方法在以往的强化学习信号控制研究中均表现出较好的控制效果,因此Max-Pressure方法相比于其他方法更加适合作为本研究中智能体模仿的专家方法.

在选定专家方法后,可以通过仿真实验获取专家方法的经验数据,即形如状态 ${s_t}$、动作 ${a_t}$、下一时刻的状态 ${s_{t+1}}$、奖励 ${r_t}$的序列. 具体来说,在每次执行Max-Pressure方法选择动作前,先根据状态要素获取交叉口处的 ${s_t}$,并储存Max-Pressure方法给出的 ${a_t}$,在下次动作选取之前,获取交叉口处的 ${s_{t+1}}$以及该动作带来的 ${r_t}$. 为了使智能体在与环境互动前能够从这些经验中获取较好的先验知识,并将其表现在状态-动作对的Q值上,引入4类损失作为预训练阶段损失函数的要素,即1步Q学习TD损失 $L(\theta )$n步Q学习TD损失 $ L{}_n(\theta ) $,监督式边际分类损失 ${L_{\text{E}}}(\theta )$以及 ${L_{\text{2}}}$正则化损失 ${L_{\text{2}}}(\theta )$. 采用1步与n步Q学习损失混合更新Q网络有助于将Q值传递到更早的状态,保证训练的网络满足贝尔曼方程. 应用于该网络的权重和偏置的 L2 正则化损失可以防止网络过拟合于相对较小的专家经验数据集. 定义监督式边际分类损失为

$ {L_{\text{E}}}(\theta ) = {\max _{a \in A}}\left[ {Q(s,a)+l({a_{\text{E}}},a)} \right] - Q(s,{a_{\text{E}}}). $

式中: $a$为智能体在状态 $s$所做的动作; ${a_{\text{E}}}$为专家方法所做的动作; $l(a,{a_{\text{E}}})$为边际函数,当 $a = {a_{\text{E}}}$时,该函数值为0,否则为正值 ${l_{\text{p}}}$. 监督式边际分类损失会迫使非专家动作的值至少比专家动作的值低正值 ${l_{\text{p}}}$. 引入监督式边际分类损失对于预训练的结果至关重要. 因为通过Max-Pressure方法获取的经验数据比较少,所以许多需要探索的状态-动作对没有包含在经验数据当中. 如果仅使用Q的学习损失来训练网络,会导致网络估计的Q值不准确. 监督式边际分类损失会引导网络将那些在专家经验中从未出现的状态-动作对的Q值估计成合理的值,使得由价值函数引起的贪婪策略可以模拟专家方法. 损失函数定义式为

$ J(\theta ) = L(\theta )+{\lambda _1}{L_n}(\theta )+{\lambda _2}{L_{\text{E}}}(\theta )+{\lambda _3}{L_{\text{2}}}(\theta ). $

式中: ${\lambda _1}$${\lambda _2}$${\lambda _3}$为各个损失的权重系数.

1.3. 相位持续时间计算

深度强化学习智能体执行动作的频率一般固定在1.0、0.2、0.1 Hz. 高频的动作不但不利于网络的收敛,而且容易造成信号的反复切换导致黄灯时长增加. 低频的动作不利于信号的灵活切换,使得智能体的控制达不到最优的控制效果. 因此执行动作的频率对于网络的收敛以及智能体的控制效果尤为重要,最佳的智能体应能通过使用较少的动作达到最优的控制效果. 本研究引入平均车头时距计算动作的持续时间,使得每次相位的绿灯时间能够与交叉口处交通流的实时状态联系在一起. 具体而言,智能体先根据状态特征计算出最佳的信号相位,在执行该相位前通过交叉口处的检测器检测该相位控制的车道内排队车辆的数量,该相位的持续时间计算式为

$ {t_{\rm{p}}}\left\{ \begin{array}{l} {t_{\min }},\;{t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h{\rm{ }} < {t_{\min }};\\ {t_{\max }},\;{t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h{\rm{ }} > {t_{\max }};\\ {t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h,\;\;{\text{其他}}. \end{array} \right.$

式中: ${t_{\min }}$为最小绿灯时长, ${t_{\max }}$为最大绿灯时长, ${t_{{\text{loss}}}}$为头车的启动损失时间, $\overline h $为交叉口处释放车流的平均车头时距, ${N_{{\text{veh}}}}$为相位控制车道内最大排队车辆数. 如果排队长度过长,导致计算的相位绿灯时间超过最大绿灯时长,则强制设置动作的持续时间为最大绿灯时长;如果排队长度过短,导致计算的相位绿灯时间小于最小绿灯时长,则设置动作的持续时间为最小绿灯时长. 这一规则,既减少了绿灯空放造成的时间损失,也避免了因为动作频率过高导致的黄灯损失. 该规则也在一定程度上降低了交叉口处交通控制的复杂性,智能体可以将该规则视为环境的一部分,从而帮助智能体学习.

1.4. 交通信号控制强化学习算法

结合状态、动作的定义,采用3DQN算法作为控制交叉口信号灯的智能体. 3DQN算法的核心是深度神经网络,它可以从状态空间中提取特征并将这些特征映射到Q值函数上. 智能体可以根据Q值函数来选择最优的行动,实现有效的学习. 3DQN算法相比于DQN算法加入Dueling Network结构与Double Network结构. Dueling Network改善了DQN算法的估计效率,它将Q值函数分解为2个部分:用于估计状态价值的值函数,用于估计动作价值的动作函数. Double Network缓解了DQN算法对Q值估计过高的问题,在Double Network中,存在动作网络和目标网络. 这2种网络的初始化参数一致,但更新方式不一致,动作网络通过梯度下降直接更新参数,目标网络采用软更新的方式更新参数.

为了平衡探索与利用的关系,采用动态贪婪策略训练模型. 动态贪婪策略在训练过程中动态改变贪婪系数 $\varepsilon $的大小. 训练开始时 $\varepsilon $的值比较大,智能体倾向于选取随机动作进行前期的探索过程. 随着训练时间的增加, $\varepsilon $的值逐渐减小,智能体更倾向于选取对应Q值最大的动作. 本研究的模型框架如图4所示. 1)通过使用Max-Pressure方法控制信号灯完成整个仿真实验. 在该过程中收集Max-Pressure方法的经验序列. 2)使用收集到的经验序列通过预训练对3DQN算法中的深度神经网络进行初始化,使得3DQN算法中的深度神经网络既能够满足贝尔曼方程,又能够模仿Max-Pressure方法选择动作的策略. 3)经过初始化后的智能体将与环境进行实时交互,并将获取的经验存放于经验缓冲池中,满足更新条件时则从经验缓冲池中取出小批量的样本进行学习,经过反复迭代最终网络达到收敛.

图 4

图 4   基于双决斗深度Q网络的信号控制模型框架

Fig.4   Signal control model framework based on double-dueling deep Q network


在3DQN算法中,超参数的设计对训练结果有重要影响. 本研究算法的参数具体如下:深度神经网络的激活函数为ReLU,梯度下降算法为Adam,学习率为0.001,经验缓冲池的容量设置为10 000,折扣因子为0.99,贪婪系数初始值为1,贪婪系数衰减率为0.95,最小贪婪系数为0.005,目标网络软更新系数为0.005,小批量经验大小为256. 在预训练阶段, ${\lambda _1}$=0.1, ${\lambda _2}$=1, ${\lambda _3}$=1.0×10−5n=5, ${l_{\text{p}}}$=0.8.

2. 案例分析与实验结果

2.1. 案例分析与实验配置

杭州市萧山区机场城市大道与博奥路交叉口是典型的四岔路口,东西南北方向各有4个进口道和3个出口道,其中东西方向为1条直右车道、2条直行车道和1条专用左转车道,南北方向为1条专用右转车道、2条直行车道和1条专用左转车道,东西南北方向的进口道长度分别为500、450、450和300 m. 本实验收集2021年10月18日至2021年10月24日一周的流量数据. 2021年10月18日原始数据每15 min进行一次统计,得到的流量分布如图5所示, $N$为车辆数. 针对早高峰时段(8:30—9:30)的交通情况开展本次实验研究,该时间段内过车车辆类型的统计结果如表1所示,其中P为车辆占比. 仿真过程采用7种车辆类型,车辆类型设置如表2所示,其中L为车身长度;D为速度因子分布,是车辆的最大行驶速度与道路限速的比值,车辆速度因子分布用以模仿不同的驾驶行为(如激进驾驶、保守驾驶). 每种车辆类型的速度因子从截断正态分布Normc中取出,截断正态分布Normc中含有四类参数,依次代表截断正态分布的均值、标准差、最小截断速度与道路限速的比值、最大截断速度与道路限速的比值. 仿真实验中的其他实验参数设置如下: 道路规定上限速度为13.89 m/s,车头最小间距为2.5 m,最小绿灯时间为5 s,最大绿灯时间为50 s,黄灯时间为3 s. 一次仿真时长为3 600 s,在仿真初始的0~50 s为加载路网车辆,信号灯依据Webster配时方案进行信号控制.

图 5

图 5   交叉口全天的流量分布图

Fig.5   Flow distribution diagram of intersections throughout day


表 1   高峰时期交叉口过车车辆类型分布

Tab.1  Distribution of passing vehicle types at intersections during peak hours

车辆类型 N P/%
小轿车 2 606 63.07
小客车 1 440 34.85
大客车 22 0.53
公交车 5 0.12
出租车 7 0.17
货车 48 1.16
工程车 4 0.10

新窗口打开| 下载CSV


表 2   仿真实验车辆类型设置

Tab.2  Simulation experiment vehicle type setting

车辆类型 L/m D
小轿车 5.0 Normc (1,0.1,0.5,2)
小客车 6.5 Normc (1,0.1,0.5,2)
大客车 14.0 Normc (1,0.05,0.5,2)
公交车 12.0 Normc (1,0.05,0.5,2)
出租车 5.0 Normc (1,0.1,0.5,2)
货车 7.1 Normc (1,0.05,0.5,2)
工程车 16.5 Normc (1,0.05,0.5,2)

新窗口打开| 下载CSV


2.2. 实验结果与分析

利用2021年10月18日的早高峰数据进行仿真训练,与传统的基于3DQN算法、感应式信号控制方法Actuated和Delay-Based[21]以及定时信号控制方法Webster的控制效果进行对比. 不同方法在车辆平均等待时间 ${t_{\rm{w}}}$、平均旅行时间 ${t_{\rm{t}}}$和车辆平均速度 $v$上的控制效果如表3所示. 本研究算法在各项指标上均表现出最好的控制效果. 相比于定时信号控制,本研究算法在平均旅行时间上减少了22.97%. 如表4所示为采用不同方法控制信号灯时各进口道的平均排队长度,其中 ${L_{\text{n}}}$${L_{\text{s}}}$${L_{\text{e}}}$${L_{\text{w}}}$分别为北进口道、南进口道、东进口道和西进口道的排队长度. 可以看出,本研究所提算法相比于其他控制方法能够明显缩短东进口道和南进口道的排队长度. 如图6所示为采用不同方法控制信号灯时路网内车辆平均等待时间的变化情况,其中 $t$为仿真时刻. 可以看出,本研究算法相比于其他方法,在车辆平均等待时间上波动更加平稳.

表 3   不同方法的控制效果对比

Tab.3  Comparison of control effects among different methods

算法 tw/s tt/s v/(m·s−1)
Webster 35.89 113.46 7.45
Actuated 33.77 110.04 7.70
Delay-Based 64.85 142.52 6.36
3DQN 15.01 90.75 8.96
本研究 13.00 87.39 9.30

新窗口打开| 下载CSV


表 4   不同方法下各进口道的平均排队长度

Tab.4  Average queue length of each approach under different methods

m
算法 Ln Ls Le Lw
Webster 18.73 33.02 37.06 10.77
Actuated 16.66 26.11 22.85 9.70
Delay-Based 21.58 68.22 62.01 14.50
3DQN 10.53 19.81 19.85 8.29
本研究 9.90 17.80 16.81 9.32

新窗口打开| 下载CSV


图 6

图 6   不同方法下路网内车辆平均等待时间变化

Fig.6   Variation of average waiting time for vehicles in road network under different methods


为了进一步探究所提方法的性能,选取2021年10月18日至2021年10月24日一周的早高峰数据对训练好的模型进行测试,实验结果如图7所示. 可以看出,相比于其他信号控制方法,本研究算法在一周的测试中均表现最佳.

图 7

图 7   不同方法下早高峰时段一周的平均旅行时间变化

Fig.7   Average travel time during morning peak hours for one week under different methods


2.3. 方法改进效果验证

为了探究预训练模块以及相位持续时间模块对于收敛速度和控制效果的影响,在不改变其他参数的情况下,分别将加入预训练模块的方法和加入相位持续时间模块的方法与传统3DQN算法在收敛速度和平均旅行时间控制效果上比较. 加入预训练模块的3DQN算法与传统3DQN算法对比结果如图8所示, $R$为训练过程中智能体在一次仿真过程获得的总奖励, $E$为仿真迭代次数. 可以看出,使用Max-Pressure方法的经验数据对模型进行初始化能够稳定模型的学习过程,减少前期的波动,同时通过预训练可以帮助智能体更快地达到收敛. 产生此种结果的原因在于模型在探索期间使用的动态贪婪策略. 当探索系数 $\varepsilon $逐渐变低时,信号灯的相位将由模型产生的Q值决定. 相比于未预训练的网络,经过预训练后的网络在训练初期能够以更高的概率选择专家动作.

图 8

图 8   加入预训练模块与未加入预训练模块的双决斗深度Q网络算法收敛速度情况

Fig.8   Convergence speed comparison of double-dueling deep Q network algorithms with and without pretrained module


图9所示为加入相位持续时间模块的3DQN方法(3DQN-DT)与动作间隔为10 s的3DQN方法(3DQN-10)、动作间隔为5 s的3DQN方法(3DQN-5)在平均旅行时间指标上的收敛情况. 可以看出,3种不同设置的模型在收敛速度上较为一致,但3DQN-DT在最终收敛结果上超过了3DQN-10和3DQN-5,其中3DQN-DT的平均旅行时间为87 s,3DQN-10的平均旅行时间为90 s,3DQN-5的平均旅行时间为105 s.

图 9

图 9   加入相位持续时间模块的双决斗深度Q网络(3DQN)算法与传统3DQN算法在平均旅行时间上的收敛情况

Fig.9   Convergence analysis of double-dueling deep Q network (3DQN) algorithms with phase duration module and traditional 3DQN algorithm on average travel time


为了进一步探究3DQN-DT方法与3DQN-10、3DQN-5的差异,就模型的选择策略、各个相位在仿真过程中的总绿灯时长进行分析. 如图10所示为3种方法在选择策略上的分布情况. 图中, $x$为动作选择的相位,其中 $x$=1代表动作选择的是排队长度最大的相位, $x$=2代表动作选择的是排队长度次大的相位, $y$为智能体选择某种相位的次数, $P_{\rm{N}}$为智能体选择某种相位的次数占总选择次数的比例. 3DQN-DT共执行307次动作,其中60.26%的动作选择了排队长度最大的相位;3DQN-10共执行280次动作,其中64.64%的动作选择了排队长度最大的相位;3DQN-5共执行463次动作,其中56.59%的动作选择了排队长度最大的相位. 3种模型在选择策略上的变化趋势较为一致,因此相位持续时间模块对模型的动作选择策略影响较小. 如图11所示为3种模型在相位绿灯时间上的分布情况,其中 ${P_{\rm{h}}}$为动作空间中的8种相位, $t_{\rm{g}}$为绿灯时间. 在所有相位的总绿灯时长上,3DQN-DT的绿灯时间为2 744 s,3DQN-10的绿灯时间为2 800 s,3DQN-5的绿灯时间为2 315 s. 可以看出,3DQN-5由于动作时间间隔的缩短导致相位交替过快,仿真过程中造成的黄灯损失较多,因此该模型的控制效果不如其他2个模型. 3DQN-10的绿灯时间最长,但其控制效果却不如3DQN-DT,原因在于3DQN-DT能够根据车道内排队情况动态调整相位的绿灯持续时间减少绿灯空放情况的发生. 还可以看出,3DQN-DT将更多的绿灯时间分配给了相位5和相位6. 周一的交通流数据显示该交叉口存在明显的南北交通流不均衡以及东西交通流不均衡的情况,因此采用单向放行的相位相比于对向放行的相位更能够提高交通流的运行效率,减少车辆的平均延误. 此外,3DQN-DT通过检测交通流对绿灯时间分配进行了进一步的优化,提高了路网交通流的运行效率.

图 10

图 10   不同间隔时间设置下的模型动作策略示意图

Fig.10   Schematic diagram of model action strategy under different intervals settings


图 11

图 11   不同双决斗深度Q网络算法的各相位绿灯总时长对比图

Fig.11   Comparison diagram of total green light duration for each phase with different double-dueling deep Q network algorithms


3. 结 语

基于深度强化学习方法对单交叉口进行信号控制已经有了长足的发展,以往研究从状态表达、动作设计等不同的角度出发探寻并挖掘了深度强化学习方法在信号控制领域的潜力. 本研究提出使用Max-Pressure方法预先初始化3DQN算法中神经网络的参数,使得预训练后的3DQN算法能够在满足贝尔曼方程的基础上模仿Max-Pressure的策略. 针对3DQN算法存在的动作执行频率过高或过低的问题,本研究引入平均车头时距动态计算每次相位的绿灯持续时间,保证了排队车流释放的顺畅性,减少了绿灯损失. 根据真实的交叉口流量数据对所提算法进行验证,结果表明本研究算法能够有效解决现有方法在训练过程中存在不稳定、迭代慢的问题. 相比于传统的信号控制方法和感应控制方法,本研究算法能够显著提高交叉口处的运行效率. 本研究仅限于单交叉口的信号控制问题,未讨论目标交叉口策略的改变对于邻近交叉口的影响. 在城市交通中,交叉口之间的相互关联作用与交叉口之间的距离和交通流量有着密切的关系. 通过深度强化学习方法对多个交叉口形成的干线网络或区域网络进行协调控制,并分析流量与距离对协调控制的影响将是下一步研究的重点.

参考文献

WEBSTER F V. Traffic signal settings [R]. London: Road Research Laboratory, 1958.

[本文引用: 1]

罗小芹, 王殿海, 金盛

面向混合交通的感应式交通信号控制方法

[J]. 吉林大学学报: 工学版, 2019, 49 (3): 695- 704

[本文引用: 1]

LUO Xiao-qin, WANG Dian-hai, JIN Sheng

Traffic signal actuated control at isolated intersections for heterogeneous traffic

[J]. Journal of Jilin University: Engineering and Technology Edition, 2019, 49 (3): 695- 704

[本文引用: 1]

HUNT P, ROBERTSON D, BRETHERTON R, et al

The SCOOT on-line traffic signal optimisation technique

[J]. Traffic Engineering and Control, 1982, 23 (4): 190- 192

[本文引用: 1]

GENDERS W, RAZAVI S. Using a deep reinforcement learning agent for traffic signal control [EB/OL]. (2016-11-03) [2023-03-12]. https://arxiv.org/pdf/1611.01142v1.pdf.

[本文引用: 2]

LI L, LV Y, WANG F Y

Traffic signal timing via deep reinforcement learning

[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3 (3): 247- 254

DOI:10.1109/JAS.2016.7508798      [本文引用: 1]

GAO J, SHEN Y, LIU J, et al. Adaptive traffic signal control: deep reinforcement learning algorithm with experience replay and target network [EB/OL]. (2017-05-08) [2023-03-12]. https://arxiv.org/pdf/1705.02755.pdf.

[本文引用: 1]

MOUSAVI S S, SCHUKAT M, HOWLEY E

Traffic light control using deep policy-gradient and value-function-based reinforcement learning

[J]. IET Intelligent Transport Systems, 2017, 11 (7): 417- 423

DOI:10.1049/iet-its.2017.0153      [本文引用: 1]

WEI H, ZHENG G, YAO H, et al. IntelliLight: a reinforcement learning approach for intelligent traffic light control [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2018: 2496-2505.

[本文引用: 1]

LIANG X, DU X, WANG G, et al

A deep reinforcement learning network for traffic light cycle control

[J]. IEEE Transactions on Vehicular Technology, 2019, 68 (2): 1243- 1253

DOI:10.1109/TVT.2018.2890726      [本文引用: 1]

WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning [C]// International Conference on Machine Learning. [S.l.]: Journal of Machine Learning Research, 2016: 1995-2003.

[本文引用: 1]

孙浩, 陈春林, 刘琼, 等

基于深度强化学习的交通信号控制方法

[J]. 计算机科学, 2020, 47 (2): 169- 174

[本文引用: 1]

SUN Hao, CHEN Chun-lin, LIU Qiong, et al

Traffic signal control method based on deep reinforcement learning

[J]. Computer Science, 2020, 47 (2): 169- 174

[本文引用: 1]

刘志, 曹诗鹏, 沈阳, 等

基于改进深度强化学习方法的单交叉口信号控制

[J]. 计算机科学, 2020, 47 (12): 226- 232

[本文引用: 1]

LIU Zhi, CAO Shi-peng, SHEN Yang, et al

Signal control of single intersection based on improved deep reinforcement learning method

[J]. Computer Science, 2020, 47 (12): 226- 232

[本文引用: 1]

刘智敏, 叶宝林, 朱耀东, 等

基于深度强化学习的交通信号控制方法

[J]. 浙江大学学报: 工学版, 2022, 56 (6): 1249- 1256

[本文引用: 2]

LIU Zhi-min, YE Bao-lin, ZHU Yao-dong, et al

Traffic signal control method based on deep reinforcement learning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (6): 1249- 1256

[本文引用: 2]

赵乾, 张灵, 赵刚, 等

双环相位结构约束下的强化学习交通信号控制方法

[J]. 交通运输工程与信息学报, 2023, 21 (1): 19- 28

DOI:10.19961/j.cnki.1672-4747.2022.05.010      [本文引用: 1]

ZHAO Qian, ZHANG Ling, ZHAO Gang, et al

Reinforcement learning traffic signal control under double-loop phase-structure constraints

[J]. Journal of Transportation Engineering and Information, 2023, 21 (1): 19- 28

DOI:10.19961/j.cnki.1672-4747.2022.05.010      [本文引用: 1]

CHU T, WANG J, CODECÀ L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (3): 1086- 1095

[本文引用: 1]

LI Z, YU H, ZHANG G, et al

Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning

[J]. Transportation Research Part C: Emerging Technologies, 2021, 125: 103059

DOI:10.1016/j.trc.2021.103059      [本文引用: 1]

ZHENG G, ZANG X, XU N, et al. Diagnosing reinforcement learning for traffic signal control [EB/OL]. (2019-05-12) [2023-03-12]. https://arxiv.org/pdf/1905.04716.pdf.

[本文引用: 3]

WEI H, CHEN C, ZHENG G, et al. PressLight: learning max pressure control to coordinate traffic signals in arterial network [C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2019: 1290-1298.

[本文引用: 1]

HESTER T, VECERIK M, PIETQUIN O, et al. Deep Q-learning from demonstrations [C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. [S.l.]: AAAI Press, 2018: 3223-3230.

[本文引用: 1]

VARAIYA P. The max-pressure controller for arbitrary networks of signalized intersections [M]// UKKUSURI S, OZBAY K. Advances in dynamic network modeling in complex transportation systems. [S.l.]: Springer, 2013: 27-66.

[本文引用: 1]

OERTEL R, WAGNER P. Delay-time actuated traffic signal control for an isolated intersection [C]// Proceedings 90th Annual Meeting Transportation Research Board. Washington: [s.n.], 2011.

[本文引用: 1]

/