<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 深度强化学习模型示意图

Fig.1 Schematic diagram of deep reinforcement learning model

基于深度强化学习算法的智能体通过以上4个步骤与环境进行不断地交互并在该过程中收集经验，通过策略迭代或值迭代的方式优化自身网络参数，以获得最优的控制策略. 为了保证智能体能够学习交叉口处车流的变化并做出合适的动作，须合理定义深度强化学习模型中的要素. 本研究以杭州市萧山区机场城市大道和博奥路形成的单交叉口为例，在适当简化交通场景的基础上，依据交通控制领域内的相关指标来设计状态特征、动作和奖励函数.

1.1.1. 状态

状态的设计对于深度强化学习模型的学习有至关重要的作用. 状态的设计可以分为2类：1）采用如交通评价指标的统计值来刻画交叉口每条车道内的交通需求以及交通状态（如每条车道的排队长度^[15]、交通流量^[16]、车流密度^[17]等）；2）使用图像表示方法对交叉口的每条车道进行离散化编码，即将每条车道划分为长宽固定的元胞，当元胞中含有车辆时，使用与元胞对应的速度矩阵和位置矩阵表示车辆的信息，进而利用卷积神经网络处理矩阵. 考虑到状态的维度不宜过大，且使用如交通评价指标的统计值可以达到与图像表示方法同等的控制效果^[17]，本研究采用状态1）表示方法. 结合交叉口的时空因素，采用与交叉口相连的进口道的排队强度 ${I_{{\text{q,in}}}}$，车流强度 ${I_{{\text{D,in}}}}$、车辆平均等待时间强度 ${I_{{\text{w,in}}}}$、出口道的排队强度 ${I_{{\text{q,out}}}}$、车流强度 ${I_{{\text{D,out}}}}$、当前相位 $i$的独热编码以及相位绿灯时长是否达到最小绿灯时间作为交叉口的状态特征. 其中每条车道的排队强度 ${I_{\text{q}}}$、车流强度 ${I_{\text{D}}}$、车辆平均等待时间强度 ${I_{\text{w}}}$的定义式为

(1) $ {I_{\text{q}}} = {{{N_{{\text{stop}}}}}}/{{{N_{\max }}}}， $

(2) $ {I_{\text{D}}} = {{{N_{{\text{veh}}}}}}/{{{N_{\max }}}}， $

(3) $ {I_{\text{w}}} = {{\displaystyle\sum\nolimits_i^{{N_{{\text{stop}}}}} {{T_i}} }}/{{{T_{\max }}}}. $

式中： ${N_{{\text{stop}}}}$为车道内速度低于0.1 m/s的车辆； ${N_{\max }}$为单条车道所能容纳的最大车辆数； ${N_{{\text{veh}}}}$为车道内的车辆数； ${T_i}$为速度低于0.1 m/s的每一辆车的等待时间, ${T_{\max }}$为驾驶员容忍的最大等待时间，设定为60 s. 以杭州市萧山区机场城市大道和博奥路形成的单交叉口为例，其东西南北方向各有4条进口道和3条出口道，总计81个特征构成该交叉口的状态特征空间，如图2所示，其中 $0,\cdots,{P_i},\cdots,0$为当前相位 $i$的独热编码， ${P_i}$=1.

图 2

图 2 状态向量表

Fig.2 State vector scale

1.1.2. 动作

动作的设置可以分为4类：1）设置相位持续时间、2）设置相位绿信比、3）保持或切换当前相位、4）从相位集合中选择某一相位. 固定相位相序的动作设置须提前考虑各进口道的车流量制定相位方案. 当相位方案改变时，智能体须重新训练. 本研究采用动作设置方案4）. 如图3所示为本研究采用的8种相位. 智能体将在每个决策时刻根据当前状态从动作空间中选取1种相位. 如果选择的相位与信号灯当前相位一致或未达到最小绿灯时长，则延长信号灯显示相位的绿灯时间；否则先执行3 s黄灯，再根据选择的动作切换至对应的相位.

图 3

图 3 交叉口相位方案集合

Fig.3 Combination diagram of intersection phase scheme

1.1.3. 奖励函数

传统信号控制领域已总结出较多的交通指标来评价交叉口处车辆的通行效率，比如排队长度、吞吐量、车辆延误等. 交叉口信号控制的目标是降低所有通行者的平均旅行时间. 在强化学习处理信号控制问题当中，奖励函数一般通过动作执行前后某些指标的变化来给予智能体反馈，比如排队长度的变化^[18]、延误时间的差值^[13]. 由于不考虑行人过街，本研究将降低交叉口所有车辆的平均旅行时间作为优化目标. 在仿真过程中，车辆的旅行时间无法通过直接测量得到，Zheng等^[17]指出使用交叉口的排队长度作为奖励函数与优化车辆的旅行时间具有较强的相关性，因此本研究使用动作执行前后的排队强度之差 $\Delta L$作为奖励函数的首要指标. 考虑到交通量小的方向排队强度一直很小，智能体在选择相位时可能忽略该方向的车辆，导致车流量小的方向单车延误较高，在排队强度指标的基础上加入车辆最大等待时间 ${W_{\max }}$，引导智能体更加合理地选择相位. 智能体的奖励函数定义式为

(4) $ R = {k_1}\Delta L - {k_2}\frac{{{W_{\max }}}}{{60}}. $

式中： ${k_1}$、 ${k_2}$为每个指标对应的权重系数，取值均为1.

1.2. 预训练模型

通过专家数据对模型进行初始化训练以获得性能较好的策略是解决深度强化学习方法学习速度慢的方法之一. Hester等^[19]将人类玩游戏的经验数据与深度强化学习进行融合，提出学习演示的深度 Q 学习(deep Q-learning from demonstrations, DQFD)方法. DQFD通过离线的方式利用人类的经验数据对DQN算法中的神经网络进行初始化，缓解了深度强化学习模型初始化不稳定的状况，在一定程度上加快了网络的学习. 与DQFD解决的问题不同，在交通信号控制领域中不存在专家轨迹样本. 本研究须解决2个问题：1)采用何种交通控制方法作为模仿的专家方法，2)如何利用该交通控制方法产生的数据对深度强化学习智能体进行预训练.

Max-Pressure方法^[20]旨在通过最小化交叉口的压力来平衡相邻交叉口之间的排队长度，从而降低过度饱和的风险. 在Max-Pressure方法中，信号灯每间隔固定的时间切换相位，其中相位根据各个相位的压力差从给定的相位方案中选取，相位方案如图3所示. 压力差定义为相位控制的进口车道排队车辆数与相应出口车道排队车辆数的差值. Max-Pressure方法与本研究设计的智能体动作空间一致，且该方法作为对比方法在以往的强化学习信号控制研究中均表现出较好的控制效果，因此Max-Pressure方法相比于其他方法更加适合作为本研究中智能体模仿的专家方法.

在选定专家方法后，可以通过仿真实验获取专家方法的经验数据，即形如状态 ${s_t}$、动作 ${a_t}$、下一时刻的状态 ${s_{t+1}}$、奖励 ${r_t}$的序列. 具体来说，在每次执行Max-Pressure方法选择动作前，先根据状态要素获取交叉口处的 ${s_t}$，并储存Max-Pressure方法给出的 ${a_t}$，在下次动作选取之前，获取交叉口处的 ${s_{t+1}}$以及该动作带来的 ${r_t}$. 为了使智能体在与环境互动前能够从这些经验中获取较好的先验知识，并将其表现在状态-动作对的Q值上，引入4类损失作为预训练阶段损失函数的要素，即1步Q学习TD损失 $L(\theta )$，n步Q学习TD损失 $ L{}_n(\theta ) $，监督式边际分类损失 ${L_{\text{E}}}(\theta )$以及 ${L_{\text{2}}}$正则化损失 ${L_{\text{2}}}(\theta )$. 采用1步与n步Q学习损失混合更新Q网络有助于将Q值传递到更早的状态，保证训练的网络满足贝尔曼方程. 应用于该网络的权重和偏置的 L2 正则化损失可以防止网络过拟合于相对较小的专家经验数据集. 定义监督式边际分类损失为

(5) $ {L_{\text{E}}}(\theta ) = {\max _{a \in A}}\left[ {Q(s,a)+l({a_{\text{E}}},a)} \right] - Q(s,{a_{\text{E}}}). $

式中： $a$为智能体在状态 $s$所做的动作； ${a_{\text{E}}}$为专家方法所做的动作； $l(a,{a_{\text{E}}})$为边际函数，当 $a = {a_{\text{E}}}$时，该函数值为0，否则为正值 ${l_{\text{p}}}$. 监督式边际分类损失会迫使非专家动作的值至少比专家动作的值低正值 ${l_{\text{p}}}$. 引入监督式边际分类损失对于预训练的结果至关重要. 因为通过Max-Pressure方法获取的经验数据比较少，所以许多需要探索的状态-动作对没有包含在经验数据当中. 如果仅使用Q的学习损失来训练网络，会导致网络估计的Q值不准确. 监督式边际分类损失会引导网络将那些在专家经验中从未出现的状态-动作对的Q值估计成合理的值，使得由价值函数引起的贪婪策略可以模拟专家方法. 损失函数定义式为

(6) $ J(\theta ) = L(\theta )+{\lambda _1}{L_n}(\theta )+{\lambda _2}{L_{\text{E}}}(\theta )+{\lambda _3}{L_{\text{2}}}(\theta ). $

式中： ${\lambda _1}$、 ${\lambda _2}$、 ${\lambda _3}$为各个损失的权重系数.

1.3. 相位持续时间计算

深度强化学习智能体执行动作的频率一般固定在1.0、0.2、0.1 Hz. 高频的动作不但不利于网络的收敛，而且容易造成信号的反复切换导致黄灯时长增加. 低频的动作不利于信号的灵活切换，使得智能体的控制达不到最优的控制效果. 因此执行动作的频率对于网络的收敛以及智能体的控制效果尤为重要，最佳的智能体应能通过使用较少的动作达到最优的控制效果. 本研究引入平均车头时距计算动作的持续时间，使得每次相位的绿灯时间能够与交叉口处交通流的实时状态联系在一起. 具体而言，智能体先根据状态特征计算出最佳的信号相位，在执行该相位前通过交叉口处的检测器检测该相位控制的车道内排队车辆的数量，该相位的持续时间计算式为

(7) $ {t_{\rm{p}}}\left\{ \begin{array}{l} {t_{\min }},\;{t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h{\rm{ }} < {t_{\min }};\\ {t_{\max }},\;{t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h{\rm{ }} > {t_{\max }};\\ {t_{{\rm{loss}}}} + ({N_{{\rm{veh}}}} - 1) \times \bar h,\;\;{\text{其他}}. \end{array} \right.$

式中： ${t_{\min }}$为最小绿灯时长， ${t_{\max }}$为最大绿灯时长， ${t_{{\text{loss}}}}$为头车的启动损失时间， $\overline h $为交叉口处释放车流的平均车头时距， ${N_{{\text{veh}}}}$为相位控制车道内最大排队车辆数. 如果排队长度过长，导致计算的相位绿灯时间超过最大绿灯时长，则强制设置动作的持续时间为最大绿灯时长；如果排队长度过短，导致计算的相位绿灯时间小于最小绿灯时长，则设置动作的持续时间为最小绿灯时长. 这一规则，既减少了绿灯空放造成的时间损失，也避免了因为动作频率过高导致的黄灯损失. 该规则也在一定程度上降低了交叉口处交通控制的复杂性，智能体可以将该规则视为环境的一部分，从而帮助智能体学习.

1.4. 交通信号控制强化学习算法

结合状态、动作的定义，采用3DQN算法作为控制交叉口信号灯的智能体. 3DQN算法的核心是深度神经网络，它可以从状态空间中提取特征并将这些特征映射到Q值函数上. 智能体可以根据Q值函数来选择最优的行动，实现有效的学习. 3DQN算法相比于DQN算法加入Dueling Network结构与Double Network结构. Dueling Network改善了DQN算法的估计效率，它将Q值函数分解为2个部分：用于估计状态价值的值函数，用于估计动作价值的动作函数. Double Network缓解了DQN算法对Q值估计过高的问题，在Double Network中，存在动作网络和目标网络. 这2种网络的初始化参数一致，但更新方式不一致，动作网络通过梯度下降直接更新参数，目标网络采用软更新的方式更新参数.

为了平衡探索与利用的关系，采用动态贪婪策略训练模型. 动态贪婪策略在训练过程中动态改变贪婪系数 $\varepsilon $的大小. 训练开始时 $\varepsilon $的值比较大，智能体倾向于选取随机动作进行前期的探索过程. 随着训练时间的增加， $\varepsilon $的值逐渐减小，智能体更倾向于选取对应Q值最大的动作. 本研究的模型框架如图4所示. 1）通过使用Max-Pressure方法控制信号灯完成整个仿真实验. 在该过程中收集Max-Pressure方法的经验序列. 2）使用收集到的经验序列通过预训练对3DQN算法中的深度神经网络进行初始化，使得3DQN算法中的深度神经网络既能够满足贝尔曼方程，又能够模仿Max-Pressure方法选择动作的策略. 3）经过初始化后的智能体将与环境进行实时交互，并将获取的经验存放于经验缓冲池中，满足更新条件时则从经验缓冲池中取出小批量的样本进行学习，经过反复迭代最终网络达到收敛.

图 4

图 4 基于双决斗深度Q网络的信号控制模型框架

Fig.4 Signal control model framework based on double-dueling deep Q network

在3DQN算法中，超参数的设计对训练结果有重要影响. 本研究算法的参数具体如下：深度神经网络的激活函数为ReLU，梯度下降算法为Adam，学习率为0.001，经验缓冲池的容量设置为10 000，折扣因子为0.99，贪婪系数初始值为1，贪婪系数衰减率为0.95，最小贪婪系数为0.005，目标网络软更新系数为0.005，小批量经验大小为256. 在预训练阶段， ${\lambda _1}$=0.1， ${\lambda _2}$=1， ${\lambda _3}$=1.0×10⁻⁵，n=5， ${l_{\text{p}}}$=0.8.

2. 案例分析与实验结果

2.1. 案例分析与实验配置

杭州市萧山区机场城市大道与博奥路交叉口是典型的四岔路口，东西南北方向各有4个进口道和3个出口道，其中东西方向为1条直右车道、2条直行车道和1条专用左转车道，南北方向为1条专用右转车道、2条直行车道和1条专用左转车道，东西南北方向的进口道长度分别为500、450、450和300 m. 本实验收集2021年10月18日至2021年10月24日一周的流量数据. 2021年10月18日原始数据每15 min进行一次统计，得到的流量分布如图5所示， $N$为车辆数. 针对早高峰时段（8:30—9:30）的交通情况开展本次实验研究，该时间段内过车车辆类型的统计结果如表1所示，其中P为车辆占比. 仿真过程采用7种车辆类型，车辆类型设置如表2所示，其中L为车身长度；D为速度因子分布，是车辆的最大行驶速度与道路限速的比值，车辆速度因子分布用以模仿不同的驾驶行为（如激进驾驶、保守驾驶）. 每种车辆类型的速度因子从截断正态分布Normc中取出，截断正态分布Normc中含有四类参数，依次代表截断正态分布的均值、标准差、最小截断速度与道路限速的比值、最大截断速度与道路限速的比值. 仿真实验中的其他实验参数设置如下：道路规定上限速度为13.89 m/s，车头最小间距为2.5 m，最小绿灯时间为5 s，最大绿灯时间为50 s，黄灯时间为3 s. 一次仿真时长为3 600 s，在仿真初始的0~50 s为加载路网车辆，信号灯依据Webster配时方案进行信号控制.

图 5

图 5 交叉口全天的流量分布图

Fig.5 Flow distribution diagram of intersections throughout day

表 1 高峰时期交叉口过车车辆类型分布

Tab.1 Distribution of passing vehicle types at intersections during peak hours

车辆类型	N	P/%
小轿车	2 606	63.07
小客车	1 440	34.85
大客车	22	0.53
公交车	5	0.12
出租车	7	0.17
货车	48	1.16
工程车	4	0.10

表 2 仿真实验车辆类型设置

Tab.2 Simulation experiment vehicle type setting

车辆类型	L/m	D
小轿车	5.0	Normc (1,0.1,0.5,2)
小客车	6.5	Normc (1,0.1,0.5,2)
大客车	14.0	Normc (1,0.05,0.5,2)
公交车	12.0	Normc (1,0.05,0.5,2)
出租车	5.0	Normc (1,0.1,0.5,2)
货车	7.1	Normc (1,0.05,0.5,2)
工程车	16.5	Normc (1,0.05,0.5,2)

2.2. 实验结果与分析

利用2021年10月18日的早高峰数据进行仿真训练，与传统的基于3DQN算法、感应式信号控制方法Actuated和Delay-Based^[21]以及定时信号控制方法Webster的控制效果进行对比. 不同方法在车辆平均等待时间 ${t_{\rm{w}}}$、平均旅行时间 ${t_{\rm{t}}}$和车辆平均速度 $v$上的控制效果如表3所示. 本研究算法在各项指标上均表现出最好的控制效果. 相比于定时信号控制，本研究算法在平均旅行时间上减少了22.97%. 如表4所示为采用不同方法控制信号灯时各进口道的平均排队长度，其中 ${L_{\text{n}}}$、 ${L_{\text{s}}}$、 ${L_{\text{e}}}$和 ${L_{\text{w}}}$分别为北进口道、南进口道、东进口道和西进口道的排队长度. 可以看出，本研究所提算法相比于其他控制方法能够明显缩短东进口道和南进口道的排队长度. 如图6所示为采用不同方法控制信号灯时路网内车辆平均等待时间的变化情况，其中 $t$为仿真时刻. 可以看出，本研究算法相比于其他方法，在车辆平均等待时间上波动更加平稳.

表 3 不同方法的控制效果对比

Tab.3 Comparison of control effects among different methods

算法	t_w/s	t_t/s	v/(m·s⁻¹)
Webster	35.89	113.46	7.45
Actuated	33.77	110.04	7.70
Delay-Based	64.85	142.52	6.36
3DQN	15.01	90.75	8.96
本研究	13.00	87.39	9.30

表 4 不同方法下各进口道的平均排队长度

Tab.4 Average queue length of each approach under different methods

m
算法	L_n	L_s	L_e	L_w
Webster	18.73	33.02	37.06	10.77
Actuated	16.66	26.11	22.85	9.70
Delay-Based	21.58	68.22	62.01	14.50
3DQN	10.53	19.81	19.85	8.29
本研究	9.90	17.80	16.81	9.32

图 6

图 6 不同方法下路网内车辆平均等待时间变化

Fig.6 Variation of average waiting time for vehicles in road network under different methods

为了进一步探究所提方法的性能，选取2021年10月18日至2021年10月24日一周的早高峰数据对训练好的模型进行测试，实验结果如图7所示. 可以看出，相比于其他信号控制方法，本研究算法在一周的测试中均表现最佳.

图 7

图 7 不同方法下早高峰时段一周的平均旅行时间变化

Fig.7 Average travel time during morning peak hours for one week under different methods

2.3. 方法改进效果验证

为了探究预训练模块以及相位持续时间模块对于收敛速度和控制效果的影响，在不改变其他参数的情况下，分别将加入预训练模块的方法和加入相位持续时间模块的方法与传统3DQN算法在收敛速度和平均旅行时间控制效果上比较. 加入预训练模块的3DQN算法与传统3DQN算法对比结果如图8所示， $R$为训练过程中智能体在一次仿真过程获得的总奖励， $E$为仿真迭代次数. 可以看出，使用Max-Pressure方法的经验数据对模型进行初始化能够稳定模型的学习过程，减少前期的波动，同时通过预训练可以帮助智能体更快地达到收敛. 产生此种结果的原因在于模型在探索期间使用的动态贪婪策略. 当探索系数 $\varepsilon $逐渐变低时，信号灯的相位将由模型产生的Q值决定. 相比于未预训练的网络，经过预训练后的网络在训练初期能够以更高的概率选择专家动作.

图 8

图 8 加入预训练模块与未加入预训练模块的双决斗深度Q网络算法收敛速度情况

Fig.8 Convergence speed comparison of double-dueling deep Q network algorithms with and without pretrained module

如图9所示为加入相位持续时间模块的3DQN方法(3DQN-DT)与动作间隔为10 s的3DQN方法（3DQN-10）、动作间隔为5 s的3DQN方法（3DQN-5）在平均旅行时间指标上的收敛情况. 可以看出，3种不同设置的模型在收敛速度上较为一致，但3DQN-DT在最终收敛结果上超过了3DQN-10和3DQN-5，其中3DQN-DT的平均旅行时间为87 s，3DQN-10的平均旅行时间为90 s，3DQN-5的平均旅行时间为105 s.

图 9

图 9 加入相位持续时间模块的双决斗深度Q网络(3DQN)算法与传统3DQN算法在平均旅行时间上的收敛情况

Fig.9 Convergence analysis of double-dueling deep Q network (3DQN) algorithms with phase duration module and traditional 3DQN algorithm on average travel time

为了进一步探究3DQN-DT方法与3DQN-10、3DQN-5的差异，就模型的选择策略、各个相位在仿真过程中的总绿灯时长进行分析. 如图10所示为3种方法在选择策略上的分布情况. 图中， $x$为动作选择的相位，其中 $x$=1代表动作选择的是排队长度最大的相位， $x$=2代表动作选择的是排队长度次大的相位， $y$为智能体选择某种相位的次数， $P_{\rm{N}}$为智能体选择某种相位的次数占总选择次数的比例. 3DQN-DT共执行307次动作，其中60.26%的动作选择了排队长度最大的相位；3DQN-10共执行280次动作，其中64.64%的动作选择了排队长度最大的相位；3DQN-5共执行463次动作，其中56.59%的动作选择了排队长度最大的相位. 3种模型在选择策略上的变化趋势较为一致，因此相位持续时间模块对模型的动作选择策略影响较小. 如图11所示为3种模型在相位绿灯时间上的分布情况，其中 ${P_{\rm{h}}}$为动作空间中的8种相位， $t_{\rm{g}}$为绿灯时间. 在所有相位的总绿灯时长上，3DQN-DT的绿灯时间为2 744 s，3DQN-10的绿灯时间为2 800 s，3DQN-5的绿灯时间为2 315 s. 可以看出，3DQN-5由于动作时间间隔的缩短导致相位交替过快，仿真过程中造成的黄灯损失较多，因此该模型的控制效果不如其他2个模型. 3DQN-10的绿灯时间最长，但其控制效果却不如3DQN-DT，原因在于3DQN-DT能够根据车道内排队情况动态调整相位的绿灯持续时间减少绿灯空放情况的发生. 还可以看出，3DQN-DT将更多的绿灯时间分配给了相位5和相位6. 周一的交通流数据显示该交叉口存在明显的南北交通流不均衡以及东西交通流不均衡的情况，因此采用单向放行的相位相比于对向放行的相位更能够提高交通流的运行效率，减少车辆的平均延误. 此外，3DQN-DT通过检测交通流对绿灯时间分配进行了进一步的优化，提高了路网交通流的运行效率.

图 10

图 10 不同间隔时间设置下的模型动作策略示意图

Fig.10 Schematic diagram of model action strategy under different intervals settings

图 11

图 11 不同双决斗深度Q网络算法的各相位绿灯总时长对比图

Fig.11 Comparison diagram of total green light duration for each phase with different double-dueling deep Q network algorithms

3. 结　语

基于深度强化学习方法对单交叉口进行信号控制已经有了长足的发展，以往研究从状态表达、动作设计等不同的角度出发探寻并挖掘了深度强化学习方法在信号控制领域的潜力. 本研究提出使用Max-Pressure方法预先初始化3DQN算法中神经网络的参数，使得预训练后的3DQN算法能够在满足贝尔曼方程的基础上模仿Max-Pressure的策略. 针对3DQN算法存在的动作执行频率过高或过低的问题，本研究引入平均车头时距动态计算每次相位的绿灯持续时间，保证了排队车流释放的顺畅性，减少了绿灯损失. 根据真实的交叉口流量数据对所提算法进行验证，结果表明本研究算法能够有效解决现有方法在训练过程中存在不稳定、迭代慢的问题. 相比于传统的信号控制方法和感应控制方法，本研究算法能够显著提高交叉口处的运行效率. 本研究仅限于单交叉口的信号控制问题，未讨论目标交叉口策略的改变对于邻近交叉口的影响. 在城市交通中，交叉口之间的相互关联作用与交叉口之间的距离和交通流量有着密切的关系. 通过深度强化学习方法对多个交叉口形成的干线网络或区域网络进行协调控制，并分析流量与距离对协调控制的影响将是下一步研究的重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WEBSTER F V. Traffic signal settings [R]. London: Road Research Laboratory, 1958.

[2]

罗小芹, 王殿海, 金盛

面向混合交通的感应式交通信号控制方法

[J]. 吉林大学学报: 工学版, 2019, 49 (3): 695- 704

LUO Xiao-qin, WANG Dian-hai, JIN Sheng

Traffic signal actuated control at isolated intersections for heterogeneous traffic

[J]. Journal of Jilin University: Engineering and Technology Edition, 2019, 49 (3): 695- 704

[3]

HUNT P, ROBERTSON D, BRETHERTON R, et al

The SCOOT on-line traffic signal optimisation technique

[J]. Traffic Engineering and Control, 1982, 23 (4): 190- 192

[4]

GENDERS W, RAZAVI S. Using a deep reinforcement learning agent for traffic signal control [EB/OL]. (2016-11-03) [2023-03-12]. https://arxiv.org/pdf/1611.01142v1.pdf.

[本文引用: 2]

[5]

LI L, LV Y, WANG F Y

Traffic signal timing via deep reinforcement learning

[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3 (3): 247- 254

DOI:10.1109/JAS.2016.7508798 [本文引用: 1]

[6]

GAO J, SHEN Y, LIU J, et al. Adaptive traffic signal control: deep reinforcement learning algorithm with experience replay and target network [EB/OL]. (2017-05-08) [2023-03-12]. https://arxiv.org/pdf/1705.02755.pdf.

[7]

MOUSAVI S S, SCHUKAT M, HOWLEY E

Traffic light control using deep policy-gradient and value-function-based reinforcement learning

[J]. IET Intelligent Transport Systems, 2017, 11 (7): 417- 423

DOI:10.1049/iet-its.2017.0153 [本文引用: 1]

[8]

WEI H, ZHENG G, YAO H, et al. IntelliLight: a reinforcement learning approach for intelligent traffic light control [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2018: 2496-2505.

[9]

LIANG X, DU X, WANG G, et al

A deep reinforcement learning network for traffic light cycle control

[J]. IEEE Transactions on Vehicular Technology, 2019, 68 (2): 1243- 1253

DOI:10.1109/TVT.2018.2890726 [本文引用: 1]

[10]

WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning [C]// International Conference on Machine Learning. [S.l.]: Journal of Machine Learning Research, 2016: 1995-2003.

[11]

孙浩, 陈春林, 刘琼, 等

基于深度强化学习的交通信号控制方法

[J]. 计算机科学, 2020, 47 (2): 169- 174

SUN Hao, CHEN Chun-lin, LIU Qiong, et al

Traffic signal control method based on deep reinforcement learning

[J]. Computer Science, 2020, 47 (2): 169- 174

[12]

刘志, 曹诗鹏, 沈阳, 等

基于改进深度强化学习方法的单交叉口信号控制

[J]. 计算机科学, 2020, 47 (12): 226- 232

LIU Zhi, CAO Shi-peng, SHEN Yang, et al

Signal control of single intersection based on improved deep reinforcement learning method

[J]. Computer Science, 2020, 47 (12): 226- 232

DOI:10.19961/j.cnki.1672-4747.2022.05.010 [本文引用: 1]

[13]

刘智敏, 叶宝林, 朱耀东, 等

基于深度强化学习的交通信号控制方法

[J]. 浙江大学学报: 工学版, 2022, 56 (6): 1249- 1256

[本文引用: 2]

LIU Zhi-min, YE Bao-lin, ZHU Yao-dong, et al

Traffic signal control method based on deep reinforcement learning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (6): 1249- 1256

[本文引用: 2]

[14]

赵乾, 张灵, 赵刚, 等

双环相位结构约束下的强化学习交通信号控制方法

[J]. 交通运输工程与信息学报, 2023, 21 (1): 19- 28

ZHAO Qian, ZHANG Ling, ZHAO Gang, et al

Reinforcement learning traffic signal control under double-loop phase-structure constraints

[J]. Journal of Transportation Engineering and Information, 2023, 21 (1): 19- 28

DOI:10.19961/j.cnki.1672-4747.2022.05.010 [本文引用: 1]

[15]

CHU T, WANG J, CODECÀ L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (3): 1086- 1095

[16]

LI Z, YU H, ZHANG G, et al

Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning

[J]. Transportation Research Part C: Emerging Technologies, 2021, 125: 103059

DOI:10.1016/j.trc.2021.103059 [本文引用: 1]

[17]

ZHENG G, ZANG X, XU N, et al. Diagnosing reinforcement learning for traffic signal control [EB/OL]. (2019-05-12) [2023-03-12]. https://arxiv.org/pdf/1905.04716.pdf.

[本文引用: 3]

[18]

WEI H, CHEN C, ZHENG G, et al. PressLight: learning max pressure control to coordinate traffic signals in arterial network [C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2019: 1290-1298.

[19]

HESTER T, VECERIK M, PIETQUIN O, et al. Deep Q-learning from demonstrations [C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. [S.l.]: AAAI Press, 2018: 3223-3230.

[20]

VARAIYA P. The max-pressure controller for arbitrary networks of signalized intersections [M]// UKKUSURI S, OZBAY K. Advances in dynamic network modeling in complex transportation systems. [S.l.]: Springer, 2013: 27-66.

[21]

OERTEL R, WAGNER P. Delay-time actuated traffic signal control for an isolated intersection [C]// Proceedings 90th Annual Meeting Transportation Research Board. Washington: [s.n.], 2011.