基于深度强化学习的交通信号控制方法

doi:10.3785/j.issn.1008-973X.2022.06.024

基于深度强化学习的交通信号控制方法

刘智敏^,, 叶宝林^,, 朱耀东, 姚青, 吴维敏

1. 浙江理工大学信息学院，浙江杭州 310018

2. 嘉兴学院信息科学与工程学院，浙江嘉兴 314001

3. 浙江大学工业控制技术国家重点实验室，智能系统与控制研究所，浙江杭州 310027

Traffic signal control method based on deep reinforcement learning

LIU Zhi-min^,, YE Bao-Lin^,, ZHU Yao-dong, YAO Qing, WU Wei-min

1. School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

2. College of Information Science and Engineering, Jiaxing University, Jiaxing 314001, China

3. State Key Laboratory of Industrial Control Technology, Institute of Cyber-Systems and Control, Zhejiang University, Hangzhou 310027, China

通讯作者: 叶宝林, 男, 副教授, 博士. orcid.org/0000-0002-5369-6246. E-mail: yebaolin@zjxu.edu.cn

收稿日期: 2022-03-23

基金资助:

国家自然科学基金资助项目(61603154)；浙江省自然科学基金资助项目 (LY19F030014)；工业控制技术国家重点实验室开放课题 (ICT2022B52)

Received: 2022-03-23

Fund supported:

国家自然科学基金资助项目(61603154)；浙江省自然科学基金资助项目(LY19F030014)；工业控制技术国家重点实验室开放课题(ICT2022B52)

作者简介 About authors

刘智敏（1998—），男，硕士生，从事智能交通方向的研究.orcid.org/0000-0002-2937-5549.E-mail：liuzhimin0223@163.com , E-mail：liuzhimin0223@163.com

摘要

针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题，提出基于改进深度强化学习的单交叉口交通信号控制方法. 构建新的基于相邻采样时间步实时车辆数变化量的奖励函数，以及时跟踪并利用交叉口交通状态动态的变化过程. 采用双网络结构提高算法学习效率，利用经验回放改善算法收敛性. 基于SUMO的仿真测试结果表明，相比传统控制方法和深度强化学习方法，所提方法能明显缩短交叉口车辆平均等待时间和平均排队长度，提高交叉口通行效率.

关键词： 交通信号控制 ; 深度强化学习 ; 奖励函数 ; 经验回放

Abstract

A traffic signal control method based on an improved deep reinforcement learning was proposed for an isolated intersection, aiming at a problem that the traffic signal control methods based on deep reinforcement learning were difficult to update the traffic signal control strategy in time. A new reward function of the proposed method was built by utilizing the real-time change of vehicle numbers at an intersection between two adjacent sampling time steps, whereby the dynamic change process of traffic status at the intersection was tracked and utilized in time. In addition, double network structure and experience playback were respectively used to improve the learning efficiency and convergence rate of the proposed method. SUMO simulation test results show that the proposed method can significantly shorten the average waiting time and average queue length of vehicles at the intersection, and improve the traffic efficiency at the intersection.

Keywords： traffic signal control ; deep reinforcement learning ; reward function ; experience replay

PDF (1377KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘智敏, 叶宝林, 朱耀东, 姚青, 吴维敏. 基于深度强化学习的交通信号控制方法. 浙江大学学报(工学版)[J], 2022, 56(6): 1249-1256 doi:10.3785/j.issn.1008-973X.2022.06.024

LIU Zhi-min, YE Bao-Lin, ZHU Yao-dong, YAO Qing, WU Wei-min. Traffic signal control method based on deep reinforcement learning. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(6): 1249-1256 doi:10.3785/j.issn.1008-973X.2022.06.024

采用先进的交通信号控制技术提高路网交通管理水平，是缓解交通拥堵的重要手段之一^[1]. 传统交通信号控制方法主要包括3大类：基于历史流量的定时控制^[2]、基于实时流量的自适应控制^[3]（或感应控制^[4]）和基于模型的协调控制^[5-6]. 上述传统交通信号控制方法在如何寻找最优交通信号配时方案、提高路网通行效率方面均存在局限性，研究人员一直在尝试用新的技术、方法来解决该问题. 2018年以来，随着强化、学习技术的发展，应用深度强化学习技术解决交通信号控制问题成为研究热点^[7-9].

Wang等^[10]提出并设计为交通信号控制自动提取有效特征的深度学习策略，使用基于事件的高分辨率数据来提取交叉口交通信息. 本质上，该方法只是采用新的输入数据来提高模型学习效率. 刘皓等^[11]提出基于深度强化学习的交通信号控制方法，并利用交叉口各进口车道上总排队长度定义奖励函数. 该方法通过改进强化学习中的奖励函数来提高算法学习效率，但在一些复杂的实际交通场景中，车辆排队的长度通常难以准确测量. 郭梦杰等^[12]提出基于深度Q网络 (deep Q-network, DQN)的单交叉口交通信号控制方法。该方法仅利用单个神经网络更新Q值，无法克服相邻状态所对应Q值的相关性，且采用平均等待时间定义奖励函数无法实时反映奖惩关系. 赖建辉^[13]提出基于D3QN的交通信号控制策略，改进了Q值的计算公式和神经网络结构，提高了算法的收敛性. 该算法设计过于复杂，难以应用于实际交通信号控制中. Chu等^[14]提出基于分散式多智能体强化学习的交通信号控制方法，利用多智能体结构解决了传统强化学习算法收敛性低下的问题. 该方法容易产生经验信息冗余，在对经验信息的处理上仍须改进.

上述基于强化学习的交通信号控制方法，其奖励函数一般是基于某个时段内的平均车辆等待时间或排队长度来定义的. 如果某个时段内的均值要有统计意义，则要求该时段长度至少是多个采样时间步. 显然，基于平均等待时间或平均排队长度定义的奖励函数难以有效反映交叉口在单个采样时间步内的实时交通状态及其变化趋势. 为了解决上述问题，本研究提出基于改进深度强化学习的交通信号控制方法. 该方法构建新的基于相邻采样时间步实时车辆数变化量的奖励函数，能够有效跟踪交叉口交通流实时动态变化过程并充分利用历史实时信息. 采用具有双网络结构的Nature DQN估计动作价值，提高算法学习效率. 在训练过程中设计经验回放策略改善算法收敛性. 基于交通仿真器SUMO开展仿真测试，并与传统定时控制、自适应控制，以及传统的基于全连接神经网络或卷积神经网络的DQN方法进行对比分析.

1. 交通信号控制中强化学习的要素定义

如图1所示为强化学习的基本组成要素和框架. 如图2所示，本研究以典型十字交叉口为研究对象. 该交叉口有4个进车口，且每个进车口有4条车道，分别为1条右转车道，2条直行车道，1条左转车道. 为了便于描述，在交通信号控制框架下，定义强化学习的3个要素为状态、动作和奖励.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 强化学习的基本框架

Fig.1 Framework of reinforcement learning

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 交叉口结构示意图

Fig.2 Structure diagram of intersection

1.1. 状态

将上述车辆位置信息、速度信息以及交叉口当前正在运行绿灯的相位作为状态输入，能够更准确地反映交叉口实时交通状态^[15]. 采用离散交通状态编码（discrete traffic state encode, DTSE）将交叉口实时交通状态转化为可处理的元素；包括该区间是否有车辆，有车辆时车辆的速度. 相较于直接利用图像信息进行信息输入，该方法能有效减少输入信息量，从数据端降低算法计算复杂度.

以图2所示交叉口西进车口方向各车道为例，将距离信号灯的一定长度的各条车道按预设间隔距离划分为若干“元胞”，每个“元胞”作为取样区域可容纳且最多容纳1辆车^[16]. 如图3所示，通过获取各条车道上各“元胞”内车辆信息，建立交叉口西进口方向对应的位置矩阵和速度矩阵. 图3（b）中，元素取值为0，表示该位置对应的“元胞”内无车辆；取值为1，表示该位置对应的“元胞”内有车辆. 图3（c）中，元素取值大于0，表示该位置对应的“元胞”内有车辆且车辆速度等于该元素取值；元素取值等于0，表示该位置对应的“元胞”内无车辆. 通过位置矩阵可以判断进口车道上各“元胞”内有无车辆，由速度矩阵可以确定有车辆的那些“元胞”内的车辆行驶速度.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 定义强化学习中的状态要素

Fig.3 State elements in reinforcement learning

1.2. 动作空间

如图4所示为交叉口的4个相位，它们分别为东西直行和右转（EW）、东西左转（EWL）、南北直行和右转（NS）、南北左转（NSL）流向的交通流提供通行权. 本研究将4个相位定义为智能体的动作空间，每个控制步的智能体执行且只能执行如图5所示4个相位中的某个具体相位，即正在亮绿灯为交叉口部分流向车流提供通行权的相位. 在每个控制步结束的瞬间，智能体执行的动作为保持当前相位或按图5顺序执行当前相位的下个相位. 智能体通过执行一系列的动作来间接实现交叉口交通信号配时方案的动态更新^[17].

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 交叉口相位配置示意图

Fig.4 Diagram of phase setting of intersection

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 构建强化学习所需的动作空间

Fig.5 Construct action apace needed for reinforcement learning

1.3. 奖励函数

奖励也称反馈，是强化学习中的重要组成要素，也是对智能体执行动作优劣的评价指标. 在本研究中，每个控制步智能体依据上一步结束时制定的决策来执行相应的动作. 所采取的动作会对环境产生影响，同时环境据此对智能体给予奖励，该奖励又对智能体下一步选择待执行的动作决策产生影响.

在基于强化学习的交通信号控制方法中^[18-20]，奖励函数通常由交通效益指标（如车道上车辆平均排队长度、车辆平均等待时间）定义. 基于车辆平均排队长度或平均等待时间定义的奖励值，本质上是某个时段的均值. 若该均值要有代表性或统计意义，则要求该时段长度不能太短. 为了保障交通信号实时控制的效果，智能体执行1个动作所对应的采样时间步长取数秒或数十秒的较短时间，这要求均值有意义的统计时段至少包含若干个甚至是很多个采样时间步. 传统基于平均等待时间或平均排队长度定义的奖励函数，难以有效反映交叉口在各个采样时间步的实时交通状态及其变化趋势.

利用Traci接口函数获取交叉口在各个采样时间步的实时车辆数建立奖励函数. 为了更准确地反应在各个采样时间步交叉口实时交通状态的变化趋势，将奖励函数R定义为相邻采样时间步的车辆数之差:

(1) $ R(t + 1) = C_{{\rm{num}}} (t + 1) - C_{\rm{num}}(t) . $

式中：C_num (t)为第t个采样时间步时交叉口各车道上总的车辆数. R(t+1)>0表示相对于上个采样时间步，交叉口交通状况恶化，对当前步所采取的动作进行“惩罚”；R(t+1)<0表示相对于上个采样时间步，交叉口的交通状况有所改善，对当前步所采取的动作进行“奖励”.

2. 基于改进DQN的交通信号控制方法

在基于深度强化学习的交通信号控制方法中，交叉口交通信号控制问题被抽象为智能体根据交叉口实时交通状态选择最佳执行动作的决策过程. 智能体基于采集各类交通参与对象的信息、交叉口实时交通状态，从动作空间中选择1个动作执行. 存储设备记录执行该动作后给予智能体的奖励，并依据智能体采取不同动作所获得的奖励值计算Q值，为下一步选择能够获得长期期望最大总收益的动作提供指导. 在本研究中，每个控制步智能体可以采取的动作包括：保持当前相位、切换到下个相位.

所提基于改进DQN的交通信号控制方法在Q−学习算法中，状态−动作价值函数Q(s,a)被定义为

(2) $ Q(s,a) = R(s,a) + \gamma {\max _ {a_{t + 1}}}\, Q{(s_{t + 1}},{a_{t + 1})}. $

式中：s、a分别为当前状态和所采取的动作，s_t+1为智能体在当前状态 s下执行动作a后所处的新状态，a_t+1为在新状态s_t+1下能够最大化状态-动作价值函数Q(s_t+1,a_t+1)时智能体所应采取的动作， $ \gamma $为折扣因子. 当前状态及相应动作的Q值等于当前动作的奖励加上折扣因子乘以下一步估计动作对应的最大Q值^[21-23].

(3) $ Q({s_t},{a_t})\xleftarrow{{{\;\;\;\;\;\;\;\;}}}Q({s_t},{a_t}) + \alpha {\delta _t} \text{，} $

(4) $ {\delta _t} = {R_{t + 1}} + \gamma {\max _a}\,Q({s_{t + 1}},a) - Q({s_t},{a_t}) . $

式中： $ \alpha $为学习率. 通过式（3）、（4）可以完成对Q值的更新. 在传统Q−学习算法中，通常使用表格存储各个状态−动作对应的Q值，并通过查询Q值表决定智能体在下个控制步采取的动作. 在交通信号控制问题中，由于交通状态空间太大，继续使用表格存储Q值并通过查Q值表选择动作不现实.

如图6所示，利用卷积神经网络强大的拟合能力计算状态−动作的Q值. 使用卷积神经网络对Q值进行拟合时，将状态信息作为卷积神经网络的输入量，经过卷积神经网络处理得到在该状态下所采取动作的Q值，并利用该值更新迭代式(3)^[24]. 1）将交叉口各进口方向对应的速度矩阵和位置矩阵作为神经网络的输入，利用2个卷积层提取特征信息. 第1层为16个4*4的过滤器，步长为2；第2层为32个2*2的过滤器，步长为1. 2）将经过这2个卷积层处理的数据和交叉口相位信息一起输入2个全连接层. 3）全连接层连接所有的特征，并输出当前输入状态下智能体可能采取的各种动作对应的一系列Q值.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 用于拟合Q值的卷积神经网络

Fig.6 Convolution neural network fitting Q−value

在DQN中，通常依据ε-贪婪规则选择智能体下一步要执行的动作：以ε的概率随机为智能体选择动作，以1-ε的概率选取神经网络输出的一系列Q值中最大Q值对应的动作为智能体下一步所需执行的动作. 一般情况下，在使用式(3) 迭代更新Q时，须准确的Q值即Q现实（利用公式(2)可得），还需要1个Q估计.

传统的DQN在利用Q现实和Q估计进行迭代更新时使用的是同个神经网络，导致Q现实和Q估计的依赖过强，不利于算法收敛. 本研究使用Nature DQN来解决这个问题^[25]. Nature DQN有2个神经网络，其中target_net为计算Q现实的神经网络， eval_net为计算Q估计的神经网络. 在利用Nature DQN计算得到Q现实和Q估计后，计算神经网络eval_net的损失函数.

(5) $ L(\theta ) = {({Q_{\text{t}}}(s,a) - {Q_{\text{e}}}(s,a,\theta ))^2} \text{.} $

式中： ${Q_{\rm{t}}}$为Q现实， $ {Q_{\text{e}}} $为Q估计， $ \theta $为eval_net的权重参数. 利用随机梯度下降法更新 $ \theta $. target_net的权重参数并不是每次迭代都更新，而是在 $ \theta $完成更新的数个时间步后，直接将 $ \theta $复制给target_net. Nature DQN算法具体执行步骤如算法1所示.

算法1：Nature DQN算法

定义可配置参数：总迭代轮数N，每次迭代总时间步T，折扣因子 $ \gamma $, target_net网络的更新频率x;

初始化eval_net网络的权重参数θ，target_net网络的权重参数θ′，贪婪系数ε，以及经验池存储空间M;

训练DQN网络：

1. for epochs=0 to N do;

2. 初始化神经网络的输入s₁;

3. for t=1 to T do;

4. 在eval_net网络中使用 $ {s_t} $作为输入，得到Q估计网络的所有动作对应的Q值输出;

5. 以概率ε随机选择动作 $ {a_t} $, 或以概率1−ε利用eval_net网络选择动作 ${a_t} = {\max \limits_a}\,{Q_{\text{e}}}({s_j},a,\theta )$;

6. 执行动作 $ {a_t} $并获取奖励 $ {r_t} $和状态 $ {s_{t + 1}} $;

7. 将{s_t, a_t, r_t, s_t+1}存储到经验池中;

8. 从经验池中随机采样{s_j, a_j, r_j, s_j+1};

9. 若s_j+1为最终状态，则 $ {Q_{\text{t}}}({s_j},{a_j}) = {r_j} $，否则令 ${Q_{\text{t}}}({s_j},{a_j}) = {r_j} + \gamma {\max \limits_{{a'}}}\,{Q_{\text{t}}}({s_j},\;{a'},\;{\theta '})$;

10. 利用式(5)和随机梯度下降法更新θ ;

11. 若t%x=1，则更新 ${\theta '} = \theta$;

12. end for

13. end for

为了提高算法的收敛性，使用动态贪婪策略和经验回放机制训练模型. 动态贪婪策略在训练过程中动态改变贪婪系数ε的大小，实现训练结果的快速收敛^[26]. 训练开始时的ε取值较大，智能体会更加“大胆”地对未知探索动作，即更倾向于随机选取动作. 训练后期的ε取值越来越小，智能体倾向于充分利用已经探知的信息，即选择神经网络输出的一系列Q值中最大的Q值对应的动作. 为了解决传统Q−学习算法中训练样本相关性过大的问题，采用经验回放机制打破经验数据间的相关性. 在使用经验回放机制的过程中，智能体将探索环境所得到的经验，即相邻采样步的状态信息、动作和奖励{s_t, a_t, r_t, s_t+1}存储在经验池中，并对经验池的信息随机采样以减少相邻训练步样本的相关性^[27]. 如图7所示为基于深度强化学习Nature DQN的交通信号控制框架.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 基于Nature DQN的交通信号控制框架

Fig.7 Traffic signal control framework based on nature DQN

3. 仿真与结果分析

3.1. 仿真环境与参数设置

以如图1所示的交叉口为测试对象，使用SUMO开展仿真测试. SUMO是具有开源、微观和多模态特性的仿真软件，可以模拟复杂交通状况. SUMO通过Traci接口获取车辆和道路信息，并在tensorflow机器学习框架下通过python编程实现仿真.

在DQN网络中，设置学习率 $ \alpha $=0.000 01，折扣因子 $ \gamma $=0.95，每个Epoch仿真时长为4 500 s,缓冲区限制buffer_limit=500 000，训练所选取的样本数batch_size=128，路口车辆数设置为1 000. 智能体在每个控制步执行动作时，若执行的动作是继续保持当前相位的，则该动作下个采样步(也是控制步)持续时间为2 s；若执行的动作是切换至下个相位，则该动作1个采样步持续时间为5 s.

3.2. 实验结果与分析

将本研究所提的改进DQN与基于车辆平均延误时间定义奖励函数的传统DQN进行对比. 为了展示基于深度强化学习的交通信号控制方法相较于传统的交通信号控制方法的优越性，选取传统的定时控制方法和自适应控制方法作为对照组开展仿真测试.

在定时控制下，交叉口各相位配时在不同的交通状态下保持不变. 自适应控制在定时控制的基础上增加了检测器，并基于检测器所采集的实时交通状态，动态更新交叉口的交通信号配时方案. 如图8~10分别为不同类型的深度强化学习算法的累计奖励以及不同交通信号控制方法的平均等待时间和平均排队长度. 图中， $\eta $ 为模型训练次数，R为不同类型的深度强化学习算法的累计奖励，W、L分别为不同交通信号控制方法的平均等待时间和平均排队长度. 在使用相同的神经网络前提下，传统DQN方法采用平均车辆延误时间定义奖励函数，改进DQN方法采用本研究所提的新奖励函数. 相比于一般基于车辆平均延误定义的奖励函数，本研究所提的奖励函数能够在更小时间尺度上反映交叉口的实时动态变化过程. 为了检验不同深度强化学习方法的控制效果，对比分析选取累计奖励、交叉口车辆平均等待时间和车辆平均排队长度共3个评价指标. 在设定的仿真时间内，累计奖励值越大，平均等待时间和排队长度越小，表明在使用该方法的情况下，交叉口的车辆通行效益越好.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 不同类型的深度强化学习算法的累计奖励

Fig.8 Cumulative rewards of different deep reinforcement learning algorithm

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 不同交通信号控制方法的平均等待时间

Fig.9 Average waiting time of different traffic signal control methods

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同交通信号控制方法的平均排队长度

Fig.10 Average length of queue of different traffic signal control methods

由图8可知在使用相同神经网络的情况下，与传统的深度强化学习方法相比，使用本研究所设计新奖励函数和经验回放机制确实能够进一步提高算法的收敛性. 由图9~10可知，定时控制和自适应控制的平均等待时间和排队长度基本维持稳定，但自适应控制在平均等待时间和平均排队长度这2个交通效益指标上优于定时控制. 相比于定时控制和自适应控制方法，基于DQN的交通信号控制方法优势明显. 无论是基于全连接(full connection, FC)还是基于卷积神经网络(convolutional neural networks, CNN)，相比传统基于车辆平均延误时间定义奖励函数的DQN，采用本研究所提DQN方法的控制效果明显更好.

如表1所示为基于不同交通信号控制方法控制效果的测试结果. 可知，与基于全连接神经网络的控制方法相比，基于卷积神经网络的控制方法效果更好. 当采用全连接神经网络时，与基于传统DQN的控制方法相比，基于改进DQN控制方法的车辆平均等待时间减少28.8%，平均排队长度减少15.8%. 当采用基于卷积神经网络时，与基于传统DQN的控制方法相比，基于改进DQN控制方法的车辆平均等待时间和平均排队长度分别减少36.8% 、18.1%. 实验结果表明，与传统DQN方法相比，基于改进DQN的方法具有更好的控制效果.

表 1 不同交通信号控制方法的测试结果

Tab.1 Test results of control effects of different traffic signal control methods

控制方法	R	W/s	L/m
定时控制	—	937.85	9.64
自适应控制	—	694.08	8.48
传统FC-DQN	−5.40	607.05	7.82
改进FC-DQN	−3.66	431.85	6.58
传统CNN-DQN	−2.54	168.59	4.14
改进CNN-DQN	−1.63	106.47	3.39

新窗口打开| 下载CSV

各强化学习模型在 $\eta \in [0，100] $均能收敛，各强化学习模型的训练时间及响应时间如表2所示. 表中，S为基于深度强化学习的模型训练时间，V为算法的响应时间. 可知，无论是基于全连接神经网络还是基于卷积神经网络，与传统DQN相比，改进DQN的模型训练时间均有明显下降. 算法响应时间是指在状态信息输入DQN模型到该模型输出下一步待执行动作所需的时间. 各类基于DQN模型控制方法的响应时间均不超过2.0 s. 在各类基于DQN的交通信号控制方法中，DQN模型输出的动作为保持当前相位或切换到下个相位. 考虑到保持当前相位或切换到下个相位的持续时间均超过2.0 s，本研究所提基于改进深度强化学习DQN的交通信号控制方法能够实现对交叉口交通信号的实时控制.

表 2 模型训练时间和算法实时响应时间

Tab.2 Model training time and algorithm response time

控制方法	S/min	V/s
传统FC-DQN	116	< 2.0
改进FC-DQN	105	< 2.0
传统CNN-DQN	88	< 2.0
改进CNN-DQN	75	< 2.0

新窗口打开| 下载CSV

综上所述，以交叉口车辆平均排队长度和平均等待时间为评价指标，基于深度强化学习的交通信号控制方法明显优于传统定时控制、自适应控制方法. 相比于使用平均延误时间定义奖励函数的深度强化学习方法，本研究所提改进深度强化学习方法的交通信号控制效果更好.

4. 结　语

本研究提出的基于改进深度强化学习的交通信号控制方法，能够及时利用实时交通状态信息训练深度神经网络模型，并基于训练好的模型确定交叉口最优信号配时方案. 不同于现有基于深度强化学习的方法主要依据某个时段内的平均交通效益指标构建奖励函数，所提方法构建的基于相邻采样时间步实时车辆数变化量的奖励函数，能够更有效地跟踪和利用交叉口实时交通状态信息. 实验结果表明，所提方法能明显提高交叉口通行效率. 所提方法虽然较好地解决了单交叉口交通信号控制问题，但本研究并未讨论目标交叉口交通信号控制策略的改变对相邻交叉口的影响. 相比对各个交叉口进行单独控制，考虑到路网中距离相近的交叉口间通常具有较强的相互关联作用，对由若干相邻交叉口构成的区域进行协调控制能够产生更大的交通管控效益. 下一步将从区域总的交通效益出发，重点研究如何应用深度强化学习方法解决区域交通信号协调控制问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张立立, 王力, 张玲玉

城市道路交通控制概述与展望

[J]. 科学技术与工程, 2020, 20 (16): 6322- 6329

DOI:10.3969/j.issn.1671-1815.2020.16.002 [本文引用: 1]

ZHANG Li-li, WANG Li, ZHANG Ling-yu

Urban road traffic control overview and prospect

[J]. Science Technology and Engineering, 2020, 20 (16): 6322- 6329

DOI:10.3969/j.issn.1671-1815.2020.16.002 [本文引用: 1]

[2]

林晓辉

车路协同下基于交通密度的交叉口交通信号控制方法与仿真

[J]. 工业工程, 2014, 17 (4): 123- 128

DOI:10.3969/j.issn.1007-7375.2014.04.020 [本文引用: 1]

LIN Xiao-hui

Traffic signal control method and simulation based on traffic density in cooperative vehicle infrastructure system

[J]. Industrial Engineering Journal, 2014, 17 (4): 123- 128

DOI:10.3969/j.issn.1007-7375.2014.04.020 [本文引用: 1]

[3]

钟馥声, 王安麟, 姜涛, 等

城市交通信号自组织控制规则的邻域重构

[J]. 哈尔滨工业大学学报, 2020, 52 (3): 74- 81

DOI:10.11918/201906054 [本文引用: 1]

ZHONG Fu-sheng, WANG An-lin, JIANG Tao, et al

Neighborhood reconstruction of urban traffic signal self-organizing control rules

[J]. Journal of Harbin Institute of technology, 2020, 52 (3): 74- 81

DOI:10.11918/201906054 [本文引用: 1]

[4]

罗小芹, 王殿海, 金盛

面向混合交通的感应式交通信号控制方法

[J]. 吉林大学学报:工学版, 2019, 49 (3): 695- 704

[本文引用: 1]

LUO Xiao-qin, WANG Dian-hai, JIN Sheng

Traffic signal actuated control at isolated intersections for heterogeneous traffic

[J]. Journal of Jilin University: Engineering and Technology Edition, 2019, 49 (3): 695- 704

[本文引用: 1]

[5]

YE B, WU W, RUAN K, et al

A survey of model predictive control methods for traffic signal control

[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6 (3): 623- 640

DOI:10.1109/JAS.2019.1911471 [本文引用: 1]

[6]

YE B, WU W, LI L, et al

A hierarchical model predictive control approach for signal splits optimization in large-scale urban road networks

[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17 (8): 2182- 2192

DOI:10.1109/TITS.2016.2517079 [本文引用: 1]

[7]

LIANG X, DU X, WANG G, et al

A deep reinforcement learning network for traffic light cycle control

[J]. IEEE Transactions on Vehicular Technology, 2019, 68 (2): 1243- 1253

DOI:10.1109/TVT.2018.2890726 [本文引用: 1]

[8]

YANG J, ZHANG J, WANG H

Urban traffic control in software defined internet of things via a multi-agent deep reinforcement learning approach

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22 (6): 3742- 3754

[9]

TAN T, BAO F, DENG Y, et al

Cooperative deep reinforcement learning for large-scale traffic grid signal control

[J]. IEEE Transactions on Cybernetics, 2020, 50 (6): 2687- 2700

DOI:10.1109/TCYB.2019.2904742 [本文引用: 1]

[10]

WANG S, XIE X, HUANG K, et al

Deep reinforcement learning-based traffic signal control using high-resolution event-based data

[J]. Entropy, 2019, 21 (8): 744

DOI:10.3390/e21080744 [本文引用: 1]

[11]

刘皓, 吕宜生

基于深度强化学习的单路口交通信号控制

[J]. 交通工程, 2020, 20 (2): 54- 59

[本文引用: 1]

LIU Hao, LYV Yi-sheng

Deep reinforcement learning for traffic signal control of isolated signalized intersections

[J]. Journal of Transportation Engineering, 2020, 20 (2): 54- 59

[本文引用: 1]

[12]

郭梦杰, 任安虎

基于深度强化学习的单路口信号控制算法

[J]. 电子测量技术, 2019, 42 (24): 49- 52

[本文引用: 1]

GUO Meng-jie, REN An-hu

Single control algorithm at isolated urban intersections based on deep reinforcement learning

[J]. Electronic Measurement Technology, 2019, 42 (24): 49- 52

[本文引用: 1]

[13]

赖建辉

基于D3QN的交通信号控制策略

[J]. 计算机科学, 2019, 46 (11A): 117- 121

[本文引用: 1]

LAI Jian-hui

Traffic signal control based on double deep Q-learning network with dueling architecture

[J]. Computer science, 2019, 46 (11A): 117- 121

[本文引用: 1]

[14]

CHU T, WANG J, CODECÀ L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (3): 1086- 1095

DOI:10.1109/TITS.2019.2901791 [本文引用: 1]

[15]

WU T, ZHOU P, LIU K, et al

Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (8): 8243- 8256

DOI:10.1109/TVT.2020.2997896 [本文引用: 1]

[16]

HUANG X, YUAN T, QIAO G, et al

Deep reinforcement learning for multimedia traffic control in software defined networking

[J]. IEEE Network, 2018, 32 (6): 35- 41

DOI:10.1109/MNET.2018.1800097 [本文引用: 1]

[17]

WANG Z, LI H, WANG J, et al

Deep reinforcement learning based conflict detection and resolution in air traffic control

[J]. IET Intelligent Transport Systems, 2019, 13 (6): 1041- 1047

DOI:10.1049/iet-its.2018.5357 [本文引用: 1]

[18]

KUMAR N, RAHMAN S S, DHAKAD N

Fuzzy inference enabled deep reinforcement learning-based traffic light control for intelligent transportation system

[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22 (8): 4919- 4928

DOI:10.1109/TITS.2020.2984033 [本文引用: 1]

[19]

FENJIRO Y, BENBRAHIM H

Deep reinforcement learning overview of the state of the art

[J]. Journal of Automation Mobile Robotics and Intelligent Systems, 2018, 12 (3): 20- 39

DOI:10.14313/JAMRIS_3-2018/15

[20]

ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al

Deep reinforcement learning: a brief survey

[J]. IEEE Signal Processing Magazine, 2017, 34 (6): 26- 38

DOI:10.1109/MSP.2017.2743240 [本文引用: 1]

[21]

TROIA S, SAPIENZA F, VARÉ L, et al

On deep reinforcement learning for traffic engineering in SD-WAN

[J]. IEEE Journal on Selected Areas in Communications, 2021, 39 (7): 2198- 2212

DOI:10.1109/JSAC.2020.3041385 [本文引用: 1]

[22]

TIAN Y, WANG Z, YIN X, et al

Traffic engineering in partially deployed segment routing over IPv6 network with deep reinforcement learning

[J]. IEEE/ACM Transactions on Networking, 2020, 28 (4): 1573- 1586

DOI:10.1109/TNET.2020.2987866

[23]

LI M, LI Z, XU C, et al

Deep reinforcement learning-based vehicle driving strategy to reduce crash risks in traffic oscillations

[J]. Transportation research record, 2020, 2674 (10): 42- 54

DOI:10.1177/0361198120937976 [本文引用: 1]

[24]

WU Q, CHEN X, ZHOU Z

Deep reinforcement learning with spatio-temporal traffic forecasting for data-driven base station sleep control

[J]. IEEE/ACM Transactions on Networking, 2021, 29 (2): 935- 948

DOI:10.1109/TNET.2021.3053771 [本文引用: 1]

[25]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518: 529- 533

DOI:10.1038/nature14236 [本文引用: 1]

[26]

WU T, ZHOU P, WANG B, et al

Joint traffic control and multi-channel reassignment for core backbone network in SDN-IoT: a multi-agent deep reinforcement learning approach

[J]. IEEE Transactions on Network Science and Engineering, 2021, 8 (1): 231- 245

DOI:10.1109/TNSE.2020.3036456 [本文引用: 1]

[27]

TAN K L, SHARMA A, SARKAR S

Robust deep reinforcement learning for traffic signal control

[J]. Journal of Big Data Analytics in Transportation, 2020, 2: 263- 274

DOI:10.1007/s42421-020-00029-6 [本文引用: 1]

城市道路交通控制概述与展望

2020

... 采用先进的交通信号控制技术提高路网交通管理水平，是缓解交通拥堵的重要手段之一^[1]. 传统交通信号控制方法主要包括3大类：基于历史流量的定时控制^[2]、基于实时流量的自适应控制^[3]（或感应控制^[4]）和基于模型的协调控制^[5-6]. 上述传统交通信号控制方法在如何寻找最优交通信号配时方案、提高路网通行效率方面均存在局限性，研究人员一直在尝试用新的技术、方法来解决该问题. 2018年以来，随着强化、学习技术的发展，应用深度强化学习技术解决交通信号控制问题成为研究热点^[7-9]. ...

城市道路交通控制概述与展望

2020

车路协同下基于交通密度的交叉口交通信号控制方法与仿真

2014

车路协同下基于交通密度的交叉口交通信号控制方法与仿真

2014

城市交通信号自组织控制规则的邻域重构

2020

城市交通信号自组织控制规则的邻域重构

2020

面向混合交通的感应式交通信号控制方法

2019

面向混合交通的感应式交通信号控制方法

2019

A survey of model predictive control methods for traffic signal control

2019

A hierarchical model predictive control approach for signal splits optimization in large-scale urban road networks

2016

A deep reinforcement learning network for traffic light cycle control

2019

Urban traffic control in software defined internet of things via a multi-agent deep reinforcement learning approach

2020

Cooperative deep reinforcement learning for large-scale traffic grid signal control

2020

Deep reinforcement learning-based traffic signal control using high-resolution event-based data

2019

... Wang等^[10]提出并设计为交通信号控制自动提取有效特征的深度学习策略，使用基于事件的高分辨率数据来提取交叉口交通信息. 本质上，该方法只是采用新的输入数据来提高模型学习效率. 刘皓等^[11]提出基于深度强化学习的交通信号控制方法，并利用交叉口各进口车道上总排队长度定义奖励函数. 该方法通过改进强化学习中的奖励函数来提高算法学习效率，但在一些复杂的实际交通场景中，车辆排队的长度通常难以准确测量. 郭梦杰等^[12]提出基于深度Q网络 (deep Q-network, DQN)的单交叉口交通信号控制方法.该方法仅利用单个神经网络更新Q值，无法克服相邻状态所对应Q值的相关性，且采用平均等待时间定义奖励函数无法实时反映奖惩关系. 赖建辉^[13]提出基于D3QN的交通信号控制策略，改进了Q值的计算公式和神经网络结构，提高了算法的收敛性. 该算法设计过于复杂，难以应用于实际交通信号控制中. Chu等^[14]提出基于分散式多智能体强化学习的交通信号控制方法，利用多智能体结构解决了传统强化学习算法收敛性低下的问题. 该方法容易产生经验信息冗余，在对经验信息的处理上仍须改进. ...

基于深度强化学习的单路口交通信号控制

2020

基于深度强化学习的单路口交通信号控制

2020

基于深度强化学习的单路口信号控制算法

2019

基于深度强化学习的单路口信号控制算法

2019

基于D3QN的交通信号控制策略

2019

基于D3QN的交通信号控制策略

2019

Multi-agent deep reinforcement learning for large-scale traffic signal control

2020

Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks

2020

... 将上述车辆位置信息、速度信息以及交叉口当前正在运行绿灯的相位作为状态输入，能够更准确地反映交叉口实时交通状态^[15]. 采用离散交通状态编码（discrete traffic state encode, DTSE）将交叉口实时交通状态转化为可处理的元素；包括该区间是否有车辆，有车辆时车辆的速度. 相较于直接利用图像信息进行信息输入，该方法能有效减少输入信息量，从数据端降低算法计算复杂度. ...

Deep reinforcement learning for multimedia traffic control in software defined networking

2018

... 以图2所示交叉口西进车口方向各车道为例，将距离信号灯的一定长度的各条车道按预设间隔距离划分为若干“元胞”，每个“元胞”作为取样区域可容纳且最多容纳1辆车^[16]. 如图3所示，通过获取各条车道上各“元胞”内车辆信息，建立交叉口西进口方向对应的位置矩阵和速度矩阵. 图3（b）中，元素取值为0，表示该位置对应的“元胞”内无车辆；取值为1，表示该位置对应的“元胞”内有车辆. 图3（c）中，元素取值大于0，表示该位置对应的“元胞”内有车辆且车辆速度等于该元素取值；元素取值等于0，表示该位置对应的“元胞”内无车辆. 通过位置矩阵可以判断进口车道上各“元胞”内有无车辆，由速度矩阵可以确定有车辆的那些“元胞”内的车辆行驶速度. ...

Deep reinforcement learning based conflict detection and resolution in air traffic control

2019

... 如图4所示为交叉口的4个相位，它们分别为东西直行和右转（EW）、东西左转（EWL）、南北直行和右转（NS）、南北左转（NSL）流向的交通流提供通行权. 本研究将4个相位定义为智能体的动作空间，每个控制步的智能体执行且只能执行如图5所示4个相位中的某个具体相位，即正在亮绿灯为交叉口部分流向车流提供通行权的相位. 在每个控制步结束的瞬间，智能体执行的动作为保持当前相位或按图5顺序执行当前相位的下个相位. 智能体通过执行一系列的动作来间接实现交叉口交通信号配时方案的动态更新^[17]. ...

Fuzzy inference enabled deep reinforcement learning-based traffic light control for intelligent transportation system

2021

... 在基于强化学习的交通信号控制方法中^[18-20]，奖励函数通常由交通效益指标（如车道上车辆平均排队长度、车辆平均等待时间）定义. 基于车辆平均排队长度或平均等待时间定义的奖励值，本质上是某个时段的均值. 若该均值要有代表性或统计意义，则要求该时段长度不能太短. 为了保障交通信号实时控制的效果，智能体执行1个动作所对应的采样时间步长取数秒或数十秒的较短时间，这要求均值有意义的统计时段至少包含若干个甚至是很多个采样时间步. 传统基于平均等待时间或平均排队长度定义的奖励函数，难以有效反映交叉口在各个采样时间步的实时交通状态及其变化趋势. ...

Deep reinforcement learning overview of the state of the art

2018

Deep reinforcement learning: a brief survey

2017

On deep reinforcement learning for traffic engineering in SD-WAN

2021

... 式中：s、a分别为当前状态和所采取的动作，s_t+1为智能体在当前状态 s下执行动作a后所处的新状态，a_t+1为在新状态s_t+1下能够最大化状态-动作价值函数Q(s_t+1,a_t+1)时智能体所应采取的动作，

$ \gamma $

为折扣因子. 当前状态及相应动作的Q值等于当前动作的奖励加上折扣因子乘以下一步估计动作对应的最大Q值^[21-23]. ...

Traffic engineering in partially deployed segment routing over IPv6 network with deep reinforcement learning

2020

Deep reinforcement learning-based vehicle driving strategy to reduce crash risks in traffic oscillations

2020

$ \gamma $

为折扣因子. 当前状态及相应动作的Q值等于当前动作的奖励加上折扣因子乘以下一步估计动作对应的最大Q值^[21-23]. ...

Deep reinforcement learning with spatio-temporal traffic forecasting for data-driven base station sleep control

2021

... 如图6所示，利用卷积神经网络强大的拟合能力计算状态−动作的Q值. 使用卷积神经网络对Q值进行拟合时，将状态信息作为卷积神经网络的输入量，经过卷积神经网络处理得到在该状态下所采取动作的Q值，并利用该值更新迭代式(3)^[24]. 1）将交叉口各进口方向对应的速度矩阵和位置矩阵作为神经网络的输入，利用2个卷积层提取特征信息. 第1层为16个4*4的过滤器，步长为2；第2层为32个2*2的过滤器，步长为1. 2）将经过这2个卷积层处理的数据和交叉口相位信息一起输入2个全连接层. 3）全连接层连接所有的特征，并输出当前输入状态下智能体可能采取的各种动作对应的一系列Q值. ...

Human-level control through deep reinforcement learning

2015

... 传统的DQN在利用Q现实和Q估计进行迭代更新时使用的是同个神经网络，导致Q现实和Q估计的依赖过强，不利于算法收敛. 本研究使用Nature DQN来解决这个问题^[25]. Nature DQN有2个神经网络，其中target_net为计算Q现实的神经网络， eval_net为计算Q估计的神经网络. 在利用Nature DQN计算得到Q现实和Q估计后，计算神经网络eval_net的损失函数. ...

Joint traffic control and multi-channel reassignment for core backbone network in SDN-IoT: a multi-agent deep reinforcement learning approach

2021

... 为了提高算法的收敛性，使用动态贪婪策略和经验回放机制训练模型. 动态贪婪策略在训练过程中动态改变贪婪系数ε的大小，实现训练结果的快速收敛^[26]. 训练开始时的ε取值较大，智能体会更加“大胆”地对未知探索动作，即更倾向于随机选取动作. 训练后期的ε取值越来越小，智能体倾向于充分利用已经探知的信息，即选择神经网络输出的一系列Q值中最大的Q值对应的动作. 为了解决传统Q−学习算法中训练样本相关性过大的问题，采用经验回放机制打破经验数据间的相关性. 在使用经验回放机制的过程中，智能体将探索环境所得到的经验，即相邻采样步的状态信息、动作和奖励{s_t, a_t, r_t, s_t+1}存储在经验池中，并对经验池的信息随机采样以减少相邻训练步样本的相关性^[27]. 如图7所示为基于深度强化学习Nature DQN的交通信号控制框架. ...

Robust deep reinforcement learning for traffic signal control

2020

〈

〉