<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 交叉口的示意图

Fig.1 Diagram of intersection

1.1. 输入状态和动作空间

Wu等^[13-14]的研究表明，简化状态空间可以提高智能体的训练性能，因此应该构建尽可能简单的状态空间. 考虑实际应用的需求，输入的状态要素应该能够直观并容易获取. 进口道延误、进口道车辆排队时间及车辆平均停车次数等复杂计算或者估计的要素不适合作为输入状态.

在所构建的权重网络中，需要基于各个车道上的车辆数量和各个车道排队等待通行的车辆数量确定车辆的权重关系. 考虑到如图1所示的交叉口共有12条进口车道，可以将采集的该交叉口输入交通状态定义为矩阵M_2×12. 从北进口方向的直行和右转共用车道开始，按顺时针方向依次采集各条车道的交通状态信息. 矩阵第1行中的各元素分别表示各条车道上的车辆总数，第2行中的各元素分别表示各条车道上排队等待通行的车辆数.

将智能体的动作空间定义为4个相位^[15]，每个控制步智能体只能执行并选择图2所示的4个相位中的一个. 4个相位分别为东西直行、东西左转、南北直行、南北左转. 在每个控制步结束时，智能体可以选择保持当前相位或按智能体的决策执行下一个相位，如图3所示.

图 2

图 2 交叉口相位配置的示意图

Fig.2 Diagram of phase setting of intersection

图 3

图 3 动作空间的示意图

Fig.3 Diagram of action space

1.2. 奖励函数

在基于深度强化学习的交通信号控制方法中，设计奖励函数的根本原则是驱动智能交通信号控制器在每一个控制步能够尽可能快速地搜索到最优交通信号控制策略^[16-18]. 在设计奖励函数时，主要基于以下2个方面的考虑. 1）应尽量减少车辆在交叉口的等待时间，确保所选动作能够减少车辆通过交叉口的平均等待时间，提高交叉口的通行效率. 2）应合理分配绿灯时间给不同的车道或方向，以确保更多的车辆在各个绿灯放行相位内一次性通过，增加单位时间内通过交叉口的总车辆数.

综合考虑通过交叉口的车辆数和车辆等待时间这2个交通效益评价指标来设计奖励函数，能够更全面地评估当前输出动作决策的有效性. 根据多个指标来综合评定动作决策的优劣，可以激励强化学习算法进行多目标优化，使其在不同的交通状态下均能有良好的表现. 为了提高深度强化学习算法的决策能力，设计新的奖励函数，即采用当前采样时间步交叉口总的车辆等待时间的变化率和通过交叉口的车辆数的变化率来定义强化学习的奖励函数. 计算车辆等待时间的变化率${W_{\mathrm{{change\_rate}}}} $和通过交叉口的车辆数的变化率${P_{\mathrm{{change\_rate}}}} $如下所示.

$ {W_{{\mathrm{change}}}} = {w_{t - 1}} - {w_t}, $

(1)

$ {W_{\mathrm{{change\_rate}}}} = {W_{{\mathrm{change}}}}/{w_{t - 1}}. $

(2)

式中: w_t为在第t个采样时间步交叉口各条车道上车辆的等待时间之和，w_t−1为第t−1个采样时间步交叉口各条车道上车辆的等待时间之和.

$ {P_{{\mathrm{change}}}} = {p_{t - 1}} - {p_t}, $

(3)

$ {P_{\mathrm{{change\_rate}}}} = {P_{{\mathrm{change}}}}/{p_{t - 1}}. $

(4)

式中: p_t为在第t个采样时间步通过交叉口各车道的车辆数之和，p_t−1为第t−1个采样时间步通过交叉路口各车道的车辆数之和.

在复杂系统中，连续的输入空间可能会导致控制策略过于复杂，难以优化和实施. 对得到的变化率进行处理，根据W_{change_rate}和P_{change_rate}确定等待时间的奖励值R_w和通过车辆数的奖励值R_p. 具体的分段计算规则如表1所示.

表 1 奖励分段规则

Tab.1 Reward setting rules

R_w（R_p）	W_{change_rate} （P_{change_rate}）
4	(0.35, +∞)
3	(0.25, 0.35]
2	(0.15, 0.25]
1	[0, 0.15]
−1	[−0.15, 0)
−2	[−0.25, −0.15)
−3	[−0.35, −0.25)
−4	(−∞, −0.35)

综上所述，设计的目标奖励函数定义如下：

$ R = {\lambda _1} {R_{\mathrm{w}}}+{\lambda _2} {R_{\mathrm{p}}}. $

(5)

式中：λ₁和λ₂分别为奖励R_w和R_p对应的权重系数. 设计上述奖励函数的目的是使深度强化学习智能体能够更好地响应车流的动态变化过程，使用变化率作为奖励来提高模型对突发事件的敏感度及强化学习算法的稳定性.

2. 车辆权重增益网络

对采样的交通状态信息进行处理和分析，提前获取一部分有代表性的交通特征信息，可以提高深度神经网络在挖掘深层次特征信息时的学习能力.

如图4所示，利用车辆权重增益网络对采集的交叉口车辆运动状态信息矩阵$ {{\boldsymbol{M}}}_{2\times 12} $进行处理，利用深度神经网络输出的车辆权重和$ {{\boldsymbol{M}}}_{2\times 12} $获得新的交通状态信息. 将更新的交通状态信息输入深度强化学习模型A2C中的Actor网络和Critic网络，根据强化学习模型反馈的奖励动态更新车辆权重增益网络的超参数.

图 4

图 4 车辆权重增益网络与A2C网络信息交互的示意图

Fig.4 Diagram of information exchange between vehicle weight gain network and network of A2C

从交叉口和车道2个不同维度上对车辆运动状态进行分析，构建交叉口级车辆权重增益网络（intersection vehicle weight gain network，IVWGN）和车道级车辆权重增益(lane vehicle weight gain network，LVWGN），对采集的车辆运动状态信息进行处理.

2.1. 交叉口级车辆权重增益网络

如图5所示，本文所提交叉口级车辆权重增益网络示意图中，全连接层的输入是交叉口各进口方向上各条车道上的车辆总数和各条车道上排队等待通行的车辆数. 图1所示的交叉口共有4个进口方向、12条车道，所以输入的状态是2×12的矩阵$ {{\boldsymbol{M}}}_{2\times 12} $. 矩阵中的第1行元素表示各条车道上的车辆总数，第2行元素表示各条车道上排队等待通行的车辆数.

图 5

图 5 交叉口级车辆权重增益网络的示意图

Fig.5 Diagram of intersection vehicle weight gain network

在交叉口级车辆权重增益网络中，所有排队等待通行车辆的权重增益相同，因此输出权重矩阵的维度为1×1. 在得到增益权重后，利用下式计算各条车道上加权增益后的车辆数：

$ N_i^{\text{I}} = {D_i}+p{P_i}. $

(6)

式中：$ {N}_{i}^{{\mathrm{I}}} $为经过交叉口级车辆权重增益网络处理后交叉口第i条车道上的车辆数，D_i为采样得到的第i个车道上的车辆数，p为交叉口级车辆增益网络计算出的排队等待放行车辆增益权重，P_i为采样得到的第i个车道上的等待放行车辆数.

2.2. 车道级车辆权重增益网络

如图6所示，车道级车辆权重增益网络的输入与交叉口级车辆权重增益网络的输入相同，但在不同车道上的权重增益不同. 以图1所示包含有12条车道的交叉口为研究对象，输出矩阵的维度为12×1. 每个权重表示对应车道上排队等待通行车辆的增益. 在得到增益权重后，利用下式可计算得到各条车道上加权增益后的车辆数：

图 6

图 6 车道级车辆权重增益网络的示意图

Fig.6 Diagram of lane vehicle weight gain network

$ N_i^{\text{L}} = {D_i}+{q_i}{P_i}. $

(7)

式中：$ {N}_{i}^{\mathrm{L}} $为经过车道级车辆权重增益网络处理后交叉口第i条车道上的车辆数，q_i为车道级车辆增益网络计算得到的第i条车道上排队等待通行车辆的权重.

3. 基于融合车辆权重增益网络A3C的交通信号控制方法

3.1. 优势演员-评论家模型

由于基于Actor-Critic的强化学习方法在实际应用中收敛效果不佳^[19-20]，将不依赖于动作A的任意函数作为动作价值函数的基线，可以提高算法的收敛速度. 对策略梯度进行蒙特卡洛方法近似，可以得到策略梯度的无偏估计，如下所示：

$ {\boldsymbol{g}}(s,a;{\boldsymbol{\theta}} ) = [{Q_\pi }(s,a) - {V_\pi }(s)] \cdot {\nabla _{\boldsymbol{\theta}} }\ln\; \pi (a\left| {s;{\boldsymbol{\theta}} } \right.). $

(8)

式中：g$ (s,a;{\boldsymbol{\theta}} ) $为随机梯度，$ {Q}_{\pi }(s,a) $为动作价值函数，$ {V}_{\pi }\left(s\right) $为状态价值函数，$ {\nabla } _{{\boldsymbol{\theta}} }{\mathrm{l}\mathrm{n}}\; {\pi }\left(a\left|s;{\boldsymbol{\theta}} \right.\right) $为策略梯度的无偏估计. 当训练价值网络时，需要用到贝尔曼方程，如下所示：

$ {V_\pi }({s_t}) = {{ E}_{{A_t}\sim \pi ( \cdot |{s_t};{\boldsymbol{\theta}} )}}[{{ E}_{{S_{t+1}}\sim p( \cdot |{s_t},{A_t})}}{\text{ }}({R_t}+\gamma {V_\pi }({S_{t+1}}))]. $

(9)

式中: $ {V}_{\pi }\left({s}_{t}\right) $和R_t分别为t时刻的状态价值和奖励，$ \gamma $为折扣因子，$ {V}_{\pi }\left({s}_{t+1}\right) $为t+1时刻的状态价值. 其中$ {V}_{\pi }\left({s}_{t}\right) $在t时刻近似成$ v({s}_{t};{\boldsymbol{\omega}} ) $. 智能体执行动作$ {a}_{t} $，环境会给出奖励$ {r}_{t} $和新的状态$ {s}_{t+1} $，用观测到的奖励和新的状态对期望进行蒙特卡洛近似，得到

$ y_t^{\mathrm{g}} = {R_t}+\gamma {V_\pi }({S_{t+1}}) \approx {\text{ }}{r_t}+\gamma v({s_{t+1}};{\boldsymbol{\omega}} ). $

(10)

式中：$ {y}_{t}^{{\mathrm{g}}} $为t+1时刻对$ {V}_{\pi }\left({s}_{t}\right) $的估计. 根据式（8）~（10），定义价值网络的损失函数为

$ L({\boldsymbol{\omega}} )\mathop = \limits^\Delta 0.5{[v({s_t};{\boldsymbol{\omega}} ) - y_t^{\mathrm{g}}]^2}. $

(11)

$ {\nabla _\omega }L({\boldsymbol{\omega}} ) = (v_t^{\mathrm{g}} - y_{_t}^{\mathrm{g}}) {\nabla _{\boldsymbol{\omega}} }v({s_t};{\boldsymbol{\omega}} ). $

(12)

$ {\boldsymbol{\omega}} \leftarrow {\boldsymbol{\omega}} - \alpha {\delta _t} {\nabla _{\boldsymbol{\omega}} }v({s_t};{\boldsymbol{\omega}} ). $

(13)

式中：$ {\delta }_{t}={v}_{t}^{{\mathrm{g}}}-{y}_{t}^{{\mathrm{g}}} $，$ {\nabla }_{{\boldsymbol{\omega}}}L\left({\boldsymbol{\omega}} \right) $为损失函数的梯度，$ {\boldsymbol{\omega}} $为价值网络的参数，$ \alpha $为价值网络的学习率.

当训练策略网络时，对式(8)作近似，如下所示：

$ {Q_\pi }({s_t};{a_t}) = {{ E}_{{S_{t+1}}\sim p( \cdot |{s_t},{a_t})}}[{R_t}+\gamma {V_\pi }({S_{t+1}})], $

(14)

$ {\boldsymbol{g}}(s,a;{\boldsymbol{\theta}} ) = [{{ E}_{{S_{t+1}}}}({R_t}+\gamma {V_\pi }({S_{t+1}})) - {\text{ }}{V_\pi }(s)] {\nabla _{\boldsymbol{\theta}} }\ln \; \pi (a\left| {s;{\boldsymbol{\theta}} } \right.). $

(15)

智能体执行动作a_t，环境会给出奖励r_t和新的状态s_t+1，用观测到的奖励和新的状态对期望进行蒙特卡洛近似，得到

$ \tilde {\boldsymbol{g}}({s_t};{a_t};{\boldsymbol{\theta}} )\mathop = \limits^\Delta - [y_t^g - v({s_t};{\boldsymbol{\omega}} )] \nabla {\ln \;\pi }({a_t}|{s_t};{\boldsymbol{\theta}} ). $

(16)

式中：$ \tilde {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $为$ {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $的近似. 用$ \tilde {\boldsymbol{g}}({s}_{t};{a}_{t};{\boldsymbol{\theta}} ) $更新策略网络参数，可以得到

$ {\boldsymbol{\theta}} \leftarrow {\boldsymbol{\theta}} +\beta \tilde {\boldsymbol{g}}({s_t};{a_t};{\boldsymbol{\theta}} ). $

(17)

式中：θ为策略网络的参数，β为策略网络的学习率.

3.2. 车辆权重增益网络参数的更新

权重增益网络是基于A3C强化学习智能体的奖励来动态更新网络参数，更具体地说，车辆权重增益网络的参数是朝着使智能体产生正收益的方向进行动态更新.

在训练过程中，车辆权重的真实值无法直接得到，采用自举法对估计的车辆权重真实值进行更新计算. 在t时刻，环境状态为s_t，智能体执行动作a_t后，环境状态更新为s_t+1，智能体获得奖励r_t. 假设t时刻车辆权重的估计值记为g($ {\boldsymbol{\psi}} $; s_t+1)，在t−1时刻和t时刻车辆权重的观测值分别记为g($ {\boldsymbol{\psi}} $; s_t−1)和g($ {\boldsymbol{\psi}} $; s_t)，且智能体从t−1时刻更新到t时刻时获得奖励r_t−1，则t时刻车辆权重的估计值可以更新为

$ {\hat y_t} = g({\boldsymbol{\psi}} ;{s_{t+1}})+({{{r_{t - 1}}} / {\left| {{r_{t - 1}}} \right|}}) \left( {g({\boldsymbol{\psi}} ;{s_t}) - g({\boldsymbol{\psi}} ;{s_{t - 1}})} \right). $

(18)

式中：当r_t−1 > 0时，r_t−1/|r_t−1|为正，表示车辆权重g($ {\boldsymbol{\psi}} $; s_t−1)变化成g($ {\boldsymbol{\psi}} $; s_t)后奖励增大，即车辆权重朝着使智能体获得正收益的方向变化，则下一步继续沿着该方向更新权重. 反之，当r_t−1 < 0时，r_t−1/|r_t−1|为负，表示车辆权重g($ {\boldsymbol{\psi}} $; s_t−1)变化成g($ {\boldsymbol{\psi}} $; s_t)后奖励减少，即车辆权重朝着使智能体获得负收益的方向变化，则下一步逆着该方向更新权重. g(${\boldsymbol{ \psi}} $; s_t+1)和$ \widehat{y} $_t都是对车辆权重的估计，由于$ \widehat{y} $_t中部分是基于观测值得到的，$ \widehat{y} $_t比g($ {\boldsymbol{\psi}} $; s_t+1)更接近真实权重，所以可以固定$ \widehat{y} $_t后再更新权重网络参数${\boldsymbol{ \psi}} $. 更新网络参数$ {\boldsymbol{\psi}} $的具体方法如下. 定义损失函数：

$ L({\boldsymbol{\psi}} )\mathop = \limits^\Delta 0.5 {[g({\boldsymbol{\psi}} ;{s_t}) - {\hat y_t}]^2}. $

(19)

$ {\hat g_t}\mathop = \limits^\Delta g({\boldsymbol{\psi}} ;{s_t}). $

(20)

$ {\nabla _\psi }L({{\boldsymbol{\psi}} _t}) = ({\hat g_t} - {y_t}) {\nabla _{\boldsymbol{\psi}} }g({{\boldsymbol{\psi}} _t};{s_t}). $

(21)

式中：L($ {\boldsymbol{\psi}} $)为定义的损失函数，$ {\nabla }_{{\boldsymbol{\psi}} } $L(${\boldsymbol{\psi}} $)为损失函数的梯度.

$ {\boldsymbol{\psi}} \leftarrow {\boldsymbol{\psi}} - \rho {\nabla _{\boldsymbol{\psi}} }L({\boldsymbol{\psi}} ). $

(22)

式中：${\boldsymbol{ \psi }}$为权重增益网络的参数，ρ为权重神经网络的学习率. 通过梯度下降，获得新的网络参数$ {\boldsymbol{\psi}} $.

3.3. 融合车辆权重增益的A3C算法（XVWG-A3C）

强化学习算法通常面临的共性问题是训练速度较慢^[21]. 为了应对该问题，并行化训练被引入异步优势演员-评论家算法中. 该算法包括一个服务器和多个worker节点，通过并行化操作来提高训练速度.

在异步优势演员-评论家算法中，服务器维护策略网络和价值网络的最新参数，使用worker节点传来的梯度进行参数更新. 每个worker节点拥有独立的环境，通过本地策略网络控制智能体与环境进行交互，计算得到状态、动作和奖励对应的梯度，将梯度发送到服务器.

通过并行化训练流程，利用A3C算法能够同时训练多个子模型，大幅度减少训练时间，不受其他线程的干扰. 公共部分的网络模型是要学习的模型，线程中的网络模型主要用于与环境进行交互.

算法1　XVWG-A3C算法
1）设定全局共享参数向量$ \boldsymbol{\theta } $和$ {\boldsymbol{\theta }}_{v} $，全局共享计数器T. 假设线程特定的参数为$ {\boldsymbol{\theta }}' $和$ {\boldsymbol{\theta }}_{v}' $. 2）初始化线程步骤计数器t←13）训练A3C网络和权重增益网络XVWG：1 repeat2 重置梯度$ {\mathrm{d}}\boldsymbol{\theta } $←0和d$ {\boldsymbol{\theta }}_{v} $←0，重置线程参数$ {\boldsymbol{\theta }}' $=$ \boldsymbol{\theta } $, $ {\boldsymbol{\theta }}_{v}' $= $ {\boldsymbol{\theta }}_{v} $，t_start = t；3 初始化神经网络的输入s，根据式(6)、(7)计算经过权重网络之后的状态s_t4 repeat5 根据策略函数$ \pi ({a_t}\|{s_t};{{\boldsymbol{\theta}} '}) $执行动作a_t，得到奖励r_t和经过权重网络之和的状态s_t+1；6 更新t←t+1，T←T+1;7 until 得到最终状态s_t 或者t−t_start==t_max7 若s_t+1为最终状态，R=0. 否则$ R = V({s_{t+1}},{\boldsymbol{\theta}} _v^{'}) $8 for $ i \in \{ t - 1, \cdots ,{t_{{\mathrm{start}}}}\} $do9 $ R \leftarrow {r_i}+\gamma R $10 计算累计梯度$ {{\boldsymbol{\theta}} ^{'}} \leftarrow {\mathrm{d}}{\boldsymbol{\theta}} + {\nabla _{{{\boldsymbol{\theta}} ^{'}}}}\ln \pi ({a_i}\|{s_i};{{\boldsymbol{\theta}} ^{'}})(R - V({s_i};{\boldsymbol{\theta}} _v^{'})) $; $ {\boldsymbol{\theta}} _v^{'} \leftarrow {\mathrm{d}}{{\boldsymbol{\theta}} _v}+\partial {(R - V({s_i};{\boldsymbol{\theta}} _v^{'}))^2}/\partial {\boldsymbol{\theta}} _v^{'} $11 end for12 使用$ {\mathrm{d}}\boldsymbol{\theta } $和d$ {\boldsymbol{\theta }}_{v} $异步更新$ \boldsymbol{\theta } $和$ {\boldsymbol{\theta }}_{v} $，使用式(18)~(22)更新车辆权重增益网络的参数Ψ;
13 until T > T_max

采样状态输入强化学习模型前需要进行预处理，对排队等待通行车辆权重进行动态增益. 算法1具体描述了融合车辆权重增益网络的A3C强化学习算法的具体执行步骤，图7展示了基于融合车辆权重增益网络的强化学习A3C的交通信号控制框架.

图 7

图 7 融合车辆权重增益网络的强化学习A3C交通信号控制框架

Fig.7 Framework of A3C based traffic signal control fused with vehicle weight gain network

4. 仿真与结果分析

4.1. 仿真环境与参数设置

为了验证所提方法的有效性，以如图1所示的交叉口为例开展仿真测试. 使用具备开源、微观和多模态特性的仿真软件SUMO作为测试平台，利用SUMO的Traci接口获取车辆实时交通状态信息.

将所提的基于融合车辆权重增益网络的A3C强化学习算法与DQN强化学习算法和基准A3C强化学习算法进行对比，具体参数如表2所示.

表 2 对比实验中各深度强化学习模型的参数设置

Tab.2 Parameter setting of various deep reinforcement learning model in comparative experiment

实验对比	参数	数值
融合权重增益网络的A3C 算法、传统A3C算法	Actor网络学习率	0.000 02
	Critic网络学习率	0.000 2
	Actor网络神经元数量	200
	Critic网络神经元数量	100
	折扣因子	0.9
	训练步数	200
	训练时间/s	7 200
DQN算法	学习率	0.000 02
	神经元数量	200
	折扣因子	0.9
	训练步数	200
	训练时间/s	7 200

为了测试交通信号控制在不同交通流量下的效果，设置低、中、高3种不同的车流量. 分别对应低流量（600辆/h）、中流量（1 000辆/h）和高流量（1 400辆/h），从4个不同进口方向随机生成车辆. 具体的参数设置如表3所示.

表 3 交通仿真环境的参数设置

Tab.3 Parameter setting of traffic simulation environment

参数	数值
车道长度/m	100
平均车辆长度/m	5
最小车辆间隔/m	2.5
车辆最大速度/(m·s⁻¹)	13.89
车辆最大加速度/(m·s⁻²)	2.6
车辆最大减速度/(m·s⁻²)	4.6
黄灯时间/s	3
相位保持时绿灯持续时间/s	5
相位最小绿灯时间/s	15
车辆直行概率	0.5
车辆左转概率	0.3
车辆右转概率	0.2

4.2. 实验结果与分析

为了展示基于深度强化学习的交通信号控制方法相较于传统交通信号控制方法的优越性，选取传统的定时控制方法和模糊自适应方法作为对照组，开展仿真测试. 在定时控制下，交叉口各个相位的配时时间和顺序在不同的交通情况下保持不变. 模糊自适应方法依靠采集到的交通数据信息来调整模糊逻辑系统的参数，实时动态更新各个相位的绿灯时间，不改变相位的执行顺序. 为了分析和比较不同的交通信号控制方法在不同的交通流量条件下的控制效果，选择回合累积奖励、车辆平均等待时间、车辆平均排队长度和车辆平均停车次数4个评价指标，对各种交通信号控制方法进行评价，如图8~11所示. 图中，n为智能体的训练回合步数，R为智能体的累计回合奖励，W为车辆的平均等待时间，L为车辆的平均排队长度，P为车辆的平均停车次数. 在每个回合内，累积奖励越大，车辆平均等待时间越短，车辆平均排队长度和车辆停车次数越少，表示利用该方法确定交通信号配时方案的效果越好.

图 8

图 8 回合累计奖励

Fig.8 Cumulative round reward

图 9

图 9 平均车辆等待时间

Fig.9 Average waiting time of vehicles

图 10

图 10 平均车辆排队长度

Fig.10 Average queue length of vehicles

图 11

图 11 平均车辆停车次数

Fig.11 Average number of vehicle stops

从图8（a）~（c）的结果可以看出，在基于深度强化学习的4种交通信号控制方法中，不同流量下各个强化学习模型都能收敛. 与深度强化学习模型DQN和基准A3C深度强化学习模型相比，融合了车辆权重增益网络的A3C深度强化学习模型LVWG-A3C和IVWG-A3C具有更好的模型收敛性能和更大的累计奖励. 与车道级车辆权重增益网络LVWG-A3C模型相比，交叉口级车辆权重增益网络的IVWG-A3C模型的收敛效果进一步增强. 上述实验结果表明，车辆权重增益网络可以显著改善深度强化学习A3C模型的收敛性能，采用交叉口级的车辆权重增益网络的效果更好.

与传统的交通信号控制方法相比，从图9~11所示的测试结果可知，定时控制和模糊自适应控制在低、中、高3种流量下的整体表现比较平稳，随着交通流量的增加，车辆平均等待时间、平均排队长度和平均停车次数均不断增大. 在各种流量条件下，模糊自适应控制算法在车辆平均等待时间、车辆平均排队长度和平均停车次数这3个指标上都优于定时控制. 在低流量交通状态下，模糊自适应在平均等待时间、平均排队长度和平均停车次数等指标上优于深度强化学习算法DQN，但弱于其他几种深度强化学习方法. 在中流量和高流量交通状态下，传统的定时控制方法和模糊自适应控制方法明显弱于所有参与对比的深度强化学习方法. 这表明随着车流量的不断增加，相比于传统控制方法，深度强化学习方法具有更好的控制效果.

如图8~11所示，在低、中、高3种流量条件下，无论是交叉口级车辆权重增益A3C算法还是车道级车辆权重增益A3C算法，在回合累计奖励、车辆平均等待时间、车辆平均排队长度和平均停车次数这4个交通指标方面都明显优于基准的DQN和A3C强化学习控制算法.

如表4所示为不同交通信号控制方法的测试结果. 当采用LVWG-A3C算法时，与传统的DQN算法相比，在低、中、高流量下车辆的平均等待时间分别减少了16%、17%和14%，平均排队长度分别减少了7%、8%和7%，平均停车次数分别减少了8%、16%和11%. 与传统的DQN算法相比，采用IVWG-A3C算法得到的结果在低、中、高流量下的平均等待时间分别减少了23%、33%和37%，平均排队长度分别减少了13%、22%和24%，车辆平均停车次数减少了15%、21%和20%.

表 4 单路口情况下不同交通信号控制方法的测试结果

Tab.4 Test result of different traffic signal control methods under isolated intersection condition

控制方法	低流量			中流量			高流量
控制方法	W/s	L/m	P	W/s	L/m	P	W/s	L/m	P
固定配时	13.85	5.83	0.77	15.68	6.28	0.91	17.31	8.62	1.01
自适应	5.40	3.73	0.55	7.85	4.00	0.57	13.34	4.61	0.63
DQN	6.14	3.54	0.47	`7.38	3.81	0.55	8.32	4.05	0.59
A3C	5.88	3.43	0.46	6.90	3.73	0.49	7.45	3.83	0.56
LVWG-A3C	5.13	3.28	0.43	6.11	3.52	0.46	7.22	3.76	0.52
IVWG-A3C	4.72	3.18	0.40	4.92	3.26	0.43	6.31	3.50	0.47

当采用LVWG-A3C算法时，与传统的A3C算法相比，在低、中、高流量下车辆的平均等待时间分别减少了14%、11%和3%，平均排队长度分别减少了4%、5%和2%，车辆的平均停车次数减少了6%、6%和7%. 当采用IVWG-A3C算法时，与传统的A3C算法相比，在低、中、高流量下车辆的平均等待时间分别减少了19%、28%和15%，平均排队长度分别减少了7%、12%和8%，车辆平均停车次数分别减少了13%、12%和16%.

实验结果表明，与传统基于DQN和A3C强化学习的交通信号控制方法相比，基于融合车辆权重网络A3C强化学习的交通信号控制方法展现了更好的控制效果. 其中，以基于交叉口级车辆权重增益的A3C强化学习算法表现最出色，该方法有助于交通信号系统更均匀地分配绿灯时间给所有车道. 降低某些车道出现过度拥堵的风险，同时确保其他车道能够保持通畅，进而减少整体的车辆等待时间. 综上所述，基于深度强化学习的交通信号控制算法在评价指标方面，以交叉口车辆平均等待时间、车辆平均排队长度和平均停车次数为例，明显优于传统的定时控制和模糊自适应控制方法. 相较于传统的DQN和A3C深度强化学习方法，本研究提出的基于车辆权重增益的交通信号控制算法表现更好，尤其是基于融合交叉口级车辆权重增益网络的IVWG-A3C强化学习方法表现最佳.

5. 结　语

本文提出融合车辆权重增益的深度强化学习交通信号控制方法，通过提前捕捉关键交通特征信息，提升深度神经网络在特征提取过程中的学习能力. 该方法的核心是利用车辆权重增益网络对不同运动状态的车辆通行优先级进行区分. 当某车道存在大量排队等待通行车辆时，智能体会更倾向于让该车道上的车辆优先通行，提高了交叉口的通行效率. 为了验证本文方法的有效性，基于微观交通仿真软件SUMO，采用不同方法，对单交叉口在低流量、中流量、高流量3种不同交通状态下进行交通信号控制时的控制效果进行仿真测试. 测试结果表明，与其他基线方法相比，所提LVWG-A3C方法和IVWG-A3C方法具有更好的控制效果.

所提方法主要是针对单个交叉口，且在强化学习模型构建和训练过程中，尚未考虑诸如极端天气、交通事故等异常交通场景下的交通状态信息. 为了提高所提方法的实用性，未来研究工作的重点是拓展所提方法去解决区域交通信号协调控制问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

YE B-L, WU W, RUAN K, et al

A survey of model predictive control methods for traffic signal control

[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6 (3): 623- 640

DOI:10.1109/JAS.2019.1911471 [本文引用: 1]

[2]

彭渠栩

优化双向“绿波带”关键路口控制参数算法的研究

[J]. 应用数学进展, 2023, 12 (2): 781

PENG Quxu

Research on the algorithm for optimizing the key intersection control parameters of two-way “Green Wave Belt”

[J]. Advances in Applied Mathematics, 2023, 12 (2): 781

DOI:10.11897/SP.J.1016.2019.01406 [本文引用: 1]

[3]

刘建伟, 高峰, 罗雄麟

基于值函数和策略梯度的深度强化学习综述

[J]. 计算机学报, 2019, 42 (6): 1406- 1438

LIU Jianwei, GAO Feng, LUO Xionglin

Review of deep reinforcement learning based on value functions and policy gradients

[J]. Chinese Journal of Computers, 2019, 42 (6): 1406- 1438

DOI:10.11897/SP.J.1016.2019.01406 [本文引用: 1]

[4]

刘义, 何均宏

强化学习在城市交通信号灯控制方法中的应用

[J]. 科技导报, 2019, 37 (6): 84- 90

LIU Yi, HE Junhong

application of reinforcement learning in city traffic signal control methods.

[J]. Science and Technology Review, 2019, 37 (6): 84- 90

[5]

FARID A, HUSSAIN F, KHAN K, et al

A fast and accurate real-time vehicle detection method using deep learning for unconstrained environments

[J]. Applied Sciences, 2023, 13 (5): 3059

DOI:10.3390/app13053059

[6]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533

DOI:10.1038/nature14236 [本文引用: 1]

[7]

WANG M, WU L, LI J, et al

Traffic signal control with reinforcement learning based on region-aware cooperative strategy

[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23 (7): 6774- 6785

[本文引用: 2]

[8]

WANG Z, YANG K, LI L, et al

Traffic signal priority control based on shared experience multi-agent deep reinforcement learning

[J]. IET Intelligent Transport Systems, 2023, 17 (7): 1363- 1379

[本文引用: 2]

[9]

MA D, ZHOU B, SONG X, et al

A deep reinforcement learning approach to traffic signal control with temporal traffic pattern mining

[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23 (8): 11789- 11800

[10]

BOUKTIF S, CHENIKI A, OUNI A

Traffic signal control using hybrid action space deep reinforcement learning

[J]. Sensors, 2021, 21 (7): 2302

DOI:10.3390/s21072302 [本文引用: 1]

[11]

CHU T, WANG J, CODECA L, et al

Multi-agent deep reinforcement learning for large-scale traffic signal control

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (3): 1086- 1095

[12]

刘智敏, 叶宝林, 朱耀东, 等

基于深度强化学习的交通信号控制方法

[J]. 浙江大学学报: 工学版, 2022, 56 (6): 1249- 1256

LIU Zhimin, YE Baolin, ZHU Yaodong, et al

Traffic signal control methods based on deep reinforcement learning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (6): 1249- 1256

[13]

WU T, ZHOU P, LIU K, et al

Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (8): 8243- 8256

DOI:10.1109/TVT.2020.2997896 [本文引用: 1]

[14]

赵乾, 张灵, 赵刚, 等

双环相位结构约束下的强化学习交通信号控制方法

[J]. 交通运输工程与信息学报, 2023, 21 (1): 19- 28

ZHAO Qian, ZHANG Ling, ZHAO Gang, et al

Reinforcement learning traffic signal control method under dual-ring phase structure constraints

[J]. Journal of Transportation Engineering and Information, 2023, 21 (1): 19- 28

[15]

王安麟, 孙晓龙, 钟馥声

一种基于通行优先度规则的城市交通信号自组织控制方法

[J]. 重庆交通大学学报: 自然科学版, 2018, 37 (2): 96

WANG Anlin, SUN Xiaolong, ZHONG Fusheng

A self-organized control method for urban traffic signals based on priority rules for passage

[J]. Journal of Chongqing Jiaotong University: Natural Science, 2018, 37 (2): 96