<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 强化学习决策引导下的可达集规划架构

Fig.1 Reachable set programming architecture guided by reinforcement learning decision

所提算法的输入为自车的当前状态、旁车的预测轨迹及各时刻位置分布. 其中，自车状态用于生成下一时刻的前向可达集；自车与旁车的位置及其不确定性分布则作为强化学习模型的输入，以输出行为决策. 整体规划流程如下. 1）通过自车上一时刻所选择的最优行驶区域集合计算当前时刻车辆的前向可达空间，同时基于上一时刻的自车和障碍物状态通过强化学习决策模型获得上一时刻的最优驾驶行为；2）基于前向可达空间以及车辆上一时刻驾驶行为进行基于驾驶语义的区域分割，将前向驾驶区域分割为代表不同驾驶语义的有限个可行驶空间；3）根据决策驾驶行为计算自车在本时刻的期望位置分布，据此计算自车处于每个可行驶区域的概率期望，并选取期望值最高的区域作为当前最优行驶区域；4）将本时刻的最优行驶区域及自车位置分布反馈至模型，用于迭代计算下一时刻的可达集与决策行为. 通过可达集规划输出驾驶走廊，即可完成凸空间的构建. 由于篇幅所限，在驾驶走廊内进行轨迹凸优化的具体求解过程请见文献[8].

2. 强化学习决策模型

抽象的行为决策主要依据每时刻的障碍物位置、速度、自身的位置、速度以及交通规则等信息，作出宏观的驾驶行为判断，从而引导车辆选择正确的驾驶行为^[17]. 根据行为决策的特点，采用DDQN（Double Deep Q-Leaning）强化学习算法选择离散的驾驶行为，并从状态空间、动作空间、奖励函数3个方面进行驾驶决策的MDP建模.

2.1. 状态空间

状态空间中包含智能汽车所需的自车信息以及周围旁车信息，表达式如下：

(1)$ \begin{split} {s_t} = &(x_{{i}}^t,y_{{i}}^t,{\mathrm{vx}}_{{i}}^t,{\mathrm{vy}}_{{i}}^t,\delta _{x{{i}}}^t,\delta _{y{{i}}}^t,x_{{n}}^t,y_{{n}}^t,{\rm{vx}}_{{n}}^t,{\rm{vy}}_{{n}}^t) ; \\ i = &{\text{host}},{\text{f}},{\text{b}},{\text{lf}},{\text{lb}},{\text{rf}},{\text{rb}} .\end{split} $

式中：$x_i^t、y_i^t、{\mathrm{vx}}_i^t、{\mathrm{vy}}_i^t$表示自车以及自车周围6辆车辆在t时刻的纵向位置、横向位置、纵向速度和横向速度，i=host, f, b, lf, lb, rf, rb，分别表示自车、正前、正后、左前、左后、右前、右后；$\delta _{x{{i}}}^t、\delta _{y{{i}}}^t$表示这7辆车在t时刻的横、纵向位置不确定度；$x_{{n}}^t、y_{{n}}^t、 {\rm{vx}}_{{n}}^t、{\rm{vy}}_{{n}}^t$分别表示自车观测到但并不位于自车周围的车辆的纵向位置、横向位置、纵向速度和横向速度，对于此类车辆将不会考虑其不确定度. 旁车信息是根据真实传感器进行收集，感知距离为150 m. 若某个位置的周围车辆不存在，则将其对应的$x_{{i}}^t$和$y_{{i}}^t$的值设为−1 m，${\rm{vx}}_{{i}}^t$和$ {\rm{vy}}_{{i}}^t $的值设为0 m/s.

2.2. 动作空间

考虑到宏观行为的可解释性，驾驶动作选择离散动作，分为纵向动作以及横向动作，表达式如下：

(2)$ {\boldsymbol{A}} = \left[ {{a_{{j}}},{\mathrm{Lcf}},{\mathrm{Lcr}}} \right];\;j = 1,2,3,4,5,6. $

式中：${a_{{j}}}$表示纵向期望加速度；Lcf、Lcr表示换道指令，分别表示左换道与右换道. 当自车选择换道动作时，假设车辆保持匀速，并在换道时长t_lc中不会再次选择新的换道动作. 此时，自车将自行选择纵向动作来调整换道过程中的车辆位置，当换道过程结束后自车才被允许选择新的换道动作.

2.3. 奖励函数

本研究MDP模型中的奖励函数主要由以下几个方面组成.

1）发生碰撞. 当智能汽车与其他车辆发生碰撞时，将立即终止当前回合并给予较大的负奖励，表达式如下：

(3)$ {R_{\mathrm{r}}} = - 300. $

2）安全性. 考虑TTC与THW这2个指标来对碰撞风险进行评估，各自对应的风险值定义表达式如下：

(4)$ {R_{{\mathrm{TTC}}}} = \left\{ {\begin{array}{*{20}{l}} 0,&{{{\mathrm{TTC}}_{{\mathrm{ref}}}} < {{\mathrm{TTC}}}}; \\ {0.5\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{2 < {{\mathrm{TTC}}} < {{{\mathrm{TTC}}}_{{{\mathrm{ref}}}}}}; \\ {\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{1 < {{\mathrm{TTC}}} < 2} ;\\ {2\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{0 < {{\mathrm{TTC}}} < 1} .\end{array}} \right. $

(5)$ \begin{split} &{R_{\rm{THW}}} =\\&\left\{ {\begin{array}{*{20}{l}} 0,&{2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}} \leqslant {{\mathrm{THW}}}}; \\ {0.5\left( {{{\mathrm{THW}}} - 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}} \right)}, &{{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}} \leqslant {{\mathrm{THW}}} < 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}}; \\ {{{\mathrm{THW}}} - 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}}, & {0 \leqslant {{\mathrm{THW}}} < {{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}} .\end{array}} \right.\end{split} $

式中：TTC为考虑2辆车继续按照当前的车速以及车道行驶发生碰撞的时间；THW为跟车时距，即自车与前车之间的时间间隔；${{\rm{TTC}}_{\rm{ref}}}$表示TTC的分段阈值，TTC越小，证明当前状态的风险越大，此时安全项的比重就应越大，${{\rm{THW}}_{\rm{ref}}}$同理. 这2个阈值的取值与自车和前车的位置不确定度有关，当自车和前车的不确定度越大，从安全性上考虑，此时驾驶行为应该更重视行驶安全，以防止由于环境的不确定性导致危险行为的发生. 因此，${{\rm{TTC}}_{\rm{ref}}}$和${{\rm{THW}}_{\rm{ref}}}$的取值表达式如下：

(6)$ {{\rm{TTC}}_{\rm{ref}}} = \min \left[ {\frac{3}{4}\left( {\delta _{x{{\mathrm{h}}}}^t+\delta _{x{{\mathrm{f}}}}^t} \right),4} \right], $

(7)$ {{\rm{THW}}_{\rm{ref}}} = \min \left[ {\frac{{0.75}}{4}\left( {\delta _{x{{\mathrm{h}}}}^t+\delta _{x{{\mathrm{f}}}}^t} \right),1} \right] .$

式中：$\delta _{x{{\mathrm{h}}}}^t$和$\delta _{x{\mathrm{f}}}^t$表示自车和前车的纵向不确定度，若自车前方没有车辆，$\delta _{x{{\mathrm{f}}}}^t$取0. 最终奖励函数中的安全项由2部分相加得出.

(8)$ {R_{\mathrm{s}}} = {R_{\rm{TTC}}}+{R_{\rm{THW}}}. $

3）期望速度. 智能汽车希望尽可能以期望车速行驶，因此期望车速项设置表达式如下：

(9)$ {R_{\mathrm{v}}} = - 3\left( {\frac{{\max\; \left( {{v_{{\mathrm{d}}}} - {v_{\rm{ego}}},\;0} \right)}}{{{v_{{\mathrm{d}}}}}}} \right). $

式中：${v_{\rm{ego}}}$为自车当前速度；${v_{{\rm{d}}}}$为自车期望速度，可以根据实际道路限速进行调整.

4）行驶舒适性. 过于频繁或者幅度过大的加减速会影响乘坐舒适性，同时为了避免不必要的换道，设定行驶舒适性指标表达式如下：

(10)$ R_{\mathrm{c}}=\left\{\begin{array}{ll}-0.2, & a=-4 \;{\mathrm{m}} / {\mathrm{s}}^2 ;\\ -0.15, & a= \pm 2\; {\mathrm{m}} / {\mathrm{s}}^2; \\ -0.1, & \text { Lcf或Lcr }; \\ 0, & \text { other action }.\end{array}\right. $

式中：$a$表示智能汽车选取的加速度. 综合以上4个方面，最终的奖励函数定义表达式如下：

(11)$ R = {R_{\mathrm{r}}}+{R_{\mathrm{s}}}+{R_{\mathrm{v}}}+{R_{\mathrm{c}}}. $

3. 基于驾驶语义的可行驶区域分割

在设计基于强化学习的行为决策模型的同时，也须对前向可达集产生的可行驶区域进行分割，从而为选择最优行驶区域提供备选区域集合. 在加入强化学习多步决策引导后，区域分割的主要任务是明确规划时域内的关键子任务并正确限制其边界. 对于关键子任务的含义和重要性，须结合每个时刻的车辆位置以及决策行为对驾驶行为语义进行分析. 驾驶行为语义是指车辆在当前环境中所期望实现的宏观驾驶目标，不依赖精确的数值设定，而侧重于描述车辆与道路结构、其他交通参与者之间的相对空间关系^[18-19].

3.1. 横向可行域分割

横向语义主要通过自车实际位置${s_0}$、车辆此时刻的期望位置${s_{\rm{de}}}$和决策行为action来确定在横向上的期望驾驶行为. 在横向的期望驾驶行为可分为保持当前车道行驶、向左换道以及向右换道3种类型，而在区域分割时则要将上述宏观、模糊的自然语言信息结合交通规则，通过逻辑化的模型进行定量描述. 本研究采用在智能交通合规性检测领域常用的谓词命题模型，将自然语言的驾驶语义转换为量化的逻辑判断. 谓词代表有限个客体服从的特定属性或者相对关系，是逻辑命题的引申和发展，通过谓词可以有效精简驾驶语义的命题空间，使命题结构清晰易于判别.

基于车辆横向驾驶行为所定义的谓词${{\mathrm{Inlanelets}}}({\mathrm{Ve}}{{\mathrm{h}}_{{i}}},\left\{ {{L_{{i}}},{L_{{j}}},\cdots } \right\})$，表示假设给定一组相邻车道，车辆${\mathrm{Ve}}{{\mathrm{h}}_{{i}}}$可同时占据道路集合$\left\{ {{L_{{i}}},{L_{{j}}},\cdots } \right\}$的连续空间这一命题. 通过对去除了危险区域的可行驶区域进行遍历采样并搜索，筛选出特定参数下满足横向谓词定义的区域. 对于不同的期望驾驶行为，须设定不同的谓词参数，如表1所示. 其中，${\rm{Ve}}{{\rm{h}}_0}$为主车，${L_0}$为主车当前所在车道；${L_1}$为主车左侧车道；${L_{ - 1}}$为主车右侧车道. 当决策行为为${a_{{j}}}$时，须首先检测${L_1}$、${L_{ - 1}}$车道是否存在. 经过搜索后可以得到一个基于横向行为筛选后的区域集合，以决策行为结果为向左换道为例，区域分割结果如图2所示.

表 1 横向需搜索的谓词

Tab.1 Required horizontal search predicates

决策出的驾驶行为	需搜索谓词
${a_{{j}}}$	${{\mathrm{if}}}{\mkern 1mu} {\mkern 1mu} {L_1}{\mkern 1mu} {\mkern 1mu} {\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_1}} \right\})$ ${\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_0}} \right\})$ ${{\mathrm{if}}}{\mkern 1mu} {\mkern 1mu} {L_{ - 1}}{\mkern 1mu} {\mkern 1mu} {\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_{ - 1}}} \right\})$
${\mathrm{Lcf}}$	$\begin{array}{*{20}{c}} {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_1},{L_0}))} \\ {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_1}))} \\ {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_0}))} \end{array}$
${\mathrm{Lcr}}$	$\begin{array}{*{20}{c}} {{\mathrm{{lnlanelets}}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_0},{L_1}} \right\})} \\ {{\mathrm{{Inlanelets}}}({\rm{Ve}}{{\rm{h}}_0},({L_{ - 1}}))} \\ {{\mathrm{{Inlanelets}}}({\rm{Ve}}{{\rm{h}}_0},({L_0}))} \end{array}$

图 2

图 2 横向语义分割结果示意图

Fig.2 Schematic diagram of horizontal semantic segmentation results

3.2. 纵向可行域分割

在横向语义模块将可达区域分割为有限个可行驶区域集合后，基于纵向意图对区域集合做进一步分割. 其中，纵向意图主要考虑与自车道车辆的相对位置，以及与潜在目标车道上旁车的相对位置. 纵向驾驶语义分割也分为2种情况：当目前车辆并没有处在换道过程中时，自车所在车道的区域划分考虑两侧车道的所有旁车；当目前车辆正处于换道过程中时，仅考虑本车道和目标车道的旁车. 对于和旁车的相对位置，采用3个谓词进行描述：${\rm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$、${\rm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$、${\rm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$. 其中，${\rm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$在${\rm{Ve}}{{\rm{h}}_{{j}}}$后方行驶；${\rm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$在${\rm{Ve}}{{\rm{h}}_{{j}}}$前方行驶；${\mathrm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$在${\rm{Ve}}{{\rm{h}}_{{j}}}$旁侧作并排行驶. 3个谓词的量化判据表达式如下：

(12)$ {\mathrm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{i}}} < {S_{{j}}} - \frac{{{\mathcal{L}_{j \rm{s}}}}}{2}, $

(13)$ {\mathrm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{i}}} > {S_{j}}+\frac{{{\mathcal{L}_{j \rm{s}}}}}{2}, $

(14)$ \begin{split} {\mathrm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},&{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{j}}} - \frac{{{\mathcal{L}_{j \rm{s}}}}}{2} < {S_{{i}}}< \\ & {S_{{j}}}+{\mathcal{L}_{j \rm{s}}} .\end{split} $

式中：${S_{i}}$为车辆${\rm{Ve}}{{\rm{h}}_{{i}}}$在Frenet坐标系下的纵坐标，$ {\mathcal{L}_{j \rm{s}}} $为${\rm{Ve}}{{\rm{h}}_j}$产生的危险区域的纵向长度. 在区域分割时，${\rm{Ve}}{{\rm{h}}_{{i}}}$设置为自车，${\rm{Ve}}{{\rm{h}}_{{j}}}$的选取分为2种情况：在自车处于换道过程中时，${\rm{Ve}}{{\rm{h}}_{{j}}}$为可达区域内自车道和换道目标车道上的所有旁车；在自车不处于换道过程中时，${\rm{Ve}}{{\rm{h}}_{{j}}}$为可达区域内自车道和相邻车道的所有旁车.

将横向语义区域分割得到的区域逐个输入进行遍历搜索，进一步分割出使得特定参数下满足纵向谓词定义的区域，以上节横向语义区域分割结果为例，决策行为依然为向左侧换道，最终的备选区域的分割结果如图3所示. 每个区域内的所有状态点均满足相同的谓语定义，以保证可行驶区域内驾驶语义的一致性.

图 3

图 3 最终分割区域示意图

Fig.3 Final partition area diagram

4. 驾驶走廊生成

在得到强化学习决策模型和基于驾驶语义的可行驶区域分割模型后，便可进行驾驶走廊的生成，并进一步在驾驶走廊内完成轨迹凸优化，具体流程如图4所示.

图 4

图 4 驾驶走廊生成流程

Fig.4 Drive corridor generation process

从初始状态开始，通过计算自车初始状态的前向可达集获得第1个时刻的可达区域. 通过初始状态得出第1个驾驶动作，得到驾驶行为之后在对可达区域进行分割的同时，要对自车的当前时刻的状态进行推算. 推算出的新状态与此时刻的旁车状态一起，作为下一次决策模型的输入量，也是这一时刻下最优行驶区域的选择依据.

自车状态推算分为纵向和横向2部分. 首先进行纵向部分计算，根据决策动作的加速度和当前纵向位置可得出：

(15)$ s_{t+1}^{\rm{h}} = s_t^{\rm{h}}+{\rm{vx}}_t^{\rm{h}}\Delta t+a_t^{\rm{h}}\Delta {t^2}. $

式中：$ s^{\mathrm{h}}_t$为自车在t时刻的纵坐标位置，$ {\mathrm{vx}}_t^{\mathrm{h}}$为自车在t时刻的实际纵向速度，$a_t^{\mathrm{h}} $为自车在t时刻的实际加速度。

横向位置基于自车当前的换道状态得出. 强化学习模型在输出一次换道动作后，认为在未来3 s内车辆会以固定横向速度完成换道动作. 但实际换道过程中的具体轨迹和换道速度须依据周围车辆的状态决定，横向位移$p_{t+1}^{\text{h}}$的计算表达式如下：

(16)$ \left. \begin{split}p_{t+1}^{\mathrm{h}}=&\min \left[p_{\text {start }}, p_t^{\mathrm{h}}+\frac{\left(p_{\text {end }}-p_t^{\mathrm{h}}\right)}{3-\text { changeT }}+\mu_{(v, k)}^{{\mathrm{l a t}}}\right], \\ &\text {action }=\text { Lcf或Lcr }; \\ p_{t+1}^{\mathrm{h}}=&p_t^{\mathrm{h}}+\min \left[0.3, \frac{\left(p_{L_0}-p_t^{\mathrm{h}}\right)}{3}\right], \\ &\text {action }=a_j.\end{split}\right\}$

式中：$\mu_{(v, k)}^{\text {lat }} $表示自车横向跟踪误差分布的均值；$p_{L_0} $表示自车在当前车道所处的初始位置；$ {{\mathrm{changeT}}} $为换道持续时长，范围为[0,3.0]；$ {p_{\rm{start}}} $与$ {p_{\rm{end}}} $为换道通道的起始边界，由自车的纵向位置$s_{t+1}^{\text{h}}$处2个车道的障碍物分布情况决定. 换道通道示意图如图5所示.

图 5

图 5 换道通道示意图

Fig.5 Change channel diagram

在得到车辆下一时刻的位置后，通过前3个时刻的自车状态计算下一时刻的自车的位置分布. 本研究通过3个位置点进行多项式拟合来得到自车在下一时刻的曲率和加速度，然后根据自车位置的二维高斯分计算其在每个备选区域内的期望值，并选取期望值最高的区域作为该时刻的最优行驶区域.

5. 实验结果

5.1. 动态不确定测试场景

设计了一个可随机生成交互式交通参与者的环形测试场景，并通过长时间测试结果的统计分析及典型corner case对比，验证所提出算法的有效性与鲁棒性. 如图6所示，直线路段总长为750 m，限速为15 m/s. 路中设置4个检查点，当主车经过检查点A、C时，会自动生成分布在3个车道的9辆动态车辆和2辆静态车辆和1个行人. 静态车辆的位置为随机生成，行人生成位置固定，并且以1 m/s的速度横穿马路. 动态车辆生成位置、初始速度、期望车速均为随机分布，并分别通过MOBIL（minimizing overall braking induced by lane-changes）和IDM（intelligent driver model）模型进行换道决策以及速度控制^[20-21].

图 6

图 6 动态不确定测试场景

Fig.6 Dynamic uncertain test scenario

测试场景随机变量分布的参数如表2所示. 为了更好地模拟上游环境传感器误差带来的影响，在Prescan中为主车搭建了1个激光雷达、6个环视摄像头和1个毫米波雷达，对周围最近的6个车辆和行人的位置、速度信息进行感知，如图6左侧所示.

表 2 测试场景随机变量分布参数

Tab.2 Random variable distribution parameters in test scenario

参数	随机变量
1）注：U表示随机变量服从区间( )上的均匀分布.
车辆初始位置（前）/m	$\begin{array}{*{20}{l}} {{{U}}(10,30)({\rm{checkpointA}})}^{1)}/ \\ {{{U}}(470,500)({\rm{checkpointC}})} \end{array}$
车辆初始位置（中）/m	$\begin{gathered} {{U}}(40,75)({\rm{checkpointA}})/ \\ {{U}}(510,545)({\rm{checkpointC}}) \\ \end{gathered} $
车辆初始位置（后）/m	$\begin{gathered} {{U}}(90,120)({\rm{checkpointA}})/ \\ {{U}}(560,590)({\rm{checkpointC}}) \\ \end{gathered} $
静止车辆初始位置/m	$ \begin{gathered} {{U(120,320)(}}{\rm{checkpointA}}{\text{)}}/ \\ {{U(590,760)(}}{\rm{checkpointC}}{\text{)}} \\ \end{gathered} $
静止车辆压线概率/%	$ 25$
车辆初始车速/(m·s⁻¹)	$U(6,15)$

5.2. 强化学习模型训练

为了便于针对上述场景开展强化学习决策模型的训练，在SUMO仿真平台中同样搭建了3车道直道，总共11辆旁车的训练环境. 其中，2辆静止车辆会在3个车道内随机刷新位置，而9辆动态车辆的初始速度和期望速度均为8~12 m/s的随机值，其驾驶行为由SUMO自带的IDM和LC2013模块控制. 最后，将第2章搭建的强化学习模型在该仿真场景下进行训练，将MDP建模中的换道时长和表征纵向动作的期望加速度分别设为3 s和[4，−2，−1，0，1，2] m/s²，而模型中超参数选取如表3所示.

表 3 强化学习模型的主要超参数

Tab.3 Main hyperparameters of RL models

参数名称	描述	参数值
隐藏层参数	各层神经元数	(256,128)
折扣系数	计算长期折扣奖励	0.99
探索系数	ε-贪心算法	1.0$\geqslant $0.02
学习率衰减率系数	学习率减小比例	0.8
最小学习率	学习率的最小值	0.00001
学习率衰减步	每隔一定训练步长减小学习率	20000
激活函数	增加神经网络的非线性	Relu
损失函数	计算拟合误差传播梯度	Huber-Loss
批量大小	单次训练抽取的样本数	32
软更新速率	目标网络更替系数	0.01
经验池尺寸	存储训练样本	100000
梯度截断	梯度传播最大值	10
网络优化器	梯度下降算法	Adam

基于DDQN的强化学习模型总共训练了100000回合，模型的平均累计奖励如图7所示. 其中，R为奖励，N为回合. 结果表明，在训练约 30 000 回合后，模型的平均累计奖励趋于收敛. 模型的平均速度如图8所示. 其中，$v $为速度. 车辆的平均速度在30000回合后也稳定在了约11 m/s，保证了智能汽车的行驶效率.

图 7

图 7 DDQN模型平均奖励训练结果

Fig.7 Average reward training results of DDQN model

图 8

图 8 DDQN模型平均速度训练结果

Fig.8 Average speed training results of DDQN model

5.3. 不确定场景测试结果

基于Prescan将所提出的算法与对比算法在动态不确定场景中总共运行8000 s，主车行驶76 km，车速基本保持在8~15 m/s，统计其中平均每1000 s的测试结果. 如表4所示给出了平均车速$\bar v$、自车减速度超过 3.5 m/s² 的危险行为次数${n_{{\text{d}}}}$、纵向加速度均方根值$ {a}_{\text{l},{\mathrm{RMS}}} $和求解耗时${t_{{\text{s}}}}$的对比结果. 可以看出，在平均1000 s的测试时间内，引入了强化学习的可达集规划算法的行驶效率比传统可达集算法方法高22.1%，比基于动态规划的可达集算法提高10.9%，而基于规则的MOBIL+IDM算法最为保守. 在每1000 s产生的危险行为次数方面，由于都考虑了场景不确定性，所提出的算法与基于动态规划的可达集在该项指标上接近，并在安全性上大幅优于其余2种传统算法. 在行驶舒适性方面，本研究算法相比传统可达集和基于动态规划的可达集分别提高了44.0%和6.4%.

表 4 动态不确定场景统计对比结果

Tab.4 Statistical comparison results of dynamic uncertain scenarios

方法	$\bar v/({\mathrm{m}} \cdot {\mathrm{s}}^{-1})$	$ {n}_{\text{d}}/次 $	$ {a}_{\text{l},{\mathrm{RMS}}}/({\mathrm{m}}\cdot {\mathrm{s}}^{-2}) $	${t_{\rm{s}}}/{\mathrm{m}} {\mathrm{s}}$
MOBIL+IDM^[20-21]	8.823	3.6	2.398 0	10
传统可达集^[22]	9.281	1.5	2.8405	286
基于动态规划的可达集^[8]	10.218	0.9	1.6986	860
基于强化学习的可达集	11.336	1.0	1.5896	280

除了证明强化学习决策引导的可达集规划算法针对动态不确定场景的有效性和鲁棒性之外，还统计了不同算法的实时性能. 将可达集算法在配备intel i7-9700 3 GHz CPU和16 GB DDR3内存的计算机上的Matlab2020和Visual Studio Code 2017中实现，统计结果表明，虽然计算时间仍有优化空间，但所提出的可达集算法的实时性优于其他可达集算法. 与基于动态规划的可达集方法相比，所提方法同样考虑了场景不确定性，但由于省略了风险概率计算，其求解速度提升了约2倍. 因此，从表4中可以得出基于强化学习的可达集算法在安全性、舒适性、通行效率和实时性4个维度具有更好的综合性能.

5.4. 典型场景测试结果

在完成长时测试的宏观统计后，提取其中一次随机产生过的典型Corner Case场景进行详细分析. 具体场景为三车道中两车道被静止车辆占据，自车须与其他动态车辆共用一条车道行驶，如图9所示.在第18 s时，自车在中间车道行驶，静止车辆分别停放在中间车道距自车125 m和右侧车道距自车100 m处. 动态旁车须通过左侧车道继续向前行驶，但旁车B由于已减速至低速，因此最终选择从2个静止车辆中间穿过，并未换道至左侧车道. 除此之外，左侧车道有2辆旁车C、A，自车后方20 m处有1辆旁车D在跟车行驶. 在第18 s，自车初速度为 8.5 m/s，其轨迹、速度变化以及与前车的车距变化如图10、11所示. 其中，t为时间. 从图中轨迹可以看出，自车在第21 s时开始向左换道，换道时长为3 s，并于第24 s 开始跟随前车行驶. 从速度曲线中可以看出，由于一开始道路被2个静止车辆影响，交通较为拥堵，自车一直处于较低车速. 但是在换道过程中和换道完成后自车一直处于加速状态，并在10 s内将车速回升到14 m/s，保证了交通效率. 从与前车的纵向距离曲线中可以看出，自车与前车车距始终大于37.5 m，车间时距为2.5 s，因此保证了车辆行驶安全性.

图 9

图 9 典型场景示意图

Fig.9 Typical scene diagram

图 10

图 10 典型场景下的轨迹和速度结果

Fig.10 Trajectory and velocity results under a typical scenario

图 11

图 11 典型场景下自车与前向车距结果

Fig.11 Results of forward vehicle distance from vehicle in a typical scenario

如图12所示为自车在第20 s生成的驾驶走廊以及规划轨迹结果. 可以看出，可达集算法可在强化学习决策的引导下规划出合理的驾驶走廊. 通过最终获得的三维时空轨迹可以看出，所提出的规划算法可以根据当前自车状态，在换道的同时，适当进行速度调整，从而在保证舒适性的前提下提高车辆的行驶效率.

图 12

图 12 典型场景下第21 s时的驾驶走廊

Fig.12 Driving corridor at 21 seconds in a typical scenario

6. 结　语

提出由强化学习多步决策引导的可达集算法框架，旨在提升传统可达集方法在动态不确定交通场景中的有效性与实时性. 该方法不仅引入基于离散动作空间的 DDQN 强化学习模型用于决策引导，还结合基于横纵向谓词判断的可行驶区域划分方法，有效降低了各时刻备选区域的数量，并提升了语义分割的准确性. 长时间随机测试结果表明，与其他2种可达集基线算法（传统可达集/基于动态规划的可达集）相比，所提出的强化学习引导的可达集算法在行驶效率上分别提升了22.1% 和10.9%，在行驶舒适性上分别提升了44.0% 和6.4%. 此外，该算法在动态不确定场景下亦表现出良好的安全性与实时性. 对测试过程中典型 Corner Case 场景的分析进一步验证了所提出算法在复杂交通环境中的鲁棒性与适应性，能在保证行驶安全的前提下兼顾通行效率，实现更为合理的轨迹规划结果.

本研究仅在单一场景下验证了可达集与强化学习结合的可行性，后续将考虑引入 Rainbow、DSAC（distributional soft actor-critic）等先进强化学习算法，以进一步提升算法在交叉路口、匝道、环岛等多类场景中的决策泛化能力与精度. 同时，还计划对算法进行工程化部署，集成至实车平台，与真实感知及执行系统协同工作，从而在实际道路环境中开展更加全面、真实的测试与验证.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

朱冰, 贾士政, 赵健, 等

自动驾驶车辆决策与规划研究综述

[J]. 中国公路学报, 2024, 37 (1): 215- 240

ZHU Bing, JIA Shizheng, ZHAO Jian, et al

Review of research on decision-making and planning for automated vehicles

[J]. China Journal of Highway and Transport, 2024, 37 (1): 215- 240

DOI:10.1016/j.conengprac.2023.105523 [本文引用: 1]

[2]

NÉMETH B, GÁSPÁR P

Hierarchical motion control strategies for handling interactions of automated vehicles

[J]. Control Engineering Practice, 2023, 136: 105523

[3]

XIONG L, ZHANG Y, LIU Y, et al

Integrated decision making and planning based on feasible region construction for autonomous vehicles considering prediction uncertainty

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (11): 4515- 4523

DOI:10.1109/TIV.2023.3299845 [本文引用: 1]

[4]

XIN L, KONG Y, LI S E, et al

Enable faster and smoother spatio-temporal trajectory planning for autonomous vehicles in constrained dynamic environment

[J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2021, 235 (4): 1101- 1112

DOI:10.1177/0954407020906627 [本文引用: 1]

[5]

MARTINEZ ROCAMORA B, PEREIRA G A S

Parallel sensor-space lattice planner for real-time obstacle avoidance

[J]. Sensors, 2022, 22 (13): 4770

DOI:10.3390/s22134770

[6]

MANZINGER S, PEK C, ALTHOFF M

Using reachable sets for trajectory planning of automated vehicles

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6 (2): 232- 248

DOI:10.1109/TIV.2020.3017342

[7]

HANG P, LV C, HUANG C, et al

An integrated framework of decision making and motion planning for autonomous vehicles considering social behaviors

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (12): 14458- 14469

DOI:10.1109/TVT.2020.3040398 [本文引用: 1]

[8]

ZHANG X, YANG B, PEI X, et al

Trajectory planning based on spatio-temporal reachable set considering dynamic probabilistic risk

[J]. Engineering Applications of Artificial Intelligence, 2023, 123: 106291

DOI:10.1016/j.engappai.2023.106291 [本文引用: 3]

[9]

SÖNTGES S, ALTHOFF M

Computing the drivable area of autonomous road vehicles in dynamic road scenes

[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19 (6): 1855- 1866

DOI:10.1109/TITS.2017.2742141 [本文引用: 1]

[10]

MASCETTA T, LIU E I, ALTHOFF M. Rule-compliant multi-agent driving corridor generation using reachable sets and combinatorial negotiations [C]// Proceedings of the IEEE Intelligent Vehicles Symposium. Jeju Island: IEEE, 2024: 1417–1423.

[11]

LERCHER F, ALTHOFF M. Specification-compliant reachability analysis for autonomous vehicles using on-the-fly model checking [C]// Proceedings of the IEEE Intelligent Vehicles Symposium. Jeju Island: IEEE, 2024: 1484–1491.

[12]

ZHU Z, ZHAO H

A survey of deep RL and IL for autonomous driving policy learning

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (9): 14043- 14065

DOI:10.1109/TITS.2021.3134702 [本文引用: 1]

[13]

DUAN J, EBEN LI S, GUAN Y, et al

Hierarchical reinforcement learning for self-driving decision-making without reliance on labelled driving data

[J]. IET Intelligent Transport Systems, 2020, 14 (5): 297- 305

DOI:10.1049/iet-its.2019.0317 [本文引用: 1]

[14]

TRAUTH R, HOBMEIER A, BETZ J. A reinforcement learning-boosted motion planning framework: comprehensive generalization performance in autonomous driving [EB/OL]. (2024-02-02)[2025-06-16]. https://arxiv.org/abs/2402.01465v1.

[15]

YU J, ARAB A, YI J, et al

Hierarchical framework integrating rapidly-exploring random tree with deep reinforcement learning for autonomous vehicle

[J]. Applied Intelligence, 2023, 53 (13): 16473- 16486

DOI:10.1007/s10489-022-04358-7

[16]

JAFARI R, ASHARI A E, HUBER M. CHAMP: integrated logic with reinforcement learning for hybrid decision making for autonomous vehicle planning [C]// Proceedings of the American Control Conference. San Diego: IEEE, 2023: 3310–3315.

[17]

CHEN D, JIANG L, WANG Y, et al. Autonomous driving using safe reinforcement learning by incorporating a regret-based human lane-changing decision model [C]// Proceedings of the American Control Conference. Denver: IEEE, 2020: 4355–4361.

[18]

ZHOU H, PEI X, LIU Y, et al. Trajectory planning for autonomous vehicles at urban intersections based on reachable sets [C]// IEEE Intelligent Vehicle Symposium. Cluj Napoca: IEEE, 2025: 1101–1107.