浙江大学学报(工学版), 2025, 59(9): 1996-2004 doi: 10.3785/j.issn.1008-973X.2025.09.023

交通工程

基于可达集和强化学习的智能汽车决策规划

高洪伟,, 尚秉旭, 张鑫康, 王洪峰, 何维, 裴晓飞,

1. 中国第一汽车集团有限公司研发总院,长春 130011

2. 武汉理工大学 汽车工程学院,湖北 武汉 430070

Decision-making and planning of intelligent vehicle based on reachable set and reinforcement learning

GAO Hongwei,, SHANG Bingxu, ZHANG Xinkang, WANG Hongfeng, HE Wei, PEI Xiaofei,

1. R&D Center, China FAW Group Corporation, Changchun 130011, China

2. School of Automotive Engineering, Wuhan University of Technology, Wuhan 430070, China

通讯作者: 裴晓飞,男,副教授. orcid.org/0000-0002-6619-7358. E-mail: peixiaofei7@163.com

收稿日期: 2024-08-27  

基金资助: 国家自然科学基金资助项目(52272426).

Received: 2024-08-27  

Fund supported: 国家自然科学基金资助项目(52272426).

作者简介 About authors

高洪伟(1982—),男,高级工程师,博士,从事智能汽车技术研究.orcid.org/0009-0007-7326-7143.E-mail:gaohongwei@faw.com.cn , E-mail:gaohongwei@faw.com.cn

摘要

针对传统可达集无法有效应对动态不确定场景下智能汽车与旁车之间的行为交互,且计算量过大的问题,提出结合可达集与强化学习的决策规划算法. 算法框架引入强化学习模型进行多步决策引导,明确规划时域内的连续宏观驾驶行为. 建立强化学习决策模型并进行马尔科夫决策过程(MDP)建模,设计状态空间、动作空间和奖励函数. 基于驾驶语义进行可行驶区域分割,引入横纵向行为谓词,通过先横向后纵向的二次分割将各时刻可达区域按照驾驶行为分割为有限个可行驶区域. 通过各时刻强化学习模型输出的动作推算自车位置确定最优行驶区域,形成驾驶走廊. 通过动态不确定场景下的长时循环测试统计和典型场景分析对比,验证所提出算法的有效性. 实验结果表明,与现有的可达集算法相比,所提算法在行驶效率、安全性、舒适性和实时性等方面综合性能更优.

关键词: 智能汽车 ; 轨迹规划 ; 可达集 ; 强化学习 ; 驾驶走廊

Abstract

A decision-making and planning algorithm integrating reachable sets with reinforcement learning (RL) was proposed to address the limitations of traditional reachable sets in effectively handling behavioral interactions between intelligent vehicles and adjacent vehicles in dynamic and uncertain environments, as well as excessive computational complexity. An RL model was incorporated into the algorithm framework to guide multi-step decision-making, clearly defining continuous macro driving behaviors over the planning horizon. Firstly, a reinforcement learning decision model was established and formulated as a Markov decision process (MDP), with state space, action space, and reward function designed. Secondly, feasible driving regions were partitioned based on driving semantics. Lateral and longitudinal behavioral predicates were introduced to segment reachable regions at each time step into finite feasible areas via a two-stage (lateral-first, then longitudinal) segmentation. Finally, the ego vehicle’s position was predicted from RL model outputs to determine optimal driving regions and form a driving corridor. The proposed algorithm’s effectiveness was validated through long-duration cyclic tests in dynamic and uncertain scenarios and comparative analysis of typical cases. Experimental results demonstrated that, compared with existing reachable set algorithms, the proposed method achieved better overall performance in enhancing driving efficiency and ensuring safety, comfort, and real-time responsiveness.

Keywords: intelligent vehicle ; trajectory planning ; reachable set ; reinforcement learning ; driving corridor

PDF (1946KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

高洪伟, 尚秉旭, 张鑫康, 王洪峰, 何维, 裴晓飞. 基于可达集和强化学习的智能汽车决策规划. 浙江大学学报(工学版)[J], 2025, 59(9): 1996-2004 doi:10.3785/j.issn.1008-973X.2025.09.023

GAO Hongwei, SHANG Bingxu, ZHANG Xinkang, WANG Hongfeng, HE Wei, PEI Xiaofei. Decision-making and planning of intelligent vehicle based on reachable set and reinforcement learning. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1996-2004 doi:10.3785/j.issn.1008-973X.2025.09.023

当前高级别智能汽车在动态不确定及强交互交通流中,还存在驾驶行为过于保守,人工接管率高的问题,其避撞动作不平滑甚至存在安全隐患. 智能汽车在复杂环境下进行决策规划时智慧程度不高,这是其落地难的瓶颈之一 [1]. 鉴于此,中国汽车工程学会发布的未来3~5 a十大前沿技术中即包含了基于模型和学习的融合型规划算法. 目前以特斯拉、百度为代表的许多研究都围绕融合规划框架展开[2-3],旨在满足智能汽车在安全性、舒适性、效率性等方面的性能需求.

智能汽车的轨迹规划理论起源于移动机器人领域,通常采用路径-速度解耦的规划方法. 在动态不确定场景下,传统速度-路径分步规划存在横/纵向运动耦合性差、第1步规划结果对后续规划产生不合理局限的问题. 因此,时空耦合的规划方法正逐渐成为车载应用的主流技术方向. 时空耦合轨迹规划在X-Y-T三维坐标系下开展,其方法体系主要分为基于采样、搜索、集合和学习的4大类[4-7]. 搜索类(如时空A、Hybrid A)速度快但依赖目标点;采样类(如RRT*、晶格规划)效率高但轨迹平滑性差;集合类利用可达集结合车辆动力学,但路径搜索复杂;学习类(如强化学习、模仿学习)决策灵活,但可解释性与泛化能力不足.

文献[8]的研究表明,可达集方法适用于动态不确定的结构化场景. 该方法通过车辆运动模型计算时空可达状态集,在最后时刻选择最优行驶区域,基于后向可达集生成驾驶走廊[9]. 然而,基于可达集的传统方法本质上属于被动反应式规划,因忽视整体交通效率常导致保守驾驶行为,进而造成交通拥堵. 近来可达集的发展趋势是采用更多的场景语义信息[10-11]. 在复杂场景下,为了提升智能体与其他交通参与者的行为交互能力,常采用基于学习的决策规划算法. 其中,模仿学习多用于端到端规划构型;而考虑到安全性和可解释性,强化学习更适合分层架构中的行为决策[12]. 强化学习在智能体与环境的交互中寻找一种状态到动作的映射,通过试错最大化长期奖励达到学习的目的,其基础模型框架是马尔科夫决策过程(Markov decision process, MDP). 基于强化学习的决策模型可在强交互场景下输出安全高效的宏观驾驶行为[13],并作为生成驾驶走廊的重要启发信息. 然而,其不具备明确的时间信息,难以为路径规划提供高质量的启发函数与边界约束,故当前研究趋势是将强化学习与规则型方法融合[14-16].

传统可达集方法通常包括4个步骤:前向可达集生成、可行驶区域分割、驾驶走廊生成、轨迹优化. 本研究针对区域分割与走廊生成环节进行优化,即避免过多的划分子集和对子集的计算处理,从而避免同一种行为下的子集过多;利用多步强化学习决策明确关键行为的时间帧,以更准确地生成驾驶走廊. 本研究的主要贡献在于将强化学习和可达集方法相结合,将强化学习预训练的结果作为先验知识,通过横纵向语义谓词实现可行域的高效分割,从而在动态不确定场景中生成更优驾驶走廊并提升计算效率. 相比于单一规划方法,本研究首次提出基于集合+学习的融合型决策规划框架,充分发挥两者的优点,一方面利用强化学习模型的多步决策引导可达集规划,避免现有可达集方法在驾驶走廊生成过程中的保守和低效;另一方面,可达集的轨迹优化过程为上层强化学习的行为决策提供安全校验,从而使决策规划算法更好地满足安全性、舒适性、高效性和实时性等综合性能要求.

1. 结合强化学习的可达集总体框架

强化学习多步决策结合可达集时空耦合规划的算法架构如图1所示. 该算法由考虑不确定性的强化学习决策和基于驾驶语义的行驶区域划分2个部分组成,两者都有各自的控制闭环并且共同决定驾驶走廊的生成. 其中,强化学习决策模块基于每一时刻的车辆状态(包括位置、速度及不确定性等),进行自车行为决策,输出离散驾驶动作,决定车辆的宏观运动意图. 行驶区域划分模块则根据不同行为语义,将当前可达区域细分为多个具有驾驶语义的凸空间,为最优区域的选择提供候选集合.

图 1

图 1   强化学习决策引导下的可达集规划架构

Fig.1   Reachable set programming architecture guided by reinforcement learning decision


所提算法的输入为自车的当前状态、旁车的预测轨迹及各时刻位置分布. 其中,自车状态用于生成下一时刻的前向可达集;自车与旁车的位置及其不确定性分布则作为强化学习模型的输入,以输出行为决策. 整体规划流程如下. 1)通过自车上一时刻所选择的最优行驶区域集合计算当前时刻车辆的前向可达空间,同时基于上一时刻的自车和障碍物状态通过强化学习决策模型获得上一时刻的最优驾驶行为;2)基于前向可达空间以及车辆上一时刻驾驶行为进行基于驾驶语义的区域分割,将前向驾驶区域分割为代表不同驾驶语义的有限个可行驶空间;3)根据决策驾驶行为计算自车在本时刻的期望位置分布,据此计算自车处于每个可行驶区域的概率期望,并选取期望值最高的区域作为当前最优行驶区域;4)将本时刻的最优行驶区域及自车位置分布反馈至模型,用于迭代计算下一时刻的可达集与决策行为. 通过可达集规划输出驾驶走廊,即可完成凸空间的构建. 由于篇幅所限,在驾驶走廊内进行轨迹凸优化的具体求解过程请见文献[8].

2. 强化学习决策模型

抽象的行为决策主要依据每时刻的障碍物位置、速度、自身的位置、速度以及交通规则等信息,作出宏观的驾驶行为判断,从而引导车辆选择正确的驾驶行为[17]. 根据行为决策的特点,采用DDQN(Double Deep Q-Leaning)强化学习算法选择离散的驾驶行为,并从状态空间、动作空间、奖励函数3个方面进行驾驶决策的MDP建模.

2.1. 状态空间

状态空间中包含智能汽车所需的自车信息以及周围旁车信息,表达式如下:

$ \begin{split} {s_t} = &(x_{{i}}^t,y_{{i}}^t,{\mathrm{vx}}_{{i}}^t,{\mathrm{vy}}_{{i}}^t,\delta _{x{{i}}}^t,\delta _{y{{i}}}^t,x_{{n}}^t,y_{{n}}^t,{\rm{vx}}_{{n}}^t,{\rm{vy}}_{{n}}^t) ; \\ i = &{\text{host}},{\text{f}},{\text{b}},{\text{lf}},{\text{lb}},{\text{rf}},{\text{rb}} .\end{split} $

式中:$x_i^t、y_i^t、{\mathrm{vx}}_i^t、{\mathrm{vy}}_i^t$表示自车以及自车周围6辆车辆在t时刻的纵向位置、横向位置、纵向速度和横向速度,i=host, f, b, lf, lb, rf, rb,分别表示自车、正前、正后、左前、左后、右前、右后;$\delta _{x{{i}}}^t、\delta _{y{{i}}}^t$表示这7辆车在t时刻的横、纵向位置不确定度;$x_{{n}}^t、y_{{n}}^t、 {\rm{vx}}_{{n}}^t、{\rm{vy}}_{{n}}^t$分别表示自车观测到但并不位于自车周围的车辆的纵向位置、横向位置、纵向速度和横向速度,对于此类车辆将不会考虑其不确定度. 旁车信息是根据真实传感器进行收集,感知距离为150 m. 若某个位置的周围车辆不存在,则将其对应的$x_{{i}}^t$$y_{{i}}^t$的值设为−1 m,${\rm{vx}}_{{i}}^t$$ {\rm{vy}}_{{i}}^t $的值设为0 m/s.

2.2. 动作空间

考虑到宏观行为的可解释性,驾驶动作选择离散动作,分为纵向动作以及横向动作,表达式如下:

$ {\boldsymbol{A}} = \left[ {{a_{{j}}},{\mathrm{Lcf}},{\mathrm{Lcr}}} \right];\;j = 1,2,3,4,5,6. $

式中:${a_{{j}}}$表示纵向期望加速度;Lcf、Lcr表示换道指令,分别表示左换道与右换道. 当自车选择换道动作时,假设车辆保持匀速,并在换道时长tlc中不会再次选择新的换道动作. 此时,自车将自行选择纵向动作来调整换道过程中的车辆位置,当换道过程结束后自车才被允许选择新的换道动作.

2.3. 奖励函数

本研究MDP模型中的奖励函数主要由以下几个方面组成.

1)发生碰撞. 当智能汽车与其他车辆发生碰撞时,将立即终止当前回合并给予较大的负奖励,表达式如下:

$ {R_{\mathrm{r}}} = - 300. $

2)安全性. 考虑TTC与THW这2个指标来对碰撞风险进行评估,各自对应的风险值定义表达式如下:

$ {R_{{\mathrm{TTC}}}} = \left\{ {\begin{array}{*{20}{l}} 0,&{{{\mathrm{TTC}}_{{\mathrm{ref}}}} < {{\mathrm{TTC}}}}; \\ {0.5\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{2 < {{\mathrm{TTC}}} < {{{\mathrm{TTC}}}_{{{\mathrm{ref}}}}}}; \\ {\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{1 < {{\mathrm{TTC}}} < 2} ;\\ {2\left( {{\mathrm{TTC}} - {{\mathrm{TTC}}_{{\mathrm{ref}}}}} \right)},&{0 < {{\mathrm{TTC}}} < 1} .\end{array}} \right. $

$ \begin{split} &{R_{\rm{THW}}} =\\&\left\{ {\begin{array}{*{20}{l}} 0,&{2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}} \leqslant {{\mathrm{THW}}}}; \\ {0.5\left( {{{\mathrm{THW}}} - 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}} \right)}, &{{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}} \leqslant {{\mathrm{THW}}} < 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}}; \\ {{{\mathrm{THW}}} - 2{{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}}, & {0 \leqslant {{\mathrm{THW}}} < {{\mathrm{TH}}}{{{\mathrm{W}}}_{{{\mathrm{ref}}}}}} .\end{array}} \right.\end{split} $

式中:TTC为考虑2辆车继续按照当前的车速以及车道行驶发生碰撞的时间;THW为跟车时距,即自车与前车之间的时间间隔;${{\rm{TTC}}_{\rm{ref}}}$表示TTC的分段阈值,TTC越小,证明当前状态的风险越大,此时安全项的比重就应越大,${{\rm{THW}}_{\rm{ref}}}$同理. 这2个阈值的取值与自车和前车的位置不确定度有关,当自车和前车的不确定度越大,从安全性上考虑,此时驾驶行为应该更重视行驶安全,以防止由于环境的不确定性导致危险行为的发生. 因此,${{\rm{TTC}}_{\rm{ref}}}$${{\rm{THW}}_{\rm{ref}}}$的取值表达式如下:

$ {{\rm{TTC}}_{\rm{ref}}} = \min \left[ {\frac{3}{4}\left( {\delta _{x{{\mathrm{h}}}}^t+\delta _{x{{\mathrm{f}}}}^t} \right),4} \right], $

$ {{\rm{THW}}_{\rm{ref}}} = \min \left[ {\frac{{0.75}}{4}\left( {\delta _{x{{\mathrm{h}}}}^t+\delta _{x{{\mathrm{f}}}}^t} \right),1} \right] .$

式中:$\delta _{x{{\mathrm{h}}}}^t$$\delta _{x{\mathrm{f}}}^t$表示自车和前车的纵向不确定度,若自车前方没有车辆,$\delta _{x{{\mathrm{f}}}}^t$取0. 最终奖励函数中的安全项由2部分相加得出.

$ {R_{\mathrm{s}}} = {R_{\rm{TTC}}}+{R_{\rm{THW}}}. $

3)期望速度. 智能汽车希望尽可能以期望车速行驶,因此期望车速项设置表达式如下:

$ {R_{\mathrm{v}}} = - 3\left( {\frac{{\max\; \left( {{v_{{\mathrm{d}}}} - {v_{\rm{ego}}},\;0} \right)}}{{{v_{{\mathrm{d}}}}}}} \right). $

式中:${v_{\rm{ego}}}$为自车当前速度;${v_{{\rm{d}}}}$为自车期望速度,可以根据实际道路限速进行调整.

4)行驶舒适性. 过于频繁或者幅度过大的加减速会影响乘坐舒适性,同时为了避免不必要的换道,设定行驶舒适性指标表达式如下:

$ R_{\mathrm{c}}=\left\{\begin{array}{ll}-0.2, & a=-4 \;{\mathrm{m}} / {\mathrm{s}}^2 ;\\ -0.15, & a= \pm 2\; {\mathrm{m}} / {\mathrm{s}}^2; \\ -0.1, & \text { Lcf或Lcr }; \\ 0, & \text { other action }.\end{array}\right. $

式中:$a$表示智能汽车选取的加速度. 综合以上4个方面,最终的奖励函数定义表达式如下:

$ R = {R_{\mathrm{r}}}+{R_{\mathrm{s}}}+{R_{\mathrm{v}}}+{R_{\mathrm{c}}}. $

3. 基于驾驶语义的可行驶区域分割

在设计基于强化学习的行为决策模型的同时,也须对前向可达集产生的可行驶区域进行分割,从而为选择最优行驶区域提供备选区域集合. 在加入强化学习多步决策引导后,区域分割的主要任务是明确规划时域内的关键子任务并正确限制其边界. 对于关键子任务的含义和重要性,须结合每个时刻的车辆位置以及决策行为对驾驶行为语义进行分析. 驾驶行为语义是指车辆在当前环境中所期望实现的宏观驾驶目标,不依赖精确的数值设定,而侧重于描述车辆与道路结构、其他交通参与者之间的相对空间关系[18-19].

3.1. 横向可行域分割

横向语义主要通过自车实际位置${s_0}$、车辆此时刻的期望位置${s_{\rm{de}}}$和决策行为action来确定在横向上的期望驾驶行为. 在横向的期望驾驶行为可分为保持当前车道行驶、向左换道以及向右换道3种类型,而在区域分割时则要将上述宏观、模糊的自然语言信息结合交通规则,通过逻辑化的模型进行定量描述. 本研究采用在智能交通合规性检测领域常用的谓词命题模型,将自然语言的驾驶语义转换为量化的逻辑判断. 谓词代表有限个客体服从的特定属性或者相对关系,是逻辑命题的引申和发展,通过谓词可以有效精简驾驶语义的命题空间,使命题结构清晰易于判别.

基于车辆横向驾驶行为所定义的谓词${{\mathrm{Inlanelets}}}({\mathrm{Ve}}{{\mathrm{h}}_{{i}}},\left\{ {{L_{{i}}},{L_{{j}}},\cdots } \right\})$,表示假设给定一组相邻车道,车辆${\mathrm{Ve}}{{\mathrm{h}}_{{i}}}$可同时占据道路集合$\left\{ {{L_{{i}}},{L_{{j}}},\cdots } \right\}$的连续空间这一命题. 通过对去除了危险区域的可行驶区域进行遍历采样并搜索,筛选出特定参数下满足横向谓词定义的区域. 对于不同的期望驾驶行为,须设定不同的谓词参数,如表1所示. 其中,${\rm{Ve}}{{\rm{h}}_0}$为主车,${L_0}$为主车当前所在车道;${L_1}$为主车左侧车道;${L_{ - 1}}$为主车右侧车道. 当决策行为为${a_{{j}}}$时,须首先检测${L_1}$${L_{ - 1}}$车道是否存在. 经过搜索后可以得到一个基于横向行为筛选后的区域集合,以决策行为结果为向左换道为例,区域分割结果如图2所示.

表 1   横向需搜索的谓词

Tab.1  Required horizontal search predicates

决策出的驾驶行为需搜索谓词
${a_{{j}}}$${{\mathrm{if}}}{\mkern 1mu} {\mkern 1mu} {L_1}{\mkern 1mu} {\mkern 1mu} {\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_1}} \right\})$
${\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_0}} \right\})$
${{\mathrm{if}}}{\mkern 1mu} {\mkern 1mu} {L_{ - 1}}{\mkern 1mu} {\mkern 1mu} {\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_{ - 1}}} \right\})$
${\mathrm{Lcf}}$$\begin{array}{*{20}{c}} {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_1},{L_0}))} \\ {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_1}))} \\ {{\rm{Inlanelets}}({\rm{Ve}}{{\rm{h}}_0},({L_0}))} \end{array}$
${\mathrm{Lcr}}$$\begin{array}{*{20}{c}} {{\mathrm{{lnlanelets}}}({\rm{Ve}}{{\rm{h}}_0},\left\{ {{L_0},{L_1}} \right\})} \\ {{\mathrm{{Inlanelets}}}({\rm{Ve}}{{\rm{h}}_0},({L_{ - 1}}))} \\ {{\mathrm{{Inlanelets}}}({\rm{Ve}}{{\rm{h}}_0},({L_0}))} \end{array}$

新窗口打开| 下载CSV


图 2

图 2   横向语义分割结果示意图

Fig.2   Schematic diagram of horizontal semantic segmentation results


3.2. 纵向可行域分割

在横向语义模块将可达区域分割为有限个可行驶区域集合后,基于纵向意图对区域集合做进一步分割. 其中,纵向意图主要考虑与自车道车辆的相对位置,以及与潜在目标车道上旁车的相对位置. 纵向驾驶语义分割也分为2种情况:当目前车辆并没有处在换道过程中时,自车所在车道的区域划分考虑两侧车道的所有旁车;当目前车辆正处于换道过程中时,仅考虑本车道和目标车道的旁车. 对于和旁车的相对位置,采用3个谓词进行描述:${\rm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$${\rm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$${\rm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$. 其中,${\rm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$${\rm{Ve}}{{\rm{h}}_{{j}}}$后方行驶;${\rm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$${\rm{Ve}}{{\rm{h}}_{{j}}}$前方行驶;${\mathrm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}})$表示${\rm{Ve}}{{\rm{h}}_{{i}}}$${\rm{Ve}}{{\rm{h}}_{{j}}}$旁侧作并排行驶. 3个谓词的量化判据表达式如下:

$ {\mathrm{behind}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{i}}} < {S_{{j}}} - \frac{{{\mathcal{L}_{j \rm{s}}}}}{2}, $

$ {\mathrm{drivefaster}}({\rm{Ve}}{{\rm{h}}_{{i}}},{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{i}}} > {S_{j}}+\frac{{{\mathcal{L}_{j \rm{s}}}}}{2}, $

$ \begin{split} {\mathrm{driveby}}({\rm{Ve}}{{\rm{h}}_{{i}}},&{\rm{Ve}}{{\rm{h}}_{{j}}}) \Leftrightarrow {S_{{j}}} - \frac{{{\mathcal{L}_{j \rm{s}}}}}{2} < {S_{{i}}}< \\ & {S_{{j}}}+{\mathcal{L}_{j \rm{s}}} .\end{split} $

式中:${S_{i}}$为车辆${\rm{Ve}}{{\rm{h}}_{{i}}}$在Frenet坐标系下的纵坐标,$ {\mathcal{L}_{j \rm{s}}} $${\rm{Ve}}{{\rm{h}}_j}$产生的危险区域的纵向长度. 在区域分割时,${\rm{Ve}}{{\rm{h}}_{{i}}}$设置为自车,${\rm{Ve}}{{\rm{h}}_{{j}}}$的选取分为2种情况:在自车处于换道过程中时,${\rm{Ve}}{{\rm{h}}_{{j}}}$为可达区域内自车道和换道目标车道上的所有旁车;在自车不处于换道过程中时,${\rm{Ve}}{{\rm{h}}_{{j}}}$为可达区域内自车道和相邻车道的所有旁车.

将横向语义区域分割得到的区域逐个输入进行遍历搜索,进一步分割出使得特定参数下满足纵向谓词定义的区域,以上节横向语义区域分割结果为例,决策行为依然为向左侧换道,最终的备选区域的分割结果如图3所示. 每个区域内的所有状态点均满足相同的谓语定义,以保证可行驶区域内驾驶语义的一致性.

图 3

图 3   最终分割区域示意图

Fig.3   Final partition area diagram


4. 驾驶走廊生成

在得到强化学习决策模型和基于驾驶语义的可行驶区域分割模型后,便可进行驾驶走廊的生成,并进一步在驾驶走廊内完成轨迹凸优化,具体流程如图4所示.

图 4

图 4   驾驶走廊生成流程

Fig.4   Drive corridor generation process


从初始状态开始,通过计算自车初始状态的前向可达集获得第1个时刻的可达区域. 通过初始状态得出第1个驾驶动作,得到驾驶行为之后在对可达区域进行分割的同时,要对自车的当前时刻的状态进行推算. 推算出的新状态与此时刻的旁车状态一起,作为下一次决策模型的输入量,也是这一时刻下最优行驶区域的选择依据.

自车状态推算分为纵向和横向2部分. 首先进行纵向部分计算,根据决策动作的加速度和当前纵向位置可得出:

$ s_{t+1}^{\rm{h}} = s_t^{\rm{h}}+{\rm{vx}}_t^{\rm{h}}\Delta t+a_t^{\rm{h}}\Delta {t^2}. $

式中:$ s^{\mathrm{h}}_t$为自车在t时刻的纵坐标位置,$ {\mathrm{vx}}_t^{\mathrm{h}}$为自车在t时刻的实际纵向速度,$a_t^{\mathrm{h}} $为自车在t时刻的实际加速度。

横向位置基于自车当前的换道状态得出. 强化学习模型在输出一次换道动作后,认为在未来3 s内车辆会以固定横向速度完成换道动作. 但实际换道过程中的具体轨迹和换道速度须依据周围车辆的状态决定,横向位移$p_{t+1}^{\text{h}}$的计算表达式如下:

$ \left. \begin{split}p_{t+1}^{\mathrm{h}}=&\min \left[p_{\text {start }}, p_t^{\mathrm{h}}+\frac{\left(p_{\text {end }}-p_t^{\mathrm{h}}\right)}{3-\text { changeT }}+\mu_{(v, k)}^{{\mathrm{l a t}}}\right], \\ &\text {action }=\text { Lcf或Lcr }; \\ p_{t+1}^{\mathrm{h}}=&p_t^{\mathrm{h}}+\min \left[0.3, \frac{\left(p_{L_0}-p_t^{\mathrm{h}}\right)}{3}\right], \\ &\text {action }=a_j.\end{split}\right\}$

式中:$\mu_{(v, k)}^{\text {lat }} $表示自车横向跟踪误差分布的均值;$p_{L_0} $表示自车在当前车道所处的初始位置;$ {{\mathrm{changeT}}} $为换道持续时长,范围为[0,3.0];$ {p_{\rm{start}}} $$ {p_{\rm{end}}} $为换道通道的起始边界,由自车的纵向位置$s_{t+1}^{\text{h}}$处2个车道的障碍物分布情况决定. 换道通道示意图如图5所示.

图 5

图 5   换道通道示意图

Fig.5   Change channel diagram


在得到车辆下一时刻的位置后,通过前3个时刻的自车状态计算下一时刻的自车的位置分布. 本研究通过3个位置点进行多项式拟合来得到自车在下一时刻的曲率和加速度,然后根据自车位置的二维高斯分计算其在每个备选区域内的期望值,并选取期望值最高的区域作为该时刻的最优行驶区域.

5. 实验结果

5.1. 动态不确定测试场景

设计了一个可随机生成交互式交通参与者的环形测试场景,并通过长时间测试结果的统计分析及典型corner case对比,验证所提出算法的有效性与鲁棒性. 如图6所示,直线路段总长为750 m,限速为15 m/s. 路中设置4个检查点,当主车经过检查点A、C时,会自动生成分布在3个车道的9辆动态车辆和2辆静态车辆和1个行人. 静态车辆的位置为随机生成,行人生成位置固定,并且以1 m/s的速度横穿马路. 动态车辆生成位置、初始速度、期望车速均为随机分布,并分别通过MOBIL(minimizing overall braking induced by lane-changes)和IDM(intelligent driver model)模型进行换道决策以及速度控制[20-21].

图 6

图 6   动态不确定测试场景

Fig.6   Dynamic uncertain test scenario


测试场景随机变量分布的参数如表2所示. 为了更好地模拟上游环境传感器误差带来的影响,在Prescan中为主车搭建了1个激光雷达、6个环视摄像头和1个毫米波雷达,对周围最近的6个车辆和行人的位置、速度信息进行感知,如图6左侧所示.

表 2   测试场景随机变量分布参数

Tab.2  Random variable distribution parameters in test scenario

参数随机变量
1)注:U表示随机变量服从区间( )上的均匀分布.
车辆初始位置(前)/m$\begin{array}{*{20}{l}} {{{U}}(10,30)({\rm{checkpointA}})}^{1)}/ \\ {{{U}}(470,500)({\rm{checkpointC}})} \end{array}$
车辆初始位置(中)/m$\begin{gathered} {{U}}(40,75)({\rm{checkpointA}})/ \\ {{U}}(510,545)({\rm{checkpointC}}) \\ \end{gathered} $
车辆初始位置(后)/m$\begin{gathered} {{U}}(90,120)({\rm{checkpointA}})/ \\ {{U}}(560,590)({\rm{checkpointC}}) \\ \end{gathered} $
静止车辆初始位置/m$ \begin{gathered} {{U(120,320)(}}{\rm{checkpointA}}{\text{)}}/ \\ {{U(590,760)(}}{\rm{checkpointC}}{\text{)}} \\ \end{gathered} $
静止车辆压线概率/%$ 25$
车辆初始车速/(m·s−1)$U(6,15)$

新窗口打开| 下载CSV


5.2. 强化学习模型训练

为了便于针对上述场景开展强化学习决策模型的训练,在SUMO仿真平台中同样搭建了3车道直道,总共11辆旁车的训练环境. 其中,2辆静止车辆会在3个车道内随机刷新位置,而9辆动态车辆的初始速度和期望速度均为8~12 m/s的随机值,其驾驶行为由SUMO自带的IDM和LC2013模块控制. 最后,将第2章搭建的强化学习模型在该仿真场景下进行训练,将MDP建模中的换道时长和表征纵向动作的期望加速度分别设为3 s和[4,−2,−1,0,1,2] m/s2,而模型中超参数选取如表3所示.

表 3   强化学习模型的主要超参数

Tab.3  Main hyperparameters of RL models

参数名称描述参数值
隐藏层参数各层神经元数(256,128)
折扣系数计算长期折扣奖励0.99
探索系数ε-贪心算法1.0$\geqslant $0.02
学习率衰减率系数学习率减小比例0.8
最小学习率学习率的最小值0.00001
学习率衰减步每隔一定训练步长减小学习率20000
激活函数增加神经网络的非线性Relu
损失函数计算拟合误差传播梯度Huber-Loss
批量大小单次训练抽取的样本数32
软更新速率目标网络更替系数0.01
经验池尺寸存储训练样本100000
梯度截断梯度传播最大值10
网络优化器梯度下降算法Adam

新窗口打开| 下载CSV


基于DDQN的强化学习模型总共训练了100000回合,模型的平均累计奖励如图7所示. 其中,R为奖励,N为回合. 结果表明,在训练约 30 000 回合后,模型的平均累计奖励趋于收敛. 模型的平均速度如图8所示. 其中,$v $为速度. 车辆的平均速度在30000回合后也稳定在了约11 m/s,保证了智能汽车的行驶效率.

图 7

图 7   DDQN模型平均奖励训练结果

Fig.7   Average reward training results of DDQN model


图 8

图 8   DDQN模型平均速度训练结果

Fig.8   Average speed training results of DDQN model


5.3. 不确定场景测试结果

基于Prescan将所提出的算法与对比算法在动态不确定场景中总共运行8000 s,主车行驶76 km,车速基本保持在8~15 m/s,统计其中平均每1000 s的测试结果. 如表4所示给出了平均车速$\bar v$、自车减速度超过 3.5 m/s2 的危险行为次数${n_{{\text{d}}}}$、纵向加速度均方根值$ {a}_{\text{l},{\mathrm{RMS}}} $和求解耗时${t_{{\text{s}}}}$的对比结果. 可以看出,在平均1000 s的测试时间内,引入了强化学习的可达集规划算法的行驶效率比传统可达集算法方法高22.1%,比基于动态规划的可达集算法提高10.9%,而基于规则的MOBIL+IDM算法最为保守. 在每1000 s产生的危险行为次数方面,由于都考虑了场景不确定性,所提出的算法与基于动态规划的可达集在该项指标上接近,并在安全性上大幅优于其余2种传统算法. 在行驶舒适性方面,本研究算法相比传统可达集和基于动态规划的可达集分别提高了44.0%和6.4%.

表 4   动态不确定场景统计对比结果

Tab.4  Statistical comparison results of dynamic uncertain scenarios

方法$\bar v/({\mathrm{m}} \cdot {\mathrm{s}}^{-1})$$ {n}_{\text{d}}/次 $$ {a}_{\text{l},{\mathrm{RMS}}}/({\mathrm{m}}\cdot {\mathrm{s}}^{-2}) $${t_{\rm{s}}}/{\mathrm{m}} {\mathrm{s}}$
MOBIL+IDM[20-21]8.8233.62.398 010
传统可达集[22]9.2811.52.8405286
基于动态规划的可达集[8]10.2180.91.6986860
基于强化学习的可达集11.3361.01.5896280

新窗口打开| 下载CSV


除了证明强化学习决策引导的可达集规划算法针对动态不确定场景的有效性和鲁棒性之外,还统计了不同算法的实时性能. 将可达集算法在配备intel i7-9700 3 GHz CPU和16 GB DDR3内存的计算机上的Matlab2020和Visual Studio Code 2017中实现,统计结果表明,虽然计算时间仍有优化空间,但所提出的可达集算法的实时性优于其他可达集算法. 与基于动态规划的可达集方法相比,所提方法同样考虑了场景不确定性,但由于省略了风险概率计算,其求解速度提升了约2倍. 因此,从表4中可以得出基于强化学习的可达集算法在安全性、舒适性、通行效率和实时性4个维度具有更好的综合性能.

5.4. 典型场景测试结果

在完成长时测试的宏观统计后,提取其中一次随机产生过的典型Corner Case场景进行详细分析. 具体场景为三车道中两车道被静止车辆占据,自车须与其他动态车辆共用一条车道行驶,如图9所示.在第18 s时,自车在中间车道行驶,静止车辆分别停放在中间车道距自车125 m和右侧车道距自车100 m处. 动态旁车须通过左侧车道继续向前行驶,但旁车B由于已减速至低速,因此最终选择从2个静止车辆中间穿过,并未换道至左侧车道. 除此之外,左侧车道有2辆旁车C、A,自车后方20 m处有1辆旁车D在跟车行驶. 在第18 s,自车初速度为 8.5 m/s,其轨迹、速度变化以及与前车的车距变化如图1011所示. 其中,t为时间. 从图中轨迹可以看出,自车在第21 s时开始向左换道,换道时长为3 s,并于第24 s 开始跟随前车行驶. 从速度曲线中可以看出,由于一开始道路被2个静止车辆影响,交通较为拥堵,自车一直处于较低车速. 但是在换道过程中和换道完成后自车一直处于加速状态,并在10 s内将车速回升到14 m/s,保证了交通效率. 从与前车的纵向距离曲线中可以看出,自车与前车车距始终大于37.5 m,车间时距为2.5 s,因此保证了车辆行驶安全性.

图 9

图 9   典型场景示意图

Fig.9   Typical scene diagram


图 10

图 10   典型场景下的轨迹和速度结果

Fig.10   Trajectory and velocity results under a typical scenario


图 11

图 11   典型场景下自车与前向车距结果

Fig.11   Results of forward vehicle distance from vehicle in a typical scenario


图12所示为自车在第20 s生成的驾驶走廊以及规划轨迹结果. 可以看出,可达集算法可在强化学习决策的引导下规划出合理的驾驶走廊. 通过最终获得的三维时空轨迹可以看出,所提出的规划算法可以根据当前自车状态,在换道的同时,适当进行速度调整,从而在保证舒适性的前提下提高车辆的行驶效率.

图 12

图 12   典型场景下第21 s时的驾驶走廊

Fig.12   Driving corridor at 21 seconds in a typical scenario


6. 结 语

提出由强化学习多步决策引导的可达集算法框架,旨在提升传统可达集方法在动态不确定交通场景中的有效性与实时性. 该方法不仅引入基于离散动作空间的 DDQN 强化学习模型用于决策引导,还结合基于横纵向谓词判断的可行驶区域划分方法,有效降低了各时刻备选区域的数量,并提升了语义分割的准确性. 长时间随机测试结果表明,与其他2种可达集基线算法(传统可达集/基于动态规划的可达集)相比,所提出的强化学习引导的可达集算法在行驶效率上分别提升了22.1% 和10.9%,在行驶舒适性上分别提升了44.0% 和6.4%. 此外,该算法在动态不确定场景下亦表现出良好的安全性与实时性. 对测试过程中典型 Corner Case 场景的分析进一步验证了所提出算法在复杂交通环境中的鲁棒性与适应性,能在保证行驶安全的前提下兼顾通行效率,实现更为合理的轨迹规划结果.

本研究仅在单一场景下验证了可达集与强化学习结合的可行性,后续将考虑引入 Rainbow、DSAC(distributional soft actor-critic)等先进强化学习算法,以进一步提升算法在交叉路口、匝道、环岛等多类场景中的决策泛化能力与精度. 同时,还计划对算法进行工程化部署,集成至实车平台,与真实感知及执行系统协同工作,从而在实际道路环境中开展更加全面、真实的测试与验证.

参考文献

朱冰, 贾士政, 赵健, 等

自动驾驶车辆决策与规划研究综述

[J]. 中国公路学报, 2024, 37 (1): 215- 240

[本文引用: 1]

ZHU Bing, JIA Shizheng, ZHAO Jian, et al

Review of research on decision-making and planning for automated vehicles

[J]. China Journal of Highway and Transport, 2024, 37 (1): 215- 240

[本文引用: 1]

NÉMETH B, GÁSPÁR P

Hierarchical motion control strategies for handling interactions of automated vehicles

[J]. Control Engineering Practice, 2023, 136: 105523

DOI:10.1016/j.conengprac.2023.105523      [本文引用: 1]

XIONG L, ZHANG Y, LIU Y, et al

Integrated decision making and planning based on feasible region construction for autonomous vehicles considering prediction uncertainty

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (11): 4515- 4523

DOI:10.1109/TIV.2023.3299845      [本文引用: 1]

XIN L, KONG Y, LI S E, et al

Enable faster and smoother spatio-temporal trajectory planning for autonomous vehicles in constrained dynamic environment

[J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2021, 235 (4): 1101- 1112

DOI:10.1177/0954407020906627      [本文引用: 1]

MARTINEZ ROCAMORA B, PEREIRA G A S

Parallel sensor-space lattice planner for real-time obstacle avoidance

[J]. Sensors, 2022, 22 (13): 4770

DOI:10.3390/s22134770     

MANZINGER S, PEK C, ALTHOFF M

Using reachable sets for trajectory planning of automated vehicles

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6 (2): 232- 248

DOI:10.1109/TIV.2020.3017342     

HANG P, LV C, HUANG C, et al

An integrated framework of decision making and motion planning for autonomous vehicles considering social behaviors

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (12): 14458- 14469

DOI:10.1109/TVT.2020.3040398      [本文引用: 1]

ZHANG X, YANG B, PEI X, et al

Trajectory planning based on spatio-temporal reachable set considering dynamic probabilistic risk

[J]. Engineering Applications of Artificial Intelligence, 2023, 123: 106291

DOI:10.1016/j.engappai.2023.106291      [本文引用: 3]

SÖNTGES S, ALTHOFF M

Computing the drivable area of autonomous road vehicles in dynamic road scenes

[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19 (6): 1855- 1866

DOI:10.1109/TITS.2017.2742141      [本文引用: 1]

MASCETTA T, LIU E I, ALTHOFF M. Rule-compliant multi-agent driving corridor generation using reachable sets and combinatorial negotiations [C]// Proceedings of the IEEE Intelligent Vehicles Symposium. Jeju Island: IEEE, 2024: 1417–1423.

[本文引用: 1]

LERCHER F, ALTHOFF M. Specification-compliant reachability analysis for autonomous vehicles using on-the-fly model checking [C]// Proceedings of the IEEE Intelligent Vehicles Symposium. Jeju Island: IEEE, 2024: 1484–1491.

[本文引用: 1]

ZHU Z, ZHAO H

A survey of deep RL and IL for autonomous driving policy learning

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (9): 14043- 14065

DOI:10.1109/TITS.2021.3134702      [本文引用: 1]

DUAN J, EBEN LI S, GUAN Y, et al

Hierarchical reinforcement learning for self-driving decision-making without reliance on labelled driving data

[J]. IET Intelligent Transport Systems, 2020, 14 (5): 297- 305

DOI:10.1049/iet-its.2019.0317      [本文引用: 1]

TRAUTH R, HOBMEIER A, BETZ J. A reinforcement learning-boosted motion planning framework: comprehensive generalization performance in autonomous driving [EB/OL]. (2024-02-02)[2025-06-16]. https://arxiv.org/abs/2402.01465v1.

[本文引用: 1]

YU J, ARAB A, YI J, et al

Hierarchical framework integrating rapidly-exploring random tree with deep reinforcement learning for autonomous vehicle

[J]. Applied Intelligence, 2023, 53 (13): 16473- 16486

DOI:10.1007/s10489-022-04358-7     

JAFARI R, ASHARI A E, HUBER M. CHAMP: integrated logic with reinforcement learning for hybrid decision making for autonomous vehicle planning [C]// Proceedings of the American Control Conference. San Diego: IEEE, 2023: 3310–3315.

[本文引用: 1]

CHEN D, JIANG L, WANG Y, et al. Autonomous driving using safe reinforcement learning by incorporating a regret-based human lane-changing decision model [C]// Proceedings of the American Control Conference. Denver: IEEE, 2020: 4355–4361.

[本文引用: 1]

ZHOU H, PEI X, LIU Y, et al. Trajectory planning for autonomous vehicles at urban intersections based on reachable sets [C]// IEEE Intelligent Vehicle Symposium. Cluj Napoca: IEEE, 2025: 1101–1107.

[本文引用: 1]

李国法, 陈耀昱, 吕辰, 等

智能汽车决策中的驾驶行为语义解析关键技术

[J]. 汽车安全与节能学报, 2019, 10 (4): 391- 412

DOI:10.3969/j.issn.1674-8484.2019.04.001      [本文引用: 1]

LI Guofa, CHEN Yaoyu, LV Chen, et al

Key techniques of semantic analysis of driving behavior in decision making of autonomous vehicles

[J]. Journal of Automotive Safety and Energy, 2019, 10 (4): 391- 412

DOI:10.3969/j.issn.1674-8484.2019.04.001      [本文引用: 1]

QIAN L, XU X, ZENG Y, et al

Synchronous maneuver searching and trajectory planning for autonomous vehicles in dynamic traffic environments

[J]. IEEE Intelligent Transportation Systems Magazine, 2022, 14 (1): 57- 73

DOI:10.1109/MITS.2019.2953551      [本文引用: 2]

TREIBER M, HENNECKE A, HELBING D

Congested traffic states in empirical observations and microscopic simulations

[J]. Physical Review E, Statistical Physics, Plasmas, Fluids, and Related Interdisciplinary Topics, 2000, 62 (2A): 1805- 1824

[本文引用: 2]

周兴珍, 裴晓飞, 张鑫康

基于可达集优化的智能汽车轨迹规划研究

[J]. 武汉理工大学学报, 2022, 44 (6): 39- 48

DOI:10.3963/j.issn.1671-4431.2022.06.007      [本文引用: 1]

ZHOU Xingzhen, PEI Xiaofei, ZHANG Xinkang

Trajectory planning of intelligent vehicle based on reachable set and optimization

[J]. Journal of Wuhan University of Technology, 2022, 44 (6): 39- 48

DOI:10.3963/j.issn.1671-4431.2022.06.007      [本文引用: 1]

/