浙江大学学报(工学版), 2025, 59(3): 451-459 doi: 10.3785/j.issn.1008-973X.2025.03.002

交通工程、土木工程

基于内容引导注意力的车道线检测网络

刘登峰,, 郭文静, 陈世海

1. 江南大学 人工智能与计算机学院,江苏 无锡 214122

2. 康养智能化技术教育部工程研究中心,江苏 无锡 214122

3. 西南财经大学天府学院 智能科技学院,四川 绵阳 621000

Content-guided attention-based lane detection network

LIU Dengfeng,, GUO Wenjing, CHEN Shihai

1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

2. Engineering Research Center of Intelligent Technology for Healthcare, Ministry of Education, Wuxi 214122, China

3. Intelligent Science and Technology Institute, Tianfu College of SWUFE, Mianyang 621000, China

收稿日期: 2024-01-10  

基金资助: 国家重点研发专项计划资助项目(2022YFE0112400);国家自然科学基金青年项目(21706096);第62批中国博士后科学基金面上资助项目(2017M621627);江苏省博士后科研资助项目(1601009A);江苏省自然科学基金青年项目(BK20160162).

Received: 2024-01-10  

Fund supported: 国家重点研发专项计划资助项目(2022YFE0112400);国家自然科学基金青年项目(21706096);第62批中国博士后科学基金面上资助项目(2017M621627);江苏省博士后科研资助项目(1601009A);江苏省自然科学基金青年项目(BK20160162).

作者简介 About authors

刘登峰(1980—),女,副教授,从事人工智能模式识别、智能计算系统、发酵过程建模研究.orcid.org/0000-0002-6193-6641.E-mail:liudf@jiangnan.edu.cn , E-mail:liudf@jiangnan.edu.cn

摘要

为了有效利用注意力机制以提高车道线检测的准确性,提出基于内容引导注意力的车道线检测网络(CGANet). 通过设计内容引导注意力机制(CGA),增强捕捉上下文信息的能力,强调编码在特征中更有用的信息,从而削弱无关信息的影响. 为了减轻尺度差异对模型性能的影响,提出均衡特征金字塔网络(BFPN),以实现多尺度特征的均衡融合. 引入ROI(Region of Interest)提取器,以解决无视觉线索问题. 在损失函数中添加交叉熵损失作为辅助分类损失,激励模型生成更加清晰的概率分布. 在多个车道线检测数据集上进行实验验证,结果表明,与跨层细化网络(CLRNet)算法相比,所提方法在CULane、Tusimple和CurveLanes数据集上的F1指标分别提升0.65、0.18和0.29个百分点.

关键词: 无人驾驶技术 ; 车道线检测 ; 注意力机制 ; 多尺度特征融合 ; 交叉熵损失

Abstract

A content-guided attention network (CGANet) was proposed to effectively utilize attention mechanisms and improve the accuracy of lane detection. To enhance the model’s ability to capture contextual information, a content-guided attention (CGA) mechanism was introduced into the model, emphasizing more useful information encoded in the features while reducing the influence of irrelevant information. To reduce the impact of scale differences on model performance, a balanced feature pyramid network (BFPN) was proposed to achieve the balanced fusion of multi-scale features. An ROI (Region of Interest) extractor was introduced to address the issue of missing visual cues. Additionally, the cross-entropy loss was added to the loss function as an auxiliary classification loss to encourage the model to generate clearer probability distributions. Experimental results on multiple lane detection datasets demonstrated that, compared with the cross-layer refinement network (CLRNet) algorithm, the proposed method improves F1 index by 0.65, 0.18 and 0.29 percentage points on CULane, Tusimple and CurveLanes datasets, respectively.

Keywords: autonomous driving technology ; lane detection ; attention mechanism ; multi-scale feature fusion ; cross-entropy loss

PDF (2188KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘登峰, 郭文静, 陈世海. 基于内容引导注意力的车道线检测网络. 浙江大学学报(工学版)[J], 2025, 59(3): 451-459 doi:10.3785/j.issn.1008-973X.2025.03.002

LIU Dengfeng, GUO Wenjing, CHEN Shihai. Content-guided attention-based lane detection network. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(3): 451-459 doi:10.3785/j.issn.1008-973X.2025.03.002

根据世界卫生组织(WHO)2023年12月发布的一份报告,每年约有119万人死于道路交通事故. 车道线是交通系统中划分道路、保证汽车安全有效行驶的交通标志,具有鲁棒性的车道线检测算法是实现车辆精准导航和行为决策的基础. 但在实际应用中,车道线检测仍存在许多挑战. 1)道路和环境的多样性. 不同路段的道路环境(如城市道路、高速公路、乡村道路等)多种多样,包括路面颜色、质地、光照条件和天气条件等因素会影响检测结果. 2)车道线形状的多样性. 车道线可能呈现出多种形状,包括实线、虚线、双实线、双虚线或其他形状,导致车道线不易识别. 3)车道线固有的长细性及相似物的影响. 在道路上,除了车道线外,还存在其他物体,如停车线、辅助标线、电线杆等,其形状和颜色与车道线相似,增加了车道线的检测难度.

为了解决以上问题,传统的车道线检测方法通常采用手工特征提取和基于模型的方法,如支持向量机、决策树、随机森林等,然后通过后处理拟合车道线的位置. 然而,传统的方法无法应对不同场景下车道线的多样性,导致传统方法无法在现实场景中保持鲁棒性.

近年来,车道线检测的研究主要集中在深度学习领域,其中基于分割的方法[1]涉及像素级别的预测,导致在实时应用中的计算成本较高;基于锚点的方法[2-4]对于复杂结构的车道不够灵活;基于参数预测的方法[5-6]推理速度快,但仍难以达到更高的性能.

相比传统方法,深度学习在车道线检测任务中表现出更好的性能. 因此,本研究从基于锚点的方法中选择CLRNet[7]作为基线,通过加入改进的注意力机制提升模型性能. 改进后的网络命名为:基于内容引导注意力的车道线检测网络(content-guided attention-based lane detection network,CGANet). 在CULane[8]、Tusimple[9]和CurveLanes[10] 3个数据集上验证了方法的有效性. 本研究主要创新点如下.

1)提出新的注意力机制,称为内容引导注意力(content-guided attention,CGA),以增强主干网络的特征提取能力,解决现有注意力机制CBAM存在的信息融合不充分的问题,引导模型生成更优的特征图.

2)提出均衡特征金字塔网络(balanced feature pyramid network,BFPN)作为模型的跨尺度特征融合模块. 利用BFPN模块解决高级语义特征中的有用信息会随着向下融合的过程逐渐淡化,造成损失细节信息的问题,从而保留高级语义特征中的有用信息与细节信息,以减轻尺度差异对模型性能的影响.

3)设计交叉熵损失作为辅助分类损失,通过衡量真实概率分布与预测概率分布之间的差异,激励模型生成清晰的概率分布,减少误检和漏检,以提升模型精度.

1. 相关工作

根据车道线的表示方式,目前基于深度学习的车道线检测可以分为3类:基于分割的方法、基于参数的方法和基于锚点的方法.

1.1. 基于分割的方法

基于分割的车道线检测通常将车道和背景预先定义为不同的类别,然后逐像素地预测特征图. 生成分割图后,需要一个后处理步骤将其解码为一组车道. 由于忽略了全局上下文信息和逐像素预测策略的复杂性,早期基于分割的方法在准确率和速度方面都表现不佳. 为了利用全局信息,Pan等[8]设计特殊的卷积结构SCNN,使得消息能够跨行和列传递. 虽然该结构能够更好地捕获车道线的强空间关系、更有效地利用视觉信息,但该方法非常耗时(每秒处理7.5帧图片). 最近,Zheng等[1]提出通过对切片的特征映射进行横向和纵向的聚合,从而提升SCNN的速度. 但是,基于分割的方法在速度和准确率上仍然不如其他方法.

1.2. 基于参数的方法

基于参数的方法直接输出由曲线方程表示的参数线,可以实现完整的端到端检测. Tabelini等[11]提出PolyLaneNet模型,一个基于深度多项式回归的高效率模型,无需任何后处理方法来拟合车道线. 然而,它缺乏对全局上下文信息的学习,导致其在复杂数据集中的准确性较差. Liu等[12]等引入Transformer架构在车道线检测任务中以获得全局特征. 虽然基于参数的方法有较高的推理速度,但在精度方面难以超过其他方法.

1.3. 基于锚点的方法

由于车道线的细长结构,无法直接使用在物体检测中广泛使用的基于锚框的方法,因此衍生出基于行锚的方法和基于线锚的方法.

基于行锚的方法通过搜索预定义行锚上最可能包含车道线的单元格,来构建车道线. Qin等[2]提出UFLD模型,以低延迟来换取性能,利用预设的车道锚框信息和全局图像特征进行行搜索,提升了检测效率和实时性. 虽然简单快速,但在复杂的驾驶场景下,其对车道线的检测能力一般. Liu等[13]引入基于条件卷积和基于行锚的公式化的条件车道检测策略. 该类方法首先要定位车道线的起始点,然而,在一些复杂场景中,起始点难以识别,这导致性能相对较差.

基于线锚的方法采用预定义的线锚作为引导,通过回归相对坐标来定位车道. Li等[14]首次在车道线检测中使用线锚. Tabelini等[15]考虑全局信息的重要性,提出新的基于锚的注意力机制. Zheng等[7]提出结合预定义线锚,综合利用全局特征和结合局部特征提升了检测性能. 该类方法是目前车道线检测任务中最有效的方法,因此,本研究基于此类方法展开研究.

2. 本研究方法

2.1. CGANet网络架构

图1所示为CGANet的整体架构. CGANet由3部分组成:特征提取部分、跨尺度特征融合部分和检测部分.

图 1

图 1   CGANet的整体架构

Fig.1   Overall architecture of CGANet


对于给定输入图像$ {\boldsymbol{I}} \in {{\bf{R}}^{3 \times H \times W}} $,CGANet的目标是检测出该图像中存在的车道线,可以表示为L={l1, l2 ,$\cdots $lM},其中M为车道线的总数. 每条车道线lk由如下有序坐标集表示:

$ {l_k} = \{({x_1},{y_1}),({x_2},{y_2}),\cdots ,({x_{N_k}},{y_{N_k}})\}. $

式中:k为车道线的索引,Nk为第k条车道线的样本点的最大数量. 利用融入内容引导注意力(CGA)的骨干网络提取细化的特征,接着使用均衡特征金字塔网络(BFPN)实现多尺度特征融合,通过结合高级和低级语义特征,可以更好地获取到上下文信息,使模型更容易使用来自其他车道的信息. 将组合的特征馈送到检测网络(ROIGather)以检测车道线,分类和回归网络权重在所有级别的特征中共享.

2.2. 内容引导注意力

CBAM[16]由一个通道注意力和一个空间注意力组成,它们被依次放置以计算通道和空间维度上的注意力权重. 通道注意力计算逐通道向量,同时使用平均池化和最大池化操作,生成通道注意力映射,即$ {{F}}_{{\text{CRM}}} ( \cdot )\in {{\bf{R}}^{C \times 1 \times 1}} $,以重新校准特征,与输入特征图逐元素相乘得到通道注意力图(FC),极大地提高了网络的表示能力;空间注意力沿着通道轴应用平均池化和最大池化操作,应用卷积层来生成空间注意力映射,即$ {{F}}_{{\text{SRM}}} ( \cdot )\in {{\bf{R}}^{1 \times H \times W}} $,自适应地表示不同区域的重要程度,与通道注意力图逐元素相乘得到空间注意力图(FS). CBAM不平等地对待不同的通道和像素,将其应用于车道线检测任务中,可提高检测性能.

注意力机制的主要目的是使模型更多地聚焦在图像的道路部分上,而忽略图像中的其他对象(例如,天空、树木和行人等). CBAM主要存在以下2个问题:CBAM内的通道注意力对通道差异进行建模,而不考虑上下文信息. 随着特征通道的扩展,其他对象信息被编码到特征图中. 这意味着对于每个特征通道,其他对象信息在空间维度上不均匀地分布. 此外,CBAM的另一个问题是,CBAM中的2个注意力权值被依次计算,它们之间没有得到充分的信息交换.

为了充分解决上述问题,基于CBAM提出内容引导注意力,以输入特征图$ {{\boldsymbol{F}}_{{\text{in}}}} \in {{\bf{R}}^{C \times H \times W}} $作为引导,与空间细化图(FS)经由通道混洗操作得到最终细化的特征图,它与Fin具有相同的维度. CGA的结构如图2所示. CGA模块通过应用一维通道注意力从Fin中找到重要通道,并产生通道细化图FC

图 2

图 2   内容引导注意力结构图

Fig.2   Content-guided attention structure


$ {{\boldsymbol{F}}_{\text{C}}} = {F_{{\text{CRM}}}}({{\boldsymbol{F}}_{{\text{in}}}}) \otimes {{\boldsymbol{F}}_{{\text{in}}}}. $

随后,在FC上应用二维空间注意力,并生成空间细化图FS

$ {{\boldsymbol{F}}_{\text{S}}} = {F_{{\text{SRM}}}}({{\boldsymbol{F}}_{\text{C}}}) \otimes {{\boldsymbol{F}}_{\text{C}}}. $

FSFin的每个通道经由通道混洗操作以交替方式重新布置,确保信息充分交互,以获得细化特征图:

$ {{\boldsymbol{F}}_{{\text{out}}}} = \sigma ({\text{G}}{{\text{C}}_{{\text{7}} \times {\text{7}}}}({\text{CS}}([{{\boldsymbol{F}}_{{\text{in}}}},{{\boldsymbol{F}}_{\text{S}}}]))). $

式中:$ \sigma $表示sigmoid操作,$ {\text{CS}}( \cdot ) $表示通道混洗操作,$ {\text{GC}}_{7 \times 7}(\cdot ) $表示卷积核大小为7的分组卷积. CGA引导模型关注每个特征通道的重要区域,学习信息的强调或抑制. 因此,可以强调编码在特征中的更多有用信息,忽视无用信息,有效提高车道线检测精度.

FCRM(X)、 FSRM(X)表达式分别为

$ \begin{split} F_{\mathrm{CRM}}(\boldsymbol{X}) & = \sigma(\operatorname{MLP}(\operatorname{AvgP}(\boldsymbol{X}) + \operatorname{MLP}(\operatorname{MaxP}(\boldsymbol{X})))) = \\& \sigma\left( {\boldsymbol{W}}_1\left( {\boldsymbol{W}}_0\left({\boldsymbol{F}}_{\text {avg }}^{\mathrm{c}}\right) + {\boldsymbol{W}}_1\left({\boldsymbol{W}}_0\left({\boldsymbol{F}}_{\max }^{\mathrm{c}}\right) \right) \right) \right),\end{split} $

$ \begin{split} F_{\mathrm{SRM}}(\boldsymbol{X}) & =\sigma\left(f^{7 \times 7}([\operatorname{Avg} \mathrm{P}(\boldsymbol{X}) ; \operatorname{MaxP}(\boldsymbol{X})])\right) =\\& \sigma\left(f^{7 \times 7}\left(\left[{\boldsymbol{F}}_{\text {avg }}^{\mathrm{s}} ; {\boldsymbol{F}}_{\max }^{\mathrm{s}}\right]\right)\right) .\end{split} $

式中:${\rm{AvgP}}( \cdot ) $表示全局平均池化,$ {\rm{MaxP}}( \cdot ) $表示全局最大池化;$ \sigma $表示sigmoid函数;对于MLP,为了减少参数的数量并限制模型的复杂度,隐藏层的数量设置为${{\bf{R}}^{C/r \times 1 \times 1}} $以减少计算成本,其中$r $为缩减比; W0W1为MLP权重,$ {{\boldsymbol{W}}_0} \in {{\bf{R}}^{C/r \times C}}$${{\boldsymbol{W}}_1} \in {{\bf{R}}^{C \times C/r}} $$ {\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}$${\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}} $${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}} $${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}} $分别表示跨通道维度的全局平均池化操作、跨通道维度的全局最大池化操作、跨空间维度的全局平均池化操作、跨空间维度的全局最大池化操作处理后得到的特征.

将CGA添加到传统的ResNet基础块中,称为内容引导注意力块(content-guided attention block,CGAB),其结构图如图3所示. CGAB还包括2个$ 3 \times 3 $的卷积块,一个整流线性单元(ReLU)激活函数和批量归一化层. 采用跳跃连接,它将CGAB的输入直接添加到最后一个ReLU层之前,选择跳跃连接的原因是模型足够简单,含有更少的参数量,处理速度更快,能够部署到实时设备中,帮助深度学习模型解决消失梯度问题,防止因网络深度过深造成过拟合的现象.

图 3

图 3   内容引导注意力块的结构图

Fig.3   Content-guided attention block structure


2.3. 均衡特征金字塔网络

车道线检测的难点之一是如何有效地表示和处理多尺度特征. 最近基于深度学习的车道线检测模型已经使用了特征金字塔网络(feature pyramid network,FPN)[17]作为颈部模块,在低分辨率金字塔特征图中检测大对象,并且在高分辨率金字塔特征图中检测小对象. 高层神经元强烈响应整个对象,而其他神经元更有可能被局部纹理和模式激活的观点,表明增加自上而下的路径以传播高级语义特征的必要性. 然而,传统的自上而下的FPN受到单向信息流的限制. 为了有效解决这个问题,Liu等[18]提出路径聚合网络(path aggregation network,PANet). PANet在FPN的基础上添加了一个额外的自底向上路径聚合网络. 受到以上多尺度特征网络的启发,进而开展进一步的研究.

为了解决传统的特征金字塔网络在获取多尺度特征时,高级语义特征中的有用信息会随着向下融合的过程逐渐淡化,造成损失细节信息的问题,提出BFPN. 如图4所示,对于Backbone生成的每一个尺寸的特征,分别通过上下采样的操作生成金字塔对应的3个尺寸特征,再将相同尺寸的特征融合,从而保留高级语义特征中的有用信息与细节信息,以减轻尺度差异对模型性能的影响.

图 4

图 4   均衡特征金字塔的结构图

Fig.4   Balanced feature pyramid network structure


$ {\boldsymbol{F}}'_1 $$ {\boldsymbol{F}}'_2 $$ {\boldsymbol{F}}'_3 $表示均衡特征金字塔输出的结果,表达式如下:

$ {\boldsymbol{F}}'_1 = {{\boldsymbol{F}}_{\text{1}}}+{{\boldsymbol{F}}_{{\text{2\_up1}}}}+{{\boldsymbol{F}}_{{\text{3\_up2}}}}, $

$ {\boldsymbol{F}}'_2 = {{\boldsymbol{F}}_2}+{{\boldsymbol{F}}_{{\text{1\_down1}}}}+{{\boldsymbol{F}}_{{\text{3\_up1}}}}, $

$ {\boldsymbol{F}}'_3 = {{\boldsymbol{F}}_3}+{{\boldsymbol{F}}_{{\text{1\_down2}}}}+{{\boldsymbol{F}}_{{\text{2\_down1}}}}. $

式中:$\boldsymbol F_1 $$\boldsymbol F_2 $$\boldsymbol F_3 $分别表示主干网络的3层特征图,${\boldsymbol{F}}'_1 $${\boldsymbol{F}}'_2 $$ {\boldsymbol{F}}'_3$分别表示均衡特征金字塔输出的3层融合的特征图,$ {\boldsymbol F_{{\rm{1\_down1}}}}$$ {\boldsymbol F_{{\rm{1\_down2}}}} $分别表示主干网络第1层特征图下采样1次和下采样2次后的结果,$ {\boldsymbol F_{{\rm{2\_up1}}}}$${\boldsymbol F_{{\rm{2\_down1}}}} $分别表示主干网络第2层特征图上采样1次和下采样1次后的结果,${\boldsymbol F_{{\rm{3\_up1}}}} $${\boldsymbol F_{{\rm{3\_up2}}}} $分别表示主干网络第3层特征图上采样1次和上采样2次后的结果.

为了对齐尺寸为后续特征融合做准备,使用反卷积操作进行上采样操作,利用空洞卷积进行下采样操作. 空洞卷积的稀疏采样方式相较于普通卷积的密集采样方式可以在不增加网络参数量的前提下增大感受野,使网络接收更广阔的上下文信息.

2.4. RoIGather

针对一些极端的情况,例如,不存在车道线存在的视觉证据,为了确定当前像素是否属于车道,必须要查看附近的特征,也就是上下文特征. 为此,采用ROIGather[7]模块来进一步地学习车道线的特征,实现分类和回归任务.

首先,预定义的车道线分配给每个特征图之后,先使用ROIAlign[19]获得每条预定义车道线的ROI特征($ {{\boldsymbol{X}}_{\rm{P}}} \in {{\bf{R}}^{C \times {N_{\rm{P}}}}} $),使用双线性插值来计算在这些位置的输入特征的确切值. 对提取的ROI特征执行$ 9 \times 9 $的一维卷积以收集每个通道像素的附近特征. 为了节省内存,使用全连通算法进一步提取预定义的车道线特征($ {{\boldsymbol{X}}_{\rm{P}}} \in {{\bf{R}}^{C \times 1}} $). 此外,ROIGather模块还建立预定义车道线和整个特征图之间的关系,为了节省算力,先将全局特征图($ {{\boldsymbol{X}}_{\rm{f}}} \in {{\bf{R}}^{C \times H \times W}} $)调整至大小与最小的特征图尺寸相等,并展平为$ {{\boldsymbol{X}}_{\rm{f}}} \in {{\bf{R}}^{C \times HW}} $,再计算每条预定义车道线的ROI特征(XP)和全局特征图(Xf)之间的注意力矩阵[20]

$ {\boldsymbol{W}} = f\left({{{\boldsymbol{X}}_{\rm{P}}^{\rm{T}}{{\boldsymbol{X}}_{\rm{f}}}}}/{{\sqrt C }}\right). $

式中:f为归一化函数softmax,C为特征图通道数.

聚合特征表达式如下:

$ {\boldsymbol{G}} = {\boldsymbol{WX}}_{\rm{f}}^{\rm{T}}. $

输出$ {\boldsymbol{G}} $反映了XfXP的奖励,其选自Xf的所有位置,最后将输出直接与原始输入XP相加.

2.5. 损失函数

CGANet采用的损失函数为

$ {L}_{{\text{total}}}^{} = w_{{\text{cls}}}^{}{L}_{{\text{cls}}}^{}+w_{{\text{SL1}}}^{}{L}_{{\text{SL1}}}^{}+w_{{\text{LIoU}}}^{}{L}_{{\text{LIoU}}}^{}+w_{{\text{seg}}}^{}{L}_{{\mathrm{seg}}}^{}. $

式中:$ {L}_{{\text{cls}}}^{} $$ {L}_{{\text{SL1}}}^{} $$ {L}_{{\text{LIoU}}}^{} $$ {L}_{{\mathrm{seg}}} $分别表示Focal Loss、smooth L1 Loss、Line IoU Loss和Cross-entropy Loss;wclswSL1wLIoUwseg为超参数,分别设置为6.0、0.5、2.0、0.4.

Focal Loss旨在解决分类任务中的类别不平衡问题,通过对难以分类的示例给予更多权重缓解此问题.

$ {L}_{{\text{cls}}}^{} = E_{{\text{Ic}}}^{} \in I\left\{ { - \alpha _{\rm{t}}^{}{{(1 - p_{\rm{t}}^{})}^\gamma }\log\; p_{\rm{t}}^{}} \right\}. $

式中:$ {\alpha _{\text{t}}} $为控制简单示例和困难示例之间平衡的参数,$ {p_{\rm{t}}} $为给定示例的正确类别的预测概率,$ \gamma $为控制聚焦效果的调节因子,$ E_{\text{Ic}} \in {I\{ } \cdot {\} } $表示在训练集中所有样本的平均算子.

为了减少离群点对模型训练的影响,Smooth L1 Loss通过平滑和线性化的方式,对不同大小的误差采用不同的损失值,从而在处理离群点或大误差时降低了损失的梯度,使模型更加稳健.

${\mathrm{SL}}1(x) = \left\{ {\begin{array}{*{20}{c}}{0.5{x^2},}&{|x| < 1.0},\\{|x| - 0.5,}&{{\mathrm{其他}}}.\end{array}} \right.$

$ {L}_{{\text{SL1}}}^{} = \frac{1}{N} \sum\nolimits_{i = 1}^N {{\mathrm{SL}}1(x)} . $

式中:x为模型的预测值与实际目标值之间的差异,$ {L}_{{\text{SL1}}}^{} $为起始点坐标、θ角和车道长度回归的Smooth L1 Loss.

Line IoU Loss用于度量2条线段之间的重叠程度,通过计算交集长度与并集长度之比来评估线段的准确性,从而优化检测模型.

$ {{L}_{{\text{LIoU}}}^{} = 1 - \frac{{\displaystyle \sum\nolimits_{i = 1}^N {{\text{I}}{{\text{L}}_i}} }}{{\displaystyle \sum\nolimits_{i = 1}^N {{\text{U}}{{\text{L}}_i}} }}.} $

式中:$ {\text{IL}} $为2条线段之间的交集部分的长度,$ {\text{UL}} $为2条线段之间的并集部分的长度.

Cross-entropy Loss作为辅助分类损失,衡量模型预测与真实标签之间的不确定性和差异,有助于模型产生更准确的结果. 对于车道线检测任务来说,使用该损失可以帮助减少误检和漏检,以提升模型精度.

$ {L}_{{\mathrm{seg}}}^{} = {E_{{\mathrm{Ic}}}} \in I\left\{ { - y\log\; \hat p - (1 - y)\log\; (1 - \hat p)} \right\}. $

式中:$ y $为真实概率分布;$ \hat p $表示预测概率分布,softmax将输出的结果进行处理,使预测概率取值范围为[0,1.0],分类的预测值和为1.0.

3. 实验分析

3.1. 数据集

为了广泛地评估所提出的方法,在3个广泛使用的车道检测数据集上进行实验:CULane、Tusimple和CurveLanes. CULane为广泛使用的大规模车道检测数据集之一,也是最复杂的数据集之一,它包含9个具有挑战性的场景,如拥挤、夜晚、遮挡车道线等多种情况. TuSimple车道检测基准也是车道检测中使用最广泛的数据集之一,它是在高速公路的稳定照明条件下收集的. CurveLanes包含具有复杂拓扑的车道线,例如曲线,分叉和密集车道. 3个数据集的详细信息如表1所示. 表中,NtraNvalNtest表示训练集、验证集、测试集的大小.

表 1   CULane、Tusimple、CurveLanes数据集的详细信息

Tab.1  Detailed information of CULane、Tusimple、CurveLanes datasets

数据集Ntra/103Nval/103Ntest/103道路类型分辨率
CULane88.99.734.7Urban&Highway1640×590
Tusimple3.30.42.8Highway1280×720
CurveLanes100.020.030.0Urban&Highway2650 ×1440

新窗口打开| 下载CSV


3.2. 实验环境及训练策略

所有输入图像的大小均调整为320×800. 在优化过程中,使用AdamW优化器,初始学习率为10−3,采用余弦衰减学习率策略. 分别为CULane、Tusimple和CurveLanes训练了70、300和60个epoch(较大的差异是由于数据集大小的差异). 对于数据增强,使用随机仿射变换(平移、旋转和缩放),随机水平翻转. CGANet是基于Pytorch实现的,具有2个GPU来运行所有的实验. 所有实验结果在Intel(R) Xeon(R) Silver 4110和RTX 2080 Ti的机器上计算.

3.3. 评价指标

对于CULane数据集,采用SCNN[8]的评估指标,该指标利用F1作为度量. 首先将车道线看作宽度为30像素的线,计算真实车道线和预测车道线之间的交并比(intersection over union,IoU),然后根据预设的阈值,将检测结果划分为真阳性($ {\text{TP}} $),假阳性($ {\text{FP}} $)以及假阴性($ {\text{FN}} $). IoU大于阈值(0.5)的预测车道线被认为是$ {\text{TP}} $. 精度P、召回率R、F1值F1的定义分别如下:

$ P = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FP}}}}, $

$ R = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FN}}}}, $

$ {\mathrm{F}}1 = \frac{{2PR}}{{P+R}}. $

F1越接近于1.0代表模型的性能越好. 另外,本研究还采用了一个新的评价指标mF1进行评估[7].

对于Tusimple数据集,有3个官方指标:准确性$ {\text{Acc}} $、假阳性的占比PFP和假阴性的占比PFN. 其中,Acc的表达式如下:

$ {\text{Acc}} = \frac{{\displaystyle\sum\nolimits_{{\text{clip}}} {{C_{{\text{clip}}}}} }}{{\displaystyle\sum\nolimits_{{\text{slip}}} {{S_{{\text{clip}}}}} }}. $

式中:$ {C_{{\text{clip}}}} $为正确预测的车道点的数量,$ {S_{{\text{clip}}}} $为图像的基准真值点的数目. 如果超过85%的预测车道点在基准真值点的20个像素内,认为预测车道是正确的.

对于CurveLanes数据集,采用F1、P、R作为评价指标.

3.4. 实验结果

3.4.1. CULane

CGANet在CULane数据集上与其他算法的对比实验结果如表2所示. 表中,FPS为每秒运算帧数,FLOPs为浮点运算次数,Ncross表示在Cross场景中的漏检图片数量. 本研究所提方法CGANet实现了80.13%的F1分数. 此外,本研究方法在9个场景中的7个场景中实现了最佳性能,说明本研究算法对不同场景具有鲁棒性.其检测效果图如图5所示. 图中,不同的车道线实例由不同的颜色表示. CGANet与基线方法CLRNet的ResNet101版本相比,对于F1分数实现了0.65个百分点的改善,并且具有相似的帧数,即在实现更高的F1分数的同时,保持了高效率,证明了该方法的有效性.

表 2   CGANet在CULane上的实验结果

Tab.2  CGANet’s experimental results on CULane dataset

方法基线网络F1/%mF1/%F1/%NcrossFPS/帧Flops/109
NormalCrowdDazzleShadowNo lineArrowCurveNingt
SCNN[8]VGG1671.6038.3490.6069.7058.5066.9043.4084.1064.4066.1019907.5328.4
UFLD[2]ResNet1868.4038.9485.9063.6057.0069.6040.6079.4065.2066.702037282.08.4
ResNet3472.3038.9687.7066.0058.4068.8040.2081.0057.9062.101473170.016.9
LaneATT[15]ResNet1874.5047.3590.7169.7161.8264.0347.1386.8264.7566.581020153.09.3
ResNet3474.0047.5791.1472.0362.4774.1547.3987.3864.7568.721330130.018.0
ResNet12274.4048.4890.7469.7465.4772.3148.4685.2968.7268.81126421.070.5
CondLaneNet[14]ResNet1875.1348.8491.8774.8766.7276.0150.3988.3772.4071.231364175.010.2
ResNet3476.6849.1192.3874.1467.1775.9349.8588.8972.8871.921387128.019.6
ResNet10177.0250.8392.4774.1466.9376.9152.1389.1672.2172.80120149.044.8
CLRerNet[3]ResNet1876.1252.1192.6075.9270.2377.3352.3488.5772.6873.251458119.013.2
ResNet3477.2752.4592.5375.9670.4578.9252.9889.2372.8173.561334104.024.5
ResNet10178.8052.6892.8076.1269.8478.9553.6589.6973.4573.37128950.041.2
CLRNet[7]ResNet1878.1451.9292.6975.0669.7075.3951.9689.2568.0973.221520119.012.9
ResNet3478.7451.1492.4975.3370.5775.9252.0189.5972.7773.021448103.022.6
ResNet10179.4851.5592.8575.7868.4978.3352.5088.7972.5773.51145646.040.5
CGANet
(本研究方法)
ResNet1879.5852.6292.8976.0369.5376.6049.7388.5772.3773.131321120.013.7
ResNet3479.7352.3192.8775.8670.5776.8850.0389.7973.2373.741216112.030.6
ResNet10180.1352.8892.5476.7868.4979.5150.5887.6273.6873.36126257.042.7

新窗口打开| 下载CSV


图 5

图 5   CULane数据集9种场景检测效果图

Fig.5   Nine scene detection renderings on CULane dataset


3.4.2. Tusimple

CGANet在Tusimple数据集上的结果如表3所示. 相对而言,由于数据量较小和单一场景较多,该数据集上不同方法之间差距较小. 本研究方法实现了97.45%的F1分数以及最高的Acc得分(96.67%). 同时将假阳性率和假阴性率降至更低水平. 实验结果表明,所提出的方法在预测车道线方面更为精确,且更不容易产生错误,这对于车道线检测技术的实际应用至关重要.

表 3   CGANet在Tusimple上的实验结果

Tab.3  CGANet’s experimental results on TuSimple dataset

方法基线网络F1/%Acc/%PFP/%PFN/%
SCNN[8]VGG1694.9793.127.172.20
UFLD[2]ResNet1885.8793.8220.058.92
ResNet3486.0292.8619.918.75
LaneATT[15]ResNet1895.7192.104.568.01
ResNet3495.7792.634.537.92
ResNet12295.5992.576.647.17
CondLaneNet[13]ResNet1896.0193.483.187.28
ResNet3495.9893.373.208.80
ResNet10196.2494.543.018.82
CLRNet[7]ResNet1895.0493.973.097.02
ResNet3494.7393.112.877.92
ResNet10197.2796.331.863.63
CGANet
(本研究方法)
ResNet1896.7395.241.844.80
ResNet3496.0293.781.976.14
ResNet10197.4596.672.762.31

新窗口打开| 下载CSV


CGANet在Tusimple数据集上的车道线检测效果如图6所示,考虑到TuSimple数据集包含了较为简单的驾驶场景、较优的外部环境条件以及清晰可辨的车道线,因此展示的检测效果表现良好,证明在条件较为理想的情况下,本节介绍的车道线检测方法能够可靠地执行其功能.

图 6

图 6   Tusimple数据集车道线检测效果图

Fig.6   Lane detection rendering of Tusimple dataset


3.4.3. CurveLanes

CGANet以及CLRNet在CurveLanes上的结果如表4所示. CurveLanes包含具有复杂拓扑的车道线,例如曲线、分叉和密集车道. 在这种高度复杂的测试环境中, CGANet,尤其是采用ResNet101作为基础架构的版本达到了86.39%的F1分数,比CLRNet的ResNet101版本的提升了0.29个百分点.

表 4   CGANet在CurveLanes上的实验结果

Tab.4  CGANet’s experimental results on CurveLanes dataset

方法基线网络F1/%P/%R/%FLOPs/109
CLRNet[7]ResNet1885.0987.7582.5810.3
ResNet3485.9288.2983.6819.7
ResNet10186.1088.9883.4144.9
CGANet
(本研究方法)
ResNet1885.9891.0581.1218.4
ResNet3486.1891.6281.5720.1
ResNet10186.3991.5281.6144.8

新窗口打开| 下载CSV


CGANet在CurveLanes数据集上的车道线检测效果如图7所示. 可以看出,在复杂的数据集上也能够正确检测出车道线位置,进一步证明所提方法的有效性,说明该算法具备较强的车道线检测能力.

图 7

图 7   CurveLanes数据集车道线检测效果图

Fig.7   Lane detection effect on CurveLanes dataset


从CGANet在以上3个数据集中的表现可以看出,该算法在车道线检测任务中的表现优异,取得了较好的成绩,这不仅证明了将内容引导注意力应用于车道线检测任务的有效性,也突显了其在当前和未来车道线检测技术发展中的潜力.

3.5. 消融实验

为了验证所提出的方法的不同组件的效果,在Tusimple数据集上进行定性和定量实验. 首先展示各个的模块的定量结果,如表5所示,用相同的训练设置和不同的模块组合进行实验. 在基线中依次单独添加CGA、BFPN和Cross-entropy Loss(CeLoss),F1分数均有所提升,验证了每个组件的有效性. 同时添加3个组件进一步提高了F1分数到96.72%. 该结果验证了本研究方法的定位精度得到了较大的提升,并且FP指标和FN指标均有所下降,验证了该算法的有效性.

表 5   CGANet消融实验

Tab.5  CGANet ablation experiment

BaselineCGABFPNCeLossF1/%Acc/%PFP/%PFN/%
95.8394.732.685.49
95.5494.712.856.24
95.0694.073.026.93
96.1394.962.545.30
96.7295.241.844.80

新窗口打开| 下载CSV


通过以上实验,不仅验证了单个组件对模型性能的正面影响,也证实了这些组件在联合应用时能够相互协同,推动车道线检测性能达到新的高度. 证明了本研究方法在实际应用中具备显著的优势和潜力.

3.6. CGA可视化分析

为了深入理解内容引导注意力(CGA)在网络中的作用机制,采取可视化技术对其进行展示,如图8所示. 图中,颜色的亮度反映了权重的大小,其中更亮的区域表示更高的权重值. 这一可视化结果清晰地证明了,本研究所提出的CGA机制能够有效捕获图像中含有丰富语义信息的全局上下文,并优先将注意力集中于车道线上. 即便是在车道线部分被遮挡的情况下,CGA仍然能够准确地识别并聚焦于这些关键区域,从而显著提升模型对车道线的检测能力.

图 8

图 8   CGA权值在CULane数据集的可视化结果

Fig.8   Visualization of CGA weights in CULane dataset


4. 结 语

提出基于内容引导注意力的车道线检测网络(CGANet),解决现有车道线检测任务在复杂道路场景下性能不佳的问题,并通过实验验证其性能. 所提出的CGA可以增强主干网络的特征提取能力,将更多的注意力集中在车道线像素和更重要的通道信息上;利用BFPN实现在不同层级之间进行均衡特征融合;使用交叉熵损失作为辅助分类损失,激励模型生成清晰的概率分布,进一步提升模型精度. 实验结果表明,本研究方法有效提升了检测精度,为自动驾驶技术的进一步发展提供了有力支持. 未来将进一步从实时性、多模态融合方面展开研究.

参考文献

ZHENG T, FANG H, ZHANG Y, et al. RESA: recurrent feature-shift aggregator for lane detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2021: 3547−3554.

[本文引用: 2]

QIN Z, WANG H, LI X. Ultra fast structure-aware deep lane detection [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer, 2020: 276−291.

[本文引用: 4]

HONDA H, UCHIDA Y. CLRerNet: improving confidence of lane detection with LaneIoU [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2024: 1165–1174.

[本文引用: 1]

HAN J, DENG X, CAI X, Laneformer: object-aware row-column transformers for lane detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2022: 799−807.

[本文引用: 1]

LEE D H, LIU J L

End-to-end deep learning of lane detection and path prediction for real-time autonomous driving

[J]. Signal, Image and Video Processing, 2023, 17 (1): 199- 205

DOI:10.1007/s11760-022-02222-2      [本文引用: 1]

PAN H, CHANG X, SUN W

Multitask knowledge distillation guides end-to-end lane detection

[J]. IEEE Transactions on Industrial Informatics, 2023, 19 (9): 9703- 9712

DOI:10.1109/TII.2023.3233975      [本文引用: 1]

ZHENG T, HUANG Y, LIU Y, et al. CLRNet: cross layer refinement network for lane detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 888–897.

[本文引用: 7]

PAN X, SHI J, LUO P, et al. Spatial as deep: Spatial cnn for traffic scene understanding [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New Orleans: AAAI Press, 2018: 589−592.

[本文引用: 5]

LEE M, LEE J, LEE D, et al. Robust lane detection via expanded self attention [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2022: 1949–1958.

[本文引用: 1]

XU H, WANG S, CAI X, et al. CurveLane-NAS: unifying lane-sensitive architecture search and adaptive point blending [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer, 2020: 689−704.

[本文引用: 1]

TABELINI L, BERRIEL R, PAIXAO T M, et al. PolyLaneNet: lane estimation via deep polynomial regression [C]// Proceedings of the 25th International Conference on Pattern Recognition . Milan: IEEE, 2021: 6150–6156.

[本文引用: 1]

LIU R, YUAN Z, LIU T, et al. End-to-end lane shape prediction with transformers [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2021: 3694–3702.

[本文引用: 1]

LIU L, CHEN X, ZHU S, et al. CondLaneNet: a top-to-down lane detection framework based on conditional convolution [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 3753–3762.

[本文引用: 2]

LI X, LI J, HU X, et al

Line-CNN: end-to-end traffic line detection with line proposal unit

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (1): 248- 258

DOI:10.1109/TITS.2019.2890870      [本文引用: 2]

TABELINI L, BERRIEL R, PAIXAO T M, et al. Keep your eyes on the lane: real-time attention-guided lane detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 294–302.

[本文引用: 3]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 3-19.

[本文引用: 1]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 936–944.

[本文引用: 1]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 8759–8768.

[本文引用: 1]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops . Honolulu: IEEE, 2017: 1132–1140.

[本文引用: 1]

WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 7794–7803.

[本文引用: 1]

/