<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 CGANet的整体架构

Fig.1 Overall architecture of CGANet

对于给定输入图像$ {\boldsymbol{I}} \in {{\bf{R}}^{3 \times H \times W}} $，CGANet的目标是检测出该图像中存在的车道线，可以表示为L={l₁, l₂ ,$\cdots $， l_M}，其中M为车道线的总数. 每条车道线l_k由如下有序坐标集表示：

(1)$ {l_k} = \{({x_1},{y_1}),({x_2},{y_2}),\cdots ,({x_{N_k}},{y_{N_k}})\}. $

式中：k为车道线的索引，N_k为第k条车道线的样本点的最大数量. 利用融入内容引导注意力（CGA）的骨干网络提取细化的特征，接着使用均衡特征金字塔网络（BFPN）实现多尺度特征融合，通过结合高级和低级语义特征，可以更好地获取到上下文信息，使模型更容易使用来自其他车道的信息. 将组合的特征馈送到检测网络（ROIGather）以检测车道线，分类和回归网络权重在所有级别的特征中共享.

2.2. 内容引导注意力

CBAM^[16]由一个通道注意力和一个空间注意力组成，它们被依次放置以计算通道和空间维度上的注意力权重. 通道注意力计算逐通道向量，同时使用平均池化和最大池化操作，生成通道注意力映射，即$ {{F}}_{{\text{CRM}}} ( \cdot )\in {{\bf{R}}^{C \times 1 \times 1}} $，以重新校准特征，与输入特征图逐元素相乘得到通道注意力图（F_C），极大地提高了网络的表示能力；空间注意力沿着通道轴应用平均池化和最大池化操作，应用卷积层来生成空间注意力映射，即$ {{F}}_{{\text{SRM}}} ( \cdot )\in {{\bf{R}}^{1 \times H \times W}} $，自适应地表示不同区域的重要程度，与通道注意力图逐元素相乘得到空间注意力图（F_S）. CBAM不平等地对待不同的通道和像素，将其应用于车道线检测任务中，可提高检测性能.

注意力机制的主要目的是使模型更多地聚焦在图像的道路部分上，而忽略图像中的其他对象（例如，天空、树木和行人等）. CBAM主要存在以下2个问题：CBAM内的通道注意力对通道差异进行建模，而不考虑上下文信息. 随着特征通道的扩展，其他对象信息被编码到特征图中. 这意味着对于每个特征通道，其他对象信息在空间维度上不均匀地分布. 此外，CBAM的另一个问题是，CBAM中的2个注意力权值被依次计算，它们之间没有得到充分的信息交换.

为了充分解决上述问题，基于CBAM提出内容引导注意力，以输入特征图$ {{\boldsymbol{F}}_{{\text{in}}}} \in {{\bf{R}}^{C \times H \times W}} $作为引导，与空间细化图（F_S）经由通道混洗操作得到最终细化的特征图，它与F_in具有相同的维度. CGA的结构如图2所示. CGA模块通过应用一维通道注意力从F_in中找到重要通道，并产生通道细化图F_C：

图 2

图 2 内容引导注意力结构图

Fig.2 Content-guided attention structure

(2)$ {{\boldsymbol{F}}_{\text{C}}} = {F_{{\text{CRM}}}}({{\boldsymbol{F}}_{{\text{in}}}}) \otimes {{\boldsymbol{F}}_{{\text{in}}}}. $

随后，在F_C上应用二维空间注意力，并生成空间细化图F_S：

(3)$ {{\boldsymbol{F}}_{\text{S}}} = {F_{{\text{SRM}}}}({{\boldsymbol{F}}_{\text{C}}}) \otimes {{\boldsymbol{F}}_{\text{C}}}. $

将F_S和F_in的每个通道经由通道混洗操作以交替方式重新布置，确保信息充分交互，以获得细化特征图：

(4)$ {{\boldsymbol{F}}_{{\text{out}}}} = \sigma ({\text{G}}{{\text{C}}_{{\text{7}} \times {\text{7}}}}({\text{CS}}([{{\boldsymbol{F}}_{{\text{in}}}},{{\boldsymbol{F}}_{\text{S}}}]))). $

式中：$ \sigma $表示sigmoid操作，$ {\text{CS}}( \cdot ) $表示通道混洗操作，$ {\text{GC}}_{7 \times 7}(\cdot ) $表示卷积核大小为7的分组卷积. CGA引导模型关注每个特征通道的重要区域，学习信息的强调或抑制. 因此，可以强调编码在特征中的更多有用信息，忽视无用信息，有效提高车道线检测精度.

F_CRM(X)、 F_SRM(X)表达式分别为

(5)$ \begin{split} F_{\mathrm{CRM}}(\boldsymbol{X}) & = \sigma(\operatorname{MLP}(\operatorname{AvgP}(\boldsymbol{X}) + \operatorname{MLP}(\operatorname{MaxP}(\boldsymbol{X})))) = \\& \sigma\left( {\boldsymbol{W}}_1\left( {\boldsymbol{W}}_0\left({\boldsymbol{F}}_{\text {avg }}^{\mathrm{c}}\right) + {\boldsymbol{W}}_1\left({\boldsymbol{W}}_0\left({\boldsymbol{F}}_{\max }^{\mathrm{c}}\right) \right) \right) \right)，\end{split} $

(6)$ \begin{split} F_{\mathrm{SRM}}(\boldsymbol{X}) & =\sigma\left(f^{7 \times 7}([\operatorname{Avg} \mathrm{P}(\boldsymbol{X}) ; \operatorname{MaxP}(\boldsymbol{X})])\right) =\\& \sigma\left(f^{7 \times 7}\left(\left[{\boldsymbol{F}}_{\text {avg }}^{\mathrm{s}} ; {\boldsymbol{F}}_{\max }^{\mathrm{s}}\right]\right)\right) .\end{split} $

式中：${\rm{AvgP}}( \cdot ) $表示全局平均池化，$ {\rm{MaxP}}( \cdot ) $表示全局最大池化；$ \sigma $表示sigmoid函数；对于MLP，为了减少参数的数量并限制模型的复杂度，隐藏层的数量设置为${{\bf{R}}^{C/r \times 1 \times 1}} $以减少计算成本，其中$r $为缩减比； W₀、W₁为MLP权重，$ {{\boldsymbol{W}}_0} \in {{\bf{R}}^{C/r \times C}}$，${{\boldsymbol{W}}_1} \in {{\bf{R}}^{C \times C/r}} $；$ {\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}$、${\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}} $、${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}} $和${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}} $分别表示跨通道维度的全局平均池化操作、跨通道维度的全局最大池化操作、跨空间维度的全局平均池化操作、跨空间维度的全局最大池化操作处理后得到的特征.

将CGA添加到传统的ResNet基础块中，称为内容引导注意力块（content-guided attention block，CGAB），其结构图如图3所示. CGAB还包括2个$ 3 \times 3 $的卷积块，一个整流线性单元（ReLU）激活函数和批量归一化层. 采用跳跃连接，它将CGAB的输入直接添加到最后一个ReLU层之前，选择跳跃连接的原因是模型足够简单，含有更少的参数量，处理速度更快，能够部署到实时设备中，帮助深度学习模型解决消失梯度问题，防止因网络深度过深造成过拟合的现象.

图 3

图 3 内容引导注意力块的结构图

Fig.3 Content-guided attention block structure

2.3. 均衡特征金字塔网络

车道线检测的难点之一是如何有效地表示和处理多尺度特征. 最近基于深度学习的车道线检测模型已经使用了特征金字塔网络（feature pyramid network，FPN）^[17]作为颈部模块，在低分辨率金字塔特征图中检测大对象，并且在高分辨率金字塔特征图中检测小对象. 高层神经元强烈响应整个对象，而其他神经元更有可能被局部纹理和模式激活的观点，表明增加自上而下的路径以传播高级语义特征的必要性. 然而，传统的自上而下的FPN受到单向信息流的限制. 为了有效解决这个问题，Liu等^[18]提出路径聚合网络（path aggregation network，PANet）. PANet在FPN的基础上添加了一个额外的自底向上路径聚合网络. 受到以上多尺度特征网络的启发，进而开展进一步的研究.

为了解决传统的特征金字塔网络在获取多尺度特征时，高级语义特征中的有用信息会随着向下融合的过程逐渐淡化，造成损失细节信息的问题，提出BFPN. 如图4所示，对于Backbone生成的每一个尺寸的特征，分别通过上下采样的操作生成金字塔对应的3个尺寸特征，再将相同尺寸的特征融合，从而保留高级语义特征中的有用信息与细节信息，以减轻尺度差异对模型性能的影响.

图 4

图 4 均衡特征金字塔的结构图

Fig.4 Balanced feature pyramid network structure

用$ {\boldsymbol{F}}'_1 $、$ {\boldsymbol{F}}'_2 $、$ {\boldsymbol{F}}'_3 $表示均衡特征金字塔输出的结果，表达式如下：

(7)$ {\boldsymbol{F}}'_1 = {{\boldsymbol{F}}_{\text{1}}}+{{\boldsymbol{F}}_{{\text{2\_up1}}}}+{{\boldsymbol{F}}_{{\text{3\_up2}}}}, $

(8)$ {\boldsymbol{F}}'_2 = {{\boldsymbol{F}}_2}+{{\boldsymbol{F}}_{{\text{1\_down1}}}}+{{\boldsymbol{F}}_{{\text{3\_up1}}}}, $

(9)$ {\boldsymbol{F}}'_3 = {{\boldsymbol{F}}_3}+{{\boldsymbol{F}}_{{\text{1\_down2}}}}+{{\boldsymbol{F}}_{{\text{2\_down1}}}}. $

式中：$\boldsymbol F_1 $、$\boldsymbol F_2 $、$\boldsymbol F_3 $分别表示主干网络的3层特征图，${\boldsymbol{F}}'_1 $、${\boldsymbol{F}}'_2 $、$ {\boldsymbol{F}}'_3$分别表示均衡特征金字塔输出的3层融合的特征图，$ {\boldsymbol F_{{\rm{1\_down1}}}}$、$ {\boldsymbol F_{{\rm{1\_down2}}}} $分别表示主干网络第1层特征图下采样1次和下采样2次后的结果，$ {\boldsymbol F_{{\rm{2\_up1}}}}$、${\boldsymbol F_{{\rm{2\_down1}}}} $分别表示主干网络第2层特征图上采样1次和下采样1次后的结果，${\boldsymbol F_{{\rm{3\_up1}}}} $、${\boldsymbol F_{{\rm{3\_up2}}}} $分别表示主干网络第3层特征图上采样1次和上采样2次后的结果.

为了对齐尺寸为后续特征融合做准备，使用反卷积操作进行上采样操作，利用空洞卷积进行下采样操作. 空洞卷积的稀疏采样方式相较于普通卷积的密集采样方式可以在不增加网络参数量的前提下增大感受野，使网络接收更广阔的上下文信息.

2.4. RoIGather

针对一些极端的情况，例如，不存在车道线存在的视觉证据，为了确定当前像素是否属于车道，必须要查看附近的特征，也就是上下文特征. 为此，采用ROIGather^[7]模块来进一步地学习车道线的特征，实现分类和回归任务.

首先，预定义的车道线分配给每个特征图之后，先使用ROIAlign^[19]获得每条预定义车道线的ROI特征（$ {{\boldsymbol{X}}_{\rm{P}}} \in {{\bf{R}}^{C \times {N_{\rm{P}}}}} $），使用双线性插值来计算在这些位置的输入特征的确切值. 对提取的ROI特征执行$ 9 \times 9 $的一维卷积以收集每个通道像素的附近特征. 为了节省内存，使用全连通算法进一步提取预定义的车道线特征（$ {{\boldsymbol{X}}_{\rm{P}}} \in {{\bf{R}}^{C \times 1}} $）. 此外，ROIGather模块还建立预定义车道线和整个特征图之间的关系，为了节省算力，先将全局特征图（$ {{\boldsymbol{X}}_{\rm{f}}} \in {{\bf{R}}^{C \times H \times W}} $）调整至大小与最小的特征图尺寸相等，并展平为$ {{\boldsymbol{X}}_{\rm{f}}} \in {{\bf{R}}^{C \times HW}} $，再计算每条预定义车道线的ROI特征（X_P）和全局特征图（X_f）之间的注意力矩阵^[20]：

(10)$ {\boldsymbol{W}} = f\left({{{\boldsymbol{X}}_{\rm{P}}^{\rm{T}}{{\boldsymbol{X}}_{\rm{f}}}}}/{{\sqrt C }}\right). $

式中：f为归一化函数softmax，C为特征图通道数.

聚合特征表达式如下：

(11)$ {\boldsymbol{G}} = {\boldsymbol{WX}}_{\rm{f}}^{\rm{T}}. $

输出$ {\boldsymbol{G}} $反映了X_f到X_P的奖励，其选自X_f的所有位置，最后将输出直接与原始输入X_P相加.

2.5. 损失函数

CGANet采用的损失函数为

(12)$ {L}_{{\text{total}}}^{} = w_{{\text{cls}}}^{}{L}_{{\text{cls}}}^{}+w_{{\text{SL1}}}^{}{L}_{{\text{SL1}}}^{}+w_{{\text{LIoU}}}^{}{L}_{{\text{LIoU}}}^{}+w_{{\text{seg}}}^{}{L}_{{\mathrm{seg}}}^{}. $

式中：$ {L}_{{\text{cls}}}^{} $、$ {L}_{{\text{SL1}}}^{} $、$ {L}_{{\text{LIoU}}}^{} $、$ {L}_{{\mathrm{seg}}} $分别表示Focal Loss、smooth L1 Loss、Line IoU Loss和Cross-entropy Loss；w_cls、w_SL1、w_LIoU、w_seg为超参数，分别设置为6.0、0.5、2.0、0.4.

Focal Loss旨在解决分类任务中的类别不平衡问题，通过对难以分类的示例给予更多权重缓解此问题.

(13)$ {L}_{{\text{cls}}}^{} = E_{{\text{Ic}}}^{} \in I\left\{ { - \alpha _{\rm{t}}^{}{{(1 - p_{\rm{t}}^{})}^\gamma }\log\; p_{\rm{t}}^{}} \right\}. $

式中：$ {\alpha _{\text{t}}} $为控制简单示例和困难示例之间平衡的参数，$ {p_{\rm{t}}} $为给定示例的正确类别的预测概率，$ \gamma $为控制聚焦效果的调节因子，$ E_{\text{Ic}} \in {I\{ } \cdot {\} } $表示在训练集中所有样本的平均算子.

为了减少离群点对模型训练的影响，Smooth L1 Loss通过平滑和线性化的方式，对不同大小的误差采用不同的损失值，从而在处理离群点或大误差时降低了损失的梯度，使模型更加稳健.

(14)${\mathrm{SL}}1(x) = \left\{ {\begin{array}{*{20}{c}}{0.5{x^2},}&{|x| < 1.0},\\{|x| - 0.5,}&{{\mathrm{其他}}}.\end{array}} \right.$

(15)$ {L}_{{\text{SL1}}}^{} = \frac{1}{N} \sum\nolimits_{i = 1}^N {{\mathrm{SL}}1(x)} . $

式中：x为模型的预测值与实际目标值之间的差异，$ {L}_{{\text{SL1}}}^{} $为起始点坐标、θ角和车道长度回归的Smooth L1 Loss.

Line IoU Loss用于度量2条线段之间的重叠程度，通过计算交集长度与并集长度之比来评估线段的准确性，从而优化检测模型.

(16)$ {{L}_{{\text{LIoU}}}^{} = 1 - \frac{{\displaystyle \sum\nolimits_{i = 1}^N {{\text{I}}{{\text{L}}_i}} }}{{\displaystyle \sum\nolimits_{i = 1}^N {{\text{U}}{{\text{L}}_i}} }}.} $

式中：$ {\text{IL}} $为2条线段之间的交集部分的长度，$ {\text{UL}} $为2条线段之间的并集部分的长度.

Cross-entropy Loss作为辅助分类损失，衡量模型预测与真实标签之间的不确定性和差异，有助于模型产生更准确的结果. 对于车道线检测任务来说，使用该损失可以帮助减少误检和漏检，以提升模型精度.

(17)$ {L}_{{\mathrm{seg}}}^{} = {E_{{\mathrm{Ic}}}} \in I\left\{ { - y\log\; \hat p - (1 - y)\log\; (1 - \hat p)} \right\}. $

式中：$ y $为真实概率分布；$ \hat p $表示预测概率分布，softmax将输出的结果进行处理，使预测概率取值范围为[0,1.0]，分类的预测值和为1.0.

3. 实验分析

3.1. 数据集

为了广泛地评估所提出的方法，在3个广泛使用的车道检测数据集上进行实验：CULane、Tusimple和CurveLanes. CULane为广泛使用的大规模车道检测数据集之一，也是最复杂的数据集之一，它包含9个具有挑战性的场景，如拥挤、夜晚、遮挡车道线等多种情况. TuSimple车道检测基准也是车道检测中使用最广泛的数据集之一，它是在高速公路的稳定照明条件下收集的. CurveLanes包含具有复杂拓扑的车道线，例如曲线，分叉和密集车道. 3个数据集的详细信息如表1所示. 表中，N_tra、N_val、N_test表示训练集、验证集、测试集的大小.

表 1 CULane、Tusimple、CurveLanes数据集的详细信息

Tab.1 Detailed information of CULane、Tusimple、CurveLanes datasets

数据集	N_tra/10³	N_val/10³	N_test/10³	道路类型	分辨率
CULane	88.9	9.7	34.7	Urban&Highway	1640×590
Tusimple	3.3	0.4	2.8	Highway	1280×720
CurveLanes	100.0	20.0	30.0	Urban&Highway	2650 ×1440

3.2. 实验环境及训练策略

所有输入图像的大小均调整为320×800. 在优化过程中，使用AdamW优化器，初始学习率为10⁻³，采用余弦衰减学习率策略. 分别为CULane、Tusimple和CurveLanes训练了70、300和60个epoch（较大的差异是由于数据集大小的差异）. 对于数据增强，使用随机仿射变换（平移、旋转和缩放），随机水平翻转. CGANet是基于Pytorch实现的，具有2个GPU来运行所有的实验. 所有实验结果在Intel(R) Xeon(R) Silver 4110和RTX 2080 Ti的机器上计算.

3.3. 评价指标

对于CULane数据集，采用SCNN^[8]的评估指标，该指标利用F1作为度量. 首先将车道线看作宽度为30像素的线，计算真实车道线和预测车道线之间的交并比（intersection over union，IoU），然后根据预设的阈值，将检测结果划分为真阳性（$ {\text{TP}} $）,假阳性（$ {\text{FP}} $）以及假阴性（$ {\text{FN}} $）. IoU大于阈值（0.5）的预测车道线被认为是$ {\text{TP}} $. 精度P、召回率R、F1值F1的定义分别如下：

(18)$ P = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FP}}}}, $

(19)$ R = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FN}}}}, $

(20)$ {\mathrm{F}}1 = \frac{{2PR}}{{P+R}}. $

F1越接近于1.0代表模型的性能越好. 另外，本研究还采用了一个新的评价指标mF1进行评估^[7].

对于Tusimple数据集，有3个官方指标：准确性$ {\text{Acc}} $、假阳性的占比P_FP和假阴性的占比P_FN. 其中，Acc的表达式如下：

(21)$ {\text{Acc}} = \frac{{\displaystyle\sum\nolimits_{{\text{clip}}} {{C_{{\text{clip}}}}} }}{{\displaystyle\sum\nolimits_{{\text{slip}}} {{S_{{\text{clip}}}}} }}. $

式中：$ {C_{{\text{clip}}}} $为正确预测的车道点的数量，$ {S_{{\text{clip}}}} $为图像的基准真值点的数目. 如果超过85%的预测车道点在基准真值点的20个像素内，认为预测车道是正确的.

对于CurveLanes数据集，采用F1、P、R作为评价指标.

3.4. 实验结果

3.4.1. CULane

CGANet在CULane数据集上与其他算法的对比实验结果如表2所示. 表中，FPS为每秒运算帧数，FLOPs为浮点运算次数，N_cross表示在Cross场景中的漏检图片数量. 本研究所提方法CGANet实现了80.13%的F1分数. 此外，本研究方法在9个场景中的7个场景中实现了最佳性能，说明本研究算法对不同场景具有鲁棒性.其检测效果图如图5所示. 图中，不同的车道线实例由不同的颜色表示. CGANet与基线方法CLRNet的ResNet101版本相比，对于F1分数实现了0.65个百分点的改善，并且具有相似的帧数，即在实现更高的F1分数的同时，保持了高效率，证明了该方法的有效性.

表 2 CGANet在CULane上的实验结果

Tab.2 CGANet’s experimental results on CULane dataset

方法	基线网络	F1/%	mF1/%	F1/%								N_cross	FPS/帧	Flops/10⁹
方法	基线网络	F1/%	mF1/%	Normal	Crowd	Dazzle	Shadow	No line	Arrow	Curve	Ningt	N_cross	FPS/帧	Flops/10⁹
SCNN^[8]	VGG16	71.60	38.34	90.60	69.70	58.50	66.90	43.40	84.10	64.40	66.10	1990	7.5	328.4
UFLD^[2]	ResNet18	68.40	38.94	85.90	63.60	57.00	69.60	40.60	79.40	65.20	66.70	2037	282.0	8.4
UFLD^[2]	ResNet34	72.30	38.96	87.70	66.00	58.40	68.80	40.20	81.00	57.90	62.10	1473	170.0	16.9
LaneATT^[15]	ResNet18	74.50	47.35	90.71	69.71	61.82	64.03	47.13	86.82	64.75	66.58	1020	153.0	9.3
	ResNet34	74.00	47.57	91.14	72.03	62.47	74.15	47.39	87.38	64.75	68.72	1330	130.0	18.0
	ResNet122	74.40	48.48	90.74	69.74	65.47	72.31	48.46	85.29	68.72	68.81	1264	21.0	70.5
CondLaneNet^[14]	ResNet18	75.13	48.84	91.87	74.87	66.72	76.01	50.39	88.37	72.40	71.23	1364	175.0	10.2
	ResNet34	76.68	49.11	92.38	74.14	67.17	75.93	49.85	88.89	72.88	71.92	1387	128.0	19.6
	ResNet101	77.02	50.83	92.47	74.14	66.93	76.91	52.13	89.16	72.21	72.80	1201	49.0	44.8
CLRerNet^[3]	ResNet18	76.12	52.11	92.60	75.92	70.23	77.33	52.34	88.57	72.68	73.25	1458	119.0	13.2
	ResNet34	77.27	52.45	92.53	75.96	70.45	78.92	52.98	89.23	72.81	73.56	1334	104.0	24.5
	ResNet101	78.80	52.68	92.80	76.12	69.84	78.95	53.65	89.69	73.45	73.37	1289	50.0	41.2
CLRNet^[7]	ResNet18	78.14	51.92	92.69	75.06	69.70	75.39	51.96	89.25	68.09	73.22	1520	119.0	12.9
	ResNet34	78.74	51.14	92.49	75.33	70.57	75.92	52.01	89.59	72.77	73.02	1448	103.0	22.6
	ResNet101	79.48	51.55	92.85	75.78	68.49	78.33	52.50	88.79	72.57	73.51	1456	46.0	40.5
CGANet (本研究方法)	ResNet18	79.58	52.62	92.89	76.03	69.53	76.60	49.73	88.57	72.37	73.13	1321	120.0	13.7
	ResNet34	79.73	52.31	92.87	75.86	70.57	76.88	50.03	89.79	73.23	73.74	1216	112.0	30.6
	ResNet101	80.13	52.88	92.54	76.78	68.49	79.51	50.58	87.62	73.68	73.36	1262	57.0	42.7

图 5

图 5 CULane数据集9种场景检测效果图

Fig.5 Nine scene detection renderings on CULane dataset

3.4.2. Tusimple

CGANet在Tusimple数据集上的结果如表3所示. 相对而言，由于数据量较小和单一场景较多，该数据集上不同方法之间差距较小. 本研究方法实现了97.45%的F1分数以及最高的Acc得分（96.67%）. 同时将假阳性率和假阴性率降至更低水平. 实验结果表明，所提出的方法在预测车道线方面更为精确，且更不容易产生错误，这对于车道线检测技术的实际应用至关重要.

表 3 CGANet在Tusimple上的实验结果

Tab.3 CGANet’s experimental results on TuSimple dataset

方法	基线网络	F1/%	Acc/%	P_FP/%	P_FN/%
SCNN^[8]	VGG16	94.97	93.12	7.17	2.20
UFLD^[2]	ResNet18	85.87	93.82	20.05	8.92
UFLD^[2]	ResNet34	86.02	92.86	19.91	8.75
LaneATT^[15]	ResNet18	95.71	92.10	4.56	8.01
	ResNet34	95.77	92.63	4.53	7.92
	ResNet122	95.59	92.57	6.64	7.17
CondLaneNet^[13]	ResNet18	96.01	93.48	3.18	7.28
	ResNet34	95.98	93.37	3.20	8.80
	ResNet101	96.24	94.54	3.01	8.82
CLRNet^[7]	ResNet18	95.04	93.97	3.09	7.02
	ResNet34	94.73	93.11	2.87	7.92
	ResNet101	97.27	96.33	1.86	3.63
CGANet (本研究方法)	ResNet18	96.73	95.24	1.84	4.80
	ResNet34	96.02	93.78	1.97	6.14
	ResNet101	97.45	96.67	2.76	2.31

CGANet在Tusimple数据集上的车道线检测效果如图6所示，考虑到TuSimple数据集包含了较为简单的驾驶场景、较优的外部环境条件以及清晰可辨的车道线，因此展示的检测效果表现良好，证明在条件较为理想的情况下，本节介绍的车道线检测方法能够可靠地执行其功能.

图 6

图 6 Tusimple数据集车道线检测效果图

Fig.6 Lane detection rendering of Tusimple dataset

3.4.3. CurveLanes

CGANet以及CLRNet在CurveLanes上的结果如表4所示. CurveLanes包含具有复杂拓扑的车道线，例如曲线、分叉和密集车道. 在这种高度复杂的测试环境中， CGANet，尤其是采用ResNet101作为基础架构的版本达到了86.39%的F1分数，比CLRNet的ResNet101版本的提升了0.29个百分点.

表 4 CGANet在CurveLanes上的实验结果

Tab.4 CGANet’s experimental results on CurveLanes dataset

方法	基线网络	F1/%	P/%	R/%	FLOPs/10⁹
CLRNet^[7]	ResNet18	85.09	87.75	82.58	10.3
	ResNet34	85.92	88.29	83.68	19.7
	ResNet101	86.10	88.98	83.41	44.9
CGANet (本研究方法)	ResNet18	85.98	91.05	81.12	18.4
	ResNet34	86.18	91.62	81.57	20.1
	ResNet101	86.39	91.52	81.61	44.8

CGANet在CurveLanes数据集上的车道线检测效果如图7所示. 可以看出，在复杂的数据集上也能够正确检测出车道线位置，进一步证明所提方法的有效性，说明该算法具备较强的车道线检测能力.

图 7

图 7 CurveLanes数据集车道线检测效果图

Fig.7 Lane detection effect on CurveLanes dataset

从CGANet在以上3个数据集中的表现可以看出，该算法在车道线检测任务中的表现优异，取得了较好的成绩，这不仅证明了将内容引导注意力应用于车道线检测任务的有效性，也突显了其在当前和未来车道线检测技术发展中的潜力.

3.5. 消融实验

为了验证所提出的方法的不同组件的效果，在Tusimple数据集上进行定性和定量实验. 首先展示各个的模块的定量结果，如表5所示，用相同的训练设置和不同的模块组合进行实验. 在基线中依次单独添加CGA、BFPN和Cross-entropy Loss（CeLoss），F1分数均有所提升，验证了每个组件的有效性. 同时添加3个组件进一步提高了F1分数到96.72%. 该结果验证了本研究方法的定位精度得到了较大的提升，并且FP指标和FN指标均有所下降，验证了该算法的有效性.

表 5 CGANet消融实验

Tab.5 CGANet ablation experiment

Baseline	CGA	BFPN	CeLoss	F1/%	Acc/%	P_FP/%	P_FN/%
√	√	—	—	95.83	94.73	2.68	5.49
√	—	√	—	95.54	94.71	2.85	6.24
√	—	—	√	95.06	94.07	3.02	6.93
√	√	√	—	96.13	94.96	2.54	5.30
√	√	√	√	96.72	95.24	1.84	4.80

通过以上实验，不仅验证了单个组件对模型性能的正面影响，也证实了这些组件在联合应用时能够相互协同，推动车道线检测性能达到新的高度. 证明了本研究方法在实际应用中具备显著的优势和潜力.

3.6. CGA可视化分析

为了深入理解内容引导注意力（CGA）在网络中的作用机制，采取可视化技术对其进行展示，如图8所示. 图中，颜色的亮度反映了权重的大小，其中更亮的区域表示更高的权重值. 这一可视化结果清晰地证明了，本研究所提出的CGA机制能够有效捕获图像中含有丰富语义信息的全局上下文，并优先将注意力集中于车道线上. 即便是在车道线部分被遮挡的情况下，CGA仍然能够准确地识别并聚焦于这些关键区域，从而显著提升模型对车道线的检测能力.

图 8

图 8 CGA权值在CULane数据集的可视化结果

Fig.8 Visualization of CGA weights in CULane dataset

4. 结　语

提出基于内容引导注意力的车道线检测网络（CGANet），解决现有车道线检测任务在复杂道路场景下性能不佳的问题，并通过实验验证其性能. 所提出的CGA可以增强主干网络的特征提取能力，将更多的注意力集中在车道线像素和更重要的通道信息上；利用BFPN实现在不同层级之间进行均衡特征融合；使用交叉熵损失作为辅助分类损失，激励模型生成清晰的概率分布，进一步提升模型精度. 实验结果表明，本研究方法有效提升了检测精度，为自动驾驶技术的进一步发展提供了有力支持. 未来将进一步从实时性、多模态融合方面展开研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHENG T, FANG H, ZHANG Y, et al. RESA: recurrent feature-shift aggregator for lane detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2021: 3547−3554.

[本文引用: 2]

[2]

QIN Z, WANG H, LI X. Ultra fast structure-aware deep lane detection [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer, 2020: 276−291.

[本文引用: 4]

[3]

HONDA H, UCHIDA Y. CLRerNet: improving confidence of lane detection with LaneIoU [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2024: 1165–1174.

[4]

HAN J, DENG X, CAI X, Laneformer: object-aware row-column transformers for lane detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2022: 799−807.

[5]

LEE D H, LIU J L

End-to-end deep learning of lane detection and path prediction for real-time autonomous driving

[J]. Signal, Image and Video Processing, 2023, 17 (1): 199- 205

DOI:10.1007/s11760-022-02222-2 [本文引用: 1]

[6]

PAN H, CHANG X, SUN W

Multitask knowledge distillation guides end-to-end lane detection

[J]. IEEE Transactions on Industrial Informatics, 2023, 19 (9): 9703- 9712

DOI:10.1109/TII.2023.3233975 [本文引用: 1]

[7]

ZHENG T, HUANG Y, LIU Y, et al. CLRNet: cross layer refinement network for lane detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 888–897.

[本文引用: 7]

[8]

PAN X, SHI J, LUO P, et al. Spatial as deep: Spatial cnn for traffic scene understanding [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New Orleans: AAAI Press, 2018: 589−592.

[本文引用: 5]

[9]

LEE M, LEE J, LEE D, et al. Robust lane detection via expanded self attention [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2022: 1949–1958.

[10]

XU H, WANG S, CAI X, et al. CurveLane-NAS: unifying lane-sensitive architecture search and adaptive point blending [C]// Computer Vision–ECCV 2020: 16th European Conference . Glasgow: Springer, 2020: 689−704.

[11]

TABELINI L, BERRIEL R, PAIXAO T M, et al. PolyLaneNet: lane estimation via deep polynomial regression [C]// Proceedings of the 25th International Conference on Pattern Recognition . Milan: IEEE, 2021: 6150–6156.

[12]

LIU R, YUAN Z, LIU T, et al. End-to-end lane shape prediction with transformers [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2021: 3694–3702.

[13]

LIU L, CHEN X, ZHU S, et al. CondLaneNet: a top-to-down lane detection framework based on conditional convolution [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 3753–3762.

[本文引用: 2]

[14]

LI X, LI J, HU X, et al

Line-CNN: end-to-end traffic line detection with line proposal unit

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (1): 248- 258

DOI:10.1109/TITS.2019.2890870 [本文引用: 2]

[15]

TABELINI L, BERRIEL R, PAIXAO T M, et al. Keep your eyes on the lane: real-time attention-guided lane detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 294–302.

[本文引用: 3]

[16]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 3-19.

[17]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 936–944.

[18]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 8759–8768.

[19]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops . Honolulu: IEEE, 2017: 1132–1140.

[20]

WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 7794–7803.