浙江大学学报(工学版), 2025, 59(9): 1784-1792 doi: 10.3785/j.issn.1008-973X.2025.09.002

计算机技术

基于跨任务双向特征交互的交通场景感知算法

林鹏志,, 钟铭恩,, 范康, 谭佳威, 林志强

1. 厦门理工学院 机械与汽车工程学院,福建 厦门 361024

2. 厦门大学 航空航天学院,福建 厦门 361005

Traffic scene perception algorithm based on cross-task bidirectional feature interaction

LIN Pengzhi,, ZHONG Ming’en,, FAN Kang, TAN Jiawei, LIN Zhiqiang

1. School of Mechanical and Automotive Engineering, Xiamen University of Technology, Xiamen 361024, China

2. School of Aerospace Engineering, Xiamen University, Xiamen 361005, China

通讯作者: 钟铭恩,男,教授. orcid.org/0000-0003-0775-7850. E-mail: zhongmingen@xmut.edu.cn

收稿日期: 2024-12-5  

基金资助: 福建省自然科学基金资助项目(2023J011439).

Received: 2024-12-5  

Fund supported: 福建省自然科学基金资助项目(2023J011439).

作者简介 About authors

林鹏志(2000—),男,硕士生,从事机器视觉和智慧交通研究.orcid.org/0009-0005-8197-9429.E-mail:2477541661@qq.com , E-mail:2477541661@qq.com

摘要

为了提高交通场景感知算法的整体性能,利用语义分割任务和深度估计任务之间的显式和隐式相关性,依据跨任务双向特征交互原理,提出面向城市街道自动驾驶的感知算法SDFormer++. 在跨任务特征提取阶段加入交互门控线性单元,形成高质量的特定任务特征表达;构建多任务特征交互模块,应用双向注意力机制,借助跨域共享任务的特征信息来增强初始特定任务特征;设计多尺度特征融合模块,整合不同层次的信息,以获取精细的高分辨率特征. 在Cityscapes数据集上的实验结果表明,算法的像素分割平均交并比mIoU为82.4%,深度估计平均平方根误差RMSE和绝对相对误差ARE分别为4.453和0.130,针对5类典型交通参与者的平均距离估计误差为6.0%,均超越InvPT++、SDFormer等主流多任务算法.

关键词: 跨任务交互 ; 多任务学习 ; 交通环境感知 ; 语义分割 ; 深度估计

Abstract

A traffic scene perception algorithm (SDFormer++) based on the principle of cross-task bidirectional feature interaction for autonomous driving in urban street scenarios was proposed by leveraging the explicit and implicit correlations between the semantic segmentation tasks and the depth estimation tasks to improve the overall performance of traffic scene perception algorithms. An interaction-gated linear unit was added into the cross-task feature extraction stage to form high-quality task-specific feature representations. A multi-task feature interaction module that used the bidirectional attention mechanism was constructed to enhance the initial task-specific features by utilizing the feature information of shared cross-domain tasks. A multi-scale feature fusion module was designed to integrate information at different levels to obtain fine high-resolution features. Experimental results on the Cityscapes dataset showed that the algorithm achieved a mean intersection over union (mIoU) of 82.4% for pixel segmentation, a root mean square error (RMSE) of 4.453 for depth estimation, an absolute relative error (ARE) of 0.130 for depth estimation, and an average distance estimation error of 6.0% for five typical traffic participants, all of which outperformed the existing mainstream multi-task algorithms such as InvPT++ and SDFormer.

Keywords: cross-task interaction ; multi-task learning ; traffic environment perception ; semantic segmentation ; depth estimation

PDF (2358KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

林鹏志, 钟铭恩, 范康, 谭佳威, 林志强. 基于跨任务双向特征交互的交通场景感知算法. 浙江大学学报(工学版)[J], 2025, 59(9): 1784-1792 doi:10.3785/j.issn.1008-973X.2025.09.002

LIN Pengzhi, ZHONG Ming’en, FAN Kang, TAN Jiawei, LIN Zhiqiang. Traffic scene perception algorithm based on cross-task bidirectional feature interaction. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(9): 1784-1792 doi:10.3785/j.issn.1008-973X.2025.09.002

实现多个相互关联任务的并发学习和推理一直是多任务场景理解的目标. 在面向自动驾驶领域的交通场景感知[1]中,语义分割[2-4]对图像中关键区域的像素进行语义解析,单目深度估计[5-7]通过推理图像中的像素来描述场景中物体的空间几何位置关系. 二者都需要对视觉场景进行像素级理解,因此存在相当密切的直接或间接关联. 充分挖掘这些相关性,不仅有利于不同任务之间共享低级简单特征,而且能够实现高级抽象特征的交互,这个过程一般被称为跨任务特征交互[8]. 其重要性在于能够促进任务之间的正迁移,即一个任务的学习有助于提升其他任务的性能. 因此,如何在多任务学习[9-10]中高效地进行跨任务特征交互是一个值得探索的问题.

过去主流的多任务交通场景感知算法大多基于卷积神经网络(CNN)框架. 例如,LeTFuser算法[11]通过感知模块中的卷积标记嵌入来处理2D输入图像,并利用从RGB-D相机获得的观测数据进行编码,通过CNN从多张RGB图像中提取和融合特征. EHSINet算法[12]依托全卷积网络实现邻域特征之间的长距离和高阶空间交互,能够自适应地处理多项任务. Tan等[13]通过引入C2SPD模块提取特征,并基于各种任务之间的差异提出双颈架构来进行优化. 这些方法通过建立多任务特征交互机制,增强了协调学习效果,但由于受到卷积网络架构的局部计算特性影响,语义信息不连贯,导致跨任务交互机制无法充分发挥预期作用,并带来了不必要的噪声. 为此,越来越多的研究者引入Transformer来捕获密集预测问题中的长距离依赖关系[14],诞生了诸如InvPT++[15]等众多优秀的多任务环境感知算法. 在本研究团队的早期工作中,提出了联合语义分割和深度估计的交通环境感知算法SDFormer[16],并在当时取得了最优的综合性能. 然而,其特征交互质量还有待于进一步的提升,具体表现在:1)由于不同任务具有显著不同的优化目标,特征间的互补机制未必都能起到积极作用,而冗余信息的融合可能会限制跨任务交互的效果;2)直接使用编码器抽取的共性信息来增强特定任务特征,但是未对这些信息本身进行强化,这种较弱的任务表征导致特征交互机制无法充分发挥作用;3)只使用具有深层表示的特定任务特征参与任务推理,而舍弃包含丰富细节的浅层表示特征,可能削弱了模型的整体性能.

针对这些问题,着眼于改善多任务学习的交互质量,进一步改进SDFormer,提出采用双向注意力机制的SDFormer++. 该模型主要面向具有路面等级良好、划线清晰完整、交通标志标识完备、交通信号灯规范等特点的城市街道交通环境,旨在实现像素级别的语义分割和深度估计视觉任务. 为了提升对交通场景的多任务协同感知和理解的准确性,对交通环境图像中的多尺度特征空间信息以及跨任务上下文间的长程关联性进行建模,同时整合深层语义信息和浅层语义信息. 不同于现有的以Transformer为架构的算法模型,在SDFormer++中使用特定任务特征编码器,并在该编码器中加入交互门控线性单元(interaction gated linear units, IGLU)来区分不同任务类别的特征,减少跨任务交互过程中冗余特征带来的干扰,从而形成更为清晰有序且具有高度区分性的特征表示. 这种策略与过去仅提取和利用深层语义信息而舍弃浅层语义信息的做法不同,能够让不同层次的语义信息的交互更加完整. 此外,在SDFormer++中设计多尺度特征融合模块来融合不同尺度的特征,增强模型对复杂交通环境的适应性和鲁棒性. 实验结果证明了SDFormer++的良好性能.

1. 网络结构设计

1.1. 整体结构

SDFormer++模型由任务特征编码网络和任务特征解码网络构成,整体框架如图1所示. 输入的图像首先经过基础特征编码器,Swin-Transformer作为骨干网络从图像中提取多尺度的任务基础特征图(E3、E4、E5). 这些基础特征不直接参与交互,而是被输入到特定编码器作进一步的处理. 在对特定任务特征进行编码的过程中选择具有高级抽象特征的E3,将其传递给跨任务特征提取(cross-task feature extraction, CFE)模块,用于提取初始特定任务特征,其中IGLU负责抑制与当前任务无关的像素信息,并生成更有判别性的特征表示以用于后续特征交互. 在任务特征解码网络中,解码器由连续堆叠的多任务特征交互(multi-task feature interaction, MFI)模块组成. 该模块在解码过程中对任务自身特征序列和任务间特征序列执行双向注意力机制,以此获取高质量的特定任务特征. 此外,采用多尺度特征融合(multi-scale feature fusion, MFF)模块来整合不同尺度的特征图,使模型在保持足够细节的同时能够进行有效的抽象,从而提高各任务的精确度. 最终输出的特征由各任务的解码分支进行推理.

图 1

图 1   交通场景感知算法SDFormer++的整体结构

Fig.1   Overall structure of traffic scene perception algorithm SDFormer++


1.2. 跨任务特征提取模块

在使用共享编码器的多任务网络模型中,因为不同任务的优化目标不同,所以在进行特征提取时互补信息可能会携带杂质信息. 为了减少杂质信息参与交互带来的负面影响,设计CFE模块,具体结构如图2所示.

图 2

图 2   跨任务特征提取模块结构图

Fig.2   Structure diagram of cross-task feature extraction module


在前期编码阶段,通过交互语义分割和深度估计2个任务分支的查询(Q)和关键字(K),生成注意力图WsWd. 将共享任务模式特征图Wc与各自任务分支的值矩阵相乘,通过线性投射得到信息特征XsXd. 采用IGLU来滤除与当前任务需求不符的冗余信息,并进行残差连接. 通过内设更新门和重置门来控制信息的流动,得到2个任务分支的特定任务特征FsFd

$ {\text{IGLU}} = {\text{LP}}\left\{ {{\text{SiLu}}\left[ {{\text{LP}}\left( {\boldsymbol{X}} \right)} \right]} \right\} , \qquad $

$ {{\boldsymbol{F}}_{\text{s}}} = {\text{IGLU}}\left( {{{\boldsymbol X}_{\text{d}}}} \right)+{\text{IGLU}}\left( {{{\boldsymbol X}_{\text{s}}}} \right)+{{\boldsymbol X}_{\text{d}}} , $

$ {{\boldsymbol{F}}_{\text{d}}} = {\text{IGLU}}\left( {{{\boldsymbol X}_{\text{d}}}} \right)+{\text{IGLU}}\left( {{{\boldsymbol X}_{\text{s}}}} \right)+{{\boldsymbol X}_{\text{s}}} . $

式中:SiLu表示激活函数,LP表示线性投射处理. 该模块中IGLU的引入是SDFormer++相对于SDFormer作出的一项改进.

1.3. 多任务特征交互模块

MFI模块接收来自各任务的特定特征{Fs, Fd}∈RH×W×CHWC分别为特征张量的高、宽和通道数)和基础特征Fb,具体结构如图3所示. 该模块既在单一任务特征序列中进行自注意力增强,又在不同任务特征序列之间执行交叉注意力操作. 通过连续堆叠该模块,能够更好地对不同尺度特征图的信息进行建模. MFI的主要工作原理为:1)利用卷积块对齐FsFd与基础特征Fb的通道数,将经过卷积处理的特定任务特征和基础特征相加,得到融合空间细节与跨任务语义的特征F;2)分别采用卷积和池化的方式处理F,获得包含不同层次梯度信息的任务特征序列FcFp;3)对注意力矩阵执行交叉注意力操作,得到注意力增强后的权重矩阵Am;4)将特征序列FcAm进行加权融合;5)利用多层感知机(MLP)对融合后的特征进行拆分和残差连接,得到2个任务分支的输出特征.

图 3

图 3   多任务特征交互模块结构图

Fig.3   Structure diagram of multi-task feature interaction module


1.4. 多尺度特征融合模块

城市街道交通场景中的物体往往具有较为广泛的尺度范围,这容易降低算法的性能. 通常采用特征金字塔网络(feature pyramid network, FPN)等特征聚合策略来缓解这个问题,但是大部分方法没有对具有不同分辨率的特征进行深度融合. 为此,针对性地设计MFF模块,具体结构如图4所示. 向MFF模块输入特征图F3、F4、F5,其分辨率分别为初始输入图像的1/32、1/16、1/8. 特别地,为了融合多尺度特征,在特征图F3之后使用金字塔池模型(pyramid pooling model, PPM)来扩大感受野. 分别使用卷积块和转置卷积块将不同特征图的分辨率都调整为输入图像的1/16后,将这些尺度一致的特定任务特征进行拼接,输入到对应的任务预测头中,得到最终推理结果.

图 4

图 4   多尺度特征融合模块结构图

Fig.4   Structure diagram of multi-scale feature fusion module


1.5. 损失函数

采用交叉熵作为语义分割任务的网络训练损失函数,记为$L_{\text{seg}}$. 采用berHu函数作为深度估计任务的网络训练损失函数,计算原理为

$ L_{\text {depth }}= \begin{cases}\left|d_i\right|, & \left|d_i\right| \leqslant \delta ; \\ \dfrac{d_i^2+\delta^2}{2 \delta}, & \left|d_i\right|>\delta .\end{cases} $

式中:$ {d}_{i} $为像素i处真实深度和预测深度的差值,$ \delta = 0.2\max \,\,(\left| {{d_i}} \right|) $. 定义网络模型的总损失为深度估计损失和语义分割损失的加权和:

$ L_{\text{total}} = L_{\text{depth}}+\alpha L_{\text{seg}} . $

式中:$ \alpha $为用于平衡两者对网络影响的权重参数. 在实验中,当$ \alpha $=50时,能够最大程度地平衡不同任务的损失量级,使网络取得较好的整体性能.

2. 实验与分析

2.1. 数据集

利用Cityscapes[17]数据集展开验证实验. 数据集中精细的像素级语义标注覆盖了道路、车辆等19类城市场景要素,同时RGB图像均配有经立体匹配生成的视差图;其多任务标注体系满足实验需求. 鉴于官方测试集标注未公开,为了保证评估过程的规范性与不同算法之间的可比性,所有消融实验和对比实验均在验证集中的2 975张标准图像上进行.

2.2. 实验平台与参数设置

实验主机的操作系统为64位 Windows 10,硬件采用Intel(R) Core(TM) i7-14700KF CPU和NVIDIA GeForce RTX 4090显卡. 算法开发环境采用Python 3.7和 PyTorch框架. 训练时,采用Adam优化器,初始学习率设置4×10−5,权重衰减率设置为10−6. 所有对比模型均在数据集上进行45 000次迭代训练,批处理大小设置为4.

2.3. 评价指标

选择平均交并比(mean intersection over union, mIoU)作为分割性能的评价指标:

$ \mathrm{mIoU}=\frac{1}{n+1} \displaystyle\sum_{i=0}^n \frac{t_{i i}}{\displaystyle\sum_{j=0}^n t_{i j}+\displaystyle\sum_{j=0}^n\left(t_{j i}-t_{i i}\right)} .$

式中:n为类别总数,$ {t}_{ij} $$ {t}_{ji} $分别为第i类真实类别中被预测为第j类和第j类真实类别中被预测为第i类的像素数量,$ {t}_{ii} $为预测正确的像素数量. 深度估计性能的评价指标选择平均平方根误差(root mean squared error, RMSE)和绝对相对误差(absolute relative error, ARE),计算公式分别为

$ {\text{RMSE}} = \sqrt {\frac{1}{N}\sum\limits_{i=1}^N {{{\left( {{y_i} - y_i^*} \right)}^2}} } , $

$ {\text{ARE}} = \frac{1}{N}\sum\limits_{i=1}^N {\frac{{\left| {{y_i} - y_i^*} \right|}}{{{y_i}}}} . $

式中:N为图像中的像素总数,$ {y}_{i} $$ {y}_{i}^{*} $分别为在像素i处的真实深度值和预测深度值. 模型的计算负载和存储需求通过可学习参数的数量Np和每秒浮点运算量GFLOPs来量化,实时性效能则通过每秒传输帧数FPS来表征.

2.4. 网络组件消融实验

为了深入分析SDFormer++模型的不同组件对最终性能的影响,进行网络组件消融实验,结果如表1所示. 表中,MTL表示多任务学习基线模型. 该模型以Swin-S为主干网络,配备由语义分割与深度估计2个解码头构成的并行预测头. 以MTL为基础逐步添加CFE、MFI和MFF模块. 实验数据表明,引入CFE模块后模型的mIoU提升4.6个百分点,深度估计的RMSE和ARE分别降低5.4%和21.1%;进一步加入MFI模块后,mIoU提升了0.8个百分点,RMSE和ARE再降低了5.5%和6.1%;加入MFF模块后的完整模型的mIoU达到79.3%,RMSE和ARE降低至4.698和0.154,各项指标均达到最优值,说明多任务模型SDFormer++能够较好地权衡推理速度与整体性能.

表 1   不同网络组件的消融实验结果

Tab.1  Ablation study results of different network components

模块mIoU/%RMSEARENp/106GFLOPs
MTL73.25.3550.22766.3131.1
+CFE77.85.0680.17974.5157.4
+MFI78.64.7900.16875.6168.4
+MFF79.34.6980.15476.1177.0

新窗口打开| 下载CSV


2.5. 跨任务特征提取模块对比实验

为了证实CFE模块的有效性,将该模块替换为SDFormer算法中的双向跨任务注意力模块BCTA,以此为对照组,在语义分割分支上进行注意力模式可视化对比实验,结果如图5所示. 可以看出,BCTA在处理信息时无法清晰明确地聚焦于图中的公交车或骑行者等任务目标,存在明显的特征表示干扰问题. 而使用CFE模块处理的特征图表现出与真实分布更相似的特征表示,其中突出显示的区域拥有明确边界,呈现出更完整的关联信息.

图 5

图 5   不同特征提取模块的注意力模式可视化对比

Fig.5   Visualization comparison of attention patterns in different feature extraction modules


2.6. 多尺度特征融合模块消融实验

MFF模块使用单张特征图进行预测. 为了加快推理速度,须选择合适的输出特征图分辨率. 将按照不同尺度调整特征图的MFF模块记为MFFS、MFFM与MFFL,对应的输出分辨率分别为原图的1/32、1/16和1/8,对比结果如表2所示.结果表明,较大特征图的检测准确率更高,但是性能提升和计算负担的增加不成正比. 当采用中等分辨率时,检测准确率有轻微下降,但是推理效率提高至原先的2.5倍. 这对于满足自动驾驶过程中的实时性要求是有利的. 因此,在SDFormer++中的多尺度特征融合模块中,选择输出特征分辨率为原图大小的1/16.

表 2   多尺度特征融合模块消融实验结果

Tab.2  Ablation experimental results of multi-scale feature fusion module

模块骨干网络mIoU/%RMSEAREFPS
MFFSSwin-S75.84.8110.17630.8
MFFMSwin-S79.34.6980.15426.2
MFFLSwin-S79.54.6620.15110.6

新窗口打开| 下载CSV


2.7. 与其他多任务算法的性能对比

为了探明SDFormer++与现有主流多任务模型的性能差异,选择对比算法JTR[18]、DenseMTL[19]、MTPSL[20]、SwinMTL[21]、InvPT++[15]和SDFormer[16],对比结果如表3所示.

表 3   不同多任务算法的性能对比结果

Tab.3  Performance comparison results of different multi-task algorithms

算法骨干网络mIoU/%RMSEARENp/106
JTRSegNet72.35.5820.16379.6
MTPSLSegNet73.65.1350.16584.5
DenseMTLResNet-10175.06.6490.194124.3
SwinMTLSwin-B76.44.4890.13465.2
SDFormerSwin-B79.24.4850.132116.7
InvPT++ViT-B82.04.5270.146156.9
SDFormer++Swin-B82.44.4530.130129.4

新窗口打开| 下载CSV


可以看出,在使用相同编码器的情况下,与SDFormer相比,SDFormer++在mIoU指标上高出3.2个百分点,在RMSE和ARE指标上分别降低了0.7%和1.5%. 与其他算法中表现最优的InvPT++相比,虽然使用了不同的编码器,但是SDFormer++的mIoU指标高出0.4个百分点,RMSE和ARE指标分别进一步降低了1.6%和11.0%. 这些结果表明,SDFormer++算法达到了当前最优的准确率,并且在推理效率上取得了当前次优结果.

图6展示了SDFormer++与对比算法在语义分割任务上的推理结果差异. 在黄色虚线框指示的易混淆类别区域中,SDFormer将建筑物全部判定为其他类别,InvPT++虽然能够正确识别部分建筑物,但是仍有错判区域,而SDFormer++不仅很少出现错判问题,而且能够很好地区分易混淆类别区域和其他类别区域. 例如,SDFormer和InvPT++都将人行道的一部分错判为道路或植被,相比之下,SDFormer++关于地面的错判面积大幅减小. 图7展示了SDFormer++与对比算法在深度估计任务上的推理结果差异. 可以看出,SDFormer++通过多尺度特征融合机制有效保留了高频细节特征,在深度估计任务中展现出卓越的结构完整性保持率,特别是在远距离目标表征方面(如红色虚线框标注的行人). InvPT++出现了深度不连续与梯度突变问题,而SDFormer++得益于跨任务特征交互,实现了空间连续性的优化,其深度预测结果在物体边缘区域展现出更符合视觉认知的平滑过渡特性.

图 6

图 6   SDFormer++、SDFormer与次优算法在语义分割任务上的推理效果对比

Fig.6   Comparison of semantic segmentation inference performance of SDFormer++, SDFormer and suboptimal algorithm


图 7

图 7   SDFormer++、SDFormer与次优算法在深度估计任务上的推理效果对比

Fig.7   Comparison of depth estimation inference performance of SDFormer++, SDFormer and suboptimal algorithm


2.8. 与单任务算法的性能对比

为了量化分析SDFormer++相较于现有的主流单任务模型的性能差异,分别针对语义分割和深度估计2个视觉任务进行基准测试. 其中,语义分割任务的对比算法选择CSFNet-2[22]、WaveMix[23]、DSNet-Base[24]、CMX(B4) [25]和EfficientViT-B3[26],实验结果如表4所示. 在深度估计任务中,选择对比算法Manydepth2[27]、DepthFormer[28]和PixelFormer[29],实验结果如表5所示.

表 4   SDFormer++与单任务语义分割算法的性能对比

Tab.4  Performance comparison of SDFormer++ and single-task semantic segmentation algorithms

方法骨干网络mIoU/%Np/106GFLOPs
CSFNet-2STDC276.319.447.8
WaveMixWaveMix80.763.2161.5
DSNet-BaseDSNet-Base82.068.0226.6
CMX(B4)MiT-B482.6140.0134.0
EfficientViT-B3EfficientViT-L283.253.1396.2
SDFormer++Swin-B82.4129.4272.5

新窗口打开| 下载CSV


表 5   SDFormer++与单任务深度估计算法的性能对比

Tab.5  Performance comparison of SDFormer++ and single-task depth estimation algorithms

方法骨干网络RMSEARENp/106GFLOPs
Manydepth2HRNet 165.8270.097123.1246.4
DepthFormerSwin-B4.3260.127151.3282.0
PixelFormerSwin-B4.2580.115146.1346.4
SDFormer++Swin-B4.4530.130129.4272.5

新窗口打开| 下载CSV


可以看出,在语义分割任务中,性能较优的EfficientViT-B3的mIoU指标仅比SDFormer++高出0.8个百分点,计算复杂度却是SDFormer++的1.45倍;与SDFormer++参数量相近的CMX(B4)在mIoU指标上仅高出0.2个百分点. 在深度估计任务中,在RMSE指标上SDFormer++与当前性能较优的PixelFormer相比高了0.195;在ARE指标上与当前性能较优的Manydepth2相比仅高了0.033.

为了更好地评估SDFormer++的深度估计准确度,从Cityscapes验证集中随机抽取200张图像,计算其中的行人、骑行者、小车、公交车和卡车这5类典型交通参与者的真实距离与算法预测距离之间的平均相对误差. 根据双目立体视觉中的三角测量原理,目标物体的三维空间距离的计算公式为

$ D = \frac{{b \times f}}{d}. $

式中:b为双目传感器的光心间距,f为成像系统的等效焦距参数,d为通过立体匹配算法获取的视差值. 据此可以分别计算出场景中第i个目标与成像系统之间的测距真值$ {D}_{i}\left(c\right) $和模型预测值$ {D}_{i}^{*}\left(c\right) $,其中c表示目标的类别. 最终计算二者间的平均相对误差:

$ {\text{MRE}}(c) = \frac{1}{N}\sum\limits_{i=1}^N {\frac{{\left| {{D_i}(c) - D_i^*(c)} \right|}}{{{D_i}(c)}}} . $

计算结果如表6所示. 表中,Avg表示每种方法在预测5种不同交通参与者上的MRE均值. 可以看出,在面向自动驾驶场景的关键障碍物测距任务中,针对行人、公交车和卡车这3类典型交通参与者的距离估计,SDFormer++取得了最小误差. SDFormer++通过跨任务双向特征交互机制将平均相对误差优化至6.0%,优于对比算法.

表 6   不同交通参与者的距离估计误差对比

Tab.6  Comparison of distance estimation errors for different traffic participants

方法MRE/%Avg/%
行人骑行者小车公交车卡车
DenseMTL7.78.68.86.78.28.0
JTR8.56.58.07.16.77.3
MTPSL8.66.37.75.47.37.0
SwinMTL7.36.87.06.46.76.8
InvPT++6.66.26.65.86.36.3
SDFormer6.15.47.45.26.56.1
SDFormer++5.85.57.24.96.46.0

新窗口打开| 下载CSV


SDFormer++针对5类典型交通参与者分别处在车辆的近(< 20 m)、中(20~50 m)、远(> 50 m)3种距离范围时的距离估计误差如表7所示. 可以看出,目标物距与测距误差间存在显著的空间相关性. 近距离目标的MRE均值为最小值4.0%;当目标处于中距离时,MRE均值为5.1%;远程目标MRE均值升至最大值10.1%. 这说明目标物距与估计误差之间呈显著的正相关趋势. 在自动驾驶场景中,近距离目标对行驶安全的影响通常比中、远距离目标更大,SDFormer++的检测结果符合现实应用中不同距离对算法准确性的要求.

表 7   不同距离范围下的距离估计误差

Tab.7  Distance estimation errors under different distance ranges

距离MRE/%Avg/%
行人骑行者小车公交车卡车
3.34.75.04.13.04.0
5.25.34.55.05.45.1
11.710.29.59.39.810.1

新窗口打开| 下载CSV


SDFormer++在不同光照和天气条件下对典型交通参与者的实测距离和预测结果如图8所示,其中白色和黄色背景标签分别表示预测距离值和真实距离值. 可以看出,算法在白天、夜间的不同光线条件和晴天、小雨、雪后的天气环境下都保持了较好的预测精度,体现出良好的适应能力.

图 8

图 8   典型交通参与者在不同光照和天气条件下的距离预测效果

Fig.8   Distance prediction performance of typical traffic participants under different lighting and weather conditions


3. 结 语

本研究提出基于跨任务双向特征交互的交通感知算法SDFormer++,用于城市街道交通场景中语义分割和深度估计任务的协同感知,旨在通过增强任务之间的交互质量来提高多任务模型的整体性能. 在多任务编码过程中构建跨任务特征提取模块,以过滤跨任务交互过程中产生的冗余信息,获取更符合任务需求的特征,从而提高跨任务交互质量. 在任务解码阶段设计多任务特征交互模块,利用双向注意力机制和任务基础特征来增强特定任务特征,促进任务之间的信息交互. 此外,设计多尺度特征融合模块来融合不同层次的特征细节信息,确保输出的特征图既包含完整语义信息又具有浅层结构信息,并将其用于最终预测. 在Cityscapes数据集上的实验结果表明,相较于现有的主流多任务算法,SDFormer++在针对语义分割和深度估计2个视觉任务上展现出了更优越的综合性能. 未来考虑将双任务协同感知进一步拓展为包含3D目标检测的三任务协同感知,使算法能够感知更丰富的交通场景信息.

参考文献

金立生, 华强, 郭柏苍, 等

基于优化DeepSort的前方车辆多目标跟踪

[J]. 浙江大学学报: 工学版, 2021, 55 (6): 1056- 1064

[本文引用: 1]

JIN Lisheng, HUA Qiang, GUO Baicang, et al

Multi-target tracking of vehicles based on optimized DeepSort

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (6): 1056- 1064

[本文引用: 1]

XIAO X, ZHAO Y, ZHANG F, et al

BASeg: boundary aware semantic segmentation for autonomous driving

[J]. Neural Networks, 2023, 157 (12): 460- 470

[本文引用: 1]

ABDIGAPPOROV S, MIRALIEV S, KAKANI V, et al

Joint multiclass object detection and semantic segmentation for autonomous driving

[J]. IEEE Access, 2023, 11: 37637- 37649

DOI:10.1109/ACCESS.2023.3266284     

LV J, TONG H, PAN Q, et al. Importance-aware image segmentation-based semantic communication for autonomous driving [EB/OL]. (2024-01-06) [2024-12-05]. https://arxiv.org/pdf/2401.10153.

[本文引用: 1]

LAHIRI S, REN J, LIN X

Deep learning-based stereopsis and monocular depth estimation techniques: a review

[J]. Vehicles, 2024, 6 (1): 305- 351

DOI:10.3390/vehicles6010013      [本文引用: 1]

JUN W, YOO J, LEE S

Synthetic data enhancement and network compression technology of monocular depth estimation for real-time autonomous driving system

[J]. Sensors, 2024, 24 (13): 4205

DOI:10.3390/s24134205     

RAJAPAKSHA U, SOHEL F, LAGA H, et al

Deep learning-based depth estimation methods from monocular image and videos: a comprehensive survey

[J]. ACM Computing Surveys, 2024, 56 (12): 1- 51

[本文引用: 1]

FENG Y, SUN X, DIAO W, et al

Height aware understanding of remote sensing images based on cross-task interaction

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 195 (4): 233- 249

[本文引用: 1]

SAMANT R M, BACHUTE M R, GITE S, et al

Framework for deep learning-based language models using multi-task learning in natural language understanding: a systematic literature review and future directions

[J]. IEEE Access, 2022, 10: 17078- 17097

DOI:10.1109/ACCESS.2022.3149798      [本文引用: 1]

ZHANG H, LIU H, KIM C

Semantic and instance segmentation in coastal urban spatial perception: a multi-task learning framework with an attention mechanism

[J]. Sustainability, 2024, 16 (2): 833

DOI:10.3390/su16020833      [本文引用: 1]

AGAND P, MAHDAVIAN M, SAVVA M, et al. LeTFuser: light-weight end-to-end Transformer-based sensor fusion for autonomous driving with multi-task learning [EB/OL]. (2023-10-19) [2024-12-05]. https://arxiv.org/pdf/2310.13135.

[本文引用: 1]

YAO J, LI Y, LIU C, et al

EHSINet: efficient high-order spatial interaction multi-task network for adaptive autonomous driving perception

[J]. Neural Processing Letters, 2023, 55 (8): 11353- 11370

DOI:10.1007/s11063-023-11379-x      [本文引用: 1]

TAN G, WANG C, LI Z, et al

A multi-task network based on dual-neck structure for autonomous driving perception

[J]. Sensors, 2024, 24 (5): 1547

DOI:10.3390/s24051547      [本文引用: 1]

WEI X, CHEN Y. Joint extraction of long-distance entity relation by aggregating local- and semantic-dependent features [J]. Wireless Communications and Mobile Computing, 2022: 3763940.

[本文引用: 1]

YE H, XU D

InvPT++: inverted pyramid multi-task Transformer for visual scene understanding

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46 (12): 7493- 7508

DOI:10.1109/TPAMI.2024.3397031      [本文引用: 2]

范康, 钟铭恩, 谭佳威, 等

联合语义分割和深度估计的交通场景感知算法

[J]. 浙江大学学报: 工学版, 2024, 58 (4): 684- 695

[本文引用: 2]

FAN Kang, ZHONG Ming’en, TAN Jiawei, et al

Traffic scene perception algorithm with joint semantic segmentation and depth estimation

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (4): 684- 695

[本文引用: 2]

CORDTS M, OMRAN M, RAMOS S, et al. The Cityscapes dataset for semantic urban scene understanding [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213–3223.

[本文引用: 1]

NISHI K, KIM J, LI W, et al. Joint-task regularization for partially labeled multi-task learning [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16152–16162.

[本文引用: 1]

LI W, LIU X, BILEN H. Learning multiple dense prediction tasks from partially annotated data [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 18857–18867.

[本文引用: 1]

LOPES I, VU T H, CHARETTE R. Cross-task attention mechanism for dense multi-task learning [C]// IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 2328–2337.

[本文引用: 1]

TAGHAVI P, LANGARI R, PANDEY G. SwinMTL: a shared architecture for simultaneous depth estimation and semantic segmentation from monocular camera images [EB/OL]. (2024-03-15) [2024-12-05]. https://arxiv.org/abs/2403.10662.

[本文引用: 1]

QASHQAI D, MOUSAVIAN E, SHOKOUHI S B, et al. CSFNet: a cosine similarity fusion network for real-time RGB-X semantic segmentation of driving scenes [EB/OL]. (2024-07-01) [2024-12-05]. https://arxiv.org/pdf/2407.01328.

[本文引用: 1]

JEEVAN P, VISWABATHAN K, SETHI A. WaveMix: a resource-efficient neural network for image analysis [EB/OL]. (2024-03-28) [2024-12-05]. https://arxiv.org/pdf/2205.143755.

[本文引用: 1]

GUO Z, BIAN L, HUANG X, et al. DSNet: a novel way to use atrous convolutions in semantic segmentation [EB/OL]. (2024-06-06) [2024-12-05]. https://arxiv.org/pdf/2406.03702.

[本文引用: 1]

ZHANG J, LIU H, YANG K, et al

CMX: cross-modal fusion for RGB-X semantic segmentation with Transformers

[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24 (12): 14679- 14694

DOI:10.1109/TITS.2023.3300537      [本文引用: 1]

CAI H, LI J, HU M, et al. EfficientViT: multi-scale linear attention for high-resolution dense prediction [EB/OL]. (2024-02-06) [2024-12-05]. https://arxiv.org/pdf/2205.14756.

[本文引用: 1]

ZHOU K, BIAN J, XIE Q, et al. Manydepth2: motion-aware self-supervised multi-frame monocular depth estimation in dynamic scenes [EB/OL]. (2024-10-11) [2024-12-05]. https://arxiv.org/pdf/2312.15268v6.

[本文引用: 1]

LI Z, CHEN Z, LIU X, et al

DepthFormer: exploiting long-range correlation and local information for accurate monocular depth estimation

[J]. Machine Intelligence Research, 2023, 20 (6): 837- 854

DOI:10.1007/s11633-023-1458-0      [本文引用: 1]

AGARWAL A, ARORA C. Attention attention everywhere: monocular depth prediction with skip attention [C]// IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 5850–5859.

[本文引用: 1]

/