考虑跨层特征融合的抛洒风险车辆检测方法

doi:10.3785/j.issn.1008-973X.2025.02.008

考虑跨层特征融合的抛洒风险车辆检测方法

何永福^,, 谢世维, 于佳禄, 陈思宇

重庆交通大学交通运输学院，重庆 400074

Detection method for spillage risk vehicle considering cross-level feature fusion

HE Yongfu^,, XIE Shiwei, YU Jialu, CHEN Siyu

College of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China

收稿日期: 2024-05-29

基金资助:

国家自然科学基金青年科学基金资助项目（52202490）；重庆市教委科学技术研究资助项目（KJQN202000735）；重庆交通大学校内科学基金课题资助项目（20JDKJC-A023）.

Received: 2024-05-29

Fund supported:

作者简介 About authors

何永福（1988—），男，副教授，博士，从事车路协同与自动驾驶的研究.orcid.org/0000-0001-8357-1770.E-mail：heyongfu@cqjtu.edu.cn , E-mail：heyongfu@cqjtu.edu.cn

摘要

面对货运车辆抛洒风险检测的难题，针对现有方法存在的抛洒风险关键特征提取能力不足、特征跨层融合不充分的问题，提出面向货运车辆的抛洒风险检测方法（SRVDNet）. 骨干网络引入大核可选择性感受野机制，增强网络对货运车辆抛洒风险特征的学习能力. 颈部网络引入聚集-分发特征融合机制，实现特征跨层融合，为检测头提供丰富的车厢类型、篷布边缘细节纹理、货物轮廓形状等信息. 采用真实的高速公路货运车辆数据集，验证所提方法的效果. 实验结果表明，SRVDNet表现出更优的性能，检测精度达到81.5%，与YOLOv5、YOLOv6、YOLOv8、RT-DETR、PP-YOLOE、YOLOv9等车辆检测SOTA方法相比，mAP_@0.5分别提升了3.70%、3.09%、2.86%、1.37%、1.41%、2.00%，且模型参数量相对较小，检测速度较高，有效提升了在货物装载不规则、少量货物和满载货物等场景下的抛洒风险识别能力，有助于抛洒物的源头治理，增强高速公路安全风险的识别预警能力.

关键词： 智能交通 ; 抛洒风险检测 ; 目标检测 ; 车辆检测 ; 跨层特征融合

Abstract

An original spillage risk vehicle detection method called spillage risk vehicles detection network (SRVDNet) was proposed faced with the challenge of detecting spillage risk vehicles, specifically designed for high-speed freight, to resolve the issues which insufficient extraction of spillage risk vehicle features and inadequate fusion of deep features in existing methods. A backbone network incorporating large separable kernel was introduced to enhance the network’s learning capabilities for spillage risk features in freight vehicles. A neck network integrating feature gather-and-distribute mechanisms was introduced to provide the detection head with richer information such as freight carriage types, tarpaulin edge textures and cargo shape contours. The proposed method was validated using a real high-speed highway freight vehicle dataset. The experimental results demonstrate that SRVDNet exhibits superior performance, achieving a detection accuracy of 81.5%. SRVDNet shows improvements of 3.70%, 3.09%, 2.86%, 1.37%, 1.41%, 2.00%, respectively, in terms of mAP@0.5 metrics compared with existing state-of-the-art (SOTA) object detection algorithms such as YOLOv5, YOLOv6, YOLOv8, RT-DETR, PP-YOLOE, YOLOv9. The model parameters were relatively smaller, while detection speed remains high. This method effectively enhances the ability to identify spillage risks in scenarios with irregular cargo loading, low cargo volume, and full cargo loads, thereby contributing to source control of spills and strengthening the capability for early warning of safety risks on highways.

Keywords： intelligent transportation ; spillage risk detection ; object detection ; vehicle detection ; cross-level feature fusion

PDF (4195KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

何永福, 谢世维, 于佳禄, 陈思宇. 考虑跨层特征融合的抛洒风险车辆检测方法. 浙江大学学报(工学版)[J], 2025, 59(2): 300-309 doi:10.3785/j.issn.1008-973X.2025.02.008

HE Yongfu, XIE Shiwei, YU Jialu, CHEN Siyu. Detection method for spillage risk vehicle considering cross-level feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(2): 300-309 doi:10.3785/j.issn.1008-973X.2025.02.008

高速公路是交通物流的大动脉，繁忙路段货运车辆占比已达40%. 近年来，货物遗撒散落导致的直接事故和二次事故逐年增多，已成为威胁高速公路通行效率和行车安全的突出隐患^[1]. 国内外学者基于目标检测方法，对抛洒物的检测展开了积极探索^[2-4]. 现有研究集中于抛洒事件发生后的被动检测，忽视了抛洒风险的事前发现，无法从源头上破解抛洒难题，行业亟需可主动识别高抛洒风险车辆的智能感知方法.

目前针对车辆类物体的检测^[5-7]，主要采用基于YOLO（You Only Look Once）的目标检测方法^[8-10]. 例如，针对道路车辆遮挡与小目标车辆漏检率高的问题，马永杰等^[11]提出改进的YOLOv3车辆检测方法. 为了兼顾算法检测速度和准确性的需求，陈志军等^[12]利用GhostNet加速YOLOv4的特征提取，提出基于轻量化网络和注意力机制的车辆目标识别方法. 考虑风险预警的时效性要求，王博等^[13]选择基于YOLOv5构建道路监控视角下的车辆目标检测模型. 高速公路货运车辆的货箱形式各异、货物形式多样，货运车辆抛洒风险检测仍存在较大挑战. 现有的车辆检测方法忽略了货车车厢的局部细节信息^[12-14]，导致对货车车厢类型、篷布遮盖、货物形状等抛洒风险关键特征的学习和关注不足，缺乏足够的判别信息进行准确识别，难以完成抛洒风险车辆检测任务.

近年来，YOLOv8和YOLOv9这些最新的YOLO系列算法解决了深层网络存在的信息瓶颈问题^[15-16]，提高了模型的深层特征学习能力，有助于捕捉目标的关键信息^[17-18]. YOLO系列算法的特征融合方式只能逐层进行，不能跨层交互特征，当区分装载少量货物的货车和空车时，缺少来自深层特征的语义信息，易造成装载少量货物的货车漏检. 此外，浅层的纹理信息提取不足，容易导致满载货物与货车篷布混淆.

面对货运车辆抛洒风险检测的难题，针对现有方法存在的关键抛洒风险特征提取能力不足、特征跨层融合不充分问题，提出面向货运车辆的抛洒风险检测方法（spillage risk vehicles detection network, SRVDNet）. 骨干网络引入大核可选择性感受野机制，增强网络对货运车辆抛洒风险特征的学习能力. 颈部网络引入聚集-分发特征融合机制，解决特征融合过程中抛洒风险特征丢失的问题，为检测头提供有助于抛洒风险判断的深层语义特征和浅层细节纹理特征. 该方法提升了模型在货物装载不规则、少量货物和满载货物场景下的抛洒风险识别能力，有效提高了抛洒风险车辆的检测精度，有助于抛洒物的源头治理，提升高速公路安全风险的识别预警能力.

1. 抛洒风险车辆检测方法的框架

提出的抛洒风险车辆检测方法的总体框架如图1所示. 该方法可以复用现有高速公路监控摄像头^[19]的实时视频流作为输入数据，输出为抛洒风险车辆检测类别，分别为无风险车辆Truck_R0、低风险车辆Truck_R1、高风险车辆Truck_R2.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 抛洒风险车辆检测框图

Fig.1 Architecture of spillage risk vehicle detection

框架的核心为提出的SRVDNet算法，可以实现对具有抛洒风险的非厢式货车的准确检测，降低了对规范装载车辆和空载车辆的误检率.

2. SRVDNet算法的原理

提出的抛洒风险车辆检测网络SRVDNet结构原理如图2所示，主要由骨干网络（backbone）、颈部网络（neck）、头部网络（head）和辅助可逆分支（auxiliary reversible branch，ARB）4部分构成.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 SRVDNet网络的结构

Fig.2 Architecture of spillage risk vehicles detection network

骨干网络主要使用RepCSPEALN4模块进行特征提取，利用卷积神经网络进行下采样，$ {{\boldsymbol{S}}_1} $、$ {{\boldsymbol{S}}_2} $、$ {{\boldsymbol{S}}_3} $、$ {{\boldsymbol{S}}_4} $为特征提取后的不同尺度特征图. 颈部网络负责对提取到的特征进行跨层融合. 主分支头部网络拥有3个检测头，负责抛洒风险车辆的定位和分类. 辅助可逆分支与骨干网络的结构类似，头部输出额外的预测结果，与主分支的预测结果一起参与损失计算和反向传播，辅助生成有效的梯度，提供额外的深度监督信号更新网络参数，提升模型的检测能力. 辅助分支只用于模型训练阶段，在推理阶段可去除该分支，大幅减少了参数量，提高了检测速度.

2.1. 骨干网络

针对现有方法对车厢类型、篷布遮盖、货物形状等关键抛洒风险特征提取能力不足的问题，提出的SRVDNet在骨干网络引入大核可选择性感受野机制(large separable kernel, LSK)^[20]作为骨干网络的最顶层，将传统卷积分解为具有大卷积核且不断扩张的深度卷积，可以根据不同的货车目标动态调整特征提取骨干的感受野. 动态感受野由空间选择机制实现，允许模型针对空间上不规则货物的货车目标自适应地选择不同大小的核并调整感受野，从不同尺度的大卷积核中对特征映射进行有效加权和空间融合，将模型注意力集中于存在抛洒风险的货车车厢部分，具体如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 大核可选择性感受野机制

Fig.3 Structure of large separable kernel module

采用LSK将传统卷积层的二维卷积核分解为级联的水平和垂直深度可变卷积核. 可变卷积核具有递增的卷积核大小和不同的扩张率，在不增加计算成本的情况下，可以覆盖更大的感受野，捕捉货箱和货物的长距离特征依赖关系，提取更丰富的抛洒风险特征，如下所示：

(1)$ {{\boldsymbol{U}}_0}{\text{ = }}{\boldsymbol{X}},{\text{ }}{{\boldsymbol{U}}_{i+1}}{\text{ = }}F_i^{{\mathrm{dw}}}{\text{(}}{{\boldsymbol{U}}_i}{\text{)}}{\text{.}} $

式中：$ {\boldsymbol{X}} $为输入图像，$ F_i^{{\mathrm{dw}}} $表示核为$ {k_i} $且空洞为$ {d_i} $的深度可分离卷积，$ {{\boldsymbol{U}}_i} $为解耦后的大卷积核序列特征.

为了强化网络更关注于货车抛洒风险最相关的空间上下文区域，采用空间选择机制，将来自不同感受野的卷积核特征进行拼接，应用通道级的平均池化P_avg和最大池化P_max提取空间特征$ {\boldsymbol{U}} $. 为了实现不同空间描述符的信息交互，将2个通道的池化特征转换为N个空间注意力特征图，如下所示：

(2)$ \widehat {{\bf{SA}}} = {F^{2 \to N}}([{P_{{\text{avg}}}}[\widetilde {{{\boldsymbol{U}}_1}},\cdots ,\widetilde {{{\boldsymbol{U}}_i}}];{P_{{\text{max}}}}[\widetilde {{{\boldsymbol{U}}_1}},\cdots ,\widetilde {{{\boldsymbol{U}}_i}}]]). $

式中：$ \widehat {{\bf{SA}}} $为空间注意力特征图，$ {F^{2 \to N}} $为空间注意力图转换卷积层，P_avg、P_max分别表示平均池化和最大池化，$ \widetilde {\boldsymbol{U}} $为空间特征.

每个空间注意力特征图$ \widehat {{\bf{SA}}} $经过Sigmoid激活函数$ \sigma $，可得解耦的大卷积核所对应的独立空间选择掩膜. 将解耦后的大卷积核序列特征$ \widetilde {{{\boldsymbol{U}}_i}} $与对应的空间选择掩膜进行加权累加，通过卷积层$ f $进行融合，获得注意力特征. 将输入$ {\boldsymbol{X}} $与注意力特征逐元素点乘，获得嵌入注意力的特征图$ {{\boldsymbol{L}}_{10}} $.

(3)$ {{\boldsymbol{L}}_{10}} = {\boldsymbol{X}} \times f\left(\sum\limits_{i = 1}^N \left({\sigma ({{\widehat {{\bf{SA}}}}_i}) \cdot \widetilde {{{\boldsymbol{U}}_i}}}\right) \right). $

式中：$ {{\boldsymbol{L}}_{10}} $为网络第10层的输出，$ f $表示融合卷积，$ \sigma $为Sigmoid激活函数. 将$ {{\boldsymbol{L}}_{10}} $作为下一阶段颈部网络的输入.

2.2. 颈部网络

不同大小目标信息存在于不同尺度的特征图中，大尺度特征提取低维细节信息和小目标位置，小尺度特征包含高维抽象信息和大目标位置. 现有车辆目标检测SOTA模型的颈部网络所采用的传统特征金字塔特征融合方式仅支持相邻逐层特征融合或跨层间接递归融合，无法实现跨层特征直接融合，导致不同大小的目标信息容易在融合过程中丢失，降低模型对装载少量货物的货车和空车的判别性，造成装载少量货物的抛洒风险货车漏检. 原因在于少量货物的视觉元素较少，多层卷积后，货物深层特征的语义信息容易缺失. 此外，对于篷布的关键特征提取，容易出现浅层的篷布纹理信息丢失问题，导致满载货物形式车辆与篷布覆盖车辆类别混淆，极大地阻碍抛洒风险的准确判断.

提出的SRVDNet的颈部网络在RepNCSPELAN4模块的基础上，引入聚集-分发特征融合机制(gather-and-distribute, GD) ^[21]，具体包括Low-GD模块和High-GD模块，增强跨层级特征的对齐、融合及信息注入，提升多尺度特征融合的能力，有助于不同装载量、不同货物形式下抛洒风险车辆的准确检测，具体如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 聚集-分发跨层特征融合网络的结构

Fig.4 Structure of gather-and-distribute cross-layer feature fusion network

Low_GD模块主要用于聚合浅层的特征信息，包括低阶特征对齐模块（low-stage feature alignment module, Low_FAM）、低阶特征信息融合模块（low-stage information fusion module, Low_IFM）、低阶特征信息注入模块（low-stage lightweight adjacent layer fusion, Low_LAF）. 在Low_FAM阶段，以$ {{\boldsymbol{S}}_3} $特征图为基准，对浅层特征图$ {{\boldsymbol{S}}_2} $、$ {{\boldsymbol{S}}_1} $通过全局平均池化的方式进行下采样，对深层特征图$ {{\boldsymbol{L}}_{11}} $采用双线性插值进行上采样，将不同尺度的特征图对齐，拼接得到特征$ {{\boldsymbol{S}}_{{\rm{align}}}} $. Low_IFM阶段将通过Low_FAM模块对齐后的特征输入到RepVGG模块中进行特征融合，得到$ {{\boldsymbol{X}}_{{\text{Low\_IFM}}}} $. 在Low_LAF低阶特征信息注入阶段，$ {{\boldsymbol{X}}_{{\text{Low\_IFM}}}} $以注意力点积的形式注入全局信息和局部信息，得到$ {{\boldsymbol{X}}_{{\text{low\_inj\_}}{{\text{R}}_i}}} $. 经过RepVGG进行特征提取，得到最终的低阶特征图$ {{\boldsymbol{R}}_i} $，具体公式如下.

(4)$ {{\boldsymbol{S}}_{{\text{align}}}} = {P_{{\text{FAM}}}}[{{\boldsymbol{S}}_1},{{\boldsymbol{S}}_2},{{\boldsymbol{S}}_3},{{\boldsymbol{L}}_{11}}]. $

(5)$ {{\boldsymbol{X}}_{{\text{low\_IFM}}}} = {F_{{\text{Conv}}}}[{F_{{\text{Re}}{{\text{p}}_{\text{3}}}}}[\cdots {F_{{\text{Re}}{{\text{p}}_{\text{1}}}}}[{F_{{\text{Conv}}}}({{\boldsymbol{S}}_{{\text{align}}}})]]. $

(6)$\begin{split} {{\boldsymbol{X}}_{{\text{low\_inj\_}}{{\text{R}}_i}}} =& {\mathrm{Em}}{{\mathrm{b}}_{\text{l}}}({{\boldsymbol{X}}_{{\text{low\_LAF}}}}) \cdot [{F_{{\text{Conv}}}}({{\boldsymbol{X}}_{{\text{low\_IFM}}}})]+ \\ & {\mathrm{Em}}{{\mathrm{b}}_{\text{g}}}({{\boldsymbol{X}}_{{\text{low\_IFM}}}}). \end{split} $

(7)$ {{\boldsymbol{R}}_{i}} = {F_{{\mathrm{Rep}}}}({{\boldsymbol{X}}_{{\text{low\_inj\_}}{{\boldsymbol{R}}_i}}}); \;i= 1,2. $

式中：$ {P_{{\text{FAM}}}} $为对浅层特征图全局平均池化、深层特征图双线性插值上采样及特征图拼接操作；$ {{\boldsymbol{S}}_1} $、$ {{\boldsymbol{S}}_2} $、$ {{\boldsymbol{S}}_3} $分别为骨干网络中第1、2、3层RepCSPELAN的特征；$ {{\boldsymbol{L}}_{11}} $为网络中的第11层特征；$ {F_{{\text{Rep}}}}( \cdot ) $表示RepVGG模块，用于帮助模型学习更丰富的特征表示；$ {F_{{\text{Conv}}}}( \cdot ) $表示卷积操作；$ {\text{Em}}{{\text{b}}_{\text{l}}} $和$ {\text{Em}}{{\text{b}}_{\text{g}}} $表示本层局部和全局特征嵌入操作；$ {{\boldsymbol{X}}_{{\text{low\_LAF}}}} $为Low_GD模块中相邻3层对齐后的特征图；$ {{\boldsymbol{X}}_{{\text{low\_inj\_}}{{\boldsymbol{R}}_i}}} $为嵌入了全局和局部特征的特征图. $ {{\boldsymbol{R}}_{i}} (i{\text{ = }}1,2)$为最终的输出到High_GD中的低阶特征.

High_GD模块主要负责聚合来自Low_GD的深层特征和浅层特征. 在高阶特征对齐模块（high-stage feature alignment module, High-FAM）中，以$ {{\boldsymbol{R}}_1} $为基准，通过全局平均池化，将输入特征降维到统一尺寸并拼接得到$ {{\boldsymbol{P}}_{{\text{align}}}} $. 由于High-FAM输出特征尺寸变小，为了充分融合全局信息，在高阶特征信息融合模块（high-stage information fusion module, High-IFM）中将Low-GD中的RepVGG替换成多头注意力（multi-head self-attention, MHSA）模块，得到$ {{\boldsymbol{X}}_{{\text{high\_IFM}}}} $融合特征. 在高阶特征信息注入阶段，高阶特征信息注入模块（high-stage lightweight adjacent layer fusion, High-LAF）为$ {{\boldsymbol{X}}_{{\text{high\_IFM}}}} $嵌入全局和局部信息，得到$ {{\boldsymbol{X}}_{{\text{high\_inj\_}}{{\boldsymbol{R}}_i}}} $. 经过RepVGG进行特征提取，得到最终的高阶特征图$ {{\boldsymbol{R}}_{i}}(i=3,4) $，如下所示：

(8)$ {{\boldsymbol{P}}_{{\text{align}}}} = {P_{{\text{avg}}}}[{{\boldsymbol{R}}_1};{{\boldsymbol{R}}_2};{{\boldsymbol{L}}_{11}}]. $

(9)$ \begin{split} {{\boldsymbol{X}}_{{\text{high\_IFM}}}} =& {F_{{\text{Conv}}}}({F_{{\text{LN}}}}({{\boldsymbol{P}}_{{\text{align}}}}+ \\ &{F_{{\text{MHS}}{{\text{A}}_{\text{2}}}}}({{\boldsymbol{P}}_{{\text{align}}}}+{F_{{\text{MHS}}{{\text{A}}_{\text{1}}}}}({{\boldsymbol{P}}_{{\text{align}}}})))). \end{split}$

(10)$ \begin{split} {{\boldsymbol{X}}_{{\text{high\_inj\_}}{{{{\boldsymbol{R}}}}_i}}} =& {\mathrm{Em}}{{\mathrm{b}}_{\text{l}}}({{\boldsymbol{X}}_{{\text{high\_LAF}}}}) \cdot [{F_{{\text{Conv}}}}({{\boldsymbol{X}}_{{\text{high\_IFM}}}})]+ \\ &{\mathrm{Em}}{{\mathrm{b}}_{\text{g}}}({{\boldsymbol{X}}_{{\text{high\_IFM}}}}). \end{split} $

(11)$ {{\boldsymbol{R}}_{i}} = {F_{{\text{Rep}}}}({{\boldsymbol{X}}_{{\text{high\_inj\_}}{{{{\boldsymbol{R}}}}_i}}}); \;i=3,4. $

式中：$ {P_{{\text{avg}}}} $表示全局平均池化和拼接操作，$ {F_{{\text{MHSA}}}}( \cdot ) $表示包含多头注意力机制的特征提取模块，$ {{\boldsymbol{X}}_{{\text{high\_LAF}}}} $为High _GD模块中相邻2层对齐后的特征图，$ {{\boldsymbol{X}}_{{\text{high\_inj\_}}{{\boldsymbol{R}}_i}}} $为嵌入了全局和局部特征的特征图，$ {\boldsymbol{R}}_{i}(i=3,4) $为最终输出的高阶特征.

通过聚集-分发特征融合机制对图像特征进行低阶特征和高阶特征的跨层融合，既保留了浅层中少量货物小目标信息的高分辨细节纹理特征，也获得了货车车厢、装载形式大中目标的深层语义特征，减少了信息丢失，更有利于模型最后部分的头部网络对货车抛洒风险的判断.

2.3. 头部网络和辅助可逆分支

主分支头部网络采用解耦头及无锚框设计，采用任务对齐分配技术（正负样本分配）. 采用分布焦点损失，结合CIoU损失作为回归分支的损失函数，将二元交叉熵损失作为分类损失函数，使得分类和回归任务之间具有较高的对齐一致性. 头部网络含有3级检测头，针对不同尺度下的物体特征，分别用于检测大、中、小目标.

引入辅助可逆分支，采用和主分支相同的检测头，针对反向传播过程中的梯度信息丢失问题，不强制主分支保留完整的原始信息. 通过使用辅助可逆分支，生成有效的梯度并更新网络参数，避免了传统深层监督模型在特征融合过程中的语义损失. 辅助可逆分支在推理阶段将被移除，不会增加模型推理时间.

3. 实验结果的分析

3.1. 实验数据和实验环境

实验数据来源于G4202成都绕城高速-绕西段路侧摄像头在2024年1月白天采集的视频图像，图像尺寸为1920×1080. 使用Labelme标注工具进行标注，并转换为COCO格式，数据集共计2407张，货运车辆样本有8232个，包括货车无抛洒风险Truck_R0、货车抛洒低风险Truck_R1、货车抛洒高风险Truck_R2 3个类别，分别表示抛洒风险等级. 各类别的样本量分别为4371、1691、2170，比例为1︰0.4︰0.5，采用mosaic和mixup数据增强策略，提高各类别样本的丰富性和均衡性. 实验数据以7︰3的比例划分为训练集和验证集，验证所提的SRVDNet网络对高速公路抛洒风险车辆的检测效果.

实验环境的计算机硬件配置如下. 模型训练采用Tesla A100 GPU，显存为 80 GB，CPU为 Intel(R) Xeon(R) Platinum 8369B CPU@2.90 GHz. 模型推理采用NVIDIA GeForce RTX 4060，显存为8 GB，CPU为Inter(R)Core(TM)i5-12400F，操作系统为Windows11，深度学习框架为PyTorch，使用CUDA11.6、cuDNN8.4.0进行加速.

训练迭代次数为200，Batch_Size为16，使用SGD随机梯度下降法，动量为0.937，学习率为0.01，衰减系数为0.0005.

考虑准确性和实时性的需求，选用目标检测领域通用的检测指标评价模型性能，包括精确率P（precision）、召回率R（Recall）、F₁值（F₁-score）、平均精度均值mAP（mean average precision）、权重及每秒帧率v.

3.2. 消融实验

为了验证SRVDNet网络中LSK大核可选择性感受野机制和GD聚集-分发特征融合机制对抛洒风险车辆检测的有效性，在相同环境、参数配置、数据集上进行消融试验，结果如表1所示.

表 1 消融试验的结果

Tab.1 Result of ablation experiment

网络	LSK	GD	P/%	R/%	F₁/%	mAP_@0.5/%	mAP_@[0.5:0.95]/%
SRVDNet	—	—	73.02	71.26	72.13	79.50	60.67
	$ \surd $	—	78.09	72.09	74.97	80.52	61.27
	—	$ \surd $	74.21	78.65	76.37	80.87	61.25
	$ \surd $	$ \surd $	79.04	74.79	76.86	81.50	61.87

新窗口打开| 下载CSV

从表1可知，在引入LSK机制后，$ P $、$ R $、$ {F}_{1} $、mAP_@0.5、mAP_@[0.5:0.95]指标相对提升了5.07%、0.83%、2.84%、1.02%、0.60%，再加入GD跨层特征融合机制后，$ P $、$ R $、$ {F}_{1} $、mAP_@0.5、mAP_@[0.5:0.95]分别提升了6.02%、3.53%、4.73%、2.00%、1.20%. 结果表明，通过引入LSK机制和GD跨层特征融合机制，SRVDNet更加关注货车车厢区域关键的抛洒风险特征，提高了网络对抛洒风险车辆检测的精度.

如图5所示为SRVDNet在引入不同模块下，网络训练损失Loss和 F₁指标的变化曲线. 图中，N_i为迭代次数. 从图5可以看出，相较于YOLOv9基线模型，引入的LSK注意力机制和GD特征融合机制能够有效地帮助模型拟合，增强抛洒风险车辆的检测能力. 本文提出的SRVDNet网络Loss更低，F₁更高，验证了LSK大核可选择性感受野机制和GD聚集-分发特征融合机制的有效性.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 训练过程的 Loss曲线和F₁曲线

Fig.5 Curves of Loss and F₁ during training

3.3. 对比实验

为了验证SRVDNet的性能优势，选取目标检测领域最新的SOTA算法展开对比实验. 所有方法均采用随机初始化参数的方式开始训练，从头学习抛洒风险车辆的检测能力，保证对比实验的公平性和有效性.

表2中，S为模型大小. 从表2可知，对于常用的mAP_@0.5指标，SRVDNet较基于YOLOv5^[13-14]、YOLOv6^[22] 的车辆检测SOTA方法分别提升了3.70%、3.09%，较基于YOLOv8^[16]、RT-DETR^[23]、PP-YOLOE^[22]、YOLOv9^[17-18]等目标检测领域的最新SOTA方法提升了2.86%、1.37%、1.41%、2.00%. 对于更严格的mAP_@[0.5:0.95]指标，SRVDNet较基于YOLOv5、YOLOv6的车辆检测SOTA方法，分别提升了3.72%、3.53%，较基于YOLOv8、RT-DETR、PP-YOLOE、YOLOv9等目标检测领域的最新SOTA方法，提升了3.67%、1.83%、1.71%、1.20%. 模型参数量相对较小，检测速度较高，达到69帧/s，满足实时性检测的要求.

表 2 不同算法在抛洒风险车辆数据集中的实验结果对比

Tab.2 Comparative experimental results of different algorithm on spillage risk vehicle dataset

算法	mAP_@0.5/%	mAP_@[0.5:0.95]/%	v/(帧·s⁻¹)	S/MB
YOLOv5	77.80	58.15	67	83.5
YOLOv6	78.41	58.34	73	101.6
YOLOv8	78.64	58.20	67	83.5
RT-DETR	80.13	60.04	28	163.6
PPYOLOE	80.09	60.16	33	203.2
YOLOv9	79.50	60.67	81	60.3
SRVDNet	81.50	61.87	69	62.7

新窗口打开| 下载CSV

与现有方法相比，所提的SRVDNet支持跨层特征融合交互，多层卷积后仍有效保留浅层的小目标少量货物视觉信息、浅层的篷布纹理信息以及货车车厢形式、装载形式的深层语义特征，提升了模型对满载货物形式车辆与篷布覆盖车辆、装载少量货物车辆和空车等容易混淆类别的判别准确性.

3.4. 实验结果可视化对比

为了直观展示所提SRVDNet模型对高速公路抛洒风险车辆检测的提升效果，将实验结果进行可视化对比.

如图6(a)所示，YOLOv8在面对装载形式多样且不规则的复杂场景货运车辆时，将满载不规则货物货车（高风险Truck_R2）漏检. 如图6(b)所示，YOLOv9易将满载不规则货物货车（高风险Truck_R2）误检为空车（无风险Truck_R0）或覆盖篷布货车（低风险Truck_R1）. 如图6(c)所示，利用SRVDNet能够准确检测出风险车辆.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不规则货物场景的检测结果对比

Fig.6 Comparison of detection result for irregular cargo

如图7所示，当面对少量货物这类小目标场景时，YOLOv8和YOLOv9均容易将高风险装载不规则货物货车（Truck_R2）误检为无风险空车（Truck_R0），利用本文算法仍能够准确检测.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 少量货物场景的检测结果对比

Fig.7 Comparison of detection result in scene with small amount of cargo

如图8所示，面对满载场景时，YOLOv8和YOLOv9容易将满载货物货车（高风险Truck_R2）误检为覆盖篷布货车（低风险Truck_R1）或空车（无风险Truck_R0），利用本文算法仍能够准确检测.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 满载场景的检测结果对比

Fig.8 Comparison of detection result in full-load scene

通过实验对比验证了所提SRVDNet对车厢类型、篷布遮盖、货物形状等关键抛洒风险特征较强的提取能力以及跨层特征融合交互机制的有效性，提升了模型对不规则货物、少量与满载货物、覆盖篷布与空车等容易混淆风险类别的判别准确性.

3.5. 特征图的可视化分析

为了展示SRVDNet对车厢类型、篷布遮盖、货物形状等关键抛洒风险特征的学习能力，将SRVDNet学习到的注意力特征与目前最新的SOTA目标检测算法YOLOv9所学习的注意力特征进行可视化对比.

如图9(a)所示为数据原始输入，为典型的高速路货车非厢式运输场景. 如图9(b)所示为对应数据输入经过YOLOv9处理，在颈部网络输出的注意力特征图. 如图9(c)所示为对应数据输入经过SRVDNet处理，在颈部网络输出的注意力特征图. 对比注意力特征图可知，相较于YOLOv9、SRVDNet网络，对于货运车辆的注意力激活区域（矩形框中的高亮区域）更多，且覆盖货运车辆的货箱范围更广，更有助于网络提取车厢类型、篷布覆盖、货物类型、货物装载量等关键特征. SRVDNet在近景目标、远景目标、车辆遮挡等高速常见的场景环境，仍保持较高的特征提取能力.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 注意力特征图的对比

Fig.9 Comparison of attention feature map

在骨干网络引入大核可选择性感受野机制，增强了网络对货运车辆抛洒风险特征的学习能力，可以针对空间上不规则货物的货车目标自适应地选择不同大小的卷积核动态调整感受野，将模型注意力集中于存在抛洒风险的货车车厢部分. 此外，聚集-分发特征融合机制在颈部网络的引入，解决了浅层网络特征和深层网络特征融合过程中货运抛洒风险关键特征丢失的问题，可以为检测头提供更丰富的货物形状轮廓、装载形式、篷布边缘细节纹理等信息.

4. 结　论

(1)大核可选择性感受野机制在骨干网络的引入，增强了网络对货运车辆抛洒风险特征的学习能力. 聚集-分发特征融合机制在颈部网络的引入，解决了特征跨层融合不充分的问题，避免了特征融合过程中货运车辆关键抛洒风险特征的丢失.

(2)对比实验结果表明，所提方法具有明显的精度和效率优势，mAP_@0.5精度达到81.50%，mAP_@[0.5:0.95]精度达到61.87%，检测速度为69帧/s，模型参数量为62.7 MB.

(3)对于常用的mAP_@0.5指标，相较于基于YOLOv5、YOLOv6车辆检测SOTA方法，分别提升了3.70%、3.09%，较基于YOLOv8、RT-DETR、PP-YOLOE、YOLOv9等目标检测领域的最新SOTA方法提升了2.86%、1.37%、1.41%、2.00%. 对于更严格的mAP_@[0.5:0.95]指标，较基于YOLOv5、YOLOv6的车辆检测SOTA方法分别提升了3.72%、3.53%，较基于YOLOv8、RT-DETR、PP-YOLOE、YOLOv9等目标检测领域的最新SOTA方法提升了3.67%、1.83%、1.71%、1.20%. 模型大小保持较小，检测速度较高.

(4)有效提高模型在货物装载不规则、少量货物和满载货物场景下的抛洒风险识别能力，在近景目标、远景目标、车辆遮挡等高速常见的场景环境下仍然保持较好的检测效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[3]

GUO Enqiang, FU Xinsha

Dropped object detection method based on feature similarity learning

[J]. Journal of South China University of Technology: Natural Science Edition, 2023, 51 (6): 30- 41

[4]

CHEN G, CHEN K, ZHANG L J, et al

VCANet: vanishing-point-guided context-aware network for small road object detection

[J]. Automotive Innovation, 2021, 4 (4): 400- 412

DOI:10.1007/s42154-021-00157-x [本文引用: 1]

[5]

曹行健, 张志涛, 孔彦赞, 等

面向智慧交通的图像处理与边缘计算

[J]. 中国图像图形学报, 2021, 27 (6): 1743- 1766