边缘感知和跨尺度特征增强的小目标水漂垃圾检测

doi:10.3785/j.issn.1008-973X.2026.07.008

边缘感知和跨尺度特征增强的小目标水漂垃圾检测

吴佰靖^,, 闫光辉^,, 马龙, 程文鑫, 黄亚宁

兰州交通大学电子与信息工程学院，甘肃兰州 730070

Small-target water-floating garbage detection based on edge perception and cross-scale feature enhancement

WU Baijing^,, YAN Guanghui^,, MA Long, CHENG Wenxin, HUANG Yaning

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 闫光辉，男，教授，博士. orcid.org/0000-0002-1979-4862. E-mail：yanguanghui@mail.lzjtu.cn

收稿日期: 2025-04-15

基金资助:

国家自然科学基金资助项目(62466032, 62366028, 62062049)；甘肃省自然科学基金资助项目(24JRRA256)；甘肃省水利厅省级项目(LZJT523029).

Received: 2025-04-15

Fund supported:

国家自然科学基金资助项目(62466032,62366028,62062049)；甘肃省自然科学基金资助项目(24JRRA256)；甘肃省水利厅省级项目(LZJT523029).

作者简介 About authors

吴佰靖（1997—），男，博士生，从事人工智能、智慧水利等研究.orcid.org/0009-0006-1844-1666.E-mail：1420716156@qq.com , E-mail：1420716156@qq.com

摘要

针对小目标水漂垃圾所含信息有限、在特征提取时容易丢失细节特征而造成漏检、错检的问题，提出基于边缘感知和跨尺度特征增强的小目标水漂垃圾检测方法. 在分析小目标特征提取的局限性后，提出边缘增强的特征提取网络，协同利用空间特征和高频特征，有效增强小目标复杂边缘、细节和高频信息；设计三分支跨尺度特征自适应融合模块，通过局部细节感知、全局上下文建模和大感受野解析小目标特征，提升网络对多维小目标特征的表征能力；构建基于自适应稀疏注意力的尺度内特征交互模块，利用稀疏性动态调整交互特征，强化小目标与背景的区分程度. 实验结果表明，相较于基准模型RT-DETR，所提方法的mAP、mmAP和召回率R在黄河兰州段水漂垃圾数据集上分别提升了4.93、2.46和3.18个百分点，在FloW-Img数据集上分别提升了3.39、1.45和2.23个百分点，表明所提方法能够有效提升对小目标水漂垃圾的检测性能，助力水漂垃圾的高效监测与治理.

关键词： 目标检测 ; 水漂垃圾 ; 小目标 ; RT-DETR ; 边缘感知 ; 跨尺度特征增强

Abstract

A new method for small-target water-floating garbage detection was proposed to address the issue of missed and false detections due to the limited information of small-target water-floating garbage that is prone to losing detailed features in feature extraction. After analyzing the limitations of small-target feature extraction, an edge-enhanced feature extraction network which synergistically utilized the spatial features and high-frequency features was proposed to effectively enhance the complex edges, details, and high-frequency information of small targets. A triple-branch cross-scale feature adaptive fusion module was designed to enhance the network’s ability to represent multi-dimensional small-target features by analyzing small-target features through local detail perception, global context modeling, and the large receptive field. An adaptive sparse attention-based intra-scale feature interaction module was constructed, which dynamically adjusted the interactive features by leveraging sparsity to enhance the discriminability between small targets and backgrounds. Experimental results show that, compared with the baseline model RT-DETR, the proposed method achieves improvements of 4.93, 2.46, and 3.18 percentage points in mAP, mmAP, and recall rate (R) respectively on the water-floating garbage dataset from the Lanzhou section of the Yellow River, and achieves improvements of 3.39, 1.45, and 2.23 percentage points on the FloW-Img dataset. These results indicate that the proposed method effectively enhances the detection performance for small-target water-floating garbage, thereby facilitating the efficient monitoring and management of water-floating garbage.

Keywords： object detection ; water-floating garbage ; small target ; RT-DETR ; edge perception ; cross-scale feature enhancement

PDF (5452KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

吴佰靖, 闫光辉, 马龙, 程文鑫, 黄亚宁. 边缘感知和跨尺度特征增强的小目标水漂垃圾检测. 浙江大学学报(工学版)[J], 2026, 60(7): 1452-1463 doi:10.3785/j.issn.1008-973X.2026.07.008

WU Baijing, YAN Guanghui, MA Long, CHENG Wenxin, HUANG Yaning. Small-target water-floating garbage detection based on edge perception and cross-scale feature enhancement. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1452-1463 doi:10.3785/j.issn.1008-973X.2026.07.008

随着城市化与工业化进程的加速，水漂垃圾污染问题受到了社会各界的广泛关注. 水漂垃圾不仅直接破坏了水生态系统的物质循环与能量流动，而且经长期光解、水解产生的微塑料颗粒会通过生物富集效应在鱼类、贝类等水生生物体内聚积，最终经食物链传递至人体，诱发不可逆的健康风险^[1]. 因此，通过构建精准的水漂垃圾动态监测体系，建立能够快速监测水漂垃圾的响应机制，避免水漂垃圾的过度溶解，对于保障水生态安全及维护公共卫生健康具有重要的现实意义.

水漂垃圾的传统监测方法依靠大量人工定时定点巡检打捞，存在监测周期长、人力成本高的局限，难以满足水漂垃圾动态扩散所产生的实际监测需求. 随着深度学习和计算机视觉在各行各业的广泛应用，利用计算机视觉技术可以实现水漂垃圾的全天候自动化识别，结合水漂垃圾位置，从而实现水漂垃圾的精细化打捞^[2-3]. 水漂垃圾监测过程为：先从复杂河道环境中精准识别水漂垃圾，再进一步计算其位置分布，以此指导精准打捞. 上述监测过程中，水漂垃圾的精确识别是监测过程中最重要的一环. 然而，受流域地形、光照等环境因素的影响，水漂垃圾在监测图像中通常呈现为低分辨率、低对比度的小目标，其包含信息有限，导致基于深度学习的目标检测算法容易丢失小目标特征，造成漏检、错检现象，使检测效果不理想^[4].

目前，主要通过设计高效的多尺度特征融合网络^[5]、引入注意力机制^[6]和设计深层小目标关注网络^[7]等方法提高复杂场景中的小目标检测性能. 多尺度特征融合的原理是对不同尺度的特征图进行融合，在较高程度上保留小目标的原始特征，以提高模型对小目标的检测与识别能力. 该方法从实现方式上分为基于特征金字塔网络(feature pyramid network, FPN)、基于自适应空间特征融合(adaptive spatial feature fusion, ASFF)和基于加权的特征融合方法^[8-9]. FPN通过自顶向下或自底向上的融合路径，将深层语义与浅层细节信息融合，从而得到更丰富的特征表达. 这种方式虽然能够克服图像中目标尺度变化的问题，但是容易在融合过程中产生特征冗余. Han等^[10]为了避免FPN造成的特征冗余问题，提出加权并行解耦FPN，使用加权聚合策略，自适应整合小目标的语义和细节信息，并在MS COCO数据集上验证了该方法的有效性. Ma等^[11]提出小目标检测网络ISOD，设计轻量级扩展尺度特征金字塔，减少了网络参数量和多尺度特征冗余. 蒋占军等^[12]提出小目标水漂垃圾检测算法MP-Faster-RCNN，通过设计区域生成网络RPN，利用多尺度特征提高了对小目标水漂垃圾的检测精度. ASFF方法通过学习权重参数，对跨层特征进行自适应融合，采用空间过滤冲突信息的方式抑制多尺度特征的差异性，从而强化特征的尺度不变性，但是由于自适应权重的学习须同时优化检测任务和权重参数，其收敛速度较慢. 杜丁健等^[13]在YOLOv5m网络中加入自适应融合的上下文增强模块，增强模型对上下文多尺度信息的理解与处理能力. Liu等^[14]提出跨尺度特征融合网络DC-Net，有效提取红外小目标特征. 基于加权的特征融合方法分别计算不同尺度特征的融合权重，进而按照特定权重分配对不同类型的特征进行多尺度融合. Chang等^[15]提出通道自注意力引导的特征金字塔网络，利用通道注意力强化融合特征，提高了模型对小目标的检测性能. Xu等^[16]提出自适应特征聚合融合模块SACAF，利用空间和通道注意力增强目标的关键特征，并对其进行自适应加权融合，确保小目标特征能够被有效提取. 上述多尺度特征融合方法虽然提升了对小目标的检测效果，但是多尺度的网络设计会增加模型的资源消耗，且较深的网络设计降低了网络的收敛性能.

注意力机制使网络能够学习并聚焦小目标的关键特征，如颜色、形状、纹理等，进而增强对小目标的特征表达. Xu等^[17]为了平衡正、负样本，提升对红外小目标的检测精度，采用垂直和水平双向注意力和多尺度特征编码方法，建立编码器和解码器之间稳定的特征交互关系，增强了网络对小目标的检测性能. Zhang等^[18]为了提升对无人机小目标的检测精度，在YOLOv8的检测头中引入通道注意力，在去除冗余信息的同时增强了网络对小目标的识别性能. 尹向雷等^[19]提出多尺度空洞注意力机制，避免非相邻层次之间较大的语义差，有效提取不同尺度的语义信息，提高了网络对被遮挡的鸟巢目标的检测性能. 但是上述基于注意力的小目标检测方法对特征的聚焦能力有限，对数据的依赖性高且模型的泛化能力存在不足. 设计深层小目标关注网络的核心思路是增强模型的尺度特征表达和高阶语义抽象能力，进而提升网络在小目标特征提取中的语义理解能力. 宋耀莲等^[20]为了提升对无人机小目标的检测精度，在YOLOv5的输出部分添加结合注意力机制的动态目标检测头DyHead，通过增强尺度和空间感知来提升算法的检测性能. 熊干等^[21]结合QS-RepGFPN结构设计四检测头QASFFHead，进一步提升了对小目标的特征理解能力. 上述深层小目标关注网络通过优化特征提取和融合机制，提升了对小目标的检测性能，但是增加了网络层数和计算量，降低了网络的实时性.

综上，基于深度学习的小目标检测方法虽然取得了一定的进展，但是在复杂水漂垃圾场景中，如何准确提取小目标垃圾特征、准确区分垃圾和背景并满足实时检测的需求，仍然面临巨大挑战. 为此，提出小目标水漂垃圾检测算法ECA-RTDETR. 首先，在分析RT-DETR^[22]在小目标水漂垃圾特征提取中的局限性后，提出基于边缘感知的特征提取网络MSEEResNet-18 (ResNet-18 based on MSEE)，利用多尺度边缘增强(multi-scale edge enhancement, MSEE)模块增强小目标边缘特征，使网络能够提取到更丰富的水漂垃圾特征. 其次，提出三分支跨尺度选择融合模块(cross-scale selection and fusion model, CSSFM)，从局部、全局和大感受野3个分支融合MSEEResNet-18提取的特征，有效优化小目标特征响应强度. 最后，设计基于自适应稀疏注意力的尺度内特征交互(adaptive sparse attention-based intra-scale feature interaction, AS-AIFI)模块，以降低复杂背景的干扰，提高网络的检测精度.

1. 水漂垃圾检测网络ECA-RTDETR

1.1. 小目标水漂垃圾检测的局限性分析

小目标检测一直是目标检测领域中的热点和难点. 从网络设计的角度分析，较深层次的网络和较大尺度的卷积核设计容易在卷积过程中丢失小目标特征，造成漏检、错检现象. 从所处环境来看，小目标水漂垃圾与周边水体、动态波纹和河岸的颜色、纹理特征高度相似，有时甚至难以用视觉方法进行区分，如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 复杂背景中小目标水漂垃圾示意图

Fig.1 Schematic diagram of small-target water-floating garbage in complex backgrounds

为了深入分析卷积过程中小目标水漂垃圾的特征丢失问题，分别选择公开数据集FloW-Img^[23]和自采的黄河兰州段水漂垃圾数据集中的任意1张小目标图像进行实验，输出RT-DETR的各层网络的特征图，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 不同卷积层的输出特征图

Fig.2 Output feature maps of different convolutional layers

如图2(a)所示，在FloW-Img的输出特征图中，经第1、2层C2f层后，小目标水漂垃圾的特征依然存在，但是经第3层C2f层后，小目标垃圾的特征丢失. 如图2(b)所示，在第1层C2f层后，小目标水漂垃圾的特征存在，但是经第2层C2f层后，部分小目标特征丢失，到第3层C2f层后，小目标特征完全丢失. 因此，在RT-DETR网络中，小目标特征丢失主要由大核卷积与池化操作的双重作用导致：卷积操作是降维过程，在卷积计算过程中，当卷积核尺寸过大或滑动步长过长时，多次卷积操作会逐渐稀释小目标特征，使其难以被有效捕捉；池化层在减少计算量的同时，其局部极值筛选机制会直接忽略小目标的微小特征，容易在深层网络中丢失小目标的关键信息. 因此，须从特征处理的关键环节入手，对网络进行系统性优化：在特征提取部分，须提升浅层网络的细粒度表征能力，确保微小目标的纹理细节在初始特征提取阶段得以被完整捕获；构建动态特征融合框架，通过可学习的权重参数实现多尺度层级特征的动态聚合，充分结合低层高分辨率特征与深层语义特征，发挥两者的互补优势；设计多尺度增强模块，强化对小目标敏感区域的响应强度. 上述针对不同阶段的网络设计优化思路能够有效抑制小目标的特征衰减，从而全面增强小目标特征表达的鲁棒性，降低复杂背景下小目标的漏检、错检率.

1.2. 整体网络构建

所提ECA-RTDETR的网络结构如图3所示. ECA-RTDETR首先将水漂垃圾图像输入特征提取网络MSEEResNet-18中，利用MSEE模块充分提取小目标的多尺度特征，并增强小目标的纹理、颜色和细节特征，避免在特征提取时丢失小目标特征. 然后，输出MSEEResNet-18网络中的最后3层特征S₃、S₄和S₅，将最丰富的特征S₅输入AS-AIFI模块中，实现深、浅层特征的深度融合，输出融合后的特征F₅. 将S₃、S₄和F₅的特征图输入CSSFM，通过三分支跨尺度特征选择与融合，提高网络对小目标的关注度. 最后，对融合后的特征进行交并比（IoU）计算与度量，输出小目标水漂垃圾的检测结果.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 ECA-RTDETR方法的整体结构图

Fig.3 Overall structure diagram of ECA-RTDETR method

1.3. 基于边缘感知的特征提取网络

为了提高特征提取网络对浅层小目标特征的细粒度表征能力，确保小目标纹理细节在特征提取阶段被完整保留，受双域选择机制(dual-domain selection mechanism, DSM)^[24]的启发，提出基于边缘感知的小目标特征提取网络MSEEResNet-18. 在ResNet-18的C2f层中加入MSEE模块，并且在特征提取时采用多尺度特征补偿融合的策略，使得小目标的纹理、轮廓和细节特征被充分提取. MSEE模块结构如图4所示，其中，AvgPool(i)表示采样率为i的平均池化操作.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 多尺度边缘增强模块结构图

Fig.4 Structure diagram of MSEE module

MSEE首先使用1层局部卷积(Local Conv)，聚焦小目标局部特征，再利用不同采样率的平均池化层对特征进行下采样，提取不同尺度的小目标特征. 然后，使用1×1卷积和3×3卷积对特征进行整合，利用边缘增强(edge enhancement, EE)网络，细化小目标水漂垃圾的边缘和细节特征. 对输出的4层特征进行特征拼接，由DSM对特征进行细化筛选，删除部分冗余特征，得到较为准确的小目标水漂垃圾特征. 最后，采用3×3卷积对特征进行整合，输出MSEE计算后的特征. 设计的EE网络如图4所示，该网络首先使用平均池化操作提取高频信息，并将其与原输入特征相减，计算得到包含丰富高频边缘信息的特征；再使用3×3卷积和Sigmoid激活函数，对特征进行整合；最后，对该特征与原输入特征进行跳跃连接并相加，得到边缘细节信息较为丰富的小目标水漂垃圾特征. MSEE模块对输入特征$ {\boldsymbol{X}} $的计算公式为

(1)$ {{\boldsymbol{F}}_1} = {f_{{\text{Avg}},n}}{\text{(Con}}{{\text{v}}_{1 \times 1}}{\text{(Con}}{{\text{v}}_{3 \times 3}}({\boldsymbol{X}}{\text{))); }}\;\;n = 1,2,3,4. $

(2)$ {{\boldsymbol{F}}_2} = C_{n = 1}^4({f_{{\text{EE}}}}{\text{(Con}}{{\text{v}}_{1 \times 1}}{\text{(Con}}{{\text{v}}_{3 \times 3}}({{\boldsymbol{F}}_1}{\text{)))) ; }}\;\;n{\text{ = }}1,2,3,4. $

(3)$ {{\boldsymbol{F}}_{{\text{MSEE}}}} = {\text{Con}}{{\text{v}}_{3 \times 3}}({f_{{\text{DSM}}}}({{\boldsymbol{F}}_2})), $

(4)$ {{{\boldsymbol{F}}}_{{\text{EE}}}} = \sigma ({\text{Con}}{{\text{v}}_{3 \times 3}}{\text{(}}{f_{{\text{Avg}}}}{\text{(}}{{\boldsymbol{F}}_1}{\text{)}} - {{\boldsymbol{F}}_1}))+{{\boldsymbol{F}}_1}. $

式中：$ {\boldsymbol{F}_1} $、$\boldsymbol{F}_2 $、$\boldsymbol{F}_{{\mathrm{MSEE}}} $、$\boldsymbol{F}_{\mathrm{EE}} $为各操作的输出特征，$ {f_{{\text{Avg}}}} $为平均池化操作，$ n $为对应的操作次数，$ {\text{Conv}} $为卷积操作，C为拼接操作，$ {f_{{\text{EE}}}} $为EE网络对特征的计算，$ {f_{{\text{DSM}}}} $为DSM对特征的计算，$ \sigma $为Sigmoid激活函数.

DSM的结构如图5所示. DSM通过深度整合空间特征和高频特征的表征优势，采用高频残差分析与多尺度特征协同策略，聚焦小目标水漂垃圾的复杂边缘、细节和高频信息，提升了网络对小目标水漂垃圾的特征选择精准度与模型的鲁棒性. DSM利用空间选择模块 (spatial selection module, SSM)获取输入特征$ {\boldsymbol{X}} $的空间特征，再通过频率选择模块(frequency selection module, FSM)提取高频特征，计算过程为

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 双域选择机制的结构示意图

Fig.5 Structure diagram of DSM

(5)$ {\boldsymbol{F}}' = C({\text{Con}}{{\text{v}}_{3 \times 3}}({f_{{\text{Avg}}}}{\text{(}}{\boldsymbol{X}}{\text{), }}{f_{{\text{Mag}}}}{\text{(}}{\boldsymbol{X}}{\text{)}})), $

(6)$ {{\boldsymbol{F}}_{{\text{SSM}}}} = {\text{DWCon}}{{\text{v}}_{5 \times 5}}{\text{(}}{\boldsymbol{X}}{\text{)}} \odot T({\boldsymbol{F}}',B) + {\text{DWCon}}{{\text{v}}_{3 \times 3}}{\text{(}}{\boldsymbol{X}}{\text{),}} $

(7)$ {{\boldsymbol{F}}_{{\text{FSM}}}} = {{\boldsymbol{F}}_{{\text{SSM}}}} - {f_{{\text{Mean}}}}({{\boldsymbol{F}}_{{\text{SSM}}}}) \odot {{\boldsymbol{F}}_{{\text{SSM}}}}+{{\boldsymbol{F}}_{{\text{SSM}}}}, $

(8)$ {{\boldsymbol{F}}_{{\text{DSM}}}} = {f_{{\text{FSM}}}}({f_{{\text{SSM}}}}({\boldsymbol{X}})). $

式中：$ {f_{{\text{Mag}}}} $为最大池化操作，$ {\text{DWConv}} $为深度可分离卷积，$ T $为按照通道数$ B $复制特征的操作，$ {f_{{\text{Mean}}}} $、$f_{{\text{SSM}}} $、$f_{{\text{FSM}}} $分别为均值滤波器、SSM、FSM对特征的操作，$ {\boldsymbol{F}'} $、$\boldsymbol{F}_{\mathrm{SSM}} $、$\boldsymbol{F}_{\mathrm{FSM}} $、$\boldsymbol{F}_{\mathrm{DSM}} $为不同模块输出的特征图，$ \odot $表示哈达玛积运算.

1.4. 三分支跨尺度选择融合模块

为了提升网络在跨尺度融合过程中对小目标垃圾特征的关注度，提出CSSFM，模块结构如图6所示. 将S₃、S₄和F₅这3个特征输入CSSFM，经卷积、上采样、RepC3模块、空间金字塔空洞卷积(spatial pyramid dilated convolution, SPDConv)^[25]、三分支特征融合(tri-branch feature fusion, TBFF)和特征拼接融合后，实现水漂垃圾的跨尺度特征选择与融合. SPDConv将小目标的空间信息转换为深度信息，扩充了特征图的通道维度，同时保留了更多细节信息，使模型能够捕获到更丰富的空间特征和上下文信息. TBFF分别从全局、局部和大感受野层面增强小目标特征，并通过特征的自适应融合，丰富了小目标特征，避免了小目标的漏检和错检.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 跨尺度选择融合模块结构图

Fig.6 CSSFM structure diagram

受Omni-Kernel网络^[26]的启发，设计TBFF模块，如图7所示. 在对S₃、S₄和F₅特征进行融合时，分别从局部、全局和大感受野特征出发，实现跨尺度特征融合，保留较为丰富且准确的小目标特征，提升网络对小目标特征的提取能力.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 三分支特征融合模块结构图

Fig.7 Structure diagram of TBFF module

TBFF对输入特征执行1×1卷积处理后，按通道维度将特征分为4份. 最后1份经跳跃连接和1×1卷积后，保持原来的特征；对于另外3份，利用三分支网络(tri-branch network, TBNet)进行计算，分别从全局、局部和大感受野层面增强并突出小目标特征.

TBNet结构如图8所示. 首先，使用1×1卷积调整特征维度. 第1、2分支使用1×1深度可分离卷积和大核深度可分离卷积，分别提取局部和大感受野特征. 第3分支通过双域通道注意力(dual-domain channel attention, DCA)和频率空间注意力(frequency-based spatial attention, FSA)模块提取水漂垃圾的全局特征，其中DCA模块利用快速傅里叶变换和逆快速傅里叶变换，强化小目标特征的高频分量，避免了小目标水漂垃圾的特征丢失问题. DCA对输入特征$ {\boldsymbol{X}} $的计算公式为

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 三分支网络结构图

Fig.8 Structure diagram of TBNet

(9)$\begin{split} {{\boldsymbol{F}}_{{\rm{DCA}}}} =& {\rm{Con}}{{\rm{v}}_{1 \times 1}}({\rm{IFFT}}\;({\rm{FFT}}\;({\boldsymbol{X}}) \odot {\rm{Con}}{{\rm{v}}_{1 \times 1}}({\boldsymbol{X}}))) \odot \\ &{\rm{IFFT}}\;({\rm{FFT}}\;({\boldsymbol{X}}) \odot {\rm{Con}}{{\rm{v}}_{1 \times 1}}({\boldsymbol{X}})).\end{split}$

式中：$ {\mathrm{FFT}} $为快速傅里叶变换，$ {\mathrm{IFFT}} $为逆快速傅里叶变换.

FSA将输入的$ {{\boldsymbol{F}}_{{\text{DCA}}}} $计算为

(10)$ {{\boldsymbol{F}}_{{\rm{FSA}}}} = {\rm{IFFT}}\;({\rm{FFT}}\;({\rm{Con}}{{\rm{v}}_{1 \times 1}}({{\boldsymbol{F}}_{{\rm{DCA}}}})) \odot {\rm{Con}}{{\rm{v}}_{1 \times 1}}({{\boldsymbol{F}}_{{\rm{DCA}}}})).$

1.5. 基于自适应稀疏注意力的尺度内特征交互模块

基准AIFI模块通过自注意力机制，融合骨干网络输出的S₅深层和浅层特征，经矫正后输出F₅特征. 但是，自注意力机制须使用线性层来计算查询$ {\boldsymbol{Q}} $、键$ {\boldsymbol{K}} $和值$ {\boldsymbol{V}} $，并通过矩阵间复杂的乘法运算来实现特征的融合. 上述融合方法也对复杂背景特征进行计算，在造成特征冗余的同时降低了网络的计算效率. 受自适应稀疏注意力(adaptive sparse self-attention, ASSA)机制^[27]启发，设计基于ASSA的尺度内特征交互模块AS-AIFI. 该模块引入基于平方运算的ReLU激活函数，保留$ {\boldsymbol{Q}} $和$ {\boldsymbol{K}} $矩阵中的关键信息. 此外，ASSA采用可学习权重分配机制，自适应动态加权融合$ {\boldsymbol{Q}} $、$ {\boldsymbol{K}} $和$ {\boldsymbol{V}} $，以实现水漂垃圾与复杂背景的准确区分.

如图9(a)所示，基准AIFI模块中的自注意力机制将输入$ {\boldsymbol{X}} $映射到$ {\boldsymbol{Q}} $、$ {\boldsymbol{K}} $和$ {\boldsymbol{V}} $矩阵上，再将$ {\boldsymbol{Q}} $和$ {\boldsymbol{K}} $方向的权重相乘融合，并与$ {\boldsymbol{V}} $方向上的矩阵融合，输出最终的结果：

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 自注意力和自适应稀疏注意力结构图

Fig.9 Structure diagram of self-attention and ASSA

(11)$ \boldsymbol{{\boldsymbol{F}}}_{\mathrm{SA}}=\delta\left({\boldsymbol{Q}} {\boldsymbol{K}}^{\mathrm{T}} / \sqrt{d}\right) \odot {\boldsymbol{V}} . $

式中：$ d $为令牌(token)数，$ \delta $为Softmax激活函数. 如图9(b)所示，ASSA首先将$ {\boldsymbol{Q}} $和$ {\boldsymbol{K}} $矩阵相乘，再使用2路不同的激活函数计算细节信息，并对其相加融合，最后与$ {\boldsymbol{V}} $矩阵相加，得到由ASSA机制生成的交互融合特征：

(12)$ \begin{split} \boldsymbol{{\boldsymbol{F}}}_{\mathrm{ASSA}} = &\left(w_1 \cdot \phi^2\left({\boldsymbol{Q}} {\boldsymbol{K}}^{\mathrm{T}} / \sqrt{d}+\boldsymbol{B}\right)+\right. \\& \left.w_2 \cdot \delta\left({\boldsymbol{Q}} {\boldsymbol{K}}^{\mathrm{T}} / \sqrt{d}+\boldsymbol{B}\right)\right) \odot {\boldsymbol{V}} .\end{split}$

式中：$ w_1 $、$w_2 $为可学习权重参数，$ \phi $为ReLU激活函数，$ {\boldsymbol{B}} $为可学习的相对位置偏差.

2. 实验与结果分析

2.1. 实验数据集及实验环境

选择在小目标水漂垃圾公开数据集FloW-Img和自采的黄河兰州段小目标水漂垃圾(Yellow River Lanzhou section water-floating garbage, YRLW)数据集上进行实验. FloW-Img是专用于内河漂浮塑料瓶的小目标数据集，目标边界框面积与图像面积之比的中位数在0.08%~0.58%^[28-29]. 该数据集包含2 000张图像和5 271个标记的小目标塑料垃圾，实验按照7∶2∶1的比例随机划分训练集、测试集和验证集. YRLW数据集依托于甘肃省水利科学研究院的研究项目，使用无人机和相机在兰州市城关区雁白黄河大桥、兰州市安宁区北滨河路寓言故事园和永登县苦水镇水泉子附近的庄浪河等区域进行数据采集，充分考虑了居民聚居区、黄河干流、黄河支流、人员活动密集区等区域对水漂垃圾的不同影响. 此外，引入涵盖不同视角、天气、光照、季节和时段的水漂垃圾数据，增加应用场景的多元性，以验证算法的泛化能力.

从环保和图像处理角度，制定YRLW数据集中塑料类(plastic)、纸类(paper)、玻璃类(glass)、金属类(metal)、织物/布类(fabric/fiber)、自然类(nature)和其他类(others)共7类水漂垃圾的划分规则. 该数据集包含10 233张图像，每张图像包含1~8个水漂垃圾. 在训练阶段，按照7∶2∶1的比例随机生成各个类别的训练集、测试集和验证集，其中测试集有2 047张图像，验证集有1 023张图像，训练集有7 163张图像. 各个类别的标签数量(N_L)如表1所示.

表 1 YRLW数据集中各类水漂垃圾的标签数量

Tab.1 Number of labels for various categories of water-floating garbage in YRLW dataset

类别	N_L
类别	训练集	测试集	验证集	总标签
plastic	5 532	1 546	845	7 923
paper	2 524	716	343	3 583
glass	570	154	79	803
metal	1 124	336	157	1 617
fabric/fiber	1 904	585	281	2 770
nature	1 350	405	200	1 955
others	679	194	109	982
总计	13 683	3 936	2 014	19 633

新窗口打开| 下载CSV

对YRLW数据集中的大（像素面积>96²）、中（像素面积为32²~96²）和小（像素面积<32²）目标进行统计，结果如图10所示. YRLW数据集中小目标占比最大，标签为14 410个，约占标签总数的73.4%；中目标标签有3 350个，大目标标签有1 873个，这使得水漂垃圾的检测更具挑战性.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 YRLW数据集中各个类别的大、中、小目标分布

Fig.10 Distribution of large, medium and small targets for each category in YRLW dataset

实验基于Python 3.10.0环境，采用深度学习框架Pytorch1.12.1，配合CUDA 10.0和单张NVIDIA GeForce RTX 4080S GPU进行训练. 在训练阶段，使用预训练权重，选用Adam优化器对模型进行优化，批量大小设置为16，训练轮次为300，初始化学习率设置为0.01，权重衰减系数为5×10⁻⁶.

2.2. 评价指标

为了评估ECA-RTDETR方法的有效性和可靠性，选择各类别平均精度mAP、不同交并比(IoU=0.5∶0.05∶0.95)下的检测精度mmAP、召回率R、参数量Para、每秒浮点运算数FLOPs和检测速度FPS作为评价指标. 其中，mAP、mmAP、R和FPS的值越高，表示算法的精度或实时性越好，对水漂垃圾的检测效果也越好；Para和FLOPs越小表示模型越轻量化，更有利于部署.

2.3. 消融实验

为了验证ECA-RTDETR中不同改进策略的有效性，在相同数据集、实验环境和参数下进行消融实验. 将RT-DETR+MSEEResNet-18的方法记为M1，RT-DETR+MSEEResNet-18+CSSFM的方法记为M2，RT-DETR+MSEEResNet-18+CSSFM+AS-AIFI的方法记为M3.

在各个类别上的AP指标结果如表2所示. 由于FloW-Img数据集只有bottle类别，其mAP和bottle类别的AP指标一致. 相较于基准方法RT-DETR，ECA-RTDETR在YRLW数据集上的mAP提高了4.93个百分点，在FloW-Img数据集上的mAP提高了3.39个百分点. 在YRLW数据集上，ECA-RTDETR对paper、glass、fabric/fiber、nature和others 5类水漂垃圾的检测精度AP最高，表明使用MSEEResNet-18、CSSFM和AS-AIFI的改进方法对小目标水漂垃圾的检测均有提升作用；对plastic和metal 2类水漂垃圾的检测精度排名第2，这是由于AS-AIFI模块采用稀疏化注意力提升模型对目标与背景的区分能力，但是过度稀疏化使网络对部分全局目标的聚焦感知能力下降，导致对plastic和metal 2类水漂垃圾的检测精度出现了较小幅度的下降，但是相较于RT-DETR仍有较为明显的提升. 在FloW-Img数据集上，ECA-RTDETR对bottle类别的检测精度最高，表明ECA-RTDETR不仅能够实现高精度的水漂垃圾检测，而且对不同数据集有较好的检测精度和泛化性能.

表 2 不同改进策略下各类水漂垃圾检测的AP指标结果

Tab.2 AP metric results of various categories of water-floating garbage under different improvement strategies

数据集	类别	AP/%
数据集	类别	RT-DETR	M1	M2	M3
YRLW	plastic	92.44	94.29	95.73	95.39
	paper	92.51	93.71	94.27	94.34
	glass	88.39	92.18	93.61	93.67
	metal	88.05	91.74	93.54	93.18
	fabric/fiber	91.66	94.32	95.01	95.10
	nature	91.87	93.64	94.87	94.90
	others	72.27	82.27	83.33	85.13
	mAP	88.17	91.74	92.91	93.10
FloW-Img	bottle	83.87	85.46	86.73	87.26

新窗口打开| 下载CSV

表3表明，各个改进策略对小目标水漂垃圾的检测效果均有不同程度的提升作用. 由于算法的实验环境和网络结构未发生改变，2个数据集上的Para、FLOPs和FPS这3个指标值相同. 相较于基准方法RT-DETR，在YRLW数据集上使用MSEEResNet-18时mAP提升了3.57个百分点，mmAP提升了1.52个百分点，R提升了1.33个百分点，Para减少了4.14 M、FLOPs减少了7.43 G，FPS提高了19.77 帧/s；在FloW-Img数据集上， mAP、mmAP、R分别提升了1.59、0.84、1.79个百分点，表明多尺度边缘增强模块MSEE通过多尺度并行池化融合，提取到了更加丰富的小目标水漂垃圾特征，提升了网络对小目标水漂垃圾的特征提取能力. 在YRLW数据集上，CSSFM使mAP、mmAP和R在M1的基础上提升了1.17、0.62、1.29个百分点，Para增加了1.45 M、FLOPs增加了8.56 G，FPS降低了25.05帧/s；在FloW-Img数据集上，其mAP、mmAP与R分别提升了1.27、 0.37、0.17个百分点. 这表明CSSFM细化了小目标特征，使得网络更加聚焦于小目标水漂垃圾特征. 在YRLW数据集上，AS-AIFI方法使M3的mAP、mmAP和R在M2的基础上提升了0.19、0.32、0.56个百分点，Para增加了0.75 M，FLOPs增加了0.54 G，FPS降低了1.49帧/s；在FloW-Img数据集上，3个指标分别提升了0.53、0.24、0.27个百分点. 该结果表明AS-AIFI使用稀疏注意力保留了小目标水漂垃圾的关键信息，减少了复杂背景带来的噪声干扰问题，提高了垃圾与背景的差异性. 综上，通过消融实验表明了各个改进策略的有效性和合理性，验证了ECA-RTDETR对小目标水漂垃圾的检测能力.

表 3 ECA-RTDETR中不同改进策略的消融实验结果对比

Tab.3 Comparison of ablation experiment results for different improvement strategies in ECA-RTDETR

数据集	方法	mAP/%	mmAP/%	R/%	Para/M	FLOPs/G	FPS/(帧·s⁻¹)
YRLW	RT-DETR	88.17	47.01	88.74	20.09	58.34	164.47
	M1	91.74	48.53	90.07	15.95	50.91	184.24
	M2	92.91	49.15	91.36	17.40	59.47	159.19
	M3	93.10	49.47	91.92	18.15	60.01	157.70
FloW-Img	RT-DETR	83.87	40.24	81.05	20.09	58.34	164.47
	M1	85.46	41.08	82.84	15.95	50.91	184.24
	M2	86.73	41.45	83.01	17.40	59.47	159.19
	M3	87.26	41.69	83.28	18.15	60.01	157.70

新窗口打开| 下载CSV

热力图结果如图11所示，直观展示了改进方法对小目标特征的提取过程. 可以看出，基准方法RT-DETR对小目标水漂垃圾的特征提取能力有限，忽略了部分小目标水漂垃圾. 加入MSEEResNet-18后，获取了较为丰富的水漂垃圾特征，使得网络逐渐关注到此前被忽略的小目标水漂垃圾. CSSFM对MSEEResNet-18处理后的特征进行进一步精确化提取，使模型更聚焦于水漂垃圾特征. 加入AS-AIFI后，减少了背景干扰，进一步提高了目标与复杂背景的区分程度，使网络精确提取到了小目标水漂垃圾特征，避免了漏检和错检现象.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 不同改进策略的消融实验热力图结果

Fig.11 Ablation experiment heatmaps for different improvement strategies

2.4. 对比实验

为了验证ECA-RTDETR方法对小目标水漂垃圾的检测性能，在2个数据集上使用YOLOv8n、RT-DETR、YOLOv11l和YOLOv12l，并选择小目标检测网络FFCA-YOLO^[30]和SuperYOLO^[31]，进行对比实验，结果如表4和图12、13所示.

表 4 不同方法的水漂垃圾检测实验结果对比

Tab.4 Comparison of water-floating garbage detection experiment using different methods

数据集	方法	mAP/%	mmAP/%	R/%	Para/M	FLOPs/G	FPS/(帧·s⁻¹)
YRLW	YOLOv8m	88.49	47.88	88.67	25.91	78.91	128.67
	YOLOv11l	89.38	48.19	85.91	25.37	86.88	111.24
	YOLOv12l	90.88	49.20	89.87	26.44	88.92	102.39
	RT-DETR	88.17	47.01	88.74	20.09	58.34	164.47
	FFCA-YOLO	90.52	47.86	90.39	7.12	51.19	185.41
	SuperYOLO	91.81	48.05	91.07	4.83	16.61	193.53
	ECA-RTDETR	93.10	49.47	91.92	18.15	60.01	157.70
FloW-Img	YOLOv8m	85.42	38.91	80.45	25.91	78.91	128.67
	YOLOv11l	86.80	40.83	81.93	25.37	86.88	111.24
	YOLOv12l	86.94	41.17	82.59	26.44	88.92	102.39
	RT-DETR	83.87	40.24	81.05	20.09	58.34	164.47
	FFCA-YOLO	86.34	40.45	81.98	7.12	51.19	185.41
	SuperYOLO	86.79	40.97	82.77	4.83	16.61	193.53
	ECA-RTDETR	87.26	41.69	83.28	18.15	60.01	157.70

新窗口打开| 下载CSV

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 不同方法在YRLW数据集上的水漂垃圾检测可视化结果对比

Fig.12 Comparison of visualization results of water-floating garbage detection on YRLW dataset using different methods

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 不同方法在FloW-Img数据集上的水漂垃圾检测可视化结果对比

Fig.13 Comparison of visualization results of water-floating garbage detection on FloW-Img dataset using different methods

表4表明，所提ECA-RTDETR在2个数据集上的mAP、mmAP和R指标值最高. 在YRLW数据集上，ECA-RTDETR的mAP、mmAP和R值分别为93.10%、49.47%和91.92%，在FloW-Img数据集上分别为87.26%、41.69%和83.28%；Para排名第3，为18.15 M；FLOPs排名第4，为60.01 G；FPS排名第4，为157.70帧/s. 虽然在Para、FLOPs和FPS上排名不高，但是相较于基准算法RT-DETR，具有一定可比性和优越性，且ECA-RTDETR能够满足实时检测任务的需求. FFCA-YOLO和SuperYOLO这2个轻量化网络对小目标水漂垃圾检测也有一定优势，其Para和FLOPs指标值较小，FPS指标值较高，但是轻量化的网络设计在去除冗余特征的同时去除了一些有用特征，存在抗干扰能力弱的局限性，容易在水漂垃圾检测过程中造成错检和漏检现象.

在图12的可视化结果中，第1~5列分别为有遮挡的小目标场景、密集小目标场景、有干扰的场景、目标与背景相似的场景和重叠小目标场景，第6列为第5列结果的局部放大图. 在有遮挡的小目标场景中，对比算法均出现了漏检现象，而ECA-RTDETR方法准确检测出了遮挡目标，且检测精度较高. 在密集小目标场景中，YOLOv8m出现了较为明显的漏检现象，YOLOv11l和YOLOv12l也产生了部分漏检现象，RT-DETR、FFCA-YOLO、SuperYOLO和ECA-RTDETR均检测出了所有小目标水漂垃圾，但是FFCA-YOLO出现了重叠框的错检，而ECA-RTDETR未产生漏检现象，相较于对比算法检测精度较高. 在有干扰的场景中，YOLOv8m未检测出水漂垃圾，RT-DETR出现了错检，YOLOv11l、YOLOv12l、FFCA-YOLO、SuperYOLO和ECA-RTDETR均检测出了所有水漂垃圾，且所提方法的检测精度最高. 在目标与背景相似的场景中，YOLOv8m、YOLOv11l、FFCA-YOLO和SuperYOLO均出现了不同程度的漏检现象，RT-DETR出现了错检，而YOLOv12l和ECA-RTDETR均成功检测出了水漂垃圾，其中ECA-RTDETR方法的检测精度更高. 在重叠小目标场景中，YOLOv8m、YOLOv11l、RT-DETR均出现了不同程度的漏检现象，YOLOv12l、FFCA-YOLO、SuperYOLO和ECA-RTDETR成功检测出了所有水漂垃圾；从第6列的放大图可以看出，ECA-RTDETR的检测精度更高，能够更好地完成对重叠水漂垃圾的检测任务.

图13为ECA-RTDETR与对比算法在FloW-Img数据集上的检测结果，其中第1~3列分别为远景聚集小目标场景、倒影干扰场景和聚集小目标场景，第4列为第3列聚集小目标场景的局部放大图，第5列为背景复杂场景. 在远景聚集小目标场景中，YOLOv8m存在明显的漏检，YOLOv11l存在多检、错检和重叠框错检现象，YOLOv12l存在重叠框的错检，RT-DETR存在错检，SuperYOLO存在漏检，而FFCA-YOLO和ECA-RTDETR成功检测出了水漂垃圾，未出现错检和漏检现象，其中ECA-RTDETR的检测精度更高. 在倒影干扰场景中，YOLOv8m、YOLOv11l、YOLOv12l、RT-DETR和SuperYOLO均出现了漏检现象，RT-DETR的检测框定位不准确，FFCA-YOLO和ECA-RTDETR均正确检测出了垃圾，但是ECA-RTDETR的检测精度更高. 在聚集小目标场景中，YOLOv8m、RT-DETR和FFCA-YOLO存在漏检现象，YOLOv11l、YOLOv12l、SuperYOLO和ECA-RTDETR均正确检测出了瓶子垃圾；通过第4列的放大图可以看出，ECA-RTDETR未出现漏检、错检现象，且检测精度更高. 在第5列背景复杂场景中，YOLOv8m存在漏检现象，YOLOv11l、YOLOv12l、RT-DETR和SuperYOLO均存在错检问题，而FFCA-YOLO和ECA-RTDETR均成功检测出了水漂垃圾. 综上所述，通过对比实验表明所提ECA-RTDETR方法在小目标水漂垃圾的检测与识别方面具有一定的优越性，能够实现高精度、实时的水漂垃圾定位与检测，进而助力水漂垃圾的高效监测与治理.

3. 结　语

为了提取到更丰富的小目标水漂垃圾特征，减少水漂垃圾的漏检、错检现象，提出基于边缘感知和跨尺度特征增强的小目标水漂垃圾检测方法ECA-RTDETR. 首先，在系统分析小目标水漂垃圾特征提取所面临的挑战后，设计基于边缘增强的特征提取网络MSEEResNet-18，增强小目标的边缘轮廓特征，使网络能够提取到更为丰富的水漂垃圾特征. 其次，为了提升网络对小目标水漂垃圾的关注度，设计三分支跨尺度选择融合模块CSSFM，分别从局部、全局和大感受野提升对小目标特征的融合增强能力. 最后，为了准确区分小目标水漂垃圾和复杂背景，设计基于自适应稀疏注意力的尺度内特征交互模块AS-AIFI，通过动态控制稀疏矩阵来提高水漂垃圾与背景的特征区分度，从而避免对小目标的错检现象. 消融实验验证了所提改进策略的有效性和优越性. 相较于基准模型，在YRLW数据集上其mAP、mmAP、R分别提升了4.93、2.46和3.18个百分点，Para减少了1.94 M，FLOPs增加了1.67 G；在FloW-Img数据集上mAP、mmAP、R分别提升了3.39、1.45、2.23个百分点. 对比实验结果表明，ECA-RTDETR对小目标水漂垃圾的检测精度较高，相较于对比算法具有一定的优越性. 然而，在实验结果中发现，所提方法在实时性方面还有待提高. 未来将设计更轻量化的检测模型，在提高小目标水漂垃圾检测与识别精度的同时，提升实时检测性能，助力水漂垃圾的高效监测和治理.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

AI P, MA L, WU B

LI-DWT- and PD-FC-MSPCNN-based small-target localization method for floating garbage on water surfaces

[J]. Water, 2023, 15 (12): 2302

DOI:10.3390/w15122302 [本文引用: 1]

[2]

JIANG Z, WU B, MA L, et al

APM-YOLOv7 for small-target water-floating garbage detection based on multi-scale feature adaptive weighted fusion

[J]. Sensors, 2024, 24 (1): 50