浙江大学学报(工学版), 2026, 60(7): 1404-1415 doi: 10.3785/j.issn.1008-973X.2026.07.004

计算机与控制工程

基于改进RT-DETR的水下色偏环境中小型生物检测

董绍江,, 肖涛, 吕振鸣, 夏浩然, 罗家元, 孙世政, 张霞, 刘超

重庆交通大学 机电与车辆工程学院,重庆 400074

Small organism detection in underwater color-cast environments based on improved RT-DETR

DONG Shaojiang,, XIAO Tao, LV Zhenming, XIA Haoran, LUO Jiayuan, SUN Shizheng, ZHANG Xia, LIU Chao

School of Mechatronics and Vehicle Engineering, Chongqing Jiaotong University, Chongqing 400074, China

收稿日期: 2025-06-15  

基金资助: 重庆市技术创新与应用发展专项重点资助项目(CSTB2024TIAD-KPX0081);重庆市自然科学基金创新发展联合基金资助项目(CSTB2024NSCQ-LZX0024);重庆市教育委员会科学技术研究资助项目(KJZD-K202300711).

Received: 2025-06-15  

Fund supported: 重庆市技术创新与应用发展专项重点资助项目(CSTB2024TIAD-KPX0081);重庆市自然科学基金创新发展联合基金资助项目(CSTB2024NSCQ-LZX0024);重庆市教育委员会科学技术研究资助项目(KJZD-K202300711).

作者简介 About authors

董绍江(1982—),男,教授,从事特种机器人、机电一体化研究.orcid.org/0009-0006-6937-0854.E-mail:dongshaojiang100@163.com , E-mail:dongshaojiang100@163.com

摘要

为了实现对水下小型生物的快速、准确检测,针对现有模型在水下色偏环境中检测性能差的问题,提出基于改进RT-DETR的检测方法(FES-DETR). 在主干网络中设计高效多尺度注意力特征提取(Faster-Rep-EMA)模块,以优化原有的BasicBlock,提高对色偏干扰下微弱目标的特征提取能力和计算效率. 在颈部编码网络中,将纠缠Transformer块(ETB)与基于注意力的尺度内特征交互(AIFI)模块融合,实现频率域和空间域特征的联合优化,增强色偏图像的特征表达. 设计轻量化小目标增强金字塔(SOEP)模块,增强模型对小目标的检测性能并降低计算冗余. 实验结果表明,FES-DETR显著提高了检测性能,准确率、召回率较RT-DETR-r18分别提升了2.6和2.3个百分点,mAP@0.5和mAP@0.5∶0.95分别提升了3.2和2.1个百分点,参数量和计算量分别下降了3.0 M和8.5 G,FPS提高至95.7帧/s. 与YOLO系列等主流目标检测模型相比,该模型展现出更优越的性能,为水下小型生物检测提供了高效的技术手段.

关键词: 色偏环境 ; 小型生物 ; 目标检测 ; RT-DETR ; 纠缠Transformer

Abstract

A detection method based on an improved RT-DETR (FES-DETR) was proposed to achieve fast and accurate detection of underwater small organisms, and address the poor detection performance of the existing models in underwater color-cast environments. An efficient multi-scale attention feature extraction (Faster-Rep-EMA) module was designed to optimize the original BasicBlock in the backbone network, thereby improving the feature extraction ability and computational efficiency for weak targets under color-cast interference. The entanglement Transformer block (ETB) was integrated with the attention-based intra-scale feature interaction (AIFI) module in the neck encoding network to achieve the joint optimization of frequency-domain and spatial-domain features, which could enhance the feature representation of color-cast images. A lightweight small object enhancement pyramid (SOEP) module was designed to enhance the detection performance of the model for small targets and reduce the computational redundancy. Experimental results showed that the FES-DETR significantly improved the detection performance. Compared with RT-DETR-r18, the precision and recall were improved by 2.6 and 2.3 percentage points, respectively; the mAP@0.5 and the mAP@0.5:0.95 were improved by 3.2 and 2.1 percentage points, respectively; the number of parameters and computational complexity were decreased by 3.0 M and 8.5 G, respectively; and the FPS was increased to 95.7 frames per second. Compared with mainstream target detection models such as YOLO series, this model showed more superior performance, providing an effective technical approach for the detection of underwater small organisms.

Keywords: color-cast environment ; small organism ; target detection ; RT-DETR ; entanglement Transformer

PDF (3433KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

董绍江, 肖涛, 吕振鸣, 夏浩然, 罗家元, 孙世政, 张霞, 刘超. 基于改进RT-DETR的水下色偏环境中小型生物检测. 浙江大学学报(工学版)[J], 2026, 60(7): 1404-1415 doi:10.3785/j.issn.1008-973X.2026.07.004

DONG Shaojiang, XIAO Tao, LV Zhenming, XIA Haoran, LUO Jiayuan, SUN Shizheng, ZHANG Xia, LIU Chao. Small organism detection in underwater color-cast environments based on improved RT-DETR. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1404-1415 doi:10.3785/j.issn.1008-973X.2026.07.004

水下小型生物检测对水下生态平衡、生物多样性具有深远的影响[1]. 然而,水体的散射和吸收作用导致目标图像出现色偏、失真、对比度降低等问题,显著增加了水下目标检测的难度.

随着工业4.0的到来,计算机视觉和深度学习技术逐渐在水下目标检测中得到了广泛应用. Shi等[2]提出基于Faster R-CNN的水下生物检测算法,采用ResNet作为特征提取网络,并融合双向特征金字塔模块,在抵抗色偏干扰方面取得了良好的效果,但是在两阶段检测上的实时性有待提升. 张艳等[3]在YOLOv5中引入金字塔分割注意力机制和基于线性变换的GhostBottleNeck模块,捕获多尺度特征图的空间域信息以丰富特征表示,有效提升了检测性能,但是其忽略了对频率域信息的利用. 闵锋等[4]针对水下生物检测,在YOLOv8n的基础上加入浅层混合池下采样和深层最大池下采样模块,以优化特征融合,并设计轻量化门控正则单元部分卷积模块来为模型减负,在降低计算量的同时提高了检测精度,但是并未对水下色偏干扰提出有效的解决方案. Guo等[5]提出DCM-YOLO算法,利用UnitModule模块增强水下图像,并引入可变形卷积和分离增强注意力模块,以更好地捕获色偏目标特征,但是这类先图像增强、再目标检测的两阶段算法的计算资源消耗太大. Zhou等[6]提出水下目标检测网络UODN,通过跨阶段多分支模块优化特征提取,并采用大核空间金字塔模块来增强多尺度目标检测能力,但是未考虑模型轻量化设计. Zhang等[7]将双流特征金字塔网络与任务交互模块集成,通过并行路径融合策略有效地捕获多尺度特征,以增强网络在复杂水下环境中的检测性能,但是其收敛缓慢,训练较为困难.

目前,YOLO系列模型因其出色的检测精度和实时性,在水下目标检测中应用最为广泛,但是其对水下色偏环境的适应性仍须提升. 此外,无论是两阶段算法(如Faster R-CNN)还是单阶段算法(如YOLO系列),都受限于非极大值抑制(non-maximum suppression, NMS)后处理,影响了检测速度和精度. 为此,Carion等[8]提出的目标检测算法DETR创新性地采用Tranformer架构,将检测任务转化为集合预测问题,避免了NMS后处理对推理速度和鲁棒性的影响,但是其参数量大,训练效率低. 在此基础上,Zhu等[9]进一步提出端到端目标检测算法Deformable DETR,通过聚焦关键采样点,在提升检测性能的同时降低了计算成本. 针对DETR收敛缓慢的问题,Zhang等[10]提出DINO算法,使用混合查询选择方法,显著提高了训练效率和检测性能. Zhao等[11]对DINO的Transformer架构做出进一步优化,提出实时检测Transformer(real-time detection Transformer, RT-DETR). RT-DETR采用更加高效的混合编码器和不确定性最小查询选择策略,显著提升了推理速度和检测精度. 尽管RT-DETR性能优异,但是由于水下色偏现象使得目标与背景之间的颜色对比度降低,特征提取难度加大,RT-DETR容易出现漏检与误检的情况.

针对以上问题,提出基于改进RT-DETR的检测方法FES-DETR,创新点如下:1)设计高效多尺度注意力特征提取(Faster-Rep-EMA)模块,提高模型在色偏干扰下的图像特征提取能力和计算效率;2)提出纠缠Transformer-特征交互(ETB-AIFI)模块,实现跨域信息交互,提升模型的全局感知能力;3)构建轻量级小目标特征增强金字塔(SOEP)模块,增强对小目标的检测性能并降低计算冗余.

1. FES-DETR网络

RT-DETR是基于Transformer架构的实时端到端目标检测模型,避免了传统目标检测流程中的非极大值抑制(NMS)步骤,并克服了DETR系列模型计算成本高昂、实时性低的问题. 该模型由主干网络、混合编码器以及配备辅助预测头的Transformer解码器组成. 以主干网络在最后3个阶段提取的特征作为编码器的输入,通过基于注意力的尺度内特征交互(attention-based intra-scale feature interaction, AIFI)和跨尺度融合模块,将多尺度特征转化为一系列图像特征. IoU感知的查询选择模块从编码器输出中选取固定数量的特征,作为解码器的初始对象查询. 最终,解码器利用辅助预测头来迭代优化这些对象查询,生成检测框和置信度分数.

提出的面向水下色偏环境的小型生物检测框架FES-DETR是在RT-DETR基础上改进得到的,其整体结构如图1所示.

图 1

图 1   面向水下色偏环境的小型生物检测模型(FES-DETR)结构图

Fig.1   Structure diagram of small organism detection model (FES-DETR) targeting underwater color-cast environments


1.1. Faster-Rep-EMA模块

1.1.1. RepPConv结构及原理

波长较长的红光在水下传播时衰减较快,使得水下图像呈现绿色、蓝色等色偏现象,从而出现特征偏差[12]. 然而,RT-DETR采用的传统特征提取网络在经过自然场景训练后,其参数被固化,难以动态适应水下光谱吸收特性[13],且冗余计算过多,导致模型运算效率低下,无法充分利用色偏图像的特征信息,从而影响了检测性能. 针对以上问题,在高效、快速的FasterNet[14]基础上,将部分卷积(partial convolution, PConv)与结构重参数化卷积(re-parameterized convolution, RepConv)融合,构建RepPConv模块. 其中FasterNet的核心思想是采用PConv来代替标准卷积,使其仅对输入大小为$ H\times W\times C $的特征图的Cp个通道应用卷积操作,其余区域保持不变. 这种设计可以有效降低模型的计算量,提高特征提取效率. PConv模块的结构如图2所示.

图 2

图 2   部分卷积模块结构图

Fig.2   Structure diagram of PConv module


PConv模块的计算量$ {f}_{\text{FLOPs}} $及内存访问量$ \text{MAC} $

$ {f}_{\text{FLOPs}}=H\times W\times C_{\text{p}}^{2}\times {k}^{2}, $

$ \text{MAC}=2HW{C}_{\text{p}}+{k}^{2}C_{\text{p}}^{2}\approx 2HW{C}_{\text{p}}. $

式中:k为卷积核的高和宽,Cp通常取总通道数C的1/4. PConv的计算量和内存访问量只有标准卷积的1/16和1/4.

RepConv的技术核心在于重参数化. 利用RepConv对PConv进行重参数化处理,即将部分卷积和批量归一化(batch normalization, BN)层融合成1个部分卷积. BN的表达式为

$ \hat{\boldsymbol{x}}_i={\boldsymbol{\gamma}} \cdot \frac{\boldsymbol{x}_i-{\boldsymbol{\mu}}}{\sqrt{{\boldsymbol{\sigma}}^2+{\boldsymbol{\varepsilon}}}}+{\boldsymbol{\beta }}. $

式中:${\boldsymbol{ \mu}} $为同一批次输入特征的均值;${\boldsymbol{ \sigma }}$为同一批次输入特征的方差;${\boldsymbol{ \beta}} $$ {\boldsymbol{\gamma }}$均为可变参数,对应于均值与方差;$ {\boldsymbol{x}}_{i} $为BN层的输入特征图. 将式(3)化简,可以视作$ \boldsymbol{y}={\boldsymbol{w}}\boldsymbol{x}+{\boldsymbol{b }}$形式,令$ {{\boldsymbol{w}}}_{\text{BN}}= \dfrac{{\boldsymbol{\gamma }}}{\sqrt{{{\boldsymbol{\sigma}} }^{2}+{\boldsymbol{\varepsilon}} }} $$ {{\boldsymbol{b}}}_{\text{BN}}= \left({\boldsymbol{\beta}} -\dfrac{{\boldsymbol{\gamma}} \cdot {\boldsymbol{\mu}} }{\sqrt{{{\boldsymbol{\sigma}} }^{2}+{\boldsymbol{\varepsilon}} }}\right) $,那么PConv和BN的融合过程可以表示为

$ \begin{aligned}\hat{\boldsymbol{x}}_{i}= & {\boldsymbol{w}}_{\mathrm{BN}} \cdot\left({\boldsymbol{w}}_{\mathrm{PConv}} \cdot \boldsymbol{x}+{\boldsymbol{b}}_{\mathrm{PConv}}\right)+{\boldsymbol{b}}_{\mathrm{BN}}= \\& \left({\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{w}}_{\mathrm{PConv}}\right) \cdot \boldsymbol{x}+\left({\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{b}}_{\mathrm{PConv}}+{\boldsymbol{b}}_{\mathrm{BN}}\right) .\end{aligned} $

式中:$ {{\boldsymbol{w}}}_{\text{BN}} $为BN层的权重,$ {{\boldsymbol{w}}}_{\text{PConv}} $为部分卷积层的权重,x为原始输入特征图,$ {{\boldsymbol{b}}}_{\text{BN}} $$ {{\boldsymbol{b}}}_{\text{PConv}} $为BN层和部分卷积层的偏置参数. 最后,得到融合后的部分卷积:

$ \left.\begin{array}{l}\hat{\boldsymbol{x}}_i={\boldsymbol{w}} \boldsymbol{x}+{\boldsymbol{b}}, \\{\boldsymbol{w}}={\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{w}}_{\mathrm{PConv}}, \\{\boldsymbol{b}}={\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{b}}_{\mathrm{PConv}}+{\boldsymbol{b}}_{\mathrm{BN}} \cdot\end{array}\right\} $

RepPConv模块在训练阶段并行使用3×3、1×1部分卷积和BN分支,通过融合各分支的输出,以实现对色偏图像的高效特征提取和色彩通道权重参数的优化. 在推理阶段,将1×1卷积和BN路径转化为3×3卷积,以单分支结构提高计算效率. RepPConv结合了RepConv和PConv的优势,在保持FasterNet的低计算量优点的同时,通过多分支结构捕捉更丰富的特征,从而提升了特征提取效率,避免了轻量级网络的精度丢失问题. 其结构如图3所示.

图 3

图 3   融合部分卷积与重参数化卷积的RepPConv模块结构图

Fig.3   Structure diagram of RepPConv module fusing partial convolution and re-parameterized convolution


1.1.2. 高效多尺度注意力模块

为了进一步增强模型在目标尺度变化和色偏干扰下的特征提取能力,引入高效多尺度注意力(efficient multi-scale attention, EMA)模块[15]. EMA模块结构如图4所示,其中,X AvgPool为水平全局池化操作,Y AvgPool为垂直全局池化操作,C//G为子特征图的通道数. 对于任意输入特征图$ \boldsymbol{X}\in {\mathbf{R}}^{H\times W\times C} $,沿通道维度将其划分为G组子特征图,利用3条平行路径来提取子特征图的注意力权重,在降低计算成本的同时进行跨维度特征交互,以增强模型在色偏环境中的目标聚焦能力. 再利用跨空间学习模块实现信息聚合,并进行全局信息编码. 最后,用Sigmoid函数聚合2个空间注意力权重,突出显示所有像素的的全局上下文信息. EMA的融入增强了模型在色偏环境下对深层特征图的像素级注意力. Faster-Rep-EMA模块的整体结构如图5所示.

图 4

图 4   高效多尺度注意力模块结构图

Fig.4   Structure diagram of EMA module


图 5

图 5   高效多尺度注意力特征提取模块结构图

Fig.5   Structure diagram of Faster-Rep-EMA module


1.2. ETB-AIFI模块

水下色偏环境干扰了图像的空间域像素值[16],而RT-DETR的核心模块AIFI主要利用空间域特征进行尺度内交互,未充分利用频率域信息,因而难以区分小目标与复杂背景. 为此,在AIFI模块中引入纠缠Transformer块(entanglement Transformer block, ETB)[17],将空间域和频率域特征深度融合,有效解决AIFI模块仅在单尺度上进行特征交互而缺乏多尺度信息整合的问题. ETB模块的整体结构如图6所示.

图 6

图 6   纠缠Transformer块结构图

Fig.6   Structure diagram of ETB


ETB通过频率自注意(frequency self-attention, FSA)、空间自注意力(spatial self-attention, SSA)和纠缠前馈网络(entanglement feed-forward network, EFFN)3个关键组件实现对频率域和空间域特征的联合优化,以提高对目标的检测能力. FSA组件通过快速傅里叶变换(fast Fourier transform, FFT)将特征转换至频率域,并对频段间关系进行建模. 输入特征$ \boldsymbol{P}_{\psi }^{n} $经过归一化层的处理,生成特征$ \hat{{\boldsymbol{P}}} = \text{LN}\left(\boldsymbol{P}_{\psi }^{n}\right) $;利用快速傅里叶变换在频率域中得到查询$ {\boldsymbol{Q}}_{\text{f}} $、键$ {\boldsymbol{K}}_{\text{f}} $、值$ {\boldsymbol{V}}_{\text{f}} $,然后对重构的查询与键进行点积运算,得到转置注意力图$ {\boldsymbol{\varLambda}}_{\text{f}} $;通过Softmax函数进行激活,使用激活的注意力图$ {a}{\boldsymbol{\varLambda}}_{\text{f}} $对重构的值$ \tilde{{\boldsymbol{V}}_{\text{f}}} $进行加权,再通过逆FFT将其转换回空间域,并引入1个频率残差连接$ \hat{{\boldsymbol{P}}} _{\text{f}}^{\text{r}} $来生成频率特征$ \boldsymbol{X}_{\text{f}}^{1} $

$ a \boldsymbol{\varLambda}_{\mathrm{f}}=\varTheta\left(\operatorname{Sof}\left(\boldsymbol{\varLambda}_{\mathrm{f}}^{\mathrm{re}}\right), \; \operatorname{Sof}\left(\boldsymbol{\varLambda}_{\mathrm{f}}^{\mathrm{im}}\right)\right), $

$ \boldsymbol{X}_{\mathrm{f}}^1=\mathrm{C}_1 \operatorname{Cat}\left(\varPhi\left(\operatorname{IFFT}\left(a \boldsymbol{\varLambda}_{\mathrm{f}} \odot \tilde{\boldsymbol{V}_{\mathrm{f}}}\right)\right), \hat{\boldsymbol{P}}_{\mathrm{f}}^{\mathrm{r}}\right) . $

式中:Sof (·)为Softmax函数,Θ表示将虚部和实部组合成复数的组合函数,Φ为模运算,$ \odot $为矩阵乘法运算,$ \boldsymbol{\varLambda}_{\text{f}}^{\text{re}} $$ \boldsymbol{\varLambda}_{\text{f}}^{\text{im}} $分别为注意力图$ {\boldsymbol{\varLambda}}_{\text{f}} $的实部和虚部,C1Cat为1×1卷积串联操作,$ \tilde{{\boldsymbol{V}}_{\text{f}}} $为重构的$ {\boldsymbol{V}}_{\text{f}} $,IFFT为快速傅里叶逆变换.

SSA组件通过深度可分离卷积提取空间特征,并在空间域建模局部上下文信息. 与FSA类似,以特征$ \hat{{\boldsymbol{P}}} =\text{LN}\left(\boldsymbol{P}_{\psi}^{n }\right) $为输入,先对位置信息进行1×1卷积编码,再利用3×3和5×5的2个深度可分离卷积,得到自注意力所需的查询$ {\boldsymbol{Q}}_{\text{s}} $、键$ {\boldsymbol{K}}_{\text{s}} $和值$ {\boldsymbol{V}}_{\text{s}} $. 然后,利用重构的查询和键生成注意力图,并用Softmax函数激活. 随后,使用激活的注意图$ a{\boldsymbol{\varLambda}}_{\text{f}} $$ {\boldsymbol{V}}_{\text{s}} $进行加权. 此外,为了增加空间局部信息,引入空间残差连接$ \tilde{\boldsymbol{P}_{\text{s}}^{\text{r}}} $来生成空间特征$ \boldsymbol{X}_{\text{s}}^{\text{1}} $

$ a \boldsymbol{\varLambda}_{\mathrm{s}}=\operatorname{Sof}\left(\tilde{\boldsymbol{Q}_{\mathrm{s}}} \odot \tilde{\boldsymbol{K}_{\mathrm{s}}}\right), $

$ \boldsymbol{X}_{\mathrm{s}}^1=\mathrm{C}_1 \operatorname{Cat}\left(a \boldsymbol{\varLambda}_{\mathrm{s}} \odot \tilde{\boldsymbol{V}_{\mathrm{s}}}, \tilde{\boldsymbol{P}_{\mathrm{s}}^{\mathrm{r}}}\right) . $

式中:$ \tilde{{\boldsymbol{Q}}_{\text{s}}} $$ \tilde{{\boldsymbol{K}}_{\text{s}}} $$ \tilde{{\boldsymbol{V}}_{\text{s}}} $分别为重构的查询、键和值.

EFFN组件通过频率域和空间域特征之间的交互融合,生成更强大、完整的特征表示. 首先,将频率特征$ \boldsymbol{X}_{\text{f}}^{\text{1}} $和空间特征$ \boldsymbol{X}_{\text{s}}^{\text{1}} $进行纠缠融合,使其相互适应,然后进行残差连接,得到综合特征$ \boldsymbol{X}_{\text{c}}^{\text{1}} $

$ \boldsymbol{X}_{\mathrm{c}}^1=\boldsymbol{X}_{\mathrm{f}}^1+\boldsymbol{X}_{\mathrm{s}}^1+\boldsymbol{P}_\psi^n . $

其次,将归一化后的综合特征$ \hat{{\boldsymbol{X}}} _{\text{c}}^{1} $投影到频率域和空间域,利用高斯误差线性单元(GELU)函数进行非线性激活,并利用门控机制来获得第1阶段的全局频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{\text{2}} $和局部空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}} $

$ \begin{split} \hat{\boldsymbol{X}}_{\mathrm{f}}^2=& \operatorname{GE}\left(\varPhi\left(\sigma\left(\operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right)\right) * \\& \varPhi\left(\sigma\left(\operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) , \\\end{split} $

$ \hat{\boldsymbol{X}}_{\mathrm{s}}^2=\operatorname{GE}\left(\operatorname{DC}_3\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{DC}_3\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right) . $

式中:GE(·)为GELU函数,$ \sigma $为加权系数,DC3为3×3深度可分离卷积操作,*表示逐元素相乘. 随后,对频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{\text{2}} $和空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}} $再次进行纠缠融合与独立优化,以获得第2阶段的全局频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{3} $和局部空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{3} $;再通过聚合和通道缩减来生成综合特征$ \hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}} $

$ \left.\begin{split}\hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}}=& {\text{C}}_{\text{1}}\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{3},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{3}}\right)+\boldsymbol{X}_{\text{c}}^{\text{1}},\\\hat{{\boldsymbol{X}}} _{\text{f}}^{\text{3}}=& \mathit{\varPhi }\left(\text{IFFT}\left(\sigma \left(\text{FFT}\left(\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right)\right)\right.\right.\ast \\& \left.\left.\text{FFT}\left(\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right)\right)\right),\\\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{3}}=& \mathrm{D}{\mathrm{C}}_{3}\left(\mathrm{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right).\end{split}\right\} $

最后,引入剩余连接以获得最终的特征X,对于具有n个通道的输入特征$ \boldsymbol{P}_{\psi }^{n} $

$ \boldsymbol{X}={\text{C}}_{\text{1}}\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}}\boldsymbol{P}_{\psi }^{n}\right)+\boldsymbol{P}_{\psi }^{n}. $

通过多次聚合交互作用,全局频率特征和局部空间特征相互作用、纠缠在一起,形成丰富而全面的表征. 这种联合优化策略有效提高了模型对水下色偏目标的检测能力.

1.3. 小目标增强金字塔模块

RT-DETR中基于CNN的跨尺度特征融合(CNN-based cross-scale feature fusion, CCFF)模块在面对小目标检测时性能受限,其原因在于小目标在不同尺度下的特征变化较为复杂,且色偏环境导致小目标在高层特征图中像素少、特征弱. 因此,需要更精细的协同优化机制来增强其特征表示,而传统CCFF的特征融合方式相对简单,难以实现这种协同优化,导致小目标的特征表达不够丰富和准确,影响了检测性能. 针对这一问题,目前的主流策略是引入P2检测层[18],以提高模型对小目标的检测性能. 但是这种方法存在诸多弊端:一方面,加入P2检测层会使计算量显著增加,给模型的运行效率带来较大压力;另一方面,会导致后处理过程变得更加复杂和耗时,从而影响整个检测模型的实时性和实用性. 因此,基于RT-DETR中传统的CCFF进行改进,提出新型小目标增强金字塔(small object enhancement pyramid, SOEP)模块,提高对小目标的检测性能并降低计算冗余. SOEP的整体结构如图7所示.

图 7

图 7   小目标增强金字塔模块结构图

Fig.7   Structure diagram of SOEP module


与传统的添加P2检测层的策略不同,创新地引入空间到深度卷积(space-to-depth convolution, SPDConv)[19]来处理P2特征层. 在提取小目标特征信息后,SPDConv能够在不丢失可学习信息的前提下降低特征图空间维度,从而提高了模型的计算效率.

具体来说,为了将输入特征图从空间维度转换到深度维度,对于输入尺寸为$ H\times W\times {C}_{1} $的特征图($ {C}_{1} $为通道数),首先通过Space to depth层对特征图进行切片,将其划分为4个子特征图. 然后,将这些子特征图在通道维度上进行拼接,得到尺寸为$ \left(H/2\right)\times \left(W/2\right)\times 4{C}_{1} $的新特征图. 对新特征图进行非步长卷积,最终得到尺寸为$ \left(H/2\right)\times \left(W/2\right)\times {C}_{2} $的输出特征图. 这种结构设计使得SPDConv能够充分提取小目标的关键特征并调整尺度,从而实现其与P3层特征的有效融合. SPDConv的结构如图8所示.

图 8

图 8   空间到深度卷积模块结构图

Fig.8   Structure diagram of SPDConv


将Omnikernel模块[20]融入跨阶段局部(cross stage partial,CSP)结构中,提出CSPOmnikernel模块,在有效增强小目标特征学习能力的同时减少计算开销. CSPOmnikernel模块的结构如图9所示.

图 9

图 9   CSPOmnikernel模块结构图

Fig.9   Structure diagram of CSPOmnikernel module


CSP结构通过跨阶段连接来提升特征融合效率,避免冗余计算. Omnikernel模块由3个分支组成,其中全局分支融合了双域通道注意力模块(dual-domain channel attention module, DCAM)与基于频率的空间注意力模块(frequency-based spatial attention module, FSAM),以增强全局特征捕获能力;大分支采用异构深度可分离卷积,以获得多粒度感受野,强化大尺度特征建模;局部分支使用1×1深度可分离卷积来补充局部细节,缓解小尺度特征的退化问题. 对于输入特征$ \boldsymbol{X}\in {\mathbf{R}}^{H\times W\times C} $,处理过程为

$ \left.\begin{array}{l}\boldsymbol{G}\left(\boldsymbol{X}\right)=\text{DFA}\left(\boldsymbol{X}\right),\\\boldsymbol{L}\left(\boldsymbol{X}\right)=\text{DConv}\left(\boldsymbol{X},K\right),\\\boldsymbol{S}\left(\boldsymbol{X}\right)=\text{PDConv}\left(\boldsymbol{X}\right),\\\boldsymbol{Y}=\text{Fuse}\left(\boldsymbol{G}\left(\boldsymbol{X}\right),\boldsymbol{L}\left(\boldsymbol{X}\right),\boldsymbol{S}\left(\boldsymbol{X}\right)\right).\end{array}\right\} $

式中:$ K $为大核的大小,$ \boldsymbol{G}\left(\boldsymbol{X}\right)、\boldsymbol{L}\left(\boldsymbol{X}\right) 、\boldsymbol{S}\left(\boldsymbol{X}\right) $分别为全局分支、大尺度分支与局部分支的输出,$ \boldsymbol{Y} $为Omnikernal模块的输出,DFA表示对特征进行注意力加权,DConv表示对特征进行大核深度卷积操作,PDConv为逐点深度卷积,Fuse表示融合3个分支的输出特征.

最后,将经过CSPOmnikernel整合后的特征图与主干网络的浅层特征融合,补充小目标细节信息,再通过解耦头输出检测结果. 相较于直接引入P2检测层,SOEP模块通过高效、精细的多尺度特征融合,在保持高精度的同时提升了计算效率.

2. 实验结果与分析

2.1. 数据集

为了全面评估FES-DETR的性能,使用水下生物数据集DUO[21]进行训练与验证. DUO整合了多年水下机器人抓取大赛 (underwater robot picking contest,URPC)的数据,共有7 782张精确标注的水下图像,涵盖多种水下真实场景. 其包含4类生物:海参(Holothurian, 10.6%)、海胆(Echinus, 67.3%)、扇贝(Scallop, 2.6%)和海星(Starfish, 19.5%). 数据集中的图像呈现颜色失真、对比度低、光照不均等典型水下色偏特征,真实反映了水下目标检测所面临的困难. 按照8꞉1꞉1的比例将数据集随机划分为训练集、验证集和测试集,其中4类生物的样图如图10所示.

图 10

图 10   DUO数据集样图

Fig.10   Sample images of DUO dataset


2.2. 实验环境配置

实验平台使用Ubuntu 20.04操作系统,GPU为NVIDIA RTX 4090D (24G),CPU为15vCPU Intel(R) Xeon(R) Platinum 8474C. 模型训练环境配置为PyTorch 1.11.0+Python 3.8+CUDA 11.3,优化器采用Adam W,具体参数设置如表1所示.

表 1   实验参数设置

Tab.1  Settings of experimental parameters

参数数值参数数值
训练轮数250初始学习率10−4
批量大小32动量0.9
输入图像像素640×640权重衰减系数10−4

新窗口打开| 下载CSV


2.3. 评估指标

使用目标检测领域中通用的精确率(P)、召回率(R)、平均精度均值(mean average precision, mAP)、每秒浮点运算次数(FLOPs)、参数量(Np)和帧率(FPS)来评估FES-DETR模型的性能. 精确率P指模型预测为正样本的样本中预测正确的比例:

$ P=\frac{\text{TP}}{\text{TP}+\text{FP}}. $

式中:TP、FP分别为真正例和假正例的数目.

召回率R为预测正确的正例占总实际正例样本的比例:

$ R=\frac{\text{TP}}{\text{TP}+\text{FN}}. $

式中:FN为假负例样本数目.

平均精度均值mAP用于评估模型在所有类别上的综合检测性能,表示为

$ \text{AP}=\int\limits_{0}^{1}p\text{d}(R),\;\;\text{mAP}=\frac{1}{N}\sum\limits_{i=1}^{N}{\text{AP}}_{i}. $

式中:N为类别数,AP为单类别预测精度.

参数量Np和每秒浮点运算次数FLOPs分别用于评估模型复杂度和计算效率. 帧率FPS用于衡量模型每秒分析图像的能力,表示为

$ \text{FPS}=\frac{1\;000}{{t}_{\text{p}}+{t}_{\text{n}}+{t}_{\text{o}}}. $

式中:tp为图像预处理时间,tn为图像推理时间,to为图像后处理时间,均以ms为单位.

2.4. 消融实验

2.4.1. EMA特征分组消融实验

在所提模型中,EMA模块的特征分组数G设置为32. 为了验证G对模型性能的影响,在基线模型上应用Faster-Rep-EMA模块,并设置EMA_no(不分组)、EMA_16(G=16)、EMA_32(G=32)、EMA_64(G=64)等不同的超参数配置进行消融实验,结果见表2.

表 2   采取不同特征分组数的实验结果

Tab.2  Experimental results with different feature grouping numbers

分组配置mAP@0.5/%Np/MFLOPs/GFPS/(帧·s−1)
EMA_no83.116.147.199.7
EMA_1683.917.047.498.6
EMA_3284.316.447.299.4
EMA_6483.616.747.498.9

新窗口打开| 下载CSV


G=16或64时,计算量和参数量较大,且性能提升不如EMA_32,这是因为当G过小时,子特征组的通道数C/G较大,而当G过大时,子特征组数过多,2种情况均会增加卷积操作和跨空间学习的计算复杂度. EMA_no因未进行跨空间学习,无法获取更多语义信息,检测精度显著低于EMA_32. 因此,采取EMA_32时能够在检测性能和计算复杂度之间取得较好的平衡.

2.4.2. 模块消融实验

为了验证所提模型中各改进措施的有效性,在相同的实验条件下,以RT-DETR为基线模型,依次应用Faster-Rep-EMA、ETB-AIFI、SOEP模块,在DUO数据集上进行消融实验. 最后,将3个模块同时加入基线模型,再次评估其各项数据指标. 实验结果如表3所示,其中,Faster-Rep-EMA模块被简写为FRE.

表 3   各模块的消融实验结果

Tab.3  Results of ablation experiments on each module

FREETB-AIFISOEPP/%R/%mAP@0.5/%mAP@0.5꞉0.95/%Np/MFLOPs/GFPS/(帧·s −1)
×××84.874.982.463.220.856.985.5
××86.576.184.364.616.447.299.4
××87.176.684.964.822.160.373.5
××86.976.484.264.617.750.792.6
×86.476.183.964.118.354.685.3
×86.275.884.164.416.951.5100.0
×87.276.984.464.920.456.780.2
87.477.285.665.317.848.495.7

新窗口打开| 下载CSV


表3可知,各改进模块均有效提升了模型性能. 其中,高效多尺度注意力特征提取(Faster-Rep-EMA)模块使基线模型的精确率和召回率分别提升了1.7和1.2个百分点,mAP@0.5、mAP@0.5꞉0.95分别提升了1.9和1.4个百分点,参数量和计算量分别减少了4.4 M和9.7 G,FPS提高到99.4帧/s. 这主要得益于Faster-Rep-EMA模块在色偏环境下卓越的特征提取能力. 当单独采用ETB-AIFI模块时,尽管参数量和计算量有所增加,FPS降至73.5帧/s,但是精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.3、1.7、2.5、1.6个百分点,表明ETB-AIFI通过频率域和空间域特征的交互融合策略有效提升了模型的检测性能. 当单独采用小目标增强金字塔(SOEP)时,精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.1、1.5、1.8、1.4个百分点,参数量和计算量分别下降了3.1 M、6.2 G,FPS达到92.6帧/s,验证了SOEP模块能够在保持高精度的同时提升计算效率. 最后,在基线模型上同时应用Faster-Rep-EMA、ETB-AIFI、SOEP模块,精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.6、2.3、3.2、2.1个百分点,参数量和计算量分别下降了3.0 M和8.5 G,FPS提高至95.7帧/s. 这些结果表明改进模型与基线模型相比有了明显的性能提升,并在检测精度和计算资源消耗之间实现了良好的平衡,验证了其对水下色偏环境中小型生物检测的有效性.

2.5. 对比实验
2.5.1. PConv通道数对比实验

为了验证Faster-Rep-EMA模块中部分卷积的实际通道数Cp与输入特征图的总通道数C的比值r对FES-DETR检测速度和精度的影响,在相同的实验条件下,分别令Cp=C/2、C/4、C/8,在DUO数据集上进行3组对比试验. 实验结果如表4所示.

表 4   通道数对比实验结果

Tab.4  Results of comparative experiment on different channel numbers

rmAP@0.5/%Np/MFLOPs/GFPS/(帧·s−1)
1/285.418.148.695.4
1/485.617.848.495.7
1/885.017.648.396.3

新窗口打开| 下载CSV


表4可知,当r=1/2,即Cp取总通道数的1/2时,mAP@0.5比r=1/4(本研究模型)时下降了0.2个百分点,参数量和计算量分别增加了0.3 M和0.2 G,FPS下降到95.4 帧/s. 当r=1/8时,mAP@0.5比r=1/4时下降了0.6个百分点,参数量和计算量分别减少了0.2 M和0.1 G,FPS提高至96.3帧/s. 这是因为r过大会使PConv退化为常规卷积,影响了计算速度;当r过小时,PConv利用的特征图通道信息太少,使模型的特征提取能力不足,从而影响了检测精度. 当r=1/4时,模型在特征提取效率和检测精度之间取得了良好的平衡.

2.5.2. 模型对比实验

为了进一步验证FES-DETR的优越性,在相同的实验条件下,在DUO数据集上对FES-DETR与目前主流目标检测算法Faster R-CNN、YOLOv5s、YOLOv8n、YOLOv9t[22]、YOLOv10n[23]、YOLOv11n[24]、Deformable-DETR、RT-DETR-r50、RT-DETR-r34、RT-DETR-r18进行对比实验,结果如表5所示.

表 5   FES-DETR与主流目标检测算法的对比实验结果

Tab.5  Results of comparative experiment of FES-DETR and mainstream object detection algorithms

模型P/%R/%mAP@0.5/%mAP@0.5꞉0.95/%Np/MFLOPs/GFPS/(帧·s−1)
Faster R-CNN75.870.473.157.241.1126.746.5
YOLOv5s81.071.277.661.510.123.2123.7
YOLOv8n83.772.679.361.77.917.6128.4
YOLOv9t84.573.180.462.19.820.397.2
YOLOv10n84.773.582.362.87.718.4133.4
YOLOv11n85.275.282.763.49.419.1148.2
Deformable-DETR84.273.881.762.340.688.268.6
RT-DETR-r5085.375.382.963.641.9130.863.7
RT-DETR-r3484.474.182.262.731.174.582.3
RT-DETR-r1884.874.982.463.220.856.985.5
FES-DETR87.477.285.665.317.848.495.7

新窗口打开| 下载CSV


在检测精度方面,FES-DETR凭借高效、精细的特征融合能力和对色偏图像的针对性优化,展现出优越的性能. 在轻量化和实时性方面,先进的轻量级YOLO系列模型表现更佳,FES-DETR虽然稍逊一筹,但是凭借出色的检测精度弥补了这一不足,最终实现了轻量化、实时性和检测精度的良好平衡,展现出更优的综合性能. 训练结果如图11所示,其中(a)~(d)分别展示了不同模型在训练过程中的精确率、召回率、mAP@0.5和mAP@0.5∶0.95曲线. 结果表明,FES-DETR在各项指标上均优于其他模型,进一步验证了其以较低的计算资源消耗实现了最高的检测精度,综合性能优于主流目标检测模型.

图 11

图 11   多算法实验指标对比

Fig.11   Comparison of experimental metrics for multiple algorithms


2.6. 可视化展示

为了更加直观地展示所提模型相较于其他主流模型在水下色偏环境中的优势,采用先进的可视化技术Grad-CAM++[25]深入了解模型在预测时如何关注输入图像中的重要特征,并以热力图的形式突出显示对模型输出影响最大的像素区域,从而增强改进模型的可解释性. 这种可视化策略不仅增强了对模型决策过程的理解,而且为模型的进一步优化提供了强大的视觉支持.

选取多种水下色偏场景,进行水下小型生物检测结果的可视化对比展示,如图1213所示. 可以看到,在水下色偏环境中,其他模型均出现了不同程度的错检、漏检现象,且检测精确率均低于FES-DETR. 通过热力图分析可知,其他模型由于色偏干扰,容易出现目标与背景混淆的情况,且更加聚焦局部或边缘信息,而FES-DETR在区分色偏环境中的目标和背景方面表现良好,且有效地关注目标从全局到局部的细节特征,展示了出色的抗色偏干扰能力,验证了其更适用于色偏环境.

图 12

图 12   多算法检测结果可视化对比

Fig.12   Visual comparison of detection results of multiple algorithms


图 13

图 13   多算法热力图可视化对比

Fig.13   Visual comparison of heatmaps of multiple algorithms


3. 结 语

针对水下小型生物检测任务中因图像失真、色偏、对比度降低引起的检测精度低、漏检率高的问题,提出基于改进RT-DETR的水下小型生物检测方法FES-DETR. 首先,在主干网络中设计高效多尺度注意力特征提取(Faster-Rep-EMA)模块,以提高模型对色偏图像的特征提取能力和计算效率. 其次,在颈部网络中构建ETB-AIFI模块,实现频率域和空间域特征的交互融合,进一步增强模型的抗色偏干扰能力. 最后,设计轻量化小目标特征增强金字塔(SOEP)来增强模型对小目标的检测性能并降低计算冗余. 在公开数据集DUO上的实验结果表明,FES-DETR对色偏环境下水下小型生物的检测性能显著提高. 精确率、召回率较基线模型RT-DETR-r18分别提升了2.6和2.3个百分点,平均精度均值mAP@0.5提升了3.2个百分点,mAP@0.5꞉0.95提升了2.1个百分点,参数量和计算量分别下降了3.0 M和8.5 G,FPS提高至95.7帧/s. 与其他主流目标检测模型相比,该模型的综合性能更为出色. 尽管FES-DETR在检测精度上表现不错,但是仍有很多方面需要进一步优化,如模型参数量、计算量、实时性等. 未来将开展更加深入的研究,考虑结合图像增强技术和水下机器人,进一步增强其在实际色偏环境中的检测性能.

参考文献

ELMEZAIN M, SAAD SAOUD L, SULTAN A, et al

Advancing underwater vision: a survey of deep learning models for underwater object recognition and tracking

[J]. IEEE Access, 2025, 13: 17830- 17867

DOI:10.1109/ACCESS.2025.3534098      [本文引用: 1]

SHI P, XU X, NI J, et al

Underwater biological detection algorithm based on improved faster-RCNN

[J]. Water, 2021, 13 (17): 2420

DOI:10.3390/w13172420      [本文引用: 1]

张艳, 孙晶雪, 孙叶美, 等

基于分割注意力与线性变换的轻量化目标检测

[J]. 浙江大学学报: 工学版, 2023, 57 (6): 1195- 1204

DOI:10.3785/j.issn.1008-973X.2023.06.015      [本文引用: 1]

ZHANG Yan, SUN Jingxue, SUN Yemei, et al

Lightweight object detection based on split attention and linear transformation

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (6): 1195- 1204

DOI:10.3785/j.issn.1008-973X.2023.06.015      [本文引用: 1]

闵锋, 张雨薇, 刘煜晖, 等

改进YOLOv8的轻量化水下生物检测模型

[J]. 计算机工程与应用, 2025, 61 (6): 96- 105

DOI:10.3778/j.issn.1002-8331.2408-0411      [本文引用: 1]

MIN Feng, ZHANG Yuwei, LIU Yuhui, et al

Improving lightweight underwater biological detection model of YOLOv8

[J]. Computer Engineering and Applications, 2025, 61 (6): 96- 105

DOI:10.3778/j.issn.1002-8331.2408-0411      [本文引用: 1]

GUO L, LIU X, YE D, et al

Underwater object detection algorithm integrating image enhancement and deformable convolution

[J]. Ecological Informatics, 2025, 89: 103185

DOI:10.1016/j.ecoinf.2025.103185      [本文引用: 1]

ZHOU H, KONG M, YUAN H, et al

Real-time underwater object detection technology for complex underwater environments based on deep learning

[J]. Ecological Informatics, 2024, 82: 102680

DOI:10.1016/j.ecoinf.2024.102680      [本文引用: 1]

ZHANG W, WANG H, LI H, et al

Dual-stream feature pyramid network with task interaction for underwater object detection

[J]. Digital Signal Processing, 2025, 163: 105199

DOI:10.1016/j.dsp.2025.105199      [本文引用: 1]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with Transformers [C]// European Conference on Computer Vision. [S. l. ]: Springer, 2020: 213–229.

[本文引用: 1]

ZHU X, SU W, LU L, et al. Deformable DETR: deformable Transformers for end-to-end object detection [EB/OL]. (2020-07-09) [2025-06-01]. https://arxiv.org/abs/2010.04159.

[本文引用: 1]

ZHANG H, LI F, LIU S, et al. DINO: DETR with improved denoising anchor boxes for end-to-end object detection [EB/OL]. (2022-03-07) [2025-06-01]. https://arxiv.org/abs/2203.03605.

[本文引用: 1]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

[本文引用: 1]

JAMIESON S, HOW J P, GIRDHAR Y. DeepSeeColor: realtime adaptive color correction for autonomous underwater vehicles via deep learning methods [C]// Proceedings of the IEEE International Conference on Robotics and Automation. London: IEEE, 2023: 3095–3101.

[本文引用: 1]

吕振鸣, 董绍江, 夏宗佑, 等

基于改进CycleGAN的多失真类型水下图像增强

[J]. 浙江大学学报: 工学版, 2025, 59 (6): 1148- 1158

[本文引用: 1]

LV Zhenming, DONG Shaojiang, XIA Zongyou, et al

Multi-distortion type underwater image enhancement based on improved CycleGAN

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (6): 1148- 1158

[本文引用: 1]

CHEN J, KAO S H, HE H, et al. Run, don’t walk: chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 12021–12031.

[本文引用: 1]

OUYANG D, HE S, ZHANG G, et al. Efficient multi-scale attention module with cross-spatial learning [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1–5.

[本文引用: 1]

BERMAN D, LEVY D, AVIDAN S, et al

Underwater single image color restoration using haze-lines and a new quantitative dataset

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (8): 2822- 2837

DOI:10.1109/tpami.2020.2977624      [本文引用: 1]

SUN Y, XU C, YANG J, et al. Frequency-spatial entanglement learning for camouflaged object detection [C]// European Conference on Computer Vision. Milan: Springer, 2024: 343–360.

[本文引用: 1]

KHALILI B, SMYTH A W

SOD-YOLOv8: enhancing YOLOv8 for small object detection in aerial imagery and traffic scenes

[J]. Sensors, 2024, 24 (19): 6209

[本文引用: 1]

SUNKARA R, LUO T. No more strided convolutions or pooling: a new CNN building block for low-resolution images and small objects [C]// Machine Learning and Knowledge Discovery in Databases. Grenoble: Springer, 2023: 443–459.

[本文引用: 1]

CUI Y, REN W, KNOLL A

Omni-kernel modulation for universal image restoration

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34 (12): 12496- 12509

DOI:10.1109/TCSVT.2024.3429557      [本文引用: 1]

LIU C, LI H, WANG S, et al. A dataset and benchmark of underwater object detection for robot picking [C]// Proceedings of the IEEE International Conference on Multimedia & Expo Workshops. Shenzhen: IEEE, 2021: 1–6.

[本文引用: 1]

WANG C Y, YEH I H, LIAO H Y M. YOLOv9: learning what you want to learn using programmable gradient information [C]// European Conference on Computer Vision. Milan: Springer, 2024: 1–21.

[本文引用: 1]

WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection [EB/OL]. (2024-05-13) [2025-06-06]. https://arxiv.org/abs/2405.14458.

[本文引用: 1]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. (2024-10-09) [2025-06-06]. https://arxiv.org/abs/2410.17725.

[本文引用: 1]

CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-CAM++: generalized gradient-based visual explanations for deep convolutional networks [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 839–847.

[本文引用: 1]

/