<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 面向水下色偏环境的小型生物检测模型（FES-DETR）结构图

Fig.1 Structure diagram of small organism detection model (FES-DETR) targeting underwater color-cast environments

1.1. Faster-Rep-EMA模块

1.1.1. RepPConv结构及原理

波长较长的红光在水下传播时衰减较快，使得水下图像呈现绿色、蓝色等色偏现象，从而出现特征偏差^[12]. 然而，RT-DETR采用的传统特征提取网络在经过自然场景训练后，其参数被固化，难以动态适应水下光谱吸收特性^[13]，且冗余计算过多，导致模型运算效率低下，无法充分利用色偏图像的特征信息，从而影响了检测性能. 针对以上问题，在高效、快速的FasterNet^[14]基础上，将部分卷积（partial convolution, PConv）与结构重参数化卷积（re-parameterized convolution, RepConv）融合，构建RepPConv模块. 其中FasterNet的核心思想是采用PConv来代替标准卷积，使其仅对输入大小为$ H\times W\times C $的特征图的C_p个通道应用卷积操作，其余区域保持不变. 这种设计可以有效降低模型的计算量，提高特征提取效率. PConv模块的结构如图2所示.

图 2

图 2 部分卷积模块结构图

Fig.2 Structure diagram of PConv module

PConv模块的计算量$ {f}_{\text{FLOPs}} $及内存访问量$ \text{MAC} $为

(1)$ {f}_{\text{FLOPs}}=H\times W\times C_{\text{p}}^{2}\times {k}^{2}, $

(2)$ \text{MAC}=2HW{C}_{\text{p}}+{k}^{2}C_{\text{p}}^{2}\approx 2HW{C}_{\text{p}}. $

式中：k为卷积核的高和宽，C_p通常取总通道数C的1/4. PConv的计算量和内存访问量只有标准卷积的1/16和1/4.

RepConv的技术核心在于重参数化. 利用RepConv对PConv进行重参数化处理，即将部分卷积和批量归一化（batch normalization, BN）层融合成1个部分卷积. BN的表达式为

(3)$ \hat{\boldsymbol{x}}_i={\boldsymbol{\gamma}} \cdot \frac{\boldsymbol{x}_i-{\boldsymbol{\mu}}}{\sqrt{{\boldsymbol{\sigma}}^2+{\boldsymbol{\varepsilon}}}}+{\boldsymbol{\beta }}. $

式中：${\boldsymbol{ \mu}} $为同一批次输入特征的均值；${\boldsymbol{ \sigma }}$为同一批次输入特征的方差；${\boldsymbol{ \beta}} $和$ {\boldsymbol{\gamma }}$均为可变参数，对应于均值与方差；$ {\boldsymbol{x}}_{i} $为BN层的输入特征图. 将式(3)化简，可以视作$ \boldsymbol{y}={\boldsymbol{w}}\boldsymbol{x}+{\boldsymbol{b }}$形式，令$ {{\boldsymbol{w}}}_{\text{BN}}= \dfrac{{\boldsymbol{\gamma }}}{\sqrt{{{\boldsymbol{\sigma}} }^{2}+{\boldsymbol{\varepsilon}} }} $，$ {{\boldsymbol{b}}}_{\text{BN}}= \left({\boldsymbol{\beta}} -\dfrac{{\boldsymbol{\gamma}} \cdot {\boldsymbol{\mu}} }{\sqrt{{{\boldsymbol{\sigma}} }^{2}+{\boldsymbol{\varepsilon}} }}\right) $，那么PConv和BN的融合过程可以表示为

(4)$ \begin{aligned}\hat{\boldsymbol{x}}_{i}= & {\boldsymbol{w}}_{\mathrm{BN}} \cdot\left({\boldsymbol{w}}_{\mathrm{PConv}} \cdot \boldsymbol{x}+{\boldsymbol{b}}_{\mathrm{PConv}}\right)+{\boldsymbol{b}}_{\mathrm{BN}}= \\& \left({\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{w}}_{\mathrm{PConv}}\right) \cdot \boldsymbol{x}+\left({\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{b}}_{\mathrm{PConv}}+{\boldsymbol{b}}_{\mathrm{BN}}\right) .\end{aligned} $

式中：$ {{\boldsymbol{w}}}_{\text{BN}} $为BN层的权重，$ {{\boldsymbol{w}}}_{\text{PConv}} $为部分卷积层的权重，x为原始输入特征图，$ {{\boldsymbol{b}}}_{\text{BN}} $、$ {{\boldsymbol{b}}}_{\text{PConv}} $为BN层和部分卷积层的偏置参数. 最后，得到融合后的部分卷积：

(5)$ \left.\begin{array}{l}\hat{\boldsymbol{x}}_i={\boldsymbol{w}} \boldsymbol{x}+{\boldsymbol{b}}, \\{\boldsymbol{w}}={\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{w}}_{\mathrm{PConv}}, \\{\boldsymbol{b}}={\boldsymbol{w}}_{\mathrm{BN}} \cdot {\boldsymbol{b}}_{\mathrm{PConv}}+{\boldsymbol{b}}_{\mathrm{BN}} \cdot\end{array}\right\} $

RepPConv模块在训练阶段并行使用3×3、1×1部分卷积和BN分支，通过融合各分支的输出，以实现对色偏图像的高效特征提取和色彩通道权重参数的优化. 在推理阶段，将1×1卷积和BN路径转化为3×3卷积，以单分支结构提高计算效率. RepPConv结合了RepConv和PConv的优势，在保持FasterNet的低计算量优点的同时，通过多分支结构捕捉更丰富的特征，从而提升了特征提取效率，避免了轻量级网络的精度丢失问题. 其结构如图3所示.

图 3

图 3 融合部分卷积与重参数化卷积的RepPConv模块结构图

Fig.3 Structure diagram of RepPConv module fusing partial convolution and re-parameterized convolution

1.1.2. 高效多尺度注意力模块

为了进一步增强模型在目标尺度变化和色偏干扰下的特征提取能力，引入高效多尺度注意力（efficient multi-scale attention, EMA）模块^[15]. EMA模块结构如图4所示，其中，X AvgPool为水平全局池化操作，Y AvgPool为垂直全局池化操作，C//G为子特征图的通道数. 对于任意输入特征图$ \boldsymbol{X}\in {\mathbf{R}}^{H\times W\times C} $，沿通道维度将其划分为G组子特征图，利用3条平行路径来提取子特征图的注意力权重，在降低计算成本的同时进行跨维度特征交互，以增强模型在色偏环境中的目标聚焦能力. 再利用跨空间学习模块实现信息聚合，并进行全局信息编码. 最后，用Sigmoid函数聚合2个空间注意力权重，突出显示所有像素的的全局上下文信息. EMA的融入增强了模型在色偏环境下对深层特征图的像素级注意力. Faster-Rep-EMA模块的整体结构如图5所示.

图 4

图 4 高效多尺度注意力模块结构图

Fig.4 Structure diagram of EMA module

图 5

图 5 高效多尺度注意力特征提取模块结构图

Fig.5 Structure diagram of Faster-Rep-EMA module

1.2. ETB-AIFI模块

水下色偏环境干扰了图像的空间域像素值^[16]，而RT-DETR的核心模块AIFI主要利用空间域特征进行尺度内交互，未充分利用频率域信息，因而难以区分小目标与复杂背景. 为此，在AIFI模块中引入纠缠Transformer块（entanglement Transformer block, ETB）^[17]，将空间域和频率域特征深度融合，有效解决AIFI模块仅在单尺度上进行特征交互而缺乏多尺度信息整合的问题. ETB模块的整体结构如图6所示.

图 6

图 6 纠缠Transformer块结构图

Fig.6 Structure diagram of ETB

ETB通过频率自注意（frequency self-attention, FSA）、空间自注意力（spatial self-attention, SSA）和纠缠前馈网络（entanglement feed-forward network, EFFN）3个关键组件实现对频率域和空间域特征的联合优化，以提高对目标的检测能力. FSA组件通过快速傅里叶变换（fast Fourier transform, FFT）将特征转换至频率域，并对频段间关系进行建模. 输入特征$ \boldsymbol{P}_{\psi }^{n} $经过归一化层的处理，生成特征$ \hat{{\boldsymbol{P}}} = \text{LN}\left(\boldsymbol{P}_{\psi }^{n}\right) $；利用快速傅里叶变换在频率域中得到查询$ {\boldsymbol{Q}}_{\text{f}} $、键$ {\boldsymbol{K}}_{\text{f}} $、值$ {\boldsymbol{V}}_{\text{f}} $，然后对重构的查询与键进行点积运算，得到转置注意力图$ {\boldsymbol{\varLambda}}_{\text{f}} $；通过Softmax函数进行激活，使用激活的注意力图$ {a}{\boldsymbol{\varLambda}}_{\text{f}} $对重构的值$ \tilde{{\boldsymbol{V}}_{\text{f}}} $进行加权，再通过逆FFT将其转换回空间域，并引入1个频率残差连接$ \hat{{\boldsymbol{P}}} _{\text{f}}^{\text{r}} $来生成频率特征$ \boldsymbol{X}_{\text{f}}^{1} $：

(6)$ a \boldsymbol{\varLambda}_{\mathrm{f}}=\varTheta\left(\operatorname{Sof}\left(\boldsymbol{\varLambda}_{\mathrm{f}}^{\mathrm{re}}\right), \; \operatorname{Sof}\left(\boldsymbol{\varLambda}_{\mathrm{f}}^{\mathrm{im}}\right)\right), $

(7)$ \boldsymbol{X}_{\mathrm{f}}^1=\mathrm{C}_1 \operatorname{Cat}\left(\varPhi\left(\operatorname{IFFT}\left(a \boldsymbol{\varLambda}_{\mathrm{f}} \odot \tilde{\boldsymbol{V}_{\mathrm{f}}}\right)\right), \hat{\boldsymbol{P}}_{\mathrm{f}}^{\mathrm{r}}\right) . $

式中：Sof (·)为Softmax函数，Θ表示将虚部和实部组合成复数的组合函数，Φ为模运算，$ \odot $为矩阵乘法运算，$ \boldsymbol{\varLambda}_{\text{f}}^{\text{re}} $和$ \boldsymbol{\varLambda}_{\text{f}}^{\text{im}} $分别为注意力图$ {\boldsymbol{\varLambda}}_{\text{f}} $的实部和虚部，C₁Cat为1×1卷积串联操作，$ \tilde{{\boldsymbol{V}}_{\text{f}}} $为重构的$ {\boldsymbol{V}}_{\text{f}} $，IFFT为快速傅里叶逆变换.

SSA组件通过深度可分离卷积提取空间特征，并在空间域建模局部上下文信息. 与FSA类似，以特征$ \hat{{\boldsymbol{P}}} =\text{LN}\left(\boldsymbol{P}_{\psi}^{n }\right) $为输入，先对位置信息进行1×1卷积编码，再利用3×3和5×5的2个深度可分离卷积，得到自注意力所需的查询$ {\boldsymbol{Q}}_{\text{s}} $、键$ {\boldsymbol{K}}_{\text{s}} $和值$ {\boldsymbol{V}}_{\text{s}} $. 然后，利用重构的查询和键生成注意力图，并用Softmax函数激活. 随后，使用激活的注意图$ a{\boldsymbol{\varLambda}}_{\text{f}} $对$ {\boldsymbol{V}}_{\text{s}} $进行加权. 此外，为了增加空间局部信息，引入空间残差连接$ \tilde{\boldsymbol{P}_{\text{s}}^{\text{r}}} $来生成空间特征$ \boldsymbol{X}_{\text{s}}^{\text{1}} $：

(8)$ a \boldsymbol{\varLambda}_{\mathrm{s}}=\operatorname{Sof}\left(\tilde{\boldsymbol{Q}_{\mathrm{s}}} \odot \tilde{\boldsymbol{K}_{\mathrm{s}}}\right), $

(9)$ \boldsymbol{X}_{\mathrm{s}}^1=\mathrm{C}_1 \operatorname{Cat}\left(a \boldsymbol{\varLambda}_{\mathrm{s}} \odot \tilde{\boldsymbol{V}_{\mathrm{s}}}, \tilde{\boldsymbol{P}_{\mathrm{s}}^{\mathrm{r}}}\right) . $

式中：$ \tilde{{\boldsymbol{Q}}_{\text{s}}} $、$ \tilde{{\boldsymbol{K}}_{\text{s}}} $、$ \tilde{{\boldsymbol{V}}_{\text{s}}} $分别为重构的查询、键和值.

EFFN组件通过频率域和空间域特征之间的交互融合，生成更强大、完整的特征表示. 首先，将频率特征$ \boldsymbol{X}_{\text{f}}^{\text{1}} $和空间特征$ \boldsymbol{X}_{\text{s}}^{\text{1}} $进行纠缠融合，使其相互适应，然后进行残差连接，得到综合特征$ \boldsymbol{X}_{\text{c}}^{\text{1}} $：

(10)$ \boldsymbol{X}_{\mathrm{c}}^1=\boldsymbol{X}_{\mathrm{f}}^1+\boldsymbol{X}_{\mathrm{s}}^1+\boldsymbol{P}_\psi^n . $

其次，将归一化后的综合特征$ \hat{{\boldsymbol{X}}} _{\text{c}}^{1} $投影到频率域和空间域，利用高斯误差线性单元（GELU）函数进行非线性激活，并利用门控机制来获得第1阶段的全局频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{\text{2}} $和局部空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}} $：

(11)$ \begin{split} \hat{\boldsymbol{X}}_{\mathrm{f}}^2=& \operatorname{GE}\left(\varPhi\left(\sigma\left(\operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right)\right) * \\& \varPhi\left(\sigma\left(\operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{FFT}\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) , \\\end{split} $

(12)$ \hat{\boldsymbol{X}}_{\mathrm{s}}^2=\operatorname{GE}\left(\operatorname{DC}_3\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right)\right) * \operatorname{DC}_3\left(\hat{\boldsymbol{X}}_{\mathrm{c}}^1\right) . $

式中：GE(·)为GELU函数，$ \sigma $为加权系数，DC₃为3×3深度可分离卷积操作，*表示逐元素相乘. 随后，对频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{\text{2}} $和空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}} $再次进行纠缠融合与独立优化，以获得第2阶段的全局频率特征$ \hat{{\boldsymbol{X}}} _{\text{f}}^{3} $和局部空间特征$ \hat{{\boldsymbol{X}}} _{\text{s}}^{3} $；再通过聚合和通道缩减来生成综合特征$ \hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}} $：

(13)$ \left.\begin{split}\hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}}=& {\text{C}}_{\text{1}}\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{3},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{3}}\right)+\boldsymbol{X}_{\text{c}}^{\text{1}},\\\hat{{\boldsymbol{X}}} _{\text{f}}^{\text{3}}=& \mathit{\varPhi }\left(\text{IFFT}\left(\sigma \left(\text{FFT}\left(\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right)\right)\right.\right.\ast \\& \left.\left.\text{FFT}\left(\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right)\right)\right),\\\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{3}}=& \mathrm{D}{\mathrm{C}}_{3}\left(\mathrm{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{f}}^{2},\hat{{\boldsymbol{X}}} _{\text{s}}^{\text{2}}\right)\right).\end{split}\right\} $

最后，引入剩余连接以获得最终的特征X，对于具有n个通道的输入特征$ \boldsymbol{P}_{\psi }^{n} $：

(14)$ \boldsymbol{X}={\text{C}}_{\text{1}}\text{Cat}\left(\hat{{\boldsymbol{X}}} _{\text{c}}^{\text{3}}\boldsymbol{P}_{\psi }^{n}\right)+\boldsymbol{P}_{\psi }^{n}. $

通过多次聚合交互作用，全局频率特征和局部空间特征相互作用、纠缠在一起，形成丰富而全面的表征. 这种联合优化策略有效提高了模型对水下色偏目标的检测能力.

1.3. 小目标增强金字塔模块

RT-DETR中基于CNN的跨尺度特征融合（CNN-based cross-scale feature fusion, CCFF）模块在面对小目标检测时性能受限，其原因在于小目标在不同尺度下的特征变化较为复杂，且色偏环境导致小目标在高层特征图中像素少、特征弱. 因此，需要更精细的协同优化机制来增强其特征表示，而传统CCFF的特征融合方式相对简单，难以实现这种协同优化，导致小目标的特征表达不够丰富和准确，影响了检测性能. 针对这一问题，目前的主流策略是引入P₂检测层^[18]，以提高模型对小目标的检测性能. 但是这种方法存在诸多弊端：一方面，加入P₂检测层会使计算量显著增加，给模型的运行效率带来较大压力；另一方面，会导致后处理过程变得更加复杂和耗时，从而影响整个检测模型的实时性和实用性. 因此，基于RT-DETR中传统的CCFF进行改进，提出新型小目标增强金字塔（small object enhancement pyramid, SOEP）模块，提高对小目标的检测性能并降低计算冗余. SOEP的整体结构如图7所示.

图 7

图 7 小目标增强金字塔模块结构图

Fig.7 Structure diagram of SOEP module

与传统的添加P₂检测层的策略不同，创新地引入空间到深度卷积（space-to-depth convolution, SPDConv）^[19]来处理P₂特征层. 在提取小目标特征信息后，SPDConv能够在不丢失可学习信息的前提下降低特征图空间维度，从而提高了模型的计算效率.

具体来说，为了将输入特征图从空间维度转换到深度维度，对于输入尺寸为$ H\times W\times {C}_{1} $的特征图（$ {C}_{1} $为通道数），首先通过Space to depth层对特征图进行切片，将其划分为4个子特征图. 然后，将这些子特征图在通道维度上进行拼接，得到尺寸为$ \left(H/2\right)\times \left(W/2\right)\times 4{C}_{1} $的新特征图. 对新特征图进行非步长卷积，最终得到尺寸为$ \left(H/2\right)\times \left(W/2\right)\times {C}_{2} $的输出特征图. 这种结构设计使得SPDConv能够充分提取小目标的关键特征并调整尺度，从而实现其与P₃层特征的有效融合. SPDConv的结构如图8所示.

图 8

图 8 空间到深度卷积模块结构图

Fig.8 Structure diagram of SPDConv

将Omnikernel模块^[20]融入跨阶段局部（cross stage partial，CSP）结构中，提出CSPOmnikernel模块，在有效增强小目标特征学习能力的同时减少计算开销. CSPOmnikernel模块的结构如图9所示.

图 9

图 9 CSPOmnikernel模块结构图

Fig.9 Structure diagram of CSPOmnikernel module

CSP结构通过跨阶段连接来提升特征融合效率，避免冗余计算. Omnikernel模块由3个分支组成，其中全局分支融合了双域通道注意力模块（dual-domain channel attention module, DCAM）与基于频率的空间注意力模块（frequency-based spatial attention module, FSAM），以增强全局特征捕获能力；大分支采用异构深度可分离卷积，以获得多粒度感受野，强化大尺度特征建模；局部分支使用1×1深度可分离卷积来补充局部细节，缓解小尺度特征的退化问题. 对于输入特征$ \boldsymbol{X}\in {\mathbf{R}}^{H\times W\times C} $，处理过程为

(15)$ \left.\begin{array}{l}\boldsymbol{G}\left(\boldsymbol{X}\right)=\text{DFA}\left(\boldsymbol{X}\right),\\\boldsymbol{L}\left(\boldsymbol{X}\right)=\text{DConv}\left(\boldsymbol{X},K\right),\\\boldsymbol{S}\left(\boldsymbol{X}\right)=\text{PDConv}\left(\boldsymbol{X}\right),\\\boldsymbol{Y}=\text{Fuse}\left(\boldsymbol{G}\left(\boldsymbol{X}\right),\boldsymbol{L}\left(\boldsymbol{X}\right),\boldsymbol{S}\left(\boldsymbol{X}\right)\right).\end{array}\right\} $

式中：$ K $为大核的大小，$ \boldsymbol{G}\left(\boldsymbol{X}\right)、\boldsymbol{L}\left(\boldsymbol{X}\right) 、\boldsymbol{S}\left(\boldsymbol{X}\right) $分别为全局分支、大尺度分支与局部分支的输出，$ \boldsymbol{Y} $为Omnikernal模块的输出，DFA表示对特征进行注意力加权，DConv表示对特征进行大核深度卷积操作，PDConv为逐点深度卷积，Fuse表示融合3个分支的输出特征.

最后，将经过CSPOmnikernel整合后的特征图与主干网络的浅层特征融合，补充小目标细节信息，再通过解耦头输出检测结果. 相较于直接引入P₂检测层，SOEP模块通过高效、精细的多尺度特征融合，在保持高精度的同时提升了计算效率.

2. 实验结果与分析

2.1. 数据集

为了全面评估FES-DETR的性能，使用水下生物数据集DUO^[21]进行训练与验证. DUO整合了多年水下机器人抓取大赛（underwater robot picking contest，URPC）的数据，共有7 782张精确标注的水下图像，涵盖多种水下真实场景. 其包含4类生物：海参（Holothurian, 10.6%）、海胆（Echinus, 67.3%）、扇贝（Scallop, 2.6%）和海星（Starfish, 19.5%）. 数据集中的图像呈现颜色失真、对比度低、光照不均等典型水下色偏特征，真实反映了水下目标检测所面临的困难. 按照8꞉1꞉1的比例将数据集随机划分为训练集、验证集和测试集，其中4类生物的样图如图10所示.

图 10

图 10 DUO数据集样图

Fig.10 Sample images of DUO dataset

2.2. 实验环境配置

实验平台使用Ubuntu 20.04操作系统，GPU为NVIDIA RTX 4090D (24G)，CPU为15vCPU Intel(R) Xeon(R) Platinum 8474C. 模型训练环境配置为PyTorch 1.11.0+Python 3.8+CUDA 11.3，优化器采用Adam W，具体参数设置如表1所示.

表 1 实验参数设置

Tab.1 Settings of experimental parameters

参数	数值	参数	数值
训练轮数	250	初始学习率	10⁻⁴
批量大小	32	动量	0.9
输入图像像素	640×640	权重衰减系数	10⁻⁴

2.3. 评估指标

使用目标检测领域中通用的精确率（P）、召回率（R）、平均精度均值（mean average precision, mAP）、每秒浮点运算次数（FLOPs）、参数量（N_p）和帧率（FPS）来评估FES-DETR模型的性能. 精确率P指模型预测为正样本的样本中预测正确的比例：

(16)$ P=\frac{\text{TP}}{\text{TP}+\text{FP}}. $

式中：TP、FP分别为真正例和假正例的数目.

召回率R为预测正确的正例占总实际正例样本的比例：

(17)$ R=\frac{\text{TP}}{\text{TP}+\text{FN}}. $

式中：FN为假负例样本数目.

平均精度均值mAP用于评估模型在所有类别上的综合检测性能，表示为

(18)$ \text{AP}=\int\limits_{0}^{1}p\text{d}(R),\;\;\text{mAP}=\frac{1}{N}\sum\limits_{i=1}^{N}{\text{AP}}_{i}. $

式中：N为类别数，AP为单类别预测精度.

参数量N_p和每秒浮点运算次数FLOPs分别用于评估模型复杂度和计算效率. 帧率FPS用于衡量模型每秒分析图像的能力，表示为

(19)$ \text{FPS}=\frac{1\;000}{{t}_{\text{p}}+{t}_{\text{n}}+{t}_{\text{o}}}. $

式中：t_p为图像预处理时间，t_n为图像推理时间，t_o为图像后处理时间，均以ms为单位.

2.4. 消融实验

2.4.1. EMA特征分组消融实验

在所提模型中，EMA模块的特征分组数G设置为32. 为了验证G对模型性能的影响，在基线模型上应用Faster-Rep-EMA模块，并设置EMA_no（不分组）、EMA_16（G=16）、EMA_32（G=32）、EMA_64（G=64）等不同的超参数配置进行消融实验，结果见表2.

表 2 采取不同特征分组数的实验结果

Tab.2 Experimental results with different feature grouping numbers

分组配置	mAP@0.5/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
EMA_no	83.1	16.1	47.1	99.7
EMA_16	83.9	17.0	47.4	98.6
EMA_32	84.3	16.4	47.2	99.4
EMA_64	83.6	16.7	47.4	98.9

当G=16或64时，计算量和参数量较大，且性能提升不如EMA_32，这是因为当G过小时，子特征组的通道数C/G较大，而当G过大时，子特征组数过多，2种情况均会增加卷积操作和跨空间学习的计算复杂度. EMA_no因未进行跨空间学习，无法获取更多语义信息，检测精度显著低于EMA_32. 因此，采取EMA_32时能够在检测性能和计算复杂度之间取得较好的平衡.

2.4.2. 模块消融实验

为了验证所提模型中各改进措施的有效性，在相同的实验条件下，以RT-DETR为基线模型，依次应用Faster-Rep-EMA、ETB-AIFI、SOEP模块，在DUO数据集上进行消融实验. 最后，将3个模块同时加入基线模型，再次评估其各项数据指标. 实验结果如表3所示，其中，Faster-Rep-EMA模块被简写为FRE.

表 3 各模块的消融实验结果

Tab.3 Results of ablation experiments on each module

FRE	ETB-AIFI	SOEP	P/%	R/%	mAP@0.5/%	mAP@0.5꞉0.95/%	N_p/M	FLOPs/G	FPS/(帧·s ⁻¹)
×	×	×	84.8	74.9	82.4	63.2	20.8	56.9	85.5
√	×	×	86.5	76.1	84.3	64.6	16.4	47.2	99.4
×	√	×	87.1	76.6	84.9	64.8	22.1	60.3	73.5
×	×	√	86.9	76.4	84.2	64.6	17.7	50.7	92.6
√	√	×	86.4	76.1	83.9	64.1	18.3	54.6	85.3
√	×	√	86.2	75.8	84.1	64.4	16.9	51.5	100.0
×	√	√	87.2	76.9	84.4	64.9	20.4	56.7	80.2
√	√	√	87.4	77.2	85.6	65.3	17.8	48.4	95.7

由表3可知，各改进模块均有效提升了模型性能. 其中，高效多尺度注意力特征提取（Faster-Rep-EMA）模块使基线模型的精确率和召回率分别提升了1.7和1.2个百分点，mAP@0.5、mAP@0.5꞉0.95分别提升了1.9和1.4个百分点，参数量和计算量分别减少了4.4 M和9.7 G，FPS提高到99.4帧/s. 这主要得益于Faster-Rep-EMA模块在色偏环境下卓越的特征提取能力. 当单独采用ETB-AIFI模块时，尽管参数量和计算量有所增加，FPS降至73.5帧/s，但是精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.3、1.7、2.5、1.6个百分点，表明ETB-AIFI通过频率域和空间域特征的交互融合策略有效提升了模型的检测性能. 当单独采用小目标增强金字塔（SOEP）时，精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.1、1.5、1.8、1.4个百分点，参数量和计算量分别下降了3.1 M、6.2 G，FPS达到92.6帧/s，验证了SOEP模块能够在保持高精度的同时提升计算效率. 最后，在基线模型上同时应用Faster-Rep-EMA、ETB-AIFI、SOEP模块，精确率、召回率、mAP@0.5、mAP@0.5꞉0.95较基线模型分别提升了2.6、2.3、3.2、2.1个百分点，参数量和计算量分别下降了3.0 M和8.5 G，FPS提高至95.7帧/s. 这些结果表明改进模型与基线模型相比有了明显的性能提升，并在检测精度和计算资源消耗之间实现了良好的平衡，验证了其对水下色偏环境中小型生物检测的有效性.

2.5. 对比实验

2.5.1. PConv通道数对比实验

为了验证Faster-Rep-EMA模块中部分卷积的实际通道数C_p与输入特征图的总通道数C的比值r对FES-DETR检测速度和精度的影响，在相同的实验条件下，分别令C_p=C/2、C/4、C/8，在DUO数据集上进行3组对比试验. 实验结果如表4所示.

表 4 通道数对比实验结果

Tab.4 Results of comparative experiment on different channel numbers

r	mAP@0.5/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
1/2	85.4	18.1	48.6	95.4
1/4	85.6	17.8	48.4	95.7
1/8	85.0	17.6	48.3	96.3

由表4可知，当r=1/2，即C_p取总通道数的1/2时，mAP@0.5比r=1/4（本研究模型）时下降了0.2个百分点，参数量和计算量分别增加了0.3 M和0.2 G，FPS下降到95.4 帧/s. 当r=1/8时，mAP@0.5比r=1/4时下降了0.6个百分点，参数量和计算量分别减少了0.2 M和0.1 G，FPS提高至96.3帧/s. 这是因为r过大会使PConv退化为常规卷积，影响了计算速度；当r过小时，PConv利用的特征图通道信息太少，使模型的特征提取能力不足，从而影响了检测精度. 当r=1/4时，模型在特征提取效率和检测精度之间取得了良好的平衡.

2.5.2. 模型对比实验

为了进一步验证FES-DETR的优越性，在相同的实验条件下，在DUO数据集上对FES-DETR与目前主流目标检测算法Faster R-CNN、YOLOv5s、YOLOv8n、YOLOv9t^[22]、YOLOv10n^[23]、YOLOv11n^[24]、Deformable-DETR、RT-DETR-r50、RT-DETR-r34、RT-DETR-r18进行对比实验，结果如表5所示.

表 5 FES-DETR与主流目标检测算法的对比实验结果

Tab.5 Results of comparative experiment of FES-DETR and mainstream object detection algorithms

模型	P/%	R/%	mAP@0.5/%	mAP@0.5꞉0.95/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
Faster R-CNN	75.8	70.4	73.1	57.2	41.1	126.7	46.5
YOLOv5s	81.0	71.2	77.6	61.5	10.1	23.2	123.7
YOLOv8n	83.7	72.6	79.3	61.7	7.9	17.6	128.4
YOLOv9t	84.5	73.1	80.4	62.1	9.8	20.3	97.2
YOLOv10n	84.7	73.5	82.3	62.8	7.7	18.4	133.4
YOLOv11n	85.2	75.2	82.7	63.4	9.4	19.1	148.2
Deformable-DETR	84.2	73.8	81.7	62.3	40.6	88.2	68.6
RT-DETR-r50	85.3	75.3	82.9	63.6	41.9	130.8	63.7
RT-DETR-r34	84.4	74.1	82.2	62.7	31.1	74.5	82.3
RT-DETR-r18	84.8	74.9	82.4	63.2	20.8	56.9	85.5
FES-DETR	87.4	77.2	85.6	65.3	17.8	48.4	95.7

在检测精度方面，FES-DETR凭借高效、精细的特征融合能力和对色偏图像的针对性优化，展现出优越的性能. 在轻量化和实时性方面，先进的轻量级YOLO系列模型表现更佳，FES-DETR虽然稍逊一筹，但是凭借出色的检测精度弥补了这一不足，最终实现了轻量化、实时性和检测精度的良好平衡，展现出更优的综合性能. 训练结果如图11所示，其中(a)~(d)分别展示了不同模型在训练过程中的精确率、召回率、mAP@0.5和mAP@0.5∶0.95曲线. 结果表明，FES-DETR在各项指标上均优于其他模型，进一步验证了其以较低的计算资源消耗实现了最高的检测精度，综合性能优于主流目标检测模型.

图 11

图 11 多算法实验指标对比

Fig.11 Comparison of experimental metrics for multiple algorithms

2.6. 可视化展示

为了更加直观地展示所提模型相较于其他主流模型在水下色偏环境中的优势，采用先进的可视化技术Grad-CAM++^[25]深入了解模型在预测时如何关注输入图像中的重要特征，并以热力图的形式突出显示对模型输出影响最大的像素区域，从而增强改进模型的可解释性. 这种可视化策略不仅增强了对模型决策过程的理解，而且为模型的进一步优化提供了强大的视觉支持.

选取多种水下色偏场景，进行水下小型生物检测结果的可视化对比展示，如图12、13所示. 可以看到，在水下色偏环境中，其他模型均出现了不同程度的错检、漏检现象，且检测精确率均低于FES-DETR. 通过热力图分析可知，其他模型由于色偏干扰，容易出现目标与背景混淆的情况，且更加聚焦局部或边缘信息，而FES-DETR在区分色偏环境中的目标和背景方面表现良好，且有效地关注目标从全局到局部的细节特征，展示了出色的抗色偏干扰能力，验证了其更适用于色偏环境.

图 12

图 12 多算法检测结果可视化对比

Fig.12 Visual comparison of detection results of multiple algorithms

图 13

DOI:10.3785/j.issn.1008-973X.2023.06.015 [本文引用: 1]

图 13 多算法热力图可视化对比

Fig.13 Visual comparison of heatmaps of multiple algorithms

3. 结　语

针对水下小型生物检测任务中因图像失真、色偏、对比度降低引起的检测精度低、漏检率高的问题，提出基于改进RT-DETR的水下小型生物检测方法FES-DETR. 首先，在主干网络中设计高效多尺度注意力特征提取（Faster-Rep-EMA）模块，以提高模型对色偏图像的特征提取能力和计算效率. 其次，在颈部网络中构建ETB-AIFI模块，实现频率域和空间域特征的交互融合，进一步增强模型的抗色偏干扰能力. 最后，设计轻量化小目标特征增强金字塔（SOEP）来增强模型对小目标的检测性能并降低计算冗余. 在公开数据集DUO上的实验结果表明，FES-DETR对色偏环境下水下小型生物的检测性能显著提高. 精确率、召回率较基线模型RT-DETR-r18分别提升了2.6和2.3个百分点，平均精度均值mAP@0.5提升了3.2个百分点，mAP@0.5꞉0.95提升了2.1个百分点，参数量和计算量分别下降了3.0 M和8.5 G，FPS提高至95.7帧/s. 与其他主流目标检测模型相比，该模型的综合性能更为出色. 尽管FES-DETR在检测精度上表现不错，但是仍有很多方面需要进一步优化，如模型参数量、计算量、实时性等. 未来将开展更加深入的研究，考虑结合图像增强技术和水下机器人，进一步增强其在实际色偏环境中的检测性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ELMEZAIN M, SAAD SAOUD L, SULTAN A, et al

Advancing underwater vision: a survey of deep learning models for underwater object recognition and tracking

[J]. IEEE Access, 2025, 13: 17830- 17867

DOI:10.1109/ACCESS.2025.3534098 [本文引用: 1]

[2]

SHI P, XU X, NI J, et al

Underwater biological detection algorithm based on improved faster-RCNN

[J]. Water, 2021, 13 (17): 2420

DOI:10.3390/w13172420 [本文引用: 1]

[3]

张艳, 孙晶雪, 孙叶美, 等

基于分割注意力与线性变换的轻量化目标检测

[J]. 浙江大学学报: 工学版, 2023, 57 (6): 1195- 1204

ZHANG Yan, SUN Jingxue, SUN Yemei, et al

Lightweight object detection based on split attention and linear transformation

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (6): 1195- 1204

DOI:10.3785/j.issn.1008-973X.2023.06.015 [本文引用: 1]

[4]

闵锋, 张雨薇, 刘煜晖, 等

改进YOLOv8的轻量化水下生物检测模型

[J]. 计算机工程与应用, 2025, 61 (6): 96- 105

DOI:10.3778/j.issn.1002-8331.2408-0411 [本文引用: 1]

MIN Feng, ZHANG Yuwei, LIU Yuhui, et al

Improving lightweight underwater biological detection model of YOLOv8

[J]. Computer Engineering and Applications, 2025, 61 (6): 96- 105

DOI:10.3778/j.issn.1002-8331.2408-0411 [本文引用: 1]

[5]

GUO L, LIU X, YE D, et al

Underwater object detection algorithm integrating image enhancement and deformable convolution

[J]. Ecological Informatics, 2025, 89: 103185

DOI:10.1016/j.ecoinf.2025.103185 [本文引用: 1]

[6]

ZHOU H, KONG M, YUAN H, et al

Real-time underwater object detection technology for complex underwater environments based on deep learning

[J]. Ecological Informatics, 2024, 82: 102680

DOI:10.1016/j.ecoinf.2024.102680 [本文引用: 1]

[7]

ZHANG W, WANG H, LI H, et al

Dual-stream feature pyramid network with task interaction for underwater object detection

[J]. Digital Signal Processing, 2025, 163: 105199

DOI:10.1016/j.dsp.2025.105199 [本文引用: 1]

[8]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with Transformers [C]// European Conference on Computer Vision. [S. l. ]: Springer, 2020: 213–229.

[9]

ZHU X, SU W, LU L, et al. Deformable DETR: deformable Transformers for end-to-end object detection [EB/OL]. (2020-07-09) [2025-06-01]. https://arxiv.org/abs/2010.04159.

[10]

ZHANG H, LI F, LIU S, et al. DINO: DETR with improved denoising anchor boxes for end-to-end object detection [EB/OL]. (2022-03-07) [2025-06-01]. https://arxiv.org/abs/2203.03605.

[11]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

[12]

JAMIESON S, HOW J P, GIRDHAR Y. DeepSeeColor: realtime adaptive color correction for autonomous underwater vehicles via deep learning methods [C]// Proceedings of the IEEE International Conference on Robotics and Automation. London: IEEE, 2023: 3095–3101.

[13]

吕振鸣, 董绍江, 夏宗佑, 等

基于改进CycleGAN的多失真类型水下图像增强

[J]. 浙江大学学报: 工学版, 2025, 59 (6): 1148- 1158

LV Zhenming, DONG Shaojiang, XIA Zongyou, et al

Multi-distortion type underwater image enhancement based on improved CycleGAN

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (6): 1148- 1158

[14]

CHEN J, KAO S H, HE H, et al. Run, don’t walk: chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 12021–12031.

[15]

OUYANG D, HE S, ZHANG G, et al. Efficient multi-scale attention module with cross-spatial learning [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1–5.

[16]

BERMAN D, LEVY D, AVIDAN S, et al

Underwater single image color restoration using haze-lines and a new quantitative dataset

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (8): 2822- 2837

DOI:10.1109/tpami.2020.2977624 [本文引用: 1]

[17]

SUN Y, XU C, YANG J, et al. Frequency-spatial entanglement learning for camouflaged object detection [C]// European Conference on Computer Vision. Milan: Springer, 2024: 343–360.

[18]

KHALILI B, SMYTH A W

SOD-YOLOv8: enhancing YOLOv8 for small object detection in aerial imagery and traffic scenes

[J]. Sensors, 2024, 24 (19): 6209

[19]

SUNKARA R, LUO T. No more strided convolutions or pooling: a new CNN building block for low-resolution images and small objects [C]// Machine Learning and Knowledge Discovery in Databases. Grenoble: Springer, 2023: 443–459.

[20]

CUI Y, REN W, KNOLL A

Omni-kernel modulation for universal image restoration

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34 (12): 12496- 12509

DOI:10.1109/TCSVT.2024.3429557 [本文引用: 1]

[21]

LIU C, LI H, WANG S, et al. A dataset and benchmark of underwater object detection for robot picking [C]// Proceedings of the IEEE International Conference on Multimedia & Expo Workshops. Shenzhen: IEEE, 2021: 1–6.

[22]

WANG C Y, YEH I H, LIAO H Y M. YOLOv9: learning what you want to learn using programmable gradient information [C]// European Conference on Computer Vision. Milan: Springer, 2024: 1–21.

[23]

WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection [EB/OL]. (2024-05-13) [2025-06-06]. https://arxiv.org/abs/2405.14458.

[24]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. (2024-10-09) [2025-06-06]. https://arxiv.org/abs/2410.17725.

[25]

CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-CAM++: generalized gradient-based visual explanations for deep convolutional networks [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 839–847.