浙江大学学报(工学版), 2025, 59(11): 2379-2388 doi: 10.3785/j.issn.1008-973X.2025.11.017

计算机技术

基于改进YOLOv8的船舶目标检测算法

朵琳,, 殷瑜, 段威, 张芸, 任勇

昆明理工大学 信息工程与自动化学院,云南 昆明 650500

Ship target detection algorithm based on improved YOLOv8

DUO Lin,, YIN Yu, DUAN Wei, ZHANG Yun, REN Yong

School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

收稿日期: 2024-11-1  

基金资助: 云南省科技厅重大科技专项计划资助项目(202302AD080006); 云南省媒体融合重点实验室资助项目(220245201).

Received: 2024-11-1  

Fund supported: 云南省科技厅重大科技专项计划资助项目(202302AD080006);云南省媒体融合重点实验室资助项目(220245201).

作者简介 About authors

朵琳(1974—),女,副教授,从事移动通信与人工智能的研究.orcid.org/0000-0001-9221-5209.E-mail:duolin2003@126.com , E-mail:duolin2003@126.com

摘要

为了解决合成孔径雷达(SAR)图像中部分船舶目标体积小、目标尺寸变化大及背景噪声复杂等问题,提出基于YOLOv8的船舶目标检测算法DD-YOLO. 其中,在骨干网络中采用改进的C2f模块增强多尺度特征提取与融合能力,结合新设计的SPA模块优化梯度流信息传递,显著提升多尺度目标检测的效果. 颈部使用更轻量的动态上采样,在降低计算开销和模型复杂性的同时优化复杂背景中小型船舶的识别. 检测部分设计加入多维度注意力机制,开展轻量化处理,增强模型对复杂背景中关键特征的敏感性,提高检测准确性. 在HRSID和SSDD 2个公开数据集上进行实验,DD-YOLO的mAP50分别达到92.2%和98.5%,比基线分别提高了2%和2.2%,模型复杂度显著低于主流算法,实现了精度与效率的平衡.

关键词: 合成孔径雷达(SAR) ; 船舶检测 ; 深度学习 ; YOLOv8 ; 多尺度特征融合

Abstract

An improved ship target detection algorithm DD-YOLO based on YOLOv8 was proposed in order to address the challenges of small target size, significant scale variations and complex background noise in synthetic aperture radar (SAR) images for ship detection. An enhanced C2f module was incorporated in the backbone network to strengthen multi-scale feature extraction and fusion capabilities, combined with a newly designed SPA module to optimize gradient flow information propagation, significantly improving multi-scale target detection performance. A more lightweight dynamic upsampling approach was adopted in the neck network, which reduced computational overhead and model complexity while enhancing the recognition of small ships in complex backgrounds. A multi-dimensional attention mechanism was integrated in the detection head and lightweight processing was conducted to improve the model’s sensitivity to key features in complex backgrounds, thereby increasing detection accuracy. Experiments conducted on two public datasets, HRSID and SSDD, demonstrate that DD-YOLO achieves mAP50 scores of 92.2% and 98.5%, respectively, representing improvement of 2% and 2.2% over the baseline model. The model complexity is significantly lower than that of mainstream algorithms, achieving an optimal balance between accuracy and efficiency.

Keywords: synthetic aperture radar (SAR) ; ship inspection ; deep learning ; YOLOv8 ; multiscale feature fusion

PDF (4617KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

朵琳, 殷瑜, 段威, 张芸, 任勇. 基于改进YOLOv8的船舶目标检测算法. 浙江大学学报(工学版)[J], 2025, 59(11): 2379-2388 doi:10.3785/j.issn.1008-973X.2025.11.017

DUO Lin, YIN Yu, DUAN Wei, ZHANG Yun, REN Yong. Ship target detection algorithm based on improved YOLOv8. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(11): 2379-2388 doi:10.3785/j.issn.1008-973X.2025.11.017

合成孔径雷达(synthetic aperture radar,SAR)在海洋监测、灾害管理、环境保护和智能驾驶等领域应用广泛,尤其在船舶目标检测中. 尽管SAR图像受散斑噪声和复杂海岸线的影响,但其全天候特性在弱光和高云量的条件下优于可见光和红外图像,仍在港口实时监测、船舶识别和跟踪中发挥重要的作用.

SAR船舶检测算法包括恒定误报率(constant false alarm rate,CFAR)[1]和基于卷积神经网络(convolutional neural network,CNN)[2]的方法. CFAR能够有效地探测船舶目标并适应环境的变化,但在复杂背景下效率较低. 基于CNN的算法具有自适应特征学习、高精度和良好的背景适应性,已成为船舶检测的首选.

基于CNN的目标检测算法通常分为单阶段和两阶段方法. 常见的两阶段检测算法如区域卷积神经网络(region-based convolutional neural network,R-CNN)[3]算法,通过候选区域生成与分类回归实现检测,精度高,但计算复杂. 相比之下,单阶段检测算法如YOLO(you only look once,YOLO)[4]通常具有较低的计算复杂度,更适合实时应用. YOLO系列模型通过高效的检测方法、轻量化架构、多尺度特征融合和注意力机制,在复杂背景和高噪声环境下,显著提升了SAR船舶图像的检测速度和精度. Li等[5]提出基于YOLOv5的轻量化方法,采用通道剪枝、知识蒸馏和双向特征金字塔网络,提升了精度,但存在特征丢失的问题. Tang等[6]提出基于YOLOv7的改进模型,通过多尺度感受域卷积块提高检测精度,但计算开销较大,影响推理速度和资源利用.

YOLOv8是YOLO系列中的高性能目标检测器,采用CSPDarknet53作为骨干网络,通过残差连接和特征融合[7]提高特征提取能力,并优化网络结构以提升推理速度. Zhao等[8]基于YOLOv8,结合注意力机制和多尺度特征增强技术,提升了SAR船舶检测的精度和适应性,但散斑噪声和自然杂波的干扰导致较高的虚警率和漏警率.

为了显著增强复杂SAR图像环境中的船舶探测能力,结合SAR图像中船舶密度高、背景不平衡及目标尺寸变化大等问题,本文提出基于改进YOLOv8模型的算法,研究创新贡献详述如下.

(1)为了解决目标尺寸变化大及提取多尺度上下文信息能力不足的问题,设计双膨胀残差(contextual feature fusion with double dilated module,C2f-DD)模块,显著提高多尺度特征的提取效率,增强卷积核层的特征提取能力.

(2)为了提升模型精度并增强该模型在复杂背景下的鲁棒性,设计可变形注意力(spatial pyramid pooling fast attention,SPA)模块. 通过引入可变形注意机制,使得模型能够专注于图像中的关键区域.

(3)为了降低计算开销和模型复杂性,并有效解决背景噪声复杂和细节丢失的问题,使用轻量级上采样模块.

(4)为了提升对关键特征提取的敏感性,增强模型对复杂背景中各种目标特征和变换的适应性,设计轻量动态检测头模块,显著提高了多种背景中目标检测的准确性.

1. 网络设计

DD-YOLO模型的整体设计架构如图1所示. DD-YOLO基于YOLOv8,主要由3个部分组成:多尺度提取骨干网络、颈部网络和检测网络.

图 1

图 1   DD-YOLO网络的结构

Fig.1   Structure of DD-YOLO network


多尺度提取骨干网络具有增强的特征提取和多尺度语义感知能力,该骨干网络包括Conv(Convolution)模块、C2f(Concatenate Cross Stage Partial Fusion)、C2f-DD和SPA模块. C2f-DD模块结合了扩展膨胀卷积(dilated weighted residual,DWR)[9]和扩展重参数卷积(dilated weighted residual dilated reparam block,DRB)[10]的动态调整和增强特征的优点. 可变形注意力模块是在快速空间金字塔池化模块(spatial pyramid pooling–fast,SPPF)中加入可变形注意力机制[11]. 骨干网络通过增强特征提取能力、多尺度语义融合以及引入可变形注意力机制,有效丰富了梯度流信息.

在颈部部分,将YOLOv8原始的上采样替换为动态上采样(dynamic sampling upsampler,Dysample)[12],以增强低分辨率图像和小目标的检测能力,并进一步提升模型在复杂背景中的特征提取能力.

检测头部分使用轻量动态检测头(dynamic head prune,DyHead-Prune),通过轻量优化和多维度注意力机制,在保持高检测精度的同时,有效地提高了模型性能.

1.1. C2f-DD

SAR船舶图像中目标的形状、位置和尺寸差异较大,YOLOv8原有的C2f模块在提取这些目标特征时存在不足,无法有效地提取多尺度上下文信息. 为了增强网络在SAR船舶图像数据集上的多尺度特征提取能力,设计全新的C2f-DD模块.

C2f-DD通过使用DWR_DRB(dilated weighted residual with dilated reparam block)模块替代Bottleneck模块,优化残差连接结构. 这一改变增强了C2f-DD在处理输入张量时的特性,提升了多尺度特征的提取与融合能力. C2f-DD模块的结构如图2所示.

图 2

图 2   C2f-DD模块

Fig.2   C2f-DD module


DRB模块通过卷积核和不同膨胀率的卷积,增强大核卷积层的特征提取能力. 关键超参数包括卷积核的大小k、并行卷积层的大小和膨胀率d. 如图3所示为4个并行层的情况:d=(1,2,3,4),k=(5,5,3,3). 对于更大的k,可以采用更大内核的卷积核层或更高膨胀率的扩展层,唯一限制是k−1 < d−1 < k. DRB的结构如图3所示.

图 3

图 3   扩展重参数模块

Fig.3   Dilated reparam block module


大卷积核层通过结合批量归一化(batch normalization,BN)、调整膨胀率和零填充卷积核构建,膨胀层将模块转化为稀疏卷积核,增强特征提取. 并行的小卷积核捕捉小尺度模式,输出在BN层后相加,通过重参数化合并,推理时将大卷积核和小卷积核等效结合,提升特征质量.

DWR模块的工作原理分为2个阶段. 第1阶段通过3×3卷积、BN层和ReLU激活生成特征图;第2阶段通过不同膨胀率的深度卷积进行形态学过滤,增强特征的多样性. DWR模块采用固定膨胀率的卷积,无法应对复杂任务中的多样化特征,尤其在处理形状和尺度差异大的目标时,表达能力不足.

为了弥补这一不足,提出DWR_DRB模块,结合DBR模块和DWR模块的优势. DBR模块通过重参数化膨胀卷积来增强DWR模块的灵活性,能够并行使用不同膨胀率的卷积和小卷积核,动态调整感受野,捕捉更多尺度的特征. DWR_DRB模块在第1阶段通过3×3卷积和ReLU激活,生成简洁特征图;第2阶段通过DBR模块的多种膨胀率深度卷积进行形态学过滤,提升了特征的多样性和细节捕捉能力.

DWR_DRB模块的结构如图4所示. 其中,C为通道数. 在第1个分支中,输入特征通过3×3卷积、修正线性单元(rectified linear unit,ReLU)和BN层配对生成关联的残差特征. 3×3卷积用于初步特征提取.

图 4

图 4   DWR_DRB模块

Fig.4   DWR_DRB module


第2个分支通过DRB模块,对船舶目标的区域特征进行形态学过滤. 在该过程中,每个通道特征仅使用1个预定的感受野,避免了多余的感受野覆盖问题,提高了特征提取的针对性. 特征图通过1×1的卷积层,进一步处理并融合特征,生成最终的输出特征图.

1.2. SPA

在SPPF模块后引入可变形注意力机制,组成SPA模块. 可变形注意力通过引入可变形注意力和动态采样点,聚焦于图像中的一小部分关键区域,提高模型的性能.

图5所示为可变形注意力的信息流. 在特征图上均匀布置参考点,偏移量由查询通过偏移网络学习得到. 根据变形点投影出变形的键和值,计算相对位置偏差,增强多头注意力. 图5中的示例显示4个参考点,在实际实现中有更多的参考点.

图 5

图 5   可变形注意模块

Fig.5   Deformable attention module


输入特征图的尺寸为xRH×W×C,其中H为高度,W为宽度. 将特征图线性投影到查询标记q上,表示为q=xWq. 上路径的参考点使用缩放系数$r$进行下采样并排列成网格. 偏移量$ \Delta \boldsymbol{p} $从偏移网络获取,q作为输入添加到参考点,获得偏移位置信息$ \Delta \boldsymbol{p} $. 变形后的参考点通过双线性插值方法$ \sigma $进行采样,得到$ \tilde{\boldsymbol{x}} $$ \tilde{\boldsymbol{k}} $$ \tilde{\boldsymbol{v}} $

$ \tilde{{{\boldsymbol{x}}}}=\varnothing \left(\boldsymbol{x},{\boldsymbol{p}}+\Delta \boldsymbol{p}\right), $

$ \tilde{\boldsymbol{k}}=\tilde{\boldsymbol{x}}{\boldsymbol{W}}_{\boldsymbol{k}} ,$

$ \tilde{\boldsymbol{v}}=\tilde{\boldsymbol{x}}{\boldsymbol{W}}_{\boldsymbol{v}} . $

式中:WqWvWkWo为投影矩阵,WqWvWkWoRC×C. 多头注意力可以通过添加相对位置编码来计算,如下所示.

$ {\boldsymbol{z}}^{\left({m}\right)}=\sigma \left(\frac{{\boldsymbol{q}}^{\left({m}\right)}{\tilde{\boldsymbol{k}}}^{\left({m}\right)}}{\sqrt{d}}\right){\tilde{{\boldsymbol{v}}}}^{\left(m\right)}\text{;}\;m=1,\cdots ,M .$

$ {\boldsymbol{z}}={\mathrm{Concat}}({{\boldsymbol{z}}}^{\left(1\right)},\cdots ,{{\boldsymbol{z}}}^{\left(M\right)}){\boldsymbol{W}}_{\boldsymbol{o}}. $

式中:$ d $为每个头的维度,σ为softmax函数,$ {\boldsymbol{z}}^{\left({m}\right)} $为第m个注意力头的嵌入输出. 最终输出是$ {\boldsymbol{z}}$多头输出$ {\boldsymbol{z}}^{\left({m}\right)} $的拼接.

1.3. Dysample

在目标检测任务中,上采样用于调整特征图大小以匹配原始图像,从而有效地检测各种物体. 传统的双线性插值方法可能导致图像细节丢失,且基于卷积核的上采样计算量大,不利于轻量级网络. 针对SAR船舶检测图像背景噪声复杂、细节丢失的问题,引入轻量且有效的动态上采样器Dysample. Dysample通过基于点的采样方法和学习采样视角进行上采样,避免了动态卷积操作,减少了计算资源,提高了图像分辨率和模型性能.

Dysample的网络结构如图67所示. 其中,2g为偏移量调整后的采样网络. 采样集$S$由原始采样网格${\bf{F}}{\bf{N}}$和生成的采样网络g组成. 偏移是使用“线性+像素洗牌”方法生成的,偏移的范围可以由静态和动态因素决定. 具体来说,给定大小为C×H×W的特征图和上采样因子$s$,特征图通过输入和输出通道数分别为C2s2的线性层. 使用像素洗牌方法,将其重塑为2×sH×sW,其中$2$表示xy坐标. 生成大小为2×sH×sW的上采样特征图.

图 6

图 6   动态上采样

Fig.6   Dynamic upsampling


图 7

图 7   采样点发生器

Fig.7   Sampling point generator


1.4. DyHead-Prune

动态检测头(dynamic head,DyHead)通过引入注意力机制,整合尺度$ {\pi }_{{\mathrm{L}}} $、空间$ {\pi }_{{\mathrm{S}}} $和任务$ {\pi }_{{\mathrm{T}}} $感知的交互,提升目标检测性能. 具体来说,$ {\pi }_{{\mathrm{L}}} $促进不同特征层之间的尺度感知,$ {\pi }_{{\mathrm{S}}} $实现空间位置之间的空间感知,$ {\pi }_{{\mathrm{T}}} $在输出通道内促进任务感知. 这些机制结合在一起,形成DyHead动态检测头模块. DyHead存在计算量较大和参数冗余的问题,这在资源受限的场景中尤为明显,限制了其在实时性要求较高的任务中的应用.

为了解决以上问题,DyHead-Prune应运而生. DyHead-Prune对原始DyHead进行以下多方面优化. 采用轻量化动态卷积代替复杂模块. $ {\pi }_{{\mathrm{S}}} $模块仅结合必要的跨层特征,同时简化高分辨率特征的插值操作,减少计算开销. $ {\pi }_{{\mathrm{L}}} $$ {\pi }_{{\mathrm{T}}} $裁剪冗余通道及全连接层,并通过任务感知模块中的全连接层权重共享,进一步压缩模型规模.

DyHead-Prune的结构如图8所示. $ {\pi }_{{\mathrm{L}}} $模块通过平均池化、1×1卷积和激活函数生成通道权重,调整每个通道的特征响应强度. $ {\pi }_{{\mathrm{S}}} $模块采用3×3卷积和激活函数生成偏移量,用于动态调整输入特征的空间分布. $ {\pi }_{{\mathrm{T}}} $模块通过全局平均池化和2层全连接网络提取全局特征并生成通道级权重,优化特征融合方向.

图 8

图 8   DyHead-Prune的结构

Fig.8   structure of DyHead-Prune


$ {\pi }_{{\mathrm{S}}} $$ {\pi }_{{\mathrm{L}}} $$ {\pi }_{{\mathrm{T}}} $的具体数学表达式为

$ Z\left({\boldsymbol{F}}\right)={\pi }_{{\mathrm{T}}}\left({\pi }_{{\mathrm{S}}}\right({\pi }_{{\mathrm{L}}}\left(\boldsymbol{F}\right)\cdot \boldsymbol{F})\cdot \boldsymbol{F})\cdot \boldsymbol{F} . $

式中:特征张量$ \boldsymbol{F}\in {\bf{R}}^{L\times S\times T} $$ {\pi }_{{\mathrm{S}}}(\cdot ) $$ {\pi }_{{\mathrm{L}}}(\cdot ) $$ {\pi }_{{\mathrm{T}}}(\cdot ) $分别为尺度增强感知块、空间增强感知块和任务增强感知块.

$ {\pi }_{{\mathrm{L}}}\left({{\boldsymbol{F}}}\right)\cdot \boldsymbol{F}=\sigma \left({f}\left(\frac{1}{ST}\sum _{S,T}\boldsymbol{F}\right)\right)\cdot \boldsymbol{F}, $

$ \sigma \left(u\right)=\underset{}{\mathrm{max}}\left\{0,\underset{}{\mathrm{min}}\left\{1,\frac{u+1}{2}\right\}\right\} ,$

$ {\pi }_{{\mathrm{s}}}\left(\boldsymbol{F}\right)\cdot \boldsymbol{F}= \frac{1}{L}\sum _{l=1}^{L}\sum _{g=1}^{G}{w}_{l,{{g}}}\cdot \boldsymbol{F}\left(l;{p}_{g}+\Delta {p}_{g};t\right)\cdot \Delta {m}_{g}. $

式中:G为稀疏采样位置的个数,$ {p}_{g}+\Delta {p}_{g} $为通过自学习的空间偏移位置,$ \Delta {m}_{g} $为自学习位置$ {p}_{g} $的重要性度量.

$ {\pi }_{{\mathrm{T}}}\left(\boldsymbol{F}\right)\cdot \boldsymbol{F}= \underset{}{\mathrm{max}}\left\{{\varepsilon }^{1}(\boldsymbol{F})\cdot {F}_{t}+{\beta }^{1}(\boldsymbol{F}),{\varepsilon }^{2}(\boldsymbol{F})\cdot {F}_{t}+{\beta }^{2}(\boldsymbol{F}) \right\}.$

式中:${F}_{t} $为第$ t $个切分通道的特征. $ {\varepsilon }^{1}、{\varepsilon }^{2}、{\beta }^{1}、{\beta }^{2} $为学习控制激活阈值的超参数.

这种逐层处理方式确保了不同尺度、空间和通道的特征得到充分的优化. 与未轻量化的DyHead相比,轻量化后的DyHead-Prune参数量减少,内存占用降低,显著提高了模型效率和适应性,保证了较高的检测精度.

2. 实验结果及分析

在2种不同规模的SAR图像数据集上进行实验,验证了该方法的有效性和先进性.

2.1. 数据集

SSDD(ship-SAR ship detection)数据集[13]是SAR船舶探测领域第一个公开可用的数据集. 它包括来自Sentinel-1、TerraSAR-X和RadarSat-2的1 160张图像. 图像覆盖了多种不同的海洋环境和条件.

HRSID(high resolution ship detection)数据集[14]是更复杂和高分辨率的集合. 它包括来自TerraSAR-X、TanDEM-X和Sentinel-1B 3个卫星平台拍摄的5 604张图像. 这些图像经过精细处理和过滤,提供了更详细和精确的目标信息.

2.2. 评价指标

为了公平地比较算法性能,实验使用COCO(Microsoft common objects in context)数据集的评估指标,主要指标是平均精度AP(average precision),由精确率p(precision)-召回率r(recall)曲线下的面积得出. 在IoU(intersection over union)≥0.5的条件下,计算平均精度,此时的AP称为mAP50. 同样地,计算mAP55、mAP60、mAP65、mAP70、mAP80、mAP85、mAP90和mAP95,mAP50-95表示这10个值的平均值,通常表示为AP,用于评估方法的整体性能. pr的计算如下:

$ p=\frac{{\mathrm{TP}}}{{\mathrm{TP}}+{\mathrm{FP}}}, $

$ r=\frac{{\mathrm{TP}}}{{\mathrm{TP}}+{\mathrm{FN}}}. $

式中:TP为正确检测到的船舶目标数量,FN为漏检的船舶目标数量,FP为非船舶目标被错误检测为船舶目标的数量.

${\mathrm{AP}}$基于pr计算,计算方法如下:

$ {\mathrm{AP}}={\int }_{0}^{1}p\left(r\right){\mathrm{d}}r. $

参数量表示模型中权重和偏差的数量,参数越少,模型越轻,占用空间和计算资源也越少.

实验中使用每秒浮点运算次数(floating point operations per second, FLOPs)作为辅助的评估指标,测试模型的效率. 作为辅助指标,评估模型每次前向推理的计算量. FLOPs 越低,说明模型的计算复杂度越低,运行更快,对硬件资源的需求更小. 通过比较不同模型的 FLOPs,可以更好地权衡性能与计算成本,辅助在实际应用中选择更高效的模型.

2.3. 实验配置

实验设置包括一台Intel Core i5-12600KF Processor、16 GB RAM、NVIDIA GeForce RTX 4060Ti GPU(16 GB内存)的计算机,配备Ubuntu 18.04操作系统,网络结构基于Pytorch1.9.0构建,编程语言为Python3.8,使用CUDNN 8.0和CUDA 11.1加速训练. 将2个数据集随机分为训练集、验证集和测试集,比例为7∶2∶1. 该模型用300个轮次进行训练,模型的输入图像大小为640×640像素,批处理大小设置为8.

2.4. DD-YOLO消融实验

为了验证所设计的基础模块的有效性,开展消融实验. 由于HRSID数据集包含更多样本和更高的复杂度,有助于更全面地评估模块的性能,保证实验结果的可靠性和稳定性,选择在HRSID数据集上进行消融实验.

实验A~G在基线模型YOLOv8的基础上逐步引入C2f-DD、SPA、Dysample和检测头等模块,验证它们对模型性能的贡献. 实验A为基线模型,实验H为最终的DD-YOLO模型,包含所有优化模块,所有指标相对于基线模型均有提升.

表1中,Np为参数量. 从表1可知,实验B在基线算法的基础上加入C2f-DD模块,模型在各项指标上均有所提升,p增加了0.6%,r提高了1.1%,mAP50和mAP50-95都增加了0.8%. 这些提升表明C2f-DD模块增强了多尺度上下文信息提取,特别是在不同尺度目标下,模型能够更好地融合特征,提升检测精度. 在实验C中引入SPA模块,p增加了0.6%,r提高了1.4%,mAP50增加了0.5%,SPA模块通过空间注意力机制聚焦重要区域,显著提升了r. 在实验D中,用Dysample模块替换上采样模块,Dysample模块在保持高检测性能的同时减少了参数量. 在实验E中,替换了检测头模块. 该模块的替换使得p提升了0.5%,r提升了1.4%,mAP50提高了1.2%,mAP50-95提高了2.1%. 检测头优化后,模型能够对不同尺度的目标进行多重预测,增强了检测能力,特别是在mAP50-95上表现显著. 在实验F中同时加入Dysample和检测头模块,p提高了0.6%,r提升了1.4%,mAP50和mAP50-95均有所提升. 这表明2个模块在联合使用时进一步增强了模型的检测能力. 在实验G中,进一步引入C2f-DD模块后,p提升了1.4%,r增加了1.5%,mAP50和mAP50-95分别提高了1.8%和2.7%. 结合这些模块,提升了模型的整体性能,特别是在高精度目标检测任务中表现更加出色. 实验H为本文算法,DD-YOLO模型在p上提升了1.5%,r增加了2.5%,mAP50增加了2.0%,mAP50-95提升了3.4%,与YOLOv8相比,整体性能有了显著的提升. 各模块的协同作用使得模型能够更好地处理多尺度目标,提高了对小目标的检测精度,有效地降低了计算开销.

表 1   HRSID上的DD-YOLO消融实验

Tab.1  DD-YOLO ablation experiment on HRSID

编号YOLOV8C2f-DDSPADysampleDetectp/%r/%mAP50/%mAP50-95/%Np/106FLOPs/109
A90.582.590.264.011.468.1
B91.183.691.064.812.278.0
C91.183.990.764.712.498.3
D90.483.890.664.111.428.1
E91.083.991.466.113.309.6
F91.183.991.666.413.249.6
G91.984.092.066.713.429.6
H92.085.092.267.413.949.8

新窗口打开| 下载CSV


2.5. C2f-DD消融实验

提出具有新残差连接结构的C2f-DD. 为了验证该结构的特性,将DD-YOLO其他模块保持不变,主干部分的C2f从最后一个开始,逐次替换为C2f-DD,共做了4组实验,分别记为实验1、2、3、4,对应替换C2f的数量,实验结果如表2所示. 综合考虑模型复杂度和检测精度,只在整体模型中替换主干部分的最后一个C2f模块,在降低计算开销和模型复杂性的同时,显著提升了检测能力.

表 2   HRSID上的C2f-DD消融实验

Tab.2  C2f-DD ablation experiment on HRSID

C2f-DD数量p/%r/%mAP50/%mAP50-95/%Np/106FLOPs/109
192.085.092.267.413.949.8
291.284.591.166.620.3611.7
389.484.688.653.425.8013.0
491.984.992.467.830.1028.4

新窗口打开| 下载CSV


图9中的可视化对比结果验证了DD-YOLO模型的性能优势. 与YOLOv8模型相比,DD-YOLO在小目标船舶检测方面表现更优:YOLOv8会出现明显的漏检和误检情况,DD-YOLO的误检率和漏检率都更低.

图 9

图 9   YOLOv8与DD-YOLO模型的可视化对比

Fig.9   Visualization comparison between YOLOv8 and DD-YOLO model


图10的热力图分析进一步验证了DD-YOLO在复杂背景噪声下检测密集多尺度目标的优势. 实验结果表明,该模型能够有效识别和区分密集目标,这主要得益于C2f-DD模块和SPA模块的多尺度特征提取与融合能力,显著提升了复杂环境下的检测性能. 此外,Dysample模块在计算效率上的优化以及DyHead-Prune模块对复杂场景适应性的增强,共同提高了模型的检测精度和召回率. 这种模块组合不仅优化了检测性能,而且保持了较低的参数量和计算复杂度.

图 10

图 10   YOLOv8与DD-YOLO模型的热力对比

Fig.10   Comparison of thermal force of YOLOv8 and DD-YOLO model


2.6. 对比实验

为了验证本文算法的优越性,开展如下训练和测试,将其与其他目标检测算法进行比较. 评价指标主要选取pr、mAP50、参数量及FLOPs,衡量各个测试算法模型的检测精度与速度.

表3所示,在SSDD数据集上的实验结果表明,尽管模型r低于Key-PointEstimation+Channnel Attion、TWC-Net及ADERLNet-CW,但是DD-YOLO的p和mAP50都优于其他模型. 模型的参数量和FLOPs分别为13.94×106和9.8×109,低于其他模型,能够大大地降低计算开销和模型复杂性.

表 3   SSDD 数据集的不同目标检测模型的比较

Tab.3  Comparison of different object detection models in SSDD dataset

方法p/%r/%mAP50/%Np/106FLOPs/109
FBR-Net[15]92.493.194.231.3029.4
TWC-Net[16]91.295.194.126.3620.8
DCMSNN[17]90.383.590.320.7021.6
TOOD[18]83.193.197.172.2338.8
Key-Point Estimation[19]94.895.197 .773.3049.6
ADERLNet-CW[20]98.195.498.338.20105.2
DD-YOLO98.593.398.513.949.8

新窗口打开| 下载CSV


图11所示,对Key-Point Estimation+Channel Attention、TWC-Net、ADELMNet-CW和DD-YOLO 4种方法进行可视化对比. 如图11(a)所示为复杂场景下密集大型船舶的检测结果,如图11(b)所示为复杂场景中的中小型船舶检测结果. 对比可知,Key-Point Estimation+Channel Attention在复杂背景下存在明显的漏检和误检问题,表现不稳定;TWC-Net未能解决复杂背景下的误检和漏检的难题;ADELMNet-CW的平均检测精度低于DD-YOLO. 相比之下,DD-YOLO的平均检测精度表现最优,尤其在复杂背景和多尺度目标共存的场景中,能够保持高效、稳定的检测性能.

图 11

图 11   SSDD数据集的可视化对比

Fig.11   Visualization comparison of SSDD dataset


表4所示,在HRSID数据集上的实验结果表明,DD-YOLO模型的p略低于PPA-Net及Context-aware network,r低于Center Net、PPA-Net及Context-aware network,但是DD-YOLO的mAP50都优于其他经典模型. 模型的参数量和FLOPs分别为13.94×106和9.8×109,远远低于其他经典模型. 总之,DD-YOLO模型实现了显著的检测准确性,在多个数据集上的检测结果验证了该方法的精细泛化能力.

表 4   HRSID 数据集不同目标检测模型的比较

Tab.4  Comparison of different object detection models in HRSID dataset

方法p/%r/%mAP50/%Np/
106
FLOPs/
109
RetianNet[21]88.877.578.260.1181.9
CenterNet[22]84.693.184.555.1175.4
DAPN[23]88.977.186.163,8266.1
CoAM+RFIM[24]91.984.592.027.7123.6
PPA-Net[25]93.489.192.072.238.8
Context-aware network[26]93.888.892.170.4144.5
DD-YOLO92.085.092.213.99.8

新窗口打开| 下载CSV


图12所示为HRSID数据集的可视化对比. 如图12(a)所示为复杂场景下密集船舶的检测结果,如图12(b)所示为复杂场景中的中小型船舶检测结果. 通过对CenterNet、PPA-Net、Context-aware network和DD-YOLO的可视化对比可以看出,CenterNet能够检测大多数船舶目标,但存在一定的误检;PPA-Net在检测密集船舶时会出现漏检的问题;Context-aware network虽然不存在误检和漏检的问题,但平均检测精度明显低于DD-YOLO. 相比之下,DD-YOLO表现最优,平均检测精度最高,尤其在复杂背景和多尺度目标场景中能够保持高效、稳定的检测能力. 这体现了DD-YOLO的综合优势,使其成为高效、可靠的目标检测方案,在复杂背景和多尺度目标共存的环境中具有显著优势.

图 12

图 12   HRSID数据集的可视化对比

Fig.12   Visualization comparison of HRSID dataset


3. 结 语

针对SAR图像船舶检测任务中存在的船舰目标体积小、目标尺寸变化大及背景噪声复杂等挑战,C2f-DD模块通过结合DWR和DRB模块,增强了多尺度特征提取与融合的能力,从而改善对多目标的检测效果. SPA模块通过动态偏移和多头注意机制,提升了模型在复杂背景下对关键区域的关注,增强了检测精度. Dysample模块在优化上采样过程的同时,有效平衡了计算资源的消耗和对中小型目标的检测性能. DyHead-Prune模块通过轻量化和多维度注意力机制,提升了检测准确性,保证了模型的高效运行. 在极端环境下,当面对噪声和伪目标时,模型的鲁棒性有待进一步的加强. 未来研究将重点优化实时性能,探索多模态融合框架并开发自适应特征增强网络,以进一步提高模型在复杂环境中的适应性和实用性.

参考文献

YANG Z, LAI Y, ZHOU H, et al

Improving ship detection based on decision tree classification for high frequency surface wave radar

[J]. Journal of Marine Science and Engineering, 2023, 11 (3): 493- 499

DOI:10.3390/jmse11030493      [本文引用: 1]

ZHANG X, FENG S. ZHAO C, et al . MGSFA-Net: multiscale global scattering feature association network for SAR ship target recognition [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17(1): 4611–4625.

[本文引用: 1]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[本文引用: 1]

LI N, YE X D, WANG H, et al

SAR image ship detection in complex scenarios using modified YOLOv5

[J]. Journal of Signal Processing, 2022, 38 (5): 1009- 1018

[本文引用: 1]

TANG H, GAO S, LI S, et al

A lightweight SAR Image ship detection method based on improved convolution and YOLOv7

[J]. Remote Sensing, 2024, 16 (3): 486

DOI:10.3390/rs16030486      [本文引用: 1]

ZHANG L, FANG N, YANG X, et al

MSFA-YOLO: a multi-scale SAR ship detection algorithm based on fused attention

[J]. IEEE Access, 2024, 12 (1): 24554- 24568

[本文引用: 1]

ZHAO S, TAO R, JIA F

DML-YOLOv8-SAR image object detection algorithm

[J]. Signal, Image and Video Processing, 2024, 18 (10): 6911- 6923

DOI:10.1007/s11760-024-03361-4      [本文引用: 1]

WEI H, LIU X, XU S, et al. DWRSeg: rethinking efficient acquisition of multi-scale contextual information for real-time semantic segmentation [EB/OL]. [2024-10-15]. https://arxiv.org/abs/2212.01173.

[本文引用: 1]

XU W, LONG C, WANG R, et al. DRB-GAN: a dynamic Resblock generative adversarial network for artistic style transfer [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 6383-6392.

[本文引用: 1]

XIA Z, PAN X, SONG S, et al. Vision Transformer with deformable attention [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4794-4803.

[本文引用: 1]

LIU W, LU H, FU H, et al. Learning to upsample by learning to sample [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 6027-6037.

[本文引用: 1]

ZHANG T, ZHANG X, LI J, et al

SAR ship detection dataset (SSDD): official release and comprehensive data analysis

[J]. Remote Sensing, 2021, 13 (18): 3690- 3710

DOI:10.3390/rs13183690      [本文引用: 1]

WEI S, ZENG X, QU Q, et al

HRSID: a high-resolution SAR images dataset for ship detection and instance segmentation

[J]. IEEE Access, 2020, 8 (1): 120234- 120254

[本文引用: 1]

FU J, SUN X, WANG Z, et al

An anchor-free method based on feature balancing and refinement network for multiscale ship detection in SAR images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59 (2): 1331- 1344

DOI:10.1109/TGRS.2020.3005151      [本文引用: 1]

YU L, WU H, ZHONG Z, et al

TWC-Net: a SAR ship detection using two-way convolution and multiscale feature mapping

[J]. Remote Sensing, 2021, 13 (13): 2558

DOI:10.3390/rs13132558      [本文引用: 1]

JIAO J, ZHANG Y, SUN H, et al. A densely connected end-to-end neural network for multiscale and multiscene SAR ship detection [J]. IEEE Access, 2018, 6: 20881-20892.

[本文引用: 1]

FENG C, ZHONG Y, GAO Y, et al. Tood: task-aligned one-stage object detection [C]//IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 3490-3499.

[本文引用: 1]

MA X, HOU S, WANG Y, et al

Multiscale and dense ship detection in SAR images based on key-point estimation and attention mechanism

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1- 11

[本文引用: 1]

YANG Y, MA C, LI G, et al

ADERLNet: adaptive denoising enhancement representation learning for low-latency and high-accurate target detection on SAR sensors

[J]. IEEE Sensors Journal, 2024, 24 (5): 6430- 6450

[本文引用: 1]

LIN T, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// IEEE/CVF International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.

[本文引用: 1]

ZHOU X, WANG D, KRÄHENBÜHL P

Objects as points

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (12): 4234- 4242

[本文引用: 1]

CUI Z, LI Q, CAO Z, et al

Dense attention pyramid networks for multi-scale ship detection in SAR images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57 (11): 8983- 8997

DOI:10.1109/TGRS.2019.2923988      [本文引用: 1]

YANG X, ZHANG X, WANG N, et al

A robust one-stage detector for multiscale ship detection with complex background in massive SAR images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1- 12

[本文引用: 1]

TANG G, ZHAO H, CLARAMUNT C, et al

PPA-Net: pyramid pooling attention network for multi-scale ship detection in SAR images

[J]. Remote Sensing, 2023, 15 (11): 2855

DOI:10.3390/rs15112855      [本文引用: 1]

LI C, YUE C, LI H, et al

Context-aware SAR image ship detection and recognition network

[J]. Frontiers in Neurorobotics, 2024, 18: 129399

[本文引用: 1]

/