浙江大学学报(工学版), 2026, 60(4): 763-771 doi: 10.3785/j.issn.1008-973X.2026.04.008

计算机技术

基于融合注意力机制的光学遥感图像小目标检测算法

宋耀莲,, 彭驰, 唐菁敏,, 赵宣植, 虞贵财

1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

2. 青海民族大学 物理与电子信息工程学院,青海 西宁 810007

Small object detection algorithm for optical remote sensing images based on fusion attention mechanism

SONG Yaolian,, PENG Chi, TANG Jingmin,, ZHAO Xuanzhi, YU Guicai

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

2. School of Physics and Electronic Information Engineering, Qinghai Minzu University, Xining 810007, China

通讯作者: 唐菁敏,男,副教授,博士. orcid.org/0000-0002-7090-7957. E-mail:tang_min213@163.com

收稿日期: 2025-07-26  

基金资助: 国家自然科学基金资助项目(62261056);国防科技重点实验室基金资助项目(23JCJQLB3301);汉江国际国家实验室开放基金资助项目(KF2024025);教育部产学合作协同育人项目(231107173102719).

Received: 2025-07-26  

Fund supported: 国家自然科学基金资助项目(62261056);国防科技重点实验室基金资助项目(23JCJQLB3301);汉江国际国家实验室开放基金资助项目(KF2024025);教育部产学合作协同育人项目(231107173102719).

作者简介 About authors

宋耀莲(1977—),女,副教授,博士,从事深度学习在遥感影像中的应用研究.orcid.org/0009-0007-7534-9644.E-mail:39217149@qq.com , E-mail:39217149@qq.com

摘要

针对光学遥感图像中小目标检测特征提取受限、前背景混淆、漏检误检严重等问题,提出基于特征增强和融合注意力机制的小目标检测算法FMCM-YOLO. 设计四头检测模型,添加小目标检测层,用于检测光学遥感图像中众多小目标;在主干网络中提出特征增强模块,通过设计多分支卷积结构引入不同尺寸的空洞卷积,提高特征提取能力;在颈部网络中融合通道和空间注意力机制,并引入残差结构聚焦小目标,更易区分目标和背景;将MPDIoU作为模型损失函数,提升收敛速度,增强对小目标的检测能力. 实验结果表明,所提算法在USOD和AI-TOD这2个公开数据集上的mAP50分别达到89.9%和60.6%,相较于基线算法YOLOv5m分别提高了2.8和5.9个百分点,非常微小、微小和小目标的平均均值精度分别提升了2.1、6.5和5.1个百分点,可以看出FMCM-YOLO算法有效提升了光学遥感图像中小目标的检测性能.

关键词: 光学遥感图像 ; 小目标检测 ; YOLOv5 ; 特征增强 ; 注意力机制

Abstract

A small object detection algorithm FMCM-YOLO based on feature enhancement and fusion attention mechanism was proposed, aiming at the challenges of limited feature extraction, foreground-background confusion, and severe missed and false detections in small object detection in optical remote sensing images. Firstly, a four-head detection model was designed and a small target detection layer was added to detect numerous small objects in optical remote sensing images. Secondly, a feature enhancement module was proposed in the backbone network, which improved feature extraction capability by designing a multi-branch convolutional structure and introducing dilated convolution of different sizes. Thirdly, channel and spatial attention mechanisms were incorporated into the neck network, and a residual structure was introduced to focus on small objects, facilitating the distinction between targets and backgrounds. Finally, MPDIoU was adopted as the model’s loss function to accelerate convergence and enhance detection performance for small objects. Experimental results demonstrated that the mAP50 of the proposed algorithm on the two public datasets, USOD and AI-TOD, reached 89.9% and 60.6% respectively, which were 2.8 and 5.9 percentage points higher than those of the baseline algorithm YOLOv5m. Especially, the mean average precision for extremely tiny, tiny, and small objects increased by 2.1, 6.5, and 5.1 percentage points, respectively. These results proved that the FMCM-YOLO algorithm effectively improved the detection performance of small targets in optical remote sensing images.

Keywords: optical remote sensing image ; small target detection ; YOLOv5 ; feature enhancement ; attention mechanism

PDF (2536KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋耀莲, 彭驰, 唐菁敏, 赵宣植, 虞贵财. 基于融合注意力机制的光学遥感图像小目标检测算法. 浙江大学学报(工学版)[J], 2026, 60(4): 763-771 doi:10.3785/j.issn.1008-973X.2026.04.008

SONG Yaolian, PENG Chi, TANG Jingmin, ZHAO Xuanzhi, YU Guicai. Small object detection algorithm for optical remote sensing images based on fusion attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 763-771 doi:10.3785/j.issn.1008-973X.2026.04.008

光学遥感图像感测范围广、信息量巨大,在军用和民用方面有着重要的价值[1-3]. 光学遥感图像中小目标居多且排列密集、前背景信息复杂,导致小目标难以检测. 随着光学遥感图像应用场景日益丰富,如何提高小目标的检测精度、减少小目标误检漏检,已成为亟须解决的难题.

近年来,随着深度学习的发展,遥感图像目标检测发展迅速. 基于深度学习的目标检测算法主要分为双阶段检测和单阶段检测. 双阶段检测算法具有优秀的性能表现,但计算复杂度较高,不便部署在资源有限的实时检测任务中,代表算法有R-CNN (recurrent convolutional neural network)[4]系列. 而单阶段检测直接生成密集的预测框,一次获得检测结果,使检测变得更加高效,代表算法有YOLO(you only look once)[5]系列.

光学遥感图像小目标密集、背景复杂多变导致目标特征难以提取,因此采用YOLO模型检测易造成小目标在深层特征中消失. 近年来,针对以上问题,国内外研究学者给出了许多改进方法. Liu等[6]提出特征增强模块FEBlock (feature enhancement block),对每个最大池化层的结果进行特征增强,充分提取了小目标的特征. Qiu等[7]提出改进卷积核结构的新模型DKA-YOLO,利用广泛的感受野来增强特征提取. 许思源等[8]提出三极综合性融合模块,充分融合主干网络所提取的特征图,兼顾了浅层纹理信息和深层语义信息. 以上几种方法均通过增大感受野来捕捉到更为丰富的上下文信息,提高模型的检测性能,但并未考虑到背景和目标混淆的问题.

为了更好地区分背景和小目标,Cai等[9]引入上下文锚点注意力机制以捕获长距离的上下文信息,通过结合局部和全局的上下文信息,提高检测性能. 吴建成等[10]在双向特征金字塔网络(bi-directional feature pyramid network, BiFPN)的基础上,将空间到深度思想与注意力特征融合模块相结合,增强对小目标的检测能力. 汪西莉等[11]使用通道注意力机制对不同尺度特征进行重新标定,实现对不同尺度目标的检测. 这些方法通过引入不同的注意力机制来区分背景和小目标,防止前背景混淆,但由于增加了模型的复杂度,导致模型拟合速度变慢,甚至出现过拟合的情况.

为了提高小目标检测精度、减少小目标误检漏检,本研究提出基于特征增强和融合注意力机制的光学遥感图像小目标检测算法FMCM-YOLO,主要贡献如下. 1)设计了四头检测模型,添加一层适合于小目标尺寸的小目标检测层以及对应尺寸的检测头,提高算法对小目标的检测能力. 2)提出特征增强模块MFFM,通过引入不同尺寸的空洞卷积,在有效限制网格效应的前提下增大感受野,增强对小目标特征的提取能力. 3)提出融合注意力机制模块CASA,将通道注意力机制和空间注意力机制融合后,添加残差结构,增强特征的传播,使算法更易区分出目标和背景,有效防止前背景混淆. 4)引入MPDIoU损失函数,以适应模型复杂度提高所带来的影响,加快模型收敛速度.

1. 网络设计

1.1. FMCM-YOLO网络结构

采用YOLOv5m作为基线网络,提出针对光学遥感图像小目标的改进检测算法FMCM-YOLO,该算法整体框架如图1所示. 首先,在原始颈部网络上增加一层小目标层并添加对应尺寸大小的检测头,将原始三头检测模型转变为四头检测模型. 其次,在通过主干网络对输入图像进行特征提取后,使用MFFM模块对不同尺寸特征图进行特征增强. 随后,所提取的特征通过融入注意力机制的颈部网络完成高低层信息的融合. 最后,在训练阶段引入MPDIoU损失函数,加快网络收敛速度,提高模型检测精度.

图 1

图 1   FMCM-YOLO网络结构

Fig.1   Structure of FMCM-YOLO


1.2. 小目标检测层

YOLOv5算法输入层统一将输入图像的尺寸大小转化640×640像素,随后在主干网络中采用多个CBS和C3模块对输入图像进行充分的特征提取. 为了保持统一性,本研究中除特殊说明外,特征图和物体尺寸的单位均为像素. 其中,每个CBS模块都会对输入图像进行2倍的下采样,C3模块则通过残差结构充分提取图像中的特征. 在主干网络多组CBS和C3模块的作用下,分别得到尺寸大小为80×80、40×40、20×20的特征图. 但网络深度的增加,会导致小目标的细粒度特征丢失,不能充分利用到小目标的浅层纹理信息. 此外,主干网络最小的采样倍数为8,这表明算法很难在图像中捕获到尺寸小于或等于8×8的物体,会导致严重的漏检问题.

本研究在YOLOv5颈部网络的基础上增加一层针对小目标的检测层,并添加对应尺寸特征图的检测头,如图1虚线框部分所示. 小目标检测层引入尺寸大小为160×160的特征图,该尺寸特征图为原始特征图经过4倍下采样所得到. 在该尺寸特征图中,每一个像素点都包含了原始特征图中4×4像素区域的信息. 并且,在头部网络中增加一个针对160×160大小特征图的检测头,以适应微小目标的检测,增强算法对小目标的检测能力.

1.3. 特征增强模块MFFM

MFFM模块通过不同膨胀率的空洞卷积增大感受野,充分提取低层级特征图中的信息. 采用多分支卷积结构,各分支之间并联组合,如图2所示. 各分支均先采用卷积核大小为1×1的标准二维卷积降低通道数;随后,前3个分支分别添加卷积核大小为3×3、不同膨胀率的空洞卷积,增大感受野;最后一个分支为残差结构,目的是保留小目标的浅层纹理信息.

图 2

图 2   特征增强模块结构

Fig.2   Structure of MFFM


使用不同膨胀率的空洞卷积,可以有效限制网格效应,避免信息丢失. 输入特征图$ \boldsymbol{X} $在通过MFFM后得到增强后的特征图$ \boldsymbol{Y} $,其具体计算公式如下:

$ {\boldsymbol{y}}_{\text{1}}=f_{\text{dconv}}^{3}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X})) , $

$ {\boldsymbol{y}}_{2}=f_{\text{dconv}}^{5}(f_{\text{dconv}}^{2}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X}))) , $

$ {\boldsymbol{y}}_{3}=f_{\text{dconv}}^{4}(f_{\text{dconv}}^{3}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X}))) , $

$ {\boldsymbol{y}}_{4}=f_{\text{conv}}^{1\times 1}(\boldsymbol{X}) , $

$ \boldsymbol{Y}=\text{concat}\;({\boldsymbol{y}}_{1},{\boldsymbol{y}}_{2},{\boldsymbol{y}}_{3})\oplus {\boldsymbol{y}}_{4} . $

式中:$ {\boldsymbol{y}}_{n} $表示MFFM模块第$ n $个分支的输出特征图,其中$ n\in \{\text{1, 2, 3, 4}\} $$ f_{\text{conv}}^{\text{1}\times \text{1}} $表示卷积核为1×1的标准二维卷积操作;$ f_{\text{dconv}}^{m} $表示膨胀率为$ m $、卷积核为3×3的空洞卷积,其中$ m\in \{\text{2, 3, 4, 5}\} $$ \text{concat} $表示对特征图进行拼接操作;$ \oplus $表示对特征图进行按位相加操作.

1.4. 融合注意力机制模块CASA

在融合通道注意力机制(channel attention, CA)[12]和空间注意力机制(spatial attention, SA)[13]后,添加残差结构并封装成CASABlock,如图3所示. 其次,用CASABlock替换掉C3模块中的Bottleneck结构,形成CASA模块,整体结构如图4所示.

图 3

图 3   CASABlock结构

Fig.3   Structure of CASABlock


图 4

图 4   CASA模块结构

Fig.4   Structure of CASA


CA模块的上支路对输入特征图分别进行通道维度上的全局平均池化和最大池化操作,随后通过多层感知机(multilayer perceptron, MLP)学习2种不同的特征,并将其进行按位相加,经Relu函数激活后得到通道注意力机制权重. 最后,将权重与输入特征图相乘,再使用Sigmoid函数激活得到CA的输出特征图. 具体计算过程如下:

$ {\boldsymbol{F}}_{\text{1}}=\text{MLP}\;(\text{max}\;({\boldsymbol{F}}_{\text{c}})),{\boldsymbol{F}}_{\text{2}}=\text{MLP}\;(\text{avg}\;({\boldsymbol{F}}_{\text{c}})) , $

$ {{\boldsymbol{\omega}} }_{\text{c}}=\text{Relu}\;({\boldsymbol{F}}_{1})\oplus \text{Relu}\;({\boldsymbol{F}}_{\text{2}}) , $

$ {\boldsymbol{Z}}_{\text{c}}=\sigma \;({\boldsymbol{F}}_{\text{c}}\cdot {{\boldsymbol{\omega}} }_{\text{c}}) . $

式中:$ {\boldsymbol{F}}_{\text{c}} $表示CA模块输入特征图;$ \text{max} $表示最大池化操作;$ \text{avg} $表示平均池化操作;$ \text{MLP} $表示将特征图输入至多层感知机学习特征;$ {\boldsymbol{F}}_{\text{1}} $$ {\boldsymbol{F}}_{2} $分别表示最大池化、平均池化后多层感知机学习到的特征;$ \text{Relu} $$\sigma $分别表示使用Relu函数和sigmoid函数进行激活;$ {{\boldsymbol{\omega }}}_{\text{c}} $表示CA权重矩阵;$ {\boldsymbol{Z}}_{\text{c}} $表示CA模块输出特征图.

SA模块的上支路对输入特征图分别进行空间维度上的全局平均池化和最大池化操作,并拼接获得的特征图,使用7×7的卷积提取特征,然后使用Sigmoid函数激活得到空间注意力权重. 最后,将权重与输入特征图相乘后使用Sigmoid函数激活得到SA输出特征图. 具体计算过程如下:

$ \boldsymbol{F}_{\text{s}}^{\prime}=\text{concat}\;(\text{max}\;({\boldsymbol{F}}_{\text{s}}),\text{avg}\;({\boldsymbol{F}}_{\text{s}}\text{)}) , $

$ {{\boldsymbol{\omega}} }_{\text{s}}=\sigma \;(f_{\text{conv}}^{7\times 7}(\boldsymbol{F}_{\text{s}}^{\prime})) , $

$ {\boldsymbol{Z}}_{\text{s}}=\sigma ({\boldsymbol{F}}_{\text{s}}\cdot {{\boldsymbol{\omega}} }_{\text{s}}) . $

式中:$ {\boldsymbol{F}}_{\text{s}} $表示SA模块输入特征图;$ \boldsymbol{F}_{\text{s}}^{\prime} $表示经过2个池化层拼接后的特征图;$ f_{\text{conv}}^{\text{7}\times \text{7}} $表示卷积核大小为7×7的卷积操作;$ {{\boldsymbol{\omega}} }_{\text{s}} $表示SA权重矩阵;$ {\boldsymbol{Z}}_{\text{s}} $表示SA模块输出特征图.

在CASABlock中,首先采用1×1的卷积降低通道数,随后分为2个分支:在上支路中,输入特征图$ \boldsymbol{F} $通过CA处理得到特征图$ {\boldsymbol{F}}_{\text{CA}} $,将注意力聚焦于包含有效信息的通道;随后,$ {\boldsymbol{F}}_{\text{CA}} $经SA处理得到特征图$ {\boldsymbol{F}}_{\text{SA}} $,将注意力聚焦于通道中包含有效信息的具体位置.

在下支路中,直接将特征图$ \boldsymbol{F} $输出,保留原始特征图的纹理信息. 最后,将2个通道的输出进行拼接,并通过1×1的卷积还原通道数得到CASABlock的输出特征图$ \boldsymbol{Z} $,具体计算过程可以表示为

$ \boldsymbol{Z}=f_{\text{conv}}^{1\times 1}(\text{concat}\;({f}_{\text{s}}({f}_{\text{c}}(\boldsymbol{F})),\boldsymbol{F})) . $

式中:$ \boldsymbol{F} $$ \boldsymbol{Z} $分别表示CASABlock的输入、输出特征图;$ {f}_{\text{c}} $$ {f}_{\text{s}} $分别表示特征图经过CA和SA模块.

用封装好的CASA模块,替换原始PAN结构中的C3模块,使颈部网络具有融合注意力机制,提高网络整体对于小目标的敏感程度.

1.5. MPDIoU损失函数

模块的添加使得网络整体复杂度提高,收敛速度变慢,而YOLOv5原始损失函数CIoU仅考虑预测框宽高比的相对值,当真实框和预测框具有相同的宽高比,但是宽和高的具体值不同时,损失函数CIoU将失去有效性,这将极大地限制模型的收敛速度和预测精度.

MPDIoU损失函数[14]通过最小化真实框和预测框左上角之间、真实框和预测框右下角之间的距离,在解决CIoU存在问题的同时,能适应网络改动所带来的变化,从而使损失函数达到更好的表现. 因此,本模型拟采用MPDIoU作为损失函数,具体参数如图5所示.

图 5

图 5   MPDIoU损失函数参数

Fig.5   Parameters of MPDIoU loss function


MPDIoU损失函数定义如下:

$ {L}_{\text{MPDIoU}}=\text{1}-\text{MPDIoU} , $

$ \text{MPDIoU}=\text{IoU}-\frac{d_{\text{1}}^{2}}{{w}^{2}+{h}^{2}}-\frac{d_{\text{2}}^{2}}{{w}^{2}+{h}^{2}} , $

$ d_{1}^{2}={({x_{1}^{\text{gt}}}-{x_{1}^{\text{prd}}})}^{2}+{({y_{1}^{\text{gt}}}-{y_{1}^{\text{prd}}})}^{\text{2}} , $

$ d_{2}^{2}={({x_{\text{2}}^{\text{gt}}}-{x_{\text{2}}^{\text{prd}}})}^{2}+{({y_{2}^{\text{gt}}}-{y_{2}^{\text{prd}}})}^{2} . $

式中:$ {L}_{\text{MPDIoU}} $表示损失函数MPDIoU;$ (x_{\text{1}}^{\text{gt}},y_{1}^{\text{gt}}) $$ (x_{\text{2}}^{\text{gt}},y_{\text{2}}^{\text{gt}}) $分别表示真实框左上角、右下角的坐标值;$ (x_{\text{1}}^{\text{prd}},y_{\text{1}}^{\text{prd}}) $$ (x_{\text{2}}^{\text{prd}},y_{2}^{\text{prd}}) $分别表示预测框左上角、右下角的坐标值;$ {d}_{1} $$ {d}_{2} $分别表示真实框和预测框左上角之间、真实框和预测框右下角之间的距离;$ w $$ h $分别为输入特征图的宽度和高度.

2. 实验结果与分析

2.1. 数据集

分别使用USOD[15]和AI-TOD[16]公开遥感图像数据集作为实验数据.

1) USOD数据集共包括3000张遥感图像,其中包含43378个车辆实例,训练集与测试集比例为7∶3;尺寸小于32×32的物体占目标总数的99.9%,尺寸小于16×16的物体占总目标数的96.3%,整个数据集的物体尺寸分布如图6(a)所示.

图 6

图 6   数据集目标实例尺寸分布情况

Fig.6   Size distribution of target instance in dataset


2) AI-TOD数据集包含28036张遥感图像,共计700621个物体实例,包括8个常见类别,分别为飞机、桥梁、储罐、船、水池、车辆、人和风车;该数据集目标平均尺寸为12.8像素,尺寸小于32×32的物体占目标总数的97.9%,整个数据集的物体尺寸分布如图6(b)所示.

图6中不同深浅的颜色代表不同尺寸物体的数量分布,颜色越深表示该尺寸物体的数量越多;HLWL分别表示数据集中物体标签框的高度和宽度. 由此可知,本研究所选取的2个数据集中的小目标居多,符合本研究的需求.

2.2. 实验环境及评估指标

使用Ubuntu22.04.4操作系统,GPU为一块24 G显存的NVDIARTX 4090D,所选深度学习计算框架为PyTorch,使用深度学习平台CUDA11.8对运行代码所需的工具库进行管理,使用PyCharm软件运行所述模型代码,训练采用SGD优化器,训练超参数设置参见表1.

表 1   模型训练超参数设置

Tab.1  Model training hyperparameter settings

参数数值参数数值
批次大小16权重衰减系数0.005
训练轮次300学习率动量0.937
初始学习率0.01图片尺寸640×640

新窗口打开| 下载CSV


对于USOD数据集,选取精确率P、召回率R、平均均值精度mAP、参数量params以及每秒帧数FPS作为评估指标. 其中,精确率表示正确检出目标的概率;召回率表示目标被成功检测的概率;mAP50表示交并比阈值为0.5时,各类别平均精确度的均值;mAP50:95表示以0.05为步长,交并比阈值从0.50至0.95的10个不同阈值下各类别平均精确度的均值;Params是指模型需要训练的参数总数;FPS表示模型每秒能处理图像的数量.

对于AI-TOD数据集,除了选取mAP50和mAP50:95作为性能评估指标外,使用数据集官方提供的mAPvt、mAPt、mAPs作为额外的性能评估指标. mAPvt表示物体尺寸小于8×8时的平均均值精度,即非常微小目标的检测精度;mAPt表示物体尺寸在8×8和16×16之间的平均均值精度,即微小目标的检测精度;mAPs表示物体尺寸在16×16和32×32之间的平均均值精度,即小目标的检测精度.

2.3. 消融实验

为了验证本研究所增加的小目标检测层、MFFM、CASA和MPDIoU的有效性,基于USOD数据集设计10个消融实验,具体实验情况如表2所示,其中最佳指标通过加粗表示. 从实验B可以看出,在增加小目标检测层后,相较于基线算法,精确度、召回率、mAP50和mAP50:95分别提升1.2、0.5、0.8和0.8个百分点. 由此说明,小目标检测层和对应检测头的加入,使模型在小目标居多的场景拥有更好的表现. 实验C在基线算法的基础上增加MFFM,精确率、召回率和mAp50分别提高1.0、1.7和0.7个百分点,可见不同膨胀率的空洞卷积对特征进行增强使得检测性能得到进一步提升. 实验D在基线算法的基础上增加CASA,参数量仅增加0.07×106,而精确率、召回率、mAP50和mAP50:95分别提高2.9、0.9、1.5和1.4个百分点. 可知,引入融合注意力机制大大地提高了算法区分物体和背景的能力,有效地解决了前背景混淆的问题. 由实验E可知,将损失函数替换为MPDIoU后,模型损失值降低,模型误差变小,检测性能得到改善. 相较于其他实验结果,实验J在精确度、召回率、mAP50和mAP50:95上均有显著提升,但是增加了参数量(Params)和浮点运算次数(GFLOPs),存在较高的复杂度.

表 2   不同改进点组合的消融实验结果分析

Tab.2  Analysis of ablation experiment results with different combinations of improvement points

序号小目标层MFFMCASAMPDIoUP/%R/%mAP50/%mAP50:95/%Params/106GFLOPs
A88.581.587.131.920.8547.9
B89.782.087.932.721.2956.3
C89.583.287.831.921.6252.1
D91.482.488.633.320.9248.3
E89.983.188.232.820.8547.9
F91.784.089.133.022.1362.3
G90.783.088.732.722.1362.2
H91.383.389.032.921.3356.4
I91.583.789.332.921.6551.8
J92.384.189.934.122.1362.3

新窗口打开| 下载CSV


2.4. 对比实验

为了进一步探究本研究算法的性能表现,分别在USOD数据集和AI-TOD数据上设计了不同的对比实验.

2.4.1. 基于USOD数据集的对比实验

将FMCM-YOLO与YOLOv5基线算法、RefineDet[17]、YOLOv8[18]、TPH-YOLOv5[19]、MSFE-YOLO-m[20]、LS-YOLO[21]、L-FFCA-YOLO[15]等最新目标检测算法在精确度、召回率、平均均值精度和参数量上进行比较,结果如表3所示. FMCM-YOLO较基线算法在准确率、召回率、mAP50和mAP50:95分别提升3.8、2.6、2.8、2.2个百分点,并且较其他主流的检测算法也有不同程度的提升. FMCM-YOLO算法增加了单独的小目标检测层、CASA模块也更为复杂,对比基线算法,牺牲了一定的实时性,不过实时性仍优于大多数小目标检测算法.

表 3   不同算法在USOD上的性能比较结果

Tab.3  Performance comparison results of different algorithms on USOD

模型P/%R/%mAP50/%mAP50:95/%Params/106FPS
RefineDet88.182.485.131.435.6832
YOLOv5m88.581.587.131.920.85258
YOLOv8m90.582.287.632.429.74155
TPH-YOLOv591.083.789.532.145.36134
MSFE-YOLO-m91.683.589.633.159.5137
LS-YOLO90.883.689.333.922.6153
L-FFCA-YOLO91.382.889.333.25.10165
FMCM-YOLO(本研究算法)92.384.189.934.122.13169

新窗口打开| 下载CSV


2.4.2. 基于AI-TOD数据集的对比实验

将FMCM-YOLO与YOLOv5基线算法、DedectoRS[22]、M-CenterNet[16]、HANet[23]、FFCA-YOLO[15]和L-FFCA-YOLO[15]等目标检测算法进行比较,选取5种不同的mAP作为评估指标,结果如表4所示. 可以看出,相较于基线算法,mAP50、mAP50:95、mAPvt和mAPt、mAPs分别提高5.9、5.0、2.1、6.5和5.1个百分点. DedectoRS算法的mAPvt为0,即该算法在面对目标较小的情况时,检测能力有限,无法检测出尺寸较小的目标. FMCM-YOLO算法的mAP50和mAP50:95较次于目前性能最优越的FFCA-YOLO算法,mAPvt与其持平,但是mAPt和mAPs分别提高3.7和0.3个百分点,说明FMCM-YOLO算法在整体性能上虽然不及FFCA-YOLO算法,但是在针对小目标和微小目标时,FMCM-YOLO算法具有更强的检测性能.

表 4   不同算法在AI-TOD上的性能比较结果

Tab.4  Performance comparison results of different algorithms on AI-TOD

模型mAP50/%mAP50:95/%mAPvt/%mAPt/%mAPs/%FPS
DedectoRS32.814.8010.828.361
M-CenterNet40.714.56.115.019.478
YOLOv5m54.721.710.522.127.0258
HANet53.722.110.922.227.3178
FFCA-YOLO61.727.712.624.931.8171
L-FFCA-YOLO58.325.511.723.230.1165
FMCM-YOLO(本研究算法)60.626.712.628.632.1169

新窗口打开| 下载CSV


另外,如表5所示,在算法改进前、后,针对不同类别目标的检测性能进行对比. 可以看出,所有类别的平均均值精度均有不同程度的提高. 由于FMCM-YOLO算法在2个数据集上均有不错的表现,说明所提算法具有较为出色的泛化性.

表 5   改进前、后AI-TOD数据集各类别目标的检测性能比较

Tab.5  Comparison of detection performance of various types of targets in AI-TOD dataset before and after improvement

类别mAP50/%
FMCM-YOLOYOLOv5m
all60.654.7
airplane66.964.3
bridge50.444.9
storage-tank88.977.9
ship78.975.0
swimming-pool51.751.2
vehicle77.769.9
person39.231.3
wind-mill33.423.3

新窗口打开| 下载CSV


2.5. 可视化实验
2.5.1. 损失函数效果对比

为了验证本研究所增加的MPDIoU损失函数的有效性,对比使用CioU[24]、EIoU[25]、SIoU[26]、GIoU[27]和MPDIoU作为框损失函数时,框损失$ {{L}}_{\text{box}} $随迭代次数epochs的变化情况,结果如图7所示. 不同损失函数都能随迭代次数的增加而逐渐收敛,但相较于其余4种损失函数,MPDIoU收敛速度更快,能够达到更小的损失值.

图 7

图 7   不同损失函数效果对比

Fig.7   Comparison of effects of different loss functions


2.5.2. 可视化结果分析

为了验证本研究在实际场景中的使用效果,在AI-TOD的测试集中选取不同场景的图片进行测试,结果如图8所示,其中部分细节通过放大进行展示. 由于部分场景目标较为密集,为了更好地观察检测效果,在使用模型对图片进行检测时,将类别标签和置信度进行剔除仅保留检测框. 从图中可以看出,YOLOv5m算法在面对目标密集的场景时,漏检现象严重;而FMCM-YOLO算法能够轻松地检测出密集的小目标,将小目标区分开来. 特别,在夜间能见度较差的场景中,FMCM-YOLO的表现也较为出色.

图 8

图 8   模型改进前、后可视化检测效果对比

Fig.8   Comparison of visual detection effects before and after model improvement


3. 结 语

为了解决光学遥感图像中小目标特征提取受限、前背景混淆、漏检误检严重等问题,提出专门针对小目标的检测模型FMCM-YOLO. 首先,设计了一种四头检测模型,以更好地检测出光学遥感图像中繁多的小目标;其次,在主干网络中添加特征增强层MFFM,提高特征提取能力,增强算法检测性能;然后,在融合通道注意力机制和空间注意力机制后,引入残差结构,封装成CASA模块,替换掉Detect模块前的C3模块,使算法更易区分出目标和背景以防止前背景混淆;最后,引入MPDIoU损失函数,简化损失计算过程,加快模型收敛速度. 在USOD和AI-TOD这2个数据集上分别进行实验,实验结果表明所提算法在检测性能上较基准算法和其余主流检测算法均有不同程度的提升,表明所提算法在检测光学遥感图像中小目标时具有一定的优越性和鲁棒性.

虽然本研究所提算法在检测性能方面有所提升,但是须付出更多的计算代价,因此下一步研究将针对模型规模,在保证性能的同时,提出计算复杂度更低的模型,以适应计算资源有限的场景.

参考文献

许夙晖, 慕晓冬, 柯冰, 等

基于遥感影像的军事阵地动态监测技术研究

[J]. 遥感技术与应用, 2014, 29 (3): 511- 516

DOI:10.11873/j.issn.1004-0323.2014.3.0511      [本文引用: 1]

XU Suhui, MU Xiaodong, KE Bing, et al

Dynamic monitoring of military position based on remote sensing image

[J]. Remote Sensing Technology and Application, 2014, 29 (3): 511- 516

DOI:10.11873/j.issn.1004-0323.2014.3.0511      [本文引用: 1]

姚艳清, 程塨, 谢星星, 等

多分辨率特征融合的光学遥感图像目标检测

[J]. 遥感学报, 2021, 25 (5): 1124- 1137

YAO Yanqing, CHENG Gong, XIE Xingxing, et al

Optical remote sensing image object detection based on multi-resolution feature fusion

[J]. National Remote Sensing Bulletin, 2021, 25 (5): 1124- 1137

禹文奇, 程塨, 王美君, 等

MAR20: 遥感图像军用飞机目标识别数据集

[J]. 遥感学报, 2023, 27 (12): 2688- 2696

DOI:10.11834/jrs.20222139      [本文引用: 1]

YU Wenqi, CHENG Gong, WANG Meijun, et al

MAR20: a benchmark for military aircraft recognition in remote sensing images

[J]. National Remote Sensing Bulletin, 2023, 27 (12): 2688- 2696

DOI:10.11834/jrs.20222139      [本文引用: 1]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580–587.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

LIU Z, GAO X, WAN Y, et al

An improved YOLOv5 method for small object detection in UAV capture scenes

[J]. IEEE Access, 2023, 11: 14365- 14374

DOI:10.1109/ACCESS.2023.3241005      [本文引用: 1]

QIU Y, SHA F, NIU L

DKA-YOLO: enhanced small object detection via dilation kernel aggregation convolution modules

[J]. IEEE Access, 2024, 12: 187353- 187366

DOI:10.1109/ACCESS.2024.3515201      [本文引用: 1]

许思源, 吴伟林

多尺度特征融合的遥感图像目标检测算法研究

[J]. 计算机工程与应用, 2024, 60 (23): 249- 256

[本文引用: 1]

XU Siyuan, WU Weilin

Research on object detection algorithm for remote sensing images based on multi-scale fea-ture fusion

[J]. Computer Engineering and Applications, 2024, 60 (23): 249- 256

[本文引用: 1]

CAI X, LAI Q, WANG Y, et al. Poly kernel inception network for remote sensing detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 27706–27716.

[本文引用: 1]

吴建成, 郭荣佐, 成嘉伟, 等

注意力特征融合的快速遥感图像目标检测算法

[J]. 计算机工程与应用, 2024, 60 (1): 207- 216

DOI:10.3778/j.issn.1002-8331.2303-0375      [本文引用: 1]

WU Jiancheng, GUO Rongzuo, CHENG Jiawei, et al

Fast remote sensing image object detection algorithm based on attention feature fusion

[J]. Computer Engineering and Applications, 2024, 60 (1): 207- 216

DOI:10.3778/j.issn.1002-8331.2303-0375      [本文引用: 1]

汪西莉, 梁正印, 刘涛

基于特征注意力金字塔的遥感图像目标检测方法

[J]. 遥感学报, 2023, 27 (2): 492- 501

[本文引用: 1]

WANG Xili, LIANG Zhengyin, LIU Tao

Feature attention pyramid-based remote sensing image object detection method

[J]. National Remote Sensing Bulletin, 2023, 27 (2): 492- 501

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// ECCV 2018. Munich: Springer, 2018: 3–19.

[本文引用: 1]

MA S, XU Y. MPDIoU: a loss for efficient and accurate bounding box regression [EB/OL]. (2023–07–14) [2025–07–15]. https://doi.org/10.48550/arXiv.2307.07662.

[本文引用: 1]

ZHANG Y, YE M, ZHU G, et al

FFCA-YOLO for small object detection in remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5611215

DOI:10.1109/tgrs.2024.3363057      [本文引用: 4]

WANG J, YANG W, GUO H, et al. Tiny object detection in aerial images [C]// 25th International Conference on Pattern Recognition. Milan: IEEE, 2021: 3791–3798.

[本文引用: 2]

FU C Y, LIU W, RANGA A, et al. Dssd: deconvolutional single shot detector [EB/OL]. (2017–01–23) [2025–07–17]. https://doi.org/10.48550/arXiv.1701.06659.

[本文引用: 1]

JOCHER G, CHAURASIA A, QIU J. Ultralytics YOLOv8. [EB/OL]. (2023–04–03) [2025–07–17]. https://github.com/pytholic/ultralytics-yolov8.

[本文引用: 1]

ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]// IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 2778–2788.

[本文引用: 1]

QI S, SONG X, SHANG T, et al

MSFE-YOLO: an improved YOLOv8 network for object detection on drone view

[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 6013605

DOI:10.1109/lgrs.2024.3432536      [本文引用: 1]

ZHANG W, LIU Z, ZHOU S, et al

LS-YOLO: a novel model for detecting multiscale landslides with remote sensing images

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 4952- 4965

DOI:10.1109/JSTARS.2024.3363160      [本文引用: 1]

QIAO S, CHEN L C, YUILLE A. DetectoRS: detecting objects with recursive feature pyramid and switchable atrous convolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 10208–10219.

[本文引用: 1]

GUO G, CHEN P, YU X, et al

Save the tiny, save the all: hierarchical activation network for tiny object detection

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34 (1): 221- 234

DOI:10.1109/TCSVT.2023.3284161      [本文引用: 1]

ZHENG Z, WANG P, REN D, et al

Enhancing geometric factors in model learning and inference for object detection and instance segmentation

[J]. IEEE Transactions on Cybernetics, 2022, 52 (8): 8574- 8586

DOI:10.1109/TCYB.2021.3095305      [本文引用: 1]

ZHANG Y F, REN W, ZHANG Z, et al

Focal and efficient IOU loss for accurate bounding box regression

[J]. Neurocomputing, 2022, 506: 146- 157

DOI:10.1016/j.neucom.2022.07.042      [本文引用: 1]

GEVORGYAN Z. SIoU loss: More powerful learning for bounding box regression [EB/OL]. (2022–05–25) [2025–07–17]. https://doi.org/10.48550/arXiv.2205.12740.

[本文引用: 1]

REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 658–666.

[本文引用: 1]

/