基于融合注意力机制的光学遥感图像小目标检测算法

doi:10.3785/j.issn.1008-973X.2026.04.008

基于融合注意力机制的光学遥感图像小目标检测算法

宋耀莲^,, 彭驰, 唐菁敏^,, 赵宣植, 虞贵财

1. 昆明理工大学信息工程与自动化学院，云南昆明 650500

2. 青海民族大学物理与电子信息工程学院，青海西宁 810007

Small object detection algorithm for optical remote sensing images based on fusion attention mechanism

SONG Yaolian^,, PENG Chi, TANG Jingmin^,, ZHAO Xuanzhi, YU Guicai

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

2. School of Physics and Electronic Information Engineering, Qinghai Minzu University, Xining 810007, China

通讯作者: 唐菁敏，男，副教授，博士. orcid.org/0000-0002-7090-7957. E-mail：tang_min213@163.com

收稿日期: 2025-07-26

基金资助:

国家自然科学基金资助项目(62261056)；国防科技重点实验室基金资助项目(23JCJQLB3301)；汉江国际国家实验室开放基金资助项目(KF2024025)；教育部产学合作协同育人项目（231107173102719).

Received: 2025-07-26

Fund supported:

作者简介 About authors

宋耀莲（1977—），女，副教授，博士，从事深度学习在遥感影像中的应用研究.orcid.org/0009-0007-7534-9644.E-mail：39217149@qq.com , E-mail：39217149@qq.com

摘要

针对光学遥感图像中小目标检测特征提取受限、前背景混淆、漏检误检严重等问题，提出基于特征增强和融合注意力机制的小目标检测算法FMCM-YOLO. 设计四头检测模型，添加小目标检测层，用于检测光学遥感图像中众多小目标；在主干网络中提出特征增强模块，通过设计多分支卷积结构引入不同尺寸的空洞卷积，提高特征提取能力；在颈部网络中融合通道和空间注意力机制，并引入残差结构聚焦小目标，更易区分目标和背景；将MPDIoU作为模型损失函数，提升收敛速度，增强对小目标的检测能力. 实验结果表明，所提算法在USOD和AI-TOD这2个公开数据集上的mAP50分别达到89.9%和60.6%，相较于基线算法YOLOv5m分别提高了2.8和5.9个百分点，非常微小、微小和小目标的平均均值精度分别提升了2.1、6.5和5.1个百分点，可以看出FMCM-YOLO算法有效提升了光学遥感图像中小目标的检测性能.

关键词： 光学遥感图像 ; 小目标检测 ; YOLOv5 ; 特征增强 ; 注意力机制

Abstract

A small object detection algorithm FMCM-YOLO based on feature enhancement and fusion attention mechanism was proposed, aiming at the challenges of limited feature extraction, foreground-background confusion, and severe missed and false detections in small object detection in optical remote sensing images. Firstly, a four-head detection model was designed and a small target detection layer was added to detect numerous small objects in optical remote sensing images. Secondly, a feature enhancement module was proposed in the backbone network, which improved feature extraction capability by designing a multi-branch convolutional structure and introducing dilated convolution of different sizes. Thirdly, channel and spatial attention mechanisms were incorporated into the neck network, and a residual structure was introduced to focus on small objects, facilitating the distinction between targets and backgrounds. Finally, MPDIoU was adopted as the model’s loss function to accelerate convergence and enhance detection performance for small objects. Experimental results demonstrated that the mAP50 of the proposed algorithm on the two public datasets, USOD and AI-TOD, reached 89.9% and 60.6% respectively, which were 2.8 and 5.9 percentage points higher than those of the baseline algorithm YOLOv5m. Especially, the mean average precision for extremely tiny, tiny, and small objects increased by 2.1, 6.5, and 5.1 percentage points, respectively. These results proved that the FMCM-YOLO algorithm effectively improved the detection performance of small targets in optical remote sensing images.

Keywords： optical remote sensing image ; small target detection ; YOLOv5 ; feature enhancement ; attention mechanism

PDF (2536KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

宋耀莲, 彭驰, 唐菁敏, 赵宣植, 虞贵财. 基于融合注意力机制的光学遥感图像小目标检测算法. 浙江大学学报(工学版)[J], 2026, 60(4): 763-771 doi:10.3785/j.issn.1008-973X.2026.04.008

SONG Yaolian, PENG Chi, TANG Jingmin, ZHAO Xuanzhi, YU Guicai. Small object detection algorithm for optical remote sensing images based on fusion attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 763-771 doi:10.3785/j.issn.1008-973X.2026.04.008

光学遥感图像感测范围广、信息量巨大，在军用和民用方面有着重要的价值^[1-3]. 光学遥感图像中小目标居多且排列密集、前背景信息复杂，导致小目标难以检测. 随着光学遥感图像应用场景日益丰富，如何提高小目标的检测精度、减少小目标误检漏检，已成为亟须解决的难题.

近年来，随着深度学习的发展，遥感图像目标检测发展迅速. 基于深度学习的目标检测算法主要分为双阶段检测和单阶段检测. 双阶段检测算法具有优秀的性能表现，但计算复杂度较高，不便部署在资源有限的实时检测任务中,代表算法有R-CNN (recurrent convolutional neural network)^[4]系列. 而单阶段检测直接生成密集的预测框，一次获得检测结果，使检测变得更加高效，代表算法有YOLO(you only look once)^[5]系列.

光学遥感图像小目标密集、背景复杂多变导致目标特征难以提取，因此采用YOLO模型检测易造成小目标在深层特征中消失. 近年来，针对以上问题，国内外研究学者给出了许多改进方法. Liu等^[6]提出特征增强模块FEBlock (feature enhancement block)，对每个最大池化层的结果进行特征增强，充分提取了小目标的特征. Qiu等^[7]提出改进卷积核结构的新模型DKA-YOLO，利用广泛的感受野来增强特征提取. 许思源等^[8]提出三极综合性融合模块，充分融合主干网络所提取的特征图，兼顾了浅层纹理信息和深层语义信息. 以上几种方法均通过增大感受野来捕捉到更为丰富的上下文信息，提高模型的检测性能，但并未考虑到背景和目标混淆的问题.

为了更好地区分背景和小目标，Cai等^[9]引入上下文锚点注意力机制以捕获长距离的上下文信息，通过结合局部和全局的上下文信息，提高检测性能. 吴建成等^[10]在双向特征金字塔网络(bi-directional feature pyramid network, BiFPN)的基础上，将空间到深度思想与注意力特征融合模块相结合，增强对小目标的检测能力. 汪西莉等^[11]使用通道注意力机制对不同尺度特征进行重新标定，实现对不同尺度目标的检测. 这些方法通过引入不同的注意力机制来区分背景和小目标，防止前背景混淆，但由于增加了模型的复杂度，导致模型拟合速度变慢，甚至出现过拟合的情况.

为了提高小目标检测精度、减少小目标误检漏检，本研究提出基于特征增强和融合注意力机制的光学遥感图像小目标检测算法FMCM-YOLO，主要贡献如下. 1)设计了四头检测模型，添加一层适合于小目标尺寸的小目标检测层以及对应尺寸的检测头，提高算法对小目标的检测能力. 2)提出特征增强模块MFFM，通过引入不同尺寸的空洞卷积，在有效限制网格效应的前提下增大感受野，增强对小目标特征的提取能力. 3)提出融合注意力机制模块CASA，将通道注意力机制和空间注意力机制融合后，添加残差结构，增强特征的传播，使算法更易区分出目标和背景，有效防止前背景混淆. 4)引入MPDIoU损失函数，以适应模型复杂度提高所带来的影响，加快模型收敛速度.

1. 网络设计

1.1. FMCM-YOLO网络结构

采用YOLOv5m作为基线网络，提出针对光学遥感图像小目标的改进检测算法FMCM-YOLO，该算法整体框架如图1所示. 首先，在原始颈部网络上增加一层小目标层并添加对应尺寸大小的检测头，将原始三头检测模型转变为四头检测模型. 其次，在通过主干网络对输入图像进行特征提取后，使用MFFM模块对不同尺寸特征图进行特征增强. 随后，所提取的特征通过融入注意力机制的颈部网络完成高低层信息的融合. 最后，在训练阶段引入MPDIoU损失函数，加快网络收敛速度，提高模型检测精度.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 FMCM-YOLO网络结构

Fig.1 Structure of FMCM-YOLO

1.2. 小目标检测层

YOLOv5算法输入层统一将输入图像的尺寸大小转化640×640像素，随后在主干网络中采用多个CBS和C3模块对输入图像进行充分的特征提取. 为了保持统一性，本研究中除特殊说明外，特征图和物体尺寸的单位均为像素. 其中，每个CBS模块都会对输入图像进行2倍的下采样，C3模块则通过残差结构充分提取图像中的特征. 在主干网络多组CBS和C3模块的作用下，分别得到尺寸大小为80×80、40×40、20×20的特征图. 但网络深度的增加，会导致小目标的细粒度特征丢失，不能充分利用到小目标的浅层纹理信息. 此外，主干网络最小的采样倍数为8，这表明算法很难在图像中捕获到尺寸小于或等于8×8的物体，会导致严重的漏检问题.

本研究在YOLOv5颈部网络的基础上增加一层针对小目标的检测层，并添加对应尺寸特征图的检测头，如图1虚线框部分所示. 小目标检测层引入尺寸大小为160×160的特征图，该尺寸特征图为原始特征图经过4倍下采样所得到. 在该尺寸特征图中，每一个像素点都包含了原始特征图中4×4像素区域的信息. 并且，在头部网络中增加一个针对160×160大小特征图的检测头，以适应微小目标的检测，增强算法对小目标的检测能力.

1.3. 特征增强模块MFFM

MFFM模块通过不同膨胀率的空洞卷积增大感受野，充分提取低层级特征图中的信息. 采用多分支卷积结构，各分支之间并联组合，如图2所示. 各分支均先采用卷积核大小为1×1的标准二维卷积降低通道数；随后，前3个分支分别添加卷积核大小为3×3、不同膨胀率的空洞卷积，增大感受野；最后一个分支为残差结构，目的是保留小目标的浅层纹理信息.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 特征增强模块结构

Fig.2 Structure of MFFM

使用不同膨胀率的空洞卷积，可以有效限制网格效应，避免信息丢失. 输入特征图$ \boldsymbol{X} $在通过MFFM后得到增强后的特征图$ \boldsymbol{Y} $，其具体计算公式如下：

(1)$ {\boldsymbol{y}}_{\text{1}}=f_{\text{dconv}}^{3}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X})) , $

(2)$ {\boldsymbol{y}}_{2}=f_{\text{dconv}}^{5}(f_{\text{dconv}}^{2}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X}))) , $

(3)$ {\boldsymbol{y}}_{3}=f_{\text{dconv}}^{4}(f_{\text{dconv}}^{3}(f_{\text{conv}}^{1\times 1}(\boldsymbol{X}))) , $

(4)$ {\boldsymbol{y}}_{4}=f_{\text{conv}}^{1\times 1}(\boldsymbol{X}) , $

(5)$ \boldsymbol{Y}=\text{concat}\;({\boldsymbol{y}}_{1},{\boldsymbol{y}}_{2},{\boldsymbol{y}}_{3})\oplus {\boldsymbol{y}}_{4} . $

式中：$ {\boldsymbol{y}}_{n} $表示MFFM模块第$ n $个分支的输出特征图，其中$ n\in \{\text{1, 2, 3, 4}\} $；$ f_{\text{conv}}^{\text{1}\times \text{1}} $表示卷积核为1×1的标准二维卷积操作；$ f_{\text{dconv}}^{m} $表示膨胀率为$ m $、卷积核为3×3的空洞卷积，其中$ m\in \{\text{2, 3, 4, 5}\} $；$ \text{concat} $表示对特征图进行拼接操作;$ \oplus $表示对特征图进行按位相加操作.

1.4. 融合注意力机制模块CASA

在融合通道注意力机制(channel attention, CA)^[12]和空间注意力机制(spatial attention, SA)^[13]后，添加残差结构并封装成CASABlock，如图3所示. 其次，用CASABlock替换掉C3模块中的Bottleneck结构，形成CASA模块，整体结构如图4所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 CASABlock结构

Fig.3 Structure of CASABlock

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 CASA模块结构

Fig.4 Structure of CASA

CA模块的上支路对输入特征图分别进行通道维度上的全局平均池化和最大池化操作，随后通过多层感知机(multilayer perceptron, MLP)学习2种不同的特征，并将其进行按位相加，经Relu函数激活后得到通道注意力机制权重. 最后，将权重与输入特征图相乘，再使用Sigmoid函数激活得到CA的输出特征图. 具体计算过程如下：

(6)$ {\boldsymbol{F}}_{\text{1}}=\text{MLP}\;(\text{max}\;({\boldsymbol{F}}_{\text{c}})),{\boldsymbol{F}}_{\text{2}}=\text{MLP}\;(\text{avg}\;({\boldsymbol{F}}_{\text{c}})) , $

(7)$ {{\boldsymbol{\omega}} }_{\text{c}}=\text{Relu}\;({\boldsymbol{F}}_{1})\oplus \text{Relu}\;({\boldsymbol{F}}_{\text{2}}) , $

(8)$ {\boldsymbol{Z}}_{\text{c}}=\sigma \;({\boldsymbol{F}}_{\text{c}}\cdot {{\boldsymbol{\omega}} }_{\text{c}}) . $

式中：$ {\boldsymbol{F}}_{\text{c}} $表示CA模块输入特征图；$ \text{max} $表示最大池化操作；$ \text{avg} $表示平均池化操作；$ \text{MLP} $表示将特征图输入至多层感知机学习特征；$ {\boldsymbol{F}}_{\text{1}} $和$ {\boldsymbol{F}}_{2} $分别表示最大池化、平均池化后多层感知机学习到的特征；$ \text{Relu} $和$\sigma $分别表示使用Relu函数和sigmoid函数进行激活；$ {{\boldsymbol{\omega }}}_{\text{c}} $表示CA权重矩阵；$ {\boldsymbol{Z}}_{\text{c}} $表示CA模块输出特征图.

SA模块的上支路对输入特征图分别进行空间维度上的全局平均池化和最大池化操作，并拼接获得的特征图，使用7×7的卷积提取特征，然后使用Sigmoid函数激活得到空间注意力权重. 最后，将权重与输入特征图相乘后使用Sigmoid函数激活得到SA输出特征图. 具体计算过程如下：

(9)$ \boldsymbol{F}_{\text{s}}^{\prime}=\text{concat}\;(\text{max}\;({\boldsymbol{F}}_{\text{s}}),\text{avg}\;({\boldsymbol{F}}_{\text{s}}\text{)}) , $

(10)$ {{\boldsymbol{\omega}} }_{\text{s}}=\sigma \;(f_{\text{conv}}^{7\times 7}(\boldsymbol{F}_{\text{s}}^{\prime})) , $

(11)$ {\boldsymbol{Z}}_{\text{s}}=\sigma ({\boldsymbol{F}}_{\text{s}}\cdot {{\boldsymbol{\omega}} }_{\text{s}}) . $

式中：$ {\boldsymbol{F}}_{\text{s}} $表示SA模块输入特征图；$ \boldsymbol{F}_{\text{s}}^{\prime} $表示经过2个池化层拼接后的特征图；$ f_{\text{conv}}^{\text{7}\times \text{7}} $表示卷积核大小为7×7的卷积操作；$ {{\boldsymbol{\omega}} }_{\text{s}} $表示SA权重矩阵；$ {\boldsymbol{Z}}_{\text{s}} $表示SA模块输出特征图.

在CASABlock中，首先采用1×1的卷积降低通道数，随后分为2个分支：在上支路中，输入特征图$ \boldsymbol{F} $通过CA处理得到特征图$ {\boldsymbol{F}}_{\text{CA}} $，将注意力聚焦于包含有效信息的通道；随后，$ {\boldsymbol{F}}_{\text{CA}} $经SA处理得到特征图$ {\boldsymbol{F}}_{\text{SA}} $，将注意力聚焦于通道中包含有效信息的具体位置.

在下支路中，直接将特征图$ \boldsymbol{F} $输出，保留原始特征图的纹理信息. 最后，将2个通道的输出进行拼接，并通过1×1的卷积还原通道数得到CASABlock的输出特征图$ \boldsymbol{Z} $，具体计算过程可以表示为

(12)$ \boldsymbol{Z}=f_{\text{conv}}^{1\times 1}(\text{concat}\;({f}_{\text{s}}({f}_{\text{c}}(\boldsymbol{F})),\boldsymbol{F})) . $

式中：$ \boldsymbol{F} $和$ \boldsymbol{Z} $分别表示CASABlock的输入、输出特征图；$ {f}_{\text{c}} $和$ {f}_{\text{s}} $分别表示特征图经过CA和SA模块.

用封装好的CASA模块，替换原始PAN结构中的C3模块，使颈部网络具有融合注意力机制，提高网络整体对于小目标的敏感程度.

1.5. MPDIoU损失函数

模块的添加使得网络整体复杂度提高，收敛速度变慢，而YOLOv5原始损失函数CIoU仅考虑预测框宽高比的相对值，当真实框和预测框具有相同的宽高比，但是宽和高的具体值不同时，损失函数CIoU将失去有效性，这将极大地限制模型的收敛速度和预测精度.

MPDIoU损失函数^[14]通过最小化真实框和预测框左上角之间、真实框和预测框右下角之间的距离，在解决CIoU存在问题的同时，能适应网络改动所带来的变化，从而使损失函数达到更好的表现. 因此，本模型拟采用MPDIoU作为损失函数，具体参数如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 MPDIoU损失函数参数

Fig.5 Parameters of MPDIoU loss function

MPDIoU损失函数定义如下：

(13)$ {L}_{\text{MPDIoU}}=\text{1}-\text{MPDIoU} , $

(14)$ \text{MPDIoU}=\text{IoU}-\frac{d_{\text{1}}^{2}}{{w}^{2}+{h}^{2}}-\frac{d_{\text{2}}^{2}}{{w}^{2}+{h}^{2}} , $

(15)$ d_{1}^{2}={({x_{1}^{\text{gt}}}-{x_{1}^{\text{prd}}})}^{2}+{({y_{1}^{\text{gt}}}-{y_{1}^{\text{prd}}})}^{\text{2}} , $

(16)$ d_{2}^{2}={({x_{\text{2}}^{\text{gt}}}-{x_{\text{2}}^{\text{prd}}})}^{2}+{({y_{2}^{\text{gt}}}-{y_{2}^{\text{prd}}})}^{2} . $

式中：$ {L}_{\text{MPDIoU}} $表示损失函数MPDIoU；$ (x_{\text{1}}^{\text{gt}},y_{1}^{\text{gt}}) $、$ (x_{\text{2}}^{\text{gt}},y_{\text{2}}^{\text{gt}}) $分别表示真实框左上角、右下角的坐标值；$ (x_{\text{1}}^{\text{prd}},y_{\text{1}}^{\text{prd}}) $、$ (x_{\text{2}}^{\text{prd}},y_{2}^{\text{prd}}) $分别表示预测框左上角、右下角的坐标值；$ {d}_{1} $和$ {d}_{2} $分别表示真实框和预测框左上角之间、真实框和预测框右下角之间的距离；$ w $和$ h $分别为输入特征图的宽度和高度.

2. 实验结果与分析

2.1. 数据集

分别使用USOD^[15]和AI-TOD^[16]公开遥感图像数据集作为实验数据.

1) USOD数据集共包括3000张遥感图像，其中包含43378个车辆实例，训练集与测试集比例为7∶3；尺寸小于32×32的物体占目标总数的99.9%，尺寸小于16×16的物体占总目标数的96.3%，整个数据集的物体尺寸分布如图6(a)所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 数据集目标实例尺寸分布情况

Fig.6 Size distribution of target instance in dataset

2) AI-TOD数据集包含28036张遥感图像，共计700621个物体实例，包括8个常见类别，分别为飞机、桥梁、储罐、船、水池、车辆、人和风车；该数据集目标平均尺寸为12.8像素，尺寸小于32×32的物体占目标总数的97.9%，整个数据集的物体尺寸分布如图6(b)所示.

图6中不同深浅的颜色代表不同尺寸物体的数量分布，颜色越深表示该尺寸物体的数量越多；H_L、W_L分别表示数据集中物体标签框的高度和宽度. 由此可知，本研究所选取的2个数据集中的小目标居多，符合本研究的需求.

2.2. 实验环境及评估指标

使用Ubuntu22.04.4操作系统，GPU为一块24 G显存的NVDIARTX 4090D，所选深度学习计算框架为PyTorch，使用深度学习平台CUDA11.8对运行代码所需的工具库进行管理，使用PyCharm软件运行所述模型代码，训练采用SGD优化器，训练超参数设置参见表1.

表 1 模型训练超参数设置

Tab.1 Model training hyperparameter settings

参数	数值	参数	数值
批次大小	16	权重衰减系数	0.005
训练轮次	300	学习率动量	0.937
初始学习率	0.01	图片尺寸	640×640

新窗口打开| 下载CSV

对于USOD数据集，选取精确率P、召回率R、平均均值精度mAP、参数量params以及每秒帧数FPS作为评估指标. 其中，精确率表示正确检出目标的概率；召回率表示目标被成功检测的概率；mAP50表示交并比阈值为0.5时，各类别平均精确度的均值；mAP50:95表示以0.05为步长，交并比阈值从0.50至0.95的10个不同阈值下各类别平均精确度的均值；Params是指模型需要训练的参数总数；FPS表示模型每秒能处理图像的数量.

对于AI-TOD数据集，除了选取mAP50和mAP50:95作为性能评估指标外，使用数据集官方提供的mAPvt、mAPt、mAPs作为额外的性能评估指标. mAPvt表示物体尺寸小于8×8时的平均均值精度，即非常微小目标的检测精度；mAPt表示物体尺寸在8×8和16×16之间的平均均值精度，即微小目标的检测精度；mAPs表示物体尺寸在16×16和32×32之间的平均均值精度，即小目标的检测精度.

2.3. 消融实验

为了验证本研究所增加的小目标检测层、MFFM、CASA和MPDIoU的有效性，基于USOD数据集设计10个消融实验，具体实验情况如表2所示，其中最佳指标通过加粗表示. 从实验B可以看出，在增加小目标检测层后，相较于基线算法，精确度、召回率、mAP50和mAP50:95分别提升1.2、0.5、0.8和0.8个百分点. 由此说明，小目标检测层和对应检测头的加入，使模型在小目标居多的场景拥有更好的表现. 实验C在基线算法的基础上增加MFFM，精确率、召回率和mAp50分别提高1.0、1.7和0.7个百分点，可见不同膨胀率的空洞卷积对特征进行增强使得检测性能得到进一步提升. 实验D在基线算法的基础上增加CASA，参数量仅增加0.07×10⁶，而精确率、召回率、mAP50和mAP50:95分别提高2.9、0.9、1.5和1.4个百分点. 可知，引入融合注意力机制大大地提高了算法区分物体和背景的能力，有效地解决了前背景混淆的问题. 由实验E可知，将损失函数替换为MPDIoU后，模型损失值降低，模型误差变小，检测性能得到改善. 相较于其他实验结果，实验J在精确度、召回率、mAP50和mAP50:95上均有显著提升，但是增加了参数量(Params)和浮点运算次数(GFLOPs)，存在较高的复杂度.

表 2 不同改进点组合的消融实验结果分析

Tab.2 Analysis of ablation experiment results with different combinations of improvement points

序号	小目标层	MFFM	CASA	MPDIoU	P/%	R/%	mAP50/%	mAP50:95/%	Params/10⁶	GFLOPs
A	—	—	—	—	88.5	81.5	87.1	31.9	20.85	47.9
B	√	—	—	—	89.7	82.0	87.9	32.7	21.29	56.3
C	—	√	—	—	89.5	83.2	87.8	31.9	21.62	52.1
D	—	—	√	—	91.4	82.4	88.6	33.3	20.92	48.3
E	—	—	—	√	89.9	83.1	88.2	32.8	20.85	47.9
F	√	√	√	—	91.7	84.0	89.1	33.0	22.13	62.3
G	√	√	—	√	90.7	83.0	88.7	32.7	22.13	62.2
H	√	—	√	√	91.3	83.3	89.0	32.9	21.33	56.4
I	—	√	√	√	91.5	83.7	89.3	32.9	21.65	51.8
J	√	√	√	√	92.3	84.1	89.9	34.1	22.13	62.3

新窗口打开| 下载CSV

2.4. 对比实验

为了进一步探究本研究算法的性能表现，分别在USOD数据集和AI-TOD数据上设计了不同的对比实验.

2.4.1. 基于USOD数据集的对比实验

将FMCM-YOLO与YOLOv5基线算法、RefineDet^[17]、YOLOv8^[18]、TPH-YOLOv5^[19]、MSFE-YOLO-m^[20]、LS-YOLO^[21]、L-FFCA-YOLO^[15]等最新目标检测算法在精确度、召回率、平均均值精度和参数量上进行比较，结果如表3所示. FMCM-YOLO较基线算法在准确率、召回率、mAP50和mAP50:95分别提升3.8、2.6、2.8、2.2个百分点，并且较其他主流的检测算法也有不同程度的提升. FMCM-YOLO算法增加了单独的小目标检测层、CASA模块也更为复杂，对比基线算法，牺牲了一定的实时性，不过实时性仍优于大多数小目标检测算法.

表 3 不同算法在USOD上的性能比较结果

Tab.3 Performance comparison results of different algorithms on USOD

模型	P/%	R/%	mAP50/%	mAP50:95/%	Params/10⁶	FPS
RefineDet	88.1	82.4	85.1	31.4	35.68	32
YOLOv5m	88.5	81.5	87.1	31.9	20.85	258
YOLOv8m	90.5	82.2	87.6	32.4	29.74	155
TPH-YOLOv5	91.0	83.7	89.5	32.1	45.36	134
MSFE-YOLO-m	91.6	83.5	89.6	33.1	59.5	137
LS-YOLO	90.8	83.6	89.3	33.9	22.6	153
L-FFCA-YOLO	91.3	82.8	89.3	33.2	5.10	165
FMCM-YOLO(本研究算法)	92.3	84.1	89.9	34.1	22.13	169

新窗口打开| 下载CSV

2.4.2. 基于AI-TOD数据集的对比实验

将FMCM-YOLO与YOLOv5基线算法、DedectoRS^[22]、M-CenterNet^[16]、HANet^[23]、FFCA-YOLO^[15]和L-FFCA-YOLO^[15]等目标检测算法进行比较，选取5种不同的mAP作为评估指标，结果如表4所示. 可以看出，相较于基线算法，mAP50、mAP50:95、mAPvt和mAPt、mAPs分别提高5.9、5.0、2.1、6.5和5.1个百分点. DedectoRS算法的mAPvt为0，即该算法在面对目标较小的情况时，检测能力有限，无法检测出尺寸较小的目标. FMCM-YOLO算法的mAP50和mAP50:95较次于目前性能最优越的FFCA-YOLO算法，mAPvt与其持平，但是mAPt和mAPs分别提高3.7和0.3个百分点，说明FMCM-YOLO算法在整体性能上虽然不及FFCA-YOLO算法，但是在针对小目标和微小目标时，FMCM-YOLO算法具有更强的检测性能.

表 4 不同算法在AI-TOD上的性能比较结果

Tab.4 Performance comparison results of different algorithms on AI-TOD

模型	mAP50/%	mAP50:95/%	mAPvt/%	mAPt/%	mAPs/%	FPS
DedectoRS	32.8	14.8	0	10.8	28.3	61
M-CenterNet	40.7	14.5	6.1	15.0	19.4	78
YOLOv5m	54.7	21.7	10.5	22.1	27.0	258
HANet	53.7	22.1	10.9	22.2	27.3	178
FFCA-YOLO	61.7	27.7	12.6	24.9	31.8	171
L-FFCA-YOLO	58.3	25.5	11.7	23.2	30.1	165
FMCM-YOLO(本研究算法)	60.6	26.7	12.6	28.6	32.1	169

新窗口打开| 下载CSV

另外，如表5所示，在算法改进前、后，针对不同类别目标的检测性能进行对比. 可以看出，所有类别的平均均值精度均有不同程度的提高. 由于FMCM-YOLO算法在2个数据集上均有不错的表现，说明所提算法具有较为出色的泛化性.

表 5 改进前、后AI-TOD数据集各类别目标的检测性能比较

Tab.5 Comparison of detection performance of various types of targets in AI-TOD dataset before and after improvement

类别	mAP50/%
类别	FMCM-YOLO	YOLOv5m
all	60.6	54.7
airplane	66.9	64.3
bridge	50.4	44.9
storage-tank	88.9	77.9
ship	78.9	75.0
swimming-pool	51.7	51.2
vehicle	77.7	69.9
person	39.2	31.3
wind-mill	33.4	23.3

新窗口打开| 下载CSV

2.5. 可视化实验

2.5.1. 损失函数效果对比

为了验证本研究所增加的MPDIoU损失函数的有效性，对比使用CioU^[24]、EIoU^[25]、SIoU^[26]、GIoU^[27]和MPDIoU作为框损失函数时，框损失$ {{L}}_{\text{box}} $随迭代次数epochs的变化情况，结果如图7所示. 不同损失函数都能随迭代次数的增加而逐渐收敛，但相较于其余4种损失函数，MPDIoU收敛速度更快，能够达到更小的损失值.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同损失函数效果对比

Fig.7 Comparison of effects of different loss functions

2.5.2. 可视化结果分析

为了验证本研究在实际场景中的使用效果，在AI-TOD的测试集中选取不同场景的图片进行测试，结果如图8所示，其中部分细节通过放大进行展示. 由于部分场景目标较为密集，为了更好地观察检测效果，在使用模型对图片进行检测时，将类别标签和置信度进行剔除仅保留检测框. 从图中可以看出，YOLOv5m算法在面对目标密集的场景时，漏检现象严重；而FMCM-YOLO算法能够轻松地检测出密集的小目标，将小目标区分开来. 特别，在夜间能见度较差的场景中，FMCM-YOLO的表现也较为出色.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 模型改进前、后可视化检测效果对比

Fig.8 Comparison of visual detection effects before and after model improvement

3. 结　语

为了解决光学遥感图像中小目标特征提取受限、前背景混淆、漏检误检严重等问题，提出专门针对小目标的检测模型FMCM-YOLO. 首先，设计了一种四头检测模型，以更好地检测出光学遥感图像中繁多的小目标；其次，在主干网络中添加特征增强层MFFM，提高特征提取能力，增强算法检测性能；然后，在融合通道注意力机制和空间注意力机制后，引入残差结构，封装成CASA模块，替换掉Detect模块前的C3模块，使算法更易区分出目标和背景以防止前背景混淆；最后，引入MPDIoU损失函数，简化损失计算过程，加快模型收敛速度. 在USOD和AI-TOD这2个数据集上分别进行实验，实验结果表明所提算法在检测性能上较基准算法和其余主流检测算法均有不同程度的提升，表明所提算法在检测光学遥感图像中小目标时具有一定的优越性和鲁棒性.

虽然本研究所提算法在检测性能方面有所提升，但是须付出更多的计算代价，因此下一步研究将针对模型规模，在保证性能的同时，提出计算复杂度更低的模型，以适应计算资源有限的场景.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

许夙晖, 慕晓冬, 柯冰, 等

基于遥感影像的军事阵地动态监测技术研究

[J]. 遥感技术与应用, 2014, 29 (3): 511- 516

DOI:10.11873/j.issn.1004-0323.2014.3.0511 [本文引用: 1]

XU Suhui, MU Xiaodong, KE Bing, et al

Dynamic monitoring of military position based on remote sensing image

[J]. Remote Sensing Technology and Application, 2014, 29 (3): 511- 516

DOI:10.11873/j.issn.1004-0323.2014.3.0511 [本文引用: 1]

[2]

姚艳清, 程塨, 谢星星, 等

多分辨率特征融合的光学遥感图像目标检测

[J]. 遥感学报, 2021, 25 (5): 1124- 1137

YAO Yanqing, CHENG Gong, XIE Xingxing, et al

Optical remote sensing image object detection based on multi-resolution feature fusion

[J]. National Remote Sensing Bulletin, 2021, 25 (5): 1124- 1137

[3]

禹文奇, 程塨, 王美君, 等

MAR20: 遥感图像军用飞机目标识别数据集

[J]. 遥感学报, 2023, 27 (12): 2688- 2696

DOI:10.11834/jrs.20222139 [本文引用: 1]

YU Wenqi, CHENG Gong, WANG Meijun, et al

MAR20: a benchmark for military aircraft recognition in remote sensing images

[J]. National Remote Sensing Bulletin, 2023, 27 (12): 2688- 2696

DOI:10.11834/jrs.20222139 [本文引用: 1]

[4]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580–587.