浙江大学学报(工学版), 2025, 59(12): 2545-2555 doi: 10.3785/j.issn.1008-973X.2025.12.009

计算机技术

结合深度可分离卷积的多源遥感融合影像目标检测

陈江浩,, 杨军,

1. 兰州交通大学 测绘与地理信息学院,甘肃 兰州 730070

2. 地理国情监测技术应用国家地方联合工程研究中心,甘肃 兰州 730070

3. 甘肃省地理国情监测工程实验室,甘肃 兰州 730070

4. 兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

Object detection for multi-source remote sensing fused images based on depthwise separable convolution

CHEN Jianghao,, YANG Jun,

1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China

2. National and Local Joint Engineering Research Center of Geographical Monitoring Technology Application, Lanzhou 730070, China

3. Gansu Provincial Engineering Laboratory of Geographical Monitoring, Lanzhou 730070, China

4. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 杨军,男,教授,博导. orcid.org/0000-0001-6403-3408. E-mail:yangj@mail.lzjtu.cn

收稿日期: 2025-01-23  

基金资助: 国家自然科学基金资助项目(42261067);2025年度甘肃省重点人才资助项目(2025RCXM031).

Received: 2025-01-23  

Fund supported: 国家自然科学基金资助项目(42261067);2025年度甘肃省重点人才资助项目(2025RCXM031).

作者简介 About authors

陈江浩(1996—),男,硕士生,从事遥感影像智能解译研究.orcid.org/0009-0002-3014-2424.E-mail:11220897@stu.lzjtu.edu.cn , E-mail:11220897@stu.lzjtu.edu.cn

摘要

针对卷积下采样在遥感影像处理中特征提取能力不足,以及传统特征级融合方法未能充分发挥多源遥感数据互补优势的问题,提出结合改进深度可分离卷积与多尺度特征提取模块的多源遥感融合影像目标检测网络. 设计双分支可分离卷积模块,通过深度卷积与残差连接增强深层语义特征表达,提升复杂背景下的判别性能. 构建全局-局部自适应特征融合模块,利用分离卷积将特征图拆分为不同维度分量,分别捕获全局结构与局部细节,再通过自适应机制进行融合,实现跨源影像信息互补与多尺度特征协同. 实验在VEDAI多源数据集上验证,平均检测精度达到82.80%,较ICAfusion提升2.00个百分点,在与YOLOrs、YOLOfusion、SuperYOLO、MF-YOLO等方法对比中保持更优表现. 所提网络在多源遥感影像特征级融合方面展现出较高有效性,在目标检测任务中取得显著性能提升.

关键词: 多源遥感影像 ; 特征提取 ; 特征级融合 ; 深度可分离卷积 ; 多尺度特征 ; 目标检测

Abstract

A multi-source remote sensing image fusion and object detection network based on improved depthwise separable convolution and a multi-scale feature extraction module was proposed to address the limitation of convolutional downsampling in feature extraction and the problem of traditional feature-level fusion methods failing to fully leverage the complementary advantages of multi-source remote sensing data. A dual-branch separable convolution module was designed to enhance deep semantic feature representation through depthwise convolution and residual connections, thereby improving discriminative performance under complex backgrounds. Furthermore, a global-local adaptive feature fusion module was constructed, where feature maps were decomposed into different dimensional components using separable convolution to capture global structures and local details separately. These features were then fused via an adaptive mechanism to achieve cross-source information complementarity and multi-scale feature collaboration. Experiments on the VEDAI multi-source dataset demonstrated that the proposed method achieved a mean average precision (mAP) of 82.80%, which was 2.00 percentage points higher than that of ICAfusion, while also outperforming YOLOrs, YOLOfusion, SuperYOLO, and MF-YOLO. The network shows high effectiveness in feature-level fusion of multi-source remote sensing images and yields significant performance improvements in object detection tasks.

Keywords: multi-source remote sensing image ; feature extraction ; feature-level fusion ; depthwise separable convolution ; multi-scale feature ; object detection

PDF (2620KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈江浩, 杨军. 结合深度可分离卷积的多源遥感融合影像目标检测. 浙江大学学报(工学版)[J], 2025, 59(12): 2545-2555 doi:10.3785/j.issn.1008-973X.2025.12.009

CHEN Jianghao, YANG Jun. Object detection for multi-source remote sensing fused images based on depthwise separable convolution. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2545-2555 doi:10.3785/j.issn.1008-973X.2025.12.009

随着遥感平台和传感器的升级,配备多种传感器的遥感卫星带来更丰富的数据源,多源遥感成为当下热门的研究课题. 与单源相比,多源提供了更多的传感器、角度、分辨率和时间信息[1]. 由于多源遥感影像既具有互补性,又具有冗余性,其融合能够综合利用不同模态的信息,实现更精准、更全面的遥感对地观测[2],得到了广泛的应用与推广[3-6].

根据融合数据形式的不同,多源遥感影像融合方法主要分为3种策略,即像素级融合、特征级融合和决策级融合[7]. 像素级融合针对多源影像本身进行处理,直接对影像中的像素进行融合. Wu等[8]采用像素级融合策略,设计跨模态交互并行转换模块,实现长距离多源交互,生成更全面的融合特征. Feng等[9]采用高通滤波法,根据不同波段的物理特性,实现多源遥感数据的融合. 决策级融合从深层语义的角度出发,对特征的高维度信息进行融合. 曹琼等[10]利用点云数据提取掩膜进行建筑物分类,并将使用掩膜和未使用掩膜的分类结果进行决策级融合,达到平滑图像去除噪声点的目的.

特征级融合对不同分支提取的多源特征进行融合,既保留了不同模态各自的信息,又能够获取更细致的地物特征. Li等[11]采用特征级融合策略,设计不对称特征融合网络,利用多源特征的空间依赖性,提高细节的鉴别能力;Ye等[12]设计了基于互补特征的SAR和光学影像融合方法,通过重建多源影像的视觉显著性特征图,实现最佳信息传递. Li等[13]结合SAR和光学影像的特性,将两者转化为点位移参数,利用自注意力融合网络来描述多源影像的特征关系,实现端到端的匹配. 这些研究取得了良好的成果,但仍难以提取特征,并且没有针对多尺度互补信息捕获进行改进.

遥感影像目标检测是遥感影像解译的重要研究方向,许多研究对最新算法进行改进,取得了显著成果. 董红召等[14]总结目前基于YOLO系列算法的遥感影像目标检测用于城市交通的最新应用,将检测目标分为“人”、“车”和“路”3个类别,讨论了不同YOLO算法针对各类目标所进行的改进,并进行了总结与展望. 宋耀莲等[15]为了解决当前目标检测算法对无人机影像小目标的错检漏检问题,设计了基于YOLOv5s的小目标检测算法,通过优化特征融合网络、改进损失函数和引入注意力机制的方式,提高了目标检测精度. 这些研究虽然在目标检测精度上有所提升,但没有结合多源影像进行特征提取,存在改进的空间.

近年来,大量研究设计了多源遥感影像融合与目标检测一体化网络,取得了较好的目标检测结果. Zhang等[16]提出快速的多源遥感融合影像目标检测方法,利用辅助超分辨率学习进行多尺度目标检测,兼顾了目标检测精度和计算成本. Li等[17]针对小目标检测精度不佳和遥感影像噪声过大的问题,设计改进的YOLOv5目标检测框架,将可见光与红外影像融合,获取更高的目标检测精度. 这些研究为多源遥感影像的目标检测奠定了基础,但对特征提取模块缺乏改进,并且没有充分考虑到多尺度特征对多源数据的影响.

以上研究工作卓有成效,但普遍存在的问题如下:1)由于遥感影像具有丰富的细节和边缘信息,传统下采样卷积方法难以处理细粒度遥感影像信息,无法有效提取特征;2)多源遥感数据具有多光谱、多分辨率的特点,而现有融合方法没有充分考虑遥感影像的多尺度特征,从而忽略了多源数据在不同尺度上的互补信息.

针对这些问题,本研究设计了采用改进深度可分离卷积的多源融合遥感影像目标检测方法,采用特征级融合策略,即先分别提取单源特征再进行特征融合,以YOLOv5[18]为基础,结合自主设计的特征提取和特征级融合模块,实现多源遥感影像目标检测. 主要创新点和贡献如下:1)针对如何有效提取遥感影像特征的问题,受文献[19]的启发,设计双分支可分离卷积模块(dual branch separable convolution module, DBSConv). 该模块与卷积相结合,旨在通过深度卷积和残差连接提取更深层次的特征信息,从而增强卷积的特征提取能力. 2)针对如何充分利用多源数据的优势,实现信息互补的问题,受文献[20]的启发,设计全局-局部自适应特征融合模块(global-local adaptive feature fusion module, GLAFF). 有别于传统的张量拼接,GLAFF模块采用新的空间特征处理和融合方法,旨在通过分离式卷积将特征图进行拆分处理,分别提取全局和局部的细粒度特征以及捕捉不同区域的变化信息,并融合各自的互补信息.

1. 多源遥感融合影像目标检测

1.1. 网络框架

图1所示为所提方法的网络总体框架,所提方法建立在YOLOv5的基础框架之上,其中,骨干网络被拆分为双分支路线,分别处理输入的单源影像对. 主要分为3个部分:单源特征提取、多源特征融合和检测头. 为了保证检测结果对比的公平性,采用5层卷积的价格,与基准方法ICAfusion[21]保持一致. 由于没有额外的超参数,模型具有较高的灵活性,可以被拆分并插入到其他的框架中.

图 1

图 1   网络总体框架

Fig.1   Overall network framework


所采用的多源影像为可见光和红外影像. 首先,多源遥感影像输入到单源特征提取阶段,这是特征级融合之前的必要步骤. 由于主干网络是双分支结构,2个分支在特征提取方法上没有区别,因此以可见光分支为例,阐述2个分支的算法. 可见光影像的特征提取过程如下:

$ \boldsymbol{F}_{\mathrm{v}}^x=\varphi_{\text {backbone }}\left(\boldsymbol{I}_{\mathrm{v}} ; \boldsymbol{I}_{\mathrm{i}} ; \lambda_{\mathrm{v}}\right) . $

式中:$\boldsymbol{F}_{\mathrm{v}}^x $表示v分支(可见光)输入到第x层(x=1, 2, 3, 4, 5)的特征图; ϕbackbone表示骨干网络,IvIi为其参数,表示可见光影像和红外影像,λv表示卷积神经网络的相关参数. 引入具有良好稳定性的主干网络CSPDarknet[22],并采用由卷积下采样方法与新设计的特征提取方法所获取的特征图相结合的方式进行特征融合,当x=1, 2, 3, 4时,特征提取方法为卷积下采样模块;当x=5时,特征提取方法为提出的DBSConv模块,只在第5层采用DBSConv模块,从而达到训练精度与资源消耗的平衡. Ii之所以会成为可见光分支的参数之一,是因为采用的融合模块[22]须利用2个分支的互补信息进行迭代.

其次,2个模态的特征图${\boldsymbol{F}}^x_{\mathrm{v}} $${\boldsymbol{F}}_{\mathrm{i}}^x $输入到多源特征融合阶段,其过程如下:

$ \boldsymbol{F}_{\mathrm{v}+\mathrm{i}}^x=\varphi_{\text {fusion }}\left(\boldsymbol{F}_{\mathrm{v}}^x ; \boldsymbol{F}_{\mathrm{i}}^x ; \lambda_{\mathrm{f}}\right) . $

式中:${\boldsymbol{F}}^x_{{\mathrm{v+i}}{\mathrm{}}} $表示第x层的融合特征图(x=3, 4, 5),φfusion为多源特征融合模块,λf表示卷积神经网络的相关参数. 在深度卷积网络中,浅层特征图感受野较小,具有较高的分辨率和丰富的细节信息,能够更好地捕捉小目标和复杂背景. 随着网络层数的增加,特征图感受野增大,分辨率降低,语义信息增多,细节信息减少,不再适合小目标的特征提取. 在多源遥感影像的特征提取中,细节信息的提取更为重要. 第1、2层特征图语义信息不足,会导致过多噪声被引入,影响融合效果;而第4、5层特征细节信息不足,只融合第4、5层的特征会导致检测效果较差. 因此,本研究选择从第3层开始进行融合. 根据文献[15]的研究,在若干卷积层之后进行融合的策略优于其他融合策略,文献[21]在此基础上进行实验,从5个卷积层的第3层开始进行多源融合,取得了良好的融合效果,因此将其作为默认设置,只对主干网络中的第3、4、5层进行融合. 当x=3, 4, 5时,采用GLAFF模块作为特征融合方法来取代基线模型所采用的NINfusion[21]融合方法.

最后,特征图被传递到检测头进行后续的分类和回归,表达式如下:

$ \left[\theta_{\mathrm{cls}}, \theta_{\mathrm{bbox}}\right]=\varphi_{\text {neck }}\left(\varphi_{\text {head }}\left(\boldsymbol{F}_{\mathrm{v}+\mathrm{i}}^x ; \lambda_{\mathrm{h}}\right)\right) . $

式中:θclsθbbox分别表示目标检测的类别和锚框参数,φhead表示检测头,φneck表示检测颈部,λh表示卷积神经网络的相关参数. Neck部分基于YOLOv5的特征金字塔网络,通过自上而下的路径将高层语义信息传递到低层特征图,从而将不同层次的特征图融合到一起. 这种双向特征融合结构能够有效结合多尺度特征,提高目标检测的精度. Head部分沿用YOLOv5的检测头结构,包括分类分支和回归分支. 分类分支用于预测目标的类别概率,回归分支用于预测目标的边界框坐标.

1.2. 双分支可分离卷积模块

受文献[19]的启发,改进深度可分离卷积,采用双分支策略,分别获取特征图后进行分离、深度卷积和特征卷积的方法,最后再进行一次特征提取,将双分支卷积层与特征提取卷积层相结合以替代卷积下采样. 如图2所示为双分支可分离卷积模块的结构,主要包括3个部分:深度卷积层(depthwise convolution,DWConv)、特征提取层(feature extraction,FE)和特征卷积(feature convolution,FC). 深度卷积层通过分组卷积减少计算量,特征提取层通过扩展因子增强特征表达能力,特征卷积通过特征交互增强特征表达能力. 在运行机制上,DBSConv模块通过深度卷积和残差连接,能够捕获更深层次的特征信息,与传统的卷积下采样方法相比,能够更好地处理细粒度遥感影像信息,增强特征提取能力.

图 2

图 2   双分支可分离卷积模块

Fig.2   Dual branch separable convolution module


1.2.1. 深度卷积层

深度卷积操作表达式如下:

$ \phi_{\mathrm{DWConv}}^t =\phi_{\mathrm{Conv}}\left(c ; k ; g ; \theta_{\mathrm{act}} ; \theta_{\mathrm{bn}} ;\theta_{\text {autopad }}\{k ; p ; d\}\right) . $

式中:$\phi_{\mathrm{DWConv}}^t $表示深度卷积层,t表示深度卷积层数(t=1, 2);c表示通道数;k表示卷积核尺寸;g表示分组卷积的组数;θautopad表示缩放值,该值是自适应的参数,其作用是确保卷积操作的输出张量的空间维度与输入张量的相同;$\theta _{\mathrm{act}} $表示激活函数;$\theta_{\mathrm{bn}} $表示归一化参数;p表示填充值,d表示膨胀系数,参数pk由参数d决定.

深度卷积层须进行2次深度卷积操作. 当t=1时,第1层深度卷积表达式如下:

$ \boldsymbol{F}_{\text {output }}=\phi_{\text {DWConv }}^1\left(\boldsymbol{F}_{\text {input }}, c, k, g\right) . $

式中:FinputFoutput分别表示这一层的输入和输出特征,c=1024k=7,g=c=1024,这一步使用7×7的卷积核进行深度卷积,步幅为1且不进行填充,以保持特征图的尺寸和空间结构信息不变. 当t=2时,特征图已经经历了一次分离式的处理,与第1次深度卷积不同,在进行深度卷积操作之前,先对特征图进行一次通道压缩处理,以使特征图在经过特征提取层之后回归原始的通道数,从而保留和提炼特征信息. 第2层深度卷积表达式如下:

$ \boldsymbol{F}_{\text {output }}=\phi_{\text {DWConv }}^2\left(\boldsymbol{F}_{\text {input }}, c, k, g, p\right) . $

式中:c=1024k=7,g=c=1024. 此外,第2次深度卷积还添加了像素填充,从而避免输出特征图的尺寸减小. p表示填充值,pk的关系如下:

$ p = (k - 1)/{2}. $

2次深度卷积都没有进行激活函数计算,这是因为在使用ReLU和GELU这样常用的激活函数时会有均值偏移之类的缺点,而去除激活函数后,精度几乎没有受到影响[19].

1.2.2. 特征提取层和特征卷积

特征提取层$\phi_{\mathrm{FE}} $表达式如下:

$ \phi_{\mathrm{FE}}=\phi_{\mathrm{Conv2d}}^n\left(c_1 ; c_2 ; k\right) . $

式中:n表示双通道特征提取分支,n=1, 2;c1c2分别表示输入和输出通道数. c1c2的关系如下:

$ {c_2} = {\theta _{{\text{mlpratio}}}}{c_1}. $

式中:θmlpratio表示扩展因子,通过将输出通道数扩展,使得模型可以在通道上捕获更多的特征信息,从而增强特征的表达能力.

特征卷积操作表达式如下:

$ {\phi _{{\text{FC}}}} = {\phi _{{\text{act}}}}({\sigma _1}) \times {\sigma _2}. $

式中:σ1σ2分别表示双分支特征提取的结果,$\phi_{\mathrm{act}} $表示激活函数,文中选择的激活函数为ReLU6,与原本的ReLU函数相比,它的输出被限制在[0, 6],这有助于防止数值无限增长,保持模型的数值稳定性,防止梯度爆炸和过拟合. 特征卷积算法融合了2个分支的输出特征,捕捉2个分支特征之间的非线性关系,增强特征的交互能力;与卷积操作相比,降低了计算复杂度,同时保留了特征信息;能够通过权重调整,捕获重要的特征信息,从而提高特征的表达能力. 因此,与单纯的拼接算法相比,特征卷积对细节信息的捕获能力更强,从而能增强特征的表达能力.

最后,对输出特征进行残差连接,其表达式如下:

$ \boldsymbol{F}_{\text {output }}=\boldsymbol{F}_{\text {ini }}+\phi_{\text {drop }}\left(\boldsymbol{F}_{\text {fin }}\right) . $

式中:Foutput表示最终输出的特征;Fini表示初始输入的特征;Ffin表示经过双分支处理之后的张量;$\phi_{\mathrm{drop}} $表示正则化函数,该正则化项通过随机丢弃部分输出来减少过拟合的风险,从而使模型具有更好的泛化能力. 这一步实现了带有随机深度的残差连接,使得模型可以提取更深层次的特征信息,从而获取更鲁棒的特征.

1.3. 全局-局部自适应特征融合模块

由于多源信息的互补性,融合更依赖多尺度信息来结合细粒度的全局和局部特征,然而,传统的基于特征图拼接的融合算法没有考虑到这一点. 此外,遥感影像的目标检测也需要丰富的局部信息作为支持. 因此,受文献[20]的启发,本研究设计了全局-局部自适应特征融合模块,其结构如图3所示. 其中,+表示拼接运算,×表示卷积运算,G表示GELU激活函数运算,var表示空间维度的方差运算,$ {{\mathbf{R}}^{W \times H \times C}} $表示特征图尺寸. 该模块在原有的特征提取模块基础上拆分为2个分支,分别用于局部和全局特征提取,通过分离式卷积处理特征图,分别提取全局和局部特征并进行融合. 其中,全局特征分支通过方差引入统计偏差,增强全局特征的表达能力;局部特征分支通过通道分割和深度卷积,增强局部特征的表达能力. 增强后的局部特征可以捕捉红外影像中的热辐射信息,同时,增强后的全局特征可以整合可见光影像中的纹理和颜色信息,从而实现多源遥感信息互补.

图 3

图 3   全局-局部自适应特征融合模块

Fig.3   Global-local adaptive feature fusion module


首先,将特征图分别输入到2个分支来分别提取局部和全局信息,表达式如下:

$ \left[\rho_{\text {global }}, \rho_{\text {local }}\right]_{({\boldsymbol{g}}, {\boldsymbol{l}})}=\phi_{\text {Conv2d }}({\boldsymbol{g}} ; {\boldsymbol{l}} ; c ; 2 c) . $

式中:ρglobalρlocal分别表示提取局部信息和全局信息的分支,gl分别表示输入这2个分支进行运算的张量. 通过一次卷积操作将输入张量的输出通道变为原来的2倍,然后运用分割函数将张量在通道维度上一分为二. 其次,分别将2个张量输入到2个分支,并进行全局和局部特征提取. 最后,将处理之后的特征通过逐元素相加进行融合,并输入到1×1的卷积层中,表达式如下:

$ \boldsymbol{F}_{\text {output }}=\phi_{\text {Conv }}\left(c ; k=1 ; \boldsymbol{g}_{\mathrm{f}}+\boldsymbol{l}_{\mathrm{f}}\right) . $

式中:Foutput表示输出特征,gflf分别表示全局和局部特征. 根据以上步骤,可以获取兼顾全局和局部信息的多源特征图,将这些特征图融合得到的多源数据,其目标检测精度大于简单拼接得到的结果.

1.3.1. 全局特征分支

将输入特征输入到一个3×3的深度卷积层,表达式如下:

$ \boldsymbol{g}_{\mathrm{DW}}=\phi_{\mathrm{DWConv}}\left(\phi_{\operatorname{maxpool}}\left({\boldsymbol{g}} ; H ; W ; \theta_{\mathrm{down}}\right) ; k=3\right) . $

式中:gDW表示经过深度卷积处理的特征,$\phi_{\mathrm{maxpool}} $表示自适应最大池化,θdown表示降采样参数. 在深度卷积之前,通过自适应的池化参数(池化窗口、卷积核、步长等),将特征图的尺寸降至指定的大小,以减少特征图的空间维度,目的是保留每个区域内最重要的特征信息,并降低计算复杂度. 然后将下采样的特征进行深度卷积,进一步提取和加强特征信息.

为了使提取的特征信息能够用于全局描述,采取如下方法来引入方差作为统计偏差:

$ \boldsymbol{g}_{\mathrm{F}}=\phi_{\mathrm{var}}\left({\boldsymbol{g}}_{\mathrm{DW}} ; c ; h ; w\right)=\dfrac{1}{m} \displaystyle \sum_{i=0}^{m-1}\left(\mathrm{pl}_i-\mu\right)^2 . $

式中:gF表示拥有全局描述的特征,$\phi_{\mathrm{var}} $表示空间维度的方差算法,m表示像素总数,pli表示像素值,μ表示均值. 方差是衡量数据分布离散程度的统计量,能够反映特征图的全局信息. 在GLAFF模块的全局特征分支中,引入方差作为统计偏差,能够更好地描述特征图的全局分布,增强全局特征的表达能力. 通过计算空间维度上的方差来调整特征图,以获取能反映全局信息的特征.

将特征图和方差融合来获取全局特征,表达式如下:

$ \boldsymbol{g}_{\mathrm{f}}=\phi_{\mathrm{Conv}}\left(c ; \theta_{\mathrm{s}} \boldsymbol{g}_{\mathrm{DW}}+\theta_{\mathrm{v}} \boldsymbol{g}_{\mathrm{F}}\right) . $

式中:θsθv分别表示2个可学习的参数,通过梯度下降不断完善全局特征信息.

1.3.2. 局部特征分支

在通道维度上提取局部信息进行编码,加强其特征,再将其融入到特征图中,以此达到加强特征图局部信息的目的. 首先,将输入张量分割为2部分:

$ \left[\boldsymbol{l}_1, \boldsymbol{l}_2\right]=\phi_{\text {split }}\left(\phi_{\text {Conv }}\left(c ; c_{\text {grow }} ; \boldsymbol{l}\right),\left[c_{\text {local }}, c_{\text {grow }}-c_{\text {local }}\right]\right) . $

式中:l1l2分别表示用于提取局部信息的张量和其余的张量,ϕsplit表示分割算法,cgrow表示扩张后的通道数,clocal表示局部特征张量的通道数. 局部特征分支将原始张量先扩张再分割,在通道维度上分割成2个张量. 其次,取l1张量进行一次3×3的深度卷积生成增强的卷积特征;最后,将局部特征融入到特征图中,获得包含增强局部特征信息的特征图lf

$ \boldsymbol{l}_{\mathrm{f}}=\left(c_{\text {grow }} ; c ; \phi_{\text {DWConv }}\left(c_{\text {local }} ; \boldsymbol{l}_1 ; k=3\right)+\boldsymbol{l}_2\right) . $

2. 实验结果及分析

2.1. 数据集与评价指标

采用VEDAI数据集[23]作为多源遥感影像数据来源,并利用FLIR数据集[24]和KAIST数据集[25]来验证本节算法的泛化性.

1)VEDAI数据集. VEDAI是用于小目标检测的多源航空影像数据集,其中包含1268个成对的可见光和红外影像以及3700多个已注释的目标,所有影像的尺寸为512×512,格式为PNG. 数据集有8个类别的各类交通工具. 按照4∶1的比例划分训练集和测试集,将注释转换为水平框模式.

2)FLIR数据集. FLIR是用于目标检测的多源数据集,包含5142个成对的可见光与红外影像,分为日间和夜间场景,影像尺寸为512×512,格式为JPG. 本研究采用FLIR数据集的对齐版本,并按照4∶1的比例划分训练集和测试集.

3)KAIST数据集. KAIST是流行的多光谱行人检测数据集,涉及不同照明的场景,训练集和测试集分别包含89632252个弱对齐影像对,分辨率为 640×512,可用于训练和测试. KAIST数据集上的评价指标通常用漏检率来表示.

平均检测精度均值(mean average precision,mAP)是衡量目标检测模型性能常用的评价指标,当mAP较大时,表示模型性能较好. mAP是平均检测精度(average precision,AP)的均值,AP的计算方法如下:

$ R=\dfrac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} , $

$ \mathrm{AP}=\displaystyle \int_0^1 P(R) {\mathrm{d}} R . $

式中:TP为真正例(true positive)数,表示预测为正例,实际为正例,即算法预测正确;FP为假正例(false positive)数,表示预测为正例,实际为负例,即算法预测错误;FN为假反例(false negative)数,表示预测为负例,实际为正例,即算法预测错误;R为预测正确的正例数占真正的正例数的比率,即召回率;P为预测正确的正例数占预测为正例总量的比率,即精确率. mAP为所有类别的平均AP,其表达式如下:

$ \mathrm{mAP}=\dfrac{1}{k} \displaystyle \sum_{i=1}^k \mathrm{AP}_i. $

式中:k为目标类别数.

漏检率(missing rate, MR)是指在目标检测任务中,未被模型正确检测到的目标数量占实际目标总数的比例. 未检测到的目标数量是指实际存在但未被模型检测到的目标数量,实际目标总数是指数据集中标注的真实目标数量. 漏检率是衡量目标检测模型性能的重要指标之一,较低的漏检率表明模型能够更全面地捕捉到图像中的目标,尤其是在复杂背景或多尺度目标场景下,漏检率的高低直接反映了模型的鲁棒性和泛化能力.

2.2. 实验环境与参数设置

本实验的硬件环境为Intel Core i9-10850K+RTX3090(24 G显存),软件环境为Ubuntu18.04+CUDA11.0+Torch1.7.1+Python3.8. 训练阶段需要80个迭代周期,批量大小为8. 使用随机梯度下降(stochastic gradient descent, SGD)优化学习率,初始学习率设为0.01,最终学习率为0.10,动量为0.937,权值衰减为0.0005,学习率衰减方法为余弦退火,影像的输入大小为512×512,损失函数与YOLOv5算法的损失函数保持一致.

本研究模型的损失函数沿用了YOLOv5模型本身的损失函数,主要由3个部分组成:分类损失、边界框回归损失和置信度损失. 分类损失用于衡量模型对目标类别的预测准确性,采用二元交叉熵损失来计算;边界框回归损失用于优化预测边界框与真实边界框之间的位置误差,采用CIoU损失,不仅考虑了边界框的重叠区域,还引入了中心点距离和宽高比的惩罚项;置信度损失用于评估模型对目标存在与否的置信度,同样采用二元交叉熵损失来计算置信度损失. 这些损失函数通过加权求和的方式组合在一起,共同影响模型的训练过程.

2.3. 实验结果分析与讨论

本研究算法在VEDAI数据集上的目标检测结果如表1所示. 可以看出,本研究算法对大部分类别目标的检测精度良好,对cars、pickup、camping和tractor类别目标的检测精度非常优秀,均达到90%以上,但对boat和van类别目标的检测精度较差. 目前推测导致这一现象的主要原因大概有3个:一是boat和van类别目标直观来看不是规则的矩形,而算法对矩形目标的检测能力较强,对多边形目标的检测能力相对较弱;二是boat和van类别目标的边缘信息较弱,难以与背景区分;三是boat和van类别目标的样本较少.

表 1   本研究算法在VEDAI数据集上的目标检测精度

Tab.1  Object detection accuracy of proposed algorithm on VEDAI dataset

类别AP50/%AP75/%
cars97.3174.72
pickup96.8278.62
camping93.2176.28
truck87.0377.13
tractor98.1755.31
boat59.4348.67
van32.0428.91
其他88.2559.53
mAP82.8063.41

新窗口打开| 下载CSV


本研究算法以及ICAfusion算法在VEDAI数据集上的目标检测可视化结果如图4所示,目标检测的热力图可视化结果如图5所示. 其中,蓝色方框表示真实框,红色方框表示检测框,黄色圆框表示漏检情况,绿色圆框表示错检情况. 结合已经标出的错、漏检现象以及热力图的分布,可以看出,本研究算法的目标检测结果明显有所改善,明显优于ICAfusion算法的目标检测结果. 此外,本研究算法能够检测出大部分边缘区域的目标以及与背景相近的目标,证明了本研究算法具有良好的鲁棒性. 但是,本研究算法在密集场景下仍存在部分漏检状况,尤其是小目标集中的区域. 因此,本研究算法对密集目标的检测仍存在改进空间.

图 4

图 4   本研究算法和ICAfusion算法在VEDAI数据集上的目标检测可视化结果对比

Fig.4   Comparison of object detection visualization results between proposed algorithm and ICAfusion on VEDAI dataset


图 5

图 5   本研究算法和ICAfusion算法在VEDAI数据集上的目标检测热力图可视化结果对比

Fig.5   Comparison of object detection heatmap visualization results between proposed algorithm and ICAfusion on VEDAI dataset


为了验证本研究算法的优越性,将其与目前主流的和较为先进的多源遥感融合影像目标检测算法在VEDAI数据集上进行对比,这些算法包括YOLOrs[26]、YOLOfusion[27]、SuperYOLO[16]、MF-YOLO[17]和本研究的基线算法ICAfusion[21],结果如表2所示. 其中,GFLOPs为每秒浮点运算次数,Params为参数量,FPS为每秒帧数. 可以看出,本研究算法的平均目标检测精度比基线算法ICAfusion的平均目标检测精度高出2.00个百分点,同时高于其他先进算法. 然而,本研究算法虽然精度高于其他先进算法,但浮点数、参数量、推理速度均落后于其他先进算法,这是由于本研究算法引入了较为复杂的特征提取和特征融合模块,增加了参数量和浮点数,从而使得推理速度降低.

表 2   本研究算法在VEDAI数据集上与其他主流算法的目标检测结果对比

Tab.2  Comparison of object detection results between proposed algorithm and state of arts on VEDAI dataset

类别mAP50/%GFLOPs/106Params/106FPS/Hz
YOLOrs[26]58.9746.420.223.9
YOLOfusion[27]78.6027.312.518.2
SuperYOLO[16]79.494.816.612.7
MF-YOLO[17]76.62
ICAfusion[21]80.8058.2120.228.4
本研究算法82.8060.7139.330.2

新窗口打开| 下载CSV


表3所示为本研究算法在VEDAI数据集上与其他主流算法的目标检测精度对比. 可以看出,本研究算法对cars、pickup、camping、truck、tractor和其他交通工具类别的目标检测精度均高于其他方法,然而,对truck类别的目标检测精度略低于基线模型的,对boat和van类别的目标检测精度较差,只达到了59.43%和32.04%.

表 3   本研究算法在VEDAI数据集上与其他主流算法的目标检测精度对比

Tab.3  Comparison of object detection accuracy between proposed algorithm and state of arts on VEDAI dataset

类别AP50/%
carspickupcampingtrucktractorboatvan其他
YOLOrs[26]83.4876.9665.6953.5169.0722.2856.8843.88
YOLOfusion[27]91.7285.9178.9478.1571.9671.1475.2354.77
SuperYOLO[16]91.6186.8079.2589.3386.3954.2681.5168.79
MF-YOLO[17]92.0386.6178.1972.5882.8864.6478.6657.36
ICAfusion[21]97.0596.2189.6492.6694.5064.5328.3383.40
本研究算法97.3196.8293.2187.0398.1759.4332.0488.25

新窗口打开| 下载CSV


为了验证本研究算法的泛化性,采用FLIR和KAIST多源数据集进行训练和测试,并与同样采用该数据集的其他主流算法进行对比. FLIR数据集的实验结果如表4所示,对比算法包括MMTOD-UNIT[28]、CFR[29]、BU-LTT[30]、CFT[27]和本研究基线算法ICAfusion[21]. 可以看出,本研究算法的平均目标检测精度高于其他算法,但在浮点数、参数量、推理速度方面稍微落后于其他先进算法,这是由于本研究算法相较于其他先进算法计算复杂度有所提升. KAIST数据集的实验结果如表5所示,对比算法包括MBNet[31]、MLPD[32]、MSDS-RCNN[33]和本研究基线算法ICAfusion[21]. 可以看出,本研究算法的MR低于其他算法,而且在推理速度上只低于ICAfusion,高于其他先进算法,这是由于本研究算法在ICAfusion的基础上做了改进,增加了算力消耗. 综上实验结果,本研究算法在2个数据集上的目标检测结果良好,证明本研究方法具有较好的泛化性.

表 4   本研究算法在FLIR数据集上与其他主流算法的目标检测精度对比

Tab.4  Comparison of object detection accuracy between proposed algorithm and state of arts on FLIR dataset

类别mAP50/%GFLOPs/106Params/106FPS/Hz
MMTOD-UNIT[28]61.50
CFR[29]72.40
BU-LTT[30]73.2073.5149.328.0
CFT[27]78.30224.4206.032.3
ICAfusion[21]79.2058.2120.227.7
本研究算法80.1660.7139.327.9

新窗口打开| 下载CSV


表 5   本研究算法在KAIST数据集上与其他主流算法的目标检测精度对比

Tab.5  Comparison of object detection accuracy between proposed algorithm and state of arts on KAIST dataset

类别MR/%FPS/Hz
MBNet[31]8.4014.3
MLPD[32]7.58
MSDS-RCNN[33]8.234.6
ICAfusion[21]7.1738.9
本研究算法7.1434.3

新窗口打开| 下载CSV


2.4. 消融实验

2.4.1. DBSConv模块和GLAFF模块的影响

为了进一步验证本研究创新点是否对目标检测的精度产生了正面影响,在基线模型的基础上分别添加DBSConv模块和GLAFF模块在VEDAI数据集上进行实验,结果如表6所示.

表 6   VEDAI数据集上消融实验的目标检测精度对比

Tab.6  Comparison of object detection accuracy of ablation study on VEDAI dataset

模型mAP50/%mAP75/%mAP50:95/%
Baseline(模型1)80.8054.1348.33
Baseline+DBSConv(模型2)81.5354.1950.44
Baseline+GLAFF(模型3)81.0455.2849.14
Baseline+DBSConv+GLAFF
(本研究模型)
82.8063.4153.31

新窗口打开| 下载CSV


以mAP50作为标准,基线加DBSConv模块的实验结果比基线高0.73个百分点,基线加GLAFF模块的实验结果比基线高0.24个百分点,基线同时加DBSConv模块和GLAFF模块的实验结果比基线高2.00个百分点. 以mAP75作为标准,基线加DBSConv模块的实验结果比基线高0.06个百分点,基线加GLAFF模块的实验结果比基线高1.15个百分点,基线同时加DBSConv模块和GLAFF模块的实验结果比基线高9.28个百分点. 以mAP50:95作为标准,基线加DBSConv模块的实验结果比基线高2.11个百分点,基线加GLAFF模块的实验结果比基线高0.81个百分点,基线同时加DBSConv模块和GLAFF模块的实验结果比基线高4.98个百分点. 不同目标类别检测精度如表7所示,除boat类以外,基线加DBSConv模块或GLAFF模块的不同目标类别检测精度均高于基线. 综上所述,DBSConv模块和GLAFF模块均对模型产生了正面影响.

表 7   VEDAI数据集上消融实验的不同类别目标检测精度对比

Tab.7  Comparison of object detection accuracy for different objects of ablation study on VEDAI dataset

模块AP50/%mAP/%
carspickupcampingtrucktractorboatvan其他
Baseline(模型1)97.0596.2189.6492.6694.5064.5328.3383.4080.80
Baseline+DBSConv(模型2)96.0395.1792.3396.0494.0645.4140.3483.3381.53
Baseline+GLAFF(模型3)96.9195.9389.1396.6291.9753.0128.8988.2181.04
Baseline+DBSConv+GLAFF(本研究模型)97.3196.8293.2187.0398.1759.4332.0488.2582.80

新窗口打开| 下载CSV


2.4.2. 多源遥感数据的影响

为了验证多源遥感融合数据是否优于单源,将VEDAI数据集中的可见光影像和红外影像分别输入到网络中作比较,如表8所示. 以mAP50作为标准,多源影像的目标检测精度比可见光影像高3.11个百分点,比红外影像高5.68个百分点;以mAP75作为标准,多源影像的目标检测精度比可见光影像高5.19个百分点,比红外影像高7.57个百分点;以mAP50:95作为标准,多源影像的目标检测精度比可见光影像高3.80个百分点,比红外影像高4.41个百分点. 不同目标类别目标检测精度如表9所示,除了truck和van类外,多源影像的不同目标类别检测精度均高于单源影像. 综上所述,多源遥感数据的目标检测效果明显优于单源遥感数据.

表 8   本研究算法在VEDAI数据集上基于单源遥感数据的目标检测精度对比

Tab.8  Comparison of object detection accuracy based on single-source remote sensing data on VEDAI dataset

影像来源mAP50/%mAP75/%mAP50:95/%
Visible79.6958.2249.51
Infrared77.1255.8448.90
Visible+Vnfrared(本研究模型)82.8063.4153.31

新窗口打开| 下载CSV


表 9   VEDAI数据集上基于单源遥感数据的不同目标类别目标检测精度对比

Tab.9  Comparison of object detection accuracy for different objects based on single-source remote sensing data on VEDAI dataset

影像来源AP50/%mAP/%
carspickupcampingtrucktractorboatvan其他
Visible96.7394.7089.8386.5992.1848.0428.6977.4477.12
Infrared95.5494.3788.1290.2084.1342.7435.7277.2179.69
Visible+Infrared(本研究模型)97.3196.8293.2187.0398.1759.4332.0488.2582.80

新窗口打开| 下载CSV


3. 结 语

提出结合深度可分离卷积的多源遥感融合影像的目标检测网络,解决了遥感影像特征难以提取的问题,能够更好地针对多源遥感数据难以互补利用的特点. 该方法不需要大量人工设计的参数,在给定多源遥感影像及标签的条件下能够实现端到端的特征提取、融合与检测,具有良好的泛化性,能达到在多源遥感影像数据集上进行目标检测任务的目的. 实验结果表明,本研究提出的方法在VEDAI多源数据集上取得了显著的性能提升,平均检测精度(mAP50)达到82.80%. 与基准方法ICAfusion相比,本研究方法实现了2.00个百分点的性能提升. 同时,通过与当前主流算法(包括YOLOrs、YOLOfusion、SuperYOLO和MF-YOLO等)的对比实验,可以看出,本研究方法在检测精度方面展现出明显的优势. 然而,实验中发现,所提方法对数据集中某些类别的目标检测精度较低,针对此问题,未来将尝试修改模型参数、改善数据集标签、利用数据增强等方法,进一步探究特征提取和特征级融合模块的设计.

参考文献

SUN X, TIAN Y, LU W, et al

From single- to multi-modal remote sensing imagery interpretation: a survey and taxonomy

[J]. Science China Information Sciences, 2023, 66 (4): 140301

[本文引用: 1]

李树涛, 李聪妤, 康旭东

多源遥感图像融合发展现状与未来展望

[J]. 遥感学报, 2021, 25 (1): 148- 166

DOI:10.11834/jrs.20210259      [本文引用: 1]

LI Shutao, LI Congyu, KANG Xudong

Development status and future prospects of multi-source remote sensing image fusion

[J]. National Remote Sensing Bulletin, 2021, 25 (1): 148- 166

DOI:10.11834/jrs.20210259      [本文引用: 1]

WU Y, GUAN X, ZHAO B, et al

Vehicle detection based on adaptive multimodal feature fusion and cross-modal vehicle index using RGB-T images

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 8166- 8177

[本文引用: 1]

GÜNTHER A, NAJJAR H, DENGEL A

Explainable multimodal learning in remote sensing: challenges and future directions

[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 1- 5

ZANG Y, WANG S, GUAN H, et al

VAM-Net: vegetation-Attentive deep network for Multi-modal fusion of visible-light and vegetation-sensitive images

[J]. International Journal of Applied Earth Observation and Geoinformation, 2024, 127: 103642

JIANG C, REN H, YANG H, et al

M2FNet: multi-modal fusion network for object detection from visible and thermal infrared images

[J]. International Journal of Applied Earth Observation and Geoinformation, 2024, 130: 103918

[本文引用: 1]

KULKARNI S C, REGE P P

Pixel level fusion techniques for SAR and optical images: a review

[J]. Information Fusion, 2020, 59: 13- 29

[本文引用: 1]

WU J, HAO F, LIANG W, et al

Transformer fusion and pixel-level contrastive learning for RGB-D salient object detection

[J]. IEEE Transactions on Multimedia, 2023, 26: 1011- 1026

[本文引用: 1]

FENG P, LIN Y, GUAN J, et al. Embranchment cnn based local climate zone classification using sar and multispectral remote sensing data [C]// IEEE International Geoscience and Remote Sensing Symposium. Yokohama: IEEE, 2019: 6344–6347.

[本文引用: 1]

曹琼, 马爱龙, 钟燕飞, 等

高光谱-LiDAR多级融合城区地表覆盖分类

[J]. 遥感学报, 2019, 23 (5): 892- 903

[本文引用: 1]

CAO Qiong, MA Ailong, ZHONG Yanfei, et al

Urban classification by multi-feature fusion of hyperspectral image and LiDAR data

[J]. Journal of Remote Sensing, 2019, 23 (5): 892- 903

[本文引用: 1]

LI W, GAO Y, ZHANG M, et al

Asymmetric feature fusion network for hyperspectral and SAR image classification

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 34 (10): 8057- 8070

[本文引用: 1]

YE Y, ZHANG J, ZHOU L, et al

Optical and SAR image fusion based on complementary feature decomposition and visual saliency features

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 1- 15

[本文引用: 1]

LI L, HAN L, DING M, et al

Multimodal image fusion framework for end-to-end remote sensing image registration

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1- 14

[本文引用: 1]

董红召, 林少轩, 佘翊妮

交通目标YOLO检测技术的研究进展

[J]. 浙江大学学报: 工学版, 2025, 59 (2): 249- 260

[本文引用: 1]

DONG Hongzhao, LIN Shaoxuan, SHE Yini

Research progress of YOLO detection technology for traffic object

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (2): 249- 260

[本文引用: 1]

宋耀莲, 王粲, 李大焱, 等

基于改进YOLOv5s的无人机小目标检测算法

[J]. 浙江大学学报: 工学版, 2024, 58 (12): 2417- 2426

[本文引用: 2]

SONG Yaolian, WANG Can, LI Dayan, et al

UAV small target detection algorithm based on improved YOLOv5s

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (12): 2417- 2426

[本文引用: 2]

ZHANG J, LEI J, XIE W, et al

SuperYOLO: super resolution assisted object detection in multimodal remote sensing imagery

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1- 15

[本文引用: 4]

LI W, LI A, KONG X, et al. MF-YOLO: multimodal fusion for remote sensing object detection based on YOLOv5s [C]// 27th International Conference on Computer Supported Cooperative Work in Design. Tianjin: IEEE, 2024: 897–903.

[本文引用: 4]

ULTRALYTICS. YOLOv5 [EB/OL]. (2024−04−01) [2025−01−16]. https://github.com/ultralytics/yolov5.

[本文引用: 1]

MA X, DAI X, BAI Y, et al. Rewrite the Stars [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5694–5703.

[本文引用: 3]

ZHENG M, SUN L, DONG J, et al. SMFANet: a lightweight self-modulation feature aggregation network for efficient image super-resolution [C]// European Conference on Computer Vision. Cham: Springer, 2024: 359–375.

[本文引用: 2]

SHEN J, CHEN Y, LIU Y, et al

ICAFusion: iterative cross-attention guided feature fusion for multispectral object detection

[J]. Pattern Recognition, 2024, 145: 109913

[本文引用: 10]

BOCHKOVSKIY A, WANG C, LIAO H Y. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. (2020−04−23) [2024−12−11]. https://arxiv.org/ abs/2004.10934.

[本文引用: 2]

RAZAKARIVONY S, JURIE F

Vehicle detection in aerial imagery: a small target detection benchmark

[J]. Journal of Visual Communication and Image Representation, 2016, 34: 187- 203

[本文引用: 1]

FLIR ADA Team. FREE Teledyne FLIR Thermal Dataset for Algorithm Training [EB/OL]. (2024−05−01) [2025−01−21]. https://www.flir.com/oem/adas/adasdatasetform/.

[本文引用: 1]

HWANG S, PARK J, KIM N, et al. Multispectral pedestrian detection: benchmark dataset and baseline [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1037–1045.

[本文引用: 1]

SHARMA M, DHANARAJ M, KARNAM S, et al

YOLOrs: object detection in multimodal remote sensing imagery

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 1497- 1508

[本文引用: 3]

FANG Q, WANG Z

Cross-modality attentive feature fusion for object detection in multispectral remote sensing imagery

[J]. Pattern Recognition, 2022, 130: 108786

[本文引用: 5]

DEVAGUPTAPU C, AKOLEKAR N, SHARMA M M, et al. Borrow from anywhere: pseudo multi-modal object detection in thermal imagery [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019: 1029–1038.

[本文引用: 2]

ZHANG H, FROMONT E, LEFEVRE S, et al. Multispectral fusion for object detection with cyclic fuse-and-refine blocks [C]// IEEE International Conference on Image Processing. Abu Dhabi: IEEE, 2020: 276–280.

[本文引用: 2]

KIEU M, BAGDANOV A D, BERTINI M

Bottom-up and layerwise domain adaptation for pedestrian detection in thermal images

[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2021, 17 (1): 1- 19

[本文引用: 2]

ZHOU K, CHEN L, CAO X. Improving multispectral pedestrian detection by addressing modality imbalance problems [C]// Computer Vision–ECCV 2020: 16th European Conference. Cham: Springer, 2020: 787–803.

[本文引用: 2]

KIM J, KIM H, KIM T, et al

MLPD: multi-label pedestrian detector in multispectral domain

[J]. IEEE Robotics and Automation Letters, 2021, 6 (4): 7846- 7853

[本文引用: 2]

LI C, SONG D, TONG R, et al. Multispectral pedestrian detection via simultaneous detection and segmentation [EB/OL]. (2024−05−01) [2025−01−21]. https://arxiv.org/abs/1808.04818.

[本文引用: 2]

/