浙江大学学报(工学版), 2025, 59(4): 778-786 doi: 10.3785/j.issn.1008-973X.2025.04.013

计算机技术与控制工程

基于CNN和Efficient Transformer的多尺度遥感图像语义分割算法

张振利,, 胡新凯, 李凡, 冯志成, 陈智超

1. 江西理工大学 电气工程与自动化学院,江西 赣州 341000

2. 江西理工大学 磁浮轨道交通装备江西省重点实验室,江西 赣州 341000

Semantic segmentation algorithm for multiscale remote sensing images based on CNN and Efficient Transformer

ZHANG Zhenli,, HU Xinkai, LI Fan, FENG Zhicheng, CHEN Zhichao

1. School of Electrical Engineering and Automation, Jiangxi University of Science and Technology, Ganzhou 341000, China

2. Jiangxi Province Key Laboratory of Maglev Rail Transit Equipment, Jiangxi University of Science and Technology, Ganzhou 341000, China

收稿日期: 2024-03-27  

基金资助: 国家自然科学基金资助项目(62063009);国家重点研发计划项目(2023YFB4302100).

Received: 2024-03-27  

Fund supported: 国家自然科学基金资助项目(62063009);国家重点研发计划项目(2023YFB4302100).

作者简介 About authors

张振利(1976—),男,副教授,硕士,从事人工智能研究.orcid.org/0009-0004-7539-9260.E-mail:zhangzhenli@jxust.edu.cn , E-mail:zhangzhenli@jxust.edu.cn

摘要

针对现有方法存在遥感图像的多尺度地物特征提取困难和目标边缘分割不准确的问题,提出新的语义分割算法. 利用CNN和Efficient Transformer构建双编码器,解耦上下文信息和空间信息. 提出特征融合模块加强编码器间的信息交互,有效融合全局上下文信息和局部细节信息. 构建分层Transformer结构提取不同尺度的特征信息,使编码器有效专注不同尺度的物体. 提出边缘细化损失函数,缓解遥感图像目标边缘分割不准确的问题. 实验结果表明,在ISPRS Vaihingen和ISPRS Potsdam数据集上,所提算法的平均交并比(MIoU)分别为72.45%和82.29%. 在SAMRS数据集中的SOTA、SIOR和FAST子集上,所提算法的MIoU分别为88.81%、97.29%和86.65%,总体精度和平均交并比指标均优于对比模型. 所提算法在各类不同尺度的目标上有较好的分割性能.

关键词: 遥感图像 ; 语义分割 ; 双编码器结构 ; 特征融合 ; Efficient Transformer

Abstract

Aiming at the problems of the existing methods, such as the difficulty of multi-scale feature extraction and the inaccuracy of target edge segmentation in remote sensing images, a new semantic segmentation algorithm was proposed. CNN and Efficient Transformer were utilized to construct a dual encoder to decouple context and spatial information. A feature fusion module was proposed to enhance the information interaction between the encoders, effectively fusing the global context and local detail information. A hierarchical Transformer structure was constructed to extract feature information at different scales, allowing the encoder to focus effectively on objects at different scales. An edge thinning loss function was proposed to mitigate the problem of inaccurate target edge segmentation. Experimental results showed that mean intersection over union (MIoU) of 72.45% and 82.29% was achieved by the proposed algorithm on the ISPRS Vaihingen and ISPRS Potsdam datasets, respectively. On the SOTA, SIOR, and FAST subsets of the SAMRS dataset, the MIoU of the proposed algorithm was 88.81%, 97.29%, and 86.65%, respectively, overall accuracy and mean intersection over union metrics were better than those of the comparison models. The proposed algorithm has good segmentation performance on various types of targets with different scales.

Keywords: remote sensing image ; semantic segmentation ; dual encoder structure ; feature fusion ; Efficient Transformer

PDF (1345KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张振利, 胡新凯, 李凡, 冯志成, 陈智超. 基于CNN和Efficient Transformer的多尺度遥感图像语义分割算法. 浙江大学学报(工学版)[J], 2025, 59(4): 778-786 doi:10.3785/j.issn.1008-973X.2025.04.013

ZHANG Zhenli, HU Xinkai, LI Fan, FENG Zhicheng, CHEN Zhichao. Semantic segmentation algorithm for multiscale remote sensing images based on CNN and Efficient Transformer. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(4): 778-786 doi:10.3785/j.issn.1008-973X.2025.04.013

语义分割是遥感图像处理领域的关键技术[1-2],通过将图像像素分配给不同的语义类别,实现对地物目标的精细识别和区分,对于地质调查[3]、城市规划[4]和灾害检测[5]等应用具有重要意义.

根据不同的模型基本单元,主流的遥感图像分割方法有基于CNN的,也有基于Transformer的. 由于遥感图像中物体尺度小、辨识难度高,研究者通常会引入注意力机制或改进网络结构来增强CNN的特征提取能力. DANet[6]引入通道注意力机制和空间注意力机制来增强有用特征. Hu等[7]将全局孔状注意力机制和局部窗口自注意力机制进行融合,可以同时考虑全局语义特征和局部结构特征. Chen等[8]引入空间金字塔池化模块来捕获多尺度特征,并在解码器中加入残差模块来丰富低维边缘特征. 尽管基于CNN的分割方法效果不错,但CNN固有的局部空间提取能力无法有效捕获全局信息,且实际感受野远小于理论感受野. 随着深度学习的不断发展,基于Transformer的分割方法被逐渐应用于遥感图像分割任务中. 由于基于自注意力机制的Transformer结构在自然语言处理领域取得巨大成功,众多学者将它应用于计算机视觉领域. Dosovitskiy等[9]提出ViT(vision Transformer)结构,将Transformer应用于图像分类中,有效地捕获图像的全局信息. Zheng等[10]将Transformer用作编码器应用于语义分割任务,超越传统CNN架构的分割效果. Wang等[11]将具有多尺度特性的Swin-Transformer作为编码器,使分割效果显著提升. 基于Transformer的分割方法通过自注意力机制可以有效捕获全局信息,但计算复杂度高,在提取低维语义信息上存在限制.

CNN模型在特征提取前期采用小尺度卷积核,导致感受野不足,Transformer能够很好地补充全局上下文信息. 许多学者将CNN与Transformer结合应用于遥感图像分割领域. Gao等[12]混合CNN与Transformer作为编码器,使遥感图像的分割效果显著增强. 雷涛等[13]将动态可变形Transformer和CNN进行混合,有效提高了模型多尺度特征提取能力. 上述研究结合CNN和Transformer的优点,有效突破单一模型的限制,但存在以下问题:1)传统Transformer使用固定大小的绝对位置编码,无法充分表达遥感图像中复杂的空间结构关系. 2)简单直接的融合方法不能充分发挥两者的优势. 3)在分割相邻目标时,目标的边缘分割效果不佳. 本研究1)将Efficient Transformer[14]作为主编码器,将CNN作为辅助编码器,构建双编码结构. Efficient Transformer模块采用卷积式位置编码,动态解析遥感图像中的复杂空间结构关系;CNN模块使用残差网络,充分提取图像中的局部细节信息. 2)采用具有精细化融合策略的特征融合模块(feature fusion module,FFM)融合2个编码器的特征信息. 3)提出边缘细化损失函数(edge thinning loss,ETL),通过改善损失函数来缓解边缘分割不准确的问题.

1. 算法设计

1.1. 网络架构

针对遥感图像存在多尺度目标、相互遮挡和边界模糊等问题,本研究基于CNN和Efficient Transformer,提出遵循编码器-解码器架构的U型网络(CETUNet),总体结构如图1所示. 图中,HW分别为图片的高和宽. 编码阶段,利用CNN和Efficient Transformer构建分层双编码结构;通过特征融合模块有效融合双编码端的信息;解码阶段,利用跳跃连接实现编码器和解码器间的高效信息流通和特征传递;通过双线性插值进行上采样,获得最终的预测结果.

图 1

图 1   所提遥感图像语义分割算法的网络结构

Fig.1   Network structure of proposed semantic segmentation algorithm for remote sensing images


1.2. 分层双分支编码器

为了有效提取遥感图像中的上下文信息和局部信息,构建分层双分支编码结构,其中Efficient Transformer作为主编码器,CNN作为辅助编码器.

1.2.1. 主编码器

图2所示,主编码器部分由4个特征提取层组成,每个特征提取层由3个模块构成:图像块划分、位置编码和Transformer模块.

图 2

图 2   主编码器的结构

Fig.2   Structure of main encoder


传统的ViT将输入图像进行切分后再展平,得到切片序列. 这种简单的标记方法不具备提取多尺度特征信息的能力[15],本研究的图像块划分部分采用分层编码的方式来提取不同尺度的全局信息. 传统Transformer中的位置编码固定,当输入图像和位置编码大小不匹配时须通过插值操作来适应输入序列的长度,而插值操作易造成图像边缘模糊. 本研究利用结合逐像素注意力(pixel-wise attention,PA)的卷积式位置编码来缓解边缘模糊问题,其中深度卷积fDW为输入序列分配权重,再通过Sigmoid函数fs进行调整,计算式为

$ E_{{\mathrm{pos}}} = {\boldsymbol{X}} \cdot {f_{\text{s}}}({f_{{\text{DW}}}}({\boldsymbol{X}})) . $

式中:X为展平后的图像切片块. 位置编码模块由卷积组成,因此可将它嵌入划分后的图像块中,为图像块添加空间位置信息:

$ {z_{\text{o}}} = {\boldsymbol{X}} \cdot E+{E_{{\text{pos}}}} . $

式中:E为线性映射操作,Epos为位置编码操作,zo为图片序列化后的输出. 与传统的Transformer模块不同,本研究使用由高效多头自注意力(efficient multi-heads self-attention,EMSA)、多层感知机和层归一化组成的高效轻量的Efficient Transformer,计算式为

$ \begin{split} &{{z'}_{ l+1}} = {z_{\text{o}}}+{f_{{\text{EMSA}}}}({f_{{\text{LN}}}}(z{}_{\text{o}})), \\ &{z_{l+1}} = {{z'}_{ l+1}}+{f_{{\text{MLP}}}}({f_{{\text{LN}}}}({{z'}_{ l+1}})). \end{split} $

式中:$ l\in \{0,\cdot \cdot \cdot ,L-1\} $L为编码阶段的特征提取层数;fLN为层归一化;fMLP为多层感知器. 高效多头注意力模块fEMSA与上一层的输出残差连接得到${{z'}_{ l+1}} $.图3所示,EMSA模块由1×1卷积、深度卷积、层归一化、线性层、实例层归一化[16](instance normalization,IN)和Softmax激活函数组成. 与多头注意力类似,输入特征通过线性变换来获得查询矩阵Q;输入矩阵通过深度卷积将宽和高压缩s倍;经过层归一化调整得到键矩阵K和值矩阵V,其中s由EMSA中注意力头的数量k自适应得到,即s=k/8. 在注意力机制中,将QKT进行矩阵相乘,获得注意力矩阵并添加缩放因子(Scale)强化模型泛化性. 卷积Conv可以对各注意力头之间的交互进行建模,但会削弱注意力头的独立性和位置感知能力,为此引入实例层归一化来恢复和增强注意力头之间的多样性能力:

图 3

图 3   高效多头自注意力模块的结构

Fig.3   Structure of efficient multi-heads self-attention module


$ \begin{split} &{\boldsymbol{F}}_{{\text{att}}}^i = {f_{{\text{IN}}}}\left({f_{\text{S}}}\left({f_{\text{c}}}\left({{{{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{\text{T}}}}/{{\sqrt {{d_{{k}}}} }}\right)\right)\right){{\boldsymbol{V}}_i} , \\ &{{\boldsymbol{F}}_{{\text{out}}}} = {f_{{\text{cat}}}}({\boldsymbol{F}}_{{\text{att}}}^{\text{1}},{\boldsymbol{F}}_{{\text{att}}}^{\text{2}}, \cdots ,{\boldsymbol{F}}_{{\text{att}}}^{\text{h}}){{\boldsymbol{W}}_{\mathrm{o}}}. \end{split} $

式中:fIN为实例层归一化,fc为1×1卷积操作,fS为Softmax函数,$ \sqrt {{d_k}} $为比例因子. 拼接每个头的输出,再通过线性变换矩阵Wo生成最终的输出Fout.

1.2.2. 辅助编码器

辅助编码器同样由4个特征提取层(CNN模块)组成,

$ Y = {f_{{\text{ReLU}}}}\;({f_{\text{G}}}\;({f_{{\text{con}}}}\;(X))) . $

式中:XY为特征提取层的输入和输出,fReLU为ReLU激活函数,fG为组归一化,fcon为1×1卷积和3×3卷积的组合操作. 原始图像$ {\boldsymbol{x}} \in {{\bf{R}}^{h \times w \times 3}} $通过ResNet50进行通道维度的压缩得到初步的深度特征信息,再通过4个特征提取层进行特征提取. 特征提取层的具体结构如图4所示.

图 4

图 4   特征提取层的结构

Fig.4   Structure of feature extraction layer


1.3. 特征融合模块

在遥感图像分割任务中,结合局部细节信息和上下文信息至关重要. CNN在提取局部特征方面表现出色[17],Efficient Transformer在捕获长距离特征信息方面具有优势,本研究设计如图5所示的特征融合模块,充分发挥两者的优点. 图中,SnAn分别为第n层的主编码器和辅助编码器的输出. 为了提高辅助编码器的特征细化能力,将An通过深度可变形卷积来适应不同尺度的目标. 为了聚焦特征中的代表性通道[18],将Sn通过1×1卷积进行升维,接着利用平均池化和最大池化操作来计算其通道维度上的统计特征PAM. 使用该池化操作时容易丢失图像中的信息,为此同时使用具有指数加权累加特性软池化[19]操作来计算全局特征权重矩阵PS,尽可能减少池化操作过程中信息的丢失. 经池化处理后的全局特征P与通过可变形卷积操作得到的局部特征${\boldsymbol{A}}'_{n} $矩阵相乘进行特征细化,将细化后的局部特征与其他特征相加,得到输出Tn

图 5

图 5   特征融合模块的结构

Fig.5   Structure of feature fusion module


$ \begin{split} &{\boldsymbol{P}} = {f_{\text{s}}}\;({f_2}\;({{\boldsymbol{P}}_{{\text{AM}}}} \odot {{\boldsymbol{P}}_{\text{S}}}), \\ &{{\boldsymbol{T}}_n} = {{\boldsymbol{A}}'_{n}} \oplus {{{\boldsymbol{S}}'}_{ n}} \oplus ({\boldsymbol{P}} \odot {{\boldsymbol{A}}'_{n}}) . \end{split} $

式中:f2为大小扩张1倍的全连接层,$ \odot $为矩阵点乘,$ \oplus $为矩阵相加.

1.4. 边缘细化损失函数

由于遥感图像的复杂背景和地面物体的高相似性,在分割物体边缘像素时容易误判,导致图像边缘模糊. 如图6所示,本研究设计的边缘细化损失函数由分割预测分支和边缘提取分支组成. 分割预测分支通过像素预测损失计算模型预测后的结果图和真实标签图之间像素点的差异,得到损失值LCE. 像素预测损失通常利用多分类交叉熵损失衡量. 边缘提取分支先利用Canny算子和二值化操作从真实标签中提取物体的几何边缘. 将模型提取的边缘与真实边缘进行边缘提取损失计算fcro,得到

图 6

图 6   边缘细化损失函数

Fig.6   Edge thinning loss function


$ {L_{{\text{EE}}}} = {f_N}\sum\limits_{i = 1}^P {{f_{{\text{cro}}}}({i})} +{f_P}\sum\limits_{j = 1}^N {{f_{{\text{cro}}}}({j})} . $

式中:PN分别为边缘像素点的数量和非边缘像素点的数量,N远大于PfPfN分别为边缘像素点的数量和非边缘像素点的占比. 边缘部分可以得到更大的损失权重系数fN,模型将更加关注边缘部分. 边缘提取损失和像素预测损失相加得到边缘细化损失函数总损失,计算式为

$ {L_{{\text{all}}}} = {\lambda _1}{L_{{\text{CE}}}}+{\lambda _2}{L_{{\text{EE}}}} . $

式中:λ1λ2为像素预测损失权重和边缘提取损失权重,本研究设置λ1λ2=1.

2. 数据准备和网络训练

ISPRS Vaihingen数据集[20]包含有33张航拍影像,空间分辨率约为9 cm,图片大小范围:1 900×1 900至3 000×3 000. 数据集中16张图片用于模型训练,其余17张用于测试.

ISPRS Potsdam数据集[21]包含38张6 000×6 000像素的航拍影像,空间分辨率为5 cm. 标签类别与ISPRS Vaihingen数据集一致,其中24张图片用于模型训练,其余14张用于测试.

SAMRS数据集[22]包含3个不同分辨率的遥感图像分割数据子集:SOTA、SIOR和FAST. SAMRS SOTA数据集包含18个类别共17 480张大小为1 024×1 024像素的遥感图像和标签,其中16 678张用于模型训练,802张用于测试. SAMRS SIOR数据集包含20个类别共23 461张大小为800×800像素的遥感图像和标签,其中20 111张图片用于模型训练,3 350张用于测试. SAMRS FAST包含37个类别共64 147张大小为600×600像素的遥感图像和标签,其中57 747张用于模型训练,6 400张用于测试.

本研究所有网络基于Pytorch1.10框架构建,采用24 GB的Nvidia TITAN RTX GPU训练. 模型优化器选择SGD,初始学习率为0.01,采用Poly衰减策略,动量系数和权重衰减分别设置为0.9和0.000 1. 对于ISPRS Vaihingen、ISPRS Potsdam和SAMRS数据集,图片裁剪为256×256大小. 每批次训练8张图片,训练周期为100轮. 为了评估模型性能,利用评价指标:总体准确率OA和平均交并比MIoU进行网络评估. OA表示预测正确像素占总像素的比例,MIoU表示所有类别交并比(IoU)的平均值,计算式分别为

$ \begin{split} {\text{MIoU}} = \frac{1}{C}\sum\limits_{i = 1}^C {\frac{{{T^i_{\text{P}}}}}{{{T^i_{\text{P}}}+{F^i_{\text{P}}}+F^i_{\text{N}}}}}, \\ {\text{OA}} = \frac{\displaystyle\sum\limits_{i=1}^{C}{T_{{\mathrm{P}}}^{i}}}{\displaystyle\sum\limits_{i=1}^{C}{(T_{{\mathrm{P}}}^{i}+F_{{\mathrm{P}}}^{i}+F_{{\mathrm{N}}}^{i})}}.\end{split} $

式中:TP为真正例,FN为假反例,FP为假正例,C为分割的类别总数.

3. 实验结果与分析

3.1. 主流模型的性能对比

将CETUNet与主流经典模型:FCN[23]、DANet[6]、HRNet[24]、DeepLabV3[25]、UNet[26]、Segformer[27]、TransUNet[28]和SwinUNet[29]进行对比. 在对比模型中,前5种基于CNN架构,后3种基于Transformer架构.

3.1.1. ISPRS Vaihingen数据集

表1所示为在该数据集上不同模型的对比结果. 由表可知,CETUNet的MIoU=72.45%,OA=86.51%,优于其他模型,表明所提模型具有较好的分割能力. 在大尺度目标(不透明表面)和小尺度目标(汽车)类别,CETUNet的分割精度IoU=79.98%和57.69%,表明所提模型具有较强的多尺度特征提取能力. 相比纯CNN架构和纯Transformer架构的模型,CETUNet的表现更出色,表明结合CNN和Transformer架构能够有效整合不同层次的特征信息. 相比结合CNN和Transformer架构的模型TransUNet和SwinUNet,CETUNet的MIoU分别提高了4.09个百分点和7.83个百分点,OA提高了1.71个百分点和3.01个百分点,表明采用的CNN与Transformer并行分层结构较串行结构可以提取更多的有效信息. 该数据集上的可视化结果如图7所示. 分析可知,CETUNet对各种尺度的目标都有不错的提取效果,不仅误检漏检的情况降低,而且边缘分割效果较为平滑.

表 1   不同模型在ISPRS Vaihingen数据集上的分割结果对比

Tab.1  Comparison of segmentation results of different models in ISPRS Vaihingen dataset

模型IoU/%OA/%MIoU/%
不透明表面建筑物低矮植被树木汽车
FCN[23]78.8185.4565.5674.7624.2586.4965.56
DANet[6]77.8084.8163.5568.3336.0584.9966.11
HRNet[24]78.3582.7263.2175.9438.4986.1767.74
DeepLabV3[25]79.2886.3466.0577.2230.4986.3467.88
Segformer[27]78.8883.1861.0475.3945.2285.9468.74
UNet[26]77.3883.8561.0475.0534.0384.4366.27
TransUNet[28]76.6881.0563.4674.0846.5384.8068.36
SwinUNet[29]74.1677.8562.0173.4635.6283.5064.62
本研究79.9884.8865.2774.4457.6986.5172.45

新窗口打开| 下载CSV


图 7

图 7   不同模型在ISPRS Vaihingen数据集上的可视化分割结果

Fig.7   Visualization of segmentation results of different models in ISPRS Vaihingen dataset


3.1.2. ISPRS Potsdam 数据集

表2所示为在该数据集上不同模型的对比结果. 由表可知,CETUNet的OA=90.50%,MIoU=82.29%,分割效果优异. 相比基于CNN架构的模型中最佳分割效果的DeepLabV3,具有多尺度融合能力与注意力机制的CETUNet的MIoU提高了4.91个百分点,OA提高了2.77个百分点. 对比基于Transformer架构的Segformer模型,MIoU提高了6.44个百分点,OA提高了3.41百分点,进一步表明结合CNN与Transformer结构的有效性. 对比于TransUNet和SwinUNet模型,CETUNet的MIoU分别提高了6.33百分点和15.46百分点,表明CETUNet可以高效地利用CNN与Transformer架构的优势,使模型具有更好的信息表达能力.

表 2   不同模型在ISPRS Postdam数据集上的分割结果对比

Tab.2  Comparison of segmentation results of different models in ISPRS Postdam dataset

模型IoU/%OA/%MIoU/%
不透明表面建筑物低矮植被树木汽车
FCN[23]76.3183.2364.6566.0368.7886.0471.80
DANet[6]77.3482.5264.7370.7879.8786.9475.05
HRNet[24]79.1184.9767.9570.5381.6587.7876.84
DeepLabV3[25]78.9085.2368.6870.9183.1787.7377.38
Segformer[27]79.9686.7069.7265.2177.6487.0975.85
UNet[26]76.8683.7465.9063.6979.1386.0173.86
TransUNet[28]79.7986.1368.9466.3078.6386.4175.96
SwinUNet[29]73.0176.2961.7454.2768.8880.4966.83
本研究86.0592.6074.9373.6884.1790.5082.29

新窗口打开| 下载CSV


3.1.3. SAMRS 数据集

SAMRS的3个子数据集中部分类别的样本数量有限,为此分别从子数据集中筛选4类特征明显、样本数量较多且具有代表性的类别用于实验. 如表3所示为在SAMRS SOTA数据集上不同模型的对比结果. 由表可知,CETUNet在参与对比的模型中表现最佳,MIoU=88.81%,OA=94.98%,各类别的分割效果良好;在大尺度目标大车和小尺度目标小车上,CETUNet都有较好的分割精度,表明所提模型可以较好分割不同尺度的地表物体. 相比与其他对比模型,CETUNet的MIoU至少提高了2.72个百分点,OA至少提高了1.61个百分点. 如表4所示为在SAMRS SIOR数据集上不同模型的对比结果. 由表可知,CETUNet的性能表现最佳,MIoU=97.29%,OA=98.93%;在大尺度目标(棒球场)和小尺度目标(飞机)类别上,IoU=98.65%和94.38%,进一步表明所提模型具有较好的多尺度特征提取能力. 如表5所示为在SAMRS FAST数据集上不同模型的对比结果. 由表可知,CETUNet的MIoU=86.65%,OA=93.45%,在汽车类别上获得最佳的IoU,为63.93%,在其他类别分割结果中也都表现良好. 相比与其他对比模型,CETUNet的MIoU至少提高了1.33个百分点,OA至少提高了0.56个百分点. CETUNet在SAMRS的3个不同空间分辨率遥感图像数据集上均具有不错的性能表现,验证了所提模型的有效性.

表 3   不同模型在SAMRS SOTA数据集上的分割结果对比

Tab.3  Comparison of segmentation results of different models in SAMRS SOTA dataset

模型IoU/%OA/%MIoU/%
大车游泳池飞机小车
FCN[23]72.2868.5780.5380.3184.8575.42
DANet[6]70.5477.6572.1471.2482.1472.89
HRNet[24]77.6179.7883.2883.1285.4575.16
DeepLabV3[25]83.2082.6991.1287.3793.3786.09
Segformer[27]73.4985.7974.8176.2487.2677.58
UNet[26]75.6174.3480.3783.0887.7578.35
TransUNet[28]79.2481.0791.3883.9891.5983.91
SwinUNet[29]64.9277.9264.4266.9078.7768.54
本研究87.0584.4292.9890.7894.9888.81

新窗口打开| 下载CSV


表 4   不同模型在SAMRS SIOR数据集上的分割结果对比

Tab.4  Comparison of segmentation results of different models in SAMRS SIOR dataset

模型IoU/%OA/%MIoU/%
飞机棒球场轮船网球场
FCN[23]82.2995.6195.4195.5996.9792.22
DANet[6]78.3296.1196.0396.3694.5991.71
HRNet[24]83.0193.6294.7495.6796.4791.76
DeepLabV3[25]90.3496.1097.6995.3497.8394.87
Segformer[27]73.6594.1095.1991.4392.6588.59
UNet[26]77.3892.0392.3496.6293.4789.59
TransUNet[28]92.7696.4597.1897.4897.8895.97
SwinUNet[29]80.8895.4392.6593.8594.4990.70
本研究94.3898.6597.7798.3898.9397.29

新窗口打开| 下载CSV


表 5   不同模型在SAMRS FAST数据集上的分割结果比较

Tab.5  Comparison of segmentation results of different models in SAMRS FAST dataset

模型IoU/%OA/%MIoU/%
棒球场桥梁足球场汽车
FCN[23]80.2194.1790.2663.7690.6382.10
DANet[6]84.9787.2991.6655.0187.8880.23
HRNet[24]92.3284.8391.8351.5188.6480.12
DeepLabV3[25]93.5795.7596.9854.9792.8985.32
Segformer[27]87.9593.8794.4842.7186.7779.75
UNet[26]84.3092.7893.5359.7090.2182.58
TransUNet[28]94.4685.8495.6660.3391.8384.07
SwinUNet[29]87.8390.0595.2943.7287.4979.22
本研究93.7992.9195.9863.9393.4586.65

新窗口打开| 下载CSV


3.2. 消融实验

为了验证所提网络的结构和2个重要模块的有效性,在ISPRS Vaihingen数据集上进行消融实验.

3.2.1. 双编码器结构

图8所示为添加不同形式双编码结构的消融实验结果. 模型A将辅助编码器的特征和主编码器的特征仅在最后阶段进行融合,模型B将主编码器和辅助编码器的特征逐层融合. 由图可知,与基线UNet模型相比,模型A和模型B的MIoU分别为84.48%、84.71%,OA分别为67.86%和68.44%,表明双编码结构可以聚合更多上下文信息,更有利于分割性能提升.

图 8

图 8   双编码器结构的消融实验

Fig.8   Ablation results of dual encoder structure


3.2.2. 特征融合模块和边缘细化损失函数

为了验证FFM和ETL的有效性,设计消融实验,结果如表6所示. 由表可知,添加FFM后,模型B的MIoU和OA分别提高了0.89个百分点和0.31个百分点,表明模型通过嵌入FFM可以获取到更多的上下文信息. 添加ETL后,模型B的MIoU和OA分别提高了0.15个百分点和0.7个百分点,表明ETL可以增强模型分割目标边缘信息的能力. 当2个模块同时添加时,模型B的MIoU和OA分别提高了4.01个百分点和1.81个百分点,表明耦合FFM和ETL可以强化模型的分割性能. 实验结果表明,本研究所提特征融合模块和边缘细化损失函数有助于提高模型在遥感图像语义分割任务中的性能.

表 6   在ISPRS Vaihingen数据集上的模块消融实验结果

Tab.6  Results of module ablation experiment in ISPRS Vaihingen dataset

模型IoU/%OA/%MIoU/%
不透明表面建筑物低矮植被树木汽车
B76.8781.5762.4573.0648.2784.7068.44
B+FFM77.2982.0662.5173.7451.0585.0169.33
B+ETL77.5683.0463.4974.2944.5885.4068.59
B+ETL+FFM79.9884.8865.2774.4457.6986.5172.45

新窗口打开| 下载CSV


3.2.3. 高效多头自注意力

为了验证EMSA中1×1卷积和IN的有效性,设计消融实验,结果如图9所示. 图中,无IN表示模型B不使用IN操作,无IN和Conv表示模型B不使用卷积和IN操作. 由图可知,在不使用IN操作时,模型B的OA和MIoU分别为84.66%和67.53%,表明注意力头之间的多样性对分割精度有一定影响. 在不使用IN和卷积操作时,模型B的MIoU和OA分别为84.45%和66.49%,表明输入序列的多样性对注意力机制十分重要.

图 9

图 9   高效多头自注意力的消融实验

Fig.9   Ablation experiments of efficient multi-heads self-attention


4. 结 语

本研究提出结合CNN和Efficient Transformer的U型网络CETUNet. 针对CNN和Transformer提取特征信息时的差异性,采取分阶段融合策略,以充分利用不同尺度的特征信息. 提出特征融合模块,加强编码器间的信息交互,缓解了下采样过程中的特征信息丢失的问题. 针对相邻目标边缘像素分割不准确的问题,设计边缘细化损失函数,提高了模型对边缘信息的分割能力. 尽管CETUNet在遥感图像分割任务中表现优异,但模型的复杂度较高. 未来的研究将着重于轻量化设计,以提升模型性能并推动模型落地实际应用场景.

参考文献

XIAO D, KANG Z, FU Y, et al

Csswin-UNet: a Swin-UNet network for semantic segmentation of remote sensing images by aggregating contextual information and extracting spatial information

[J]. International Journal of Remote Sensing, 2023, 44 (23): 7598- 7625

DOI:10.1080/01431161.2023.2285738      [本文引用: 1]

冯志成, 杨杰, 陈智超

基于轻量级Transformer的城市路网提取方法

[J]. 浙江大学学报: 工学版, 2024, 58 (1): 40- 49

[本文引用: 1]

FENG Zhicheng, YANG Jie, CHEN Zhichao

Urban road network extraction method based on lightweight Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (1): 40- 49

[本文引用: 1]

PAN T, ZUO R, WANG Z

Geological mapping via convolutional neural network based on remote sensing and geochemical survey data in vegetation coverage areas

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 3485- 3494

DOI:10.1109/JSTARS.2023.3260584      [本文引用: 1]

JIA P, CHEN C, ZHANG D, et al

Semantic segmentation of deep learning remote sensing images based on band combination principle: application in urban planning and land use

[J]. Computer Communications, 2024, 217: 97- 106

DOI:10.1016/j.comcom.2024.01.032      [本文引用: 1]

ZHENG Z, ZHONG Y, WANG J, et al

Building damage assessment for rapid disaster response with a deep object-based semantic change detection framework: from natural disasters to man-made disasters

[J]. Remote Sensing of Environment, 2021, 265: 112636

DOI:10.1016/j.rse.2021.112636      [本文引用: 1]

FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 3141–3149.

[本文引用: 7]

HU X, ZHANG P, ZHANG Q, et al

GLSANet: global-local self-attention network for remote sensing image semantic segmentation

[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 6000105

[本文引用: 1]

CHEN H, QIN Y, LIU X, et al

An improved DeepLabv3+ lightweight network for remote-sensing image semantic segmentation

[J]. Complex and Intelligent Systems, 2024, 10 (2): 2839- 2849

DOI:10.1007/s40747-023-01304-z      [本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2021−06−03)[2024−05−20]. https://arxiv.org/pdf/2010.11929.

[本文引用: 1]

ZHENG S, LU J, ZHAO H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with Transformers [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 6877–6886.

[本文引用: 1]

WANG L, LI R, DUAN C, et al

A novel Transformer based semantic segmentation scheme for fine-resolution remote sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 6506105

[本文引用: 1]

GAO L, LIU H, YANG M, et al

STransFuse: fusing swin Transformer and convolutional neural network for remote sensing image semantic segmentation

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 10990- 11003

DOI:10.1109/JSTARS.2021.3119654      [本文引用: 1]

雷涛, 翟钰杰, 许叶彤, 等

基于边缘引导和动态可变形Transformer的遥感图像变化检测

[J]. 电子学报, 2024, 52 (1): 107- 117

DOI:10.12263/DZXB.20230583      [本文引用: 1]

LEI Tao, ZHAI Yujie, XU Yetong, et al

Edge guided and dynamically deformable Transformer network for remote sensing images change detection

[J]. Acta Electronica Sinica, 2024, 52 (1): 107- 117

DOI:10.12263/DZXB.20230583      [本文引用: 1]

ZHANG Q, YANG Y B

ResT: an efficient Transformer for visual recognition

[J]. Advances in Neural Information Processing Systems, 2021, 34: 15475- 15485

[本文引用: 1]

YUAN L, CHEN Y, WANG T, et al. Tokens-to-token ViT: training vision Transformers from scratch on ImageNet [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 538–547.

[本文引用: 1]

ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: the missing ingredient for fast stylization [EB/OL]. (2017−11−06) [2024−05−20]. https://arxiv.org/pdf/1607.08022.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

HE X, ZHOU Y, ZHAO J, et al

Swin Transformer embedding UNet for remote sensing image semantic segmentation

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 4408715

[本文引用: 1]

STERGIOU A, POPPE R, KALLIATAKIS G. Refining activation downsampling with SoftPool [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 10337–10346.

[本文引用: 1]

何小英, 徐伟铭, 潘凯祥, 等

基于Swin Transformer与卷积神经网络的高分遥感影像分类

[J]. 激光与光电子学进展, 2024, 61 (14): 1428002

DOI:10.3788/LOP232003      [本文引用: 1]

HE Xiaoying, XU Weiming, PAN Kaixiang, et al

Classification of high-resolution remote sensing images based on Swin Transformer and convolutional neural network

[J]. Laser and Optoelectronics Progress, 2024, 61 (14): 1428002

DOI:10.3788/LOP232003      [本文引用: 1]

XU Z, ZHANG W, ZHANG T, et al

Efficient Transformer for remote sensing image segmentation

[J]. Remote Sensing, 2021, 13 (18): 3585

DOI:10.3390/rs13183585      [本文引用: 1]

WANG D, ZHANG J, DU B, et al. SAMRS: scaling-up remote sensing segmentation dataset with segment anything model [EB/OL]. (2023−10−13)[2024−05−20]. https://arxiv.org/pdf/2305.02034.

[本文引用: 1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3431–3440.

[本文引用: 6]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5693–5703.

[本文引用: 6]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017−12−05) [2024−05−20]. https://arxiv.org/pdf/1706.05587.

[本文引用: 6]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention . [S.l.]: Springer, 2015: 234–241.

[本文引用: 6]

XIE E, WANG W, YU Z, et al. SegFormer: simple and efficient design for semantic segmentation with Transformers [EB/OL]. (2021−10−28)[2024−05−20]. https://arxiv.org/pdf/2105.15203.

[本文引用: 6]

CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. (2021−02−08)[2024−05−20]. https://arxiv.org/pdf/2102.04306.

[本文引用: 6]

CAO H, WANG Y, CHEN J, et al. Swin-UNet: UNet-like pure Transformer for medical image segmentation [C]// Computer Vision – ECCV 2022 Workshops . [S.l.]: Springer, 2023: 205–218.

[本文引用: 6]

/