全局信息提取与重建的遥感图像语义分割网络

doi:10.3785/j.issn.1008-973X.2024.11.008

全局信息提取与重建的遥感图像语义分割网络

梁龙学^,, 贺成龙, 吴小所^,, 闫浩文

1. 兰州交通大学电子与信息工程学院，甘肃兰州 730070

2. 兰州交通大学测绘与地理信息学院，甘肃兰州 730070

Remote sensing image semantic segmentation network based on global information extraction and reconstruction

LIANG Longxue^,, HE Chenglong, WU Xiaosuo^,, YAN Haowen

1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

2. School of Surveying and Mapping and Geographic Information, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 吴小所，男，教授. orcid.org/0000-0003-4683-5786. E-mail: wuxs_laser@lzjtu.edu.cn

收稿日期: 2023-08-29

基金资助:

国家重点研发计划资助项目（2022YFB3903604）；甘肃省自然科学基金资助项目（21JR7RA310）；兰州交通大学青年科学基金资助项目（2021029）.

Received: 2023-08-29

Fund supported:

国家重点研发计划资助项目（2022YFB3903604）；甘肃省自然科学基金资助项目（21JR7RA310）；兰州交通大学青年科学基金资助项目（2021029）.

作者简介 About authors

梁龙学（1965—），男，副教授，从事电子器件及遥感图像处理的研究.https://orcid.org/0000-0002-3938-7359.E-mail：1367194087@qq.com , E-mail：1367194087@qq.com

摘要

为了将遥感场景图像更好地进行分割，供给下游任务使用，提出多尺度注意力提取与全局信息重建网络. 编码器引入多尺度卷积注意力骨干到遥感深度学习语义分割模型中. 多尺度卷积注意力能够捕获多尺度信息，给解码器提供更丰富的全局深浅层信息. 在解码器，设计了全局多分支局部Transformer块. 多尺度逐通道条带卷积重建多尺度空间上下文信息，弥补全局分支存在的空间信息割裂，与全局语义上下文信息共同重建全局信息分割图. 解码器末端设计极化特征精炼头. 通道上利用softmax和sigmoid组合，构建概率分布函数，拟合更好的输出分布，修复浅层中潜在的高分辨率信息损失，指导和融合深层信息，获得精细的空间纹理. 实验结果表明，网络实现了很高的精确度，在ISPRS Vaihingen数据集上达到82.9%的平均交并比，在ISPRS Potsdam数据集上达到87.1%的平均交并比.

关键词： 语义分割 ; Transformer ; 多尺度卷积注意力 ; 全局多分支局部注意力 ; 全局信息重建

Abstract

A network for multi-scale attention extraction and global information reconstruction was proposed in order to enhance the segmentation of remote sensing scene images for downstream tasks. A multi-scale convolutional attention backbone was introduced into the remote sensing deep learning semantic segmentation model in the encoder. Multi-scale convolutional attention can capture multi-scale information and provide richer global deep and shallow information to the decoder. A global multi-branch local Transformer block was designed in the decoder. Multi-scale channel-wise striped convolution reconstructed multi-scale spatial context information, compensating for the spatial information fragmentation in the global branch. The global information segmentation map was reconstructed together with global semantic context information. A polarized feature refinement head was designed at the end of the decoder. A combination of softmax and sigmoid was used to construct a probability distribution function on the channel, which fitted a better output distribution, repaired potential high-resolution information loss in shallow layers, guided and integrated deep information. Then fine spatial texture was obtained. The experimental results showed that high accuracy was achieved by the network, with a mean intersection over union (MIoU) of 82.9% on the ISPRS Vaihingen dataset and 87.1% on the ISPRS Potsdam dataset.

Keywords： semantic segmentation ; Transformer ; multi-scale convolutional attention ; global multi-branch local attention ; global information reconstruction

PDF (2507KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

梁龙学, 贺成龙, 吴小所, 闫浩文. 全局信息提取与重建的遥感图像语义分割网络. 浙江大学学报(工学版)[J], 2024, 58(11): 2270-2279 doi:10.3785/j.issn.1008-973X.2024.11.008

LIANG Longxue, HE Chenglong, WU Xiaosuo, YAN Haowen. Remote sensing image semantic segmentation network based on global information extraction and reconstruction. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(11): 2270-2279 doi:10.3785/j.issn.1008-973X.2024.11.008

随着卫星遥感和航空遥感技术的快速发展，大量高分辨率遥感图像广泛应用于自动驾驶、城市道路规划和土地资源利用等领域. 随着深度学习模型的飞速发展，卷积神经网络（convolutional neural network, CNN）被广泛应用于语义分割任务. FCNs^[1]网络在语义分割任务中获得成功后，大量延伸模型被提出，例如有U-Net^[2]、deeplavbv2^[3]、deeplavb3+^[4]. U-Net模型拥有类U设计，较好地融合了深层语义信息和浅层空间信息.

Transformer^[5]核心在自注意力机制，有效捕捉序列信息中的长距离依赖关系，自此席卷自然语言. Vision Transformer^[6]在视觉领域设计了自注意力机制，流行于视觉领域. DCswin^[7]引入视觉Transformer到高精度遥感语义分割，同时提出密连接特征聚合模块恢复产生分割图，此时，Transformer流行于遥感语义分割.

经典的CNN感受野较小，缺乏对全局上下文信息或长距离依赖关系的恢复建模能力. 新的卷积神经网络Segnext采用CNN融合Transformer的前馈网络结构优点，同时利用多尺度卷积捕获多尺度信息，获得长范围提取特征能力，克服传统CNN网络仅能提取局部特征的缺点^[8].

在语义分割任务中，采用局部信息恢复重建的分割图会出现像素类别分类不精确的问题. 在全局信息的指导下，像素的语义分类更加精确. UnetFormer^[9]网络中全局局部注意力的全局分支存在窗口机制，割裂了空间信息. 借助多尺度卷积注意力机制，解决全局分支中存在割裂的全局空间信息的问题.

融合浅层和深层的上下文信息，能够更好地恢复重建分割图. 在末端分割中，浅层信息因编码器连续下采样而损失高分辨率信息，这些信息与深层语义权重相加，会导致较低的分割精度. 本文的主要贡献如下.

(1) 本文引入多尺度卷积注意力（multi-scale convolutional attention，MSCA）和前馈网络结构的多尺度卷积注意力骨干网络（multi scale convolutional attention backbone network, MSCAN）到遥感语义分割领域. MSCAN提取多层级多尺度的高分辨率遥感图像的全局信息.

(2)设计全局多分支局部Transformer模块（global multi-branch local transformer block，GMBLTB）. 多尺度逐通道条带状卷积（depth-wisestrip convolution, DWS）恢复重建多尺度空间的上下文信息，GMBLTB重建全局上下文信息.

(3)网络末端输出区域设计极化特征精炼头（polarization feature refining head, PFRH）. PFRH能够融合浅层修复后的高分辨率信息和深层全局上下文信息，高质量实现逐像素分类. 源代码地址为https://github.com/OSkySeaDragons/MAGIFormer.

1. 相关研究工作

当前众多的深度学习语义分割网络被大量应用于遥感领域，例如ResUnet ^[10]. Sun等^[11]引入编解码结构，被广泛应用于遥感语义分割的网络结构. NC-Net^[12]网络采用再编码和输出多尺度特征增强空间全局上下文信息. Transformer在自然语言领域中的各类任务有着优越的表现，目前swin-Transformer^[13]在视觉领域占据主导地位. 鉴于传统CNN骨干网络不具有Transformer全局信息提取的优势，在高精度遥感语义分割任务中，需要编码器捕获图像的全局信息，利于解码器重建分割图.

传统的卷积网络编码器仅能捕获局部信息，通常需要设计额外的模块来恢复全局上下文信息. DANet^[14]采用位置注意力捕获特征图中任意2个位置的空间依赖与通道注意力捕获任意2个通道图的通道依赖. CCNet^[15]网络提出十字交叉注意力来融合十字交叉路径的上下文信息，减少注意力的计算量. ABCNet^[16]提出空间分支和语义分支，融合长范围和局部上下文信息.

本文设计的GMBLTB模块，通过重建不同尺度的空间信息，修复窗口机制存在的空间信息割裂.

空间注意力ST^[17]增强空间细节和语义信息. 通道注意力SE^[18]聚焦重要的通道. CBAM ^[19]将空间和通道结合精炼特征图. 坐标注意力^[20]将空间位置信息融合到通道注意力图中，生成带有空间坐标信息的注意力图. 极化自注意力^[21]将多次下采样或池化损失的潜在高分辨率信息恢复出来. 本文设计PFRH，将深层语义信息和浅层空间信息在网络末端进行融合和重建分割图.

2. 方法简介

提出多尺度注意力提取与全局信息重建Transformer网络（multi-scale attention extraction and global information reconstruction transformer, MAGIFormer），结构如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 多尺度注意力提取与全局信息重建Transformer的整体网络架构图

Fig.1 Overall network architecture diagram of Transformer for multi-scale attention extraction and global information reconstruction

编码结构引入MSCAN小型结构. 它由卷积下采样层、层归一化（layer norm, LN）和多尺度卷积注意力模块（multi-scale convolutional attention module,MSCAB）构成. 其中卷积下采样层包含核大小为3×3、步长为2的卷积和批量规范化（batch normalization, BN）. MSCAN小型结构包含4个阶段：第1、2和4阶段采用2个MSCAB，第3阶段采用4个MSCAB. 第1阶段进行4倍下采样和输出64通道特征图，图像经过卷积下采样层，获得的特征图经过高斯误差线性单元激活函数（Gaussian error linear unit, Gelu）得到激活图. 激活图再经过卷积下采样层，输入到2个MSCAB. 第2、3阶段都进行2倍下采样，分别获得128通道特征图和320通道特征图，都经过层批量化和卷积下采样层，其中第2阶段经过2个MSCAB,第3阶段经过4个MSCAB. 第4阶段进行2倍下采样，获得512通道特征图. 将第4阶段的特征图经过层批量化和卷积下采样层，再送入2个MSCAB和1个层批量化，获得特征图.

解码结构包含3个权重相加块（weight addition, WS）、3个GMBLTB和1个PFRH.

2.1. 多尺度卷积注意力模块

传统CNN骨干网络仅能提取局部特征，本文引入多尺度卷积注意力骨干到深度学习遥感语义分割，编码器提取的全局信息有利于解码器恢复重建分割图. 如图2所示，MSCAB是由多尺度注意力块和前馈网络构成，每个多尺度注意力块是由1个MSCA、2个卷积和1个Gelu组成. 图中，K为卷积核大小.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 多尺度卷积注意力模块的网络架构图

Fig.2 Network architecture diagram of multi scale convolutional attention module

$ {\text{MSCA(}} \cdot {\text{)}} $模块的主要任务是捕获多尺度上下文信息，如下所示：

(1)$ {\text{MSCA}}( \cdot ) = {\boldsymbol{X}}_{\text{msca}} \otimes {\text{Conv}}_1^1({{{\bf{DWS1}}}}+{\bf{DWS2}}+{\bf{DWS3}}). $

(2)$ {{{{{\mathbf{DWS1}}}}}}= {\text{DWS}}_1^{7{\text{x}}1}({\text{DWS}}_1^{{\text{1x7}}}({\bf{DW}})). $

(3)$ {\mathbf{DWS2}} = {\text{DWS}}_1^{{\text{11x}}1}({\text{DWS}}_1^{{\text{1x11}}}({\bf{DW}})). $

(4)$ {\mathbf{DWS3}} = {\text{DWS}}_1^{{\text{21x}}1}({\text{DWS}}_1^{{\text{1x21}}}({\bf{DW}})). $

(5)$ {\mathbf{DW}} = {\text{DW}}_1^{5{\text{x}}5}({\boldsymbol{X}}_{\text{msca}}). $

式中：${\boldsymbol{X}}_{\text{msca}}$为输入多尺度卷积注意力的特征图, $ \otimes $为矩阵点积,$ {\text{Conv}}_1^1 $为1×1的卷积，$ {\mathbf{DWS1}} $为经过第1条7×1和1×7的逐通道带状卷积运算结果，$ {\mathbf{DWS2}} $为经过第2条11×1和1×11的逐通道带状卷积运算结果，$ {\mathbf{DWS3}} $为经过第3条21×1和1×21的逐通道带状卷积运算结果，$ {\mathbf{DW}} $为输入5×5的空洞卷积（DW）运算结果.

多尺度注意力块$ {\text{AT}}( \cdot ) $如下所示：

(6)$ {\text{AT}}( \cdot ) = {\boldsymbol{X}}_{\text{bn1}}+{\text{Conv}}_1^1({\text{MSCA}}({\text{Gelu}}({\text{Conv}}_1^1({\boldsymbol{X}}_{\text{bn1}})))). $

式中：${\boldsymbol{X}}_{\text{bn1}}$为输入特征图经过BN运算得到的归一化图. ${\text{MSCA1}}( \cdot )$ 表示多尺度注意力块与输入特征图进行残差连接，

(7)$ {\boldsymbol{X}}_{{\mathrm{msca1}}}={\text{MSCA1}}( \cdot ) = {\boldsymbol{X}}_{\text{mscab}}+{\text{AT}}({\text{BN}}({\boldsymbol{X}}_{\text{mscab}})) \otimes (\alpha {\boldsymbol{1}}) . $

式中：$\alpha=0.01,$ 1为全部元素为1的矩阵，$ {\boldsymbol{X}}_{{\mathrm{mscab}}} $为输入的特征图.

前馈网络${\text{FFP}}( \cdot )$如下所示：

(8)$ {\text{FFP}}( \cdot ) = {\text{Conv}}_1^1({\text{Gelu}}({\text{DW}}_1^{3 \times 3}({\text{Conv}}_1^1({\text{BN}}({\boldsymbol{X}}_{\text{msca1}}))))). $

FFP能够在多尺度上下文信息中提取更丰富的语义信息.

整个$ {\text{MSCAB}}( \cdot ) $如下所示.

(9)$ {\text{MSCAB}}( \cdot ) = {\boldsymbol{X}}_{\text{msca1}}+{{{\rm{FFP}(\cdot)}}} \otimes (\alpha{\boldsymbol{1}}) . $

2.2. 全局多分支局部Transformer块

解码器在恢复重建过程中，将来自编码器的特征图进行全局上下文信息恢复重建，是实现高精准分割图的重要一环. 在UnetFormer提供的全局局部注意力块中，全局分支能够提供全面的语义上下文信息，但是基于窗口机制的自注意力机制会割裂空间信息，使用简单的小核卷积仅能提供局部空间信息. 越接近浅层，详细的全局空间信息有利于解码器末端实现高精准的分割. 本文对局部分支进行改进，利用多分支DWS捕获多尺度上下文空间信息，采用1×1的卷积构建通道之间的依赖，与来自深层的信息进行点积运算，重建多尺度空间上下文，构建多分支局部分支. 将多分支局部分支与全局分支的权重进行相加，重建多尺度的全局信息，整体结构如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 全局多分支局部Transformer模块的整体网络架构图

Fig.3 Overall network architecture diagram of global multi branch local Transformer block

多分支局部分支将权重相加模块输出的混合特征图$ {\boldsymbol{X}}_{\text{fuse}} \in {{\mathbf{R}}^{C \times H \times W}} $，通过1×1的卷积和Gelu激活函数，得到特征图$ {\boldsymbol{A}} \in {{\mathbf{R}}^{C \times H \times W}} $. 特征图A经过一个核大小为5的DW，分别经过3组DWS，第1组核大小为1×7和7×1，第2组核大小为1×11和11×1 ,第3组核大小为1×21和21×1，经过3组卷积获得的特征图进行权重相加，得到特征图$ {\boldsymbol{B}} \in {{\bf{R}}^{C \times H \times W}} $，实现多尺度空间上下文信息的重建. 特征图B经过1个1×1的卷积，在通道上构建消失的依赖，与特征图A进行点积运算，得到注意力图J. 注意力图J经过核为1×1的卷积，与最初输入的混合特征相加，得到多分支局部特征图D. 特征图$ {\boldsymbol{D}} \in {{\bf{R}}^{C \times H \times W}} $ 包含丰富的多尺度空间上下文信息.

全局分支将混合特征图$ {\boldsymbol{X}}_{\text{fuse}} \in {{\bf{R}}^{B \times C \times H \times W}} $，通过1×1的卷积在通道维度上扩充3倍，重新排列得到图中的{Query，Key，Value}$ \in {{\mathbf{R}}^{\big(B \times \tfrac{W}{{w}} \times \tfrac{H}{{w}}\big) \times {{h}} \times ({w} \times {w}) \times \tfrac{C}{{{h}}}}} $. 其中，通道维度C为64，窗口大小w为8，头h为16. Query与Key转置进行矩阵乘法，得到${\boldsymbol{E}} \in {{\bf{R}}^{\big(B \times \tfrac{W}{{{w}}} \times \tfrac{H}{{{w}}}\big) \times {{h}} \times ({{w}} \times {{w}}) \times ({{w}} \times {{w}})}}$注意力序列. 注意力序列E与h的根方进行点积运算，经过softmax函数与Value序列进行矩阵乘法，得到$ {\boldsymbol{F}} \in {{\bf{R}}^{\big(B \times \tfrac{W}{{{w}}} \times \tfrac{H}{{{w}}}\big) \times {{h}} \times ({{w}} \times {{w}}) \times \tfrac{C}{{{h}}}}} $ 注意力序列. 注意力序列F重新排列为二维注意力图${\boldsymbol{G}} \in {{\bf{R}}^{B \times C \times H \times W}}$. 注意力图G在窗口内重建信息，存在缺乏跨窗口的信息交互，因此利用十字交叉窗口构建全局语义信息. 注意力图G分别经过2个核为(w,1)和(1,w)的全局平均池化层，将通过2个池计算的权重进行相加，得到全局分支特征图H. 特征图H富含全局语义信息和基于窗口机理而割裂的空间信息.

将全局分支H含有的全局上下文语义信息与多分支局部分支D含有的多尺度空间上下文信息进行权重相加，采用核为w的DW，在1×1的卷积构建通道依赖，后续逐层恢复重建分割图.

2.3. 极化特征精炼头

来自编码器浅层的特征图富含繁杂的空间信息. 这些空间信息因连续下采样或池化失去潜在的高分辨率信息，缺少语义信息. 从解码器恢复重建的深层分割图，富含语义信息，但是缺少详细的空间细节. 将两者的权重直接加和，不利于提升浅层纹理细节的分割精度. 设计的PFRH由WS、通道自注意力和混合权重3部分构成. WS模块实现深浅层信息权重的相加. 通道自注意力中依靠softmax和sigmoid组合在通道维度上高度拟合非线性变换，利用这种拟合获得更好的输出分布，恢复浅层潜在的高分辨率信息损失. 混合权重将WS特征图通过残差与通道自注意力进行权重相加，得到具有精细的空间纹理，完成最终的分割，整体结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 极化特征精炼头的整体网络架构图

Fig.4 Overall network architecture diagram of polarization feature refining head

${\bf{WS}}$表示使用可训练的比率融合浅层空间信息和深层语义信息的结果，${\bf{WS1}}$表示浅层和深层特征图的权重相加结果.

(10)$ {\mathbf{WS1}} = {\text{Bili}}({\boldsymbol{X}}_{\text{deep}}) \otimes ({{\beta}} {\boldsymbol{1}}) + {\text{Conv}}_{\text{1}}^{\text{1}}({\boldsymbol{X}}_{\text{shallow}}) \otimes ({\boldsymbol{1}} - {{\beta}{\boldsymbol{1}}} ). $

(11)$ {\mathbf{WS}} = {\text{Relu6}}\;({\text{BN}}\;({\text{Conv}}_{\text{1}}^{\text{3}}\;({\mathbf{WS1}}))). $

式中：${\text{BN}}$表示批量归一化；$ {\text{Relu6}} $为整流线性激活函数，但是最大输出值为6；$ {\text{Conv}}_{\text{1}}^{\text{3}} $表示核为3×3大小的卷积；$ {\boldsymbol{X}}_{\text{deep}} $为GMBLTB模块提供的深层语义信息特征图；$ {\boldsymbol{X}}_{\text{shallow}} $为来自编码器浅层空间的信息特征图；β为比率因子，$\beta \in (0,1.0)$；$ \otimes $表示点积运算；${\text{Bili}}$表示双线性插值，增大2倍特征图的宽和高.

(12)$ {\mathbf{Cp1}} = {\text{Reshape}}\;({\text{Conv}}_{\text{1}}^{\text{1}}\;({\mathbf{WS}})). $

式中：$ {\mathbf{WS}} \in {{\mathbf{R}}^{B \times C \times H \times W}} $表示经过核为1、通道为C/2的卷积，经过形变，得到$ {\mathbf{Cp1}} \in {{\bf{R}}^{B \times ({C}/{2}) \times N}} $的1D序列，其中N = HW.

(13)$ {\mathbf{Cp2}} = {\text{Tp}}({\text{softmax}}\;({\text{Rs}}\;({\text{Conv}}_{\text{1}}^{\text{1}}\;({\mathbf{WS}})))). $

$ {\mathbf{WS}} \in {{\mathbf{R}}^{B \times C \times H \times W}} $表示经过核为1、通道为1的卷积，使用形变和softmax激活函数在第3个维度进行多分类，经过转置，得到$ {\mathbf{Cp2}} \in {{\mathbf{R}}^{B \times N \times 1}} $ . ${\mathbf{CSP}} \in {{\mathbf{R}}^{B \times C \times H \times W}}$ 为通道自注意力，

(14)$ {\mathbf{CSP}} = {\text{sigmoid}}\;({\text{Conv}}_{\text{1}}^{\text{1}}\;({\mathbf{Cp1}} * {\mathbf{Cp2}})) \otimes {\mathbf{WS}}. $

通道自注意力通过softmax和sigmoid组合在通道上构建概率分布函数，近似拟合二维高斯分布或二维二项分布函数，恢复浅层潜在的高分辨率信息；$ {\text{sigmoid}} $表示sigmoid激活函数；$ * $表示矩阵乘法. $ {\mathbf{CSPA}} \in {{\mathbf{R}}^{B \times C \times H \times W}} $为混合特征图，

(15)$ {\mathbf{CSPA}} = {\text{Conv}}_{\text{1}}^{\text{1}}\;({\text{BN}}\;({\text{DW}}_{\text{1}}^{\text{3×3}}\;({\mathbf{CSP}}))). $

(16)$ {\text{PFRH}}( \cdot ) = {\text{Relu6}}\;({\mathbf{CSPA}}+{\text{BN}}\;({\text{Conv}}_{\text{1}}^{\text{1}}\;({\mathbf{WS}}))). $

2.4. 损失函数

切块损失对正、负样本严重不平衡的场景有着不错的性能，在训练过程中更侧重对前景区域的挖掘. 在训练损失容易不稳定，尤其是小目标的情况下，极端情况会导致梯度饱和现象，切块损失需要结合二叉熵损失. 本文的损失$ l_{\text{main}} $包括切块损失$l_{\text{dice}}$和二叉熵损失$l_{\text{ce}}$ 2个部分^[21].

(17)$ l_{\text{ce}} = - \frac{1}{N}\sum\nolimits _{n = 1}^N \sum\nolimits_{k = 1}^K {{y_k}^{(n)} {\mathrm{lg}}\; {{\hat y}_k}^{(n)}} . $

(18)$ l_{\text{dice}} = 1 - \frac{2}{N}\sum\nolimits_{n = 1}^N {\sum\nolimits_{k = 1}^K {\frac{{{{\hat y}_k}^{(n)}{y_k}^{(n)}}}{{{{\hat y}_k}^{(n)}+{y_k}^{(n)}}}} } . $

(19)$ l_{\text{main}} = l_{\text{ce}}+l_{\text{dice}}. $

式中：N为样本数量，K为类别数量，${y^{(n)}}$为正确的标签，${\hat y^{(n)}}$为正确标签对应的图像经过softmax函数输出的预测图. ${\hat y_k}^{(n)}$为n个样本经过模型输出的预测图，每个预测图有k个类别，$y_k^{(n)}$表示n个正确语义分割标签，每个标签有k个类别.

3. 实验结果与分析

3.1. 数据集

ISPRS Potsdam：该数据集是在一个典型的历史城市进行航空摄影. 它有着巨大的建筑群、间隙较小的街道、密集的车辆，复杂的道路与植被交互. 数据集类别共有6种，分别为不可渗透表面、建筑物、低矮植被、树木、汽车和杂物. 该数据集共包含38张图像，图像大小为6 000×6 000像素，在地面每隔5 cm进行采样. 在本文试验中，ID为2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15和7_13的图像用于测试集，除了7_10错误标记被舍弃外，余下的23张图片被用于训练. 所有图像被裁剪为1 024×1 024像素.

ISPRS Vaihingen：该数据集共包含33张图像，图像的大小为2 000~4 000像素，在地面每隔9 cm进行采样，拥有较多的小建筑物且建筑物比较独立. Vaihingen数据集有6个图像类别. 在本文实验中，使用三通道图像（红、绿、蓝），ID为2、4、6、8、10、12、14、16、20、22、24、27、29、31、33、35和38的图像用于测试集，剩余的16张场景图像用于训练集. ISPRS Potsdam和ISPRS Vaihingen数据集的制作方法遵循文献[8]中的标准. 全部图像被裁剪为1 024×1 024像素.

3.2. 工具细节

系统Ubuntu 版本号为9.4.0，所有的模型使用PyTorch框架，在单个显存大小为24 GB 的Tesla P40上进行训练. CPU为I5-9400F，内存大小为32 GB，固态硬盘大小为512 GB，虚拟内存设置为256 GB.

为了更好地快速收敛，使用AdamW优化器训练所有模型，所有模型的骨干网络均使用对ImageNet-22K数据集进行预训练的权重. 学习率设为6×10⁻⁴，权重衰减为0.01，骨干网络学习率为6×10⁻⁵，骨干网络权重衰减为0.01，学习率的调度策略是余弦退火重启算法，受2个参数的影响，T_0表示最开始周期的迭代轮数，T_mult为下一个周期与上一个周期迭代轮数的比值. T_0 = 15，T_mult = 2. 经过多次基准实验，在225轮达到原始精度.

对于Potsdam、Vaihingen数据集，在整个训练过程中，训练集图像大小为1 024×1 024像素，先使用数据增强技术如随机尺度(0.5，0.75，1.0，1.25，1.5)，在每一张图片中随机裁剪出512×512像素的图像. 之后，每一张图片使用数据增强技术，如随机水平翻转、随机垂直翻转和随机旋转，这些增强技术在整个训练过程中被使用. 将训练批量数设置为16，被随机裁剪出512×512像素的图像，最终输入模型. 在整个验证过程中，使用全部1 024×1 024像素的训练集作为验证集，不使用任何数据增强，将测试批量数设为16. 在整个测试阶段，多尺度和随机翻转增强方法在测试集上被使用. 2个数据集上的训练及验证遵循UnetFormer文献，完成实验过程.

3.3. 评价指标和对比网络

使用整体精确度（overall accuracy, OA）、F1分数（F1 score, F1）、平均F1分数F1_mean（mean F1 score）、平均交并比（mean intersection over union, mIoU）、查准率P、召回率R作为评价指标.

(20)$ {\text{OA}} = \frac{{{\displaystyle \sum} {_{k = 1}^K} {\text{T}}{{\text{P}}_k}}}{{{\displaystyle \sum} {_{k = 1}^K} {\text{T}}{{\text{P}}_k}+{\text{F}}{{\text{P}}_k}+{\text{T}}{{\text{N}}_k}+{\text{F}}{{\text{N}}_k}}}. $

(21)$ {\text{mIoU}} = \frac{1}{K}{\displaystyle \sum} {_{k = 1}^K\frac{{{\text{T}}{{\text{P}}_k}}}{{{\text{T}}{{\text{P}}_k}+{{{{\mathrm{FP}}} }_k}+{\text{F}}{{\text{N}}_k}}}} . $

(22)$ {{{{P}}}}{{{}}_k} = \frac{{{\text{T}}{{\text{P}}_k}}}{{{\text{T}}{{\text{P}}_k}+{\text{F}}{{\text{P}}_k}}}. $

(23)$ {{R}}{{{}}_k} = \frac{{{\text{T}}{{\text{P}}_k}}}{{{\text{T}}{{\text{P}}_k}+{\text{F}}{{\text{N}}_k}}}. $

(24)$ {\text{F}}{{\text{1}}_k} = 2 \times \frac{{{{P}}_k {{R}}_k}}{{{{P}}_k+{{R}}_k}}. $

(25)$ {\text{F1}_{{\mathrm{mean}}}} = {K}^{-1}\sum {_{k = 1}^K} {\text{F}}{{\text{1}}_k}. $

式中：$ {\text{T}}{{\text{P}}_k} $表示模型预测为正类的正样本， $ {\text{T}}{{\text{N}}_k} $ 表示模型预测为负类的负样本，$ {\text{F}}{{\text{P}}_k} $表示模型预测为正类的负样本，$ {\text{F}}{{\text{N}}_k} $表示模型预测为负类的正样本.

为了评价整个网络的性能，引入浮点运算次数N_f参数来评估网络的计算量, 引入内存占用C参数来评价显存占据大小，引入模型参数量N_p（model parameters）来评估网络模型总参数.

对比网络如下：在网络深层使用位置注意力和通道注意力的DANet(2019)、双边感知网络BANet(2021)^[22]、基于空间路径和语义路径的ABCNet(2021)、多注意力网络MANet（2022）^[23]、类似Unet的Transformer网络UnetFormer(2022)、多阶段注意力残差网络MAResUNet(2021)^[24]、基于共享通道注意力和共享空间注意力Transformer网络DCswin(2022).

3.4. 消融研究

设计消融实验来验证网络中每个组件的性能. 消融实验的结果如表1所示. 消融实验在ISPRS Vaihingen进行，如图5所示.

表 1 GMSLTransFormer每个组件的消融研究

Tab.1 Ablation study of each component of GMSLTransFormer

数据集	方法	OA/%	F1_mean/%	mIoU/%
Vaihingen	Baseline	89.32	89.30	80.87
	Baseline+MSCAN	89.76	89.46	81.12
	Baseline+MSCAN+GMSLTB	90.73	90.31	82.74
	Baseline+ MSCAN+GMSLTB+PFRH	90.88	90.54	82.94

新窗口打开| 下载CSV

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 在Vaihingen数据集上的模型消融实验可视化结果对比

Fig.5 Comparison of visualization results of model ablation experiments on Vaihingen dataset

Baseline：采用Resnet骨干的类Unet网络. 本文模型基于Unet架构，使用卷积神经网络更强的Resnet18骨干，加载Resnet18骨干网络的ImageNet预训练权重. 引入WS模块，如图4所示. 在解码器网络末端加入4倍上采样率的分割头，以此作为基准.

Baseline+MSCAN：Baseline加入多尺度卷积注意力骨干. 在基准网络上，将Resnet18骨干替换为MSCAN-tiny骨干. 在Vaihingen数据集上，OA提升了0.44%，mIoU提升了0.25%， F1_mean提升了0.16%. 对于基准网络而言，MSCAN骨干最大的特点是能够提取全局信息. 对比Baseline和Baseline+MSCAN，如图5的第2行所示. 全局信息能够帮助建立更远距离的像素理解，如背景部分识别，但在局部会出现理解不够的问题；在第3行，单个建筑物消失.

Baseline+MSCAN+GMSLTB：在Baseline与 MSCAN上加入全局多分支局部Transformer块. 在Vaihingen数据集上F1_mean提升了0.85%， mIoU提升了1.62%，OA提升了0.97%. 如图5的第1、3行所示，分别修正了不可渗透表面和过度全局信息理解而消失的建筑物，说明GMSLTB在逐步恢复重建的过程中，能够将MSCAN过度联系的全局像素，修正和增强到正确的类别理解.

Baseline+ MSCAN+GMSLTB+PFRH：在Baseline+MSCAN+GMSLTB上加入极化特征精炼头. 在Vaihingen数据集上，mIoU提升了0.20%，PFRH能够修复浅层潜在的高分辨率信息损失，完成对语义和空间信息的精炼. 如图5的第2、3行所示，分别纠正了背景类别的错误识别和建筑物的类别缺失，提升了分割效果.

3.5. ISPRS Potsdam数据集上的参数对比

如表2所示为MAGIFormer模型对内存、参数和计算复杂度的评估，复杂度测量用1024×1024图像通过Tesla P40完成. 对比实验均使用paperwithcode平台所排行的遥感语义分割网络. 为了公平地对比各类网络，所有的骨干网络均使用同一等级骨干，开展对比实验. 结果表明，与当前先进的DC-Swin相比，MAGIFormer的参数量下降了3170万和266亿次浮点运算，F1_mean、OA和mIoU的指标进一步上升. 表2中，MAGIFormer模型的参数量和浮点运算次数均排在中间位置，F1_mean、OA和mIoU等参数的精度在Potsdam数据集上均达到了遥感语义分割在2023年6月领先的位置.

表 2 在Potsdam测试集与先进的遥感语义分割网络结果进行对比

Tab.2 Comparison results on Potsdam test set with state-of-art remote sensing semantic segmentation network

方法	骨干	C/MB	N_p/10⁶	N_f/10⁹	F1_mean/%	OA/%	mIoU/%
DANet(2019)	Resnet18	2024.9	12.6	120.24	90.7	90.2	83.1
BANet(2021)	ResTLi	3248.0	12.7	29.38	92.1	90.6	85.6
ABCNet(2021)	Resnet18	1573.2	14.0	62.16	92.2	90.8	85.8
MANet(2021)	Resnet18	2091.6	12.0	88.25	92.4	90.8	86.1
UnetFormer(2022)	Resnet18	1481.7	11.7	11.67	92.7	91.1	86.6
MAResUNet(2022)	Resnet18	638.51	16.2	25.29	92.7	91.3	86.7
DCswin(2022)	Swin-tiny	4265.9	45.6	89.30	92.9	91.3	86.9
MAGIFormer	MSCAN_tiny	5015.3	13.9	62.70	93.0	91.4	87.1

新窗口打开| 下载CSV

3.6. ISPRS Potsdam数据集上的类别对比

对比语义分割网络均来自paperwithcode公共平台. 该平台收录了全世界范围内公开的先进算法. 基于ISPRS Potsdam数据集的对比测试参数结果如表3所示，可视化结果如图6所示. MAGIFormer网络在建筑、低矮植被和汽车3个类别上分别达到了97.1%、88.1%和96.9%的最佳F1分数，在不可渗透表面的类别上与DCswin精度基本一致，仅在树的类别上F1分数比DCswin小0.2% . 可以看出，MAGIFormer网络在F1_mean、OA和mIoU上分别取得了93.0%、91.4%和87.1%的领先结果.

表 3 在Potsdam测试集上与先进的高精度网络的定量比较结果

Tab.3 Quantitative comparison result with advanced high-precision network on Potsdam test set

方法	骨干	F1/%					F1_mean/%	OA/%	mIoU/%
方法	骨干	不可渗透	建筑	低矮植被	树	车	F1_mean/%	OA/%	mIoU/%
DANet(2019)	Resnet18	92.3	96.0	86.6	88.4	90.3	90.7	90.2	83.1
MAResUNet(2021)	Resnet18	93.3	96.8	87.9	89.0	96.6	92.7	91.3	86.7
ABCNet(2021)	Resnet18	93.0	96.5	87.5	88.2	96.2	92.2	90.8	85.8
BANet(2021)	ResT-Lite	92.5	96.1	87.1	88.8	96.0	92.1	90.6	85.6
MANet(2022)	Resnet18	92.9	96.1	87.5	88.8	96.6	92.4	90.9	86.1
UnetFormer(2022)	Resnet18	93.1	96.5	87.8	89.2	96.7	92.7	91.1	86.6
DCswin(2022)	Swin-tiny	93.3	96.7	88.1	89.7	96.6	92.9	91.3	86.9
MAGIFormer	MSCAN-tiny	93.3	97.1	88.1	89.5	96.9	93.0	91.4	87.1

新窗口打开| 下载CSV

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同分割网络在ISPRS Potsdam数据集上的实验结果可视化对比

Fig.6 Visualization comparison of experimental result of different segmentation network on ISPRS Potsdam dataset

3.7. ISPRS Vaihingen数据集上的类别对

基于ISPRS Vaihingen数据集的测试结果如表4所示，可视化结果如图7所示. 从图7可知，不规则的建筑群落通过模型预测都得到了很接近标签的结果. MAGIFormer网络在不可渗透表面、低矮植被、树木和汽车4个类别上分别达到92.7%、84.7%、90.3%和89.8%的最佳F1分数. UnetFormer在杂乱类别上达到57.1%的F1分数. 与paperwithcode公共平台上近3年全世界范围内公开的先进排行算法相比，提出的MAGIFormer网络在Vaihingen数据集上取得90.6%的F1_mean、90.9%的OA和82.9%的mIoU，这些指标均达到了领先结果.

表 4 在Vaihingen测试集上与先进的高精度网络定量比较结果

Tab.4 Quantitative comparison with advanced high-precision network on Vaihingen test set

方法	骨干	F1/%						F1_mean/%	OA/%	mIoU/%
方法	骨干	不可渗透	建筑	植被	树	车	杂物	F1_mean/%	OA/%	mIoU/%
DANet(2019)	Resnet18	90.3	93.9	82.5	88.3	75.8	54.1	86.2	88.8	76.2
ABCNet(2021)	Resnet18	90.6	93.0	81.5	89.6	84.2	38.1	87.8	88.7	78.5
MANet(2022)	Resnet18	92.0	94.5	83.5	89.4	88.0	50.9	89.5	90.0	81.1
BANet(2021)	ResT-Lite	92.4	95.1	83.8	89.8	89.0	54.5	90.0	90.5	82.1
MAResUNet(2021)	Resnet18	92.2	95.1	84.3	90.0	88.5	50.9	90.0	90.5	82.0
UnetFormer(2022)	Resnet18	92.7	95.4	84.4	90.1	89.7	57.1	90.5	90.8	82.8
DCswin(2022)	Swin-tiny	92.5	95.5	84.7	90.2	88.8	44.9	90.4	90.8	82.6
MAGIFormer	MSCAN-tiny	92.7	95.3	84.7	90.3	89.8	53.7	90.6	90.9	82.9

新窗口打开| 下载CSV

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同分割网络在ISPRS Vaihingen数据集上的实验结果可视化对比

Fig.7 Visualization comparison of experimental result of different segmentation network on ISPRS Vaihingen dataset

4. 结　语

本文使用多尺度卷积注意力骨干网络，逐层捕获多尺度信息. 在每层中，这些多尺度信息包含局部、长范围和全局信息. 这些捕获的多层级、多尺度信息给解码器提供多层级、多尺度的浅层空间信息和深层语义信息. GMBLTB能够利用多尺度逐通道带状卷积，分别输出不同尺度的空间上下文信息，与全局语义上下文信息共同恢复重建全局信息分割图. 网络末端设计了PFRH，WS特征图汇聚深浅层不同的信息特征. softmax和sigmoid组合在通道上构建概率分布函数，拟合二维高斯分布或二维二项分布函数. 拟合函数具有高度非线性，拟合恢复浅层潜在复杂的高分辨率信息，融合和指导WS特征图，实现高质量的逐像素级回归. 实验结果表明，MAGIFormer能够提高遥感图像的分割精度，为遥感技术的工程化普及提供一定的参考.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LONG J, SHELHAMER E, DARRELL T, et al. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Santiago: IEEE, 2015: 3431-3440.