浙江大学学报(工学版), 2026, 60(5): 1100-1108 doi: 10.3785/j.issn.1008-973X.2026.05.019

计算机技术、控制工程

全局局部特征融合的遥感图像建筑物提取

李国燕,, 于威, 梅玉鹏,, 张明辉, 王新强

1. 天津城建大学 计算机与信息工程学院,天津 300384

2. 天津中德应用技术大学 软件与通信学院,天津 300350

Building extraction from remote sensing images with global-local feature fusion

LI Guoyan,, YU Wei, MEI Yupeng,, ZHANG Minghui, WANG Xinqiang

1. School of Computer and Information Engineering, Tianjin Chengjian University, Tianjin 300384, China

2. Software & Communication School, Tianjin Sino-German University of Applied Sciences, Tianjin 300350, China

通讯作者: 梅玉鹏,男,讲师,博士. orcid.org/0009-0008-8575-3621. E-mail:myp@tcu.edu.cn

收稿日期: 2025-05-30  

基金资助: 天津市科技特派员项目(24YDTPJC00410).

Received: 2025-05-30  

Fund supported: 天津市科技特派员项目(24YDTPJC00410).

作者简介 About authors

李国燕(1984—),女,副教授,博士,从事机器视觉、下一代网络技术研究.orcid.org/0000-0003-3224-2824.E-mail:ligy@tcu.edu.cn , E-mail:ligy@tcu.edu.cn

摘要

现有方法兼顾捕捉全局语义与局部细节特征的能力不足,导致复杂场景下出现建筑物信息的漏检、误检问题,为此提出基于BuildFormer的双分支特征融合与相互增强网络(DFFME-Net). 引入VGG13骨干网络来提取局部特征,设计多尺度全局局部特征融合方法(MGLFF)将双分支各阶段特征融合,获得丰富的特征表示. 为了打破双分支独立状态,实现2个分支互相促进特征提取,提出双分支特征融合模块(DFM). 为了增强模型对感兴趣区域的关注度,在DFM中引入通道优先卷积注意力机制(CPCA),实现增强特征表征和动态分配注意力权重. 为了验证所提网络的有效性和适用性,在WHU和Massachusetts建筑数据集上进行实验. 在WHU测试集上DFFME-Net的交并比和F1分数分别为91.81%和95.73%,在Massachusetts测试集上分别为77.01%和87.01%,网络性能优于一些先进模型. 结果表明,在高分辨率遥感影像建筑物提取领域中,所提网络具有良好的工程应用价值.

关键词: 高分辨率遥感影像 ; 建筑物提取 ; 全局和局部特征 ; 多尺度特征融合 ; 注意力机制

Abstract

Existing methods show insufficient capability in simultaneously capturing global semantic information and local detailed features. As a result, missed detections and false detections of building information often occur in complex scenes. To address this problem, a dual-branch feature fusion and mutual enhancement network (DFFME-Net) based on BuildFormer was proposed. Firstly, VGG13 was employed as the backbone to extract local features, and a multi-scale global-local feature fusion method (MGLFF) was designed to fuse features from both branches at each stage, generating enriched feature representations. Secondly, to break the independence between the two branches and promote mutual reinforcement in feature extraction, a dual-branch feature fusion module (DFM) was introduced. Finally, to enhance the network’s focus on regions of interest, a channel prior convolutional attention mechanism (CPCA) was incorporated into the DFM, enabling improved feature representation and dynamically allocating attention weights. Experiments were conducted on the WHU and Massachusetts building datasets to verify the effectiveness and applicability of the proposed network. DFFME-Net achieved an IoU of 91.81% and an F1-score of 95.73% on the WHU test set, and 77.01% and 87.01% on the Massachusetts test set, respectively, outperforming several advanced models. Results indicate that the proposed network has strong practical application value in high-resolution remote sensing building extraction tasks.

Keywords: high-resolution remote sensing image ; building extraction ; global and local features ; multi-scale feature fusion ; attention mechanism

PDF (1900KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李国燕, 于威, 梅玉鹏, 张明辉, 王新强. 全局局部特征融合的遥感图像建筑物提取. 浙江大学学报(工学版)[J], 2026, 60(5): 1100-1108 doi:10.3785/j.issn.1008-973X.2026.05.019

LI Guoyan, YU Wei, MEI Yupeng, ZHANG Minghui, WANG Xinqiang. Building extraction from remote sensing images with global-local feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1100-1108 doi:10.3785/j.issn.1008-973X.2026.05.019

建筑物提取是计算机视觉与地理空间分析领域的重要研究方向,在城市规划、灾害评估、土地资源管理等众多实际应用中展现出巨大的潜力与价值. 通过精确分割遥感图像中的建筑物区域,不仅能够为城市空间结构的详细描绘提供可靠依据,还能在灾害发生后迅速评估受损情况,为土地资源的合理分配与高效利用提供科学指导[1-4].

城市环境复杂,建筑物在大小、形状和外观上存在很大差异,给建筑物提取带来了挑战. 基于卷积神经网络(CNN)的模型[5-6]能够从数据中直接学习高层次语义特征,适用于复杂的图像分析任务. 基于CNN的模型有很多,Ronneberger等[7]提出U-Net,采用编码器-解码器结构,有效地捕获了局部和全局特征. Li等[8]提出多注意力网络(multi-attention-network, MANet),通过引入双注意力机制加强了网络对关键特征的捕获能力,同时多尺度特征融合提升了语义分割的精度和鲁棒性. CNN模型存在全局信息捕捉不足和感受野有限的问题. Transformer模型[9]的出现推动了研究的进展. Transformer模型最初用于自然语言处理任务,因其捕捉长距离依赖关系的能力而被应用于计算机视觉领域. Dosovitskiy等[10]提出Vision Transformer, 将Transformer应用于图像任务. 该方法将图像划分为固定大小的图像块,对每个图像块进行编码和自注意力计算. Liu等[11]提出Swin Transformer,采用层次化设计和移动窗口机制,保留了局部特征提取的能力,在全局上下文建模上表现良好. Cao等[12]提出的Swin-Unet结合Swin Transformer和U-Net的架构,特别适用于高分辨率遥感图像的建筑物提取任务. 这些纯Transformer模型全局建模能力出色,却存在计算资源需求大、捕捉局部细节能力不足的问题. 为了弥补纯CNN和Transformer模型在建筑物提取任务中的不足,研究人员提出了多种结合CNN和Transformer的混合模型[13-21],以充分利用CNN的局部特征提取能力和Transformer的全局上下文建模能力. Wang等[22]提出的密集连接型Swin变换器(densely connected Swin transformer, DCSwin)采用动态跨尺度注意力机制,有效地在不同尺度之间建立关联,既能捕获局部细节信息,又能关注全局上下文关系. Wang等[23]提出的BuildFormer采用双路径结构,一条全局上下文路径利用窗口式线性多头自注意力机制高效捕捉全局语义信息,另一条空间细节路径通过堆叠卷积层保留高分辨率的空间细节,该模型的分割效果良好. 上述方法[8,12,22-23]侧重于全局语义信息或局部细节信息的提取,缺乏对两者的有效协调与融合,在建筑物提取任务中易导致漏检或误检问题.

本研究从充分学习全局上下文和局部细节特征出发,解决建筑物提取中存在的漏检、误检问题,基于BuildFormer模型[23],引入VGG13[24]作为局部特征分支骨干网络以提取丰富的局部特征信息,设计多尺度全局局部特征融合方法(multi-scale global-local feature fusion method, MGLFF),构建包含局部细节和全局上下文的多尺度特征表示. 受多分支特征聚合方法[25]启发,本研究设计双分支特征融合模块(dual-branch feature fusion module, DFM),实现双分支互相促进特征提取. 此外,本研究将通道优先卷积注意力机制(channel prior convolutional attention mechanism, CPCA)[26]引入DFM,使网络模型聚焦于感兴趣的区域,抑制无关和噪声信息的干扰.

1. 网络结构介绍

1.1. 双分支特征融合与相互增强网络

双分支特征融合与相互增强网络(dual-branch feature fusion and mutual enhancement network, DFFME-Net)采用基于编-解码器的BuildFormer作为网络架构的基础. 如图1所示,在编码器部分,设计2条并行的特征提取分支:一条专注于局部特征提取,另一条负责全局特征捕获. 局部特征提取分支采用对内部卷积层通道数微调后的VGG13骨干网络,全局特征提取分支沿用基准模型BuildFormer的设计. 为了促进特征分支间的信息交互,将2条分支对应阶段的特征图输入至相应的DFM. DFM将来自2条分支的特征图融合,并将融合后的特征图加到原始分支上,实现全局和局部分支之间的特征交互,彼此促进提取. DFM引入的CPCA令网络更加注意含有建筑物的区域. 在每个阶段的最后,全局和局部特征图通过相加的方式实现融合,并经过1×1卷积层进行通道维度统一,调整为384个通道. 这些特征图以跳跃连接的方式,作为解码器对应层级的输入. 在解码端,采用自底向上的方式,下层的特征图先经过上采样处理,随后与来自编码阶段上一层的特征图进行融合,生成新的特征图. 这一过程逐层向上进行,直至所有层级特征图均完成融合. 将这些特征图经过数量不同的卷积层和上采样操作,使它们尺寸相同,然后以相加的方式进行特征融合,再进行后续处理,以生成预测结果.

图 1

图 1   双分支特征融合与相互增强网络

Fig.1   Dual-branch feature fusion and mutual enhancement network


1.2. 多尺度全局局部特征融合方法

在建筑物提取任务中,局部细节和全局上下文信息对于准确识别建筑物至关重要. BuildFormer原本的局部特征提取分支受限于深度与表达能力,难以全面捕捉建筑物复杂的局部特征. 鉴于全局语义信息由另一条分支负责提取,本研究设计的局部分支聚焦局部特征的精细建模. 为此,在多种主流网络结构中进行对比选择,最终采用结构更深、卷积核更小的VGG骨干网络结构作为局部特征提取分支,其中小卷积核相比于大卷积核在空间感受野更小的同时,具备更强的局部信息建模能力,更适用于细节特征(如建筑物轮廓、边缘)的提取. 为了充分提取局部特征信息,在多种VGG网络结构中选择VGG13,微调卷积层的通道数,将微调后的网络作为DFFME-Net的局部特征提取分支,以增强模型对建筑物细节信息的感知能力. 分阶段将来自2条分支的特征图进行融合,得到多尺度的含有局部精细结构和全局语义信息的特征图. VGG13骨干网络分为5个阶段,每个阶段都是由2个3×3卷积层和1个下采样比例因子为2的最大池化层组成,依次产出5个不同分辨率大小的特征图:H/2×W/2、H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32,HW分别为特征图的高和宽. VGG13原本每个模块内的卷积层通道数分别为64、128、256、512和512,为了与全局特征提取分支每个阶段得到的特征图通道数对应,将通道数分别调整为48、96、192、384和768. 全局特征提取分支分为4个阶段,第1个阶段由图像块嵌入和BuildFormer块组成,其他3个阶段由图像块合并和BuildFormer块组成,每个阶段的BuildFormer块个数分别为2、2、6和2个. 每个阶段产出的特征图的分辨率分别是H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32,产出的特征图的通道数分别为96、192、384和768. 与基准模型仅在最后阶段融合特征的方法不同,本研究将局部特征提取分支的后4个阶段和全局特征提取分支的4个阶段对应. 对应阶段产出的特征图的大小和通道数相同. 将对应阶段的特征图采用相加的方式进行融合. 这种融合方法有助于模型在处理复杂场景时,更好地平衡细节和全局结构,提高建筑物提取的准确性. 将融合后的特征图通过跳跃连接的方式分别传递至对应层次的解码端部分.

1.3. 双分支特征融合模块

在建筑物提取任务中,要求网络能够准确地区分建筑物与背景,同时捕捉建筑物的精细边界和形状. 为了实现这一目标,一些网络模型设计2条分支,分别用来提取局部细节和全局上下文信息. 这些网络的特征提取分支之间往往互相独立、互不干涉,这种设计难以平衡模型对局部与全局信息的捕捉,导致在复杂场景下建筑物提取的精度和鲁棒性受限. 设计DFM,实现将局部特征和全局特征充分的融合,再将融合后的特征图加回到2个分支,实现2条分支间的特征信息交互、相互促进,共同提升特征提取的效果.

DFM结构如图2所示. 将双分支对应的第$ i $个阶段的来自卷积分支的特征$ {\boldsymbol{L}}_{i} $与Transformer分支的特征$ {\boldsymbol{G}}_{i} $拼接:

图 2

图 2   双分支特征融合模块

Fig.2   Dual-branch feature fusion module


$ {\boldsymbol{F}}_{i}=\text{Concat}\;({\boldsymbol{G}}_{i},{\boldsymbol{L}}_{i}), \; i\in \left\{1,2,3,4\right\}. $

在拼接后,使用映射函数$ {H}_{\mathrm{f}} $对通道进行融合. $ {H}_{\mathrm{f}} $为4个串联的残差卷积模块(residual convolution module, RCM),能够减少计算复杂度并提取最重要的特征:

$ \boldsymbol{F}_{i}^{\mathrm{f}}=H_{\mathrm{f}}^{i}\;({\boldsymbol{F}}_{i}) . $

RCM整体是残差连接的结构,主分支由1×1的卷积、ReLU激活函数和1×1的卷积串联组成:

$ \boldsymbol{F}_{i}^{j+1} ={\mathrm{Conv}}_{1\times 1}\;(\mathrm{ReLU}\;({\mathrm{Conv}}_{1\times 1}\;(\boldsymbol{F}_{i}^{j}))) + \boldsymbol{F}_{i}^{j} ,\;j\in \left\{1,2,3,4\right\}. $

式中:$ \boldsymbol{F}_{i}^{j} $$ j $个RCM将要输入的特征图;$ \boldsymbol{F}_{i}^{j+1} $为第$ j $个RCM输出的特征图,也表示第$ j+1 $个RCM将要输入的特征图. 融合后的特征$ \boldsymbol{F}_{i}^{\mathrm{f}} $进入CPCA机制里,得到含有通道和空间信息的特征图$ \boldsymbol{N}_{i}^{\mathrm{f}} $

$ \boldsymbol{N}_{i}^{\mathrm{f}}=\mathrm{CPCA}\;(\boldsymbol{F}_{i}^{\mathrm{f}}) . $

为了改善梯度流,使网络更容易训练和优化,设计残差连接结构,与模块最开始拼接了双分支信息的特征$ {\boldsymbol{F}}_{i} $相加,得到特征$ \boldsymbol{M}_{i}^{\mathrm{f}} $

$ \boldsymbol{M}_{i}^{\mathrm{f}}=\boldsymbol{N}_{i}^{\mathrm{f}}+{\boldsymbol{F}}_{i} . $

融合后的特征$ \boldsymbol{M}_{i}^{\mathrm{f}} $会被分割为2个部分,分别对应CNN和Transformer分支,分别记为$ \boldsymbol{M}_{i}^{\mathrm{C}} $$ \boldsymbol{M}_{i}^{\mathrm{T}} $,它们分别经过相对应的卷积块提取特征:

$ \boldsymbol{T}_{i}^{\mathrm{C}}={\mathrm{Conv}}_{3\times 3}\;(\mathrm{ReLU}\;({\mathrm{Conv}}_{3\times 3}\;(\boldsymbol{M}_{i}^{\mathrm{C}})))+\boldsymbol{M}_{i}^{\mathrm{C}} \text{,} $

$ \boldsymbol{T}_{i}^{\mathrm{T}}={\mathrm{Conv}}_{1\times 1}\;(\mathrm{GeLU}\;({\mathrm{Conv}}_{1\times 1}\;(\boldsymbol{M}_{i}^{\mathrm{T}})))+\boldsymbol{M}_{i}^{\mathrm{T}} . $

这2个特征会被加回到相对应的分支上,以完成特征信息在双分支之间的交互:

$ \boldsymbol{L}_{i}^{\mathrm{u}}={\boldsymbol{L}}_{i}+\boldsymbol{T}_{i}^{\mathrm{C}},\;\;\boldsymbol{G}_{i}^{\mathrm{u}}={\boldsymbol{G}}_{i}+\boldsymbol{T}_{i}^{\mathrm{T}} . $

DFM融合CNN分支提取的局部特征(如边缘和纹理)与Transformer分支提取的全局特征(如长距离依赖和上下文信息),实现特征的互补与双向增强. 这种融合不仅提升了特征的表达能力,还通过将融合后的特征反馈到各自分支,增强了分支的适应性和学习能力. DFM提升了模型对复杂建筑物轮廓的捕捉能力,也提升了模型在复杂场景下的鲁棒性和泛化能力.

为了增强网络对有用特征的聚焦能力,提高建筑物提取的效果,在DFM中引入CPCA. CPCA采用顺序结构,先执行通道注意力,再进行空间注意力. 这种设计使得注意力权重能够在通道和空间维度上动态调整. 如图3所示,CPCA对输入特征图$ \boldsymbol{F}\in {\mathbf{R}}^{C\times H\times W} $应用通道注意力机制,生成一维的通道注意力图$ {\boldsymbol{M}}_{c}\in {\mathbf{R}}^{C\times 1\times 1} $. 通道注意力模块(channel attention module, CAM)通过平均池化和最大池化操作,提取特征图的空间信息,并分别生成2个空间上下文描述符. 这2个描述符通过共享的多层感知机(multilayer perceptron, MLP)进行处理,输出的结果进行相加并通过Sigmoid激活函数获得通道注意力图$ {\boldsymbol{M}}_{c} $. 输入特征图$ \boldsymbol{F} $与通道注意力图$ {\boldsymbol{M}}_{c} $进行逐元素相乘,得到具有通道注意力的特征图$ {\boldsymbol{F}}_{c} $

图 3

图 3   通道优先卷积注意力机制

Fig.3   Channel prior convolutional attention mechanism


$ {\boldsymbol{F}}_{c}=\text{CA}(\boldsymbol{F})\otimes \boldsymbol{F} . $

式中:$ \otimes $为逐元素相乘. CAM的过程计算式为

$ \text{CA}(\boldsymbol{F}) =\sigma (\text{MLP}\;(\text{AvgPool}\;(\boldsymbol{F}))+ \text{MLP}\;(\text{MaxPool}\;(\boldsymbol{F}))) . $

式中:$ \sigma $为Sigmoid激活函数. 在获得通道注意力后的特征图$ {\boldsymbol{F}}_{c} $上,CPCA应用深度可分离卷积模块提取空间映射关系,生成三维的空间注意力图$ {\boldsymbol{M}}_{s}\in {\mathbf{R}}^{C\times H\times W} $. 空间注意力模块(spatial attention module, SAM)使用多尺度的深度卷积,以捕获不同尺度的空间信息,并通过1×1卷积进行通道混合,得到更加精细的空间注意力图. SAM的过程计算为

$ {\boldsymbol{M}}_{s}=\text{SA}\;({\boldsymbol{F}}_{c})={\text{Conv}}_{1\times 1}\left(\sum\limits_{i=0}^{3}{\text{Branch}}_{i}\;(\text{DwConv}\;({\boldsymbol{F}}_{c}))\right) . $

式中:$ \text{DwConv} $为深度卷积操作;$ {\text{Branch}}_{i} $为第$ i $个分支,包含不同的卷积核大小,以捕获多尺度信息. 输出特征图$ \hat{\boldsymbol{F}} $通过空间注意力图$ {\boldsymbol{M}}_{s} $$ {\boldsymbol{F}}_{c} $逐元素相乘得到

$ \hat{\boldsymbol{F}}={\boldsymbol{M}}_{s}\otimes {\boldsymbol{F}}_{c} . $

CPCA机制能够捕捉特征图之间的依赖关系,特别是跨通道或跨空间位置的依赖. 这种上下文感知能力有助于网络更好地理解建筑物的结构、纹理和与背景的差异. CPCA通过深度卷积构建空间注意力模块,采用多尺度卷积核分别对每个通道计算空间注意力,实现空间注意力在每个通道上的动态分布,能够更精确地贴合实际的特征分布. 遥感图像普遍具有多尺度特性,CPCA中的多尺度条形卷积能够照顾到这一特性,提升分割效果.

2. 数据集和实验设置

2.1. 数据集介绍

为了验证DFFME-Net在建筑物提取任务中的效果,选用2个广泛使用的公开建筑物数据集进行实验分析:WHU建筑数据集[27]和Massachusetts建筑数据集[28].

WHU建筑数据集包含卫星图像和航拍图像2种类型的图像. 本实验选用航拍图像, 该子集覆盖面积超过450 km2,共包含约22 000栋建筑物. 图像为RGB三通道,空间分辨率为0.3 m,图像大小为512×512像素. 该子集共计8 188张图像,其中4 736张用于训练,1 036张用于验证,2 416张用于测试. 实验采用官方提供的数据集划分方案.

Massachusetts建筑数据集包含来自波士顿地区的151张航拍图像,图像尺寸为1 500×1 500像素,地面采样距离为1 m. 此数据集覆盖城市与郊区场景,建筑物的大小、形状、纹理及颜色各异,具有较高的挑战性,适合作为模块有效性验证的基准数据集. 本实验依照官方提供的数据集划分方案. 由于硬件条件的限制,实验前先将图像与标签填充至1 536×1 536像素,再以九宫格样式切分成512×512像素的图像与标签,采用数据增强策略(如水平和垂直翻转)扩展训练集. 实验将该数据集中的3 699张图像用于训练,36张图像用于验证,90张图像用于测试. 评估时不计算填充区域的结果.

2.2. 评估指标

采用5种常见的评价指标对DFFME-Net在建筑物提取任务中的性能进行量化分析:交并比IoU、F1分数F1、精确率P、召回率R和总体精度OA. 这些指标从不同角度评估了模型在建筑物目标分割中的表现. 交并比是建筑物提取领域中常用的指标,用于衡量预测结果与真实建筑物区域的重叠程度,计算式为

$ \mathrm{IoU}\text=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}+\mathrm{FN}} . $

F1分数是精确率与召回率的调和平均数,能够在权衡这2个指标的同时反映模型的综合性能,计算式为

$ \mathrm{F}1\text=\frac{2\mathrm{TP}}{\text{2}\mathrm{TP}+\mathrm{FP}+\mathrm{FN}} . $

精确率衡量模型预测的建筑物区域中有多少是真实的建筑物,计算式为

$ P\text=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} . $

召回率反映真实建筑物区域中有多少被模型成功检测到,计算式为

$ R\text=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} . $

总体精度衡量模型在所有分类中预测正确的像素占总像素的比例,是评价模型整体性能的重要指标,计算式为

$ \mathrm{OA}\text=\frac{\mathrm{TP}+\mathrm{TN}}{\mathrm{TP}+\mathrm{TN}+\mathrm{FP}+\mathrm{FN}} . $

式中:$ \mathrm{TP} $为正确检测出的建筑物数量,$ \mathrm{TN} $为正确检测出的非建筑物数量,$ \mathrm{FP} $为错误检测出的建筑物数量,$ \mathrm{FN} $为错误检测出的非建筑物数量.

2.3. 实验设置

所有实验均在配备24 GB显存的NVIDIA GeForce RTX 3090 GPU上执行,采用PyTorch 2.2.1(CUDA 12.1)作为深度学习框架. 实验过程中,选用AdamW优化器与余弦退火学习率策略. 在数据增强环节,随机水平翻转与垂直翻转被用于提升模型的泛化能力. 针对WHU数据集,为了确保实验公正性,所有模型均未采用预训练参数. 训练的迭代次数为140,初始学习率设定为$ 5\times {10}^{-4} $,训练与测试阶段的批次大小均统一为8. 对于Massachusetts数据集,同样基于公平性原则,所有模型均采用在WHU数据集上训练所得的权重进行初始化. 训练的迭代次数为150,学习率同样设定为$ 5\times {10}^{-4} $,训练与测试阶段的批次大小也设为8. 在测试阶段,为了提升模型性能,采用测试时间增强(test-time augmentation, TTA)技术(包括水平和垂直翻转)以减小模型在预测时的偏差.

3. 实验结果及分析

3.1. 对比实验

在2个数据集上将DFFME-Net与一些优秀方法进行性能比较,这些方法包括基于CNN的网络(如MANet[8])以及基于Vision Transformer的网络,TransUNet[16]、Swin-Unet[12]、DCSwin[22]、BuildFormer[23]. TransUNet是标准的Vision Transformer和U-Net混合;Swin-Unet是由纯Swin变换器块组成的U-Net;BuildFormer在编码器有2条特征提取分支,即局部和全局特征提取分支.

3.1.1. WHU数据集对比实验

表1所示为不同方法在WHU建筑数据集上的评价指标对比. 与其他的方法相比,DFFME-Net在交并比、F1分数、精确率和总体精度上达到了最优,在召回率上几乎和BuildFormer持平. 具体来说,DFFME-Net和BuildFormer相比,交并比提高了0.97个百分点,F1分数提高了0.53个百分点,精确率提高了1.07个百分点,总体精度提高了0.12个百分点,召回率只下降了0.01个百分点. 这些指标的显著优势反映了本研究所提方法的优越性.

表 1   在WHU建筑数据集上不同图像分割方法的定量比较

Tab.1  Quantitative comparison of different image segmenta-tion methods on WHU building dataset %

方法IoUF1PROA
Trans-UNet90.2194.8594.7594.9598.85
Swin-Unet89.6794.5694.6794.4498.79
DCSwin88.8394.0994.4893.7098.69
MANet90.6295.0895.4694.7098.91
BuildFormer90.8495.2094.8695.5498.93
DFFME-Net91.8195.7395.9395.5399.05

新窗口打开| 下载CSV


图4所示为不同方法在该数据集中的图像提取性能可视化对比. 可以看到,多数模型在识别建筑物时会出现漏检和误检现象,DFFME-Net提取效果是其中最好的. 对于复杂建筑物,DFFME-Net提取结果最为完整,建筑物边界提取的尤为精确、规整. 同时该模型是唯一准确识别出被树木遮挡的建筑物区域的模型. 在处理大型建筑物时,部分模型的提取出现空洞现象,而DFFME-Net准确完整地提取出了建筑物. 在区分建筑物相似地物这一环节上,DFFME-Net未对颜色和轮廓与建筑物相似的非建筑物区域做出误判,这是其他模型未能做到的.

图 4

图 4   在WHU建筑数据集上不同图像分割方法的定性比较

Fig.4   Qualitative comparison of different image segmentation methods on WHU building dataset


3.1.2. Massachusetts数据集对比实验

表2所示为不同方法在Massachusetts建筑数据集上的各种评价指标对比. 与其他方法相比,DFFME-Net在所有指标上取得了最优. 具体来说,DFFME-Net和BuildFormer相比,交并比提高了1.29个百分点,F1分数提高了0.82个百分点,精确率提高了0.45个百分点,召回率提高了1.17个百分点,总体精度提高了0.27个百分点. 这些指标的显著优势反映了本研究所提方法的优越性.

表 2   在Massachusetts建筑数据集上不同图像分割方法的定量比较

Tab.2  Quantitative comparison of different image segmenta-tion methods on Massachusetts building dataset %

方法IoUF1PROA
Trans-UNet75.2685.8887.6184.2295.09
Swin-Unet74.4585.3686.7584.0194.89
DCSwin72.7784.2486.5382.0694.55
MANet74.9785.6988.0683.4595.06
BuildFormer75.7286.1988.0684.3995.20
DFFME-Net77.0187.0188.5185.5695.47

新窗口打开| 下载CSV


图5所示为不同方法在该数据集中的图像提取性能可视化对比. 可以看到,多数模型在提取建筑物时出现了漏检和误检现象,DFFME-Net在这方面的表现是最好的. 针对规则建筑物的提取,部分模型出现提取不完整和不连续的现象,DFFME-Net不仅提取更为完整,而且在边缘细节的捕捉上表现出色. 对于复杂建筑物提取,DFFME-Net无论是从整体提取效果还是细节处理上均优于其他模型. 在处理小型建筑物时,其他模型出现漏检现象,只有DFFME-Net将其完整地提取出来. 在判别与建筑物相似地物方面,由于背景颜色和轮廓的相似性,许多模型将非建筑物误判为建筑物,DFFME-Net准确地将建筑物与非建筑物区分开来,展现了其在复杂场景下的稳定性和准确性.

图 5

图 5   在Massachusetts建筑数据集上不同图像分割方法的定性比较

Fig.5   Qualitative comparison of different image segmentation methods on Massachusetts building dataset


3.2. 消融实验
3.2.1. 多尺度全局局部特征融合方法与双分支特征融合模块的有效性

为了验证所提方法和模块的有效性,在WHU建筑数据集上进行消融实验. 如表3所示,相比于基准模型,添加MGLFF的模型在多个重要指标上得到提升,其中交并比上增加了0.43个百分点,F1分数上增加了0.24个百分点,总体精度上增加了0.06个百分点. MGLFF的应用导致召回率稍微下降,精确率则显著上升,究其原因是MGLFF通过多尺度全局局部特征图融合平衡了模型对局部信息和全局信息的提取能力. DFFME-Net是在基准模型的基础上添加了MGLFF和DFM的模型,相比于只添加MGLFF的模型,DFFME-Net在5个指标上都得到提升,其中交并比上增加了0.54个百分点,F1分数增加了0.29个百分点,总体精度上增加了0.06个百分点. 该结果验证了将2个特征提取分支相互关联、协同指导特征提取策略的有效性,也证实了DFM的有效性. F1分数是综合了精确率和召回率的指标,在消融实验中,F1分数、交并比和总体精度指标均随着模块的增加而提升.

表 3   在WHU建筑数据集上多尺度全局局部特征融合方法和双分支特征融合模块的消融实验结果

Tab.3  Ablation study results of multi-scale global-local fusion method and dual-branch feature fusion module on WHU building dataset %

方法IoUF1PROA
基准模型90.8495.2094.8695.5498.93
+MGLFF91.2795.4495.5295.3598.99
+MGLFF+DFM91.8195.7395.9395.5399.05

新窗口打开| 下载CSV


3.2.2. 残差卷积模块的有效性

对DFM内部的RCM进行消融实验,结果如表4所示. RCM的作用是对全局局部特征图拼接之后进行特征融合,表4中不含RCM的模型各项性能指标在参与对比的方法中均为最低,含有1个、2个、4个RCM的模型性能差别不大,含有4个RCM的模型是其中最好的. 相比于不含RCM的模型,含有4个RCM的模型在交并比提升0.76个百分点,在F1分数提升0.41个百分点.

表 4   在WHU建筑数据集上残差卷积模块的消融实验结果

Tab.4  Ablation study results of residual convolution module on WHU building dataset %

方法IoUF1PROA
不含RCM91.0595.3295.2195.4298.96
含1个RCM91.7595.7095.9295.4899.04
含2个RCM91.7895.7295.9495.4999.04
含4个RCM91.8195.7395.9395.5399.05

新窗口打开| 下载CSV


3.2.3. 通道优先卷积注意力机制的有效性

对DFM内部的CPCA进行消融实验,结果如表5所示. CPCA能够动态地调整特征图的权重,强调对建筑物提取任务重要的特征,同时抑制不相关或噪声特征. 含有CPCA的网络在5个指标上都优于不含有CPCA机制的网络模型,其中交并比提升0.20个百分点,F1分数提升0.11个百分点.

表 5   在WHU建筑数据集上通道优先卷积注意力机制的消融实验结果

Tab.5  Ablation study results of channel prior convolutional attention mechanism on WHU building dataset %

方法IoUF1PROA
不含CPCA91.6195.6295.8395.4199.03
含有CPCA91.8195.7395.9395.5399.05

新窗口打开| 下载CSV


4. 结 语

本研究针对建筑物提取任务中存在的漏检和误检现象,提出基于BuildFormer的双分支特征融合与相互增强网络. 1)采用VGG13骨干网络并设计多尺度全局局部特征融合方法,提升模型对局部特征的提取能力和对不同尺度目标的处理能力. 2)双分支特征融合模块促进双分支间的协同作用,增强和平衡模型对全局上下文和局部细节信息的提取能力. 3)通道优先卷积注意力机制通过通道和空间协同优化提升模型对复杂背景区分能力. 4)在WHU建筑数据集和Massachusetts建筑数据集上的对比实验结果表明,DFFME-Net相较于对比模型提取精度更高. 未来将进一步优化网络结构,继续探索CNN和Transformer在遥感领域的潜力和应用.

参考文献

LI Q, MOU L, SUN Y, et al

A review of building extraction from remote sensing imagery: geometrical structures and semantic attributes

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 4702315

DOI:10.1109/tgrs.2024.3369723      [本文引用: 1]

CHEN S, OGAWA Y, ZHAO C, et al

Large-scale individual building extraction from open-source satellite imagery via super-resolution-based instance segmentation approach

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 195: 129- 152

DOI:10.1016/j.isprsjprs.2022.11.006     

HE W, LI J, CAO W, et al. Building extraction from remote sensing images via an uncertainty-aware network [EB/OL]. (2023–07–03) [2025–04–01]. https://arxiv.org/pdf/2307.12309.

GUO H, SU X, WU C, et al

Decoupling semantic and edge representations for building footprint extraction from remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5613116

DOI:10.1109/tgrs.2023.3287298      [本文引用: 1]

CHEN M, MAO T, WU J, et al

SAU-Net: a novel network for building extraction from high-resolution remote sensing images by reconstructing fine-grained semantic features

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 6747- 6761

DOI:10.1109/JSTARS.2024.3371427      [本文引用: 1]

LIU J, GU H, LI Z, et al

Multi-scale feature fusion attention network for building extraction in remote sensing images

[J]. Electronics, 2024, 13 (5): 923

DOI:10.3390/electronics13050923      [本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. [S.l.]: Springer, 2015: 234–241.

[本文引用: 1]

LI R, ZHENG S, ZHANG C, et al

Multiattention network for semantic segmentation of fine-resolution remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5607713

[本文引用: 3]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]: Curran Associates Inc., 2017: 6000–6010.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2021–06–03) [2025–04–01]. https://arxiv.org/pdf/2010.11929.

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 9992–10002.

[本文引用: 1]

CAO H, WANG Y, CHEN J, et al. Swin-Unet: Unet-like pure Transformer for medical image segmentation [C]// Computer Vision–ECCV 2022 Workshops. [S.l.]: Springer, 2023: 205–218.

[本文引用: 3]

LONG J, LI M, WANG X

Integrating spatial details with long-range contexts for semantic segmentation of very high-resolution remote-sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 2501605

[本文引用: 1]

CHANG J, CEN Y, CEN G

Asymmetric network combining CNN and transformer for building extraction from remote sensing images

[J]. Sensors, 2024, 24 (19): 6198

DOI:10.3390/s24196198     

YUAN Q

Building rooftop extraction from high resolution aerial images using multiscale global perceptron with spatial context refinement

[J]. Scientific Reports, 2025, 15: 6499

DOI:10.1038/s41598-025-91206-6     

CHEN J, LU Y, YU Q, et al. TransUNet: transformers make strong encoders for medical image segmentation [EB/OL]. (2021–02–08) [2025–04–01]. https://arxiv.org/pdf/2102.04306.

[本文引用: 1]

ZHANG R, ZHANG Q, ZHANG G

SDSC-UNet: dual skip connection ViT-based U-shaped model for building extraction

[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 6005005

DOI:10.1109/lgrs.2023.3270303     

ZHANG R, WAN Z, ZHANG Q, et al

DSAT-net: dual spatial attention transformer for building extraction from aerial images

[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 6008405

FU W, XIE K, FANG L

Complementarity-aware local–global feature fusion network for building extraction in remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5617113

XU L, LI Y, XU J, et al

BCTNet: bi-branch cross-fusion transformer for building footprint extraction

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 4402014

LI Y, HONG D, LI C, et al

HD-Net: high-resolution decoupled network for building footprint extraction via deeply supervised body and boundary decomposition

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 209: 51- 65

DOI:10.1016/j.isprsjprs.2024.01.022      [本文引用: 1]

WANG L, LI R, DUAN C, et al

A novel transformer based semantic segmentation scheme for fine-resolution remote sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 6506105

DOI:10.1109/lgrs.2022.3143368      [本文引用: 3]

WANG L, FANG S, MENG X, et al

Building extraction with vision transformer

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5625711

[本文引用: 4]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015–04–10) [2025–04–01]. https://arxiv.org/pdf/1409.1556.

[本文引用: 1]

YOO J, KIM T, LEE S, et al. Enriched CNN-transformer feature aggregation networks for super-resolution [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 4945–4954.

[本文引用: 1]

HUANG H, CHEN Z, ZOU Y, et al

Channel prior convolutional attention for medical image segmentation

[J]. Computers in Biology and Medicine, 2024, 178: 108784

DOI:10.1016/j.compbiomed.2024.108784      [本文引用: 1]

JI S, WEI S, LU M

Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57 (1): 574- 586

DOI:10.1109/TGRS.2018.2858817      [本文引用: 1]

MNIH V. Machine learning for aerial image labeling [D]. Toronto: University of Toronto, 2013.

[本文引用: 1]

/