浙江大学学报(工学版), 2022, 56(10): 1924-1934 doi: 10.3785/j.issn.1008-973X.2022.10.004

自动化技术、信息工程

基于多重多尺度融合注意力网络的建筑物提取

杨栋杰,, 高贤君,, 冉树浩, 张广斌, 王萍, 杨元维

1. 长江大学 地球科学学院,湖北 武汉 430100

2. 中国科学院 空天信息创新研究院,北京 100094

3. 海南省地球观测重点实验室,海南 三亚 572029

4. 湖南科技大学 测绘遥感信息工程湖南省重点实验室,湖南 湘潭 411201

5. 北京市测绘设计研究院 城市空间信息工程北京市重点实验室,北京 100045

Building extraction based on multiple multiscale-feature fusion attention network

YANG Dong-jie,, GAO Xian-jun,, RAN Shu-hao, ZHANG Guang-bin, WANG Ping, YANG Yuan-wei

1. School of Geosciences, Yangtze University, Wuhan 430100, China

2. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China

3. Key Laboratory of Earth Observation of Hainan Province, Sanya 572029, China

4. Hunan Provincial Key Laboratory of Geo-Information Engineering in Surveying, Mapping and Remote Sensing, Hunan University of Science and Technology, Xiangtan 411201, China

5. Beijing Key Laboratory of Urban Spatial Information Engineering, Beijing Institute of Surveying and Mapping, Beijing 100045, China

通讯作者: 高贤君,女,副教授. orcid.org/0000-0002-4300-6395. E-mail: junxgao@yangtzeu.edu.cn

收稿日期: 2022-01-5  

基金资助: 海南省地球观测重点实验室开放基金资助项目(2020LDE001);自然资源部地理国情监测重点实验室开放基金资助项目(2020NGCM07);城市轨道交通数字化建设与测评技术国家工程实验室开放课题基金资助项目(2021ZH02);湖南科技大学测绘遥感信息工程湖南省重点实验室开放基金资助项目(E22133);城市空间信息工程北京市重点实验室经费资助项目(20210205)

Received: 2022-01-5  

Fund supported: 海南省地球观测重点实验室开放基金资助项目(2020LDE001);自然资源部地理国情监测重点实验室开放基金资助项目(2020NGCM07);城市轨道交通数字化建设与测评技术国家工程实验室开放课题基金资助项目(2021ZH02);湖南科技大学测绘遥感信息工程湖南省重点实验室开放基金资助项目(E22133);城市空间信息工程北京市重点实验室经费资助项目(20210205)

作者简介 About authors

杨栋杰(1990—),男,硕士生,从事高分辨遥感影像智能解译的研究.orcid.org/0000-0001-7815-3523.E-mail:2021710420@yangtzeu.edu.cn , E-mail:2021710420@yangtzeu.edu.cn

摘要

针对全卷积神经网络模型在进行建筑物提取时易产生过度分割以及内部空洞的问题,提出基于多重多尺度融合注意力网络(MMFA-Net)的高分辨率遥感影像建筑物提取方法. 该方法以U-Net为主体架构,设计2个模块:多重高效通道注意力(MECA)和多尺度特征融合注意力(MFA). MECA设计在模型跳跃连接中,通过权重配比强化有效特征信息,避免注意力向无效特征的过渡分配;采用多重特征提取,减少有效特征的损失. MFA被嵌入模型底部,结合并行连续中小尺度空洞卷积与通道注意力,获得不同的空间特征与光谱维度特征,缓解空洞卷积造成的大型建筑物像素缺失问题. MMFA-Net通过融合MECA和MFA,提高了建筑物提取结果的完整度和精确率. 将模型在WHU、Massachusetts和自绘建筑物数据集上进行验证,在定量评价方面优于其他5种对比方法,F1分数和IoU分别达到93.33%、87.50%;85.38%、74.49%和88.46%、79.31%.

关键词: 深度学习 ; 高分辨遥感影像 ; 建筑物提取 ; 多尺度特征融合 ; 高效通道注意力模块 ; U-Net

Abstract

A novel neural network named multiple multiscale-feature fusion attention network (MMFA-Net) was proposed for building segmentation from high-resolution remote sensing images aiming at the disadvantages that the fully convolutional networks for building extraction have the problems of over-segmentation and internal cavity. U-Net was used as the backbone combined with multiple-extract efficient channel attention (MECA) and multiscale-feature fusion attention (MFA) structure. The MECA module was designed to strengthen the effectiveness of the feature information through the weight ratio, which was in the skip connection. The transition allocation of attention to invalid features was avoided. The multiple feature extraction was adopted to reduce the loss of effective features. The MFA module was positioned at the bottom of the model. Different spatial features and spectral dimension features were obtained through the combination of parallel continuous medium or small-scale atrous convolution and channel attention. Then the problem of pixel loss of large buildings caused by atrous convolution was alleviated. The MMFA-Net integrating the MECA and the MFA modules can promote the integrity and accuracy of building extraction results. The proposed MMFA-Net was verified on WHU, Massachusetts, and owner-drawing building datasets. MMFA-Net showed better performance compared with the other five comparison methods. The F1-Score and IoU of MMFA-Net reached 93.33%, 87.50% at WHU datasets, 85.38%, 74.49% at Massachusetts datasets, and 88.46%, 79.31% at owner-drawing datasets, respectively.

Keywords: deep learning ; high-resolution remote sensing image ; building extraction ; multiscale-feature fusion ; efficient channel attention module ; U-Net

PDF (3454KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

杨栋杰, 高贤君, 冉树浩, 张广斌, 王萍, 杨元维. 基于多重多尺度融合注意力网络的建筑物提取. 浙江大学学报(工学版)[J], 2022, 56(10): 1924-1934 doi:10.3785/j.issn.1008-973X.2022.10.004

YANG Dong-jie, GAO Xian-jun, RAN Shu-hao, ZHANG Guang-bin, WANG Ping, YANG Yuan-wei. Building extraction based on multiple multiscale-feature fusion attention network. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(10): 1924-1934 doi:10.3785/j.issn.1008-973X.2022.10.004

建筑物作为重要的地物目标,探究其空间分布对城市的建设具有重要的意义. 精确、高效地从高分辨率遥感影像中提取建筑是目前遥感影像处理及应用领域的重点研究方向[1].

传统的建筑物提取方法大多利用高分辨率遥感影像丰富的光谱、纹理、几何和空间等特征,对图像进行分割和特征提取[2],获得高分辨率遥感影像中的建筑物. 冉树浩等[3]利用建筑物的几何特征和阴影进行特征提取,但在阴影重叠区域的提取结果欠佳. Jung等[4]通过窗口Hough的变换提取矩形建筑的角点特征,实现矩形屋顶的提取,但当建筑物角点被遮挡时,无法精确地提取建筑物. 总体而言,人工设计的特征容易受外界影响产生明显的变化[5].

近十年,随着计算机软硬件技术的高速发展,深度学习技术随之兴起并被广泛应用. 早期卷积神经网络(convolutional neural networks, CNN)主要被用于图像分类[6-8]和目标检测[9]. Ball等[10]利用深度学习的方法对遥感影像进行提取. Mnih[11]将CNN应用于建筑物提取,但是该方法会导致大量的重复计算,严重影响图像分割效率. 为了解决上述问题,Long等[12]在CNN的基础上,提出全卷积神经网络(full convolutional neural, FCN)用于语义分割任务,逐步成为众多语义分割网络的基本框架.

Ronneberger等[13]以FCN为基础提出U-Net,该网络利用跳跃连接结构实现了深层和浅层特征的融合,提高了分割精度,在建筑物提取任务中得到了广泛应用. 为了进一步提高建筑物的提取效果,研究人员在U-Net的基础上,提出神经网络DeepResUnet[14]和BRRNet[15]. 这些网络的跳跃连接层容易导致低维特征值的过度引用,造成图像的错分和漏分. Chen等[16-17]提出空间金字塔池化(ASPP)模块,该模块利用不同空洞率的卷积提取不同尺度的特征值. 更大空洞率在带来更大视野的同时,会导致有效特征值的过度损失. 冉树浩等[18]提出BMFR-Net,该网络通过并行连续空洞卷积,改善了空洞卷积带来的信息丢失,但网络没有重点提取建筑物的特征,减少非建筑物特征的提取.

近年来,注意力机制被广泛应用于计算机视觉领域,其中代表性网络为SE-Net(squeeze-and-excitation networks)[19]. 该网络通过获得每个特征通道的重要程度,突出首要特征,为CNN结构模型带来一定的性能增幅. Gao等[20-22]通过捕获更加复杂的相关通道的依存关系改善通道注意力,或者利用添加空间注意力机制的方法来改进注意力机制模块.

现有的通道注意力机制在提高精度的同时为网络引入了更多的训练参数,增加了模型的复杂度. 针对上述问题,本文在通道注意力[23](efficient channel attention, ECA)的基础上,提出多重提取高效通道注意机制(multiple-extract efficient channel attention, MECA)模块. 为了进一步优化网络性能,增强网络判决能力,设计多尺度融合注意力(multiscale-feature fusion attention, MFA)模块,构建新型的轻量级建筑物提取网络MMFA-Net.

1. 网络及算法

1.1. U-Net网络的介绍

U-Net由1个编码过程、1个解码过程及跳跃连接层组成,形状如同U字型. 在该网络中,编码器能够提取图像浅层的低维特征,解码器用于还原各层的特征图,跳跃连接用于将编码器的特征图和解码器相应尺度的特征图结合. 这不仅有利于训练期间的反向传播,而且弥补了高层次语义特性的低级细节.

1.2. MECA多重提取高效通道注意力机制

FCN-8s、FCN-16s、FCN-32s[12]网络主要利用不同尺度的上采样操作逐步恢复目标的详细信息,U-Net通过跳跃连接实现了特征图的二次利用,帮助实现解码器从编码器路径中恢复目标的详细信息,但这种方法会导致低维特征值的过度使用. 受注意力机制的启发,在U-Net中引入多重提取高效通道注意力机制(MECA),以增强有效的低维特征,抑制无效特征. MECA模块的结构如图1所示. 采用自适应一维卷积核和不降维的跨通道交互策略,增强有效的低维特征信息的表达,去除噪声,避免低维特征被过度使用,旨在保护网络的效率和有效性,有助于学习建筑物特征对应的通道,更好地提取建筑物特征.

图 1

图 1   MECA模块图

Fig.1   MECA model diagram


最终权重的计算过程如下:

$ {\omega_{{i}}} = \sigma {\left(\sum\nolimits_{j{\text{ = 1}}}^k {{{(w_i^jy_i^j)}_1}} +\sum\nolimits_{j{\text{ = 1}}}^k {(w_i^jy_i^j} )_2\right)};\;y_i^j \in \varOmega _i^k. $

式中: $\sigma $为激活函数, $ {y_i} $为信道, ${\omega_i}$为信道 $ {y_i} $的权重, $\varOmega $为与 $ {y_i} $相邻的 $k$个信道. 该权重由各个相邻通道的信息获得. 自适应卷积核 $k$的计算过程如下所示:

$ k = {\left| {\frac{{{{\log }_2}C}}{\gamma }+\frac{b}{\gamma }} \right|_{{\text{odd}}}}. $

式中: $\gamma $$b$分别取2和1, $C$为通道维度, ${\left| t \right|_{{\text{odd}}}}$为最近的奇数 $t$. 全局平均池化(global average pooling, GAP)[24]对每一个特征图进行平局值的操作,形成含有 $n$个元素的列向量,其中 $n$为需要分类的类别数. GAP不仅可以提高计算效率,而且对输入的空间信息变化具有更强的鲁棒性. 全局最大池化(global max pooling, GMP)只关注整个特征图中的最大值,忽视了特征图的剩余部分. 相比之下,GAP更容易获得整体特征信息,因此选用GAP获取全局特征信息. 单次GAP运算易导致少量关键特征值的漏提,为了防止重要特征的遗漏,加强整体有效特征值的提取,对原始ECA[23]网络模型进行改进,提出MECA模块. 通过并行2次全局平均池化及一维卷积运算,开展特征融合,强化了部分重要特征值的提取能力. 为了实现以上思想,采用卷积核大小为 $k$的自适应一维卷积,实现信道及相邻的 $k - 1$个信道间的信息交互,如下所示:

$ {\boldsymbol{\omega}} = \sigma ({({\text{C}}1{{\text{D}}_k}({\boldsymbol{y}}))_1}+{({\text{C}}1{{\text{D}}_k}({\boldsymbol{y}}))_2}). $

式中: $ {\text{C}}1{{\text{D}}_k} $为卷积核为 $k$的一维卷积, ${\left( {{\text{C}}1{{\text{D}}_k}} \right)_1}$${\left( {{\text{C}}1{{\text{D}}_k}} \right)_2}$为2次独立的一维卷积, ${\boldsymbol{y}}$为信道.

1.3. MFA多尺度融合注意力

在高分辨遥感影像中,常存在建筑物密集分布及尺寸大小不一的现象,导致在建筑物提取过程中存在建筑与非建筑物易混淆的问题. 在模型底层设计多尺度融合注意力模块(MFA),通过多尺度的特征提取与融合,实现模型对不同尺寸建筑物的自适应提取. 利用注意力机制旨在增强兴趣的建筑物部分,弱化不相关的背景区域. MFA的结构如图2所示. 计算过程如下所示:

图 2

图 2   MFA模块图

Fig.2   MFA model diagram


$ \begin{split} {{\boldsymbol{F}}_{\text{P}}} = {\boldsymbol{F}} \otimes \sigma ({({\text{C}}1{{\text{D}}_k}{\boldsymbol{(y))}}_{\text{1}}}+{({\text{C}}1{{\text{D}}_k}({\boldsymbol{y}}))_2)}+ (({\boldsymbol{F}}*{\boldsymbol{\phi}} _1^1)* \\ [({\boldsymbol{\phi}} _3^1\delta *{\boldsymbol{\phi}} _3^2\delta *{\boldsymbol{\phi}} _3^3\delta )+({\boldsymbol{\phi}} _3^1\delta *{\boldsymbol{\phi}} _3^3\delta *{\boldsymbol{\phi}} _{\text{3}}^{\text{5}}\delta )]{{*}}({\boldsymbol{F}}*{\boldsymbol{\phi}} _1^1). \end{split} $

式中: ${\boldsymbol{F}} \in {{\bf{R}}^{C \times H \times W}}$为输入特征, ${{\boldsymbol{F}}_{\text{P}}} \in {{\bf{R}}^{C \times H \times W}}$为输出特征, $ \otimes $为元素乘积; ${\boldsymbol{\phi}} _{{k_1}}^D $为空洞卷积结果,其中 ${k_1}$为卷积核的大小, $D$为空洞率; $\delta $为BN[25]层和Sigmoid激活函数;“ $* $”为卷积运算. 该模块的多尺度融合设计来源于混合空洞卷积(HDC)[26]的思想,以实现对输入特征中不同尺寸特征值的提取,缓解不同尺度特征提取中重要信息的损失. 模块融合注意力机制思想来源于高效通道注意力ECA[23],旨在增强网络的语义分割能力,通过高效、自动地获取各个通道的重要程度并赋予权重,达到增强首要特征的效果.

1.4. 网络模型整体结构MMFA-Net

提出MMFA-Net,该模型以U-Net网络为主干,在跳跃连接层内嵌入MECA,在底层加MFA确保首要信息的保留,防止重要信息的丢失. 通过MECA注意力门控制关注区域,提取重要特征值,提高建筑物的提取精度;在每次卷积之后添加BN[25]层,改善网络的梯度. 在模型底部加入MFA,在不同尺度上对影像进行提取,改善了有效特征的丢失;利用注意力思想,保留重要特征,删减次要特征. 该模型平衡了计算效率和计算参数,在一定程度上提高了网络的精度. 如图3所示为网络模型的整体结构.

图 3

图 3   MMFA-Net模型图

Fig.3   MMFA-Net model diagram


2. 实验与分析

2.1. 建筑物数据集介绍

Massachusetts建筑物数据集由Mnih[11]在2013年开放,包含了155个波士顿地区的航空图像和建筑物标签图像. 图像分辨率为1 m,每个图像的大小为1 500×1 500像素. 因为计算机的显存不足,将所有图像修整到256×256像素,得到训练图像4 392张,验证图像144张,测试图像360张. 如图4(a)所示为部分影像与对应的建筑物标签数据.

图 4

图 4   建筑物数据集影像及对应标签

Fig.4   Building datasets images and corresponding label images


WHU[27]建筑物数据集图覆盖了新西兰克赖斯特彻奇大约450 km2的区域,由3部分构成:18 944幅影像的训练集、4 144幅影像的验证集和9 664幅影像的测试集. 受限于GPU,所有影像均为256×256像素,空间分辨率均为0.3 m. 如图4(b)所示为部分影像与对应的建筑物标签数据.

自绘建筑物数据集是阿灵顿市东北部区域的RGB影像. 该数据集由3部分构成:5 112幅影像的训练集、532幅影像的验证集和2 000幅影像的测试集. 所有影像均为256×256像素,空间分辨率为0.54 m,如图4(c)、(d)所示为完整影像与对应的建筑物标签数据.

2.2. 实验条件的设置及评价指标

所有实验是基于TensorFlow1.14和Keras2.24深度学习框架实现的. 服务器操作系统为64位的window10,配备了拥有11 GB显存的NVIDIA GeForce RTX 2080Ti,以加速网络训练. 训练参数如表1所示.

表 1   训练参数表

Tab.1  Table of training parameters

参数 数值
输入图像像素 256×256
优化器 Adam[28]
学习率 0.0001
每次训练选取样本数 6
在Massachusetts数据集上的训练轮数 200
在WHU数据集上的训练轮数 50
在自绘数据集上的训练轮数 200

新窗口打开| 下载CSV


2.2.1. 评价指标

选择5种常用于语义分割任务的评估度量,评估实验结果包括总精度OA、准确度P、召回率RF1分数F1、交并比IoU,公式如下.

$ {\text{OA = }}\frac{{{\text{TP+TN}}}}{{{\text{TP+TN+FP+FN}}}}, $

$ P = \frac{{{\text{TP}}}}{{{\text{TP+FP}}}}, $

$ R = \frac{{{\text{TP}}}}{{{\text{TP+FN}}}}, $

$ {{{F}}_{\text{1}}} = \frac{{2 PR}}{{P+R}}, $

$ {\text{IoU = }}\frac{{{\text{TP}}}}{{{\text{TP+FP+FN}}}}{\text{.}} $

式中:TP为真实的建筑物像素被分类为建筑物像素的数量,FN为真实的建筑物像素被分类为背景像素的数量,FP为背景像素被分类为建筑物像素的数量,TN为背景像素被分类为背景像素的数量.

2.2.2. 损失函数

模型采用Dice loss[29]作为损失函数,以应对样本中建筑物像素与背景像素数目不均衡的问题. Dice loss的计算过程如下所示:

$ {\text{Dice}} = 1 - \frac{{2 \displaystyle\sum\limits_{i = 1}^N {({g_i} {p_i})} }}{{\displaystyle\sum\limits_{i = 1}^N {{g_i}} +\displaystyle\sum\limits_{i = 1}^N {{p_i}} }}. $

式中: $N$为总像素数目; ${g_i}$为标准参考结果中第 $i$个像素是否属于建筑物,若属于建筑物则 ${g_i} = 1$,否则 ${g_i} = 0$${p_i}$为预测图中第 $i$个像素为建筑的概率.

2.3. 实验结果和分析

为了有效评估MMFA-Net的精度性能,将MMFA-Net与U-Net[13]、SegNet[30]、DeepLabV3+[31]、MAP-Net[32]及BRRNet[15]网络进行对比. 其中U-Net、SegNet和DeepLabV3+的模型结构均为与本文类似的编解码结构,且U-Net为MMFA-Net的主体框架. SegNet具有独特的池化索引结构,DeepLabV3+是DeepLab系列最新的一个. 考虑到残差结构和空洞卷积对神经网络的影响,选择BRRNet作为对比实验. 将MMFA-Net与具有多通道分支结构的建筑物提取网络MAP-Net进行对比.

2.3.1. Massachusetts建筑物数据集的实验结果和分析

在Massachusetts建筑物数据集上的定量评估结果如表2所示,MMFA-Net在所有评估指标中拥有最佳的性能. MMFA-Net的IoU和F1与基准U-Net相比,分别提高了2.58%和1.72%. 将本文方法与其他4种网络模型对比,在召回率和总精度上较F1第二的BRRNet分别提高了3.02%和0.44%,这表明MMFA-Net对于改善建筑物提取的正确率和完整度具有一定的作用. 可视化实验结果如图5所示. 可知,利用本文方法提取的建筑物FN、FP最少,完整性最好. 如图5的第1、2、4行所示,当建筑物与周边路面光谱相似时,其他对比方法容易产生混淆出现错分和漏分的现象. 第3行中,由于大量树木和阴影的遮挡,容易造成“异物同谱”信息混乱. 第5、6行中,由于所提建筑物与周边颜色相似、建筑物较大且建筑物顶层存在异物,利用一些对比方法无法正确地进行区分,易在建筑物内部产生空洞现象. 针对以上情况,在跳跃连接中引入注意力机制MECA,利用权重分配的方式能够更好地得到有效特征信息,避免无效特征被重复使用,通过多重注意力进一步强化重要特征信息的提取. 模型在底层加入多尺度融合注意力MFA,利用多尺度提取特征值,减缓大尺度建筑物的漏分现象. 通过目视评价及定量评价,利用该方法能够适应不同场景的建筑物提取,在一定程度上改善了光谱混乱的问题,提高了提取特征的完整性,结果优于其他几种方法.

表 2   在Massachusetts建筑物数据集上与其他5种建筑物提取网络的定量对比

Tab.2  Quantitative evaluation of five building extraction networks on Massachusetts building dataset

网络模型 OA/% P/% R/% IoU/% F1/%
U-Net 94.01 85.33 82.06 71.91 83.66
SegNet 93.42 81.24 84.22 70.51 82.70
DeepLabV3+ 93.25 81.17 83.15 69.70 82.15
MAP-Net 93.88 84.10 82.91 71.68 83.50
BRRNet 94.01 84.10 83.77 72.31 83.93
MMFA-Net 94.45 84.01 86.79 74.49 85.38

新窗口打开| 下载CSV


图 5

图 5   Massachusetts建筑物数据集上各种方法的建筑物提取结果

Fig.5   Building extraction results of various methods on Massachusetts building dataset


2.3.2. WHU建筑物数据集的实验结果及分析

在WHU建筑物数据集上的定量评估结果如表3所示. 与F1排名第二的MAP-Net相比,IoU和OA分别提高了1.23%和0.15%. 与其他4种对比方法相比,MMFA-Net在所有评估指标中拥有最佳的性能,说明本文方法对不同类型的数据集有一定的迁移泛化能力和实用性. 可视化实验结果如图6所示. 通过对比可知,本文方法的误检、漏检区域最少. 如影像的第1、2、3行所示,由于树木的遮挡,导致光谱错乱,易出现错分现象. 本文方法通过嵌入MECA,增强了网络对有效特征的提取,强化了建筑物与非建筑物之间的特征区别,改善了建筑物与非建筑物之间的错分问题. 在模型底层装备MFA,对不同尺度的建筑进行优化,减少了空洞卷积过程中重要信息的损失. 第4行由于建筑物顶部存在阴影,在建筑物提取时容易出现漏检,通过MECA进一步增强首要特征的提取,避免重要建筑物特征的丢失. 第5、6行由于建筑物与周边颜色相近,容易出现多选、漏选,通过有效信息的加强,在一定程度上改善了光谱信息混乱的问题,结果优于其他5种方法.

表 3   在WHU建筑物数据集上与其他5种先进建筑提取网络的定量对比

Tab.3  Quantitative evaluation of five building extraction networks on WHU building dataset

网络模型 OA/% P/% R/% IoU/% F1/%
U-Net 98.20 90.25 94.00 85.34 92.09
SegNet 98.21 91.38 92.69 85.24 92.03
DeepLabV3+ 98.12 90.14 93.28 84.64 91.68
MAP-Net 98.36 92.91 92.35 86.27 92.63
BRRNet 98.33 91.52 93.68 86.19 92.58
MMFA-Net 98.51 93.04 93.63 87.50 93.33

新窗口打开| 下载CSV


图 6

图 6   WHU建筑物数据集上各种方法的建筑物提取结果

Fig.6   Building extraction results of various methods on WHU building dataset


2.3.3. 自绘建筑物数据集的实验结果及分析

在自绘建筑物数据集上的定量评估结果如表4所示. 与F1排名第二的MAP-Net相比,IoU和OA分别提高了1.57%和0.25%. MMFA-Net与其他对比方法相比,在其他评估指标中具有最优的性能,说明本文方法具有一定的普适性. 如图78所示为利用不同方法得到的大面积建筑物的提取结果. 图中,底部2行为框出区域建筑物提取结果放大图. 通过视觉观察分析可知,本文方法与对比网络模型相比,结果最佳. 如图7的底部第1行所示,当建筑物周围存在树木遮挡的情况时,易造成光谱信息混乱,出现漏分. 如图7底部的第2行所示,建筑物形状不规则,阴影处易出现错分. 如图8底部的第1、2行所示,大型建筑物在进行特征提取时,内部易出现空洞;当屋顶材质各异时,容易出现漏分. 针对以上问题,利用MECA增强了建筑物特征的提取,减少了错分的现象. 通过在模型底部引入MFA,加强了对不同尺度建筑物的提取,缓解了建筑物内部像素缺失的现象.

表 4   自绘建筑物数据集上与其他5种先进建筑提取网络的定量对比

Tab.4  Quantitative evaluation of five building extraction networks on owner-drawing building dataset

网络模型 OA/% P/% R/% IoU/% F1/%
U-Net 94.63 88.85 80.48 73.10 84.46
SegNet 95.31 89.62 83.88 76.45 86.65
DeepLabV3+ 94.75 92.93 76.90 72.65 84.16
MAP-Net 95.69 92.55 82.93 77.74 87.48
BRRNet 95.51 91.24 83.26 77.10 87.07
MMFA-Net 95.94 91.40 85.71 79.31 88.46

新窗口打开| 下载CSV


2.3.4. 与5种方法的参数量和训练时间的比较

网络模型参数量Pm与训练时间t是评价模型的重要指标. 如图9(a)所示,MMFA-Net以U-Net为主干,所以MMFA-Net与U-Net参数量接近3 068万. 如图9(b)所示,MMFA-Net添加了MECA及MFA,因此计算时间多于U-Net. 鉴于SegNet池化索引结构复杂,本文模型与SegNet相比,训练时间只有一半左右. 本文方法与训练时间和参数量较接近的DeepLabV3+相比,效果更好,精度更高;与MAP-Net和BRRNet相比,训练时间更短,可以取得更好的提取效果. 综上所述,利用本文方法均衡了参数量与训练时间,与其他5种网络模型相比,综合提取效果更好.

图 7

图 7   自绘建筑物数据集上各种方法的建筑物提取结果

Fig.7   Building extraction results by different methods on owner-drawing buildings dataset


图 8

图 8   自绘建筑物数据集上各种方法的大建筑物提取结果

Fig.8   Big building extraction results by different methods on owner-drawing buildings dataset


图 9

图 9   总参数量与训练时间

Fig.9   Total parameters and training time


2.4. 结果讨论
2.4.1. MMFA-Net消融实验

为了验证MMFA-Net各模块对模型性能的影响情况,将U-Net作为基准方法,在Massachusetts数据集上开展消融实验分析. 如表5所示为实验定量评价结果. 与ECA相比,MECA通过2次全局平均池化(GAP)保留建筑物特征. 通过在模型底层添加MFA,完善对不同尺度建筑的提取. 从表5可知,在对U-Net引入本文所提的各项模块以后,IoU、F1和OA均得到了显著提升.

表 5   在Massachusetts建筑物数据集上进行消融实验的定量评价结果

Tab.5  Quantitative evaluation results with different fusion modules in Massachusetts building dataset

网络模型 OA/% P/% R/% IoU/% F1/%
U-Net 94.01 85.33 82.06 71.91 83.66
U-Net+ECA 94.26 86.58 82.01 72.76 84.23
U-Net+MECA 94.38 85.52 84.19 73.69 84.85
U-Net+MECA+MFA(MMFA) 94.45 84.01 86.79 74.49 85.38

新窗口打开| 下载CSV


2.4.2. MECA模块消融实验分析

通过实验证明,与3次、4次和5次独立一维卷积的融合相比,2次独立卷积的精度最高,表现最好. 消融实验结果如表6所示.

表 6   在Massachusetts建筑物数据集上与不同次数独立一维卷积融合的定量对比

Tab.6  Quantitative comparison with independent one-dimensional convolution fusion at different times in Massachusetts building dataset

网络模型 OA/% P/% R/% IoU/% F1/%
MMFA(2次) 94.45 84.01 86.79 74.49 85.38
MMFA(3次) 94.37 86.81 82.38 73.22 84.54
MMFA(4次) 93.64 81.78 84.88 71.38 83.30
MMFA(5次) 94.17 85.43 82.92 72.65 84.16

新窗口打开| 下载CSV


3. 结 语

针对高分辨遥感影像的建筑物提取,本文提出多重多尺度融合注意力网络. 该网络在跳跃连接中引入多重高效通道注意力模块,从低维特征中突出有效的建筑物特征. 在模型底部嵌入多尺度融合注意力模块,利用高效通道注意力增强有效特征,通过不同膨胀率的卷积扩大感受野,改善对不同尺度建筑物的提取. 在Massachusetts、WHU和自绘建筑物数据集上的试验结果表明,与其他5种对比方法相比,MMFA-Net提高了提取建筑物的精度. 本文方法过度依赖人工标签数据,导致网络运行成本过高,存在模型参数量过大的问题,构建轻量化的弱监督网络是未来研究的趋势.

参考文献

范荣双, 陈洋, 徐启恒, 等

基于深度学习的高分辨率遥感影像建筑物提取方法

[J]. 测绘学报, 2019, 48 (1): 34- 41

DOI:10.11947/j.AGCS.2019.20170638      [本文引用: 1]

FAN Rong-shuang, CHEN Yang, XU Qi-heng, et al

A high-resolution remote sensing image building extraction method based on deep learning

[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48 (1): 34- 41

DOI:10.11947/j.AGCS.2019.20170638      [本文引用: 1]

BLASCHKE T

Object based image analysis for remote sensing

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65 (1): 2- 16

DOI:10.1016/j.isprsjprs.2009.06.004      [本文引用: 1]

冉树浩, 胡玉龙, 杨元维, 等

基于样本形态变换的高分遥感影像建筑物提取

[J]. 浙江大学学报: 工学版, 2020, 54 (5): 996- 1006

[本文引用: 1]

RAN Shu-hao, HU Yu-long, YANG Yuan-wei, et al

Building extraction from high resolution remote sensing image based on sample morphological transformation

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (5): 996- 1006

[本文引用: 1]

JUNG C R, SCHRAMM R. Rectangle detection based on a windowed Hough transform [C]// Proceedings of 17th Brazilian Symposium on Computer Graphics and Image Processing. Curitiba: IEEE, 2004: 113-120.

[本文引用: 1]

季顺平, 魏世清

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

[J]. 测绘学报, 2019, 48 (4): 448- 459

DOI:10.11947/j.AGCS.2019.20180206      [本文引用: 1]

JI Shun-ping, WEI Shi-qing

Building extraction via convolutional neural networks from an open remote sensing building dataset

[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48 (4): 448- 459

DOI:10.11947/j.AGCS.2019.20180206      [本文引用: 1]

BOULILA W, SELLAMI M, DRISS M, et al

RS-DCNN: a novel distributed convolutional-neural-networks based-approach for big remote-sensing image classification

[J]. Computers and Electronics in Agriculture, 2021, 182: 106014

DOI:10.1016/j.compag.2021.106014      [本文引用: 1]

HAN W, FENG R, WANG L, et al

A semi-supervised generative framework with deep learning features for high-resolution remote sensing image scene classification

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 23- 43

DOI:10.1016/j.isprsjprs.2017.11.004     

AILONG M, YUTING W, YANFEI Z, et al

SceneNet: remote sensing scene classification deep learning network using multi-objective neural evolution architecture search

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 172: 171- 188

DOI:10.1016/j.isprsjprs.2020.11.025      [本文引用: 1]

SAITO S, YAMASHITA T, AOKI Y

Multiple object extraction from aerial imagery with convolutional neural networks

[J]. Electronic Imaging, 2016, 2016 (10): 1- 9

[本文引用: 1]

BALL J E, ANDERSON D T, CHAN C S

Comprehensive survey of deep learning in remote sensing: theories, tools, and challenges for the community

[J]. Journal of Applied Remote Sensing, 2017, 11 (4): 042609

[本文引用: 1]

MNIH V. Machine learning for aerial image labeling [D]. Canada: University of Toronto, 2013.

[本文引用: 2]

SHELHAMER E, LONG J, DARRELL T

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39 (4): 640- 651

[本文引用: 2]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.

[本文引用: 2]

YI Y, ZHANG Z, ZHANG W, et al

Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network

[J]. Remote Sensing, 2019, 11 (15): 1774

DOI:10.3390/rs11151774      [本文引用: 1]

SHAO Z, TANG P, WANG Z, et al

BRRNet: a fully convolutional neural network for automatic building extraction from high-resolution remote sensing images

[J]. Remote Sensing, 2020, 12 (6): 1050

DOI:10.3390/rs12061050      [本文引用: 2]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (4): 834- 848

[本文引用: 1]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-12-05)[2022-01-05]. https://arxiv.53yu.com/abs/1706.05587.

[本文引用: 1]

RAN S H, GAO X J, YANG Y W, et al

Building multi-feature fusion refined network for building extraction from high-resolution remote sensing images

[J]. Remote Sensing, 2021, 13 (14): 2794

DOI:10.3390/rs13142794      [本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

GAO Z, XIE J, WANG Q, et al. Global second-order pooling convolutional networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3024-3033.

[本文引用: 1]

FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3146-3154.

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n. ], 2018: 3-19.

[本文引用: 1]

WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S. l. ]: IEEE, 2020.

[本文引用: 3]

LIN M, CHEN Q, YAN S. Network in network [EB/OL]. (2014-03-04)[2022-01-05]. https://arxiv.org/abs/1312.4400.

[本文引用: 1]

IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// International Conference on Machine Learning. Lille: PMLR, 2015: 448-456.

[本文引用: 2]

WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation [C]// 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 1451-1460.

[本文引用: 1]

JI S, WEI S, MENG L

Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 57 (1): 574- 586

[本文引用: 1]

KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30)[2022-01-05]. https://arxiv.org/abs/1412.6980.

[本文引用: 1]

MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation [C]// 2016 4th International Conference on 3D Vision. Stanford: IEEE, 2016: 565-571.

[本文引用: 1]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

Segnet: a deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2016.2644615      [本文引用: 1]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n. ], 2018: 801-818.

[本文引用: 1]

ZHU Q, LIAO C, HU H, et al

MAP-Net: multiple attending path neural network for building footprint extraction from remote sensed imagery

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59 (7): 6169- 6181

[本文引用: 1]

/