基于多重多尺度融合注意力网络的建筑物提取
Building extraction based on multiple multiscale-feature fusion attention network
通讯作者:
收稿日期: 2022-01-5
基金资助: |
|
Received: 2022-01-5
Fund supported: | 海南省地球观测重点实验室开放基金资助项目(2020LDE001);自然资源部地理国情监测重点实验室开放基金资助项目(2020NGCM07);城市轨道交通数字化建设与测评技术国家工程实验室开放课题基金资助项目(2021ZH02);湖南科技大学测绘遥感信息工程湖南省重点实验室开放基金资助项目(E22133);城市空间信息工程北京市重点实验室经费资助项目(20210205) |
作者简介 About authors
杨栋杰(1990—),男,硕士生,从事高分辨遥感影像智能解译的研究.orcid.org/0000-0001-7815-3523.E-mail:
针对全卷积神经网络模型在进行建筑物提取时易产生过度分割以及内部空洞的问题,提出基于多重多尺度融合注意力网络(MMFA-Net)的高分辨率遥感影像建筑物提取方法. 该方法以U-Net为主体架构,设计2个模块:多重高效通道注意力(MECA)和多尺度特征融合注意力(MFA). MECA设计在模型跳跃连接中,通过权重配比强化有效特征信息,避免注意力向无效特征的过渡分配;采用多重特征提取,减少有效特征的损失. MFA被嵌入模型底部,结合并行连续中小尺度空洞卷积与通道注意力,获得不同的空间特征与光谱维度特征,缓解空洞卷积造成的大型建筑物像素缺失问题. MMFA-Net通过融合MECA和MFA,提高了建筑物提取结果的完整度和精确率. 将模型在WHU、Massachusetts和自绘建筑物数据集上进行验证,在定量评价方面优于其他5种对比方法,F1分数和IoU分别达到93.33%、87.50%;85.38%、74.49%和88.46%、79.31%.
关键词:
A novel neural network named multiple multiscale-feature fusion attention network (MMFA-Net) was proposed for building segmentation from high-resolution remote sensing images aiming at the disadvantages that the fully convolutional networks for building extraction have the problems of over-segmentation and internal cavity. U-Net was used as the backbone combined with multiple-extract efficient channel attention (MECA) and multiscale-feature fusion attention (MFA) structure. The MECA module was designed to strengthen the effectiveness of the feature information through the weight ratio, which was in the skip connection. The transition allocation of attention to invalid features was avoided. The multiple feature extraction was adopted to reduce the loss of effective features. The MFA module was positioned at the bottom of the model. Different spatial features and spectral dimension features were obtained through the combination of parallel continuous medium or small-scale atrous convolution and channel attention. Then the problem of pixel loss of large buildings caused by atrous convolution was alleviated. The MMFA-Net integrating the MECA and the MFA modules can promote the integrity and accuracy of building extraction results. The proposed MMFA-Net was verified on WHU, Massachusetts, and owner-drawing building datasets. MMFA-Net showed better performance compared with the other five comparison methods. The F1-Score and IoU of MMFA-Net reached 93.33%, 87.50% at WHU datasets, 85.38%, 74.49% at Massachusetts datasets, and 88.46%, 79.31% at owner-drawing datasets, respectively.
Keywords:
本文引用格式
杨栋杰, 高贤君, 冉树浩, 张广斌, 王萍, 杨元维.
YANG Dong-jie, GAO Xian-jun, RAN Shu-hao, ZHANG Guang-bin, WANG Ping, YANG Yuan-wei.
建筑物作为重要的地物目标,探究其空间分布对城市的建设具有重要的意义. 精确、高效地从高分辨率遥感影像中提取建筑是目前遥感影像处理及应用领域的重点研究方向[1].
Ronneberger等[13]以FCN为基础提出U-Net,该网络利用跳跃连接结构实现了深层和浅层特征的融合,提高了分割精度,在建筑物提取任务中得到了广泛应用. 为了进一步提高建筑物的提取效果,研究人员在U-Net的基础上,提出神经网络DeepResUnet[14]和BRRNet[15]. 这些网络的跳跃连接层容易导致低维特征值的过度引用,造成图像的错分和漏分. Chen等[16-17]提出空间金字塔池化(ASPP)模块,该模块利用不同空洞率的卷积提取不同尺度的特征值. 更大空洞率在带来更大视野的同时,会导致有效特征值的过度损失. 冉树浩等[18]提出BMFR-Net,该网络通过并行连续空洞卷积,改善了空洞卷积带来的信息丢失,但网络没有重点提取建筑物的特征,减少非建筑物特征的提取.
现有的通道注意力机制在提高精度的同时为网络引入了更多的训练参数,增加了模型的复杂度. 针对上述问题,本文在通道注意力[23](efficient channel attention, ECA)的基础上,提出多重提取高效通道注意机制(multiple-extract efficient channel attention, MECA)模块. 为了进一步优化网络性能,增强网络判决能力,设计多尺度融合注意力(multiscale-feature fusion attention, MFA)模块,构建新型的轻量级建筑物提取网络MMFA-Net.
1. 网络及算法
1.1. U-Net网络的介绍
U-Net由1个编码过程、1个解码过程及跳跃连接层组成,形状如同U字型. 在该网络中,编码器能够提取图像浅层的低维特征,解码器用于还原各层的特征图,跳跃连接用于将编码器的特征图和解码器相应尺度的特征图结合. 这不仅有利于训练期间的反向传播,而且弥补了高层次语义特性的低级细节.
1.2. MECA多重提取高效通道注意力机制
图 1
最终权重的计算过程如下:
式中:
式中:
式中:
1.3. MFA多尺度融合注意力
在高分辨遥感影像中,常存在建筑物密集分布及尺寸大小不一的现象,导致在建筑物提取过程中存在建筑与非建筑物易混淆的问题. 在模型底层设计多尺度融合注意力模块(MFA),通过多尺度的特征提取与融合,实现模型对不同尺寸建筑物的自适应提取. 利用注意力机制旨在增强兴趣的建筑物部分,弱化不相关的背景区域. MFA的结构如图2所示. 计算过程如下所示:
图 2
式中:
1.4. 网络模型整体结构MMFA-Net
图 3
2. 实验与分析
2.1. 建筑物数据集介绍
图 4
图 4 建筑物数据集影像及对应标签
Fig.4 Building datasets images and corresponding label images
自绘建筑物数据集是阿灵顿市东北部区域的RGB影像. 该数据集由3部分构成:5 112幅影像的训练集、532幅影像的验证集和2 000幅影像的测试集. 所有影像均为256×256像素,空间分辨率为0.54 m,如图4(c)、(d)所示为完整影像与对应的建筑物标签数据.
2.2. 实验条件的设置及评价指标
所有实验是基于TensorFlow1.14和Keras2.24深度学习框架实现的. 服务器操作系统为64位的window10,配备了拥有11 GB显存的NVIDIA GeForce RTX 2080Ti,以加速网络训练. 训练参数如表1所示.
表 1 训练参数表
Tab.1
参数 | 数值 |
输入图像像素 | 256×256 |
优化器 | Adam[28] |
学习率 | 0.0001 |
每次训练选取样本数 | 6 |
在Massachusetts数据集上的训练轮数 | 200 |
在WHU数据集上的训练轮数 | 50 |
在自绘数据集上的训练轮数 | 200 |
2.2.1. 评价指标
选择5种常用于语义分割任务的评估度量,评估实验结果包括总精度OA、准确度P、召回率R、F1分数F1、交并比IoU,公式如下.
式中:TP为真实的建筑物像素被分类为建筑物像素的数量,FN为真实的建筑物像素被分类为背景像素的数量,FP为背景像素被分类为建筑物像素的数量,TN为背景像素被分类为背景像素的数量.
2.2.2. 损失函数
模型采用Dice loss[29]作为损失函数,以应对样本中建筑物像素与背景像素数目不均衡的问题. Dice loss的计算过程如下所示:
式中:
2.3. 实验结果和分析
2.3.1. Massachusetts建筑物数据集的实验结果和分析
在Massachusetts建筑物数据集上的定量评估结果如表2所示,MMFA-Net在所有评估指标中拥有最佳的性能. MMFA-Net的IoU和F1与基准U-Net相比,分别提高了2.58%和1.72%. 将本文方法与其他4种网络模型对比,在召回率和总精度上较F1第二的BRRNet分别提高了3.02%和0.44%,这表明MMFA-Net对于改善建筑物提取的正确率和完整度具有一定的作用. 可视化实验结果如图5所示. 可知,利用本文方法提取的建筑物FN、FP最少,完整性最好. 如图5的第1、2、4行所示,当建筑物与周边路面光谱相似时,其他对比方法容易产生混淆出现错分和漏分的现象. 第3行中,由于大量树木和阴影的遮挡,容易造成“异物同谱”信息混乱. 第5、6行中,由于所提建筑物与周边颜色相似、建筑物较大且建筑物顶层存在异物,利用一些对比方法无法正确地进行区分,易在建筑物内部产生空洞现象. 针对以上情况,在跳跃连接中引入注意力机制MECA,利用权重分配的方式能够更好地得到有效特征信息,避免无效特征被重复使用,通过多重注意力进一步强化重要特征信息的提取. 模型在底层加入多尺度融合注意力MFA,利用多尺度提取特征值,减缓大尺度建筑物的漏分现象. 通过目视评价及定量评价,利用该方法能够适应不同场景的建筑物提取,在一定程度上改善了光谱混乱的问题,提高了提取特征的完整性,结果优于其他几种方法.
表 2 在Massachusetts建筑物数据集上与其他5种建筑物提取网络的定量对比
Tab.2
网络模型 | OA/% | P/% | R/% | IoU/% | F1/% |
U-Net | 94.01 | 85.33 | 82.06 | 71.91 | 83.66 |
SegNet | 93.42 | 81.24 | 84.22 | 70.51 | 82.70 |
DeepLabV3+ | 93.25 | 81.17 | 83.15 | 69.70 | 82.15 |
MAP-Net | 93.88 | 84.10 | 82.91 | 71.68 | 83.50 |
BRRNet | 94.01 | 84.10 | 83.77 | 72.31 | 83.93 |
MMFA-Net | 94.45 | 84.01 | 86.79 | 74.49 | 85.38 |
图 5
图 5 Massachusetts建筑物数据集上各种方法的建筑物提取结果
Fig.5 Building extraction results of various methods on Massachusetts building dataset
2.3.2. WHU建筑物数据集的实验结果及分析
在WHU建筑物数据集上的定量评估结果如表3所示. 与F1排名第二的MAP-Net相比,IoU和OA分别提高了1.23%和0.15%. 与其他4种对比方法相比,MMFA-Net在所有评估指标中拥有最佳的性能,说明本文方法对不同类型的数据集有一定的迁移泛化能力和实用性. 可视化实验结果如图6所示. 通过对比可知,本文方法的误检、漏检区域最少. 如影像的第1、2、3行所示,由于树木的遮挡,导致光谱错乱,易出现错分现象. 本文方法通过嵌入MECA,增强了网络对有效特征的提取,强化了建筑物与非建筑物之间的特征区别,改善了建筑物与非建筑物之间的错分问题. 在模型底层装备MFA,对不同尺度的建筑进行优化,减少了空洞卷积过程中重要信息的损失. 第4行由于建筑物顶部存在阴影,在建筑物提取时容易出现漏检,通过MECA进一步增强首要特征的提取,避免重要建筑物特征的丢失. 第5、6行由于建筑物与周边颜色相近,容易出现多选、漏选,通过有效信息的加强,在一定程度上改善了光谱信息混乱的问题,结果优于其他5种方法.
表 3 在WHU建筑物数据集上与其他5种先进建筑提取网络的定量对比
Tab.3
网络模型 | OA/% | P/% | R/% | IoU/% | F1/% |
U-Net | 98.20 | 90.25 | 94.00 | 85.34 | 92.09 |
SegNet | 98.21 | 91.38 | 92.69 | 85.24 | 92.03 |
DeepLabV3+ | 98.12 | 90.14 | 93.28 | 84.64 | 91.68 |
MAP-Net | 98.36 | 92.91 | 92.35 | 86.27 | 92.63 |
BRRNet | 98.33 | 91.52 | 93.68 | 86.19 | 92.58 |
MMFA-Net | 98.51 | 93.04 | 93.63 | 87.50 | 93.33 |
图 6
图 6 WHU建筑物数据集上各种方法的建筑物提取结果
Fig.6 Building extraction results of various methods on WHU building dataset
2.3.3. 自绘建筑物数据集的实验结果及分析
在自绘建筑物数据集上的定量评估结果如表4所示. 与F1排名第二的MAP-Net相比,IoU和OA分别提高了1.57%和0.25%. MMFA-Net与其他对比方法相比,在其他评估指标中具有最优的性能,说明本文方法具有一定的普适性. 如图7、8所示为利用不同方法得到的大面积建筑物的提取结果. 图中,底部2行为框出区域建筑物提取结果放大图. 通过视觉观察分析可知,本文方法与对比网络模型相比,结果最佳. 如图7的底部第1行所示,当建筑物周围存在树木遮挡的情况时,易造成光谱信息混乱,出现漏分. 如图7底部的第2行所示,建筑物形状不规则,阴影处易出现错分. 如图8底部的第1、2行所示,大型建筑物在进行特征提取时,内部易出现空洞;当屋顶材质各异时,容易出现漏分. 针对以上问题,利用MECA增强了建筑物特征的提取,减少了错分的现象. 通过在模型底部引入MFA,加强了对不同尺度建筑物的提取,缓解了建筑物内部像素缺失的现象.
表 4 自绘建筑物数据集上与其他5种先进建筑提取网络的定量对比
Tab.4
网络模型 | OA/% | P/% | R/% | IoU/% | F1/% |
U-Net | 94.63 | 88.85 | 80.48 | 73.10 | 84.46 |
SegNet | 95.31 | 89.62 | 83.88 | 76.45 | 86.65 |
DeepLabV3+ | 94.75 | 92.93 | 76.90 | 72.65 | 84.16 |
MAP-Net | 95.69 | 92.55 | 82.93 | 77.74 | 87.48 |
BRRNet | 95.51 | 91.24 | 83.26 | 77.10 | 87.07 |
MMFA-Net | 95.94 | 91.40 | 85.71 | 79.31 | 88.46 |
2.3.4. 与5种方法的参数量和训练时间的比较
图 7
图 7 自绘建筑物数据集上各种方法的建筑物提取结果
Fig.7 Building extraction results by different methods on owner-drawing buildings dataset
图 8
图 8 自绘建筑物数据集上各种方法的大建筑物提取结果
Fig.8 Big building extraction results by different methods on owner-drawing buildings dataset
图 9
2.4. 结果讨论
2.4.1. MMFA-Net消融实验
表 5 在Massachusetts建筑物数据集上进行消融实验的定量评价结果
Tab.5
网络模型 | OA/% | P/% | R/% | IoU/% | F1/% |
U-Net | 94.01 | 85.33 | 82.06 | 71.91 | 83.66 |
U-Net+ECA | 94.26 | 86.58 | 82.01 | 72.76 | 84.23 |
U-Net+MECA | 94.38 | 85.52 | 84.19 | 73.69 | 84.85 |
U-Net+MECA+MFA(MMFA) | 94.45 | 84.01 | 86.79 | 74.49 | 85.38 |
2.4.2. MECA模块消融实验分析
通过实验证明,与3次、4次和5次独立一维卷积的融合相比,2次独立卷积的精度最高,表现最好. 消融实验结果如表6所示.
表 6 在Massachusetts建筑物数据集上与不同次数独立一维卷积融合的定量对比
Tab.6
网络模型 | OA/% | P/% | R/% | IoU/% | F1/% |
MMFA(2次) | 94.45 | 84.01 | 86.79 | 74.49 | 85.38 |
MMFA(3次) | 94.37 | 86.81 | 82.38 | 73.22 | 84.54 |
MMFA(4次) | 93.64 | 81.78 | 84.88 | 71.38 | 83.30 |
MMFA(5次) | 94.17 | 85.43 | 82.92 | 72.65 | 84.16 |
3. 结 语
针对高分辨遥感影像的建筑物提取,本文提出多重多尺度融合注意力网络. 该网络在跳跃连接中引入多重高效通道注意力模块,从低维特征中突出有效的建筑物特征. 在模型底部嵌入多尺度融合注意力模块,利用高效通道注意力增强有效特征,通过不同膨胀率的卷积扩大感受野,改善对不同尺度建筑物的提取. 在Massachusetts、WHU和自绘建筑物数据集上的试验结果表明,与其他5种对比方法相比,MMFA-Net提高了提取建筑物的精度. 本文方法过度依赖人工标签数据,导致网络运行成本过高,存在模型参数量过大的问题,构建轻量化的弱监督网络是未来研究的趋势.
参考文献
基于深度学习的高分辨率遥感影像建筑物提取方法
[J].DOI:10.11947/j.AGCS.2019.20170638 [本文引用: 1]
A high-resolution remote sensing image building extraction method based on deep learning
[J].DOI:10.11947/j.AGCS.2019.20170638 [本文引用: 1]
Object based image analysis for remote sensing
[J].DOI:10.1016/j.isprsjprs.2009.06.004 [本文引用: 1]
基于样本形态变换的高分遥感影像建筑物提取
[J].
Building extraction from high resolution remote sensing image based on sample morphological transformation
[J].
遥感影像建筑物提取的卷积神经元网络与开源数据集方法
[J].DOI:10.11947/j.AGCS.2019.20180206 [本文引用: 1]
Building extraction via convolutional neural networks from an open remote sensing building dataset
[J].DOI:10.11947/j.AGCS.2019.20180206 [本文引用: 1]
RS-DCNN: a novel distributed convolutional-neural-networks based-approach for big remote-sensing image classification
[J].DOI:10.1016/j.compag.2021.106014 [本文引用: 1]
A semi-supervised generative framework with deep learning features for high-resolution remote sensing image scene classification
[J].DOI:10.1016/j.isprsjprs.2017.11.004
SceneNet: remote sensing scene classification deep learning network using multi-objective neural evolution architecture search
[J].DOI:10.1016/j.isprsjprs.2020.11.025 [本文引用: 1]
Multiple object extraction from aerial imagery with convolutional neural networks
[J].
Comprehensive survey of deep learning in remote sensing: theories, tools, and challenges for the community
[J].
Fully convolutional networks for semantic segmentation
[J].
Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network
[J].DOI:10.3390/rs11151774 [本文引用: 1]
BRRNet: a fully convolutional neural network for automatic building extraction from high-resolution remote sensing images
[J].DOI:10.3390/rs12061050 [本文引用: 2]
DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs
[J].
Building multi-feature fusion refined network for building extraction from high-resolution remote sensing images
[J].DOI:10.3390/rs13142794 [本文引用: 1]
Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set
[J].
Segnet: a deep convolutional encoder-decoder architecture for image segmentation
[J].DOI:10.1109/TPAMI.2016.2644615 [本文引用: 1]
MAP-Net: multiple attending path neural network for building footprint extraction from remote sensed imagery
[J].
/
〈 |
|
〉 |
