浙江大学学报(工学版), 2022, 56(4): 795-802 doi: 10.3785/j.issn.1008-973X.2022.04.019

计算机技术、信息工程

遥感图像语义分割空间全局上下文信息网络

吴泽康,, 赵姗, 李宏伟,, 姜懿芮

1. 郑州大学 信息工程学院,河南 郑州 450001

2. 郑州大学 地球科学与技术学院,河南 郑州 450001

Spatial global context information network for semantic segmentation of remote sensing image

WU Ze-kang,, ZHAO Shan, LI Hong-wei,, JIANG Yi-rui

1. College of Information Engineering, Zhengzhou University, Zhengzhou 450001, China

2. College of Geo-Science and Technology, Zhengzhou University, Zhengzhou 450001, China

通讯作者: 李宏伟, 男, 教授. orcid.org/0000-0002-7096-8733. E-mail: laob_811@sina.com

收稿日期: 2021-07-13  

基金资助: 国家自然科学基金面上项目(41571394)

Received: 2021-07-13  

Fund supported: 国家自然科学基金面上项目(41571394)

作者简介 About authors

吴泽康(1997—),男,硕士生,从事数据挖掘的研究.orcid.org/0000-0003-1729-7157.E-mail:2471217214@qq.com , E-mail:2471217214@qq.com

摘要

为了解决卷积神经网络(CNN)在语义分割特征提取阶段容易丢失空间信息以及边界信息不明确的问题,基于U-Net基线网络提出空间全局上下文信息网络(NC-Net). 增加再编码阶段(ReEncoder),以增强空间信息识别能力. 在Decoder阶段输出多尺度特征,与ReEncoder阶段结合获取全局上下文信息. 保留边界损失函数,设计多尺度损失函数级联方法,优化整体网络. 在GID以及WHDLD数据集上的实验结果表明,该方法的总体准确度达到最好成绩,明显优于其他基线模型.

关键词: 语义分割 ; 遥感影像 ; 空间信息 ; 全局上下文 ; 神经网络

Abstract

A spatial global context information network (NC-Net) was proposed based on the U-Net baseline network in order to solve the problem that the convolutional neural network (CNN) easily lost spatial information and the boundary information was unclear in the feature extraction stage of semantic segmentation. A re-encoding stage was added (ReEncoder) in order to enhance the ability of spatial information recognition. Multi-scale features were output in the Decoder stage, which was combined with the ReEncoder stage to obtain global context information. The boundary loss function was retained, and a multi-scale loss function cascade method was designed to optimize the overall network. The experimental results on the GID and WHDLD data sets show that the overall accuracy of the method achieves the best results, significantly outperforming other baseline models.

Keywords: semantic segmentation ; remote sensing image ; spatial information ; global context ; neural network

PDF (1135KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴泽康, 赵姗, 李宏伟, 姜懿芮. 遥感图像语义分割空间全局上下文信息网络. 浙江大学学报(工学版)[J], 2022, 56(4): 795-802 doi:10.3785/j.issn.1008-973X.2022.04.019

WU Ze-kang, ZHAO Shan, LI Hong-wei, JIANG Yi-rui. Spatial global context information network for semantic segmentation of remote sensing image. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(4): 795-802 doi:10.3785/j.issn.1008-973X.2022.04.019

随着卫星和遥感技术的快速发展,高分辨率遥感影像获取的能力极大提升,如何准确地从影像中提取兴趣信息变得极为重要. 针对像素级别分类的语义分割成为遥感图像分析,获取有应用价值信息的重要方法,可以为精准农、荒漠化探测、交通监管、城市规划和土地资源管理等提供数据支持.

早期的遥感影像语义分割,更多依靠研究人员根据人类对各种地物的认知和理解,通过设定不同的特征参数达到对影像地物提取的能力. 根据一种或多种人为归纳的地物特征对影像地物识别,如形状特征、颜色纹理特征或组合特征,对地物(建筑、植被、道路等)[1-5]进行识别检测. 遥感影像地物的特征千变万化,同一种地物,特征存在非常大的差异. 比如道路的颜色纹理、形状尺寸及光照角度和分辨率的不同,都会产生较大的区别. 基于人为设定特征提取遥感影像地物,变得异常困难[6].

近年来,深度学习取得了突破性进展,其中卷积神经网络(CNN)通过非线性结构有效地提取中级和高级抽象特征,已广泛应用于图像分析领域并产生了巨大的影响[7]. 全卷积网络(FCNs)的出现,使遥感图像语义分割取得进一步的突破[8]. 在FCN之后,大量性能优异的语义分割网络被相继提出,典型的代表网络包括U-Net[9]、SegNet[10]、DeconvNet[11]、PSPNet[12]. 其中U-Net对高低级语义信息进行融合,改善物体边界语义细节的分类效果,提高了网络的分类性能.

已有大量研究针对网络改进,达到对遥感影像更高的识别精度. 将已有的高精度网络加上其他模块或针对网络本身的结构进行修改,都能够达到对遥感影像更好的理解和识别. 例如,Attention U-Net[13]结构在U-Net网络高低级语义信息融合的过程中,加入注意力控制模块(Attention gates),强化了有效信息的传递,对无效信息的传输进行抑制. Liu等[14]提出改进U-Net模型来提取地震后滑坡,通过在上下采样过程中增加学习单元,重建U-Net模型,解决传统U-Net模型无法完全提取六通道滑坡特征的问题,最终的准确率达到91.3%,比传统U-Net模型高8%.

基于上述研究存在以下问题,现有的改进模型多为基于特定场景,具有较小的普适性,已有研究更多只针对空间信息或全局上下文信息进行分析,较少地同时针对两者改进提升. 本文提出U-Net变体网络NC-Net(N-type global context net)网络. 该网络能够提高对空间信息、全局上下文信息的捕捉能力,提高模型对图像类别、边界区域的识别效果. 在数据类别不平衡的情况下,提高整体的识别精度. 将该网络与目前主流的语义分割网络进行对比,达到了最高的精度.

1. 理论背景与方法

1.1. U-Net原理及网络结构

U-Net网络由2部分组成(见图1),是经典的全卷积网络. 网络的左侧是由卷积和Max Pooling构成的一系列降采样操作(压缩路径),压缩路径由4个block组成,每个block使用3个有效卷积和1个Max Pooling降采样. 每次降采样之后Feature Map的个数翻倍,得到尺寸为32×32的Feature Map. 网络的右侧称为扩展路径,由4个block组成. 每个block开始之前,通过反卷积将Feature Map尺寸乘以2,同时将个数减半,和左侧对称的压缩路径的Feature Map合并. 由于左侧压缩路径和右侧扩展路径的Feature Map的尺寸不一样,U-Net是通过将压缩路径的Feature Map裁剪到和扩展路径相同尺寸的Feature Map进行归一化的. 扩展路径经过反卷积及上采样,将图像恢复成原始大小,得到最终的语义分割图. U-Net使用带边界权值的损失函数:

图 1

图 1   U-Net网络结构

Fig.1   U-Net network structure


$ E = \sum\limits_{x \subset {\it{\Omega}} } {\omega (x)\lg \left( {{p_{l (x)}}(x)} \right)} . $
(1)

式中: ${p_{l (x)}}(x)$为softmax损失函数; $l :{\it{\Omega}} \to \left\{ {1,…,K} \right\}$为像素点的标签值; $\omega :{\it{\Omega}} \subset {{\bf{R}}}$为像素点的权值,目的是给图像中贴近边界点的像素更高的权值,

$ \omega (x) = {\omega _{\rm{c}}}(x) + {\omega _0} \;\exp\; \left[ {\frac{{ - ({d_1}(x) + {d_2}{{(x)})^2}}}{{2{\sigma ^2}}}} \right] , $
(2)

其中 ${\omega _{\rm{c}}}:{\it{\Omega}} \subset {{\bf{R}}}$为平衡类别比例的权值, ${d_1}:{\it{\Omega}} \subset {{\bf{R}}}$为像素点到距离最近的标签的距离, ${d_2}:{\it{\Omega}} \subset {{\bf{R}}}$为像素点到距离第二近的标签的距离, $ {\omega _0} $$ \sigma $为常数值.

1.2. NC-Net原理及网络结构

遥感图像的分割性能取决于3个重要因素:空间信息、全局上下文信息和边界细节. CNN方法在语义分割图像预处理阶段,往往会将图像切分成较多的小图像,处理过后会导致遥感图像整体的结构遭到破坏,丢失空间信息;利用局部信息很难区分类别,加之卫星的自身运动,往往会出现目标边界模糊的现象,导致分类性能下降. 提出的NC-Net结构(见图2)考虑到以上三要素,针对U-Net进行改进. 增加再编码阶段(ReEncoder),以增强空间信息识别能力;在Decoder阶段输出多尺度特征,与ReEncoder阶段结合,获取全局上下文信息. 保留边界损失函数,设计多尺度损失函数级联方法,优化整体网络. NC-Net的上采样及下采样过程与U-Net保持一致,路径由4个block组成. 每个block使用3个有效卷积和1个Max Pooling降采样,每次降采样之后Feature Map的个数翻倍. 上采样的目的是从高维图像中获取特征信息. 下采样每层通过反卷积,将Feature Map尺寸翻倍,同时将个数减半,和左侧对称的压缩路径的Feature Map合并,通过该过程获取图像的上下文信息,最后扩充像素恢复图像尺寸.

图 2

图 2   NC-Net网络结构

Fig.2   NC-Net network structure


NC-Net在上采样的每层经过最后一个block块,都输出图像类别大小特征图. 这是为了保持图像的全局上下文特征,防止在采样的过程中丢失图像特征信息. 上采样的最后一层恢复图像尺寸之后,该步在U-Net网络中对应最后一步输出的预测图像. NC-Net添加再采样的过程,再采样过程与前一次下采样结构相同,在采样的过程中结合上采样每层输出的图像类别大小特征图,能够有效地防止特征丢失,保留图像全局上下文信息. 采样的最后一层直接经过reshape将图像扩展到原始大小,经过softmax输出预测结果.

综上所述,NC-Net为了得到全局的上下文特征,在上采样恢复图像大小的过程中,输出多尺度特征信息,将特征预测图作为全局上下文特征,与再采样过程结合,学习全局特征,保证网络获取到更多的信息. 该方法的局部展开如图3所示. Encoder和Decoder阶段作为基础U-Net网络,在Decoder即上采样过程,4个阶段分别输出label级别的预测图作为特征图,与ReEncoder过程相结合.

图 3

图 3   多尺度输出融合再采样过程

Fig.3   Multi-scale output fusion re-sampling process


在保证多尺度中间特征输出的情况下,采用多尺度损失函数级联来优化网络特征,通过对每一层输出特征值设置不同的损失权重来联合计算损失值,反向迭代优化网络. 保留了U-Net带边界权值的损失函数,增加每一层特征权值比重,设计的多尺度中间特征融合再采样结构及优化的损失函数如图4所示.

图 4

图 4   多尺度损失函数级联框架

Fig.4   Multi-scale loss function cascade framework


$B_{1}、B_{2}、B_{3}、B_{4}$作为Decoder每个阶段生成的特征分支,生成的特征可以用 $F_{{{\rm{out}}}}$来表示:

$ {F_{{\rm{out}}}} = \left\{ {R({B_n}),\;n = 1,2,3,4} \right\} .$
(3)

与ReEncoder每个阶段合并,用 ${F_{\rm{c}}}$来表示:

$ {F_{\rm{c}}} = \left\{ {C\left[ {{F_{{\rm{out}}}}({B_n}),{\rm{RE}}({r_n})} \right],\;n = 1,2,3,4} \right\} .$
(4)

C表示特征合并,RE为ReEncoder阶段输出的特征, $ r_{n} $表示不同阶段输入的特征信息.

采用的损失函数形式如下:

$ E = \sum\limits_{l \subset n} {{\omega _l}} \sum\limits_{x \subset {\it{\Omega}} } {\omega (x)\lg\; \left( {{p_{l (x)}}(x)} \right)} . $
(5)

引入 $ {\omega _l} $权重,由于 $ \omega (x) $作为像素级别的权重,通过给图像边界像素设定不同的权重,让网络能够更好地识别边界点,优化分割效果. $ \omega_{l} $是整体特征权重,从图4可知,输出了多尺度特征信息,由于每层特征尺度不一,针对每一层特征设定不同权重. $ {\omega _l} $根据专家经验,设定为0.1、0.1、0.2、0.3.

2. 实验与评估

2.1. 数据集

使用到的第1个数据集为 GaoFen Image Dataset(GID)[15]. 该数据集包含中国60多个城市的高分2号卫星拍摄的7 200×6 800像素的RGB图像. GID由以下2个部分组成:一个是大型分类数据集,包含150个像素级别的GF-2图像;另一个是精细分类数据集,由30 000个多尺度图像块和10个像素级别的GF-2图像组成,类别扩充到15个. 选用后者包含15个类别的RGB图像.

使用到的第2个数据集WHDLD[16-17],它是从武汉市区的大型遥感图像中裁剪出来的. WHDLD中每个图像的像素手动标记为以下6类,即建筑物、道路、路面、植被、裸土和水. 该数据集包含 4940 张 RGB 图像,像素大小为 256×256,分辨率为2 m.

2.2. 实验环境

为了评估NC-Net的有效性,与目前比较先进的PSPNet、DeepLabv3[18]、DeepLabv3+[19]及基线模型U-Net方法进行对比试验,还与文献[13,20,21]的方法进行对比.

所有的模型都使用TensorFlow实现,优化器采用Adam,学习率设定0.000 1,批大小为16. 所有的实验都在具有24 GB显存的3090显卡机器上进行. GID每幅图像通过滑动窗口的形式划分为400×400像素的图像块,输入到模型中,WHDLD采用256×256像素. 2个数据集采用图像增强,对图像进行随机的旋转、展平操作. 训练集、验证集、测试集的比例设置为60%、20%、20%. 为了控制变量,所有的实验轮次都设定为150,每轮之后进行验证. 对于评价指标,采用总体准确度(OA)、准确率Pr、召回率R、Kappa系数K、加权交并比(FWIoU)及F1-score(F1)公式如下.

$ {\rm{OA}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{P + N}},{{P_{\rm{r}}}} = \frac{{{\rm{TP}}}}{{{\rm{TF}} + {\rm{FP}}}},{{R}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} . $
(6)

$ {F_1} = 2 \times \frac{{{{P_{\rm{r}}}} {{R}}}}{{{{P_{\rm{r}}}} + {{R}}}} . $
(7)

$ {\rm{FWIoU}} = {\left({ \displaystyle \sum\nolimits_{i = 0}^k { \displaystyle \sum\nolimits_{j = 0}^k {{p_{ij}}} } }\right)}^{-1} \displaystyle \sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{ \displaystyle \sum\nolimits_{j = 0}^k {{p_{ij}} + \displaystyle \sum\nolimits_{j = 0}^k {{p_{ji}} - {p_{ii}}} } }}} . $
(8)

$ K = \frac{{{p_0} - {p_{\rm{e}}}}}{{1 - {p_{\rm{e}}}}} . $
(9)

式中:PN、TP、TN、FP和FN分别表示预测图像中的正、负、真正、真负、假正和假负的像素;p为各点的像素; $ p_{0} $为每一类正确分类的样本数之和除以总样本数,即总体分类精度;

$ {p_{\rm{e}}} = \frac{{a{}_1 b{}_1 + a{}_2 b{}_2 + \cdots + a{}_c b{}_c}}{{n ^2}} ,$
(10)

其中 $ a_{1},\;a_{2},\;\cdots,\;a_{c} $为每一类的真实样本个数, $ b_{1},\; $ $ b_{2},\; \cdots,\; b_{c} $为预测出来的每一类样本个数,n为总样本个数.

2.3. 实验结果分析

2.3.1. GID实验结果

不同方法在GID的实验结果如表1所示. 可以看出,与DeepLabv3+网络相比,NC-Net在F1上约有0.8%的提升,FWIoU有将近1.5%的提升,效果比较明显. 提出的NC-Net算法在所有定量评价指标上都优于其他算法. 图56给出NC-Net和其他网络的性能对比可视化结果. 总体来说,本文方法能够更充分地学习到空间以及全局上下文信息,优化的边界损失函数能够更好地划分边界细节.

表 1   GID的实验结果

Tab.1  Experimental results of GID %

方法 OA K FWIoU F1
U-Net[9] 70.721 51.857 56.135 70.131
DeepLabv3[18] 74.072 60.702 61.330 75.247
PSPNet[12] 72.513 59.147 60.880 75.782
DeepLabv3+[19] 75.982 61.958 63.021 77.920
NC-Net 77.331 62.214 64.550 78.694

新窗口打开| 下载CSV


图 5

图 5   NC-Net和其他模型的视觉整体对比

Fig.5   Visual overall comparison between NC-Net and other models


图 6

图 6   NC-Net同其他模型的局部视觉对比

Fig.6   Local visual comparison between NC-Net and other models


表1中,DeepLabv3、PSPNet和DeepLabv3+的骨干网络都使用ResNet50. 其余U-Net和提出的NC-Net未使用预训练权重,采用自训练方式重新训练模型.

图5中,GT为原始图像标签,后面为其他网络和本文提出的网络. 可以看出,U-Net网络、PSPNet和DeepLabv3网络的识别效果不理想. 从圆形圈出的区域可以看出,这3个网络存在较大的识别错误,将水体识别为灌溉土地. DeepLabv3+大部分识别正确,但是存在小部分识别错误. 相反,NC-Net能够较好地识别出正确的类别. 椭圆标出的地方除NC-Net外,其他图像存在无识别现象. U-Net、PSPNet区域内无线条,说明2个网络对局部特征的识别较差,NC-Net通过更充分的全局上下文学习,能够有效地识别细小地块. 从方块标出的地方能够看出,除NC-Net外其他4个网络边界处理较差,与其他类别混合较多. NC-Net边界地块的识别效果清楚. NC-Net相较于其他网络,总体识别效果较好,各个类别边界区域的识别效果清晰. 从图6的局部细节观察不同网络的识别效果.

图6可以看出,NC-Net对于类别分界区域具有较好的识别效果. U-Net及PSPNet整体的识别效果不太好,类间存在识别错误,识别效果模糊,边界处理不清晰. DeepLabv3对不同类别的边界进行区分. DeepLabv3+对整体把控较好,但是在边界处理上不太可观,存在线条中断、边界模糊的问题. NC-Net从整体上看基本达到较高的识别精度,说明NC-Net提出的多尺度输出融合再编码模块学习到更充分的上下文信息及空间全局信息. 从边界细节来看,NC-Net对于边界的划分较清晰,因为提出的多尺度边界损失函数级联方法优化了网络对于不同类别边界的识别能力. 针对具体的类别,开展单独的指标分析,结果如表2所示.

表 2   GID各个类别的定量指标

Tab.2  Quantitative indicators for each category of GID %

标签类别 Pr R F1
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
水浇地 85.61 84.95 81.77 88.22 86.73 83.69 86.91 91.59 89.73 91.94 84.63 85.91 86.40 88.96 89.25
园地 33.25 19.71 24.58 37.08 38.83 1.17 1.32 1.58 5.51 8.12 2.26 2.47 2.96 9.59 13.43
工业区 54.01 62.69 55.73 79.15 74.27 43.07 62.85 55.73 50.47 51.39 47.92 62.76 55.73 61.52 60.74
村镇住宅 73.97 82.92 76.73 78.77 90.65 64.75 74.15 75.52 83.78 65.10 69.05 78.29 76.12 81.19 75.77
交通用地 66.45 72.15 45.53 68.21 67.05 17.31 42.56 35.58 61.63 47.45 27.46 53.53 39.94 64.75 55.57
河流 39.91 23.70 21.47 22.43 42.87 3.95 1.21 4.25 4.43 5.30 7.18 2.30 7.09 7.39 9.43
湖泊 87.77 89.48 88.97 85.93 86.09 16.22 20.40 3.56 39.31 74.89 27.38 33.22 6.84 53.94 80.10
其他 38.62 39.23 34.07 43.90 46.69 48.25 61.84 44.02 59.59 62.65 42.90 48.00 38.41 50.55 53.50

新窗口打开| 下载CSV


表2中已将最佳指标加粗标注. 从3项指标、多个类别的单独分析可以看出,NC-Net在大多数情况下都达到了最高分数,部分类别虽然没有达到, 但是与最高指标相差不多. 其次效果较好的是DeepLabv3+网络,这得益于该网络更精细化的设计. 可以看出,本文提出的网络在性能上优于其他网络.

2.3.2. WHDLD实验结果

不同方法在WHDLD上的实验结果如表3所示. 可以看出,本文的NC-Net整体评价指标均优于其他基线模型的各项指标. NC-Net较原始的U-Net具有较大的性能提升. OA指标提升了将近10%,F1指标也提升了10%. 与DeepLabv3+相比,各项指标提升了2%~5%. 从整体的指标来看,NC-Net的优化效果非常明显. NC-Net与其他网络在该数据集上的可视化效果如图7所示.

表 3   WHDLD的实验结果

Tab.3  WHDLD experimental results %

方法 OA K FWIoU F1
U-Net[9] 76.218 70.816 69.709 70.066
DeepLabv3[18] 80.053 69.380 71.252 72.391
PSPNet[12] 78.406 71.528 69.039 71.002
DeepLabv3+[19] 81.295 76.524 73.157 75.563
NC-Net 84.897 79.944 76.025 76.301

新窗口打开| 下载CSV


图 7

图 7   WHDLD的可视化结果

Fig.7   Visualization results of WHDLD


图7可以看出,U-Net模型的预测结果较模糊,各个类边界处理部分混乱,整体效果不理想. 本文的NC-Net模型预测结果与真实标签相比,达到了较高的相似度,无论是从识别准确率还是类边界处理,都具有较好的效果. 从DeepLabv3+的预测结果能够看出,本身的识别效果可观,但在不同类别边界识别上存在混淆、混乱的现象. DeepLabv3和PSPNet模型结果的整体识别精度没有NC-Net高,识别效果存在模糊.

从以上各项评价指标和图7可以看出,针对整体网络的改进处理和边界信息的优化使得NC-Net在整体类别上具有较好的识别精度和边界处理能力. 将每个类别展开分析,每个类别在WHDLD上的定量指标分析如表4所示.

表 4   WHDLD各个类别的定量指标

Tab.4  Quantitative indicators for each category of WHDLD %

标签类别 Pr R F1
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
U-
Net[9]
Deep-
Labv3[18]
PSP-
Net[12]
Deep-
Labv3+[19]
NC-
Net
建筑物 67.72 70.28 69.53 72.36 72.78 68.07 68.93 70.33 72.98 72.19 67.89 69.59 69.92 72.16 72.48
道路 68.65 73.06 68.86 72.20 75.71 73.66 82.61 75.26 87.01 90.36 71.06 77.54 71.91 78.91 82.78
人行道 70.88 69.51 71.74 75.74 70.54 61.28 60.02 63.85 62.55 60.36 65.73 64.41 67.56 67.68 65.04
植被 65.07 66.03 65.91 68.04 68.98 68.80 70.33 69.04 70.83 71.12 66.88 68.11 67.43 69.40 70.03
裸地 71.92 74.43 72.09 75.97 76.26 66.31 69.95 70.72 71.76 72.07 69.00 72.12 71.39 72.84 74.10
水体 80.53 85.82 84.25 89.61 91.01 81.56 84.61 83.78 84.06 86.47 81.04 85.21 84.01 86.74 89.15

新窗口打开| 下载CSV


最佳指标已经加粗标注. 从表4可以看出,NC-Net在较多类中占据最佳指标分数. 尤其在水体类别中,识别精度达到91%. 其他网络对水体类的识别效果较好. 分析原因可知,该数据集具有较大范围的水体标注,存在多张图片具有完全水体类别的现象. 所有网络对水体的识别准确率都较高. DeepLabv3+网络表现较好. 在建筑物、人行道2个类别中均有指标超过NC-Net. 总体来说,提出的NC-Net性能是最好的.

2.3.3. NC-Net与其他网络的性能比较

前人已有关于U-Net网络方面的改进和性能提升方法. 对WHDLD数据集与Oktay等[13,20-21]提出的改进网络进行比较. 比较结果如表5所示. 可以看出,提出的NC-Net相较于其他关于U-Net的改进,具有一定的性能优势. 与MACU-Net[20]相比,K提高了1.7%,F1提高了1%. 与U-Net++[21]相比,OA提高了0.8%,FWIoU提升了1.6%. NC-Net在各项指标中均高于U-NetAtt[13]. 提出的NC-Net较其他人提出的关于U-Net的改进模型,具有一定的优势.

表 5   NC-Net在WHDLD上与其他改进网络的对比结果

Tab.5  Comparison of NC-Net with other improved networks on WHDLD

%
方法 OA K FWIoU F1
U-NetAtt[13] 82.602 75.484 73.474 69.622
U-Net++[21] 84.067 77.430 74.496 74.633
MACU-Net[20] 84.623 78.233 75.231 75.245
NC-Net 84.897 79.944 76.025 76.301

新窗口打开| 下载CSV


3. 结 语

本文提出基于U-Net网络结构的改进网络NC-Net. 该网络在标记数据不足和数据类别不平衡的遥感图像多类别语义分割中具有较好的性能. 提出多尺度特征融合再采样结构,能够有效地获取全局上下文信息. 提出多尺度损失函数级联算法,优化网络整体学习过程. 通过与其他方法进行对比,测试提出的网络架构. 实验结果表明,该方法在GID、WHDLD数据集上达到最高的精度.

本文研究基于深度学习的遥感图像语义分割. 为了实现高分辨率遥感影像的语义分割,基于U-Net基线网络提出NC-Net模型,在标记数据不足和数据类别不平衡的遥感图像多类别语义分割中表现出了较好的性能. 提出的多尺度输出特征能够学习到全局信息,通过融合再采样加强对上下文的理解. 在GID以及WHDLD上的实验表明, NC-Net算法超过了其他的基线算法. 与文献[13,20,21]算法的比较可知,本文提出的NC-Net具有一定的性能优势. 随着遥感图像信息的不断增加,未来可以继续优化网络结构,引入Transformer结构,提高网络对图像的识别准确率,增强鲁棒性.

参考文献

NORONHA S, NEVATIA R

Detection and modeling of buildings from multiple aerial images

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23 (5): 501- 518

DOI:10.1109/34.922708      [本文引用: 1]

COTE M, SAEEDI P

Automatic rooftop extraction in nadir aerial imagery of suburban regions using corners and variational level set evolution

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 51 (1): 313- 328

LI E, FEMIANI J, XU S, et al

Robust rooftop extraction from visible band images using higher order CRF

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53 (8): 4483- 4495

DOI:10.1109/TGRS.2015.2400462     

胡翔云, 巩晓雅, 张觅

变分法遥感影像人工地物自动检测

[J]. 测绘学报, 2018, 47 (6): 780- 789

DOI:10.11947/j.AGCS.2018.20170642     

HU Xiang-yun, GONG Xiao-ya, ZHANG Mi

A variational approach for automatic man-made object detection from remote sensing image

[J]. Acta Geodaetica at Cartographica Sinica, 2018, 47 (6): 780- 789

DOI:10.11947/j.AGCS.2018.20170642     

林祥国, 张继贤

面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用

[J]. 测绘学报, 2017, 46 (6): 724- 733

DOI:10.11947/j.AGCS.2017.20170068      [本文引用: 1]

LIN Xiang-guo, ZHANG Ji-xian

Object-based morphological building index for building extraction form high resolution remote sensing imagery

[J]. Acta Geodaetica at Cartographica Sinica, 2017, 46 (6): 724- 733

DOI:10.11947/j.AGCS.2017.20170068      [本文引用: 1]

李道纪, 郭海涛, 卢俊, 等

遥感影像地物分类多注意力融和U型网络法

[J]. 测绘学报, 2020, 49 (8): 1051- 1064

DOI:10.11947/j.AGCS.2020.20190407      [本文引用: 1]

LI Dao-ji, GUO Hai-tao, LU Jun, et al

A remote sensing image classification procedure based on multilevel attention fusion UNet

[J]. Acta Geodaetica at Cartographica Sinica, 2020, 49 (8): 1051- 1064

DOI:10.11947/j.AGCS.2020.20190407      [本文引用: 1]

LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild [C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3730-3738.

[本文引用: 1]

LONG J, SHELHAMER E, DARRElLL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Santiago: IEEE, 2015: 3431-3440.

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.

[本文引用: 9]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

Segnet: a deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2016.2644615      [本文引用: 1]

SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: visualizing image classification models and saliency maps [C]// Workshop at International Conference on Learning Representations. Banff: IEEE, 2014.

[本文引用: 1]

ZhAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[本文引用: 9]

OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention u-net: learning where to look for the pancreas [EB/OL]. (2018-04-11). https://arxiv.org/abs/1804.03999.

[本文引用: 6]

LIU P, WEI Y, WANG Q, et al

Research on post-earthquake landslide extraction algorithm based on improved U-Net model

[J]. Remote Sensing, 2020, 12 (5): 894

DOI:10.3390/rs12050894      [本文引用: 1]

TONG X Y, XIA G S, LU Q, et al

Land-cover classification with high-resolution remote sensing images using transferable deep models

[J]. Remote Sensing of Environment, 2020, 237: 111322

[本文引用: 1]

SHAO Z, YANG K, ZHOU W

Performance evaluation of single-label and multi-label remote sensing image retrieval using a dense labeling dataset

[J]. Remote Sensing, 2018, 10 (6): 964

DOI:10.3390/rs10060964      [本文引用: 1]

SHAO Z, ZHOU W, DENG X, et al

Multilabel remote sensing image retrieval based on fully convolutional network

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13 (1): 318- 328

DOI:10.1109/JSTARS.2019.2961634      [本文引用: 1]

ChEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-17). https://arxiv.org/abs/1706.05587.

[本文引用: 9]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoderdecoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[本文引用: 9]

RUI L, CEHNXI D, SHUNYI Z. MACU-Net semantic segmentation from high-resolution remote sensing images [EB/OL]. [2020-07-26]. https://arxiv.org/abs/2007.13083.

[本文引用: 5]

ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. Unet++: a nested u-net architecture for medical image segmentation [M]// Deep learning in medical image analysis and multimodal learning for clinical decision support. Cham: Springer, 2018: 3-11.

[本文引用: 5]

/