遥感图像语义分割空间全局上下文信息网络
Spatial global context information network for semantic segmentation of remote sensing image
通讯作者:
收稿日期: 2021-07-13
基金资助: |
|
Received: 2021-07-13
Fund supported: | 国家自然科学基金面上项目(41571394) |
作者简介 About authors
吴泽康(1997—),男,硕士生,从事数据挖掘的研究.orcid.org/0000-0003-1729-7157.E-mail:
为了解决卷积神经网络(CNN)在语义分割特征提取阶段容易丢失空间信息以及边界信息不明确的问题,基于U-Net基线网络提出空间全局上下文信息网络(NC-Net). 增加再编码阶段(ReEncoder),以增强空间信息识别能力. 在Decoder阶段输出多尺度特征,与ReEncoder阶段结合获取全局上下文信息. 保留边界损失函数,设计多尺度损失函数级联方法,优化整体网络. 在GID以及WHDLD数据集上的实验结果表明,该方法的总体准确度达到最好成绩,明显优于其他基线模型.
关键词:
A spatial global context information network (NC-Net) was proposed based on the U-Net baseline network in order to solve the problem that the convolutional neural network (CNN) easily lost spatial information and the boundary information was unclear in the feature extraction stage of semantic segmentation. A re-encoding stage was added (ReEncoder) in order to enhance the ability of spatial information recognition. Multi-scale features were output in the Decoder stage, which was combined with the ReEncoder stage to obtain global context information. The boundary loss function was retained, and a multi-scale loss function cascade method was designed to optimize the overall network. The experimental results on the GID and WHDLD data sets show that the overall accuracy of the method achieves the best results, significantly outperforming other baseline models.
Keywords:
本文引用格式
吴泽康, 赵姗, 李宏伟, 姜懿芮.
WU Ze-kang, ZHAO Shan, LI Hong-wei, JIANG Yi-rui.
随着卫星和遥感技术的快速发展,高分辨率遥感影像获取的能力极大提升,如何准确地从影像中提取兴趣信息变得极为重要. 针对像素级别分类的语义分割成为遥感图像分析,获取有应用价值信息的重要方法,可以为精准农、荒漠化探测、交通监管、城市规划和土地资源管理等提供数据支持.
基于上述研究存在以下问题,现有的改进模型多为基于特定场景,具有较小的普适性,已有研究更多只针对空间信息或全局上下文信息进行分析,较少地同时针对两者改进提升. 本文提出U-Net变体网络NC-Net(N-type global context net)网络. 该网络能够提高对空间信息、全局上下文信息的捕捉能力,提高模型对图像类别、边界区域的识别效果. 在数据类别不平衡的情况下,提高整体的识别精度. 将该网络与目前主流的语义分割网络进行对比,达到了最高的精度.
1. 理论背景与方法
1.1. U-Net原理及网络结构
U-Net网络由2部分组成(见图1),是经典的全卷积网络. 网络的左侧是由卷积和Max Pooling构成的一系列降采样操作(压缩路径),压缩路径由4个block组成,每个block使用3个有效卷积和1个Max Pooling降采样. 每次降采样之后Feature Map的个数翻倍,得到尺寸为32×32的Feature Map. 网络的右侧称为扩展路径,由4个block组成. 每个block开始之前,通过反卷积将Feature Map尺寸乘以2,同时将个数减半,和左侧对称的压缩路径的Feature Map合并. 由于左侧压缩路径和右侧扩展路径的Feature Map的尺寸不一样,U-Net是通过将压缩路径的Feature Map裁剪到和扩展路径相同尺寸的Feature Map进行归一化的. 扩展路径经过反卷积及上采样,将图像恢复成原始大小,得到最终的语义分割图. U-Net使用带边界权值的损失函数:
图 1
式中:
其中
1.2. NC-Net原理及网络结构
遥感图像的分割性能取决于3个重要因素:空间信息、全局上下文信息和边界细节. CNN方法在语义分割图像预处理阶段,往往会将图像切分成较多的小图像,处理过后会导致遥感图像整体的结构遭到破坏,丢失空间信息;利用局部信息很难区分类别,加之卫星的自身运动,往往会出现目标边界模糊的现象,导致分类性能下降. 提出的NC-Net结构(见图2)考虑到以上三要素,针对U-Net进行改进. 增加再编码阶段(ReEncoder),以增强空间信息识别能力;在Decoder阶段输出多尺度特征,与ReEncoder阶段结合,获取全局上下文信息. 保留边界损失函数,设计多尺度损失函数级联方法,优化整体网络. NC-Net的上采样及下采样过程与U-Net保持一致,路径由4个block组成. 每个block使用3个有效卷积和1个Max Pooling降采样,每次降采样之后Feature Map的个数翻倍. 上采样的目的是从高维图像中获取特征信息. 下采样每层通过反卷积,将Feature Map尺寸翻倍,同时将个数减半,和左侧对称的压缩路径的Feature Map合并,通过该过程获取图像的上下文信息,最后扩充像素恢复图像尺寸.
图 2
NC-Net在上采样的每层经过最后一个block块,都输出图像类别大小特征图. 这是为了保持图像的全局上下文特征,防止在采样的过程中丢失图像特征信息. 上采样的最后一层恢复图像尺寸之后,该步在U-Net网络中对应最后一步输出的预测图像. NC-Net添加再采样的过程,再采样过程与前一次下采样结构相同,在采样的过程中结合上采样每层输出的图像类别大小特征图,能够有效地防止特征丢失,保留图像全局上下文信息. 采样的最后一层直接经过reshape将图像扩展到原始大小,经过softmax输出预测结果.
综上所述,NC-Net为了得到全局的上下文特征,在上采样恢复图像大小的过程中,输出多尺度特征信息,将特征预测图作为全局上下文特征,与再采样过程结合,学习全局特征,保证网络获取到更多的信息. 该方法的局部展开如图3所示. Encoder和Decoder阶段作为基础U-Net网络,在Decoder即上采样过程,4个阶段分别输出label级别的预测图作为特征图,与ReEncoder过程相结合.
图 3
在保证多尺度中间特征输出的情况下,采用多尺度损失函数级联来优化网络特征,通过对每一层输出特征值设置不同的损失权重来联合计算损失值,反向迭代优化网络. 保留了U-Net带边界权值的损失函数,增加每一层特征权值比重,设计的多尺度中间特征融合再采样结构及优化的损失函数如图4所示.
图 4
设
与ReEncoder每个阶段合并,用
C表示特征合并,RE为ReEncoder阶段输出的特征,
采用的损失函数形式如下:
引入
2. 实验与评估
2.1. 数据集
使用到的第1个数据集为 GaoFen Image Dataset(GID)[15]. 该数据集包含中国60多个城市的高分2号卫星拍摄的7 200×6 800像素的RGB图像. GID由以下2个部分组成:一个是大型分类数据集,包含150个像素级别的GF-2图像;另一个是精细分类数据集,由30 000个多尺度图像块和10个像素级别的GF-2图像组成,类别扩充到15个. 选用后者包含15个类别的RGB图像.
2.2. 实验环境
所有的模型都使用TensorFlow实现,优化器采用Adam,学习率设定0.000 1,批大小为16. 所有的实验都在具有24 GB显存的3090显卡机器上进行. GID每幅图像通过滑动窗口的形式划分为400×400像素的图像块,输入到模型中,WHDLD采用256×256像素. 2个数据集采用图像增强,对图像进行随机的旋转、展平操作. 训练集、验证集、测试集的比例设置为60%、20%、20%. 为了控制变量,所有的实验轮次都设定为150,每轮之后进行验证. 对于评价指标,采用总体准确度(OA)、准确率Pr、召回率R、Kappa系数K、加权交并比(FWIoU)及F1-score(F1)公式如下.
式中:P、N、TP、TN、FP和FN分别表示预测图像中的正、负、真正、真负、假正和假负的像素;p为各点的像素;
其中
2.3. 实验结果分析
2.3.1. GID实验结果
表 1 GID的实验结果
Tab.1
图 5
图 5 NC-Net和其他模型的视觉整体对比
Fig.5 Visual overall comparison between NC-Net and other models
图 6
图 6 NC-Net同其他模型的局部视觉对比
Fig.6 Local visual comparison between NC-Net and other models
表1中,DeepLabv3、PSPNet和DeepLabv3+的骨干网络都使用ResNet50. 其余U-Net和提出的NC-Net未使用预训练权重,采用自训练方式重新训练模型.
图5中,GT为原始图像标签,后面为其他网络和本文提出的网络. 可以看出,U-Net网络、PSPNet和DeepLabv3网络的识别效果不理想. 从圆形圈出的区域可以看出,这3个网络存在较大的识别错误,将水体识别为灌溉土地. DeepLabv3+大部分识别正确,但是存在小部分识别错误. 相反,NC-Net能够较好地识别出正确的类别. 椭圆标出的地方除NC-Net外,其他图像存在无识别现象. U-Net、PSPNet区域内无线条,说明2个网络对局部特征的识别较差,NC-Net通过更充分的全局上下文学习,能够有效地识别细小地块. 从方块标出的地方能够看出,除NC-Net外其他4个网络边界处理较差,与其他类别混合较多. NC-Net边界地块的识别效果清楚. NC-Net相较于其他网络,总体识别效果较好,各个类别边界区域的识别效果清晰. 从图6的局部细节观察不同网络的识别效果.
从图6可以看出,NC-Net对于类别分界区域具有较好的识别效果. U-Net及PSPNet整体的识别效果不太好,类间存在识别错误,识别效果模糊,边界处理不清晰. DeepLabv3对不同类别的边界进行区分. DeepLabv3+对整体把控较好,但是在边界处理上不太可观,存在线条中断、边界模糊的问题. NC-Net从整体上看基本达到较高的识别精度,说明NC-Net提出的多尺度输出融合再编码模块学习到更充分的上下文信息及空间全局信息. 从边界细节来看,NC-Net对于边界的划分较清晰,因为提出的多尺度边界损失函数级联方法优化了网络对于不同类别边界的识别能力. 针对具体的类别,开展单独的指标分析,结果如表2所示.
表 2 GID各个类别的定量指标
Tab.2
标签类别 | Pr | R | F1 | ||||||||||||||
U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | |||
水浇地 | 85.61 | 84.95 | 81.77 | 88.22 | 86.73 | 83.69 | 86.91 | 91.59 | 89.73 | 91.94 | 84.63 | 85.91 | 86.40 | 88.96 | 89.25 | ||
园地 | 33.25 | 19.71 | 24.58 | 37.08 | 38.83 | 1.17 | 1.32 | 1.58 | 5.51 | 8.12 | 2.26 | 2.47 | 2.96 | 9.59 | 13.43 | ||
工业区 | 54.01 | 62.69 | 55.73 | 79.15 | 74.27 | 43.07 | 62.85 | 55.73 | 50.47 | 51.39 | 47.92 | 62.76 | 55.73 | 61.52 | 60.74 | ||
村镇住宅 | 73.97 | 82.92 | 76.73 | 78.77 | 90.65 | 64.75 | 74.15 | 75.52 | 83.78 | 65.10 | 69.05 | 78.29 | 76.12 | 81.19 | 75.77 | ||
交通用地 | 66.45 | 72.15 | 45.53 | 68.21 | 67.05 | 17.31 | 42.56 | 35.58 | 61.63 | 47.45 | 27.46 | 53.53 | 39.94 | 64.75 | 55.57 | ||
河流 | 39.91 | 23.70 | 21.47 | 22.43 | 42.87 | 3.95 | 1.21 | 4.25 | 4.43 | 5.30 | 7.18 | 2.30 | 7.09 | 7.39 | 9.43 | ||
湖泊 | 87.77 | 89.48 | 88.97 | 85.93 | 86.09 | 16.22 | 20.40 | 3.56 | 39.31 | 74.89 | 27.38 | 33.22 | 6.84 | 53.94 | 80.10 | ||
其他 | 38.62 | 39.23 | 34.07 | 43.90 | 46.69 | 48.25 | 61.84 | 44.02 | 59.59 | 62.65 | 42.90 | 48.00 | 38.41 | 50.55 | 53.50 |
表2中已将最佳指标加粗标注. 从3项指标、多个类别的单独分析可以看出,NC-Net在大多数情况下都达到了最高分数,部分类别虽然没有达到, 但是与最高指标相差不多. 其次效果较好的是DeepLabv3+网络,这得益于该网络更精细化的设计. 可以看出,本文提出的网络在性能上优于其他网络.
2.3.2. WHDLD实验结果
表 3 WHDLD的实验结果
Tab.3
图 7
从图7可以看出,U-Net模型的预测结果较模糊,各个类边界处理部分混乱,整体效果不理想. 本文的NC-Net模型预测结果与真实标签相比,达到了较高的相似度,无论是从识别准确率还是类边界处理,都具有较好的效果. 从DeepLabv3+的预测结果能够看出,本身的识别效果可观,但在不同类别边界识别上存在混淆、混乱的现象. DeepLabv3和PSPNet模型结果的整体识别精度没有NC-Net高,识别效果存在模糊.
表 4 WHDLD各个类别的定量指标
Tab.4
标签类别 | Pr | R | F1 | ||||||||||||||
U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | U- Net[9] | Deep- Labv3[18] | PSP- Net[12] | Deep- Labv3+[19] | NC- Net | |||
建筑物 | 67.72 | 70.28 | 69.53 | 72.36 | 72.78 | 68.07 | 68.93 | 70.33 | 72.98 | 72.19 | 67.89 | 69.59 | 69.92 | 72.16 | 72.48 | ||
道路 | 68.65 | 73.06 | 68.86 | 72.20 | 75.71 | 73.66 | 82.61 | 75.26 | 87.01 | 90.36 | 71.06 | 77.54 | 71.91 | 78.91 | 82.78 | ||
人行道 | 70.88 | 69.51 | 71.74 | 75.74 | 70.54 | 61.28 | 60.02 | 63.85 | 62.55 | 60.36 | 65.73 | 64.41 | 67.56 | 67.68 | 65.04 | ||
植被 | 65.07 | 66.03 | 65.91 | 68.04 | 68.98 | 68.80 | 70.33 | 69.04 | 70.83 | 71.12 | 66.88 | 68.11 | 67.43 | 69.40 | 70.03 | ||
裸地 | 71.92 | 74.43 | 72.09 | 75.97 | 76.26 | 66.31 | 69.95 | 70.72 | 71.76 | 72.07 | 69.00 | 72.12 | 71.39 | 72.84 | 74.10 | ||
水体 | 80.53 | 85.82 | 84.25 | 89.61 | 91.01 | 81.56 | 84.61 | 83.78 | 84.06 | 86.47 | 81.04 | 85.21 | 84.01 | 86.74 | 89.15 |
最佳指标已经加粗标注. 从表4可以看出,NC-Net在较多类中占据最佳指标分数. 尤其在水体类别中,识别精度达到91%. 其他网络对水体类的识别效果较好. 分析原因可知,该数据集具有较大范围的水体标注,存在多张图片具有完全水体类别的现象. 所有网络对水体的识别准确率都较高. DeepLabv3+网络表现较好. 在建筑物、人行道2个类别中均有指标超过NC-Net. 总体来说,提出的NC-Net性能是最好的.
2.3.3. NC-Net与其他网络的性能比较
表 5 NC-Net在WHDLD上与其他改进网络的对比结果
Tab.5
3. 结 语
本文提出基于U-Net网络结构的改进网络NC-Net. 该网络在标记数据不足和数据类别不平衡的遥感图像多类别语义分割中具有较好的性能. 提出多尺度特征融合再采样结构,能够有效地获取全局上下文信息. 提出多尺度损失函数级联算法,优化网络整体学习过程. 通过与其他方法进行对比,测试提出的网络架构. 实验结果表明,该方法在GID、WHDLD数据集上达到最高的精度.
参考文献
Detection and modeling of buildings from multiple aerial images
[J].DOI:10.1109/34.922708 [本文引用: 1]
Automatic rooftop extraction in nadir aerial imagery of suburban regions using corners and variational level set evolution
[J].
Robust rooftop extraction from visible band images using higher order CRF
[J].
变分法遥感影像人工地物自动检测
[J].DOI:10.11947/j.AGCS.2018.20170642
A variational approach for automatic man-made object detection from remote sensing image
[J].DOI:10.11947/j.AGCS.2018.20170642
面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用
[J].DOI:10.11947/j.AGCS.2017.20170068 [本文引用: 1]
Object-based morphological building index for building extraction form high resolution remote sensing imagery
[J].DOI:10.11947/j.AGCS.2017.20170068 [本文引用: 1]
遥感影像地物分类多注意力融和U型网络法
[J].DOI:10.11947/j.AGCS.2020.20190407 [本文引用: 1]
A remote sensing image classification procedure based on multilevel attention fusion UNet
[J].DOI:10.11947/j.AGCS.2020.20190407 [本文引用: 1]
Segnet: a deep convolutional encoder-decoder architecture for image segmentation
[J].DOI:10.1109/TPAMI.2016.2644615 [本文引用: 1]
Research on post-earthquake landslide extraction algorithm based on improved U-Net model
[J].DOI:10.3390/rs12050894 [本文引用: 1]
Land-cover classification with high-resolution remote sensing images using transferable deep models
[J].
Performance evaluation of single-label and multi-label remote sensing image retrieval using a dense labeling dataset
[J].DOI:10.3390/rs10060964 [本文引用: 1]
Multilabel remote sensing image retrieval based on fully convolutional network
[J].DOI:10.1109/JSTARS.2019.2961634 [本文引用: 1]
/
〈 |
|
〉 |
