浙江大学学报(工学版), 2024, 58(4): 696-707 doi: 10.3785/j.issn.1008-973X.2024.04.005

计算机与控制工程

基于遥感图像道路提取的全局指导多特征融合网络

宦海,, 盛宇, 顾晨曦

1. 南京信息工程大学 人工智能学院,江苏 南京 210044

2. 南京邮电大学 集成电路科学与工程学院,江苏 南京 210003

Global guidance multi-feature fusion network based on remote sensing image road extraction

HUAN Hai,, SHENG Yu, GU Chenxi

1. School of Artificial Intelligence, Nanjing University of Information Science and Technology, Nanjing 210044, China

2. School of Integrated Circuit Science and Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

收稿日期: 2023-03-20  

Received: 2023-03-20  

作者简介 About authors

宦海(1978—),男,副教授,硕导,从事人工智能研究.orcid.org/0000-0002-2158-3386.E-mail:002274@nuist.edu.cn , E-mail:002274@nuist.edu.cn

摘要

在遥感图像中,建筑与道路的类间相似度高,且存在阴影和遮挡,使得现有深度学习语义分割网络在分割道路时误分割率高,为此提出全局指导多特征融合网络(GGMNet)用于提取遥感图像中的道路. 将特征图分为若干个局部特征,再将全局上下文信息与局部特征相乘,强化各类别特征的提取,以降低网络对道路周边相似地物的误判率. 采用融合多阶段特征的方法准确定位道路空间,降低将其余地物识别为道路的概率. 设计自适应全局通道注意力模块,利用全局信息指导局部信息,丰富每个像素的上下文信息. 在解码阶段,设计多特征融合模块,充分利用并融合骨干网络4个阶段的特征图中的位置信息与语义信息,发掘层与层之间的关联性以提升分割精度. 使用CITY-OSM数据集、DeepGlobe道路提取数据集和CHN6-CUG数据集对网络进行训练和测试. 测试结果表明,GGMNet具有优秀的道路分割性能,降低道路误分割率的能力比对比网络强.

关键词: 遥感图像 ; 深度学习 ; 道路提取 ; 注意力机制 ; 上下文信息

Abstract

Due to the high similarity between buildings and roads in remote sensing images, as well as the existence of shadows and occlusion, the existing deep learning semantic segmentation network generally has a high false segmentation rate when it comes to road segmentation. A global guide multi-feature fusion network (GGMNet) was proposed for road extraction in remote sensing images. To reduce the network’s misjudgment rate of similar features around the road, the feature map was divided into several local features, and then the features were multiplied by the global context information to strengthen the extraction of various features. The method of integrating multi-stage features was used to accurate spatial positioning of roads and reduce the probability of identifying other ground objects as roads. An adaptive global channel attention module was designed, and the global information was used to guide the local information, so as to enrich the context information of each pixel. In the decoding stage, a multi-feature fusion module was designed to make full use of the location information and the semantic information in the feature map of the four stages in the backbone network, and the correlations between layers were uncovered to improve the segmentation accuracy. The network was trained and tested using CITY-OSM dataset, DeepGlobe Road extraction dataset and CHN6-CUG dataset. Test results show that GGMNet has excellent road segmentation performance, and the ability to reduce the false segmentation rate of road segmentation is better than comparing networks.

Keywords: remote sensing image ; deep learning ; road extraction ; attention mechanism ; context information

PDF (2780KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宦海, 盛宇, 顾晨曦. 基于遥感图像道路提取的全局指导多特征融合网络. 浙江大学学报(工学版)[J], 2024, 58(4): 696-707 doi:10.3785/j.issn.1008-973X.2024.04.005

HUAN Hai, SHENG Yu, GU Chenxi. Global guidance multi-feature fusion network based on remote sensing image road extraction. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(4): 696-707 doi:10.3785/j.issn.1008-973X.2024.04.005

遥感图像道路分割可以应用于地图生成、汽车自动驾驶与导航等多个场景[1]. 相较于一般的分割任务,遥感图像道路分割有其独特性和困难性:1)在遥感图像中,目标道路占据的画幅比例普遍偏小;2)如河流、铁路的分类对象与道路过于相似,人眼难以判别;3)道路分岔连通情况较复杂,对道路提取的识别精度有较高要求[2].

运用分割算法提取道路由计算机视觉(computer vision, CV)的图像分割技术发展而来. 图像分割方法大致可以分为传统算法和深度学习算法. 传统算法主要有Gabor滤波器[3]、Sobel算子[4]、分水岭算法[5]等,还有较先进的机器学习方法,如支持向量机[6](support vector machine, SVM)和随机森林[7](random forests, RF). 这些方法通过提取遥感图像中的特征,如纹理、边缘、形状等,进行图像分割从而实现目标提取. 在遥感图像中,道路表现为具有连通性的狭窄线条,有些线条覆盖整幅图像且多条道路可能存在交叉连通,待提取的特征复杂且丰富,干扰也较多,因此传统的图像分割方法很难用于道路提取. 深度学习技术在计算机视觉研究领域发展迅速,该方法自动获取图像的非线性和层次特征,可以更好地解决其他道路提取方法存在的问题. 语义分割是深度学习在图像分割领域中的主要研究方向,它能较全面地利用卷积神经网络(convolutional neural networks, CNNs)[8]从输入图像中提取图像的浅层和深层特征,实现端到端的像素级图像分割,具有较高的分割精度和效率.

学者针对高分辨率的道路图像提取提出的深度学习研究方法不少,但类间相似度高、噪声干扰多、狭窄道路难提取等难点仍有待克服[9]. Long等[10]提出不包含全连接层的全卷积网络(fully convolutional networks, FCN). FCN将CNN最后的全连接层替换为卷积层,称为反卷积,利用反卷积对最后一个卷积层的特征图进行上采样,使最后一个卷积层恢复到输入图像相同的尺寸,在预测每个像素的同时保留空间信息. FCN可以适应任意尺寸输入图像,并且通过不同层之间的跳跃连接同时确保了网络的鲁棒性和精确性,但是FCN不能充分提取上下文信息,语义分割精度较差. 基于FCN改进的U-Net[11]采用编解码的网络结构,它可以充分利用像素的位置信息,在训练集样本较少时仍可保持一定的分割精度. 残差神经网络(deep residual networks, ResNet)[12]避免了因增加网络深度造成的模型过拟合、梯度消失和梯度爆炸问题,被广泛应用于特征提取网络中. Zhao等[13]提出的金字塔场景解析网络(pyramid scene parsing network, PSPNet)使用金字塔池化模块,Chen等[14]提出的DeepLabV3+网络使用空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)获取并引入解码模块恢复便捷信息,这2个网络均提取多尺度的语义信息进行融合,提高了分割精度,但它们只关注宏观的空间位置信息,对细节方面的信息关注不足.

注意力机制使神经网络具备专注于输入图像的某些重点部分的能力. Hu等[15]提出挤压激励网络(squeeze-and-excitation networks, SE-Net),将通道注意力机制加入主干网,提升了特征提取的效率. Woo等[16]提出卷积块注意模块(convolutional block attention module, CBAM),此模块将全局最大池化加入SE模块,同时引入空间注意力机制,有效地提取了特征图内的位置相关信息. Fu等[17]提出的双重注意网络(dual attention network, DANet)使用2种类型的注意力模块,分别模拟空间维度和通道维度中的语义相互依赖性,通过对局部特征的上下文依赖关系进行建模,显著改善了分割结果. Zhang等[18]提出上下文先验网络移动语义分割的令牌金字塔转换器,设计金字塔形式的视觉转换器,平衡了分割精度与速度,减少了数据量,完成了困难样本的较快速分割.

在分割道路时使用现有的语义分割网络的效果欠佳,为此本研究提出全局指导多特征融合网络(global guide multi-feature fusion network,GGMNet),并应用于遥感图像的道路提取. GGMNet包含自适应全局通道注意力模块(adaptive globe channel attention module, AGCA)和多特征融合模块(multi-feature fusion module,MFM).

1. 数据集

采用3个数据集进行训练与测试,分别为CITY-OSM数据集[19]、DeepGlobe道路提取遥感地图数据集[20]和CHN6-CUG数据集[21]. CITY-OSM数据集使用柏林和巴黎的谷歌地图高分辨率RGB正射影像,共有825幅图像,每幅图像为2 611×2 453像素. 按照4∶1的比例随机抽取,其中660幅图像作为训练集,剩余165幅图像作为测试集. CITY-OSM数据集有背景、建筑物和道路3个类别. DeepGlobe道路提取遥感地图数据集共有6 226幅遥感图像,每幅图像为1 500$ \times $1 500像素,按照4∶1的比例随机抽取,其中4 981幅图像作为训练集,剩余1 245幅图像作为测试集. 该数据集的图像拍摄于泰国、印度、印度尼西亚等地,图像场景包括城市、乡村、荒郊、海滨、热带雨林等,数据集有道路和背景2个类别. CHN6-CUG数据集是中国代表性城市大尺度卫星影像数据集,遥感影像底图来自谷歌地球. 在该数据集中,根据道路覆盖的程度,标记道路由覆盖道路和未覆盖道路组成;根据地理因素的物理角度,标示道路包括铁路、公路、城市道路和农村道路等. CHN6-CUG数据集共有4 511幅遥感图像,每幅图像为512×512像素,按照4∶1的比例随机抽取,其中3608幅图像作为训练集,剩余903幅图像作为测试集.

2. 全局指导多特征融合网络

2.1. 网络的整体结构

GGMNet的整体结构如图1所示. 网络的主干部分采用ResNet-50-C[22]来提取输入图像的特征. 网络保留阶段Res-1~Res-4的4个结果,并对Res-2~Res-4的结果进行上采样,获得3个与Res-1结果的尺度相同的结果,分别为$ {F}_{1}、{F}_{2}、{F}_{3}、{F}_{4} $. 将Res-4的结果输入ASPP,以提取深层特征图中的全局信息和多尺度信息. 再将ASPP的输出作为AGCA的输入,利用AGCA提取特征图的类别信息. 对AGCA的结果进行上采样并与之前的4个结果进行融合,得到多层特征(multi-layer features, MF). 分别将$ {F}_{1}、{F}_{2}、{F}_{3}、{F}_{4} $$ \mathrm{M}\mathrm{F} $作为MFM的输入,得到4个结果,分别为$ {F}_{1}'、{F}_{2}'、{F}_{3}'、{F}_{4}' $. 融合这4个结果并进行上采样,得到最终的分割结果.

图 1

图 1   全局指导多特征融合网络的整体结构

Fig.1   Overall structure of global guide multi-feature fusion network


2.2. 自适应全局通道注意力模块

影响道路分割精度的主要原因在于网络将与道路类似的类别错误识别为道路,降低了道路的交并比(intersection over union,IoU). 道路周边的像素对道路影响很大,充分提取道路及其周边的局部信息可以提高分割精度从而降低误分割率. 本研究设计全局通道注意力模块,模块针对每个像素的上下文信息,从全局入手,指导局部信息的权重,在保证类别准确的同时,提高每条道路目标的位置准确率.

AGCA的整体结构如图2所示. 在上分支,对输入特征图$ {\boldsymbol{X}} $进行全局平均池化,得到全局信息的特征向量$ {\boldsymbol{X}}_{\mathrm{c}} $,第$ m $个数据$ {{\boldsymbol{X}}}_{{\mathrm{c}}m} $的计算式为

图 2

图 2   自适应全局通道注意力模块的整体结构

Fig.2   Overall structure of adaptive globe channel attention module


$ {{\boldsymbol{X}}}_{{\mathrm{c}}m}={F}_{{\mathrm{a}}}\left({\boldsymbol{X}}\right)=\frac{1}{H\times W}\sum _{i=1}^{H}\sum _{j=1}^{W}{{\boldsymbol{X}}}_{m}\left(i,j\right). $

式中:$ {F}_{{\mathrm{a}}} $为平均池化,$ {{\boldsymbol{X}}}_{m} $为第$ m $列的所有$ H\times W $个数据. 将此向量进行维度扩展,恢复成$ H\times W\times C $的尺寸,再与输入特征图$ {\boldsymbol{X}} $相加. 将此结果经过$ 1\times 1 $卷积进行通道维度的改变,并经过Sigmoid激活变为$ H\times W\times {s}^{2} $的尺寸,得到$ {{\boldsymbol{X}}}_{1} $. 再将$ {{\boldsymbol{X}}}_{1} $转化成$ {{H}{W}\times s}^{2} $的二维矩阵$ {\boldsymbol{A}}_{{\mathrm{c}}} $. 在下分支中,将输入特征$ X $进行自适应平均池化,得到尺寸为$ s\times s\times C $$ {{\boldsymbol{X}}}_{{\mathrm{s}}} $特征图,再将此特征图转化为$ {s}^{2}\times C $的矩阵$ {\boldsymbol{A}}_{{\mathrm{s}}} $. 将2个矩阵相乘得到尺寸为$ {HW}\times C $的矩阵$ \boldsymbol{A} $,再将$ \boldsymbol{A} $转换成尺寸为$ H\times W\times C $$ {\boldsymbol{X}}_{{{\mathrm{a}}}} $,利用残差思想,将$ \boldsymbol{X} $$ {\boldsymbol{X}}_{{{\mathrm{a}}}} $相加,得到自适应全局通道注意力模块的输出$ {\boldsymbol{Z}} $,此过程表示为

$ {\boldsymbol{Z}}=\boldsymbol{X}+{\boldsymbol{A}}_{{{\mathrm{s}}}}\times {\boldsymbol{A}}_{{{\mathrm{c}}}}. $

上分支的全局平均池化提取特征图$ X $的全局信息,特别是通道中的类别信息;下分支通过自适应平均池化使图像划分为$ s\times s $个区域,每个区域包含此区域的位置信息. 上分支中的全局信息将$ {H}{W} $$ {s}^{2} $维的向量作为权重,指导下分支的局部信息,再通过训练可以提升网络对于道路的提取能力,最终预测语义标签. 当道路的信息在图像的不同位置时,它周边的地物如建筑物、河流、轨道对其影响不同,导致全局的特征对其影响的权重不一致,为此将图像分为$ {s}^{2} $个部分进行分割,并且包含全局信息的$ {H}{W} $个权重向量分别对这$ {s}^{2} $个区域进行指导,$ s $为可变参数,在消融实验中进行讨论,以找到最适合道路提取的取值.

2.3. 多特征融合模块

深层特征和浅层特征具有不同权重的信息,浅层特征的位置信息更加丰富,深层特征的类别信息更加丰富,往往利用注意力融合模块融合深层和浅层特征. GGMNet采用MFM融合4个层的特征图. 将4层的特征图以及被AGCA处理过的第4次特征图进行Concat操作得到多层特征$ \mathrm{M}\mathrm{F} $,此操作的目的是收集并进一步提取多层特征图的信息,使这些信息的利用率达到最高,从而提高网络的分割精度. 再将4层的特征图通过MFM分别与$ \mathrm{M}\mathrm{F} $进行融合,这个融合过程使4层特征图中的局部信息与全局的信息进一步合并,在训练过程中全局信息可以给每张特征图中的信息进行指导. 最后将4个与$ \mathrm{M}\mathrm{F} $融合后的特征图进行Concat操作,结果包含丰富的位置信息与类别信息,使网络的分割结果中位置更加准确,误分割率降低.

图3所示为MFM的整体结构. 将$ \mathrm{M}\mathrm{F} $和第$ i $层的结果$ {F}_{i} $进行Concat操作,经过卷积层和批量标准化(batch normalization,BN)层,然后经过ReLU层进行激活. 再经过Softmax层得到特征图$ Y $,以更好地进行像素分类. 将$ Y $$ \mathrm{M}\mathrm{F} $相乘后与$ {F}_{i} $进行Concat操作,再经过$ 1\times 1 $卷积降维,得到多特征融合模块的输出.

图 3

图 3   多特征融合模块的整体结构

Fig.3   Overall structure of multi-feature fusion module


3. 结果与分析

3.1. 实验环境及参数设置

实验在Centos7.8系统的Pytorch框架下完成,实验平台硬件为Intel I9-9900KF CPU、64-GB内存和2张具有11 GB显存的NVIDIA 2080Ti显卡,使用Mmsegmentation语义分割开源工具箱. 训练过程使用随机梯度下降优化算法作为优化器,学习衰减策略为Poly学习率衰减策略,初始学习率为0.01,最低学习率为0.000 4,损失函数为交叉熵,最大迭代次数为120 000.

3.2. 试验评价指标

平均交并比(MIoU)是语义分割领域中衡量图像分割精度的重要通用指标,是对每一类交并比求和平均的结果. IoU为预测结果和实际结果的交集和并集之比,即分类准确的正类像素数和分类准确的正类像素数与被错分类为负类的正类像素数以及被错分类为正类的负类像素数之和的比值. 评价指标的计算式分别为

$ \text{I}\text{oU}=\frac{\text{TP}}{\text{TP+FP}\text+\text{FN}} , $

$ \text{MI}\text{oU}=\frac{{\displaystyle\sum }_{i=1}^{n}\text{IoU}}{n}. $

式中:TP为预测正确的正样本,FP为预测错误的负样本,FN为预测错误的负样本,$ n $为类别数.

3.3. 结果与分析

3.3.1. 超参数的取值对比

超参数$ s $的大小影响局部特征的尺寸,也影响全局特征对局部特征的指导效果. 在基准网络的ASPP模块之后添加取不同数值$ s $的自适应全局通道注意力模块,以测试不同取值$ s $的模块性能. 考虑到随机误差的影响,所有消融实验都进行5次重复实验,文中表格所列数据为平均值.

基于CITY-OSM数据集设置$ s $的实验结果如表1所示. 可以看出,添加AGCA后,网络的结果均有提升. 在添加$ s=1 $的模块时,道路的IoU提升了0.76个百分点,网络的MIoU提升了1.31个百分点;在添加$ s=4 $的模块时,网络的提升达到最大,道路的IoU提升了0.86个百分点,网络的MIoU提升了1.95个百分点. $ s=2 $$ s=5 $时的提升较小,道路的IoU分别提升了0.58个百分点和0.21个百分点,网络的MIoU分别提升了1.38个百分点和1.49个百分点. 实验结果表明,AGCA可以帮助网络进行更精细的道路提取,对道路周边的类别识别效果有所改善,减少了误分割率;可以观察到,背景类别与建筑物类别在添加模块之后的精度也有所上升,这些提升说明道路周边的类别被识别为道路的概率也有所下降,使道路提取的准确率得到提高. 实验的视觉结果对比如图4所示. 可以看出,基准网络对于道路的识别不到位,边缘模糊,且比标签图中的道路细,说明基准网络在受到道路的周围有相似地物影响时,分割性能较差. 在添加AGCA后,道路的分割情况得到明显改善,道路的粗细更加接近标签图,且在$ s=4 $时,道路分割最为准确,误分割率最低,与标签图最接近. 这与表1的数据结果一致.

表 1   基于CITY-OSM数据集的自适应全局通道注意力模块超参数取值对比

Tab.1  Comparison of hyperparameter values for adaptive globe channel attention module based on CITY-OSM dataset

%
方法IoUMIoU
背景建筑物道路
基准网络83.4448.6176.3069.45
$ s=1 $83.8651.3677.0670.76
$ s=2 $83.7851.8276.8870.83
$ s=3 $83.7150.4377.0670.40
$ s=4 $84.0353.0277.1671.40
$ s=5 $83.6552.6476.5170.94

新窗口打开| 下载CSV


图 4

图 4   基于CITY-OSM数据集的超参数取值可视化结果对比

Fig.4   Comparison of hyperparameter-value visualization results based on CITY-OSM dataset


基于DeepGlobe数据集设置$ s $的结果如表2所示. 可以看出,所有添加AGCA的网络均优于基准网络. 其中$ s=4 $时,道路的IoU=62.80%,比基准网络高0.56个百分点,网络的MIoU=80.45%,比基准网络高0.30个百分点,结果最好. 实验结果表明,当$ s $=4时,网络具有最好的性能,全局信息对局部信息的指导最充分,分割精度最高. 实验的视觉结果对比如图5所示. 由方框标识的区域可以看出,大部分添加自适应全局通道注意力模块的网络在进行道路分割时,误分割情况得到改善. $ s=4 $的方框区域与标签图最接近,几乎没有误分割的道路,也未将背景类别识别为道路,说明当$ s=4 $时,自适应全局通道注意力模块的效果最好,证明了模块的有效性. 这与表2的数据结果一致.

表 2   基于DeepGlobe数据集的自适应全局通道注意力模块超参数取值对比

Tab.2  Comparison of hyperparameter values for adaptive globe channel attention module based on DeepGlobe dataset

%
方法IoUMIoU
背景道路
基准网络98.0662.2480.15
$ s=1 $98.0662.3780.22
$ s=2 $98.0862.5880.33
$ s=3 $98.1062.4580.28
$ s=4 $98.1062.8080.45
$ s=5 $98.0662.4480.25

新窗口打开| 下载CSV


图 5

图 5   基于DeepGlobe数据集的超参数值可视化结果对比

Fig.5   Comparison of hyperparameter-value visualization results based on DeepGlobe dataset


基于CHN6-CUG数据集设置$ s $的结果如表3所示. 可以看出,所有添加AGCA的网络结果均优于基准网络. 其中$ s=4 $时,道路的IoU=61.94%,比基准网络高1.81个百分点;网络的MIoU=79.62%,比基准网络高0.99个百分点,结果最好. 实验结果表明,当$ s $=4时,网络对道路的提取能力最好,精确度最高. 实验的视觉结果对比如图6所示. 可以看出,基准网络分割出的道路边缘不清晰,形状也与标签图相差较大,在添加AGCA之后,道路的边缘与粗细都与标签图较接近,在$ s=2、3、5 $时,都有将背景类别识别为道路的情况,在$ s=1、4 $时误分割率较小. 实验结果表明,自适应全局通道注意力模块的有效性,并且在$ s= $4时性能最好,这与表3的结果一致.

表 3   基于CHN6-CUG数据集的自适应全局通道注意力模块超参数取值对比

Tab.3  Comparison of hyperparameter values for adaptive globe channel attention module based on CHN6-CUG dataset

%
方法IoUMIoU
背景道路
基准网络97.1260.1378.63
$ s=1 $97.1660.2278.69
$ s=2 $97.2460.6278.93
$ s=3 $97.2560.5278.86
$ s=4 $97.2961.9479.62
$ s=5 $97.1660.3778.77

新窗口打开| 下载CSV


图 6

图 6   基于CHN6-CUG数据集的超参数值可视化结果对比

Fig.6   Comparison of hyper parameter-value visualization results based on CHN6-CUG dataset


由3个数据集的实验结果可以看出,当设置s=4时,AGCA拥有最好的性能. 此时AGCA可以帮助网络利用图像的全局信息指导局部信息,并且分析道路周边的像素类别以减少误分割率,提高分割准确率.

3.3.2. 模块有效性分析

以ResNet50-C加上ASPP模块的网络作为基准网络进行模块有效性分析. 在基准网络以后添加AGCA和解码器中的MFM后,测试模块的有效性. 设置3个消融实验来测试模块有效性. 实验1在基准网络的基础上添加AGCA. 实验2在实验1的基础上添加MFM,但只融合Res-1和Res-4的特征图(浅层特征和深层特征). 实验3在实验1的基础上,将4个阶段的特征图全部进行融合,形成最终的全局指导多特征融合网络. 实验中统一设置$ s=4 $,如表4所示为基于CITY-OSM数据集对基准网络分别添加不同模块时的分割精度. 可以看出,在添加AGCA和MFM之后,网络的精度变高,道路提取效果变好. 实验1中,相比于基准网络,道路的IoU提高了0.86个百分点,网络的MIoU提高了1.95个百分点,证明了AGCA的有效性,也证明该模块可以帮助网络识别与道路类间相似度高的其余类别,提高网络精度. 实验2中,道路的IoU相较于实验1提高了0.02个百分点,网络的MIoU提高了0.29个百分点,提升较少,但证明了深层特征与浅层特征融合可以提高网络精度,增加准确率. 实验3中,道路的IoU相较于实验1提高了0.52个百分点,网络的MIoU提高了0.93个百分点,证明了将ResNet-50-C的4个阶段进行特征融合的有效性,也证明了多特征融合模块的有效性. 将4个阶段特征融合可以充分利用每个阶段中包含的位置信息和类别信息,减小误分割率,优化网络性能. 实验的可视化结果对比结果如图7所示. 可以看出,随着模块的增加,道路的分割效果逐步变好,基准网络的误分割率很高,网络常将背景类别与建筑物类别识别为道路,使分割效果变差,在模块添加后误分割的情况明显改善,道路的完整度与粗细也与标签图更加接近. 这与表4的数值结果一致.

表 4   基于CITY-OSM数据集的模块有效性分析

Tab.4  Module validity analysis based on CITY-OSM dataset

%
方法IoUMIoU
背景建筑物道路
基准网络83.4448.6176.3069.45
+AGCA84.0353.0277.1671.40
+AGCA+MFM(Res-1,Res-4)84.1253.7677.1871.69
+AGCA+MFM84.3154.9977.6872.33

新窗口打开| 下载CSV


图 7

图 7   基于CITY-OSM数据集的模块有效性分析可视化结果对比

Fig.7   Comparison of visualization results for module validity analysis based on CITY-OSM dataset


表5所示为基于DeepGlobe数据集对基准网络分别添加不同模块时的分割精度. 实验1中,在添加AGCA后,相比于基准网络,道路的IoU提高了0.56个百分点,网络的MIoU提高了0.30个百分点,证明了AGCA的有效性. 实验2中,道路的IoU相较于实验1提高了0.12个百分点,网络的MIoU提高了0.06个百分点,证明了融合深层特征与浅层特征可以帮助网络提高精度. 实验3中,道路的IoU相较于实验1提高了0.31个百分点,网络的MIoU提高了0.18个百分点,此结果说明多特征融合可以充分利用特征图中的位置信息和类别信息,提升网络的分割性能. 实验的可视化结果对比结果如图8所示,在添加AGCA后,道路更加鲜明,边缘更加清晰,道路误分割率降低;在添加MFM后,分割结果更接近标签图,误分割比重进一步减少,这与表5的数值结果一致.

表 5   基于DeepGlobe数据集的模块有效性分析

Tab.5  Module validity analysis based on DeepGlobe dataset

%
方法IoUMIoU
背景道路
基准网络98.0662.2480.15
+AGCA98.1062.8080.45
+AGCA+MFM(Res-1, Res-4)98.1062.9280.51
+AGCA+MFM98.1463.1180.63

新窗口打开| 下载CSV


表6所示为基于CHN6-CUG数据集对基准网络分别添加不同模块时的分割精度. 实验1中,在添加AGCA后,相比于基准网络,道路的IoU提升了1.81个百分点,网络的MIoU提高了0.99个百分点,证明了此模块的有效性. 实验2中,道路的IoU相较于实验1提高了0.22个百分点,网络的MIoU提高了0.10个百分点,证明了深层特征与浅层特征的有效性,也证明了MFM的有效性. 实验3中,道路的IoU相比于实验1提高了1.27个百分点,网络的MIoU相比于实验1提高了0.67个百分点,证明了融合4个阶段的特征可以帮助网络收集更丰富的位置信息与类别信息,提升分割的精确度. 实验的可视化结果对比结果如图9所示. 可以看出,基准网络的道路比标签图粗,误分割道路较高,在添加AGCA后,道路形状更接近标签图,道路边缘更清晰;在添加MFM后,误分割情况更少,这与表6的数值结果一致.

表 6   基于CHN6-CUG数据集的模块有效性分析

Tab.6  Module validity analysis based on CHN6-CUG dataset

%
方法IoUMIoU
背景道路
基准网络97.1260.1378.63
+AGCA97.2961.9479.62
+AGCA+MFM(Res-1, Res-4)97.2862.1679.72
+AGCA+MFM97.3763.2180.29

新窗口打开| 下载CSV


图 8

图 8   基于DeepGlobe数据集模块的有效性分析可视化结果对比

Fig.8   Comparison of visualization results for module validity analysis based on DeepGlobe dataset


图 9

图 9   基于CHN6-CUG数据集模块的有效性分析可视化结果对比

Fig.9   Comparison of visualization results for module validity analysis based on CHN6-CUG dataset


由以上3个数据集的实验结果可以看出,AGCA可以利用全局信息指导局部信息,减少误分割率;MFM可以融合4个阶段的特征以利用特征图中的位置信息和类别信息提升网络的分割准确率.

3.3.3. 网络对比与分析

对比不同网络在道路提取中的性能,使用DeepLabV3[23]、APCNet[24]、CCNet[25]、DANet、EMANet[26]、DNLNet[27]、CRANet[28]、SANet[29]与所提网络进行对比. APCNet融合多尺度、自适应和全局指导局部亲和力3个要素设计网络,道路分割性能较好;DANet通过建模通道注意力和空间注意力来提取特征;EMANet设计期望最大化注意力机制(EMA),摒弃在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,大大降低了复杂度;DNLNet设计解耦non-local模块,增加通道间的位置信息的交互,增加了道路分割的精确度和效率;CRANet通过使用级联的残差注意力模块来提取遥感图像中边界细化的道路,该结构利用多尺度特征上的空间注意残块来捕获长距离关系,并引入通道注意里模块来优化多尺度特征融合,并且设计轻量级编码器-解码器网络,以自适应优化提取的道路边界.

基于CITY-OSM数据集的网络分割性能对比结果如表7所示. GGMNet的道路IoU=77.68%,MIoU=72.33%,优于其他的语义分割网络,与SANet的分割效果接近. GGMNet的另外2个类别的IoU也高于其他网络. GGMNet的道路IoU比DNLNet的高0.56个百分比,比EMANet高0.65个百分比,证明了网络在道路提取方面的有效性. 实验结果表明,网络整体分割效果好,从图像中提取的信息丰富,可以更好地进行特征融合. 实验的可视化对比结果如图10所示. 可以看出,GGMNet的道路分割情况优于其他网络,比SANet的分割情况略好. 在参与对比的网络中,GGMNet的道路最为清晰,连通状况最好,其余网络的误分割情况较为严重,将零散的背景类中颜色较深的阴影错误识别为道路,GGMNet的误分割情况最少,分割结果最好,这与表7的数据结果一致.

表 7   基于CITY-OSM数据集不同网络的分割性能对比

Tab.7  Segmentation performance comparison of different networks based on CITY-OSM dataset

%
网络IoUMIoU
背景建筑物道路
DeepLabV383.4448.6176.3069.45
APCNet83.7549.4276.7769.98
CCNet83.3252.7676.5070.86
DANet81.7647.6173.0467.47
EMANet83.7653.3477.0371.38
DNLNet83.9553.0077.1271.36
CRANet83.2951.3576.8470.49
SANet84.2654.7877.5572.20
GGMNet84.3154.9977.6872.33

新窗口打开| 下载CSV


图 10

图 10   不同网络基于CITY-OSM数据集的分割结果对比

Fig.10   Segmentation results comparison of different networks based on CITY-OSM dataset


基于DeepGlobe数据集的网络分割性能对比结果如表8所示. 可以看出,GGMNet的MIoU=80.63%,是最优结果,道路的IoU=63.11%,也是最优结果;SANet的道路MIoU次优,道路的IoU也为次优. 这些结果证明了GGMNet的有效性,GGMNet在道路提取方面比其他网络精度更高,通过全局信息指导局部信息,并融合位置信息与类别信息使分割结果更准确. 实验的可视化对比结果如图11所示. 在标签图中,方框区域没有道路,观察原图可以发现,此区域为农田与农田边界,农田边界与道路的相似度极高,极易被误分割为道路. 在其他网络的分割结果中,农田边界都被判定为道路,而GGMNet未出现误分割情况. GGMNet中的AGCA通过全局信息对局部信息的指导,识别出农田边界为背景类别而非道路类别,提高了分割精确性. 这与表8的数据结果一致.

表 8   基于DeepGlobe数据集不同网络的分割性能对比

Tab.8  Segmentation performance comparison of different networks based on DeepGlobe dataset

%
网络IoUMIoU
背景道路
DeepLabV398.0662.2480.15
APCNet98.0359.7878.91
CCNet98.0961.7779.93
DANet97.9861.7779.88
EMANet98.0661.4579.76
DNLNet98.1062.1980.15
CRANet98.0562.0480.04
SANet98.1563.0580.60
GGMNet98.1463.1180.63

新窗口打开| 下载CSV


图 11

图 11   不同网络基于DeepGlobe数据集的分割结果对比

Fig.11   Segmentation results comparison of different networks based on DeepGlobe dataset


基于CHN6-CUG数据集的网络分割性能对比结果如表9所示. 可以看出,GGMNet的表现最好,拥有最优的分割结果. GGMNet的道路IoU=63.21%,MIoU=80.29%,比次优的SANet稍好,优于其他分割网络的结果. 说明针对道路提取,GGMNet可以充分利用特征图的信息以获得更精确的分割结果. 实验的可视化对比结果如图12所示. 可以看出,SANet,DNLNet,GGMNet的分割效果较好,其余道路都有较严重的道路断连情况和形状问题. GGMNet中的道路连通性最好、最完整,也与标签图中的道路形状最接近,证明了GGMNet在道路提取方面的有效性与优越性. 这与表9的数据结果一致.

表 9   基于CHN6-CUG数据集不同网络的分割性能对比

Tab.9  Segmentation performance comparison of different networks based on CHN6-CUG dataset

%
网络IoUMIoU
背景道路
DeepLabV397.1260.1378.63
APCNet97.2461.9079.57
CCNet97.2661.5879.42
DANet97.2360.4478.83
EMANet97.1862.0479.61
DNLNet97.3262.5079.91
CRANet97.3262.8880.10
SANet97.3563.0880.22
GGMNet97.3763.2180.29

新窗口打开| 下载CSV


通过以上3个数据集的实验结果可以看出,在参与对比的网络中,GGMNet可以在其他网络误分割率较高的情况下,维持较低的误分割率,并且保证道路的连通性,道路尺度也更接近标签图,可以完成分辨率较高的遥感图像道路提取任务.

图 12

图 12   不同网络基于CHN6-CUG数据集的分割结果对比

Fig.12   Segmentation results comparison of different networks based on CHN6-CUG dataset


4. 结 语

本研究就遥感图像道路提取任务提出全局指导多特征融合网络GGMNet,有效解决了道路提取误分割率高的问题. 详细介绍了GGMNet的网络结构和设计思路,以及各个模块的主要作用. 设计了自适应全局通道注意力模块(AGCA),利用全局上下文信息指导局部特征对各类别地物的特征提取;设计了多特征融合模块(MFM)来融合多阶段特征图的特征. 将多阶段特征图与被AGCA处理后的Res-4阶段的特征图用MFM进行融合,使每阶段的位置信息与类别信息得到充分利用,提高分割精度. 在CITY-OSM数据集、DeepGlobe道路提取数据集和CHN6-CUG道路数据集上的实验结果表明,GGMNet的分割性能优秀,可以将图片中道路较为完整地提取出来,误分割率低,在参与对比的网络中分割性能最好. 本研究在训练语义分割网络时,对输入图像进行了简单的预处理(如旋转、翻折),在处理道路相关的数据时,这些操作有可能使特征没有被充分利用. 在未来的工作中,将尝试利用如形态学、图像直方图的图像处理算法进行训练图像的预处理,提升特征提取网络对特征的利用效率,以提高分割精度.

参考文献

QUAN B, LIU B, FU D, et al. Improved DeepLabV3 for better road segmentation in remote sensing images [C]// 2021 International Conference on Computer Engineering and Artificial Intelligence . Shanghai: IEEE, 2021: 331–334.

[本文引用: 1]

ZHANG J, LI Y, SI Y, et al

A low-grade road extraction method using SDG-DenseNet based on the fusion of optical and SAR images at decision level

[J]. Remote Sensing, 2022, 14 (12): 2870

DOI:10.3390/rs14122870      [本文引用: 1]

胡春安, 陈玉玲

基于Gabor和改进 LDA的人耳识别

[J]. 计算机工程与科学, 2015, 37 (7): 1355- 1359

[本文引用: 1]

HU Chun’an, CHEN Yuling

An ear recognition algorithm based on gabor features and improved LDA

[J]. Computer Engineering and Science, 2015, 37 (7): 1355- 1359

[本文引用: 1]

邢军

基于Sobel算子数字图像的边缘检测

[J]. 微机发展, 2005, 15 (9): 48- 49

[本文引用: 1]

XING Jun

Edge detection of Sobel-based digital image

[J]. Microcomputer Development, 2005, 15 (9): 48- 49

[本文引用: 1]

SUN Q, LIU Q. The target fish’s population detection based on the improved watershed algorithm [C]// 2022 7th International Conference on Intelligent Computing and Signal Processing (ICSP) . Xi’an: IEEE, 2022: 507-510.

[本文引用: 1]

QIN J, HE Z S. A SVM face recognition method based on Gabor-featured key points [C]// 2005 International Conference on Machine Learning and Cybernetics . Guangzhou: IEEE, 2005: 5144–5149.

[本文引用: 1]

董师师, 黄哲学

随机森林理论浅析

[J]. 集成技术, 2013, 2 (1): 1- 7

[本文引用: 1]

DONG Shishi, HUANG Zhexue

A brief theoretical overview of random forests

[J]. Journal of Integration Technology, 2013, 2 (1): 1- 7

[本文引用: 1]

GU J, WANG Z, KUEN J, et al

Recent advances in convolutional neural networks

[J]. Pattern Recognition, 2018, 77: 354- 377

DOI:10.1016/j.patcog.2017.10.013      [本文引用: 1]

ZHANG Z, LIU Q, WANG Y

Road extraction by deep residual U-Net

[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15 (5): 749- 753

DOI:10.1109/LGRS.2018.2802944      [本文引用: 1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3431–3440.

[本文引用: 1]

LIN G, MILAN A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 1925–1934.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 2881–2890.

[本文引用: 1]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// European Conference on Computer Vision . [S. l.]: Springer, 2018: 833–851.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// European Conference on Computer Vision . [S. l.]: Springer, 2018: 3–19.

[本文引用: 1]

FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 3146–3154.

[本文引用: 1]

ZHANG W, HUANG Z, LUO G, et al. TopFormer: token pyramid transformer for mobile semantic segmentation [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 12083–12093.

[本文引用: 1]

KAISER P, WEGNER J D, LUCCHI A, et al

Learning aerial image segmentation from online maps

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55 (11): 6054- 6068

DOI:10.1109/TGRS.2017.2719738      [本文引用: 1]

DEMIR I, KOPERSKI K, LINDENBAUM D, et al. Deepglobe 2018: a challenge to parse the earth through satellite images [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops . Salt Lake City: IEEE, 2018: 172-181.

[本文引用: 1]

ZHU Q, ZHANG Y, WANG L, et al

A global context-aware and batch-independent network for road extraction from VHR satellite imagery

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 353- 365

DOI:10.1016/j.isprsjprs.2021.03.016      [本文引用: 1]

HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 558–567.

[本文引用: 1]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-12-05)[2023-05-10]. https://arxiv.org/pdf/1706.05587.pdf.

[本文引用: 1]

HE J, DENG Z, ZHOU L, et al. Adaptive pyramid context network for semantic segmentation [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 7519–7528.

[本文引用: 1]

HUANG Z, WANG X, HUANG L, et al. CCNet: criss-cross attention for semantic segmentation [C]// 2019 IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 603–612.

[本文引用: 1]

LI X, ZHONG Z, WU J, et al. Expectation-maximization attention networks for semantic segmentation [C]// 2019 IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9167–9176.

[本文引用: 1]

YIN M, YAO Z, CAO Y, et al. Disentangled non-local neural networks [C]// European Conference on Computer Vision . [S. l.]: Springer, 2020: 191–207.

[本文引用: 1]

LI S, LIAO C, DING Y, et al

Cascaded residual attention enhanced road extraction from remote sensing images

[J]. ISPRS International Journal of Geo-Information, 2022, 11 (1): 9

[本文引用: 1]

HUAN H, SHENG Y, ZHANG Y, et al

Strip attention networks for road extraction

[J]. Remote Sensing, 2022, 14 (18): 4516

DOI:10.3390/rs14184516      [本文引用: 1]

/