浙江大学学报(工学版), 2024, 58(5): 951-959 doi: 10.3785/j.issn.1008-973X.2024.05.008

计算机技术、通信技术

基于多尺度特征融合的轻量化道路提取模型

刘毅,, 陈一丹, 高琳,, 洪姣

天津城建大学 计算机与信息工程学院,天津 300384

Lightweight road extraction model based on multi-scale feature fusion

LIU Yi,, CHEN Yidan, GAO Lin,, HONG Jiao

School of Computer and Information Engineering, Tianjin Chengjian University, Tianjin 300384, China

通讯作者: 高琳,男,讲师. orcid.org/0000-0001-9047-1567. E-mail: gao2689@163.com

收稿日期: 2023-04-23  

基金资助: 天津市教委科研计划资助项目(2019KJ094).

Received: 2023-04-23  

Fund supported: 天津市教委科研计划资助项目(2019KJ094).

作者简介 About authors

刘毅(1969—),男,教授,从事计算机控制与网络通信的研究.orcid.org/0009-0008-2963-0918.E-mail:lgliuyi@163.com , E-mail:lgliuyi@163.com

摘要

针对当前用于遥感图像道路提取领域的语义模型存在计算复杂度较高、道路提取效果不佳的问题,提出基于多尺度特征融合的轻量化道路提取模型(MFL-DeepLab V3+). 为了减少模型参数量并降低模型的计算复杂度,骨干网络选用轻量化Mobilenet V2网络代替原模型的Xception网络,在空洞空间金字塔池化(ASPP)模块中引入深度可分离卷积. 为了增强模型的道路提取能力,优化对细小路段的提取效果,在解码区提出联合注意力的多尺度特征融合(MFFA). 基于Massachusetts roads数据集的各项实验表明,MFL-DeepLab V3+模型的参数规模显著降低,较原模型参数量压缩了88.67%,道路提取图像完整,边缘清晰,精确率、召回率和F1分数分别达到88.45%、86.41%和87.42%,与其他模型相比取得了更好的提取效果.

关键词: 语义分割 ; 道路提取 ; MFL-DeepLab V3+ ; 多尺度特征融合 ; 注意力机制

Abstract

A road extraction model based on multi-scale feature fusion lightweight DeepLab V3+ (MFL-DeepLab V3+) was proposed aiming at the problems of high computational complexity and poor road extraction effect of the current semantic models used in the field of remote sensing image road extraction. The lightweight MobileNet V2 network was used to replace the original model’s Xception network as the backbone network in order to reduce the parameters of the model and the computational complexity of the model. Deep separable convolution was introduced into the Atlas spatial pyramid pooling (ASPP) module. A multi-scale feature fusion with attention (MFFA) was proposed in the decoding area in order to enhance the road extraction ability of the model and optimize the extraction effect on small road segments. Experiments based on the Massachusetts roads dataset showed that the parameter size of the MFL-DeepLab V3+ model was significantly reduced with a parameter compression of 88.67% compared to the original model. The road extraction image had clear edges, and its accuracy, recall, and F1-score were 88.45%, 86.41% and 87.42%, achieving better extraction performance compared to other models.

Keywords: semantic segmentation ; road extraction ; MFL-DeepLab V3+ ; multi-scale feature fusion ; attention mechanism

PDF (1551KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘毅, 陈一丹, 高琳, 洪姣. 基于多尺度特征融合的轻量化道路提取模型. 浙江大学学报(工学版)[J], 2024, 58(5): 951-959 doi:10.3785/j.issn.1008-973X.2024.05.008

LIU Yi, CHEN Yidan, GAO Lin, HONG Jiao. Lightweight road extraction model based on multi-scale feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(5): 951-959 doi:10.3785/j.issn.1008-973X.2024.05.008

随着卫星遥感技术的迅速发展,高分辨率遥感图像的应用日益广泛. 从遥感图像中提取出的道路信息可被应用于车辆导航、智慧交通[1]、应急救援、城市规划[2]、图像注册、地理信息更新[3]等领域. 近年来,遥感图像道路信息的提取逐渐成为研究热点.

常见的道路提取方法分为传统方法和基于深度学习的提取方法[4]. 传统方法需要人工设计道路特征提取方案. Shi等[5]通过分析光谱特征,实现从光学遥感图像中提取道路中心线,但结果存在噪声问题. 王小娟等[6]利用二维Otsu阈值分割法提取道路特征,对质心点进行拟合操作,得到道路图像. Chang等[7]提出BO-MWSA算法,通过改进分水岭分割算法,引入波段运算和标记法,利用NTL图像实现道路提取. 上述传统提取方法设计分类规则的过程较复杂,道路提取效率低下,同时泛化能力较差,存在普遍的误分类现象,导致分割精度较低.

基于深度学习的道路提取方法利用语义分割模型训练遥感图像数据集,利用得到的参数模型提取道路信息,具有更加卓越的特征提取能力[8],适用于从海量数据中挖掘抽象复杂的深层特征并完成数据的分析与处理[9]. Mnih等[10]提出用卷积神经网络CNN提取遥感图像道路信息,采用条件随机场优化分割结果. Zhong等[11]将实现图像像素级别分类的全卷积神经网络FCN用于道路提取,然而FCN网络预测时仅考虑单个像素,忽略了像素之间的关系,造成预测结果细节缺失的现象. Hou等[1]构建基于互补的神经网络C-unet模型,用于道路提取. Wang等[12]结合残差单元和U-Net模型,实验部分选用遥感图像数据集Massachusetts roads[13]训练网络,但仍出现细小路段漏提的现象.

Google团队提出一系列DeepLab模型[14-17],其中DeepLab V3+骨干网络采取Xception[18],通过ASPP模块整合多尺度特征并引入编码-解码[19]结构优化网络,分割性能更具优势. 赵凌虎等[20]基于DeepLab V3+改进主干网络,结合Dice Loss函数[21]提高模型的道路提取精度. 孟庆宽等[22]采用金字塔池化模块,获得多尺度道路信息特征. 基于注意力机制和多尺度特征融合的遥感图像分割网络取得了一系列研究成果[23]. 张文博等[24]提出改进DeepLab V3+模型,在主干网络引入多尺度金字塔卷积融合多尺度特征,在解码层引入注意力机制优化分割边缘信息. 张小国等[25]提出FDA- DeepLab模型,引入双注意力机制,融合高级和低级特征,使用样本难度权重调节因子解决样本的非均衡性问题. 许泽宇等[26]提出的E-DeepLab模型通过加成连接的方式将编码器与解码器结合,提出改进的自适应调节损失权重方法. 利用上述模型虽然提高了分割精度,但网络结构较复杂,参数规模较大,对于分割种类较少的道路提取任务不占优势.

为了实现对道路的高效率、高精度提取,解决当前语义模型参数量较大和对细小路段提取效果较差的问题,本文提出基于多尺度特征融合的轻量化遥感图像道路提取模型MFL-DeepLab V3+. 设计轻量型特征提取网络并在ASPP模块引入深度可分离卷积,减少模型参数量,提高模型的分割效率和性能. 对解码区的特征融合部分进行优化设计,提出联合注意力的多尺度特征融合方法,结合网络浅层的道路细节特征与深层特征,引入注意力机制增强道路提取的完整性和准确性.

1. 基础网络模型

DeepLab V3+[17]基于全卷积网络,采用编码器-解码器架构,融合多尺度特征和多分支并行结构,网络结构如图1所示.

图 1

图 1   DeepLab V3+网络结构

Fig.1   DeepLab V3+ network architecture


在遥感道路提取领域,利用该网络模型可以提高对目标道路特征及道路边缘信息的关注度,具有分割精度较高的领先优势. DeepLab V3+网络编码区由骨干特征提取网络Xception和ASPP模块组成. 输入样本图像经骨干网络Xception中的卷积操作提取初步特征,ASPP模块使用多分支的并行结构,集合了1×1卷积与3个扩张率分别为6、12、18的空洞卷积,获得不同尺度的感受野并提供更大感受野,解决池化导致的道路目标像素丢失问题. 解码区首先上采样ASPP模块输出的高维特征层,再将输入图片的空间结构还原,对深层特征图进行上采样,使之与具有较高空间分辨率的浅层特征图空间尺寸一致,进行通道堆叠. 将浅层特征与深层特征融合后,恢复下采样过程中损失的空间信息.

2. 方法简介

2.1. MFL-DeepLab V3+模型

提出的遥感图像道路提取模型MFL-DeepLab V3+基于编码-解码结构,分别在DeepLab V3+网络的编码区及解码区提出改进. MFL-DeepLab V3+网络结构图如图2所示.

图 2

图 2   MFL-DeepLab V3+网络的结构图

Fig.2   Structure diagram of MFL-DeepLab V3+ network


编码区. 为了解决道路特征提取网络计算复杂度较高的问题,将骨干特征提取网络设计为轻量化的Mobilenet V2[27]. 为了使网络精准捕获道路上下文信息,减少网络参数量并提高计算效率,在ASPP模块3个平行的空洞卷积中引入DSConv.

解码区. 为了改善模型对道路的提取效果并提高分割精度,提出联合注意力的多尺度特征融合MFFA. MFFA对Mobilenet V2中提取到的2条不同大小的浅层特征进行通道维度拼接,改进的ASPP模块输出的特征图与另一浅层特征相加. 由此得到2个多尺度特征,引入注意力机制,避免无用特征干扰,提高道路提取的准确率,最后进行浅层和深层特征的融合.

2.2. 轻量型特征提取网络

由于DeepLab V3+模型的骨干网络Xception参数量较多,将模型应用于遥感图像道路提取领域的总体计算量大且耗时长. 针对上述问题,引入轻量化的Mobilenet V2网络作为MFL-DeepLab V3+的骨干网络. Mobilenet系列网络通过引入深度可分离卷积[28](depthwise separable convolution, DSConv),有效减少了网络的运算量及参数量. 与上一代网络相比,Mobilenet V2网络增加了线性瓶颈结构和倒残差结构.

Mobilenet V2网络的结构如表1所示. 表中,t为瓶颈层内部的升维倍数,c为特征维数,n为瓶颈层的重复次数,s为瓶颈层第一次卷积的步幅. 为了减少特征丢失,Mobilenet V2在通道压缩过程中使用Linear函数作为激活函数,使用倒残差取代残差,扩张层使用线性激活层取代非线性激活层,避免输入的特征信息丢失,提升网络对道路特征的提取能力.

表 1   Mobilenet V2网络的结构

Tab.1  Structure of Mobilenet V2

输入尺寸算子类型tcns
2242×3Conv2d3212
1122×32Bottleneck11611
1122×16Bottleneck62422
562×24Bottleneck63232
282×32Bottleneck66442
142×64Bottleneck69631
142×96Bottleneck616032
72×160Bottleneck632012
72×320Conv2d 1×1128011
72×1280Avgpool 7×71
1×1×1280Conv2d 1×11280

新窗口打开| 下载CSV


Mobilenet V2残差结构如图3所示. 相比传统方式直接使用3×3卷积,倒残差结构通过1×1卷积升维扩张输入特征通道,利用1×1卷积层降维,减少特征通道数. 利用该方法,有效减少了网络参数量,降低了运算量. Mobilenet V2引入深度可分离卷积代替传统的卷积方式,使用尺度系数缩减模型通道数,通道数缩减后,特征信息集中在缩减后的通道中.

图 3

图 3   Mobilenet V2残差结构图

Fig.3   Residual structure of Mobilenet V2


2.3. 改进的ASPP模块

为了避免模型在编码过程中的连续最大池化操作造成图像分辨率的损失,在ASPP模块中引入深度可分离卷积模块DSConv. DSConv分为深度卷积和逐点卷积两部分,结构如图4所示. FG均为特征图,分别作为模型的输入和输出. DFDG分别为FG的宽和高,MN分别为FG的通道数. 深度可分离卷积中深度卷积的卷积核尺寸为DK×DK,逐点卷积中的卷积核大小为1×1.

图 4

图 4   深度可分离卷积

Fig.4   Depthwise separable convolution


例如输入一组DF×DF×M大小的特征图,输出大小为DG×DG×N,且普通卷积的卷积核尺寸为DK×DK,标准卷积计算量NConv的计算公式为

$ {{N}_{{\text{Conv}}}} = M N D_K^2 D_F^2. $

DSConv卷积计算量被分为以下2部分.

1)特征图的M个输入通道使用相同大小的卷积核进行深度卷积,如图4(a)所示,此处卷积计算量N1

$ {N_1} = M D_K^2 D_F^2. $

2)如图4(b)所示,DSConv经逐点卷积输出特征,进行一个点方向的1×1卷积,此步骤的计算量N2

$ {N_2} = M N D_F^2. $

最终,深度可分离卷积的计算量之和为

$ {N_{{\text{DSConv}}}} = M D_K^2 D_F^2{\text+}M N D_F^2. $

深度可分离卷积与标准卷积的计算量之比为

$\begin{split} \frac{{{D_K}^2 {D_F}^2 M+ {D_F}^2 M N}}{{{D_K}^2 {D_F}^2 M N}} =\frac{1}{N}+\frac{1}{{D_K^2}}.\\[-1pt]\end{split} $

比值小于1. 综上所述,深度卷积相比于标准卷积方式更加高效.

2.4. 联合注意力的多尺度特征融合

为了丰富道路图像的局部细节信息,细化模型对道路的分割精度,设计联合注意力的多尺度特征融合机制MFFA,结构如图5所示.

图 5

图 5   MFFA机制的结构图

Fig.5   Structure of MFFA mechanism


从编码区骨干网络中提取出1/4大小和1/8大小的2条浅层特征,对其进行通道维度的拼接. 为了加强特征图中各特征通道表达的特征关系,引入注意力模块,提取更详细的道路图像信息. 将编码区经过金字塔池化模块的特征图与1/16大小的浅层特征进行拼接,引入注意力模块,避免无用特征干扰拟合,得到高级特征并作4倍上采样,将特征尺寸大小调整为和浅层特征相同的大小.

为了加强网络对遥感图像中道路特征的提取,引入基于归一化的注意力机制[29](normalization-based attention module, NAM),NAM基于CBAM注意力机制[30]重新设计通道和空间子模块. NAM用稀疏的权重惩罚抑制模糊的道路特征,其中批标准化(batch normalization, BN)的比例因子使用标准偏差表示特征权重,具体公式为

$ {{\boldsymbol{B}}_{{\text{out}}}}{\text{ = BN}}\left( {{{\boldsymbol{B}}_{{\text{in}}}}} \right) = {\gamma }\frac{{{{\boldsymbol{B}}_{{\text{in}}}} - {\mu _{\boldsymbol{B} }\times{\boldsymbol{1}}}}}{{\sqrt {\sigma _{\boldsymbol{B}}^2+{{\varepsilon }}} }}+\beta \times{\boldsymbol{1}} . $

式中:BinBout分别为批标准化的输入和输出,$ {\mu _{\boldsymbol{B}}} $$ \sigma _{\boldsymbol{B}} $分别为小批量B的均值和标准差,γβ分别为可训练的尺度因子和位移,ε为极小的超参.

NAM注意力机制结构如图6所示. NAM注意力机制的权重由通道注意力模块(channel attention module, CAM)维度和空间注意力模块(spatial attention module, SAM)维度推断得出,通过与输入特征相乘,自适应调整特征. 如图7所示,输入特征F1首先经过CAM,具体公式为

图 6

图 6   NAM注意力机制结构图

Fig.6   Structure of NAM attention mechanism


图 7

图 7   通道注意力模块

Fig.7   Channel attention module


${{{{\boldsymbol{M}}}}_{{\mathrm{c}}}} = {\mathrm{Sigmoid}}\;( {{\boldsymbol{W}}_\gamma } \cdot({\mathrm{BN}}({\boldsymbol{F}}_{1})))\text{,} $

$ {{W}_{\gamma {{i}}}} = {{{\gamma _{{i}}}}}\Bigg/{{\sum\limits_{{{j}} = 0}^n {{\gamma _{{j}}}} }}. $

式中:Mc为CAM的输出特征,γi为各个通道的比例因子,Wγ为通道权重.

空间注意力子模块如图8所示. NAM在空间维度引入BN比例因子,以衡量像素的显著程度,称作像素归一化. 空间注意力模块SAM的公式为

图 8

图 8   空间注意力模块

Fig.8   Spatial attention module


$ {{{\boldsymbol{M}}}_{{\mathrm{s}}}} = {\mathrm{Sigmoid}}\;( {{\boldsymbol{W}}_\lambda } \cdot({\mathrm{BN}}({\boldsymbol{F}}_{2})))\text{,} $

$ {{W}_{\lambda i}} = {{{\lambda _{{i}}}}}\Bigg/{{\displaystyle \sum\limits_{{{j}} = 0}^n {{\lambda _{{j}}}} }}. $

式中:Ms为SAM的输出特征,Wλ为权重,λi为比例因子.

相较于常见的ECA、SE[31]、CBAM等注意力机制,NAM注意力机制无需额外的卷积层和全连接层,将NAM同时用于提取网络的深层和浅层特征,可以使模型充分学习道路图像中深层特征与浅层特征的空间相关性,提高模型在遥感图像中的道路提取精度.

3. 实验与分析

3.1. 实验设置

实验采用64位Windows10操作系统,使用NVIDIA RTX3080Ti显卡,1 TB硬盘存储训练数据,基于Pytorch1.10搭建模型框架,GPU运行平台为NVIDIA CUDA11.3. 在实验过程中,学习动量设为0.9,基础学习率Ir设为0.001,采用“Poly”学习率衰减策略. 批处理大小设为10,迭代轮次总数设为100. 为了防止实验结果过拟合,将权重衰减率设置为0.000 2.

为了验证MFL-DeepLab V3+模型的轻量型特征提取网络、联合注意力的多尺度特征融合及融入深度可分离卷积的ASPP模块的有效性,验证模型用于道路提取的准确性和轻量性,分别在Massachusetts roads数据集上开展骨干网络对比实验、注意力机制对比实验、不同模块消融实验、不同模型的分割结果对比实验及复杂度分析实验.

3.2. 数据集与评价指标

实验使用的遥感影像道路数据来自于Massachusetts roads数据集[13]. 该数据集涵盖美国马萨诸塞州多种地区(如城市、农村和山区等)共1 108张卫星遥感影像,覆盖地理范围超过2 600 km2,每张图片及对应的标签图像均为1 500像素×1 500像素. 由于其标签影像存在数据缺失和标注不准确的问题,从Massachusetts roads数据集中选取标签标注较准确的300组图像作为训练样本. 将道路图像及对应的标签图像尺寸裁剪为406像素×406像素. 按7∶2∶1的比例分配实验所需的训练集、测试集和验证集. 由于数据样本过少将导致网络模型的鲁棒性较差,需要扩充数据,将训练集中剪裁后的图像通过旋转、水平或垂直翻转操作,最终数据增强后训练样本扩充至11 340张.

在遥感图像道路提取任务中,图像像素划分为背景和道路2类. 采用精确率P、每秒传输帧率v、召回率R、参数量Np和F1分数作为评价指标. PR和F1的计算公式如下:

$ {P}=\frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FP}}}}{,} $

$ {R}=\frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}}\text{,} $

$ {\mathrm{F}}1 {\text{ = }}\frac{{{2}{{{\mathrm{TP}}}}}}{{{2}{{{\mathrm{TP}}+{\mathrm{FN}}+{\mathrm{FP}}}}}}. $

式中:TP和FN分别为模型正确预测道路类和背景类的像素数量,FP为被模型预测为道路类别的背景像素数量.

3.3. 实验结果与分析

3.3.1. 骨干网络的对比实验

为了减少网络参数量与计算量,提升道路提取的效率,考虑替换原模型中参数量较庞大的Xception骨干网络. 为了测试替换不同骨干网络对DeepLab V3+算法的性能影响,分别对Xception网络、常见的Resnet101网络、分割准确率较高的新型网络Efficientnet V2及轻量型网络Mobilenet V2进行4组实验,用F1和Np作为衡量不同骨干网络适配性的评价指标,实验结果如表2所示.

表 2   不同骨干网络的性能对比

Tab.2  Performance comparison of different backbone networks

实验序号骨干网络F1/%Np/106
1Xception84.2471.30
2Resnet10184.6756.85
3Efficientnet V285.1355.51
4Mobilenet V284.055.13

新窗口打开| 下载CSV


表2可见,各个网络的F1分数较接近,虽然实验3中Efficientnet V2的F1分数最高,但参数规模较大,参数量达到55.51 ×106. 实验4中骨干网络为Mobilenet V2时,F1分数为84.05%,参数量减少至5.13 ×106,远远小于其余网络,相比实验1中的Xception、实验2中的Resnet101和实验3中的Efficientnet V2,参数量分别减少了92.81%、90.98%和90.76%. 经分析可知,Mobilenet V2可以在保证模型分割性能的情况下大幅减少网络参数量,有效实现模型的轻量化.

3.3.2. 注意力机制的对比实验

为了加强神经网络的道路特征提取并提升运算速率,考虑引入注意力机制. 基于骨干网络为Mobilenet V2的改进网络,分别引入4种常见的注意力机制进行对比实验.

表3可见,在加入NAM注意力模块后,模型分割精度优于ECA、SE和CBAM,F1分数高达85.03%,模型运算速率达到2.78 帧/s,可以在提升模型分割精度的同时兼顾运算效率. 选择引入NAM注意力模块,帮助网络提升道路提取性能.

表 3   不同注意力机制的性能对比

Tab.3  Performance comparison of different attention mechanisms

实验序号骨干网络注意力机制F1/%v/(帧·s−1)
1Mobilenet V2ECA83.912.55
2Mobilenet V2SE84.132.71
3Mobilenet V2CBAM84.772.83
4Mobilenet V2NAM85.032.78

新窗口打开| 下载CSV


3.3.3. 各模块消融实验

为了验证替换骨干网络后,MFL-DeepLab V3+在以下3个方面的改进是否有效:用DSConv代替原卷积、引入NAM注意力机制以及改进特征融合策略MFFA,根据控制变量法设计5组消融实验,将F1和v作为实验评价指标,实验结果如表4所示.

表 4   MFL-DeepLab V3+模型各模块的消融实验结果

Tab.4  Ablation experiment results of different modules of MFL-DeepLab V3+

实验序号Mobilenet V2DSConvNAMMFFAF1/%v/(帧·s−1)
184.052.66
284.673.45
385.032.78
486.963.36
587.423.17

新窗口打开| 下载CSV


实验2和实验3分别将深度可分离卷积DSConv引入ASPP模块和在编码区引入NAM注意力模块,相较于实验1,F1分别增加了0.62%和0.98%,v分别提升至3.45和2.78 帧/s. 在实验4中同时引入DSConv与NAM注意力机制,F1继续提升至86.96%,v高达3.36 帧/s. 实验5基于实验4在特征提取网络中加入改进的MFFA特征融合模块,虽然较实验4运算速率降低,但与实验1相比,v提高了0.51 帧/s,F1提高至87.42%,实现了模型分割精度与运算性能的平衡,验证了各个模块的有效性.

3.3.4. 不同模型实验结果的对比

为了进一步验证MFL-DeepLab V3+模型的道路提取性能,将该模型与FCN[11]、DeepLab V3+[17]、FDA-DeepLab[25]及E-DeepLab[26]4种网络模型的精确率、召回率和F1进行对比. 以上网络模型均使用统一的环境配置和Massachusetts road数据集进行训练和测试. 不同模型的道路提取结果对比如图9所示. 根据提取细节可知,各模型在提取道路交界和细小路段方面的表现存在显著差异. FCN网络的提取效果较差,道路边缘存在信息缺失,道路图像出现大量断裂区域,这些问题导致分割结果与真实道路标签之间存在明显的差异. DeepLab V3+网络在局部出现错漏提取的现象,在树木和阴影遮挡状况下的提取结果明显地不连续. FDA-DeepLab和E-DeepLab模型的道路提取效果相较于DeepLab V3+有所提升,但对细小道路和道路交界区域的提取效果不佳,道路局部有断裂现象,道路边缘分割的精确度有待提高. MFL-DeepLab V3+模型的提取效果优于上述4种模型,成功提取到细小狭窄的路段,错漏提取现象得到改善,有效避免了树木与阴影遮挡对道路提取的影响.

图 9

图 9   不同道路提取模型结果的对比

Fig.9   Comparison of results of different road extraction models


表5所示为不同模型的道路提取结果对比,其中FCN网络的分割精度较低,3项评价指标均约为80%. DeepLab V3+、FDA-DeepLab和E-DeepLab分割模型的召回率和F1分数均小于84%和86%. MFL-DeepLab V3+模型的道路提取精确率提高至88.45%,F1达到87.42%,召回率达到86.41%,较原模型DeepLab V3+分别提升了1.53%、4.69%和3.18%. 实验结果表明,与其他4种网络模型相比,本文方法的精确率、召回率和F1分数均最高,有效提升了道路提取精度.

表 5   不同模型的性能对比结果

Tab.5  Performance comparison results of different models

算法P/%R/%F1/%
FCN79.8380.1479.98
DeepLab V3+86.9281.7284.24
FDA-DeepLab86.7683.7385.22
E-DeepLab87.1782.4884.76
MFL-DeepLab V3+88.4586.4187.42

新窗口打开| 下载CSV


3.3.5. 模型复杂度分析

为了分析MFL-DeepLab V3+模型与原模型的效率和复杂度,通过与原DeepLab V3+模型的单张图片训练时间TTSP、参数量及检测速度进行对比,模型复杂度的分析如表6所示.

表 6   模型复杂度分析

Tab.6  Model complexity analysis

算法TTSP/msNp/106v/(帧·s−1)
DeepLab V3+1523.8671.34.07
MFL-DeepLab V3+657.14.552.28

新窗口打开| 下载CSV


结果表明,MFL-DeepLab V3+模型的TTSP大幅缩减,v提升了约43.98%;改进后的网络参数量显著减少,模型参数量较原DeepLab V3+压缩了88.67%. MFL-DeepLab V3+模型提高了对遥感图像道路提取的精准度,在识别细窄路段和遮挡路段时表现出色,分割图像完整且边缘平滑,大大缩减了训练时间,在提高提取精度的同时有效兼顾了网络的计算量和参数量,显著增强了分割性能.

4. 结 语

为了解决语义模型计算复杂度较高的问题,引入轻量型骨干网络,在ASPP模块中引入深度可分离卷积模块,减少网络参数量,有效地提升网络的分割性能. 各项对比实验表明,提出的基于多尺度特征融合的轻量化MFL-DeepLab V3+遥感图像道路提取模型在精确率、召回率和F1分数方面均有效提升,道路提取结果完整,边缘清晰,网络参数量显著降低,分割性能更好. 为了解决当前遥感图像道路提取领域的语义模型提取效果不佳的问题,重新设计解码区的特征融合部分,通过联合注意力的多尺度特征融合MFFA加强网络的特征提取能力,在解码阶段有效地恢复道路边界信息,获取高质量的道路细节. MFL-DeepLab V3+模型对遥感图像道路提取领域存在一定的参考意义.

在后续研究中,考虑将道路的结构性特点融入道路特征提取网络的设计,结合大量的样本数据,探究兼具分割效率和预测精度的遥感图像道路提取模型.

参考文献

HOU Y, LIU Z, ZHANG T, et al

C-unet: complement unet for remote sensing road extraction

[J]. Sensors, 2021, 21 (6): 2153

DOI:10.3390/s21062153      [本文引用: 2]

GUNAWAN A, ARIFIANY I, IRWANSYAH E

Semantic segmentation of aerial imagery for road and building extraction with deep learning

[J]. ICIC Express Letters, 2020, 14 (1): 43- 52

[本文引用: 1]

CHENG G, WANG Y, XU S, et al

Automatic road detection and centerline extraction via cascaded end-to-end convolutional neural network

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55 (6): 3322- 3337

DOI:10.1109/TGRS.2017.2669341      [本文引用: 1]

杨栋杰, 高贤君, 冉树浩, 等

基于多重多尺度融合注意力网络的建筑物提取

[J]. 浙江大学学报: 工学版, 2022, 56 (10): 1924- 1934

[本文引用: 1]

YANG Dongjie, GAO Xianjun, RAN Shuhao, et al

Building extraction based on multiple multiscale-feature fusion attention network

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (10): 1924- 1934

[本文引用: 1]

SHI W, MIAO Z, DEBAYLE J

An integrated method for urban main-road centerline extraction from optical remotely sensed imagery

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52 (6): 3359- 3372

DOI:10.1109/TGRS.2013.2272593      [本文引用: 1]

王小娟, 李云伍, 刘得雄, 等

基于机器视觉的丘陵山区田间道路虚拟中线提取方法

[J]. 西南大学学报:自然科学版, 2018, 40 (4): 162- 169

[本文引用: 1]

WANG Xiaojuan, LI Yunwu, LIU Dexiong, et al

A machine vision-based method for detecting virtual midline of field roads in the hilly areas

[J]. Journal of Southwest University: Natural Science, 2018, 40 (4): 162- 169

[本文引用: 1]

CHANG D, WANG Q, YANG J, et al

Research on road extraction method based on sustainable development goals Satellite-1 nighttime light data

[J]. Remote Sensing, 2022, 14 (23): 6015

DOI:10.3390/rs14236015      [本文引用: 1]

王勇, 曾祥强

集成注意力机制和扩张卷积的道路提取模型

[J]. 中国图象图形学报, 2022, 27 (10): 3102- 3115

[本文引用: 1]

WANG Yong, ZENG Xiangqiang

Road extraction model derived from integrated attention mechanism and dilated convolution

[J]. Journal of Image and Graphics, 2022, 27 (10): 3102- 3115

[本文引用: 1]

张永宏, 何静, 阚希, 等

遥感图像道路提取方法综述

[J]. 计算机工程与应用, 2018, 54 (13): 1- 10

[本文引用: 1]

ZHANG Yonghong, HE Jing, KAN Xi, et al

Summary of road extraction methods for remote sensing images

[J]. Computer Engineering and Applications, 2018, 54 (13): 1- 10

[本文引用: 1]

MNIH V, HINTON G E. Learning to detect roads in high-resolution aerial images [C]// Proceedings of European Conference on Computer Vision . Berlin: Springer, 2010: 210-223.

[本文引用: 1]

ZHONG Z, LI J, CUI W, et al. Fully convolutional networks for building and road extraction: preliminary results [C]// Proceedings of Geoscience and Remote Sensing Symposium . Beijing: IEEE, 2016: 1591-1594.

[本文引用: 2]

WANG F, JIANG M J, QIAN C, et al. Residual attention network for image classification [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6450-6458.

[本文引用: 1]

LI P, ZHANG Y, WANG C, et al. Road network extraction via deep learning and line integral convolution [C]// Proceedings of 2016 IEEE International Geoscience and Remote Sensing Symposium . Bejing: IEEE, 2016: 1599-1602.

[本文引用: 2]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2014-12-22)[2023-04-13]. https://arxiv.org/abs/1412.7062.

[本文引用: 1]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [R/OL]. (2017-12-05)[2023-04-13]. https://arxiv.org/abs/1706.05587.

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 834- 848

DOI:10.1109/TPAMI.2017.2699184     

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision . Cham: Springer, 2018: 801-818.

[本文引用: 3]

CHOLLET F. Xception: deep learning with depth wiseseparable convolutions [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 1800-1807.

[本文引用: 1]

徐胜军, 邓博文, 史亚, 等

一种编解码结构的车牌图像超分辨率网络

[J]. 西安交通大学学报, 2022, 56 (10): 101- 110

[本文引用: 1]

XU Shengjun, DENG Bowen, SHI Ya, et al

An encoder-decoder based super resolution network for license plate images

[J]. Journal of Xi'an Jiaotong University, 2022, 56 (10): 101- 110

[本文引用: 1]

赵凌虎, 袁希平, 甘淑, 等

改进Deeplabv3 +的高分辨率遥感影像道路提取模型

[J]. 自然资源遥感, 2023, 35 (1): 107- 114

[本文引用: 1]

ZHAO Linghu, YUAN Xiping, GAN Shu, et al

Road extraction in high resolution remote sensing images based on improved Deeplabv3+model

[J]. Remote Sensing for Natural Resource, 2023, 35 (1): 107- 114

[本文引用: 1]

葛小三, 曹伟

一种改进DeepLabV3+网络的高分辨率遥感影像道路提取方法

[J]. 遥感信息, 2022, 37 (1): 40- 46

[本文引用: 1]

GE Xiaosan, CAO Wei

A road extraction method for high resolution remote sensing imagery based on improved DeepLabV3+ model

[J]. Remote Sensing Information, 2022, 37 (1): 40- 46

[本文引用: 1]

孟庆宽, 杨晓霞, 张漫, 等

基于语义分割的非结构化田间道路场景识别

[J]. 农业工程学报, 2021, 37 (22): 152- 160

[本文引用: 1]

MENG Qingkuan, YANG Xiaoxia, ZHANG Man, et al

Recognition of unstructured field road scene based on semantic segmentation mode

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37 (22): 152- 160

[本文引用: 1]

王振, 杨珺, 邓佳莉, 等

多尺度特征自适应融合的图像语义分割算法

[J]. 小型微型计算机系统, 2022, 43 (4): 834- 840

[本文引用: 1]

WANG Zhen, YANG Jun, DENG Jiali, et al

Image semantic segmentation algorithm based on adaptive fusion of multi-scale features

[J]. Journal of Chinese Computer Systems, 2022, 43 (4): 834- 840

[本文引用: 1]

张文博, 瞿珏, 王崴, 等

融合多尺度特征的改进Deeplab v3+图像语义分割算法

[J]. 电光与控制, 2022, 29 (11): 12- 16

[本文引用: 1]

ZANG Wenbo, QU Jue, WANG Wei, et al

An improved Deeplab v3+ image semantic segmentation algorithm incorporating multi-scale features

[J]. Electronics Optics and Control, 2022, 29 (11): 12- 16

[本文引用: 1]

张小国, 丁立早, 刘亚飞, 等

基于双注意力模块的FDA-DeepLab语义分割网络

[J]. 东南大学学报:自然科学版, 2022, 52 (6): 1145- 1151

[本文引用: 2]

ZHANG Xiaoguo, DING Lizao, LIU Yafei, et al

FDA-DeepLab semantic segmentation network based on dual attention module

[J]. Journal of Southeast University: Natural Science, 2022, 52 (6): 1145- 1151

[本文引用: 2]

许泽宇, 沈占锋, 李杨, 等

增强型DeepLab算法和自适应损失函数的高分辨率遥感影像分类

[J]. 遥感学报, 2022, 26 (2): 406- 415

[本文引用: 2]

XU Zeyu, SHEN Zhanfeng, LI Yang, et al

Enhanced DeepLab algorithm and adaptive loss function for high-resolution remote sensing image classification

[J]. Journal of Remote Sensing, 2022, 26 (2): 406- 415

[本文引用: 2]

SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 4510-4520.

[本文引用: 1]

QIN Y Y, CAO J T, JI X F

Fire detection method based on depthwise separable convolution and YOLOv3

[J]. International Journal of Automation and Computing, 2021, 18 (2): 300- 310

DOI:10.1007/s11633-020-1269-5      [本文引用: 1]

LIU Y C, SHAO Z R, TENG Y Y, et al. NAM: normalization-based attention module [EB/OL]. (2021-11-24)[2023-04-23]. http://arxiv.org/abs/2111.12419.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: [s. n. ], 2018: 3-19.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2018: 7132-7141.

[本文引用: 1]

/