浙江大学学报(工学版), 2026, 60(3): 585-593 doi: 10.3785/j.issn.1008-973X.2026.03.014

计算机技术、控制工程

融合多尺度分辨率和带状特征的遥感道路提取

李国燕,, 李鹏辉, 刘榕,, 梅玉鹏, 张明辉

天津城建大学 计算机与信息工程学院,天津 300384

Remote sensing road extraction by fusing multi-scale resolution and strip feature

LI Guoyan,, LI Penghui, LIU Rong,, MEI Yupeng, ZHANG Minghui

College of Computer and Information Engineering, Tianjin Chengjian University, Tianjin 300384, China

通讯作者: 刘榕,男,讲师,硕士. orcid.org/0009-0001-1119-1784. E-mail: lr@tcu.edu.cn

收稿日期: 2025-04-6  

基金资助: 天津市科技特派员资助项目(24YDTPJC00410).

Received: 2025-04-6  

Fund supported: 天津市科技特派员资助项目(24YDTPJC00410).

作者简介 About authors

李国燕(1984—),女,副教授,博士,从事下一代网络技术、人工智能的研究.orcid.org/0000-0003-3224-2824.E-mail:ligy@tcu.edu.cn , E-mail:ligy@tcu.edu.cn

摘要

针对现有深度学习方法在提取遥感影像道路长距离拓扑特征时存在连通性断裂和细节缺失的问题,提出融合多尺度分辨率和带状特征网络(MSRSF-Net). 该网络设计带状形态学注意力机制,强化细长道路的特征聚焦能力. 编码器集成通道-空间双注意力机制与多分辨率残差分支,实现跨尺度特征的协同提取. 解码器采用带状卷积与方形卷积的特征融合架构,提升道路提取的拓扑连贯性. 在Massachusetts、DeepGlobe、SpaceNet数据集上的实验表明,MSRSF-Net的IoU分别达到73.76%、68.57%、59.98%,APLS达到69.78%、60.27%、62.17%,与主流分割模型相比,道路连续性的保持能力有所提升.

关键词: 道路提取 ; 带状卷积 ; 多尺度特征融合 ; 注意力机制 ; ResNet残差结构

Abstract

Multi-scale resolution and strip feature fusion network (MSRSF-Net) was proposed in order to address the issue of fragmentation and loss of fine details in extracting long-range topological road feature from remote sensing imagery. The network was designed with a strip-shaped attention mechanism in order to enhance the feature representation of elongated road. The encoder integrated dual channel-spatial attention mechanism with multi-resolution residual branch in order to achieve collaborative cross-scale feature extraction. The decoder adopted a feature fusion architecture combining strip and square convolution, improving the topological continuity of road extraction. The experimental results on the Massachusetts, DeepGlobe and SpaceNet datasets demonstrated that MSRSF-Net achieved IoU scores of 73.76%, 68.57% and 59.98%, with APLS metrics of 69.78%, 60.27% and 62.17%, respectively, demonstrating superior performance in preserving road connectivity compared with mainstream segmentation models.

Keywords: road extraction ; strip-shaped convolution ; multi-scale feature fusion ; attention mechanism ; ResNet residual structure

PDF (2854KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李国燕, 李鹏辉, 刘榕, 梅玉鹏, 张明辉. 融合多尺度分辨率和带状特征的遥感道路提取. 浙江大学学报(工学版)[J], 2026, 60(3): 585-593 doi:10.3785/j.issn.1008-973X.2026.03.014

LI Guoyan, LI Penghui, LIU Rong, MEI Yupeng, ZHANG Minghui. Remote sensing road extraction by fusing multi-scale resolution and strip feature. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 585-593 doi:10.3785/j.issn.1008-973X.2026.03.014

道路提取作为城市规划与交通管理领域的关键技术,通过提供精确的路网拓扑数据,对优化交通流量、缓解拥堵及指导基础设施建设具有重要价值[1]. 传统方法依赖人工设计的特征,虽然在规则场景中表现良好,但难以应对复杂的道路环境. 尽管基于CNN的深度学习方法取得了显著进展[2],但由于遥感影像中的道路结构复杂多变,普遍存在拓扑信息提取不完整和模型泛化能力不足的问题.

为了应对上述挑战,研究者们从特征提取、模型结构、注意力机制等多个角度进行深入探索. 在特征提取技术方面,Zou等[3]提出全尺度特征融合模块(AF-module),通过整合编码器与解码器的全局信息,显著增强了模型在复杂环境下的适应能力. Lu等[4]构建多尺度残差学习全局感知模型(GAMS-Net),有效捕捉了空间上下文与通道依赖性,提升了道路识别性能. 在模型结构优化中,Zhang等[5]将ResNet与U-Net框架相结合,借助丰富的跳跃连接促进信息传播. Xu等[6]提出模仿学习算法iCurb,通过模拟道路顶点与边缘特征,实现中心线提取. Liu等[7]在Faster R-CNN中嵌入注意力机制,通过融合多尺度特征提升了检测精度. 此外,注意力机制与全局建模成为研究热点. Chen等[8]设计双分支编码器并配合区域注意力模块(RANM),以拟合道路形态. Xu等[9]构建基于空间注意力的提取模型,融合道路与建筑物的全局信息. Wang等[10]利用非局部操作建模全局与局部特征关系,以提升分割效果. Qi等[11]提出动态蛇形卷积(DSC),在编解码器间引入可学习空间变换模块,显著增强了复杂场景下的道路提取能力.

尽管现有方法在不同方面取得了成效,但难以兼顾多分辨率影像与复杂拓扑结构的问题仍未完全解决,基于此,本文提出多尺度分辨率与带状特征融合网络(MSRSF-Net). 本文工作的主要创新如下. 1)设计多向带状注意力机制(MDSA),通过多方向带状卷积与方形卷积的特征融合,增强对道路关键区域的感知能力. 2)构建双分支多分辨率特征融合编码器(MRFF),将注意力机制与跨分辨率加权融合,提升模型对不同分辨率影像的适应性. 3)提出多向带状特征还原解码器(MDSR),采用带状转置卷积还原道路拓扑结构,通过多方向特征融合提高道路重建的质量.

1. 相关架构

基于改进的U-Net架构提出MSRSF-Net,该网络的核心创新在于编码器-解码器结构的协同优化,如图1所示. 其中,S为步长,P为填充的像素点数,D为空洞率. 编码器部分引入MDSA,通过带状卷积核提取道路的方向特征. 结合MRFF,实现跨尺度特征融合,以增强模型的鲁棒性. 解码器部分引入MDSR,利用带状转置卷积操作重建道路拓扑结构,从而显著提升提取结果的完整性与几何连贯性.

图 1

图 1   多尺度分辨率及带状特征融合的 U 型网络

Fig.1   U-network with multi-scale resolution and fusion of strip feature


1.1. 多向带状注意力机制

在遥感道路提取领域,传统的方形卷积核受限于结构特点[12],难以有效地捕捉道路网络的高曲率拓扑特征,细长道路的形态特征在提取过程中易产生歧义. 针对上述问题,设计多向带状注意力机制,如图2所示. 其中,KinKout分别为输入和输出特征图的通道数. 采用多个方向的带状卷积核构建拓扑感知机制,实现道路的各向异性特征提取.

图 2

图 2   多向带状注意力机制

Fig.2   Multi-directional strip attention mechanism


MDSA采用水平、垂直及左、右对角线4个方向的带状卷积核,并行提取道路特征. 针对斜向特征的提取,通过对输入图像进行特定角度的旋转后执行卷积操作实现. 具体而言,2个斜向带状卷积使用旋转图像的思想,即在进行卷积操作前先将图像顺时针旋转${45^ \circ }$${135^ \circ }$再进行卷积,进而实现斜向的带状卷积操作. 各方向特征经融合卷积层的整合,使卷积核形态更贴合道路拓扑结构. 为了进一步增强特征表达能力,模块引入特征级联机制,将多方向带状特征与方形卷积特征相融合,在保留局部细节的同时,强化全局上下文建模能力. 该设计显著提升了对道路交叉口复杂结构的提取精度,有效解决了因遮挡或道路断裂导致的特征不连续问题.

MDSA模块借鉴残差网络的架构,处理流程如下. 输入特征图${{\boldsymbol{E}}_i}$通过4个方向的带状卷积核提取多方向道路特征,上半部分通过四向的带状卷积核提取不同方向上的道路特征信息(分别记为${\boldsymbol{E}}_i^ \to $${\boldsymbol{E}}_i^ \uparrow $${\boldsymbol{E}}_i^ \nearrow $${\boldsymbol{E}}_i^ \searrow $),各方向输出经卷积层融合后得到上半部分的输出${{\boldsymbol{E}}_{\text{above}}}$. 输入特征图${{\boldsymbol{E}}_i}$通过方形卷积处理,得到下半部分输出${{\boldsymbol{E}}_{\text{below}}}$. 该过程的公式表示如下:

$ {\boldsymbol{E}^{ \to \uparrow \nearrow \searrow }} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{1 \times 7}}\left( {{{\boldsymbol{E}}_i}} \right)} \right)} \right), $

$ {{\boldsymbol{E}}_{\text{above}}} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{1 \times 1}}\left( {\boldsymbol{E}_i^ \to \text { © } \boldsymbol{E}_i^ \uparrow \text { © } \boldsymbol{E}_i^ \nearrow \text { © } \boldsymbol{E}_i^ \searrow } \right)} \right)} \right), $

$ {{{\boldsymbol{E}}}_{\text{below}}} = \gamma \left( {\text{BN}\left( {\text{Con}{v_{3 \times 3}}\left( {{{\boldsymbol{E}}_i}} \right)} \right)} \right). $

式中:$ {{\boldsymbol{E}}}^{\to \uparrow \nearrow \searrow } $为经不同方向卷积核处理的结果,${\mathrm{Con}}{{\mathrm{v}}_{1 \times 7}}$为方向为($ \to \uparrow \nearrow \searrow $)的带状卷积,${\mathrm{Con}}{{\mathrm{v}}_{3 \times 3}}$$3 \times 3$方形卷积,${\mathrm{Con}}{{\mathrm{v}}_{1 \times 1}}$$1 \times 1$卷积,$ \gamma $为激活函数,$ \text{BN} $为批量归一化,$ \text { © } $表示特征图通道拼接. 后文若无特意指明,则默认所有卷积操作S = 1,D = 1,P = 0.

${{\boldsymbol{E}}_{{\text{above}}}}$${{\boldsymbol{E}}_{{\text{below}}}}$拼接后进行降维,得到MDSA的输出${\boldsymbol{E}}_i^{'}$. 该过程的公式表示如下:

$ {\boldsymbol{E}}_i^{'} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{1 \times 1}}\left( {{{\boldsymbol{E}}_{\text{above}}}\text { © }{{\boldsymbol{E}}_{\text{below}}}} \right)} \right)} \right). $

1.2. 多分辨率特征融合编码器

遥感影像分辨率的差异会导致特征提取结果产生显著偏差[13],而现有的道路提取方法普遍存在多尺度特征建模不足的问题. 设计多分辨率特征融合编码器(multi-resolution feature fusion encoder, MRFF),通过构建跨尺度特征交互机制,实现不同分辨率遥感图像特征的多尺度融合.

MRFF由上分支集成通道[14]与空间注意力机制[15]2个并行分支组成,有效地抑制背景干扰,增强道路特征响应. 下分支采用MDSA,通过多方向卷积核提取具有方向信息的道路特征. 在特征处理层面,浅层特征主要包含丰富的道路细节信息,深层特征承载更高级的语义信息. 基于此特性,上分支专注于提取道路轮廓的精细结构;下分支通过MDSA模块实现多分辨率特征的加权融合,有效地获取深层语义信息. 该设计通过多尺度特征融合机制,显著提升模型对不同分辨率遥感影像的适应性与特征表达能力. 整个编码结构由4个级联模块组成,具体架构如图3所示.

图 3

图 3   多分辨率特征融合编码器

Fig.3   Multi-resolution feature fusion encoder


MRFF的上分支对输入特征图${\boldsymbol{E}}_{i - 1}^{'}$进行下采样后,经过CBAM模块抑制无关噪声,提取更丰富的细节信息,得到上分支输出为${{\boldsymbol{E}}_{\text{above}}}$. 下分支输入特征图${{\boldsymbol{E}}_i}$经过下采样处理,再通过MDSA模块提取多分辨率语义特征,得到下分支输出特征图为${{\boldsymbol{E}}_{\text{below}}}$. 该过程的公式表示如下:

$ {\boldsymbol{E}}_i^{'} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{3 \times 3}}\left( {{{\boldsymbol{E}}_i}} \right)} \right)} \right), $

$ {\boldsymbol{E}_{\text{below}}} = \text{MDSA}\left( {{\boldsymbol{E}}_i^{'}} \right), $

$ \boldsymbol{E}_{i - 1}^{''} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{3 \times 3}}\left( {\boldsymbol{E}_{i - 1}^{'}} \right)} \right)} \right), $

$ \begin{split} \boldsymbol{E}_{\text{above}} = & \text{Spatial}\text{ }\text{Attention}\left(\left(\text{Channel}\text{ }\text{Attention}\left(\boldsymbol{E}_{i-1}^{''}\right) \otimes \boldsymbol{E}_{i-1}^{''}\right)\right)\otimes \left(\boldsymbol{E}_{i-1}^{''}\otimes \text{Channel}\text{ }\text{Attention}\left(\boldsymbol{E}_{i-1}^{''}\right)\right).\end{split} $

式中:$\text{MDSA}$为多向带状注意力机制,${\text{Channel}} \text{Attention}$$\text{Spatial}{\text{ }}\text{Attention}$分别为通道注意力和空间注意力机制,$ \otimes $为特征相乘.

2个分支的输出经拼接和卷积降维,形成兼具局部细节与全局语义的特征表示$ {{\boldsymbol{E}}}_{i}^{''} $. 该过程的公式表示如下:

$ {\boldsymbol{E}}_{i}^{''}=\gamma \left(\text{BN}\left(\text{Con}{\text{v}}_{1\times 1}\left({E}_{\text{above}}\text { © } {{\boldsymbol{E}}}_{\text{below}}\right)\right)\right). $

1.3. 多向带状特征还原解码器

针对现有的解码架构在道路拓扑特征重建中的不足,提出多向带状特征还原解码器(multi-directional strip reconstruction decoder, MDSR). 传统的方形转置卷积因几何结构与道路走向不匹配,易导致边缘锯齿伪影,而带状卷积的感受野与道路线性特征更契合,能够有效地提升几何还原精度.

MDSR解码器通过4个方向的带状转置卷积提取多角度道路特征,并整合上下文信息,以恢复全局道路结构. 该模块进一步融合带状卷积与方形卷积的不同特征,有效提升对复杂拓扑(如交叉口)及遮挡场景的建模能力. 通过卷积层降维处理,在通道维度拼接所有方向的特征,最终通过转置卷积层融合多方向信息,输出重建后的道路特征. 模块通过融合4个方向上的上下文特征及局部特征,增强传递给解码器的特征图,使解码器更加聚焦于道路特征. 整个网络的解码过程包含4个结构相同的解码模块,其中1个解码模块的示意图如图4所示.

图 4

图 4   多向带状特征还原解码器

Fig.4   Multi-directional strip feature reduction decoder


在MDSR的处理流程中,使用4个方向的带状转置卷积提取多角度道路特征,分别得到4个方向的特征表示(记为${\boldsymbol{E}}_i^ \to $${\boldsymbol{E}}_i^ \uparrow $${\boldsymbol{E}}_i^ \nearrow $${\boldsymbol{E}}_i^ \searrow $). 这些特征图与经方形转置卷积输出的特征图${{\boldsymbol{E}}_{\text{below}}}$配对和级联,以降低局部干扰并增强复杂拓扑结构的重建能力. 各方向特征经卷积层降维处理,在通道维度拼接后,通过转置卷积实现多特征融合,最终输出重建的道路结构,得到解码器模块的输出$ {{\boldsymbol{E}}}_{i}^{''} $. 该过程的公式表示如下.

$ {{\boldsymbol{E}}}_i^{ \to \uparrow \nearrow \searrow } = \gamma \left( {\text{BN}\left( {\text{ConvT}{\text{r}_{1 \times 7}}\left( {{{\boldsymbol{E}}_i}} \right)} \right)} \right). $

$ {\boldsymbol{E}_{\text{below}}} = \gamma \left( {\text{BN}\left( {\text{ConvT}{\text{r}_{3 \times 3}}\left( {{{\boldsymbol{E}}_i}} \right)} \right)} \right). $

$ {\boldsymbol{E}}_i^{'} = \gamma \left( {\text{BN}\left( {\text{Con}{\text{v}_{1 \times 1}}\left( {{{\boldsymbol{E}}_{\text{below}}}\text { © }{\boldsymbol{E}}_i^{ \to \uparrow \nearrow \searrow }} \right)} \right)} \right). $

$ {\boldsymbol{E}}_i^{'} = \gamma \left( {\text{BN}\left( {\text{ConvT}{\text{r}_{3 \times 3}}\left( {{\boldsymbol{E}}_i^ \to \text { © }{\boldsymbol{E}}_i^ \uparrow \text { © }{\boldsymbol{E}}_i^ \nearrow \text { © }{\boldsymbol{E}}_i^ \searrow } \right)} \right)} \right). $

式中:$ {{\boldsymbol{E}}}^{\to \uparrow \nearrow \searrow } $为经不同方向卷积核处理的结果, ${\mathrm{\text{Con}vT}}{{\text{r}}_{1 \times 7}}$为方向为$\left( { \to \uparrow \nearrow \searrow } \right)$的带状转置卷积,${\mathrm{\text{Con}vT}}{{\mathrm{r}}_{1 \times 1}}$$1 \times 1$方形转置卷积,${\mathrm{\text{Con}vT}}{{\mathrm{r}}_{3 \times 3}}$$3 \times 3$方形转置卷积.

2. 实验与分析

2.1. 数据集

选用DeepGlobe[16]、Massachusetts[17]和SpaceNet[18]3个公开遥感道路提取数据集,开展性能验证. 为了全面地评估模型性能,对MSRSF-Net与当前主流的先进模型进行对比分析. 各数据集的具体配置如下. DeepGlobe(DP)数据集包含11 206张1024×1 024像素图像,按8︰2的比例划分为6 226张训练图像和4 980张测试图像. Massachusetts(MA)数据集包含1 171张1500×1 500像素图像,按8︰2的比例划分为937张训练图像和234张测试图像. SpaceNet(SP)数据集包含2 780张1300×1300像素图像,划分为2 224张训练图像和556张测试图像.

为了保证输入尺寸的一致性并充分利用图像的上下文信息,对所有的数据集采用统一的预处理流程. 将原始图像裁剪为1 024×1 024像素子图. 具体而言,Massachusetts数据集采用重叠裁剪策略,水平与垂直方向各重叠548像素. SpaceNet数据集采用重叠裁剪策略,水平与垂直方向的重叠像素数为784. 该预处理方案不仅实现了多源数据的尺寸统一,而且通过保留相邻区域的上下文信息,增强了模型对道路结构的理解能力,有助于提升模型的泛化性能.

2.2. 评价指标

在模型评估阶段,使用精确度P、召回率R$ {F_1} $分数($ {F_1} $ score)、交并比(IoU)及平均路径长度相似度(APLS)[19],衡量模型的性能. APLS是基于图结构的评价方法,通过比较预测的道路网络与真实道路网络之间的平均路径长度,衡量两者的相似性. 评价指标的计算公式如下.

$ P = \frac{\text{TP}}{{\text{TP}+\text{FP}}}, $

$ R = \frac{\text{TP}}{{\text{TP}+\text{FN}}}, $

$ F_1 = \frac{{2 P R}}{{P+R}}, $

$ \text{IoU} = \frac{\text{TP}}{{\text{TP}+\text{FP}+\text{FN}}}, $

$ \text{APLS} = {N}^{-1}\sum\nolimits_{i = 0}^N {\left( {1 - \frac{{\left| {{L_i} - L_i^{'}} \right|}}{{{\mathrm{max}}\left\{ {{L_i}{\text{ , }}L_i^{'}} \right)}}} \right)} . $

式中:$\text{TP}$为实际为道路但被预测为道路的像素数,$\text{FP}$为非道路但被预测为道路的像素数,$\text{FN}$为实际为道路但被预测为非道路的像素数,$N$为节点对的数量,${L_i}$为图$G$中节点对$i$的平均路径长度,$L_i^{'}$为图$G_i^{'}$中节点对$i$的平均路径长度,$\left| {{L_i} - L_i^{'}} \right|$为2个图中节点对$i$的平均路径长度的绝对差,$\text{max}\left\{ {{L_i}{\text{ , }}L_i^{'}} \right\}$为2个图中节点对$i$的平均路径长度的最大值.

2.3. 实验设置

在64位Windows 10操作系统环境下开展实验,硬件配置采用NVIDIA GeForce RTX 4070 Ti显卡(16 GB显存),深度学习框架基于PyTorch 1.10构建,GPU加速环境通过NVIDIA CUDA 11.8计算平台实现. 在实验的优化策略上,使用自适应矩估计(Adam)优化器[20]来进行模型参数的更新,采用“poly”调度策略来管理学习率的变化. 将批处理大小设为32,迭代总数设为150,初始学习率设为2×10−4,当连续5次迭代后损失未下降或学习率低于5×10−7时,终止训练过程. 针对遥感图像中道路像素占比低导致的类别不平衡问题,选用Dice损失函数[21],以提升模型对道路特征的关注度. 单一使用Dice损失可能引发梯度不稳定,因此引入二元交叉熵(BCE)损失[22],与Dice损失组合使用. BCE损失LBCE确保训练过程的梯度稳定,Dice损失LDice专注于处理前景与背景像素的数量不平衡. 损失函数的公式如下.

$ L_{\mathrm{BCE}}=-{N^{-1}} \sum\nolimits_{i=1}^N\left[\widehat{y}_i \ln P\left(\widehat{y}_i\right)+\left(1-\widehat{y}_i\right) \ln \left(1-P\left(\widehat{y}_i\right)\right)\right], $

$ {L_{\text{Dice}}} = 1 - \frac{{2 \displaystyle\sum\nolimits_{i = 1}^N {{p_i} {y_i}+\varepsilon } }}{{\displaystyle\sum\nolimits_{i = 1}^N {p_i^2+} \displaystyle\sum\nolimits_{i = 1}^N {y_i^2+} \varepsilon }}, $

$ \text{Loss} = \alpha {L_{\text{BCE}}}+\left( {1 - \alpha } \right) {L_{\text{Dice}}}. $

式中:$N$为样本或所有像素的数量;$ \widehat {{y_i}} $为第$i$个样本的真实标签,$ \widehat {{y_i}} \in \left\{ {0{\text{ , 1}}} \right\} $$P$为模型预测第$i$个样本为正类的概率,$P\left( {\widehat {{y_i}}} \right) \in \left[ {0{\text{ , 1}}{\text{.0}}} \right]$${p_i}$${y_i}$分别为预测结果和真实标签中的像素点数;ε为极小的常数,ε取10−7,用于防止分母为零;α为平衡系数,0 ≤ α ≤ 1.0,用于调节Dice损失与交叉熵损失的权重. α越接近1,模型对细小道路结构的识别能力越强,但可能削弱对整体连通性的建模;α越接近0,则更注重道路的整体结构,但易丢失细节. $\alpha $在不同数据集上得到的最高准确率不完全相同,根据文献[21]的实验,取15.45%作为MA、DP、SP 3个数据集上$\alpha $的平均值.

2.4. 消融实验

为了验证MSDSA、MRFF、MDSR 3个模块改进的有效性,使用控制变量法,分别在DeepGlobe、Massachusetts和SpaceNet数据集上进行5组消融实验,实验结果如表1~3所示.

表 1   在DeepGlobe数据集上开展的不同模块消融实验

Tab.1  Different module ablation experiment on DeepGlobe dataset

实验编号BaselineMDSAMRFFMDSRP/%R/%F1/%IoU/%
170.1766.5368.3151.86
276.2074.5175.3460.45
377.7277.8377.7763.63
478.6777.6978.1864.18
578.9277.8778.3964.46

新窗口打开| 下载CSV


表 2   在Massachusetts数据集上开展的不同模块消融实验

Tab.2  Different module ablation experiment on Massachusetts dataset

实验编号BaselineMDSAMRFFMDSRP/%R/%F1/%IoU/%
167.2461.5564.2647.34
271.8965.5268.5452.14
374.7068.2871.3455.56
478.8666.8772.3756.70
576.5869.1472.6857.11

新窗口打开| 下载CSV


表 3   在SpaceNet数据集上开展的不同模块消融实验

Tab.3  Different module ablation experiment on SpaceNet dataset

实验编号BaselineMDSAMRFFMDSRP/%R/%F1/%IoU/%
165.6868.5167.0550.44
269.9371.5870.7254.70
372.1675.2873.6958.34
475.4873.1274.2859.09
573.9676.0374.9859.98

新窗口打开| 下载CSV


实验2在基准模型的基础上引入MDSA注意力机制,3个数据集的F1分数分别提升了7.03%、4.28%和3.67%,IoU分别提升了8.59%、4.80%和4.26%,表明该模块能够有效增强模型对道路特征的聚焦能力,显著改善提取完整性. 实验3在基准模型的基础上引入 MRFF编码器,$ {F_1} $分数分别提升了9.46%、7.08%和6.64%,IoU分别提升了11.77%、8.22%和7.90%,说明多分辨率特征融合对提升模型的性能具有关键作用. 对比实验4与实验5可知,在移除MDSR解码器后,3个数据集的$ {F_1} $分数分别下降了0.21%、0.31%和0.70%,IoU下降了0.28%、0.41%和0.89%,证明MDSR解码器可以有效地提升对道路拓扑结构的还原能力.

2.5. 对比实验

为了验证所提出模型在不同分辨率遥感图像上的有效性,将所提MSRSF-Net与7种主流的道路提取模型进行对比,包括 UNet++、DeepLabV3+、TransRoadNet、SGCNet、CARNet、RoadFormer和StripUnet[23].

所选的对比模型分别代表了不同技术路线的最新进展. UNet++通过嵌套密集跳跃连接重构编解码路径,提升特征融合效率,缓解梯度消失. DeepLabV3+融合空洞空间金字塔池化与编解码结构,在扩大感受野的同时,保留边缘细节. TransRoadNet首次将 Transformer结构引入道路提取任务,利用自注意力机制建模全局道路拓扑依赖关系. RoadFormer构建双分支Transformer架构,通过跨模态注意力融合RGB与几何特征,增强复杂场景下的鲁棒性. StripUnet提出使用条带卷积替代标准卷积,针对道路线性特征优化计算模式,实现高效推理. 这些模型从密集连接、多尺度融合、全局建模等不同角度推动了道路提取性能的提升.

为了评估MSRSF-Net的有效性,从3个数据集中各选取2张典型图像进行可视化对比(见图5). 可视化结果表明,本文方法在道路轮廓外部(误识别)和内部(漏识别)产生的错误区域显著少于其他主流模型. 在建筑密集区域(见图5(a)、(b)),利用该方法,能够完整提取道路交叉口,而多数模型出现结构断裂. 在色彩混淆与遮挡场景(见图5(c)、(d))中,本文方法保持了良好的道路连续性. 面对复杂的多车道区域(见图5(e)、(f)),能够准确地还原整体拓扑结构.

图 5

图 5   MSRSF-Net 与其他几种先进的模型可视化结果对比

Fig.5   Comparison of visualization result of MSRSF-Net with several other advanced models


表4~6的定量分析表明,MSRSF-Net在R$ {F_1} $分数和IoU等关键指标上均取得最优的结果. 虽然在Massachusetts和SpaceNet数据集上精确率未达最高,但这与标注生成方式(基于道路中心线扩展)有关. 因为MA和SP数据集的道路标注是基于扩展相等宽度的道路中心线生成的,不完全覆盖整个道路区域. 模型提取的道路增多,P会有所下降. MSRSF-Net在R$ {F_1} $和IoU 3个方面均取得了最高分. 较高的R表明MSRSF-Net能够更全面地捕捉到真实存在的道路,$ {F_1} $证明它在精确率和召回率之间达到良好的平衡. 此外,更高的IoU指数表明道路提取结果的像素完整性得到了显著提升. 特别地,模型在3个数据集上的APLS指标分别达到69.78%、60.27%和62.17%,证明模型在保持道路连通性方面优势显著,优于其他算法. 模型效率分析结果如表7所示. 其中,Np为参数量,FLOPs为每秒浮点运算次数,v为推理速度,t为推理时间. 从表7可知,MSRSF-Net在参数量与计算复杂度之间实现了良好的平衡. 与StripUnet相比,本文模型在Np增加17.0%的情况下,实现了FLOPS降低20.6%和v提升6.3%的优异表现. 相较于DeepLabV3+,MSRSF-Net的参数量降低了36.8%,计算量降低了27.2%,t减少了47.3%,展现出全面的效率提升. 与RoadFormer相比,本文模型在保持相当参数规模的同时,计算量仅为RoadFormer的34.5%,突显了卓越的计算效率. 综合分析表明,MSRSF-Net在模型复杂度与计算效率之间达到较优的平衡,在保持合理参数量的同时显著降低了计算复杂度,特别适合在计算资源受限的边缘计算场景中部署应用.

表 4   在DeepGlobe数据集上所提模型与其他几种先进的道路提取方法对比

Tab.4  Comparison between proposed model and several other state-of-the-art road extraction methods on DeepGlobe dataset

方法P/%R/%F1/%IoU/%APLS/%
Unet++(2018)76.4274.4475.4160.5364.50
DeepLabV3+(2018)79.6085.9281.4370.2167.96
SGCNet(2022)72.7866.9869.7653.5757.39
TransRoadNet(2022)81.0184.1382.5370.2067.00
CARNet(2023)81.0886.2583.5871.7668.69
RoadFormer(2024)83.8685.3684.6173.3869.62
StripUnet(2024)82.8285.3284.0572.0468.46
MSRSF-Net(本文模型)83.9285.8584.8773.7669.78

新窗口打开| 下载CSV


表 5   在Massachusetts数据集上所提模型与其他几种先进的道路提取方法对比

Tab.5  Comparison between proposed model and several other state-of-the-art road extraction methods on Massachusetts dataset

方法P/%R/%F1/%IoU/%APLS/%
Unet++(2018)78.7960.6968.6152.0859.25
DeepLabV3+(2018)75.8876.3475.3661.2955.11
SGCNet(2022)74.0563.7668.5252.1249.53
TransRoadNet(2022)78.7581.2479.9866.6756.67
CARNet(2023)79.0281.7380.3567.2156.80
RoadFormer(2024)79.9581.7980.8768.4657.16
StripUnet(2024)80.8181.5281.1668.1859.81
MSRSF-Net(本文模型)80.8082.1481.4668.5760.27

新窗口打开| 下载CSV


表 6   在SpaceNet数据集上所提模型与其他几种先进的道路提取方法对比

Tab.6  Comparison between proposed model and several other state-of-the-art road extraction methods on SpaceNet dataset

方法P/%R/%F1/%IoU/%APLS/%
Unet++(2018)73.3066.9170.0153.8559.04
DeepLabV3+(2018)72.8572.5572.7057.1061.27
SGCNet(2022)73.9668.7571.2755.5660.73
TransRoadNet(2022)74.6374.3670.8354.8461.29
CARNet(2023)74.6873.4472.0557.3161.38
RoadFormer(2024)74.3575.7374.8858.9161.45
StripUnet(2024)75.0774.4874.0658.8262.09
MSRSF-Net(本文模型)74.9676.0374.7759.9862.17

新窗口打开| 下载CSV


表 7   模型复杂度的分析

Tab.7  Analysis of model complexity

方法Np /106FLOPs/109v/(帧·s−1)t/ms
DeepLabV3+(2018)54.7182.7315.7466.67
RoadFormer(2024)31.48174.4711.7689.39
StripUnet(2024)29.5775.7818.4637.41
MSRSF-Net(本文模型)34.6160.2016.6735.12

新窗口打开| 下载CSV


综上所述,MSRSF-Net在多个不同分辨率数据集上的综合表现验证了该方法在道路提取任务中具有优异的鲁棒性与泛化能力. 其中,MRFF与MDSR模块的协同设计在保持模型轻量化的同时,有效提升了道路提取的精度与拓扑完整性,为遥感图像道路解析提供了可靠的解决方案.

3. 结 语

提出融合多尺度分辨率与带状特征的U型网络架构MSRSF-Net,旨在解决遥感图像道路提取结果不完整的问题. MSRSF-Net通过引入创新模块,显著提升了道路提取的完整性和鲁棒性. 其中,MDSA采用多个方向的带状卷积核捕获道路拓扑结构,通过多尺度特征融合框架进行语义信息提取,利用融合卷积层对特征进行聚合. MRFF结合带状特征提取策略与双注意力机制抑制背景干扰,实现多尺度语义聚合. MDSR通过带状转置卷积核还原道路特征间的复杂拓扑关系,利用方向约束保持拓扑连贯性,从而有效提高提取结果的完整性. 实验结果表明,MSRSF-Net在多个流行数据集(DeepGlobe、Massachusetts和SpaceNet)上展现出显著优势,在关键评价指标APLS上优于现有的主流模型.

尽管MSRSF-Net在准确性方面表现优异,但是训练与推理时间仍需进一步的优化,以达到更快的收敛速度. 未来的研究将侧重于优化算法的计算速度,以实现更快的训练过程,并深入研究如何在保持高精度的同时提高效率,从而推动遥感图像道路提取技术在现实生活中的应用.

参考文献

顾剑华, 孙鑫, 李红

基于地理国情普查高分辨率遥感影像的道路提取方法研究

[J]. 测绘与空间地理信息, 2014, 37 (6): 145- 146

[本文引用: 1]

GU Jianhua, SUN Xin, LI Hong

Study on the extraction method of geographical conditions survey of high resolution remote sensing image based road

[J]. Geomatics and Spatial Information Technology, 2014, 37 (6): 145- 146

[本文引用: 1]

SHIN H C, ROTH H R, GAO M, et al

Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning

[J]. IEEE Transactions on Medical Imaging, 2016, 35 (5): 1285- 1298

DOI:10.1109/TMI.2016.2528162      [本文引用: 1]

ZOU S, XIONG F, LUO H, et al. AF-Net: all-scale feature fusion network for road extraction from remote sensing images [C]// Digital Image Computing. Techniques and Applications. Saudi Arabia: IEEE, 2021: 66-73.

[本文引用: 1]

LU X, ZHONG Y, ZHENG Z, et al

GAMSNet: globally aware road detection network with multi-scale residual learning

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 340- 352

DOI:10.1016/j.isprsjprs.2021.03.008      [本文引用: 1]

ZHANG Z, LIU Q, WANG Y

Road extraction by deep residual U-Net

[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15 (5): 749- 753

DOI:10.1109/LGRS.2018.2802944      [本文引用: 1]

XU Z, SUN Y, LIU M

iCurb: imitation learning-based detection of road curbs using aerial images for autonomous driving

[J]. IEEE Robotics and Automation Letters, 2021, 6 (2): 1097- 1104

DOI:10.1109/LRA.2021.3056344      [本文引用: 1]

LIU Y, XIAO Y. Remote sensing object detection method based on attention mechanism and multi-scale feature fusion [C]// 41st Chinese Control Conference. Hefei: IEEE, 2022: 7155-7160.

[本文引用: 1]

CHEN S B, JI Y X, TANG J, et al

DBRANet: road extraction by dual-branch encoder and regional attention decoder

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 3002905

[本文引用: 1]

XU Y, CHEN H, DU C, et al

MSACon: mining spatial attention-based contextual information for road extraction

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5604317

[本文引用: 1]

WANG Y, SEO J, JEON T

NL-LinkNet: toward lighter but more accurate road extraction with nonlocal operations

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 3000105

[本文引用: 1]

QI Y, HE Y, QI X, et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 6047-6056.

[本文引用: 1]

WANG Y, TONG L, LUO S, et al

A multiscale and multi-direction feature fusion network for road detection from satellite imagery

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5615718

[本文引用: 1]

YONG C, WEI W, REN Z, et al

Multi-scale feature fusion and transformer network for urban green space segmentation from high-resolution remote sensing images

[J]. International Journal of Applied Earth Observation and Geoinformation, 2023, 124: 103514

DOI:10.1016/j.jag.2023.103514      [本文引用: 1]

HU J, SHEN L, SUN G, et al. Squeeze-and-Excitation networks [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks [C]// Advances in Neural Information Processing Systems. Montreal: [s. n. ], 2015: 2017-2025.

[本文引用: 1]

WANG J, WANG R, LIU Y, et al

Transferable contextual network for rural road extraction from UAV-based remote sensing images

[J]. Sensors, 2025, 25 (5): 1394

DOI:10.3390/s25051394      [本文引用: 1]

GUI L, GU X, HUANG F, et al

Road extraction from remote sensing images using a skip-connected parallel CNN-transformer encoder-decoder model

[J]. Applied Sciences, 2025, 15 (3): 1427

DOI:10.3390/app15031427      [本文引用: 1]

TONG Z, LI Y, ZHANG J, et al

MSFANet: multiscale fusion attention network for road segmentation of multispectral remote sensing data

[J]. Remote Sensing, 2023, 15 (8): 1978

DOI:10.3390/rs15081978      [本文引用: 1]

WANG X, QIN C, BAI M, et al

CAFormer: a connectivity-aware vision transformer for road extraction from remote sensing images

[J]. The Visual Computer, 2025, 41 (10): 7965- 7981

DOI:10.1007/s00371-025-03849-1      [本文引用: 1]

VIDIVELLI S, PADMAKUMARI P, PARTHIBAN C, et al

Optimising deep learning models for ophthalmological disorder classification

[J]. Scientific Reports, 2025, 15: 3115

DOI:10.1038/s41598-024-75867-3      [本文引用: 1]

ADEYEMI S

Defect detection in manufacturing: an integrated deep learning approach

[J]. Journal of Computer and Communications, 2024, 12 (10): 153- 176

DOI:10.4236/jcc.2024.1210011      [本文引用: 2]

PENG J, WANG Y, PAN Z

Weakly supervised instance segmentation via class double-activation maps and boundary localization

[J]. Signal Processing: Image Communication, 2024, 127: 117150

DOI:10.1016/j.image.2024.117150      [本文引用: 1]

MA X, ZHANG X, ZHOU D, et al

StripUnet: a method for dense road extraction from remote sensing images

[J]. IEEE Transactions on Intelligent Vehicles, 2024, 9 (11): 7097- 7109

DOI:10.1109/TIV.2024.3393508      [本文引用: 1]

/