浙江大学学报(工学版), 2024, 58(1): 40-49 doi: 10.3785/j.issn.1008-973X.2024.01.005

计算机技术

基于轻量级Transformer的城市路网提取方法

冯志成,, 杨杰,, 陈智超

1. 江西理工大学 电气工程与自动化学院,江西 赣州 341000

2. 江西省磁悬浮技术重点实验室,江西 赣州 341000

Urban road network extraction method based on lightweight Transformer

FENG Zhicheng,, YANG Jie,, CHEN Zhichao

1. School of Electrical Engineering and Automation, Jiangxi University of Science and Technology, Ganzhou 341000, China

2. Jiangxi Provincial Key Laboratory of Maglev Technology, Ganzhou 341000, China

通讯作者: 杨杰,男,教授. orcid.org/0000-0001-7255-3147. E-mail: yangjie@jxust.edu.cn

收稿日期: 2023-06-1  

基金资助: 国家自然科学基金资助项目(62063009)

Received: 2023-06-1  

Fund supported: 国家自然科学基金资助项目(62063009)

作者简介 About authors

冯志成(2000—),男,硕士生,从事遥感图像处理的研究.orcid.org/0000-0001-7887-4566.E-mail:fengzhichengai@163.com , E-mail:fengzhichengai@163.com

摘要

针对现有方法存在道路区域提取不精准和实时性不足的限制,提出基于轻量级Transformer的路网提取方法RoadViT. 利用卷积神经网络与Transformer混合的MobileViT架构进行编码特征,有效地提取高级上下文信息. 提出金字塔解码器实现多尺度特征的提取和融合,生成像素类别的概率分布. 结合Mosaic与多尺度缩放和随机裁剪策略实现数据增强,构建精细多样的遥感图像. 针对城市遥感图像中道路类别和背景类别的不平衡问题,提出动态加权损失函数. 实验结果表明,RoadViT的参数量仅为1.25 × 106,在Jetson TX2上的推理速度可达10帧/s,在CHN6-CUG数据集上的精度可达57.0%. 所提方法是轻量级Transformer在城市遥感图像中的有效探索,在保证推理实时性的同时,实现道路提取精度的提升.

关键词: 城市路网提取 ; Transformer ; MobileViT ; 遥感图像语义分割 ; 轻量级模型

Abstract

A road network extraction method based on a lightweight Transformer was proposed, named RoadViT aiming at some limitations of the existing methods, such as imprecise road region extraction and limited real-time performance. The MobileViT architecture which could mix convolutional neural networks and the Transformer was used to encode features in order to efficiently extract high-level context information. Then a pyramid decoder was proposed to implement the extraction and fusion of multi-scale features, and the probability distribution of pixel categories was generated. The Mosaic method was combined with multi-scale scaling and random cropping strategies to implement data enhancement, which could construct fine and various remote sensing images. A dynamic weighting loss function was proposed to mitigate the problem according to the imbalance between the road category and background category in urban remote sensing images. The experimental results show that RoadViT, with a number of parameters of only 1.25 × 106, can achieve an inference speed of up to 10 frames in a second on the Jetson TX2, and an accuracy of up to 57.0% on the CHN6-CUG dataset. The proposed method is an effective exploration of the lightweight Transformer in urban remote sensing images, which can achieve improved road extraction accuracy while maintaining the real-time performance of inference.

Keywords: urban road network extraction ; Transformer ; MobileViT ; semantic segmentation of remote sensing image ; lightweight model

PDF (4885KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

冯志成, 杨杰, 陈智超. 基于轻量级Transformer的城市路网提取方法. 浙江大学学报(工学版)[J], 2024, 58(1): 40-49 doi:10.3785/j.issn.1008-973X.2024.01.005

FENG Zhicheng, YANG Jie, CHEN Zhichao. Urban road network extraction method based on lightweight Transformer. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(1): 40-49 doi:10.3785/j.issn.1008-973X.2024.01.005

随着经济水平的提升和城市化进程的加快,城市路网体系日益庞大,道路提取是城市规划和决策的重要环节之一[1-2]. 现有的道路提取方法主要依赖于手工标注,存在工作量大和效率低的问题[3].

随着诸多对地观测项目的实施,遥感图像取得了飞速发展[4]. 此外,语义分割技术[5-6]可以基于图像区分目标和背景,为道路自动提取提供技术支撑. 传统的语义分割方法大多先基于手工算子进行提取特征,再通过模板匹配或边缘检测捕获道路区域[7-8]. 手工算子的选择需要丰富的先验知识,道路提取效果往往不佳. 基于深度学习的方法遵循编码器-解码器结构[6],可以通过学习的方式更新参数. 编码器用于提取图像的高级特征,大多为通用特征提取模型,例如基于卷积神经网络的MobileNet[9-10]和ResNet[11]、基于视觉Transformer的Vision Transformer[12]和MobileViT[13]. 解码器用于捕获不同层次的特征,提高特征利用率,实现像素分类. FCN[14]基于全卷积神经网络实现语义分割,通过2个连续的卷积层实现像素分类. DeepLab V3[15]在解码器中通过不同大小的空洞卷积捕获多尺度特征. 类似地,PSPNet[16]和DDRNet[17]基于不同大小的池化层提取多尺度特征,有效提升了分割性能. STDC[18]、BiseNet V2[19]和PIDNet[20]使用多分支结构聚合不同层次的信息,在实时性和分割精度方面具有不错的表现.

众多研究人员将语义分割技术应用于道路自动提取领域. Zhou等[21-22]使用大型模型作为编码器,设计多分支并行结构和全局上文模块处理不同层次的特征. Diakogiannis等[23-24]分别通过空洞卷积和深化模型结构优化编码器的特征提取能力,使用损失函数缓解道路类别和背景类别的不均衡矛盾. 这些研究基于全监督方式训练模型,实现了可靠的分割精度. 一些研究人员引入半监督和无监督的方式,实现道路提取. Li等[25-26]通过自训练方式优化语义分割模型,为无标注数据生成伪标签,再将其用于模型训练. Song等[27]将遥感图像转换为通用地图,从通用地图中实现道路提取. 这些研究探索了未标注数据的有效应用,但精度普遍低于全监督方式. 上述研究使用大型模型实现特征提取,在解码器中通过复杂的模块利用特征信息,提升道路提取精度,但不利于模型的实时推理.

综合上述分析,本文提出轻量级城市道路提取模型RoadViT. 在编码器中,通过轻量级模型MobileViT编码特征,有效引入Transformer实现全局信息建模. 在解码器中,提出金字塔解码器提取多尺度特征,适应不同大小的道路区域. 结合Mosaic[28]与多尺度缩放和随机裁剪实现数据增强,获取精细多样的图像数据. 针对遥感图像中道路类别和背景类别不平衡的问题,设计动态加权损失函数.

1. 遥感影像路网提取方法

为了精准、快速地从城市遥感影像中提取路网,提出基于轻量级Transformer的语义分割模型RoadViT. 该模型遵循编码器-解码器架构,详细组成如图1所示.

图 1

图 1   提出的城市路网提取模型RoadViT的结构

Fig.1   Structure of proposed urban road network extraction model RoadViT


1.1. 编码器: MobileViT

在轻量级城市路网的提取任务中,编码器需要从输入图像中提取高级上下文信息,这要求编码器具有丰富的特征提取能力,并且保持轻量性. 选择了目前先进的MobileViT作为编码器,可以有效利用卷积神经网络的空间偏置特点和Transformer的全局信息处理能力,有效地加强特征提取性能. 在结构上,MobileViT由多个MV2模块和MobileViT模块堆叠而成,MV2模块是MobileNet V2[9]提出的轻量级倒残差瓶颈单元,MobileViT模块是轻量、高效的视觉Transformer,核心部件如图2所示. 图2(a)中,e为扩张系数. 图2(b)中,输入X的维度为d×kQKV的维度为k×dh×hd = dh×h.

图 2

图 2   MV2模块和多头注意力机制的实现过程

Fig.2   Implementation process of MV2 module and multi-head attention mechanism


MV2模块由倒残差结构和线性瓶颈结构组成,将标准卷积分解为深度卷积和1×1卷积,实现过程如图2(a)所示. MV2模块的计算如下所示:

$ {\boldsymbol{Y}} = \left\{ \begin{gathered} {\phi _{{\text{2,p}}}}({\phi _{\text{d}}}({\phi _{{\text{1,p}}}}({\boldsymbol{X}})))+{\boldsymbol{X}},{\text{ }}r{\text{ = 1}} ; \\ {\phi _{{\text{2,p}}}}({\phi _{\text{d}}}({\phi _{{\text{1,p}}}}({\boldsymbol{X}}))),{\text{ }}r{\text{ = 2}} . \\ \end{gathered} \right. $
(1)

式中:XY分别表示输入特征和输出特征,r为深度卷积的步长. 倒残差结构是残差结构的改进,先通过1×1卷积ϕ1,p扩张通道维度,然后通过深度卷积ϕd在高维空间编码空间信息,最后通过1×1卷积ϕ2,p实现信息融合和通道降维. 当特征信息从高维空间经非线性函数映射到低维空间时,存在信息坍塌的问题. 当进行通道降维时,使用线性瓶颈结构减少信息丢失,即不使用非线性激活函数. 当且仅当步长为1时,使用跳跃连接.

MobileViT模块通过Transformer机制有效地捕获了全局信息,其核心是多头注意力机制(multi-head attention, MHA). MHA在自注意力机制的基础上引入多个关注头,可以捕获不同层次的输入和输出关系,实现过程如图2(b)所示. 自注意力机制的计算如下所示:

$ {{\boldsymbol{F}}_{\text{a}}} = {f_{\text{s}}}\left(\frac{{{{\boldsymbol{QK}}^{\text{T}}}}}{{\sqrt {{d_{\text{k}}}} }}\right){\boldsymbol{V}}. $
(2)

输入特征先通过3个线性变换,分别得到查询矩阵Q、索引矩阵K、内容矩阵V. 对QK进行矩阵乘法,基于矩阵K的维度dk实现加权,获取注意力矩阵. 注意力矩阵通过softmax函数fs进行调整,再与V通过矩阵乘法获取输出特征Fa.

在MHA中,输入特征将被分配给不同的自注意力头,每个自注意力头先学习不同的信息关系,再进行加权融合,计算过程如下所示:

$ \left. \begin{gathered} {{\boldsymbol{F}}_{{\text{out}}}} = {f_{{\text{cat}}}}({\boldsymbol{F}}_{\text{a}}^1, \cdots ,{\boldsymbol{F}}_{\text{a}}^h){{\boldsymbol{W}}^O} ; \\ {\boldsymbol{F}}_{\text{a}}^i = {f_{\text{s}}}\left(\frac{{{\boldsymbol{QW}}_i^Q{{({\boldsymbol{KW}}_i^K)}^{\text{T}}}}}{{\sqrt {{d_{\text{k}}}} }}\right){\boldsymbol{VW}}_i^V,\;i \in \left\{ {1,2, \cdots ,h} \right\} . \\ \end{gathered} \right\}$
(3)

h个自注意力头中,每个自注意力头对不同的特征矩阵进行线性转换得到QKV,通过参数矩阵 $ \left\{ {{\boldsymbol{W}}_i^Q,{\boldsymbol{W}}_i^K,{\boldsymbol{W}}_i^V} \right\} $进行加权. 每个自注意头的输出通过拼接操作fcat和参数矩阵 $ {{\boldsymbol{W}}^O} $,获取输出特征Fout.

1.2. 金字塔解码器

在语义分割任务中,解码器需要还原高级上下文信息,以预测每个像素的概率分布. 卷积神经网络的实际感受野远小于理论感受野,使得基于卷积神经网络的语义分割模型无法捕获足够的上下文信息[16]. 设计金字塔解码器,通过串行多个平均池化实现下采样和多尺度信息捕获,有效提升模型的感受野和上下文信息的利用率,结构如图3所示. 通过池化核为5和步长为2的平均池化实现串行下采样,捕获多尺度上下文信息,通过全局平均池化获取全局上下文信息. 使用1×1卷积实现信息融合和通道压缩,经过双线性插值将特征图上采样至输入尺寸. 在通道维度将多尺度特征进行拼接,通过跳跃连接维持高级上下文信息的权重. 通过3×3卷积和1×1卷积,实现信息融合和像素类别的概率分布生成.

图 3

图 3   金字塔解码器的结构

Fig.3   Structure of pyramid decoder


1.3. 动态加权损失函数

在高分辨率的城市遥感影像中,道路像素往往少于背景像素,这会造成类别的不平衡问题. 针对训练过程中类别不平衡的问题,通常的方式是给较少的类别附加固定的权重,但可能会造成权重系数的选取困难. 如图4所示,提出动态加权函数fd(x),基于图像中的道路像素数量自适应地生成加权系数,表达式为

图 4

图 4   动态加权函数的图形和表达式

Fig.4   Graph and expression of dynamic weighting function


$ {{{f}}_{{\rm{d}}}}(x)=(x+0.1)(1-x){{2}^{\tfrac{1}{x+0.2}}}. $

式中:x为道路像素与所有像素的比值,遵循以下权重系数分配原则. 1)道路像素占比越少,需要对道路像素给予更多的关注,即道路类别的权重系数越大;2)当所有像素均为道路时,道路类别的加权系数为0,不需要对道路类别进行额外的关注.

图像分割的损失函数通常为交叉熵损失函数fc(x),当引入fd(x)时,本文的损失函数可以表示为

$ \left. \begin{gathered} {L_{\text{s}}} = {f_{\text{m}}}{\text{(}}{f_{\text{c}}}({\boldsymbol{I}},{\boldsymbol{L}})+{f_{\text{c}}}({\boldsymbol{I}},{\boldsymbol{L}}) \otimes {{\boldsymbol{F}}_{\text{d}}}) , \\ {{\boldsymbol{F}}_{\text{d}}}{\text{ = }} {f_{\text{d}}}\left(\frac{{{P_{\text{r}}}}}{{{P_{\text{b}}}+{P_{\text{r}}}}}\right){\boldsymbol{L}} ;\; {{\boldsymbol{I}},{\boldsymbol{L}},{{\boldsymbol{F}}_{\text{d}}},{f_{\text{c}}}({\boldsymbol{I}},{\boldsymbol{L}}) \in {{\bf{R}}^{H \times W}}}. \\ \end{gathered} \right\} $
(4)

式中:IL分别为模型输出的特征图和标签,L为大小为H×W的矩阵,由0和1组成,0表示该像素是背景,1表示该像素是道路;PrPb分别为道路像素和背景像素的数量. 计算真实标签中道路像素的占比,通过动态加权函数获取权重矩阵 ${{\boldsymbol{F}}_{\text{d}}} \in {{\bf{R}}^{H \times W}}$.Fd与损失矩阵 ${f_{\text{c}}}({\boldsymbol{I}},{\boldsymbol{L}}) \in {{\bf{R}}^{H \times W}}$进行逐元素相乘操作 $ \otimes $,着重关注道路类别,通过相加操作维持背景类别的权重. 调整后的损失矩阵通过平均操作fm获取损失值Ls.

1.4. 数据增强

遥感影像是精细化和高空间分辨率的图像,分辨率越高的图像可以为模型提供更精细的特征,但会造成训练成本的急剧上升. 直接将图像缩放至低分辨率会造成信息损失,不利于城市路网的精准提取. 通过多尺度缩放和随机裁剪策略降低分辨率,有效维持了遥感图像的精细化特征. 引入Mosaic[28]实现多图像混合,构建多样的图像数据提升模型性能,过程如图5所示. 图中,α为多尺度缩放因子. 将输入图像按随机比例进行放大,生成更精细的遥感影像. 通过随机裁剪,生成尺寸一致、但位置不同的图像. 随机选取3张图像进行多尺度缩放和随机裁剪,将这4张图像通过随机混合. 输出图像被用于模型训练,有效获取了更精细和多样的图像数据.

图 5

图 5   数据增强的实现过程

Fig.5   Implementation process of data enhancement


2. 数据准备及模型训练

CHN6-CUG[22]是中国城市道路遥感影像数据集,图像数据来源于北京、上海、武汉、深圳、香港和澳门6个城市,图像的空间分辨率为50 cm/像素. CHN6-CUG包含4 511张大小为512×512像素的标记图像,其中3 608张用于模型训练,903张用于测试.

DeepGlobe道路提取数据集[22]包含6226张1 024×1 024像素的卫星遥感图像和标签,每幅图像的空间分辨率为50 cm/像素. 图像包含城市、郊区和乡村的道路,来源于泰国、印度和印度尼西亚,其中4 980张用于模型训练,1 246张用于测试.

所有的模型基于Pytorch1.10进行构建,采用12 GB显存的Tesla P100进行单卡加速训练. 模型优化器选择SGD,初始学习率为0.01,学习率衰减系数为0.01. 训练周期设置为200,每批次训练4张图像. 在模型测试阶段,将模型转为ONNX格式,并部署在边缘设备Jetson TX2上进行测试. Jetson TX2具有8 GB显存的NVIDIA Pascal GPU,可以有效地加速模型推理.

为了综合评价模型的实时性和分割性能,使用参数量P、每秒浮点运算次数(FLOPs)、每秒帧数和道路类别的交并比RIoU作为评价指标. 其中,P和FLOPs用于评价模型的复杂度.

$ {R_{{\text{IoU}}}} = \frac{{{T_{\text{P}}}}}{{{T_{\text{P}}}+{F_{\text{P}}}+{F_{\text{N}}}}}. $
(5)

式中:TP表示真正例,FP表示假正例,FN表示假反例.

3. 实验结果

3.1. 技术有效性的验证

为了验证本文使用技术的有效性,将其和一些通用技术进行对比,结果如表1所示. 为了对比各种数据增强方式对模型性能的提升,在CHN6-CUG数据集上,使用MobileViT+FCNHead作为基础模型进行实验. FCNHead是简洁的解码器,由2个连续的卷积层构成. 可见,使用Cutout[29]随机擦除部分图像后,模型精度提升了0.3%. Cutmix[30]通过混合图像实现数据增强,模型精度显著提升了1.1%,这表明利用混合图像的方式有利于构建多样的图像数据. 通过Mosaic混合多张图像,模型精度提升了2.3%. 引入多尺度缩放和随机裁剪,获取更精细的图像信息,精度提升了4.6%,这表明更丰富的图像信息可以提升分割性能. 结合Mosaic与多尺度缩放和随机裁剪,构建精细、多样的图像数据,模型精度提升了5%. 现有的SPP[31](spatial pyramid pooling)通过并行不同大小的最大池化操作捕获多尺度特征,有效提升了1.9%的精度,但并行拼接特征会显著增加参数量和FLOPs. 提出的金字塔解码器串行相同大小的平均池化操作,有效捕获了不同尺度的局部信息和全局信息,通过卷积操作调节不同层次信息的权重. 在使用金字塔解码器后,模型参数量和FLOPs仅分别为使用SPP的65%和62%,但精度提升了0.9%. 为了验证多头注意力机制(MHA)可以实现全局信息建模,有效增强模型的特征提取性能,引入去除MHA的MobileViT进行实验. 在去除MHA后,模型的参数量和FLOPs显著降低,但卷积神经网络仅具有局部信息建模的能力,不利于全局的道路提取,分割精度为41.5%.

表 1   不同技术对模型性能的效果

Tab.1  Effect of different techniques on model performance

编码器 解码器 数据增强方式 P/106 FLOPs/109 RIoU/%
MobileViT FCNHead 1.06 1.0 47.6
Cutout 1.06 1.0 47.9
Cutmix 1.06 1.0 48.7
Mosaic 1.06 1.0 49.9
多尺度缩放和随机裁剪 1.06 1.0 52.2
Mosaic与多尺度缩放和随机裁剪 1.06 1.0 53.6
SPP+FCNHead 1.92 1.89 49.5
金字塔解码器 1.25 1.18 50.4
MobileViT (无MHA) FCNHead 0.17 0.49 41.5

新窗口打开| 下载CSV


3.2. 消融实验

为了验证所提技术对RoadViT分割性能的贡献,设置消融实验进行验证,各模型的RIoU曲线、参数量和FLOPs如表2所示. 可见,仅通过MobileViT进行特征提取,利用FCNHead实现像素分类,模型的参数量和FLOPs仅分别为1.06 × 106和1.0 × 109RIoU达到47.6%. 引入Mosaic与多尺度缩放和随机裁剪,获取更详细、多样的图像信息,在不增加模型复杂度的前提下,RIoU提升了5%. 这表明丰富多样的图像信息有利于模型性能的提升. 通过动态加权损失函数,缓解道路类别和背景类别的不均衡矛盾,有效提升了道路的提取精度,RIoU达到49.5%. 使用提出的金字塔解码器代替FCNHead,参数量和FLOPs仅分别为1.25 × 106和1.18 × 109RIoU达到50.5%. 相比于FCNHead,RIoU提升了2.9%,这表明金字塔解码器通过多个池化分支可以有效地提取多尺度特征,以适应不同大小的道路区域. 将不同技术进行组合,验证提出技术的贡献. 引入动态加权损失函数优化模型训练,精度提升了2.1%. 在动态加权损失函数的基础上,通过金字塔解码器捕获多尺度信息,模型性能提升了1.9%. 在金字塔解码器的基础上,使用数据增强获取详细多样的图像数据,分割精度显著提升了6%. 将提出技术进行融合,设计轻量级模型RoadViT,道路提取精度可达57.0%. 为了适应不同的精度需求,根据不同大小的MobileViT,RoadViT可以扩张为RoadViT-m和RoadViT-l. 综上所述,RoadViT可以快速、可靠地提取道路,有利于基于遥感图像构建城市路网.

表 2   RoadViT的消融实验

Tab.2  Ablation experiments of RoadViT

模型 编码器 数据增强 动态加权损失 金字塔解码器 P/106 FLOPs/109 RIoU/%
RoadViT MobileViT 1.06 1.00 47.6
1.06 1.00 53.6
1.06 1.00 49.5
1.25 1.18 50.5
1.25 1.18 51.4
1.06 1.00 55.7
1.25 1.18 56.5
1.25 1.18 57.0
RoadViT-m MobileViT-xs 2.35 3.02 58.7
RoadViT-l MobileViT-s 5.97 6.01 59.7

新窗口打开| 下载CSV


3.3. 主流模型的性能对比

为了进一步验证RoadViT的先进性,将其和主流模型进行对比. 选取的大型模型有DeepLab V3(ResNet18)、STDC、DDRNet和PSPNet(ResNet18),轻量级模型有PSPNet(MobileNet V2)、LRASPP、DeepLab V3(MobileNet V2)、BiseNet V2和PIDNet,实验结果如表3所示.

表 3   RoadViT和主流模型在不同数据集上的对比

Tab.3  Comparison of RoadViT and mainstream models on different datasets

模型 P/106 FLOPs/109 RIoU/%
CHN6-CUG
数据集
DeepGlobe数据集
PSPNet[16](ResNet18[11]) 12.92 67.51 57.1 57.7
DeepLab V3[15](ResNet18) 13.60 85.97 57.6 58.6
PSPNet(MobileNet V2[9]) 2.65 10.72 55.3 54.5
DeepLab V3(MobileNet V2) 3.23 22.61 53.6 55.4
LRASPP[10] 3.22 1.98 51.1 51.1
BiseNet V2[19] 3.62 12.80 56.4 51.8
STDC[18] 14.23 23.51 60.7 54.6
DDRNet[17] 20.15 17.87 61.0 54.8
PIDNet[20] 7.62 5.89 60.0 52.6
RoadViT 1.25 1.18 57.0 52.3
RoadViT-m 2.35 3.02 58.7 53.7
RoadViT-l 5.97 6.01 59.7 54.3
D-LinkNet[22] 55.7
HsgNet[22] 57.7

新窗口打开| 下载CSV


3.3.1. CHN6-CUG数据集

表3可知,RoadViT在保证轻量的前提下,RIoU达到57.0%,参数量和FLOPs仅分别为1.25 × 106和1.18 × 109. 相比于轻量级模型LRASPP、DeepLab V3(MobileNet V2)和PSPNet(MobileNet V2)与大型模型D-LinkNet,RoadViT在模型的轻量性和精度上都更具优势. RoadViT的精度优于轻量级模型BiseNet V2,但参数量和FLOPs仅分别为BiseNet V2的34.5%和9.2%. 随着模型复杂度的增大,RoadViT-m和RoadViT-l的性能随之提升,RIoU分别为58.7%和59.7%. DeepLab V3(ResNet18)和PSPNet(ResNet18)通过大型模型Resnet18实现特征提取,有效提升了分割性能,但具有繁多的参数和昂贵的计算开销. 相比之下,RoadViT-m的精度优于HsgNet、PSPNet(ResNet18)和DeepLab V3(ResNet18),但参数量仅分别为后两者的18.1%和17.3%,FLOPs分别为后两者的4.5%和3.5%. 与STDC和DDRNet相比,RoadViT-l的精度分别降低了约1%和1.3%,但具有更低的模型复杂度,参数量分别为它们的42%和30%,FLOPs分别为它们的26%和34%,有利于实时提取城市道路. RoadViT-l与PIDNet的计算复杂度相近,尽管RoadViT-l的精度略低,但参数量仅为PIDNet的78.3%. 综合考虑模型的轻量性和分割性能,RoadViT是兼顾模型复杂度和精度的城市道路提取模型,可以应用于持续工作的机载设备和资源有限的场景,对城市路网建设具有积极意义.

3.3.2. DeepGlobe数据集

为了进一步验证RoadViT的有效性,在DeepGlobe数据集上进行对比实验. 相比于轻量级模型LRASPP和BiseNet V2,RoadViT以更低的模型复杂度取得了更好的分割性能,实现了与PIDNet近似的精度(RIoU = 52.3%),但参数量和FLOPs仅分别为PIDNet的16.4%和20%,这表明提出的RoadViT可以有效地兼顾分割性能和轻量性. RoadViT-m和RoadViT-l取得了不错的分割精度,RIoU分别为53.7%和54.3%. RoadViT-l取得了与STDC和DDRNet相似的精度,但具有明显的轻量化优势. 尽管PSPNet(MobileNet V2)和DeepLab V3(MobileNet V2)以轻量级模型MobileNet V2作为编码器,实现了较小的模型参数量,但复杂的模型结构限制了它们的计算实时性,RoadViT-l的FLOPs仅分别为它们的56%和27%. 类似地,DeepLab V3(ResNet18)和PSPNet(ResNet18)实现了最高的分割精度,但具有高昂的计算复杂度,FLOPs高达67.51 × 109和85.97 × 109,不利于实时的道路提取. 综上所述,提出的RoadViT通过简洁的模型结构实现道路提取,有效兼顾了分割精度和实时性,在主流模型中具有轻量化的优势.

3.4. 模型实际部署的测试
3.4.1. 推理时间的测试

为了验证RoadViT的实时性,将其和主流模型转为ONNX格式,并部署在Jetson TX2上测试推理速度v,结果如图6所示. 图中,N为测试次数. LRASPP在实时性上的表现出色,平均可达14 帧/s,但分割精度不佳. RoadViT取得了不错的分割性能,推理速度可达10 帧/s,在主流模型中处于相对领先的地位. 基于RoadViT扩张的RoadViT-m和RoadViT-l具有不错的实时性,推理速度分别为8和6 帧/s. 尽管PSPNet和DeepLab V3以轻量级模型MobileNet V2为编码器,在模型复杂度上表现出色,但平均速度约为5 帧/s. 其中,BiseNet V2和STDC通过简洁、有效的模型结构提取道路区域,在实时性上的表现良好,分别可达8 和6 帧/s. PIDNet取得了与RoadViT-l近似的推理速度,具有不错的实时性. DDRNet在模型精度上具有显著的优势,但在边缘设备上的推理速度较小,仅约为4 帧/s. DeepLab V3(ResNet18)和PSPNet(ResNet18)通过大型模型ResNet18实现特征提取,但推理速度仅约为3 帧/s. 综上所述,在主流模型中,RoadViT在实时性上具有优势.

图 6

图 6   模型的推理速度对比

Fig.6   Comparison of inference speed for models


3.4.2. 硬盘空间占用的测试

模型体积是模型轻量性的重要指标之一,更小的模型体积可以提高数据的响应速度,有利于模型在资源受限设备的部署和应用. 模型体积Sm是模型所需的计算机存储空间. 将RoadViT和其他模型的体积进行对比,结果如图7所示. RoadViT的模型体积仅为5.46 MB,仅约为PSPNet(ResNet18)的11%,但两者的分割性能近似. 相比于轻量级模型PSPNet(MobileNet V2)、BiseNet V2、DeepLab V3(MobileNet V2)和LRASPP,RoadViT不仅在模型体积上更具优势,而且在分割性能上更加出色,这表明RoadViT可以兼顾模型的轻量性和分割性能. 随着RoadViT参数量的增加,RoadViT-m和RoadViT-l的模型体积仅分别为9.12 MB和22.9 MB. RoadViT-m取得了优于DeepLab V3(ResNet18)和PSPNet(ResNet18)的分割精度,但模型体积仅约为它们的1/5. RoadViT-l的精度与PIDNet、STDC和DDRNet类似,但在模型体积上更具优势. 综合考虑模型体积和分割性能,RoadViT是轻量、高效的城市道路提取模型.

图 7

图 7   各模型的体积和分割精度对比

Fig.7   Comparison of volume and segmentation accuracy for models


3.4.3. 技术效果的对比及分析

为了验证使用技术对道路提取性能的影响,利用二值化图像对比和分析不同技术的效果,结果如图8所示. 图中,黑色像素和白色像素分别表示背景和道路,矩形框突出不同技术的道路提取效果. 对比图8(c)、(d)可知,多头注意力机制可以捕获全局信息,提取更完整、连续的道路区域. 相比于图8(d),图8(e)引入数据增强获取精细的图像信息,可以对识别难度高的道路进行提取. 从图8(d)、(f)可知,利用动态加权损失函数可以缓解样本不均衡的矛盾,优化模型的提取精度. 图8(g)表明,金字塔解码器通过捕获多尺度信息,可以提取不同大小的道路区域. 利用RoadViT可以提取较完整和连续的道路,有利于构建城市路网.

图 8

图 8   不同技术对分割效果的影响

Fig.8   Impact of different techniques on segmentation effect


3.4.4. 遥感影像路网提取测试

为了验证RoadViT的道路提取效果,选择城市和城郊图像进行测试. 使用二值化图像与其他方法进行对比,通过矩形框突出的RoadViT的效果,结果如图9所示. 从图9(a)~(c)可知,对于不同的道路环境,利用RoadViT提取的道路区域和真实区域基本吻合,有利于基于遥感图像构建城市路网. 随着编码器MobileViT的扩张,RoadViT-m和RoadViT-l提取的道路区域更完整和连续,可以有效地识别难度较高的前景信息. 根据图9(c)、(f)~(i)的对比可知,当处理细小和弯曲的道路时,这些轻量级模型存在提取道路缺失和不连续的问题,本文的RoadViT改善了这种现象,可以适应不同环境下的道路提取. 使用ResNet18替换轻量级模型MobileNet V2,图9(j)、(k)的道路提取效果得到显著的提升,缓解了提取道路不连续的矛盾,但效果次于RoadViT-l. PIDNet、STDC和DDRNet提取的道路区域和真实区域重合度较好,可以有效地处理道路细节部分,但对遮挡部分和识别难度高的像素存在不足,导致提取的道路存在间断现象. 综上所述,对于不同弯曲程度、大小和场景的道路遥感图像,利用RoadViT可以提取较完整连续的道路,有利于城市路网的建设.

图 9

图 9   RoadViT和主流模型的实际道路提取效果对比

Fig.9   Comparison of actual road extraction results between RoadViT and mainstream models


4. 结 论

(1)道路提取是城市建设和规划的重要步骤之一,传统手工提取需要长时间的标注劳动,效率不高. 本文提出轻量级城市路网提取模型RoadViT,可以轻量、高效地区分背景和城市道路,对构建城市路网体系具有积极意义.

(2)提出的RoadViT的参数量和FlOPs仅分别为1.25 × 106和1.18 × 109,在Jetson TX2上的推理速度可达10 帧/s,轻量性和实时性在主流模型中处于相对领先的地位. RoadViT在CHN6-CUG数据集和DeepGlobe数据集上的道路分割精度分别为57.0%和52.3%,可以有效地从遥感图像中提取道路. 综合考虑模型的实时性和精度,RoadViT适用于持续工作的机载设备和资源受限的场景.

(3)在模型结构上,RoadViT由MobileViT和金字塔解码器组成,在训练过程中通过Mosaic与多尺度缩放和随机裁剪,构建精细多样的图像数据. MobileViT是结合卷积神经网络和Transformer的轻量级模型,可以有效地捕获局部信息和全局信息. 利用提出的金字塔解码器,可以提取多尺度特征,生成像素类别的概率分布. 本文设计动态加权损失函数,有效缓解了城市遥感图像中道路类别和背景类别的不平衡矛盾.

参考文献

WU S, DU C, CHEN H, et al

Road extraction from very high resolution images using weakly labeled OpenStreetMap centerline

[J]. International Journal of Geo-Information, 2019, 8 (11): 478

DOI:10.3390/ijgi8110478      [本文引用: 1]

CLAUSSMANN L, REVILLOUD M, GRUYER D, et al

A review of motion planning for highway autonomous driving

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (5): 1826- 1848

DOI:10.1109/TITS.2019.2913998      [本文引用: 1]

YIN W, QIAN M, WANG L, et al

Road extraction from satellite images with iterative cross-task feature enhancement

[J]. Neurocomputing, 2022, 506: 300- 310

DOI:10.1016/j.neucom.2022.07.086      [本文引用: 1]

MA Y, WU H, WANG L, et al

Remote sensing big data computing: challenges and opportunities

[J]. Future Generation Computer Systems, 2015, 51: 47- 60

DOI:10.1016/j.future.2014.10.029      [本文引用: 1]

刘春娟, 乔泽, 闫浩文, 等

基于多尺度互注意力的遥感图像语义分割网络

[J]. 浙江大学学报: 工学版, 2023, 57 (7): 1335- 1344

[本文引用: 1]

LIU Chunjuan, QIAO Ze, YAN Haowen, et al

Semantic segmentation network for remote sensing image based on multi-scale mutual attention

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (7): 1335- 1344

[本文引用: 1]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

SegNet: a deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2016.2644615      [本文引用: 2]

DAI J, ZHU T, ZHANG Y, et al

Lane-level road extraction from high-resolution optical satellite images

[J]. Remote Sensing, 2019, 11 (22): 2672

DOI:10.3390/rs11222672      [本文引用: 1]

CHEN L, ZHU Q, XIE X, et al

Road extraction from VHR remote-sensing imagery via object segmentation constrained by Gabor features

[J]. ISPRS International Journal of Geo-Information, 2018, 7 (9): 362

DOI:10.3390/ijgi7090362      [本文引用: 1]

陈智超, 焦海宁, 杨杰, 等

基于改进MobileNet v2的垃圾图像分类算法

[J]. 浙江大学学报: 工学版, 2021, 55 (8): 1490- 1499

[本文引用: 3]

CHEN Zhichao, JIAO Haining, YANG Jie, et al

Garbage image classification algorithm based on improved MobileNet v2

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (8): 1490- 1499

[本文引用: 3]

HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3 [C]// Proceedings of the IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 1314-1324.

[本文引用: 2]

HE K , ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 2]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03) [2023-08-05]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 1]

MEHTA S, RASTEGARI M. MobileViT: light-weight, general-purpose, and mobile-friendly vision Transformer [EB/OL]. (2022-03-04) [2023-08-05]. https://arxiv.org/pdf/2110.02178.pdf.

[本文引用: 1]

SHELHAMER E, LONG J, DARRELL T

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (4): 640- 651

DOI:10.1109/TPAMI.2016.2572683      [本文引用: 1]

DU B, ZHAO Z, HU X, et al

Landslide susceptibility prediction based on image semantic segmentation

[J]. Computers and Geosciences, 2021, 155: 104860

DOI:10.1016/j.cageo.2021.104860      [本文引用: 2]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230-6239.

[本文引用: 3]

PAN H, HONG Y, SUN W, et al

Deep dual-resolution networks for real-time and accurate semantic segmentation of traffic scenes

[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24 (3): 3448- 3460

DOI:10.1109/TITS.2022.3228042      [本文引用: 2]

FAN M, LAI S, HUANG J, et al. Rethinking BiSeNet for real-time semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 9711-9720.

[本文引用: 2]

YU C, GAO C, WANG J, et al

BiSeNet V2: bilateral network with guided aggregation for real-time semantic segmentation

[J]. International Journal of Computer Vision, 2021, 129 (11): 3051- 3068

[本文引用: 2]

XU J, XIONG Z, BHATTACHARYYA, et al. PIDNet: a real-time semantic segmentation network inspired by PID controllers [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S. l. ]: IEEE, 2023: 19529-19539.

[本文引用: 2]

ZHOU L, ZHANG C, WU M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 192-196.

[本文引用: 1]

ZHU Q, ZHANG Y, WANG L, et al

A global context-aware and batch-independent network for road extraction from VHR satellite imagery

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 353- 365

DOI:10.1016/j.isprsjprs.2021.03.016      [本文引用: 5]

DIAKOGIANNIS F, WALDNER F, CACCETTA P, et al

ResUNet-a: a deep learning framework for semantic segmentation of remotely sensed data

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 162: 94- 114

DOI:10.1016/j.isprsjprs.2020.01.013      [本文引用: 1]

吴仁哲, 蔡嘉伦, 刘国祥, 等

针对高分影像的RDU-Net乡村路网提取方法

[J]. 遥感信息, 2021, 36 (1): 29- 36

[本文引用: 1]

WU Renzhe, CAI Jialun, LIU Guoxiang, et al

Rural road network extraction for high resolution imagery using RDU-Net deep learning method

[J]. Remote Sensing Information, 2021, 36 (1): 29- 36

[本文引用: 1]

LI J, SUN B, LI S, et al

Semisupervised semantic segmentation of remote sensing images with consistency self-training

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1- 11

[本文引用: 1]

YOU Z, WANG J, CHEN S, et al

FMWDCT: foreground mixup into weighted dual-network cross training for semisupervised remote sensing road extraction

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 5570- 5579

DOI:10.1109/JSTARS.2022.3188025      [本文引用: 1]

SONG J, LI J, CHEN H, et al

MapGen-GAN: a fast translator for remote sensing image to map via unsupervised adversarial learning

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 2341- 2357

DOI:10.1109/JSTARS.2021.3049905      [本文引用: 1]

YANG Y, ZHOU L

SRP-YOLOX: an improved deep convolutional neural network for automated via detection

[J]. Microelectronics Reliability, 2023, 147: 115069

DOI:10.1016/j.microrel.2023.115069      [本文引用: 2]

SHI M, XIE F, YANG J, et al

Cutout with patch-loss augmentation for improving generative adversarial networks against instability

[J]. Computer Vision and Image Understanding, 2023, 234: 103761

DOI:10.1016/j.cviu.2023.103761      [本文引用: 1]

YUN S, HAN D, CHEN S, et al. CutMix: regularization strategy to train strong classifiers with localizable features [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seoul: IEEE, 2021: 6022-6031.

[本文引用: 1]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824      [本文引用: 1]

/