用于无人机遥感图像的高精度实时语义分割网络
High-precision real-time semantic segmentation network for UAV remote sensing images
通讯作者:
收稿日期: 2024-06-25
基金资助: |
|
Received: 2024-06-25
Fund supported: | 国家自然科学基金资助项目(61702320);上海市晨光计划(15CG62). |
作者简介 About authors
魏新雨(2000—),男,硕士生,从事计算机视觉和图像处理研究.orcid.org/0009-0004-2085-2451.E-mail:
用于无人机图像的语义分割模型存在推理效率低和分割效果差的问题,为此提出共享浅层特征网络(SSFNet). 细节分支共享语义分支下采样时的1/4和1/8阶段,简化细节分支的下采样阶段,提高推理效率. 在语义分支部分,提出基于通道分解和堆叠连接的高效感受野模块(ERFB),在几乎不增加推理成本的情况下提高多尺度特征的提取能力. 为了整合语义分支中的上下文信息,提出快速聚合上下文(FAC)模块,利用门控机制控制下采样时的1/16和1/32阶段为最终阶段的语义补充信息. 在解码阶段,利用混合激活函数构建双边融合模块(BFM)以充分融合细节和语义信息. 结果表明,SSFNet在UAVid、LoveDA和Potsdam数据集上的平均交并比分别为68.5%、52.7%和87.1%;在NVIDIA RTX 3090 GPU输入分辨率为1 024×1 024的情况下,SSFNet的推理速度达到131.1 帧/s,实时分割效果良好.
关键词:
A shared shallow feature network (SSFNet) was proposed to address the issues of low inference efficiency and poor segmentation performance in semantic segmentation models for UAV images. The detail branch shared the 1/4 and 1/8 stages of downsampling in the semantic branch, simplifying the downsampling process of the detail branch and improving inference efficiency. In the semantic branch, a stacked connection approach was combined with a channel decomposition mechanism to construct an efficient receptive field block (ERFB), enhancing multi-scale feature extraction with minimal additional inference cost. To integrate contextual information within the semantic branch, a fast aggregation of context (FAC) module was proposed, and a gated mechanism was utilized to supplement the semantics of the final phase during the 1/16 and 1/32 downsampling stages. During the decoding phase, a bilateral fusion module (BFM) was constructed using a hybrid activation function to fully integrate detail and semantic information. Results show that SSFNet achieves mean intersection over union scores of 68.5%, 52.7%, and 87.1% on the UAVid, LoveDA, and Potsdam datasets, respectively. SSFNet achieves an inference speed of 131.1 frames per second at a 1 024×1 024 input resolution on an NVIDIA RTX 3090 GPU, indicating strong real-time segmentation performance.
Keywords:
本文引用格式
魏新雨, 饶蕾, 范光宇, 陈年生, 程松林, 杨定裕.
WEI Xinyu, RAO Lei, FAN Guangyu, CHEN Niansheng, CHENG Songlin, YANG Dingyu.
无人机技术的广泛运用使得遥感图像的获取手段更加多样化. 利用装载相机的无人机既可实现高空大范围全局监测,也可实现低空小范围精确监测,推进了土地资源管理[1]、环境监测[2]、道路检测[3]、城市规划[4]等城市相关应用的发展. 从无人机遥感图像数据[5]分析图像内容并得到关键目标信息的过程称为无人机遥感影像的解译,图像语义分割是实现解译的关键技术. 语义分割旨在通过图像中的光谱、纹理、形状等信息,得到图像中每个像素的类别信息[6]. 传统语义分割方法通过提取图像阈值、区域、边缘等形态学的方式实现对图像中不同物体的分割. 无人机遥感影像成像范围灵活,图像分辨率高、信息量大,传统的语义分割方法很难充分提取影像中的信息.
随着图形处理器(graphics processing unit,GPU)的性能大幅度提升,基于深度学习[7]的语义分割方法在计算机视觉领域大放异彩. Long等[8]提出的全卷积网络(fully convolutional network,FCN)将传统卷积神经网络(convolutional neural network,CNN)中的全连接层替换成卷积层,显著提高了语义分割的准确性. Zhao等[9]设计金字塔场景解析网络(pyramid scene parsing network,PSPNet),通过并联多个不同尺度的池化层实现金字塔池化模块,提高了对不同尺度目标的分割效果. Chen等[10-11]提出DeepLab系列网络,设计出空洞空间池化金字塔(atrous spatial pyramid pooling,ASPP)模块,利用不同采样率的空洞卷积(atrous convolution,AConv)提取多尺度特征. Shi等[12]基于编码器-解码器网络,将空间和通道注意力用于提取无人机图像中的建筑物,改善了特征信息丢失的问题. Xu等[13]提出基于Transformer的自适应融合模块,这种自适应融合模块在融合多尺度特征时可以自适应地抑制背景噪声并增强目标显著性. 诸多学者在语义分割网络的运行效率方面进行探索,Yu等[14-15]提出BiSeNet系列算法,使用并行的双分支网络结构分别提取图像的空间细节信息和语义上下文信息,实现了高效的语义分割. Wang等[16]提出UNetFormer算法,通过压缩解码器通道的数量来提升推理效率. Wadekar等[17]提出MobileViT系列算法,将倒残差结构的CNN加入Transformer,以减少Transformer模型的大小和计算需求. 刘毅等[4]提出基于多尺度特征融合的轻量化道路提取模型,在ASPP中引入深度可分离卷积,不仅减少了ASPP的参数量,而且降低了计算复杂度.
无人机遥感图像的实时语义分割仍然面临诸多挑战. 相比于自然图像,遥感图像内部纹理和几何形态多变,光谱信息复杂,且不同目标尺度跨度大,轻量级的语义分割网络很难从中提取特征. 不可否认的是,利用深度学习技术对遥感影像进行语义分割,能够为后续的场景理解、地物分析提供支持. 为了改善无人机图像语义分割模型推理效率较低和分割精度较差的问题,本研究提出由共享浅层特征的细节和语义分支组成的共享浅层特征网络(shared shallow feature network,SSFNet)框架. 在语义分支部分,提出基于通道分解和堆叠连接的高效感受野模块(efficient receptive field block,ERFB)来融合多尺度特征,基于门控机制提出快速上下文聚合(fast aggregation context,FAC)模块,以更好地捕获全局场景. 在解码阶段,提出基于混合激活函数的双边融合模块(bilateral fusion module,BFM)融合双分支信息. 在网络反向传播阶段,使用辅助分割头来监督细节分支的特征提取,以进一步捕获细粒度信息. 在公开数据集上进行模型训练和测试,验证所提网络的性能.
1. 相关工作
FCN的发展促进了图像语义分割发展,特别是在推理效率上,基于CNN的模型比其他方法效率高. 这些模型的效率差别与它们的网络结构相关. 编码器-解码器网络和双边分割网络是2种常用的语义分割网络结构类型. 在编码器-解码器网络中,通过添加横向连接来恢复高分辨率特征图[16],这会导致高昂的访问成本和过度处理冗余信息. 编码器-解码器网络是单流网络,它们连续地从单个图像中提取特征,没有充分考虑图像中的两级特征及其融合. 为了实现高效的语义分割并较好地融合图像中的多级特征,双边分割网络被提出[14]. 该架构主要由2个分支组成:一个是具有浅层结构用于提取低级细节的细节分支,另一个是具有深层结构用于捕获高级语义信息的语义分支. 双分支网络以并行的方式提取特征,可以实现较快的推理速度,但在初始下采样阶段仍存在冗余. 本研究提出共享浅层特征的双分支分割网络,能够促进细节分支和语义分支之间的特征融合,形成更紧凑的结构. 具体来说,语义分支下采样时采用ResNet18[18]作为主干网络,细节分支共享语义分支1/4和1/8位置的特征. 共享的特征使得2个分支之间的联系更紧密,减少了双边网络的参数量,提高了推理效率. 3种语义分割网络的架构如图1所示.
图 1
图 1 不同语义分割网络架构对比
Fig.1 Comparison of different semantic segmentation network architectures
2. 方法简介
2.1. 网络模型
如图2所示,SSFNet为双边架构,包括语义分支和细节分支. 细节分支通过紧密连接,共享语义分支的浅层特征. 共享的特征层促进2个分支的交互,在提高推理速度的同时保持分割精度. 双边架构的语义分支通过深层次的卷积层提取语义信息,使用小型解码器-编码器结构逐步上采样特征,以便较好地将语义信息恢复到高分辨率. 为了在语义分支中进一步提取多尺度目标和促进上下文信息联系,将ERFB和FAC引入语义分支中. 细节分支使用共享的浅层特征进一步捕获细节信息,大大减少了传统双边分割网络的参数冗余,也加强了2个分支之间的联系. 使用辅助分割头来进一步监督细节分支捕获的特征. 2个分支输出的特征是不同的,细节分支处理低级特征,语义分支处理高级特征. 设计BFM来融合2个分支的信息,它利用混合激活函数和参数量较小的深度可分离卷积来增强对特征的融合.
图 2
图 2 共享浅层特征网络的整体架构
Fig.2 Overall architecture of shared shallow feature network
2.2. 高效感受野模块
无人机遥感图像语义分割要处理的数据量大、场景复杂多变、空间分辨率高,而且地物具有许多复杂的特性(尺度变化大、物体分布密集、小物体繁多等),为了提高语义分割模型的准确性,避免增加过多参数,提出ERFB. ASPP系列模型具有较好的多尺度特征提取效果,但没有考虑模型复杂度,通道分解机制能够减少模型在处理特征通道上的复杂度,堆叠连接能够让网络处理更多的尺度特征. 输入特征X
其中g为卷积分支的通道特征. 这个4个通道特征分别馈入不同的分支中. 结合堆叠连接,重新考虑各个分支的扩张率,使用不断增加的扩张率并结合堆叠连接确保感受野充分地扩展. 具体来说,使用扩张率rate={3,5,7}的AConv结合堆叠连接,第
拼接这些特征,并使用残差结构与原始特征相加:
ERFB和ASPP的对比如图3所示. ERFB能够有效捕获大尺度(如建筑物)特征和小尺度(如小汽车)特征,有利于从无人机图像中提取斜视图和航拍视角的信息. ASPP虽然可以捕获多尺度特征,但是捕获的特征密度较为稀疏. 堆叠连接方式能够比并行连接方式更好地捕获多尺度信息.
图 3
2.3. 快速上下文聚合模块
为了快速恢复全局依赖性,更好地捕获全局场景用于语义信息解析,本研究提出基于门控机制的快速上下文聚合模块. 语义分支的最终阶段可以提供较为丰富的语义信息,但其他阶段的语义信息也至关重要. 快速上下文聚合模块可以在1/16和1/32阶段快速捕获语义信息,为最终的语义信息提供补充. 基于门控机制的快速上下文聚合模块使用1×1卷积调整通道数,将调整后的特征记为向量
将输出
最后,引入残差结构,以防止特征崩溃.
2.4. 基于混合激活函数的双边融合模块
双边融合模块结合了低参数量的深度卷积和常规卷积,引入混合激活函数以更好地学习多样化的特征. 混合激活函数的使用,包括高斯误差线性单元(Gaussian error linear unit,GELU)和Sigmoid函数,其中Sigmoid激活函数引入稳定性,GELU提供强大的非线性学习能力,帮助网络更好地理解复杂的映射关系.
由于混合激活函数的有效性,将BFM和加法操作(addition)融合的特征进行可视化对比,融合的特征表现出多样性,如图4所示.
图 4
图 4 双边融合模块和加法操作的可视化特征图对比
Fig.4 Comparison of visual feature maps between bilateral fusion module and addition
2.5. 损失函数
在训练阶段,设计分割头(seg head)对最终特征进行分割,构建辅助分割头(aux-head)来优化细节分支对特征的提取. 定义主损失函数
式中:N和K分别为样本数量和类别数量,
3. 模型训练及实验结果分析
3.1. 数据集
UAVid:数据收集自中国的50个城市,包含42个序列,共420张图像. 图像的分辨率为3 840×2 160和4 096×2 160像素,分为建筑物、树木、植被、静止车辆、移动车辆、行人、道路和杂物共8个类别. 使用20个序列的200张图像进行训练,7个序列的70张图像用于验证,官方提供的15个序列的150张图像用于测试. 由于图像的精细空间分辨率、空间变化的异质性、类别的模糊性以及通常复杂的场景,UAVid的分割具有挑战性. 训练前,每张图像被裁剪成1 024×1 024的像素块.
LoveDA:数据集由
Potsdam:数据集由38张精细空间分辨率的航空图像组成,图片的分辨率为6 000×6 000像素. 它包括6个类别:不透水表面、建筑物、低植被、树木、车辆和背景. 使用14张图片用于测试,其余图像用于训练. 数据集包含德国波茨坦市的航空图像. 这些图像的空间分辨率异常高,具有细粒度的地表特征. 训练前,图像被裁剪成1 024×1 024的像素块.
3.2. 实验设置
实验基于PyTorch框架实现,实验平台基于RTX 3090 GPU,主要环境为CUDA 11.8和PyTorch 2.1.0. 为了实现快速收敛,采用AdamW优化器来训练实验中的所有模型. 初始学习率设置为5×10−4,在训练过程中采用分步(step-wise)调整策略. 对于UAVid数据集,在训练阶段对输入图像采用数据增强技术(如随机亮度调整、随机水平翻转和随机垂直翻转),图像的输入大小为1 024×1 024像素;训练次数为60个周期,批量大小为8;在测试阶段,采用单尺度测试策略和随机翻转测试增强策略. 对于LoveDA和Potsdam数据集,在训练阶段,使用随机裁剪策略,输入大小为512×512像素;采用随机缩放(0.50, 0.75, 1.00, 1.25, 1.50, 1.75)、随机亮度调整、随机水平翻转和随机垂直翻转等增强技术;训练次数为100个周期,批量大小为16;在测试阶段,应用多尺度和随机翻转测试增强策略.
3.3. 评价指标
使用4种评价指标进行评估:交并比(intersection over union,IoU)、平均交并比(mean intersection over union,mIoU)、帧率vf和参数量NP. IoU是计算每个类别的预测分割区域与实际分割区域的重叠程度,mIoU是所有类别IoU的平均值,vf为模型每秒钟处理图片的数量,NP用于计算模型的规模大小.
式中:k为类别数量,TP、FP、FN分别为真正例、假正例、假负例. 考虑推理效率,帧率的计算式为
式中:N为图片数量,
3.4. 消融实验
3.4.1. 模块的消融实验
为了验证所提模块的有效性,在UAVid和LoveDA的验证集上进行消融实验,结果如表1所示. vf和NP在输入分辨率为1 024×1 024像素下测试,测试设备为RTX 3090 GPU. 其中基线模型由ResNet18骨干网络和1个单独的细节分支构成,将FAC替换为卷积核为1的2D卷积,将BFM替换为加法操作. 仅含SSF的模型使用共享浅层特征构建网络,减少网络参数,细节分支跳过1/2和1/4的下采样阶段,使vf比基线模型的提升20.6 帧/s. BFM实现了高层次和低层次特征的有效融合,在UAVid和LoveDA验证集上比仅含SSF的模型的mloU分别提升了1.0和0.8个百分点. SSF+BFM+FAC模型能够快速有效地聚合上下文信息,在UAVid和LoveDA验证集上比SSF+BFM模型的mloU分别提升了1.2和0.9个百分点. SSF+BFM+FAC+ERFB模型提取多尺度信息,丰富了网络的感受野,在UAVid和LoveDA验证集上比SSF+BFM+FAC模型的mloU分别提升了2.3和1.1个百分点.
表 1 不同验证集上的模块消融实验结果
Tab.1
数据集 | SSF | BFM | FAC | ERFB | mIoU/% | vf/(帧·s−1) |
UAVid | — | — | — | — | 65.9 | 122.3 |
√ | — | — | — | 66.1 | 142.9 | |
√ | √ | — | — | 67.1 | 140.1 | |
√ | √ | √ | — | 68.3 | 136.2 | |
√ | √ | √ | √ | 70.6 | 131.1 | |
LoveDA | — | — | — | — | 49.4 | 122.3 |
√ | — | — | — | 49.5 | 142.9 | |
√ | √ | — | — | 50.3 | 140.1 | |
√ | √ | √ | — | 51.2 | 136.2 | |
√ | √ | √ | √ | 52.3 | 131.1 |
3.4.2. 高效感受野模块中扩张率大小的消融实验
一方面,较大的扩张率可以确保感受野充分地扩展,另一方面过大的扩张率会加剧网格效应,对无人机图像中的一些小目标特征提取不利. 本研究分析扩张率大小对分割结果的影响. 扩张率的大小参考文献[21],Liu等使用扩张率为{1,3,5}的卷积组并结合不同大小的卷积核扩展感受野. 在数据集UAVid中对基于堆叠连接的ERFB使用扩张率为{1,3,5}、{3,5,7}、{5,7,9}的卷积组进行消融研究,mIoU分别为70.1%、70.6%和70.4%,由此可知,ERFB的扩张率设置为{3,5,7}时效果较好.
3.4.3. 双边融合模块中各个分支的消融实验
为了验证Sigmoid所在分支和GELU所在分支对于BFM的影响,进行如表2所示分支消融研究. 结果表明,单独添加Sigmoid所在分支和GELU所在分支都可以促进特征的融合,同时添加这2个不同的分支可以进一步促进特征的融合.
表 2 双边融合模块中各个分支的消融实验
Tab.2
Sigmoid所在分支 | GELU所在分支 | mIoU/% |
— | — | 69.7 |
√ | — | 70.2 |
— | √ | 70.3 |
√ | √ | 70.6 |
3.5. 对比实验
3.5.1. 高效感受野模块和空洞空间池化金字塔模块
为了进一步验证ERFB的有效性,将ERFB与ASPP分别加入SSFNet中,对比模型性能评价指标. 2个模块的输入通道数和输出通道数都为128,结果如表3所示. 堆叠连接的设计使得ERFB可以捕获更多尺度的特征,ERFB将mloU从基线模型的68.3%提高到70.6%,NP仅增加0.2×106,推理速度损失很小. 原因是ERFB通过通道分解机制将128个通道分别馈入通道数为32的4个分支中,ASPP的4个分支处理的通道数都为128.
表 3 UAVid验证集上感受野模块的消融实验结果
Tab.3
ASPP | ERFB | mIoU/% | Np/106 | vf/(帧·s−1) |
— | — | 68.3 | 12.9 | 136.2 |
√ | — | 70.3 | 13.6 | 124.5 |
— | √ | 70.6 | 13.1 | 131.1 |
3.5.2. SSFNet与其他方法的性能对比
将SSFNet与其他先进的分割算法在3数据集上进行性能对比,这些算法包括FCN[8]、BiSeNet[14]、PSPNet[9]、DeepLab V3+[11]、BANet[22]、CoaT[23]、SegFormer[24]、DC- Swin[25]、UNetFormer[16]、MobileViT V3[17]和RSSFormer[13]. 分析不同算法的规模及推理速度,测试时的输入分辨率为1 024×1 024像素,测试设备为RTX 3090 GPU,结果如表4所示. SSFNet的参数量为13.1×106,规模较其他算法小;与BiSeNet、BANet、SegFormer、UNetFormer和MobileViT V3等规模相似的模型相比,SSFNet的推理速度最快. 该结果表明SSFNet的网络架构紧凑.
表 4 分割算法的参数量和推理速度比较
Tab.4
算法 | 骨干网络 | Np/106 | vf/(帧·s−1) |
FCN 8S | Vgg16 | 68.5 | 86.0 |
BiSeNet | ResNet18 | 12.9 | 121.9 |
PSPNet | ResNet50 | 47.1 | 52.2 |
DeepLab V3+ | ResNet50 | 41.4 | 53.7 |
BANet | ResT-Lite | 15.5 | 67.7 |
CoaT | ResNet50 | 30.2 | 10.6 |
SegFormer | MiT-B1 | 13.7 | 31.3 |
DC-Swin | Swin-Tiny | 45.6 | 23.6 |
UNetFormer | ResNet18 | 11.7 | 115.3 |
MobileViT V3 | MobileViT V3-1.0 | 13.6 | 87.9 |
RSSFormer | RSS-Base | 30.8 | 28.5 |
SSFNet | ResNet18 | 13.1 | 131.1 |
图 5
图 5 UAVid数据集上不同算法的图像分割效果可视化比较
Fig.5 Visual comparison of image segmentation results of different algorithms on UAVid dataset
表 5 UAVid测试集上分割算法的性能比较
Tab.5
算法 | IoU | mIoU | |||||||
杂物 | 建筑物 | 道路 | 树木 | 植被 | 移动车辆 | 静止车辆 | 行人 | ||
FCN 8S | 63.6 | 84.6 | 76.1 | 77.6 | 60.2 | 62.3 | 47.1 | 14.5 | 60.8 |
BiSeNet | 64.7 | 85.7 | 77.3 | 78.3 | 61.1 | 63.4 | 48.6 | 17.5 | 62.1 |
PSPNet | 65.4 | 85.7 | 79.5 | 79.2 | 61.5 | 72.6 | 49.4 | 19.4 | 64.1 |
DeepLab V3+ | 65.3 | 86.1 | 80.0 | 78.1 | 60.3 | 71.4 | 49.1 | 21.8 | 64.0 |
BANet | 66.7 | 85.4 | 80.7 | 78.9 | 62.1 | 69.3 | 52.8 | 21.0 | 64.6 |
CoaT | 69.0 | 88.5 | 80.0 | 79.3 | 62.0 | 70.0 | 59.1 | 18.9 | 65.8 |
SegFormer | 66.6 | 86.3 | 80.1 | 79.6 | 62.3 | 72.5 | 52.5 | 28.5 | 66.0 |
DC-Swin | 67.5 | 86.5 | 80.4 | 80.1 | 61.9 | 72.2 | 54.3 | 27.3 | 66.3 |
UNetFormer | 68.4 | 87.4 | 81.5 | 80.2 | 63.5 | 73.6 | 56.4 | 31.0 | 67.8 |
MobileViT V3 | 67.7 | 87.3 | 81.4 | 80.1 | 63.6 | 73.8 | 54.8 | 29.7 | 67.3 |
RSSFormer | 67.2 | 86.8 | 81.1 | 79.9 | 63.3 | 72.5 | 58.4 | 30.8 | 67.8 |
SSFNet | 68.7 | 88.4 | 81.5 | 80.5 | 63.9 | 77.1 | 56.7 | 31.5 | 68.5 |
图 6
图 6 LoveDA数据集上不同算法的图像分割效果可视化比较
Fig.6 Visual comparison of image segmentation results of different algorithms in LoveDA dataset
表 6 LoveDA测试集上分割算法的性能比较
Tab.6
算法 | IoU | mIoU | ||||||
背景 | 建筑物 | 道路 | 水体 | 荒地 | 森林 | 农业 | ||
FCN 8S | 42.6 | 49.5 | 48.1 | 73.1 | 11.8 | 43.5 | 58.3 | 46.7 |
BiSeNet | — | — | — | — | — | — | — | 47.2 |
PSPNet | 44.4 | 52.1 | 53.5 | 76.5 | 9.7 | 44.1 | 57.9 | 48.3 |
DeepLab V3+ | 43.0 | 50.9 | 52.0 | 74.4 | 10.4 | 44.2 | 58.5 | 47.6 |
BANet | 43.7 | 51.5 | 51.1 | 76.9 | 16.6 | 44.9 | 62.5 | 49.6 |
CoaT | — | — | — | — | — | — | — | 49.9 |
SegFormer | — | — | — | — | — | — | — | 50.4 |
DC-Swin | 41.3 | 54.5 | 56.2 | 78.1 | 14.5 | 47.2 | 62.4 | 50.6 |
UNetFormer | 44.7 | 58.8 | 54.9 | 79.6 | 20.1 | 46.0 | 62.5 | 52.4 |
MobileViT V3 | 43.0 | 60.1 | 56.9 | 81.3 | 17.6 | 48.1 | 56.1 | 51.9 |
RSSFormer | 52.4 | 60.7 | 55.2 | 76.3 | 18.7 | 45.4 | 58.3 | 52.4 |
SSFNet | 45.6 | 57.4 | 56.9 | 81.5 | 18.4 | 45.5 | 63.4 | 52.7 |
图 7
图 7 Potsdam数据集上不同算法的图像分割效果可视化比较
Fig.7 Visual comparison of image segmentation results of different algorithms on Potsdam dataset
表 7 Potsdam测试集上分割算法的性能比较
Tab.7
算法 | IoU | mIoU | ||||
不透水表面 | 建筑物 | 低植被 | 树木 | 车辆 | ||
FCN 8S | 86.1 | 91.5 | 76.3 | 77.4 | 90.7 | 84.4 |
BiSeNet | 87.2 | 91.7 | 76.9 | 78.9 | 91.0 | 85.1 |
PSPNet | 87.9 | 92.1 | 77.1 | 79.7 | 91.5 | 85.7 |
DeepLab V3+ | 87.7 | 92.2 | 77.4 | 79.4 | 91.2 | 85.5 |
BANet | 88.9 | 92.7 | 78.2 | 79.8 | 91.4 | 86.2 |
CoaT | 88.5 | 92.9 | 78.5 | 80.4 | 91.9 | 86.1 |
SegFormer | 87.9 | 92.6 | 78.8 | 79.9 | 91.6 | 86.0 |
DC-Swin | 88.7 | 93.3 | 78.0 | 80.1 | 92.0 | 86.5 |
UNetFormer | 89.0 | 93.5 | 79.2 | 80.5 | 91.9 | 86.8 |
MobileViT V3 | 88.9 | 93.7 | 79.0 | 80.2 | 92.1 | 86.8 |
RSSFormer | 89.1 | 93.7 | 79.8 | 80.4 | 91.7 | 86.9 |
SSFNet | 89.3 | 93.9 | 79.1 | 80.9 | 92.2 | 87.1 |
总而言之,SSFNet在3个数据集上,尤其是在UAVid数据集上的分割性能良好. 根据无人机图像特征精心设计的网络结构,细节分支可以捕获细粒度特征,语义具有良好的感受域都是促使SSFNet能够有效地处理航空图像的原因.
3.6. 不同硬件环境下的网络模型推理速度
在不同硬件环境下对比SSFNet的推理速度,测试的设备包括RTX 3090 GPU和RTX 3060 GPU,测试时输入图像的分辨率为1 024×1 024像素. 在相同的显卡架构下,影响推理速度的主要硬件因素包括CUDA数量和显存位宽,比较结果如表8所示. SSFNet推理速度在RTX 3060 GPU上为47.6 帧/s,大于30 帧/s,满足实时语义分割和实际应用的要求.
表 8 共享浅层特征网络在不同硬件环境下的推理速度
Tab.8
设备 | CUDA数量 | 显存位宽/b | vf/(帧·s−1) |
RTX 3090 | 10 496 | 384 | 131.1 |
RTX 3060 | 3 584 | 192 | 47.6 |
4. 结 语
为了解决语义分割模型推理效率低和分割精度差的问题,本研究提出用于无人机图像的共享浅层特征网络. 设计高效感受野模块来丰富网络的感受域,增强对多尺度特征的提取能力. 为了有效获取全局上下文信息,提出基于门控机制的快速上下文聚合模块. 使用额外的分割头来监督细节分支的提取效果,通过双边融合模块融合2个分支的特征. 在UAVid、LoveDA和Potsdam数据集上验证了算法的有效性. 在未来的研究中,将继续探索如何充分利用光谱信息进行语义分割的方法,并将方法应用于实际需求中.
参考文献
Land cover classification from remote sensing images based on multi-scale fully convolutional network
[J].DOI:10.1080/10095020.2021.2017237 [本文引用: 1]
Landslide recognition by deep convolutional neural network and change detection
[J].DOI:10.1109/TGRS.2020.3015826 [本文引用: 1]
Improving public data for building segmentation from convolutional neural networks (CNNs) for fused airborne lidar and image data using active contours
[J].DOI:10.1016/j.isprsjprs.2019.05.013 [本文引用: 1]
基于多尺度特征融合的轻量化道路提取模型
[J].
Lightweight road extraction model based on multi-scale feature fusion
[J].
Deep learning in remote sensing: a comprehensive review and list of resources
[J].DOI:10.1109/MGRS.2017.2762307 [本文引用: 1]
遥感图像语义分割空间全局上下文信息网络
[J].
Spatial global context information network for semantic segmentation of remote sensing image
[J].
Deep learning
[J].DOI:10.1038/nature14539 [本文引用: 1]
DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs
[J].DOI:10.1109/TPAMI.2017.2699184 [本文引用: 1]
CSA-UNet: channel-spatial attention-based encoder–decoder network for rural blue-roofed building extraction from UAV imagery
[J].
RSSFormer: foreground saliency enhancement for remote sensing land-cover segmentation
[J].DOI:10.1109/TIP.2023.3238648 [本文引用: 2]
BiSeNet V2: bilateral network with guided aggregation for real-time semantic segmentation
[J].DOI:10.1007/s11263-021-01515-2 [本文引用: 1]
UNetFormer: a UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery
[J].DOI:10.1016/j.isprsjprs.2022.06.008 [本文引用: 4]
UAVid: a semantic segmentation dataset for UAV imagery
[J].DOI:10.1016/j.isprsjprs.2020.05.009 [本文引用: 1]
Transformer meets convolution: a bilateral awareness network for semantic segmentation of very fine resolution urban scene images
[J].DOI:10.3390/rs13163065 [本文引用: 1]
A novel transformer based semantic segmentation scheme for fine-resolution remote sensing images
[J].
/
〈 |
|
〉 |
