浙江大学学报(工学版), 2020, 54(8): 1516-1524 doi: 10.3785/j.issn.1008-973X.2020.08.009

计算机技术

基于多级特征并联的轻量级图像语义分割

周登文,, 田金月, 马路遥, 孙秀秀

Lightweight image semantic segmentation based on multi-level feature cascaded network

ZHOU Deng-wen,, TIAN Jin-yue, MA Lu-yao, SUN Xiu-xiu

收稿日期: 2019-07-8  

Received: 2019-07-8  

作者简介 About authors

周登文(1965—),男,教授,从事基于深度学习的图像处理和计算机视觉研究.orcid.org/0000-0001-9612-0215.E-mail:zdw@ncepu.edu.cn , E-mail:zdw@ncepu.edu.cn

摘要

针对当前语义分割算法普遍具有网络结构复杂和计算开销巨大的问题,为了综合提高语义分割算法实时性和精确度,提出计算高效的基于多级特征并联网络(LSSN)的轻量级图像语义分割网络. 该算法综合考虑网络的参数量、运行速度和性能,能更好地应用到嵌入式设备和可移动设备上. 应用微调的深度卷积神经分类网络作为特征提取网络结构,提取网络不同深浅层语义和位置特征. 提出空洞残差增强模块和深度空洞空间金字塔模块分别处理来自特征提取基准网络的深层特征和浅层特征,并将深浅层特征按特定维度比例以并联的方式进行融合. 所提方法在PASCAL VOC 2012数据集上准确度(平均交并比)为77.13%,与当前具有高性能的语义分割算法和实时语义分割算法相比,能更好地平衡网络的实时性和精确度,具有更优的实用价值和性能效果.

关键词: 深度学习 ; 全卷积神经网络 ; 语义分割 ; 特征融合 ; 空洞卷积

Abstract

Semantic segmentation algorithms usually have complex network structure and huge computation. A lightweight image semantic segmentation algorithm based on multi-level feature cascaded network was proposed to improve the infer speed and accuracy of semantic segmentation. The number of parameters, running speed and performance of the proposed network were considered comprehensively, which can be better applied to embedded devices and mobile devices. The fine-turned deep convolutional neural classification network was used for feature extraction, which can extract both the semantic and location characteristics of different depth layers in the network. An atrous residual feature refine module and a deep atrous spatial pyramid pooling module were used to fuse the deep and shallow features, respectively. And then, the features from deep and shallow layers were fused in parallel with a specific proportion. The mean intersection over union of the proposed approach on the PASCAL VOC 2012 dataset was 77.13%. The proposed method has a better balance between the real-time performance and segmentation accuracy, and has good performance and practical value compared with the current state of the art semantic segmentation and real-time semantic segmentation algorithms.

Keywords: deep learning ; full convolutional neural network ; semantic segmentation ; feature fusion ; atrous convolution

PDF (1013KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

周登文, 田金月, 马路遥, 孙秀秀. 基于多级特征并联的轻量级图像语义分割. 浙江大学学报(工学版)[J], 2020, 54(8): 1516-1524 doi:10.3785/j.issn.1008-973X.2020.08.009

ZHOU Deng-wen, TIAN Jin-yue, MA Lu-yao, SUN Xiu-xiu. Lightweight image semantic segmentation based on multi-level feature cascaded network. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(8): 1516-1524 doi:10.3785/j.issn.1008-973X.2020.08.009

深度卷积神经网络(deep convolutional neural network,DCNN)在计算机图像理解任务上有较高的准确度,但这些网络准确度的提高通常依靠加深网络深度、扩宽网络维度来实现,普遍具有计算速度较慢、资源开销较大的问题. 这一问题在计算密集型任务—图像语义分割中尤为严重. 语义分割是图像理解的核心任务,是计算机视觉最基础的问题之一. 语义分割任务要求对图像中的每个像素预测标签,可以视作图像的密集分类问题. 当前的语义分割网络大多基于全卷积网络[1](fully convolutional network,FCN)实现,网络性能的提高大多以计算量和参数量的急剧增高为代价. 以当前具有高性能的DeepLabv3+[2]语义分割模型为例,整个网络需要4461万参数量和8677亿次乘加计算量,使其在许多具有实时性要求的语义分割应用场景,如自动驾驶、机器人视觉、增强现实等领域中具有局限性. DeepLab[3]、RefineNet[4]、PSPNet[5]等高性能的语义分割网络对硬件设备也具有较高的要求,并且具有较差的实时性,不适用于存储资源和计算能力有限的可移动式设备.

Chollet等[6-7]提出深度可分离卷积,证明其在保持卷积性能的同时能有效减少计算量. 此外,在深度方向上的逐点卷积能在聚合维度信息的同时减少网络的内存占有量和计算量. 在减少网络内存占有量和计算量的同时,如何保证网络的性能也是至关重要的问题. FCN最先实现了端到端的语义分割网络结构,有一定的启发作用,同时也存在须继续思考的问题. 在FCN中,32倍下采样导致原图的语义和位置信息损失过多,预测结果较粗糙. 不过,FCN中引入了跳跃连接结构,指出为了实现更好的性能要注意网络中不同深浅层特征的融合. 通常,网络浅层包含更多的位置信息,网络深层包含更多的语义信息. 在DDSCNet[8]、RefineNet[4]网络中,通过较密集的不同深浅层特征的融合来进一步提高网络的性能,但会使得网络的参数量和计算量增大,并且较密集的特征融合也存在一定程度的特征冗余.

通过对上述问题的综合考虑,本研究提出基于多级特征并联的轻量级图像语义分割网络模型,模型的设计更好的权衡了网络性能和网络的参数量、计算量. 在网络中引入深度可分离卷积和逐点卷积来减少网络的参数和计算量;提出更精简高效的特征融合结构,提出空洞残差增强(atrous residual feature refine,AR)模块和深度空洞空间金字塔池化(deep atrous spatial pyramid pooling,DASPP)模块,加强浅层的全局位置特征和深层的语义特征,使有限的特征图能够表达出更强的特征信息;在特征融合时根据深层网络中不同深浅层特征的可视化规律[9]来设置浅层和深层特征的维度,更好地兼顾网络中不同层次的语义和位置信息.

1. 特征提取模块

为了对图像中每个像素进行精准的定位和识别,须尽可能好的提取图像全局和局部的语义特征和位置特征. 讨论本研究方法中涉及到的语义分割领域常用来提取特征和扩大感受野的2个结构:空间金字塔和空洞卷积.

1)空间金字塔系列. He等[10]在目标检测网络R-CNN中提出空间金字塔池化(spatial pyramid pooling,SPP),用不同尺寸的池化层来感受不同规模的语义特征信息. PSPNet[5]、DeepLab[3]方法都引入了SPP来整合多尺度的语义信息,证明了SPP在语义分割领域中的优良性质. 其中,PSPNet在网络的最后加入SPP模块,网络最后的深层特征包含了较全面的语义特征信息,不同感受野大小的池化层能更好地理解该语义特征信息中不同尺寸规模的物体,更有助于对语义信息做出更精准的识别. 在DeepLabv3[11]中提出空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP),在SPP的基础上加入不同尺度的空洞卷积,进一步加强该模块对不同规模大小物体的识别,并在实验中取得了较好的性能效果. 本研究所提出的DASPP结构对ASPP进行加深处理,进一步聚合不同尺寸的语义信息.

2)空洞卷积. 语义分割通过微调分类网络实现,但由于分类网络须不断扩大感受野、聚合语境信息,存在较多池化层使原图像分辨率下降,损失位置和密集语义信息. 空洞卷积可以用来代替部分池化层,在聚合语义信息的同时保留图像分辨率. 另外,空洞卷积还可以用来增大网络的有效感受野. Yu等[12]最早提出空洞卷积,通过在标准卷积核之间进行零插值来增大有效感受野. DeepLab[3]方法对空洞卷积的应用进一步证明空洞卷积的优良性能. 空洞卷积与标准卷积相比具有更大的有效感受野.

图1所示为标准卷积和空洞卷积有效感受野的可视化对比. 阴影部分为具有不同空洞系数空洞卷积的有效感受野:从左至右,3个卷积核的空洞系数依次增加,有效感受野也依次增大. 假定空洞卷积系数为 $ r $(即卷积核元素之间的距离为 $ r $),则如图1(a)所示为标准卷积,即 $ r=1 $的空洞卷积,感受野尺寸为3;如图1(b)所示为 $ r=3 $的空洞卷积,感受野尺寸为7;如图1(c)所示为 $ r=4 $的空洞卷积,感受野尺寸为9. 其中空洞卷积比标准卷积的计算量减少 $ {r}^{2} $倍. 本研究在AR模块、DASPP模块和特征提取模块中,都合理引入空洞卷积,减少计算量.

图 1

图 1   标准卷积与空洞卷积有效感受野可视化对比

Fig.1   Vision comparison of valid receptive field of standard and atrous convolution


2. 多级特征并联网络结构

当前较高性能的语义分割网络通常具有较复杂的特征融合结构,在取得较好性能的同时往往以巨大的计算开销为代价. 本研究提出轻量级的基于多级特征并联的语义分割网络. 该网络主要由特征提取和特征融合两部分组成,将轻量级MobileNetv2[13]作为特征提取基准网络,特征融合部分由所提出的DASPP和AR模块组成,这2个模块分别处理来自特征提取基准网络中的深层特征和浅层特征,最后按特定维度比例以并联的方式进行融合. 所提方法在保证较高性能的同时避免复杂特征融合结构所带来的大参数量问题.

Zeiler等[9]指出,在深度卷积神经网络中,浅层特征包含低级边缘轮廓信息,深层特征具有丰富的语义信息. DDSCNet[8]、Refinenet[4]网络结构证明具有较好融合性能的特征融合结构都融合了特征提取网络的不同阶段的浅层和深层特征. 本研究算法在考虑网络的参数量和性能后,设计实现了轻量级的特征融合结构,如图2(a)所示. 通过对比实验选取2个下采样阶段的浅层特征(shallow features)和最终的深层特征(deep features),在融合时浅层特征和深层特征根据特征的深浅设置不同的维度,特征对应的网络深度越深,设置的维度越大,不同特征层的维度逐层递加. 在具有较小参数量的同时更好地保留了各层不同等级的语义和位置信息,能够更好地对图像中不同大小规模的目标物体进行识别和定位. 此外,DASPP和AR模块主要是分别对深层和浅层特征进行处理,有针对性的根据不同层次等级的特征进行处理,更有利于特征融合时保留浅层特征的边缘轮廓信息和深层的丰富的语义信息.

图 2

图 2   本研究所提方法的网络结构图

Fig.2   Network structure of proposed method


2.1. DASPP模块

在DCNN中可以将有效感受野的范围理解为人的视觉范围,当对一个目标进行分类时,能够看到这个目标的范围越大,就越能分辨出这个目标的类别;相反,若只看到这个目标的局部,就较难正确分辨出这个目标的类别. 一张图像通常由大小不同的目标组成,想要更好地识别出图像中大小规模不同的目标,就必须既具有较大的感受野规模又具有较小的感受野规模. 本研究提出DASPP,根据ASPP的思想,用具有不同空洞系数的空洞卷积来获取具有不同规模的感受野. 如图2(b)所示,从右到左的分支可以可视化理解为从小到大的视觉范围,这些不同的视觉范围可以帮助网络更好地识别具有不同尺寸规模的目标物体. 如图2(b)所示,由上到下的前2层卷积为深度可分离卷积,在空间方向上获取不同尺度的语义特征,再通过 $ 1\times 1 $卷积整合对应深度方向的信息,其中最左侧分支的图像平均池化用来保留图像的语义背景信息. 加深的 $ 1\times 1 $卷积在进一步整合不同大小规模物体的语义信息的同时减少特征图的维度,输出具有特定维度数的深层特征和浅层特征进行融合. DASPP模块通过3层卷积操作,更好地识别和整合了不同规模大小的目标的语义特征,取得了更好的性能效果.

2.2. AR模块

提出空洞残差特征增强模块,如图2(c)所示. 在深度神经网络结构中,较浅层的特征图具有较大的空间分辨率,蕴含较多的空间信息,并且包含图像的一些初级的边缘和轮廓特征. 这些边缘和轮廓相对较模糊,须进一步的处理和利用. 因此,本研究提出AR模块,通过2个分支分别对浅层特征进行处理,用来加强局部边缘轮廓信息并进一步获取全局轮廓信息. 其中一个分支应用核为3的空洞卷积,以较大的感受野来获取全局的轮廓和背景信息,达到更好的强化全局位置信息的效果. 另外考虑到在浅层特征和深层特征进行融合时,浅层特征应该具有较低的维度配比,在该分支后面加入 $ 1\times 1 $的卷积来整合维度信息,输出具有较小指定维度的特征. 另一个分支则保留原空间位置信息的尺寸,经过 $ 3\times 3 $的卷积进一步加强局部的边缘轮廓信息. 通过以上处理,2个分支分别包含增强的全局位置信息和增强的局部位置信息,最后2个分支通过残差的形式进行融合,达到对浅层特征的整体位置信息加强的效果.

3. 实验及结果分析

3.1. 实验细节

本研究所提方法通过微调MobileNetv2网络进行特征提取,基于ImageNet-1k[14]上预训练[15-16]的MobileNetv2网络模型,调整网络结构进行训练,应用TensorFlow深度学习框架实现,实验环境为单块GeForce GTX TITAN X显卡.

所提方法在语义分割领域通用的数据集PASCAL VOC 2012[17]和Cityscapes[18]上进行训练、验证和测试. PASCAL VOC数据集共包括21个类,其中包括20个目标类和1个背景类,由1 464张训练集图片、1449张验证集图片和1456张测试集图片组成;Cityscapes 为城市街景图,包含2 975张训练集图片、500张验证集图片和1525张测试集图片. 以上数据集的测试集图片的真实标签官方没有公布,须上传预测好的分割图像到服务器对精确度进行测试. 语义分割性能的客观评价指标为平均交并比(mean Intersection over Union,mIoU),mIoU的表达式为

$ {\rm{mIoU}} = \frac{{\displaystyle\sum\nolimits_i {{n_{ii}}} }}{{n\left[{t_i} + \displaystyle\sum\nolimits_j {({n_{ji}}} - {n_{ii}})\right]}}. $

式中: $ n $为所有的类的个数; $ {n}_{ij} $为第 $ i $类被预测为第 $ j $类的像素数量; $ {t}_{i} $为所有第 $ i $类的像素个数, $ {t}_{i}={\displaystyle\sum }_{j}{n}_{ij} $.

在训练时采用的学习策略为Ploy学习策略,power为0.9,学习率衰减步长为2 000,初始学习率为0.000 1. 在训练时,PASCAL VOC 2012数据集图像裁剪尺寸为 $ 513\times 513 $,Cityscapes数据集图像裁剪为 $ 769\times 769 $,批尺寸为1,训练轮数为30 000次.

3.2. MobileNetv2基准网络

图2(a)中的DCNN应用的是MobileNetv2网络模型. 微调后的网络结构如表1所示. 表中, $ T $为每个bottleneck块内部的扩展因子,用来控制每个块内部的特征图维度; $ C $为每组bottleneck块的输出特征图的维度数,每一行由 $ N $个相同的bottleneck组成; $ S=2 $表示该组bottleneck的第1块下采样倍数为2.该网络结构的bottleneck结构如图3所示. 图中,通道为该层特征图的维度数, $ t $为该块的扩展因子, $ D $为输入维度, $ D' $为输出特征维度. 如图3(a)(b)所示分别为步长为1、2的块. 每个bottleneck先将维度用扩展因子进行扩充,卷积之后再输出低维度特征,这种结构对更多细节进行了非线性操作,得到了更好的效果. 实验中采用的扩展因子为6,为了更好地权衡网络的内存占用量和性能,网络总下采样倍数设置为16,避免下采样倍数过小导致内存占用量大和下采样过大信息损失严重的问题. 为了验证本研究选用的MobileNetv2基准网络的有效性,对比应用不同基准网络的语义分割算法的速度和性能,如表2所示. 表中,T0为处理每张图片须花费的时间. 实验数据表明,本研究方法在具有较好的实时性的同时也取得了较好的性能效果.

表 1   基准网络结构

Tab.1  Baseli nenetwork structure

输入 操作 T C N S
$ {513}^{2}\times 3 $ Conv2d 32 1 2
$ {257}^{2}\times 32 $ bottleneck 1 16 1 2
$ {129}^{2}\times 16 $ bottleneck 6 24 2 2
$ {65}^{2}\times 24 $ bottleneck 6 32 3 2
$ {33}^{2}\times 32 $ bottleneck 6 64 4 1
$ {33}^{2}\times 64 $ bottleneck 6 96 3 1
$ {33}^{2}\times 96 $ bottleneck 6 160 3 1
$ {33}^{2}\times 160 $ bottleneck 6 320 1 1

新窗口打开| 下载CSV


表 2   Cityscapes验证集上不同基准网络的性能和运行速度对比

Tab.2  Performance and speed comparison with different baseline networks on Cityscapes validation set

方法 基准网络 T0 / ms mIoU / %
ENet[19] ENet 261 58.3
SQ[20] SqueezeNet[21] 781 59.8
ShuffleNetV2[22] ShuffleNetv2 45 67.7
ICNet[23] PSPNet50[5] 176 70.2
本研究算法 mobileNetv2 18 70.6

新窗口打开| 下载CSV


图 3

图 3   网络中的bottleneck结构图

Fig.3   Bottleneck structure in network


3.3. 模型分析

为了减少网络的计算时间和参数量,应用3.2节提出的轻量级网络MobileNetv2来提取图像的多级特征,但轻量级的网络结构提取出的特征具有一定的局限性,在特征融合时须更好地融合多层次的特征来弥补和进一步加强最终的语义分割性能.

对比基准模型A(直接将MobileNetv2提取的特征和2层浅层特征进行融合)和本研究提出的模型(应用AR、DASPP和多级特征并联方式)的性能效果,结果如表3所示. 表中,Nf为每秒传输帧数(frames per second),即每秒处理的图像帧数,数值越大代表该算法实时性能越好. 由实验数据可知,在应用AR、DASPP模块和所提出的多级特征并联方式之后,性能有一定的提升. 证明DASPP和AR模块通过多级特征并联方式使用能够加强深浅层特征融合的性能效果,同时也证明本研究总网络结构的有效性.

表 3   PASCAL VOC 2012 验证集上本研究网络结构和模型A的性能对比

Tab.3  Performance comparison of proposed model and model A on PASCAL VOC 2012 validation set

模型 mIoU / % Nf / (帧·s−1)
A 75.45 12.20
A+AR 76.06 11.76
A+DASPP 76.20 11.90
A+AR+DASPP 77.13 11.49

新窗口打开| 下载CSV


3.4. 模型细节设置

3.4.1. AR和DASPP设置

AR模块由2个分支组成,其中一个分支引入具有较大空洞系数的空洞卷积,因此通过实验对比不同空洞卷积系数对实验结果的影响. 在进行对比实验时,保持网络结构其他部分为最优设置. 如表4所示,所选取的浅层和深层特征保持不变,深层特征经过DASPP处理. 对比浅层加入AR以及加入不同空洞系数的实验结果,发现增大感受野对网络性能具有好的影响,实验数据显示在 $ r=18 $时取得较好结果,本研究方法最终选取 $ r=18 $作为AR模块的空洞卷积系数.

表 4   PASCAL VOC 2012验证集上不同AR设置的性能对比

Tab.4  Performance comparison of different AR settings on PASCAL VOC 2012 validation set

AR r mIoU / %
24 76.26
18 77.13
12 76.79
6 76.45
× 76.20

新窗口打开| 下载CSV


表5所示,对比DASPP模块和ASPP模块的性能效果,并且对比加入不同层数 $ 1\times 1 $卷积层的DASPP性能. 增加卷积层可以提高对深层特征不同规模大小物体的整合和识别能力,通过对比数据可知,增加卷积层的DASPP可以提高ASPP的性能,但随着卷积层数的增加,网络可能由于梯度消失和其他原因造成网络性能无法继续提升,与此同时还带来了较大的参数量和计算量. 出于对性能和参数量计算量的权衡,本研究选取加深2层卷积作为DASPP的最终结构.

表 5   PASCAL VOC 2012验证集上不同DASPP设置的性能对比

Tab.5  Performance comparison of different DASPP settings on PASCAL VOC 2012 validation set

模型 P / 106 mIoU / %
DASPP(conv $ \times $3 6.72 77.03
DASPP(conv $ \times $2 6.52 77.13
DASPP(conv $ \times $1 6.32 76.69
ASPP 6.13 76.49

新窗口打开| 下载CSV


3.4.2. 多级特征并联设置

通过实验证明本研究提出的多级特征并联网络结构的有效性. 如表6所示为加入不同浅层特征的性能效果对比. 表中,L8、L12、L15分别为经过AR处理的较浅层的第8、12、15个bottleneck块的特征,D为经过DASPP处理的最深层特征, $ \cup $操作为并联的连接方式,+操作为两同维度特征图按位相加. 如表7所示,对比浅层特征和深层特征按照不同维度比例和融合方式进行融合的性能效果.

表 6   PASCAL VOC 2012验证集上加入不同浅层特征的性能效果实验对比

Tab.6  Performance comparison of adding different shallow layers on PASCAL VOC 2012 validation set

特征融合 mIoU / %
$ {{D}} $ 75.80
$ {{L}}8\cup {{D}} $ 75.85
$ {{L}}12\cup {{D}} $ 75.93
$ {{L}}15\cup {{D}} $ 76.34

新窗口打开| 下载CSV


表 7   PASCAL VOC 2012验证集上深浅层特征不同级联方式的性能效果实验对比

Tab.7  Performance comparison of different layers cascade ways on PASCAL VOC 2012 validation set

特征融合 mIoU / %
D 75.80
$ \left({{L}}12\cup \;{{L}}15\right)+{{D}} $ 76.55
$ {{L}}12\cup \;{{L}}15\cup {{D}} $(1∶1∶1) 76.70
$ {{L}}12\cup \;{{L}}15\cup {{D}} $ 77.13

新窗口打开| 下载CSV


表6所示,实验选取MobileNetv2网络结构中如表1所示的不同阶段bottleneck序列的输出特征作为浅层进行对比,浅层维度与表1中对应一致. 通过对比实验,最终选取具有较高性能的L12、L15浅层特征与深层特征进行融合.

在多级特征并联时浅层特征保留表1中的维度设置,L12的特征维度为96,L15的特征维度160,深层特征D经过DASPP处理后维度为256. 该维度配比从浅层特征到深层特征逐渐递增,符合网络结构中随着深度的加深,位置特征和语义特征的转换规律. 如表7所示,通过实验对比多级特征并联时采用递增维度设置(最后一行)和按照等维度比例1∶1∶1(实验中维度设置为256)设置的性能差异. 实验显示递增维度设置更符合浅层位置和深层语义信息的配比,取得了更好的实验效果. 另外,实验对比并联和按位相加的融合方式,实验结果验证了并联方式能够更好地融合不同等级的信息,取得更好的实验效果.

上述实验证明,本研究中选取的浅层特征和维度递增并联级联方式相结合,能更好地提取和融合不同等级的语义和位置特征,取得更好的实验性能.

3.5. 与其他语义分割算法的对比分析

与语义分割领域较为主流的几种方法进行比较. 在测试时实验硬件环境相同. 其他方法模型通过下载官方公布的源码进行测试,在PASCAL VOC 2012和Cityscapes数据集上进行对比.

将本研究算法与当前具有较高性能的语义分割算法进行对比,如表89所示. 表中,P为该方法的总参数量. 由于本研究选取了轻量级的特征提取网络并设计了简单的特征融合结构,与当前具有高性能的Deeplabv3+相比,性能有所下降. 但本研究提出的AR和DASPP模块以及多级特征并联的融合结构,在保证有限的计算量的同时改善了网络结构简单带来的性能损失,使本研究在具有较好的实时性的同时也具有较好的性能效果.

表 8   PASCAL VOC 2012测试集上所提算法与高性能语义分割的性能对比

Tab.8  Comparison of proposed model and other high-performance semantic segmentation methods on PASCAL VOC 2012 test set

方法 P / 106 mIoU / %
FCN-8s[1] 134.50 67.20
DeepLab[3] 44.04 71.60
DeepLabv3+[2] 44.61 87.80
本研究算法 6.52 77.13

新窗口打开| 下载CSV


表 9   Cityscapes测试集上所提算法与高性能语义分割网络性能对比

Tab.9  Comparison of network performance of proposed model and other high-performance semantic segmentation methods on Cityscapes test set

方法 T0 / ms Nf / (帧·s−1) mIoU / %
SegNet[24] 60 16.70 57.0
CRF-RCNN[25] 700 1.43 62.5
DeepLab[3] 400 2.50 63.1
FCN-8s[1] 500 2.00 65.3
Dilation[12] 4000 0.25 67.1
DeepLabv3+[2] 350 2.86 82.1
本研究算法 18 55.60 70.6

新窗口打开| 下载CSV


将本研究算法与当前表现较好的实时语义分割算法进行对比,如表10所示. 可以看出,本研究算法在具有较好的实时性同时也具有较高的性能. 本研究算法中的特征融合结构,在保证轻量级的同时,融合了深层和浅层的特征,更好地获取了网络中不同深浅层位置的语义信息和位置信息,取得了较好的性能效果.

表 10   Cityscapes测试集上所提算法与实时语义分割网络的性能对比

Tab.10  Comparison of proposed model and other real-time semantic segmentation methods on Cityscapes test set

方法 T0 / ms Nf / (帧·s−1) mIoU / %
ENet[19] 13 76.9 58.3
ERFNet[26] 89 11.2 69.7
本研究算法 18 55.6 70.6

新窗口打开| 下载CSV


通过如图45所示的可视化对比,可以看出本研究算法在语义分割常用数据集Cityscapes和PASCAL VOC 2012上能够更好地识别图像的细节和轮廓信息,具有更好的可视化效果.

图 4

图 4   本研究方法和其他方法在Cityscapes测试集上的可视化结果对比

Fig.4   Visual result comparison of proposed methods with others on Cityscapes test set


图 5

图 5   本研究方法和其他方法在PASCAl VOC 2012测试集上的可视化结果对比

Fig.5   Visual result comparison of proposed methods with others on PASCAL VOC 2012 test set


4. 结 语

速度和性能的平衡是语义分割领域中十分重要的问题,提出具有较快速度和较高性能的网络模型使许多具有实时要求的分割任务得以实现,极大地提高了语义分割在其他学科领域中的实用性. 本研究提出基于多级特征并联的轻量级语义分割算法,以更精简的网络结构更好地获得网络的语义特征和位置特征,在保证网络性能的同时有效减少网络的计算量,具有较高的实时性. 此外,本研究提出的AR和DASPP模块以及针对深浅层特征进行有区别性处理的多级特征并联结构可以应用在其他相似任务中用来提高网络性能. 本研究算法虽然取得了较好的实时性能,但算法精确度仍有继续提高的空间,因此接下来将继续在提高算法的综合性能上进行研究.

参考文献

LONG J, SHELHAMER E, DARRELL T

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39 (4): 640- 651

[本文引用: 3]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[本文引用: 3]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

Semantic image segmentation with deep convolutional nets and fully connected CRFs

[J]. International Conference on Learning Representations, 2014(4), 357- 361

[本文引用: 5]

LIN G, MILAN A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 5168-5177.

[本文引用: 3]

ZHAO H, SHI J, QI X, et al

Pyramid scene parsing network

[J]. IEEE Conference on Computer Vision and Pattern Recognition, 2017(1), 2881- 2890

[本文引用: 3]

CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 1251-1258.

[本文引用: 1]

HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2017-04-17]. https://arxiv.org/abs/1704.04861.

[本文引用: 1]

PIOTR B, VICTOR P. Dense decoder shortcut connections for single-pass semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6596-6605.

[本文引用: 2]

ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 818–833.

[本文引用: 2]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37 (9): 1904- 1916

[本文引用: 1]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2017-06-17]. https://arxiv.org/abs/1706.05587.

[本文引用: 1]

YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2015-11-23]. https://arxiv.org/abs/1511.07122.

[本文引用: 2]

SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks. conference [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[本文引用: 1]

RUSSAKOVSKY O, DENG J, SU H, et al

ImageNet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y      [本文引用: 1]

CIRESAN D, GIUSTI A, GAMBARDELLA L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images [C]// Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 2843-2851.

[本文引用: 1]

FARABET C, COUPRIE C, NAJMAN L, et al

Learning hierarchical features for scene labeling

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35 (8): 1915- 1929

DOI:10.1109/TPAMI.2012.231      [本文引用: 1]

EVERINGHAM M, ESLAMI S M A, VAN-GOOI L, et al

The pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111 (1): 98- 136

DOI:10.1007/s11263-014-0733-5      [本文引用: 1]

CORDTS M, OMRAN M, RANMOS S. The cityscapes dataset for semantic urban scene understanding [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213-3223.

[本文引用: 1]

PASZKE A, CHAURASIA A, KIM S, et al. ENet: a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2016-06-07]. https://arxiv.org/abs/1606.02147.

[本文引用: 2]

TREML M, ARJONA-MEDINA J, UNTERTHINER T, et al. Speeding up semantic segmentation for autonomous driving [C]// Neural Information Processing Systems Workshop. Barcelona: MIT Press, 2016.

[本文引用: 1]

FORREST N L, SONG H, MATTHEW W, et al. SqueezeNet: alexnet-level accuracy with 50x fewer parameters and 1mb model size [EB/OL]. [2016-02-24]. https://arxiv.org/abs/1602.07360.

[本文引用: 1]

SERCAN T, JANNE H. An efficient solution for semantic segmentation_ShuffleNet V2 with atrous separable convolutions [EB/OL]. [2019-02-20]. https://arxiv.org/abs/1902.07476.

[本文引用: 1]

ZHAO H, QI X, SHEN X, et al. ICNET for real-time semantic segmentation on high-resolution images [EB/OL]. [2017-04-27]. https://arxiv.org/abs/1704.08545.

[本文引用: 1]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

SegNet: a deep convolutional encoder-decoder architecture for scene segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2017.2701373      [本文引用: 1]

ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks [C]// IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1529-1537.

[本文引用: 1]

ROMERA E, ÁLVAREZ J M, BERGASA L M, et al

ERFNet: efficient residual factorized convNet for real-time semantic segmentation

[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19 (1): 263- 272

DOI:10.1109/TITS.2017.2750080      [本文引用: 1]

/