<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 标准卷积与空洞卷积有效感受野可视化对比

Fig.1 Vision comparison of valid receptive field of standard and atrous convolution

2. 多级特征并联网络结构

当前较高性能的语义分割网络通常具有较复杂的特征融合结构，在取得较好性能的同时往往以巨大的计算开销为代价. 本研究提出轻量级的基于多级特征并联的语义分割网络. 该网络主要由特征提取和特征融合两部分组成，将轻量级MobileNetv2^[13]作为特征提取基准网络，特征融合部分由所提出的DASPP和AR模块组成，这2个模块分别处理来自特征提取基准网络中的深层特征和浅层特征，最后按特定维度比例以并联的方式进行融合. 所提方法在保证较高性能的同时避免复杂特征融合结构所带来的大参数量问题.

Zeiler等^[9]指出，在深度卷积神经网络中，浅层特征包含低级边缘轮廓信息，深层特征具有丰富的语义信息. DDSCNet^[8]、Refinenet^[4]网络结构证明具有较好融合性能的特征融合结构都融合了特征提取网络的不同阶段的浅层和深层特征. 本研究算法在考虑网络的参数量和性能后，设计实现了轻量级的特征融合结构，如图2（a）所示. 通过对比实验选取2个下采样阶段的浅层特征（shallow features）和最终的深层特征（deep features），在融合时浅层特征和深层特征根据特征的深浅设置不同的维度，特征对应的网络深度越深，设置的维度越大，不同特征层的维度逐层递加. 在具有较小参数量的同时更好地保留了各层不同等级的语义和位置信息，能够更好地对图像中不同大小规模的目标物体进行识别和定位. 此外，DASPP和AR模块主要是分别对深层和浅层特征进行处理，有针对性的根据不同层次等级的特征进行处理，更有利于特征融合时保留浅层特征的边缘轮廓信息和深层的丰富的语义信息.

图 2

图 2 本研究所提方法的网络结构图

Fig.2 Network structure of proposed method

2.1. DASPP模块

在DCNN中可以将有效感受野的范围理解为人的视觉范围，当对一个目标进行分类时，能够看到这个目标的范围越大，就越能分辨出这个目标的类别；相反，若只看到这个目标的局部，就较难正确分辨出这个目标的类别. 一张图像通常由大小不同的目标组成，想要更好地识别出图像中大小规模不同的目标，就必须既具有较大的感受野规模又具有较小的感受野规模. 本研究提出DASPP，根据ASPP的思想，用具有不同空洞系数的空洞卷积来获取具有不同规模的感受野. 如图2（b）所示，从右到左的分支可以可视化理解为从小到大的视觉范围，这些不同的视觉范围可以帮助网络更好地识别具有不同尺寸规模的目标物体. 如图2（b）所示，由上到下的前2层卷积为深度可分离卷积，在空间方向上获取不同尺度的语义特征，再通过 $ 1\times 1 $卷积整合对应深度方向的信息，其中最左侧分支的图像平均池化用来保留图像的语义背景信息. 加深的 $ 1\times 1 $卷积在进一步整合不同大小规模物体的语义信息的同时减少特征图的维度，输出具有特定维度数的深层特征和浅层特征进行融合. DASPP模块通过3层卷积操作，更好地识别和整合了不同规模大小的目标的语义特征，取得了更好的性能效果.

2.2. AR模块

提出空洞残差特征增强模块，如图2（c）所示. 在深度神经网络结构中，较浅层的特征图具有较大的空间分辨率，蕴含较多的空间信息，并且包含图像的一些初级的边缘和轮廓特征. 这些边缘和轮廓相对较模糊，须进一步的处理和利用. 因此，本研究提出AR模块，通过2个分支分别对浅层特征进行处理，用来加强局部边缘轮廓信息并进一步获取全局轮廓信息. 其中一个分支应用核为3的空洞卷积，以较大的感受野来获取全局的轮廓和背景信息，达到更好的强化全局位置信息的效果. 另外考虑到在浅层特征和深层特征进行融合时，浅层特征应该具有较低的维度配比，在该分支后面加入 $ 1\times 1 $的卷积来整合维度信息，输出具有较小指定维度的特征. 另一个分支则保留原空间位置信息的尺寸，经过 $ 3\times 3 $的卷积进一步加强局部的边缘轮廓信息. 通过以上处理，2个分支分别包含增强的全局位置信息和增强的局部位置信息，最后2个分支通过残差的形式进行融合，达到对浅层特征的整体位置信息加强的效果.

3. 实验及结果分析

3.1. 实验细节

本研究所提方法通过微调MobileNetv2网络进行特征提取，基于ImageNet-1k^[14]上预训练^[15-16]的MobileNetv2网络模型，调整网络结构进行训练，应用TensorFlow深度学习框架实现，实验环境为单块GeForce GTX TITAN X显卡.

所提方法在语义分割领域通用的数据集PASCAL VOC 2012^[17]和Cityscapes^[18]上进行训练、验证和测试. PASCAL VOC数据集共包括21个类，其中包括20个目标类和1个背景类，由1 464张训练集图片、1449张验证集图片和1456张测试集图片组成；Cityscapes 为城市街景图，包含2 975张训练集图片、500张验证集图片和1525张测试集图片. 以上数据集的测试集图片的真实标签官方没有公布，须上传预测好的分割图像到服务器对精确度进行测试. 语义分割性能的客观评价指标为平均交并比（mean Intersection over Union，mIoU），mIoU的表达式为

(1) $ {\rm{mIoU}} = \frac{{\displaystyle\sum\nolimits_i {{n_{ii}}} }}{{n\left[{t_i} + \displaystyle\sum\nolimits_j {({n_{ji}}} - {n_{ii}})\right]}}. $

式中： $ n $为所有的类的个数； $ {n}_{ij} $为第 $ i $类被预测为第 $ j $类的像素数量； $ {t}_{i} $为所有第 $ i $类的像素个数， $ {t}_{i}={\displaystyle\sum }_{j}{n}_{ij} $.

在训练时采用的学习策略为Ploy学习策略，power为0.9，学习率衰减步长为2 000，初始学习率为0.000 1. 在训练时，PASCAL VOC 2012数据集图像裁剪尺寸为 $ 513\times 513 $，Cityscapes数据集图像裁剪为 $ 769\times 769 $，批尺寸为1，训练轮数为30 000次.

3.2. MobileNetv2基准网络

图2（a）中的DCNN应用的是MobileNetv2网络模型. 微调后的网络结构如表1所示. 表中， $ T $为每个bottleneck块内部的扩展因子，用来控制每个块内部的特征图维度； $ C $为每组bottleneck块的输出特征图的维度数，每一行由 $ N $个相同的bottleneck组成； $ S=2 $表示该组bottleneck的第1块下采样倍数为2.该网络结构的bottleneck结构如图3所示. 图中，通道为该层特征图的维度数， $ t $为该块的扩展因子， $ D $为输入维度， $ D' $为输出特征维度. 如图3（a）、（b）所示分别为步长为1、2的块. 每个bottleneck先将维度用扩展因子进行扩充，卷积之后再输出低维度特征，这种结构对更多细节进行了非线性操作，得到了更好的效果. 实验中采用的扩展因子为6，为了更好地权衡网络的内存占用量和性能，网络总下采样倍数设置为16，避免下采样倍数过小导致内存占用量大和下采样过大信息损失严重的问题. 为了验证本研究选用的MobileNetv2基准网络的有效性，对比应用不同基准网络的语义分割算法的速度和性能，如表2所示. 表中，T₀为处理每张图片须花费的时间. 实验数据表明，本研究方法在具有较好的实时性的同时也取得了较好的性能效果.

表 1 基准网络结构

Tab.1 Baseli nenetwork structure

输入	操作	T	C	N	S
$ {513}^{2}\times 3 $	Conv2d	−	32	1	2
$ {257}^{2}\times 32 $	bottleneck	1	16	1	2
$ {129}^{2}\times 16 $	bottleneck	6	24	2	2
$ {65}^{2}\times 24 $	bottleneck	6	32	3	2
$ {33}^{2}\times 32 $	bottleneck	6	64	4	1
$ {33}^{2}\times 64 $	bottleneck	6	96	3	1
$ {33}^{2}\times 96 $	bottleneck	6	160	3	1
$ {33}^{2}\times 160 $	bottleneck	6	320	1	1

表 2 Cityscapes验证集上不同基准网络的性能和运行速度对比

Tab.2 Performance and speed comparison with different baseline networks on Cityscapes validation set

方法	基准网络	T₀ / ms	mIoU / %
ENet^[19]	ENet	261	58.3
SQ^[20]	SqueezeNet^[21]	781	59.8
ShuffleNetV2^[22]	ShuffleNetv2	45	67.7
ICNet^[23]	PSPNet50^[5]	176	70.2
本研究算法	mobileNetv2	18	70.6

图 3

图 3 网络中的bottleneck结构图

Fig.3 Bottleneck structure in network

3.3. 模型分析

为了减少网络的计算时间和参数量，应用3.2节提出的轻量级网络MobileNetv2来提取图像的多级特征，但轻量级的网络结构提取出的特征具有一定的局限性，在特征融合时须更好地融合多层次的特征来弥补和进一步加强最终的语义分割性能.

对比基准模型A（直接将MobileNetv2提取的特征和2层浅层特征进行融合）和本研究提出的模型（应用AR、DASPP和多级特征并联方式）的性能效果，结果如表3所示. 表中，N_f为每秒传输帧数（frames per second），即每秒处理的图像帧数，数值越大代表该算法实时性能越好. 由实验数据可知，在应用AR、DASPP模块和所提出的多级特征并联方式之后，性能有一定的提升. 证明DASPP和AR模块通过多级特征并联方式使用能够加强深浅层特征融合的性能效果，同时也证明本研究总网络结构的有效性.

表 3 PASCAL VOC 2012 验证集上本研究网络结构和模型A的性能对比

Tab.3 Performance comparison of proposed model and model A on PASCAL VOC 2012 validation set

模型	mIoU / %	N_f / (帧·s⁻¹)
A	75.45	12.20
A+AR	76.06	11.76
A+DASPP	76.20	11.90
A+AR+DASPP	77.13	11.49

3.4. 模型细节设置

3.4.1. AR和DASPP设置

AR模块由2个分支组成，其中一个分支引入具有较大空洞系数的空洞卷积，因此通过实验对比不同空洞卷积系数对实验结果的影响. 在进行对比实验时，保持网络结构其他部分为最优设置. 如表4所示，所选取的浅层和深层特征保持不变，深层特征经过DASPP处理. 对比浅层加入AR以及加入不同空洞系数的实验结果，发现增大感受野对网络性能具有好的影响，实验数据显示在 $ r=18 $时取得较好结果，本研究方法最终选取 $ r=18 $作为AR模块的空洞卷积系数.

表 4 PASCAL VOC 2012验证集上不同AR设置的性能对比

Tab.4 Performance comparison of different AR settings on PASCAL VOC 2012 validation set

AR	r	mIoU / %
√	24	76.26
√	18	77.13
√	12	76.79
√	6	76.45
×	−	76.20

如表5所示，对比DASPP模块和ASPP模块的性能效果，并且对比加入不同层数 $ 1\times 1 $卷积层的DASPP性能. 增加卷积层可以提高对深层特征不同规模大小物体的整合和识别能力，通过对比数据可知，增加卷积层的DASPP可以提高ASPP的性能，但随着卷积层数的增加，网络可能由于梯度消失和其他原因造成网络性能无法继续提升，与此同时还带来了较大的参数量和计算量. 出于对性能和参数量计算量的权衡，本研究选取加深2层卷积作为DASPP的最终结构.

表 5 PASCAL VOC 2012验证集上不同DASPP设置的性能对比

Tab.5 Performance comparison of different DASPP settings on PASCAL VOC 2012 validation set

模型	P / 10⁶	mIoU / %
DASPP（conv $ \times $3）	6.72	77.03
DASPP（conv $ \times $2）	6.52	77.13
DASPP（conv $ \times $1）	6.32	76.69
ASPP	6.13	76.49

3.4.2. 多级特征并联设置

通过实验证明本研究提出的多级特征并联网络结构的有效性. 如表6所示为加入不同浅层特征的性能效果对比. 表中，L8、L12、L15分别为经过AR处理的较浅层的第8、12、15个bottleneck块的特征，D为经过DASPP处理的最深层特征， $ \cup $操作为并联的连接方式，+操作为两同维度特征图按位相加. 如表7所示，对比浅层特征和深层特征按照不同维度比例和融合方式进行融合的性能效果.

表 6 PASCAL VOC 2012验证集上加入不同浅层特征的性能效果实验对比

Tab.6 Performance comparison of adding different shallow layers on PASCAL VOC 2012 validation set

特征融合	mIoU / %
$ {{D}} $	75.80
$ {{L}}8\cup {{D}} $	75.85
$ {{L}}12\cup {{D}} $	75.93
$ {{L}}15\cup {{D}} $	76.34

表 7 PASCAL VOC 2012验证集上深浅层特征不同级联方式的性能效果实验对比

Tab.7 Performance comparison of different layers cascade ways on PASCAL VOC 2012 validation set

特征融合	mIoU / %
D	75.80
$ \left({{L}}12\cup \;{{L}}15\right)+{{D}} $	76.55
$ {{L}}12\cup \;{{L}}15\cup {{D}} $(1∶1∶1)	76.70
$ {{L}}12\cup \;{{L}}15\cup {{D}} $	77.13

如表6所示，实验选取MobileNetv2网络结构中如表1所示的不同阶段bottleneck序列的输出特征作为浅层进行对比，浅层维度与表1中对应一致. 通过对比实验，最终选取具有较高性能的L12、L15浅层特征与深层特征进行融合.

在多级特征并联时浅层特征保留表1中的维度设置，L12的特征维度为96，L15的特征维度160，深层特征D经过DASPP处理后维度为256. 该维度配比从浅层特征到深层特征逐渐递增，符合网络结构中随着深度的加深，位置特征和语义特征的转换规律. 如表7所示，通过实验对比多级特征并联时采用递增维度设置（最后一行）和按照等维度比例1∶1∶1（实验中维度设置为256）设置的性能差异. 实验显示递增维度设置更符合浅层位置和深层语义信息的配比，取得了更好的实验效果. 另外，实验对比并联和按位相加的融合方式，实验结果验证了并联方式能够更好地融合不同等级的信息，取得更好的实验效果.

上述实验证明，本研究中选取的浅层特征和维度递增并联级联方式相结合，能更好地提取和融合不同等级的语义和位置特征，取得更好的实验性能.

3.5. 与其他语义分割算法的对比分析

与语义分割领域较为主流的几种方法进行比较. 在测试时实验硬件环境相同. 其他方法模型通过下载官方公布的源码进行测试，在PASCAL VOC 2012和Cityscapes数据集上进行对比.

将本研究算法与当前具有较高性能的语义分割算法进行对比，如表8、9所示. 表中，P为该方法的总参数量. 由于本研究选取了轻量级的特征提取网络并设计了简单的特征融合结构，与当前具有高性能的Deeplabv3+相比，性能有所下降. 但本研究提出的AR和DASPP模块以及多级特征并联的融合结构，在保证有限的计算量的同时改善了网络结构简单带来的性能损失，使本研究在具有较好的实时性的同时也具有较好的性能效果.

表 8 PASCAL VOC 2012测试集上所提算法与高性能语义分割的性能对比

Tab.8 Comparison of proposed model and other high-performance semantic segmentation methods on PASCAL VOC 2012 test set

方法	P / 10⁶	mIoU / %
FCN-8s^[1]	134.50	67.20
DeepLab^[3]	44.04	71.60
DeepLabv3+^[2]	44.61	87.80
本研究算法	6.52	77.13

表 9 Cityscapes测试集上所提算法与高性能语义分割网络性能对比

Tab.9 Comparison of network performance of proposed model and other high-performance semantic segmentation methods on Cityscapes test set

方法	T₀ / ms	N_f / (帧·s⁻¹)	mIoU / %
SegNet^[24]	60	16.70	57.0
CRF-RCNN^[25]	700	1.43	62.5
DeepLab^[3]	400	2.50	63.1
FCN-8s^[1]	500	2.00	65.3
Dilation^[12]	4000	0.25	67.1
DeepLabv3+^[2]	350	2.86	82.1
本研究算法	18	55.60	70.6

将本研究算法与当前表现较好的实时语义分割算法进行对比，如表10所示. 可以看出，本研究算法在具有较好的实时性同时也具有较高的性能. 本研究算法中的特征融合结构，在保证轻量级的同时，融合了深层和浅层的特征，更好地获取了网络中不同深浅层位置的语义信息和位置信息，取得了较好的性能效果.

表 10 Cityscapes测试集上所提算法与实时语义分割网络的性能对比

Tab.10 Comparison of proposed model and other real-time semantic segmentation methods on Cityscapes test set

方法	T₀ / ms	N_f / (帧·s⁻¹)	mIoU / %
ENet^[19]	13	76.9	58.3
ERFNet^[26]	89	11.2	69.7
本研究算法	18	55.6	70.6

通过如图4、5所示的可视化对比，可以看出本研究算法在语义分割常用数据集Cityscapes和PASCAL VOC 2012上能够更好地识别图像的细节和轮廓信息，具有更好的可视化效果.

图 4

图 4 本研究方法和其他方法在Cityscapes测试集上的可视化结果对比

Fig.4 Visual result comparison of proposed methods with others on Cityscapes test set

图 5

图 5 本研究方法和其他方法在PASCAl VOC 2012测试集上的可视化结果对比

Fig.5 Visual result comparison of proposed methods with others on PASCAL VOC 2012 test set

4. 结　语

速度和性能的平衡是语义分割领域中十分重要的问题，提出具有较快速度和较高性能的网络模型使许多具有实时要求的分割任务得以实现，极大地提高了语义分割在其他学科领域中的实用性. 本研究提出基于多级特征并联的轻量级语义分割算法，以更精简的网络结构更好地获得网络的语义特征和位置特征，在保证网络性能的同时有效减少网络的计算量，具有较高的实时性. 此外，本研究提出的AR和DASPP模块以及针对深浅层特征进行有区别性处理的多级特征并联结构可以应用在其他相似任务中用来提高网络性能. 本研究算法虽然取得了较好的实时性能，但算法精确度仍有继续提高的空间，因此接下来将继续在提高算法的综合性能上进行研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LONG J, SHELHAMER E, DARRELL T

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39 (4): 640- 651

[2]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[3]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

Semantic image segmentation with deep convolutional nets and fully connected CRFs

[J]. International Conference on Learning Representations, 2014（4）, 357- 361

[本文引用: 5]

[4]

LIN G, MILAN A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 5168-5177.

[5]

ZHAO H, SHI J, QI X, et al

Pyramid scene parsing network

[J]. IEEE Conference on Computer Vision and Pattern Recognition, 2017（1）, 2881- 2890

[6]

CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 1251-1258.

[7]

HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2017-04-17]. https://arxiv.org/abs/1704.04861.

[8]

PIOTR B, VICTOR P. Dense decoder shortcut connections for single-pass semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6596-6605.

[9]

ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 818–833.

[10]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37 (9): 1904- 1916

[11]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2017-06-17]. https://arxiv.org/abs/1706.05587.

[12]

YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2015-11-23]. https://arxiv.org/abs/1511.07122.

[13]

SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks. conference [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[14]

RUSSAKOVSKY O, DENG J, SU H, et al

ImageNet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y [本文引用: 1]

[15]

CIRESAN D, GIUSTI A, GAMBARDELLA L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images [C]// Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 2843-2851.

[16]

FARABET C, COUPRIE C, NAJMAN L, et al

Learning hierarchical features for scene labeling

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35 (8): 1915- 1929

DOI:10.1109/TPAMI.2012.231 [本文引用: 1]

[17]

EVERINGHAM M, ESLAMI S M A, VAN-GOOI L, et al

The pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111 (1): 98- 136

DOI:10.1007/s11263-014-0733-5 [本文引用: 1]

[18]

CORDTS M, OMRAN M, RANMOS S. The cityscapes dataset for semantic urban scene understanding [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213-3223.

[19]

PASZKE A, CHAURASIA A, KIM S, et al. ENet: a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2016-06-07]. https://arxiv.org/abs/1606.02147.

[20]

TREML M, ARJONA-MEDINA J, UNTERTHINER T, et al. Speeding up semantic segmentation for autonomous driving [C]// Neural Information Processing Systems Workshop. Barcelona: MIT Press, 2016.

[21]

FORREST N L, SONG H, MATTHEW W, et al. SqueezeNet: alexnet-level accuracy with 50x fewer parameters and 1mb model size [EB/OL]. [2016-02-24]. https://arxiv.org/abs/1602.07360.

[22]

SERCAN T, JANNE H. An efficient solution for semantic segmentation_ShuffleNet V2 with atrous separable convolutions [EB/OL]. [2019-02-20]. https://arxiv.org/abs/1902.07476.

[23]

ZHAO H, QI X, SHEN X, et al. ICNET for real-time semantic segmentation on high-resolution images [EB/OL]. [2017-04-27]. https://arxiv.org/abs/1704.08545.

[24]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

SegNet: a deep convolutional encoder-decoder architecture for scene segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2017.2701373 [本文引用: 1]

[25]

ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks [C]// IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1529-1537.