<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 融合多分辨率表征的主干网络架构

Fig.1 Backbone network architecture fused with multi-resolution representation

表 1 主干网络参数设置

Tab.1 Backbone network parameter settings

阶段	模块数	分支数	各分支卷积单元数	各分支输出尺寸
1	1	1	$\left[ 2 \right]$	$ \left[ {224 \times 224 \times 64} \right] $
2	1	2	$\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ \end{gathered} \right]$	$\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ \end{gathered} \right]$
3	4	3	$\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ 4 \hfill \\ \end{gathered} \right]$	$\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ 56 \times 56 \times 72 \\ \end{gathered} \right]$
4	3	4	$\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ 4 \hfill \\ 4 \hfill \\ \end{gathered} \right]$	$\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ 56 \times 56 \times 72 \\ 28 \times 28 \times 144 \\ \end{gathered} \right]$

第1阶段的模块只有1个高分辨率分支，其后每个阶段的模块以并行的方式从高到低逐渐增加多分辨率分支，提取不同尺度的语义信息. 文献[8]每个模块分支的卷积单元数均为4，本研究不同分支的卷积单元数并不相同，高分辨率特征图所在的分支设置的卷积单元较少，即构建浅层的神经网络，在有效提取细节信息的同时进一步减少计算量；低分辨率特征图所在的分支设置的卷积单元较多，即构建深层的神经网络，能够有效提取全局语义信息.每个阶段之后融合不同分辨率的特征图，得到更丰富的语义信息. 融合过程包含上采样、下采样以及分辨率保持，低分辨率特征图通过双线性插值提高分辨率与高分辨率特征图进行融合，高分辨率特征图通过池化操作降低分辨率与低分辨率特征图进行融合，同一尺度的特征图通过卷积运算保持分辨率不变. 文献[8]采用标准卷积作为基本卷积单元，本研究网络采用深度可分离卷积^[9]作为基本卷积单元，在保证准确率的同时提高检测速度. 对于标准卷积单元，输入尺寸为 $h \times w \times {d_i}$的特征图，应用卷积 ${\boldsymbol{K}} \in {{\bf{R}}^{k \times k \times {d_i} \times {d_j}}}$进行运算后输出尺寸为 $h \times w \times {d_j}$的特征图，其计算量为 $h w {d_i} {d_j} k k$，其中h、w分别为特征图的宽和高，d_i为输入通道数，d_j为输出通道数，k为卷积核尺寸. 对于深度可分离卷积单元，同样尺寸的特征图所需计算量为 $h w {d_i}({k^2} + {d_j})$. 当卷积核 $k = 3$时，深度可分离卷积单元的计算量约为标准卷积单元的 $1/9$，检测速度得到明显提升.

1.2. 烟雾前景增强模块

语义分割是像素级别的细粒度分类任务，为了提升分割精度，分割网络应充分提取图像的语义信息并进行特征融合，具有代表性的工作有金字塔场景解析网络(pyramid scene parsing network, PSPNet)^[10]和DeepLabv3^[11]. PSPNet对网络提取的特征做了4种不同尺度的池化操作后再上采样回原来尺度，最终对不同尺度的信息进行融合，但是池化过程中会损失一定的语义信息且难以恢复. DeepLabv3中空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)模块^[12]通过不同采样率的空洞卷积并行提取多尺度目标特征并进行融合^[13]，空洞卷积能够避免损失语义信息，但是采样间隔较大时容易引入背景信息，对目标特征造成干扰.

烟雾具有半透明的特征，在光照干扰下，容易与地面、墙壁、天空等背景融在一起，使分割准确率降低. 受对象上下文表示(object-contextual representations, OCR)^[14]的启发，本研究针对烟雾与背景难以区分的问题提出烟雾前景增强模块(smoke foreground enhancement module, SFEM). 1个像素与其所在的目标区域同属于1个类别，通过分析1个位置的像素点特征和目标区域特征的联系，可以建立起相应的关系表征，关系表征可以衡量像素点与目标区域的相似程度. 单个像素点特征信息不够充分，利用烟雾前景特征与前景关系表征可以得到前景增强表征，前景增强表征包含与像素点相关联的前景特征信息，将其与像素点特征级联起来能够增强单个像素点的特征表达，使对应的像素点融合更丰富的语义信息，提高该像素点的分类准确率. 对于1个烟雾像素点，利用与其对应的烟雾前景增强表征能使烟雾像素点特征融合更丰富的前景信息，避免背景信息的干扰，特征增强后的烟雾像素点与背景更容易区分开，使分割准确率提高.

如图2所示，烟雾前景增强模块主要包括3个步骤.

图 2

图 2 烟雾前景增强模块

Fig.2 Smoke foreground enhancement module

1）主干网络对目标进行一次粗分割，将图像分为前景I_s和背景I_f，利用空间softmax函数分别对I_s、I_f进行特征归一化操作. 在训练中采用交叉熵损失函数对粗分割区域进行监督.

2）每个像素点加权聚合前景区域归一化特征得到前景区域表征：

(1) $ {\boldsymbol{s}} = \sum\nolimits_{i \in I} {{{\tilde m}_i}{{\boldsymbol{x}}_i}} . $

式中：I为图像中所有像素点的集合，x_i为每个像素点p_i的特征， ${\tilde m_i}$为像素点p_i的前景区域归一化特征. 计算像素点与前景的关系得到前景关系表征

(2) $ w = \frac{{{\text{exp\;(}}\kappa ({\boldsymbol{x}},{\boldsymbol{s}}))}}{{{\text{exp\;(}}\kappa ({\boldsymbol{x}},{\boldsymbol{s}})) + {\text{exp}}\;(\kappa ({\boldsymbol{x}},{\boldsymbol{f}}))}}. $

式中：f为背景区域表征； $\kappa ({\boldsymbol{x}},{\boldsymbol{s}}) = \phi {( \cdot )^{\rm{T}}}\psi ( \cdot )$为关系函数, $\phi ( \cdot )$、 $\psi ( \cdot )$为转换函数，通过1×1 conv→BN→ReLU实现.

3）利用 ${\boldsymbol{s}}$、w得到前景增强表征，输出为

(3) $ {\boldsymbol{y}} = \rho (w\delta ({\boldsymbol{s}})) . $

式中： $\delta ( \cdot )$、 $\;\rho ( \cdot )$为转换函数，通过1×1 conv→BN→ReLU实现.

1.3. 残差注意力模块

在神经网络中，卷积运算能够融合通道和空间这2个维度提取信息特征. 随着卷积层的叠加，提取到的语义信息越来越丰富，然而这些信息与最终优化目标的关联程度不尽相同，因此本研究在网络中加入残差注意力模块(residual attention module, RAM)，在通道和空间这2个维度上分析特征内部之间的关系得到注意力特征图^[15]，用来增强有意义的特征信息，同时抑制无效的特征信息.

特征图的每个通道包含目标某一方面的特征^[16]. 为了计算通道注意力，本研究在空间维度上浓缩特征图，将每个通道的特征图通过最大池化操作和平均池化操作进行浓缩，用 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}}$表示通道最大池化特征，用 ${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}$表示通道平均池化特征. 浓缩后的2个通道特征送入共享全连接层学习权重分布，之后全连接层的输出通过元素相加的方式合并在一起，最后经过激活函数sigmoid得到通道注意力权重：

(4) $ {{\boldsymbol{M}}_{\rm{c}}}({\boldsymbol{F}}) = \sigma ({{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}})) + {{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}))) . $

式中：σ为sigmoid激活函数； ${{\boldsymbol{W}}_0}$、 ${{\boldsymbol{W}}_1}$为全连接层的权重， ${{\boldsymbol{W}}_0} \in {\bf{R}^{({\textit{C/r}}) \times {\textit{C}}}}$， ${{\boldsymbol{W}}_1} \in {\bf{R}^{\textit{C} \times \textit{C/r}}}$.

与通道注意力不同，空间注意力更关注目标某一位置的特征信息是否重要. 为了计算空间注意力，首先在通道维度上对同一位置的特征分别应用最大池化操作和平均池化操作，用 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}}$表示空间最大池化特征，用 ${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}$表示空间平均池化特征. 将 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}}$与 ${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}$级联起来通过卷积运算学习权重分布，最后经过激活函数sigmoid得到空间注意力权重

(5) $ {{\boldsymbol{M}}_{\rm{s}}}({\boldsymbol{F}}) = \sigma (f([{\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}};\;{\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}])) . $

式中：σ为sigmoid激活函数，f为卷积运算.

给定输入特征图F，残差注意力模块先对其进行卷积操作，之后依次施加通道注意力权重M_c和空间注意力权重M_s后得到输出，整个流程如图3所示. 施加注意力过程如下：

(6) $ \left. \begin{gathered} {\boldsymbol{F}}' = {{\boldsymbol{M}}_{\rm{c}}}({\boldsymbol{F}}) \otimes {\boldsymbol{F}}, \hfill \\ {\boldsymbol{F}}'' = {{\boldsymbol{M}}_{\rm{s}}}({\boldsymbol{F}}') \otimes {\boldsymbol{F}}'. \hfill \\ \end{gathered} \right\} $

式中： ${\boldsymbol{F}}'$为F施加通道注意力后的结果， ${\boldsymbol{F}}''$为 ${\boldsymbol{F}}'$施加空间注意力后的结果， $ \otimes $为元素相乘运算.

图 3

图 3 残差注意力模块

Fig.3 Residual attention module

2. 实验结果与分析

2.1. 数据集介绍与训练设置

目前烟雾分割领域尚无公开数据集，本研究按照PASCAL VOC数据集的格式建立场景丰富的烟雾分割数据集. 数据集图片来源于实验室实际拍摄视频及国家火灾重点实验室烟雾视频数据集 (http://smoke.ustc.edu.cn/datasets.htm)，实验室实际拍摄视频如图4所示. 数据集包含学校、野外、车库、工厂、地铁站、超市等62个场景，共截取8 000帧图片进行手工标注，其中训练集6 000张，测试集2 000张.

图 4

图 4 实验室的拍摄视频数据

Fig.4 Video data of laboratory

本研究提出的烟雾分割网络基于Pytorch框架实现. 网络模型在CPU为Intel(R) Xeon(R) W-2102 CPU@2.90 GHz，GPU为GeForce RTX 2080 Ti的服务器上进行训练. 网络参数的更新策略采用带有动量的随机梯度下降法，动量为0.9，初始学习率设置为0.005，衰减权重为0.0005，批处理个数为8，训练轮数设为400. 其中学习率的更新采用Ploy策略，即随着迭代次数增加，学习率逐渐衰减.

2.2. 与经典语义分割网络对比

为了验证本研究算法的有效性，将其与经典语义分割网络FCN^[4]，PSPNet^[10]，DeepLabV3^[11]，DeepLabV3+^[17]在本研究数据集上进行对比实验，所有算法均采用相同的训练设置.

2.2.1. 定性分析

本研究选取多种尺度，多种环境背景，不同光照条件下的烟雾图片进行测试. 如图5所示为本研究算法与经典语义分割网络在测试集上的部分分割结果. 可以看出，本研究算法能够在各种复杂场景下对烟雾进行准确分割，说明该算法能够有效提取烟雾的多尺度特征，且能够克服光照等外界干扰，具有较强的鲁棒性.

图 5

图 5 经典语义分割网络与本研究算法定性比较

Fig.5 Qualitative comparison between representative semantic segmentation network and proposed algorithm

2.2.2. 定量比较

实验结果采用语义分割的常用指标平均交并比(mean intersection over union, mIoU)作为评价标准，对比还采用单张图片检测时间和权重大小这2个指标，用以分析算法的综合性能，结果如表2所示. 表中，T为单张图片检测时间，P为权重.

表 2 经典语义分割网络与本研究算法的分割结果对比

Tab.2 Comparison of segmentation results between representative semantic segmentation network and proposed algorithm

算法	mIoU/%	T/ms	P/MB
FCN	88.91	60.61	434.11
PSPNet	89.86	56.82	385.13
DeepLabV3	90.92	86.21	534.14
DeepLabV3+	91.95	63.69	344.12
本研究	91.27	39.06	74.66

FCN和PSPNet通过池化操作减小特征图尺寸的同时增大感受野，再通过上采样将特征图恢复到输入图像大小进行逐像素预测，在池化过程中会损失一些语义信息，因此最终分割效果相对较差. DeepLabV3及DeepLabV3+采用ASPP模块进行多尺度特征融合，在利用空洞卷积扩大感受野时会引入背景信息，干扰烟雾特征的提取，在一定程度上影响分割效果. 本研究算法主干网络能够提取多尺度特征，烟雾前景增强模块进一步提高分割精度，因此具有很好的分割效果，卷积单元采用轻量化的深度可分离卷积模块，大大减少网络的参数量. 其他算法的主干网络均采用ResNet50，参数量较多，模型较大，难以应用于实际监控系统中.

由表2可以看出，本研究算法综合性能最好，其分割精度仅次于DeepLabV3+，网络权重为74.66 MB，同时检测速度为25.60帧/s。因此本研究算法能够满足实时检测的需求，可以应用于实际烟雾检测任务.

2.3. 与其他烟雾检测算法对比

为了进一步验证本研究算法对于烟雾检测的有效性，在公开数据集上对算法进行验证，烟雾视频来自于Bilkent大学的数据集( http://signal.ee.bilkent.edu.tr//VisiFire/Demo/SampleClips.html)，数据集描述见表3，部分检测结果如图6所示.

表 3 公开数据集描述

Tab.3 Description of public data set

视频名称	视频描述	视频帧数/帧
sBehindtheFence	距离远、场景复杂	630
sBtFence	距离远、场景复杂	1400
sMoky	烟雾稀薄、快速运动	900
sWasteBasket	室内、有干扰（白墙）	900
sWindow	室外、运动缓慢	244

图 6

图 6 公开数据集部分检测结果

Fig.6 Part of test results of public data set

将本文算法与文献[18]~[20]的3种烟雾检测算法进行对比，评价指标采用真正率TPR (true positive rate)和真负率TNR (true negative rate)，结果如表4所示.

表 4 现有烟雾检测算法与本研究算法的检测结果对比

Tab.4 Comparison of detection results between existing smoke detection algorithms and proposed algorithm %

视频名称	本研究算法		文献[20]		文献[19]		文献[18]
视频名称	R_TPR	R_TNR	R_TPR	R_TNR	R_TPR	R_TNR	R_TPR	R_TNR
sBehindtheFence	98.64	100.00	98.26	94.60	97.20	96.27	94.72	100.00
sBtFence	98.81	100.00	98.20	100.00	98.17	100.00	99.08	100.00
sMoky	98.27	100.00	98.85	100.00	99.68	100.00	86.23	100.00
sWasteBasket	99.50	96.84	99.41	100.00	97.18	98.36	99.89	92.60
sWindow	98.46	97.87	98.40	100.00	98.10	100.00	94.30	100.00

根据实验结果可知，本研究算法在公开视频数据集上取得了最高的平均真正率百分比R_TPR、真负率百分比R_TNR. 文献[18]利用颜色特征进行烟雾检测，虽然在多个视频上取得了最高的R_TPR，但是在sMoky视频中检测结果很差，说明该算法容易受到外部环境(如光照)的影响，不具备很强的鲁棒性. 文献[19]利用烟雾的纹理特征进行检测，虽然不易受到外界光照的干扰，但是难以充分提取烟雾的深层特征，因此整体性能不如基于神经网络的深度学习算法. 文献[20]改进DeepLabV3进行烟雾检测，与文献[20]相比，本研究算法避免引入背景干扰信息，因此检测效果和鲁棒性更好.

2.4. 消融实验

为了分析本研究算法各部分的贡献，进行消融实验. 消融实验的对象包括主干网络、烟雾前景增强模块和残差注意力模块，结果如表5所示。图中，Ours1为基准网络，Ours2为基准网络加入烟雾前景增强模块，“√”表示选择该模块，“−”表示未选择该模块.

表 5 消融实验结果

Tab.5 Ablation experiment results

算法	烟雾前景增强模块	残差注意力模块	mIoU/%	T/ms	P/MB
文献[8]	√	√	91.84	47.63	93.24
Ours1	−	−	89.45	34.80	60.00
Ours2	√	−	90.83	38.52	73.24
本研究	√	√	91.27	39.06	74.66

设计与文献[8]的对比实验，以验证主干网络对检测性能的提升。公平起见，在文献[8]的网络中加入本研究的烟雾前景增强模块和残差注意力模块. 从表5的对比结果可见，本研究算法在保证分割准确率的前提下，提高检测速度同时网络更加轻量化，相比于文献[8]综合性能更好.

烟雾前景增强模块通过对烟雾前景进行粗分割生成前景关系表征来提高分割精度. 为了证明该模块对网络分割精度的提升，将该模块替换为由2个卷积单元组成的全卷积网络模块，实验结果如表5所示. 可以看出，烟雾前景增强模块将分割精度从89.45%提升到90.83%，提升1.38%.

残差注意力模块能够增强特征图中重要的语义信息并抑制不重要的语义信息. 该模块可以方便地嵌入任何卷积单元中，从表5可以看出，没有添加残差注意力模块的网络分割精度为90.83%，添加残差注意力模块的网络分割精度提高到91.27%，提升0.44%.

消融实验的结果如图7所示。可以看出，最终的分割网络比去除烟雾前景增强模块和残差注意力模块的网络分割精度高，说明本研究所提出的模块能够有效提升主干网络的分割精度.

图 7

图 7 消融实验结果定性比较

Fig.7 Qualitative comparison of ablation experiment results

3. 结　语

提出融合多分辨率表征的实时烟雾分割算法，通过并行提取多分辨率特征图充分获取语义信息，同时基本卷积单元采用深度可分离卷积，保证实时分割的需要；提出的烟雾前景增强模块和残差注意力模块能够有效提升分割精度. 实验结果表明，相比于经典分割网络算法，本研究算法分割准确率高，处理速度快，而且网络权重更小；在公开数据集上，本研究算法检测效果优于其他烟雾检测算法. 由于实际场景复杂多变，下一步研究内容考虑丰富现有的烟雾数据集，加入更多不同场景和不同形态的烟雾图片，使算法具有更强的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

TAO C, ZHANG J, WANG P. Smoke detection based on deep convolutional neural networks [C]// 2016 International Conference on Industrial Informatics-Computing Technology, Intelligent Technology, Industrial Information Integration. Wuhan: IEEE, 2016: 150-153.

[2]

SHRIVASTAVA M, MATLANI P. A smoke detection algorithm based on K-means segmentation [C]// 2016 International Conference on Audio, Language and Image Processing. Shanghai: IEEE, 2016: 301-305.

DOI:10.1016/j.neucom.2019.05.011 [本文引用: 1]

[3]

FILONENKO A, HERNÁNDEZ D C, JO K H

Fast smoke detection for video surveillance using CUDA

[J]. IEEE Transactions on Industrial Informatics, 2017, 14 (2): 725- 733

URL [本文引用: 1]

[4]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[本文引用: 2]

[5]

YUAN F, ZHANG L, XIA X, et al

Deep smoke segmentation

[J]. Neurocomputing, 2019, 357: 248- 260

[6]

XU G, ZHANG Y, ZHANG Q, et al

Video smoke detection based on deep saliency network

[J]. Fire Safety Journal, 2019, 105: 277- 285

DOI:10.1016/j.firesaf.2019.03.004 [本文引用: 1]

[7]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[8]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5693-5703.

[本文引用: 8]

[9]

HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2020-11-16]. https://arxiv.org/pdf/1704.04861.pdf.

[10]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[本文引用: 2]

[11]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2020-12-10]. https://arxiv.org/pdf/1706.05587.pdf.

[本文引用: 2]

[12]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 834- 848

DOI:10.1109/TPAMI.2017.2699184 [本文引用: 1]

[13]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824 [本文引用: 1]

[14]

YUAN Y, CHEN X, WANG J, et. Object-contextual representations for semantic segmentation[C]// Computer Vision-ECCV 2020. [S.l.]: Springer, 2020: 173-190.

[15]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3-19.

[16]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[17]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 801-818.