浙江大学学报(工学版), 2021, 55(12): 2334-2341 doi: 10.3785/j.issn.1008-973X.2021.12.013

计算机技术

融合多分辨率表征的实时烟雾分割算法

王浩远,, 梁煜, 张为,

天津大学 微电子学院,天津 300072

Real-time smoke segmentation algorithm fused with multi-resolution representation

WANG Hao-yuan,, LIANG Yu, ZHANG Wei,

School of Microelectronics, Tianjin University, Tianjin 300072, China

通讯作者: 张为,男,教授. orcid.org/0000-0002-2601-3198. E-mail: tjuzhangwei@tju.edu.cn

收稿日期: 2021-01-15  

基金资助: 国家重点研发计划课题(2020YFC1522405);科技重大专项与工程(19ZXZNGX00030);应急管理部消防救援局科研计划重点攻关项目(2019XFGG20)

Received: 2021-01-15  

Fund supported: 国家重点研发计划课题(2020YFC1522405);科技重大专项与工程(19ZXZNGX00030);应急管理部消防救援局科研计划重点攻关项目(2019XFGG20)

作者简介 About authors

王浩远(1996—),男,硕士生,从事数字图像处理、模式识别研究.orcid.org/0000-0002-3002-4383.E-mail:csxueqian@tju.edu.cn , E-mail:csxueqian@tju.edu.cn

摘要

针对烟雾分割领域缺乏应用于实际监控系统的实时烟雾分割算法的现况,提出高准确率的实时烟雾分割算法. 该算法利用轻量化的多分辨率卷积模块并行提取特征图,在获得丰富语义信息的同时满足实时分割的需求. 提出烟雾前景增强模块,使得烟雾像素点融合前景增强表征、避免背景信息干扰,分割准确率得以提高. 提出残差注意力模块,从通道、空间维度增强重要特征信息,抑制无效信息. 该算法在自建数据集上平均交并比为91.27%,每张图片预测时间为39.06 ms,网络权重为74.66 MB;在公开数据集上的对比结果表明,该算法综合检测性能优于其他烟雾检测算法. 该算法分割准确率高、检测速度快且模型轻量化,可以应用于实际视频监控系统.

关键词: 计算机视觉 ; 烟雾分割 ; 多分辨率模块 ; 烟雾前景增强模块 ; 残差注意力模块

Abstract

A high-accuracy real-time smoke segmentation algorithm was proposed, aiming at the lack of a real-time smoke segmentation algorithm applied to the actual monitoring systems in the field of smoke segmentation. A lightweight multi-resolution convolution module to extract feature maps in parallel was used in the algorithm, which met the needs of real-time segmentation while obtaining rich semantic information. A smoke foreground enhancement module was proposed to enable smoke pixels to be merged with their corresponding foreground enhancement representations, while avoiding the interference of background information, thereby improving the accuracy of segmentation. A residual attention module was proposed to enhance important feature information from the two dimensions of channel and space, and suppress invalid information. The algorithm had a mean intersection over union of 91.27% on the self-built data set, the prediction time of each picture was 39.06 ms, and the network weight was 74.66 MB. Comparison results on the public data set show that the comprehensive detection performance of this algorithm is better than that of other smoke detection algorithms. The algorithm has high segmentation accuracy, fast detection speed and the model is lightweight, which can be applied to actual video surveillance systems.

Keywords: computer vision ; smoke segmentation ; multi-resolution module ; smoke foreground enhancement module ; residual attention module

PDF (1015KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王浩远, 梁煜, 张为. 融合多分辨率表征的实时烟雾分割算法. 浙江大学学报(工学版)[J], 2021, 55(12): 2334-2341 doi:10.3785/j.issn.1008-973X.2021.12.013

WANG Hao-yuan, LIANG Yu, ZHANG Wei. Real-time smoke segmentation algorithm fused with multi-resolution representation. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(12): 2334-2341 doi:10.3785/j.issn.1008-973X.2021.12.013

火灾是威胁公众财产和生命安全的灾害之一. 在火灾发生时,烟雾往往先于火焰产生,因此及时检测到烟雾对火灾的预警十分重要. 传统烟雾检测方式主要利用烟雾传感器进行探测,这种方式需要烟雾累积到一定浓度才能触发报警,不够及时,而且难以应用于开阔场景. 与传统检测方式相比,利用图像处理的方法检测烟雾具有快速响应和检测范围广的优点.

目标检测一般用边界框标记目标区域,由于烟雾形状不规则,用矩形框标记容易将烟雾与背景混淆,不利于提取烟雾的特征信息,影响检测结果. 利用语义分割的方法对烟雾图像进行逐像素分类预测可以更准确地分离烟雾区域与背景,得到烟雾区域的详细边界和位置信息. 基于手工设计规则的烟雾分割算法,大多数依赖烟雾区域的颜色信息以及纹理特征[1]. Shrivastava等[2]利用烟雾的颜色特征,用k均值分割算法分类像素点. Filonenko等[3]通过背景减除法检测场景变化,利用颜色信息预测烟雾区域,用边界粗糙度确认烟雾区域的存在,该算法利用Nvidia计算统一设备架构内核(compute unified device architecture, CUDA)提升处理速度. 这些基于手工设计规则的方法只能提取浅层特征的信息,很少利用抽象和高阶的语义信息,因此分割效果较差. 自从全卷积网络(fully convolutional networks, FCN)[4]应用于语义分割后,基于深度学习的语义分割算法极大提升了分割准确率. Yuan等[5]提出的分割网络分为粗略路径和精细路径,粗略路径用来提取全局上下文信息,精细路径用来提取细节信息,将2条路径融合进行烟雾分割. Xu等[6]提出端到端的深度显著性网络,该方法将像素级和对象级显著卷积网络结合,以提取信息丰富的烟雾显著性图,将深度特征图与显著性图结合起来预测图像中的烟雾像素点.

本研究提出融合多分辨率表征的实时烟雾分割算法. 该算法主要包括:1) 针对烟雾形状无规则,不同场景尺度差异大的特点,提出轻量化的多分辨率卷积模块,整个网络并行提取不同分辨率的特征图,在每一阶段之后将其进行融合,以获取更丰富的语义信息;2) 提出烟雾前景增强模块增强像素点特征,避免引入背景信息,有效提升烟雾分割精度;3) 针对提取的特征图含有冗余信息,提出残差注意力模块,在增强重要特征信息的同时抑制无效信息.

1. 本研究算法

1.1. 主干网络

由于烟雾形状无规则,不同场景尺度差异大,主干网络只在同一尺度上提取烟雾特征难以取得精确的分割结果. 经典主干网络如残差网络(residual network, ResNet)[7]采用串行方式提取多尺度语义信息,通常用下采样提取更深层的语义信息,同时将特征图尺寸减半. 高分辨率网络1(high-resoultion net1, HRNetv1)[8]从高分辨率子网络开始,并将其作为第1阶段,再逐步添加从高到低各个分辨率子网络,将其并行连接形成新的阶段,同时在并行子网络中引入信息融合单元,使得每个子网络可以接收其他子网络的信息进行多尺度融合. 受文献[8]的启发,本研究提出相似的多分支网络,并行级联卷积单元,同时在并行卷积模块中进行多尺度融合.融合多分辨率表征的主干网络架构如图1所示. 主干网络共有4个阶段,每个阶段由若干个多分辨率模块级联而成,每个多分辨率模块由若干个并行的卷积单元组成,具体网络参数如表1所示.

图 1

图 1   融合多分辨率表征的主干网络架构

Fig.1   Backbone network architecture fused with multi-resolution representation


表 1   主干网络参数设置

Tab.1  Backbone network parameter settings

阶段 模块数 分支数 各分支卷积单元数 各分支输出尺寸
1 1 1 $\left[ 2 \right]$ $ \left[ {224 \times 224 \times 64} \right] $
2 1 2 $\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ \end{gathered} \right]$ $\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ \end{gathered} \right]$
3 4 3 $\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ 4 \hfill \\ \end{gathered} \right]$ $\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ 56 \times 56 \times 72 \\ \end{gathered} \right]$
4 3 4 $\left[ \begin{gathered} 2 \hfill \\ 3 \hfill \\ 4 \hfill \\ 4 \hfill \\ \end{gathered} \right]$ $\left[ \begin{gathered} 224 \times 224 \times 16 \\ 112 \times 112 \times 36 \\ 56 \times 56 \times 72 \\ 28 \times 28 \times 144 \\ \end{gathered} \right]$

新窗口打开| 下载CSV


第1阶段的模块只有1个高分辨率分支,其后每个阶段的模块以并行的方式从高到低逐渐增加多分辨率分支,提取不同尺度的语义信息. 文献[8]每个模块分支的卷积单元数均为4,本研究不同分支的卷积单元数并不相同,高分辨率特征图所在的分支设置的卷积单元较少,即构建浅层的神经网络,在有效提取细节信息的同时进一步减少计算量;低分辨率特征图所在的分支设置的卷积单元较多,即构建深层的神经网络,能够有效提取全局语义信息.每个阶段之后融合不同分辨率的特征图,得到更丰富的语义信息. 融合过程包含上采样、下采样以及分辨率保持,低分辨率特征图通过双线性插值提高分辨率与高分辨率特征图进行融合,高分辨率特征图通过池化操作降低分辨率与低分辨率特征图进行融合,同一尺度的特征图通过卷积运算保持分辨率不变. 文献[8]采用标准卷积作为基本卷积单元,本研究网络采用深度可分离卷积[9]作为基本卷积单元,在保证准确率的同时提高检测速度. 对于标准卷积单元,输入尺寸为 $h \times w \times {d_i}$的特征图,应用卷积 ${\boldsymbol{K}} \in {{\bf{R}}^{k \times k \times {d_i} \times {d_j}}}$进行运算后输出尺寸为 $h \times w \times {d_j}$的特征图,其计算量为 $h w {d_i} {d_j} k k$,其中hw分别为特征图的宽和高,di为输入通道数,dj为输出通道数,k为卷积核尺寸. 对于深度可分离卷积单元,同样尺寸的特征图所需计算量为 $h w {d_i}({k^2} + {d_j})$. 当卷积核 $k = 3$时,深度可分离卷积单元的计算量约为标准卷积单元的 $1/9$,检测速度得到明显提升.

1.2. 烟雾前景增强模块

语义分割是像素级别的细粒度分类任务,为了提升分割精度,分割网络应充分提取图像的语义信息并进行特征融合,具有代表性的工作有金字塔场景解析网络(pyramid scene parsing network, PSPNet)[10]和DeepLabv3[11]. PSPNet对网络提取的特征做了4种不同尺度的池化操作后再上采样回原来尺度,最终对不同尺度的信息进行融合,但是池化过程中会损失一定的语义信息且难以恢复. DeepLabv3中空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)模块[12]通过不同采样率的空洞卷积并行提取多尺度目标特征并进行融合[13],空洞卷积能够避免损失语义信息,但是采样间隔较大时容易引入背景信息,对目标特征造成干扰.

烟雾具有半透明的特征,在光照干扰下,容易与地面、墙壁、天空等背景融在一起,使分割准确率降低. 受对象上下文表示(object-contextual representations, OCR)[14]的启发,本研究针对烟雾与背景难以区分的问题提出烟雾前景增强模块(smoke foreground enhancement module, SFEM). 1个像素与其所在的目标区域同属于1个类别,通过分析1个位置的像素点特征和目标区域特征的联系,可以建立起相应的关系表征,关系表征可以衡量像素点与目标区域的相似程度. 单个像素点特征信息不够充分,利用烟雾前景特征与前景关系表征可以得到前景增强表征,前景增强表征包含与像素点相关联的前景特征信息,将其与像素点特征级联起来能够增强单个像素点的特征表达,使对应的像素点融合更丰富的语义信息,提高该像素点的分类准确率. 对于1个烟雾像素点,利用与其对应的烟雾前景增强表征能使烟雾像素点特征融合更丰富的前景信息,避免背景信息的干扰,特征增强后的烟雾像素点与背景更容易区分开,使分割准确率提高.

图2所示,烟雾前景增强模块主要包括3个步骤.

图 2

图 2   烟雾前景增强模块

Fig.2   Smoke foreground enhancement module


1)主干网络对目标进行一次粗分割,将图像分为前景Is和背景If,利用空间softmax函数分别对IsIf进行特征归一化操作. 在训练中采用交叉熵损失函数对粗分割区域进行监督.

2)每个像素点加权聚合前景区域归一化特征得到前景区域表征:

$ {\boldsymbol{s}} = \sum\nolimits_{i \in I} {{{\tilde m}_i}{{\boldsymbol{x}}_i}} . $

式中:I为图像中所有像素点的集合,xi为每个像素点pi的特征, ${\tilde m_i}$为像素点pi的前景区域归一化特征. 计算像素点与前景的关系得到前景关系表征

$ w = \frac{{{\text{exp\;(}}\kappa ({\boldsymbol{x}},{\boldsymbol{s}}))}}{{{\text{exp\;(}}\kappa ({\boldsymbol{x}},{\boldsymbol{s}})) + {\text{exp}}\;(\kappa ({\boldsymbol{x}},{\boldsymbol{f}}))}}. $

式中:f为背景区域表征; $\kappa ({\boldsymbol{x}},{\boldsymbol{s}}) = \phi {( \cdot )^{\rm{T}}}\psi ( \cdot )$为关系函数, $\phi ( \cdot )$$\psi ( \cdot )$为转换函数,通过1×1 conv→BN→ReLU实现.

3)利用 ${\boldsymbol{s}}$w得到前景增强表征,输出为

$ {\boldsymbol{y}} = \rho (w\delta ({\boldsymbol{s}})) . $

式中: $\delta ( \cdot )$$\;\rho ( \cdot )$为转换函数,通过1×1 conv→BN→ReLU实现.

1.3. 残差注意力模块

在神经网络中,卷积运算能够融合通道和空间这2个维度提取信息特征. 随着卷积层的叠加,提取到的语义信息越来越丰富,然而这些信息与最终优化目标的关联程度不尽相同,因此本研究在网络中加入残差注意力模块(residual attention module, RAM),在通道和空间这2个维度上分析特征内部之间的关系得到注意力特征图[15],用来增强有意义的特征信息,同时抑制无效的特征信息.

特征图的每个通道包含目标某一方面的特征[16]. 为了计算通道注意力,本研究在空间维度上浓缩特征图,将每个通道的特征图通过最大池化操作和平均池化操作进行浓缩,用 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}}$表示通道最大池化特征,用 ${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}$表示通道平均池化特征. 浓缩后的2个通道特征送入共享全连接层学习权重分布,之后全连接层的输出通过元素相加的方式合并在一起,最后经过激活函数sigmoid得到通道注意力权重:

$ {{\boldsymbol{M}}_{\rm{c}}}({\boldsymbol{F}}) = \sigma ({{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}})) + {{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}))) . $

式中:σ为sigmoid激活函数; ${{\boldsymbol{W}}_0}$${{\boldsymbol{W}}_1}$为全连接层的权重, ${{\boldsymbol{W}}_0} \in {\bf{R}^{({\textit{C/r}}) \times {\textit{C}}}}$${{\boldsymbol{W}}_1} \in {\bf{R}^{\textit{C} \times \textit{C/r}}}$.

与通道注意力不同,空间注意力更关注目标某一位置的特征信息是否重要. 为了计算空间注意力,首先在通道维度上对同一位置的特征分别应用最大池化操作和平均池化操作,用 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}}$表示空间最大池化特征,用 ${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}$表示空间平均池化特征. 将 ${\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}}$${\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}$级联起来通过卷积运算学习权重分布,最后经过激活函数sigmoid得到空间注意力权重

$ {{\boldsymbol{M}}_{\rm{s}}}({\boldsymbol{F}}) = \sigma (f([{\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}};\;{\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}}])) . $

式中:σ为sigmoid激活函数,f为卷积运算.

给定输入特征图F,残差注意力模块先对其进行卷积操作,之后依次施加通道注意力权重Mc和空间注意力权重Ms后得到输出,整个流程如图3所示. 施加注意力过程如下:

$ \left. \begin{gathered} {\boldsymbol{F}}' = {{\boldsymbol{M}}_{\rm{c}}}({\boldsymbol{F}}) \otimes {\boldsymbol{F}}, \hfill \\ {\boldsymbol{F}}'' = {{\boldsymbol{M}}_{\rm{s}}}({\boldsymbol{F}}') \otimes {\boldsymbol{F}}'. \hfill \\ \end{gathered} \right\} $

式中: ${\boldsymbol{F}}'$F施加通道注意力后的结果, ${\boldsymbol{F}}''$${\boldsymbol{F}}'$施加空间注意力后的结果, $ \otimes $为元素相乘运算.

图 3

图 3   残差注意力模块

Fig.3   Residual attention module


2. 实验结果与分析

2.1. 数据集介绍与训练设置

目前烟雾分割领域尚无公开数据集,本研究按照PASCAL VOC数据集的格式建立场景丰富的烟雾分割数据集. 数据集图片来源于实验室实际拍摄视频及国家火灾重点实验室烟雾视频数据集 (http://smoke.ustc.edu.cn/datasets.htm),实验室实际拍摄视频如图4所示. 数据集包含学校、野外、车库、工厂、地铁站、超市等62个场景,共截取8 000帧图片进行手工标注,其中训练集6 000张,测试集2 000张.

图 4

图 4   实验室的拍摄视频数据

Fig.4   Video data of laboratory


本研究提出的烟雾分割网络基于Pytorch框架实现. 网络模型在CPU为Intel(R) Xeon(R) W-2102 CPU@2.90 GHz,GPU为GeForce RTX 2080 Ti的服务器上进行训练. 网络参数的更新策略采用带有动量的随机梯度下降法,动量为0.9,初始学习率设置为0.005,衰减权重为0.0005,批处理个数为8,训练轮数设为400. 其中学习率的更新采用Ploy策略,即随着迭代次数增加,学习率逐渐衰减.

2.2. 与经典语义分割网络对比

为了验证本研究算法的有效性,将其与经典语义分割网络FCN[4],PSPNet[10],DeepLabV3[11],DeepLabV3+[17]在本研究数据集上进行对比实验,所有算法均采用相同的训练设置.

2.2.1. 定性分析

本研究选取多种尺度,多种环境背景,不同光照条件下的烟雾图片进行测试. 如图5所示为本研究算法与经典语义分割网络在测试集上的部分分割结果. 可以看出,本研究算法能够在各种复杂场景下对烟雾进行准确分割,说明该算法能够有效提取烟雾的多尺度特征,且能够克服光照等外界干扰,具有较强的鲁棒性.

图 5

图 5   经典语义分割网络与本研究算法定性比较

Fig.5   Qualitative comparison between representative semantic segmentation network and proposed algorithm


2.2.2. 定量比较

实验结果采用语义分割的常用指标平均交并比(mean intersection over union, mIoU)作为评价标准,对比还采用单张图片检测时间和权重大小这2个指标,用以分析算法的综合性能,结果如表2所示. 表中,T为单张图片检测时间,P为权重.

表 2   经典语义分割网络与本研究算法的分割结果对比

Tab.2  Comparison of segmentation results between representative semantic segmentation network and proposed algorithm

算法 mIoU/% T/ms P/MB
FCN 88.91 60.61 434.11
PSPNet 89.86 56.82 385.13
DeepLabV3 90.92 86.21 534.14
DeepLabV3+ 91.95 63.69 344.12
本研究 91.27 39.06 74.66

新窗口打开| 下载CSV


FCN和PSPNet通过池化操作减小特征图尺寸的同时增大感受野,再通过上采样将特征图恢复到输入图像大小进行逐像素预测,在池化过程中会损失一些语义信息,因此最终分割效果相对较差. DeepLabV3及DeepLabV3+采用ASPP模块进行多尺度特征融合,在利用空洞卷积扩大感受野时会引入背景信息,干扰烟雾特征的提取,在一定程度上影响分割效果. 本研究算法主干网络能够提取多尺度特征,烟雾前景增强模块进一步提高分割精度,因此具有很好的分割效果,卷积单元采用轻量化的深度可分离卷积模块,大大减少网络的参数量. 其他算法的主干网络均采用ResNet50,参数量较多,模型较大,难以应用于实际监控系统中.

表2可以看出,本研究算法综合性能最好,其分割精度仅次于DeepLabV3+,网络权重为74.66 MB,同时检测速度为25.60帧/s。因此本研究算法能够满足实时检测的需求,可以应用于实际烟雾检测任务.

2.3. 与其他烟雾检测算法对比

为了进一步验证本研究算法对于烟雾检测的有效性,在公开数据集上对算法进行验证,烟雾视频来自于Bilkent大学的数据集( http://signal.ee.bilkent.edu.tr//VisiFire/Demo/SampleClips.html),数据集描述见表3,部分检测结果如图6所示.

表 3   公开数据集描述

Tab.3  Description of public data set

视频名称 视频描述 视频帧数/帧
sBehindtheFence 距离远、场景复杂 630
sBtFence 距离远、场景复杂 1400
sMoky 烟雾稀薄、快速运动 900
sWasteBasket 室内、有干扰(白墙) 900
sWindow 室外、运动缓慢 244

新窗口打开| 下载CSV


图 6

图 6   公开数据集部分检测结果

Fig.6   Part of test results of public data set


将本文算法与文献[18]~[20]的3种烟雾检测算法进行对比,评价指标采用真正率TPR (true positive rate)和真负率TNR (true negative rate),结果如表4所示.

表 4   现有烟雾检测算法与本研究算法的检测结果对比

Tab.4  Comparison of detection results between existing smoke detection algorithms and proposed algorithm %

视频名称 本研究算法 文献[20] 文献[19] 文献[18]
RTPR RTNR RTPR RTNR RTPR RTNR RTPR RTNR
sBehindtheFence 98.64 100.00 98.26 94.60 97.20 96.27 94.72 100.00
sBtFence 98.81 100.00 98.20 100.00 98.17 100.00 99.08 100.00
sMoky 98.27 100.00 98.85 100.00 99.68 100.00 86.23 100.00
sWasteBasket 99.50 96.84 99.41 100.00 97.18 98.36 99.89 92.60
sWindow 98.46 97.87 98.40 100.00 98.10 100.00 94.30 100.00

新窗口打开| 下载CSV


根据实验结果可知,本研究算法在公开视频数据集上取得了最高的平均真正率百分比RTPR、真负率百分比RTNR. 文献[18]利用颜色特征进行烟雾检测,虽然在多个视频上取得了最高的RTPR,但是在sMoky视频中检测结果很差,说明该算法容易受到外部环境(如光照)的影响,不具备很强的鲁棒性. 文献[19]利用烟雾的纹理特征进行检测,虽然不易受到外界光照的干扰,但是难以充分提取烟雾的深层特征,因此整体性能不如基于神经网络的深度学习算法. 文献[20]改进DeepLabV3进行烟雾检测,与文献[20]相比,本研究算法避免引入背景干扰信息,因此检测效果和鲁棒性更好.

2.4. 消融实验

为了分析本研究算法各部分的贡献,进行消融实验. 消融实验的对象包括主干网络、烟雾前景增强模块和残差注意力模块,结果如表5所示。图中,Ours1为基准网络,Ours2为基准网络加入烟雾前景增强模块,“√”表示选择该模块,“−”表示未选择该模块.

表 5   消融实验结果

Tab.5  Ablation experiment results

算法 烟雾前景增强模块 残差注意力模块 mIoU/% T/ms P/MB
文献[8] 91.84 47.63 93.24
Ours1 89.45 34.80 60.00
Ours2 90.83 38.52 73.24
本研究 91.27 39.06 74.66

新窗口打开| 下载CSV


设计与文献[8]的对比实验,以验证主干网络对检测性能的提升。公平起见,在文献[8]的网络中加入本研究的烟雾前景增强模块和残差注意力模块. 从表5的对比结果可见,本研究算法在保证分割准确率的前提下,提高检测速度同时网络更加轻量化,相比于文献[8]综合性能更好.

烟雾前景增强模块通过对烟雾前景进行粗分割生成前景关系表征来提高分割精度. 为了证明该模块对网络分割精度的提升,将该模块替换为由2个卷积单元组成的全卷积网络模块,实验结果如表5所示. 可以看出,烟雾前景增强模块将分割精度从89.45%提升到90.83%,提升1.38%.

残差注意力模块能够增强特征图中重要的语义信息并抑制不重要的语义信息. 该模块可以方便地嵌入任何卷积单元中,从表5可以看出,没有添加残差注意力模块的网络分割精度为90.83%,添加残差注意力模块的网络分割精度提高到91.27%,提升0.44%.

消融实验的结果如图7所示。可以看出,最终的分割网络比去除烟雾前景增强模块和残差注意力模块的网络分割精度高,说明本研究所提出的模块能够有效提升主干网络的分割精度.

图 7

图 7   消融实验结果定性比较

Fig.7   Qualitative comparison of ablation experiment results


3. 结 语

提出融合多分辨率表征的实时烟雾分割算法,通过并行提取多分辨率特征图充分获取语义信息,同时基本卷积单元采用深度可分离卷积,保证实时分割的需要;提出的烟雾前景增强模块和残差注意力模块能够有效提升分割精度. 实验结果表明,相比于经典分割网络算法,本研究算法分割准确率高,处理速度快,而且网络权重更小;在公开数据集上,本研究算法检测效果优于其他烟雾检测算法. 由于实际场景复杂多变,下一步研究内容考虑丰富现有的烟雾数据集,加入更多不同场景和不同形态的烟雾图片,使算法具有更强的鲁棒性.

参考文献

TAO C, ZHANG J, WANG P. Smoke detection based on deep convolutional neural networks [C]// 2016 International Conference on Industrial Informatics-Computing Technology, Intelligent Technology, Industrial Information Integration. Wuhan: IEEE, 2016: 150-153.

[本文引用: 1]

SHRIVASTAVA M, MATLANI P. A smoke detection algorithm based on K-means segmentation [C]// 2016 International Conference on Audio, Language and Image Processing. Shanghai: IEEE, 2016: 301-305.

[本文引用: 1]

FILONENKO A, HERNÁNDEZ D C, JO K H

Fast smoke detection for video surveillance using CUDA

[J]. IEEE Transactions on Industrial Informatics, 2017, 14 (2): 725- 733

URL     [本文引用: 1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[本文引用: 2]

YUAN F, ZHANG L, XIA X, et al

Deep smoke segmentation

[J]. Neurocomputing, 2019, 357: 248- 260

DOI:10.1016/j.neucom.2019.05.011      [本文引用: 1]

XU G, ZHANG Y, ZHANG Q, et al

Video smoke detection based on deep saliency network

[J]. Fire Safety Journal, 2019, 105: 277- 285

DOI:10.1016/j.firesaf.2019.03.004      [本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5693-5703.

[本文引用: 8]

HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2020-11-16]. https://arxiv.org/pdf/1704.04861.pdf.

[本文引用: 1]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[本文引用: 2]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2020-12-10]. https://arxiv.org/pdf/1706.05587.pdf.

[本文引用: 2]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 834- 848

DOI:10.1109/TPAMI.2017.2699184      [本文引用: 1]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824      [本文引用: 1]

YUAN Y, CHEN X, WANG J, et. Object-contextual representations for semantic segmentation[C]// Computer Vision-ECCV 2020. [S.l.]: Springer, 2020: 173-190.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3-19.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[本文引用: 1]

BESBES O, BENAZZA-BENYAHIA A. A Novel video-based smoke detection method based on color invariants [C]// 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai: IEEE, 2016: 1911-1915.

[本文引用: 3]

赵敏, 张为, 王鑫, 等

时空背景模型下结合多种纹理特征的烟雾检测

[J]. 西安交通大学学报, 2018, 52 (8): 67- 73

URL     [本文引用: 2]

ZHAO Min, ZHANG Wei, Wang Xin, et al

A smoke detection algorithm with multi-texture feature exploration under a spatio-temporal background model

[J]. Journal of Xi’an Jiaotong University, 2018, 52 (8): 67- 73

URL     [本文引用: 2]

汪梓艺, 苏育挺, 刘艳艳, 等

一种改进DeeplabV3网络的烟雾分割算法

[J]. 西安电子科技大学学报, 2019, 46 (6): 52- 59

URL     [本文引用: 4]

WANG Zi-yi, SU Yu-ting, LIU Yan-yan, et al

Algorithm for segmentation of smoke using the improved DeeplabV3 network

[J]. Journal of Xidian University, 2019, 46 (6): 52- 59

URL     [本文引用: 4]

/