基于半监督学习的多场景火灾小规模稀薄烟雾检测
Small-scale sparse smoke detection in multiple fire scenarios based on semi-supervised learning
通讯作者:
收稿日期: 2024-02-3
基金资助: |
|
Received: 2024-02-3
Fund supported: | 福建省自然科学基金资助项目(2023J011439,2019J01859). |
作者简介 About authors
杨凯博(2000—),硕士生,从事机器视觉和智能消防研究.orcid.org/0009-0002-7707-0288.E-mail:
为了探索高性能的轻量级火灾烟雾检测算法,构建了包含9种火灾场景、3个烟雾类型的图像集MSIFSD,设计了深度卷积神经网络DeepSmoke. 针对小规模稀薄烟雾检测困难的问题,提出高效特征聚合模块PM-C2f和部分混合最相关区域自注意力机制模块PM-TF,PM-C2f模块用来整合各层次图像特征的上下文信息,PM-TF模块用于强化小规模稀薄烟雾的稀疏特征. 针对DeepSmoke在不同场景下适应性不足的问题,提出使用伪标签分类器的半监督训练策略,利用大量未标注数据辅助模型训练,提升多类场景下的检测性能. 实验结果表明,该算法针对小规模、稀薄烟雾和普通烟雾的检测准确率分别为88.2%、90.0%和98.3%,综合平均检测准确率为94.2%,均优于现有主流算法,且浮点运算量仅为9.3×109,体现了对边缘设备的友好性.
关键词:
A dataset named MSIFSD, which contained 9 types of fire scenes and 3 types of smoke, was constructed to explore a lightweight fire smoke detection algorithm with good performance. Additionally, a deep convolutional neural network named DeepSmoke was developed. To address the challenge of detecting small-scale and sparse smoke, an efficient feature aggregation module called PM-C2f was proposed and incorporated with a partial mixed-relevance region self-attention mechanism module called PM-TF. The PM-C2f module was utilized to integrate contextual information from various levels of image features, while the PM-TF module was used to strengthen the sparse features of small-scale and sparse smoke. A semi-supervised training strategy using a pseudo-label classifier was proposed to address the issue of DeepSmoke’s insufficient adaptability across different scenarios. A large amount of unlabeled data were leveraged to assist model training and improve the detection performance across multiple scene types. Experimental results demonstrated that the proposed algorithm achieved the detection accuracies of 88.2%, 90.0%, and 98.3% for small-scale, sparse, and general smoke, respectively. The average comprehensive detection accuracy was 94.2%, outperforming the existing mainstream algorithms. And the floating-point operation was 9.3×109, reflecting the friendliness to edge devices.
Keywords:
本文引用格式
杨凯博, 钟铭恩, 谭佳威, 邓智颖, 周梦丽, 肖子佶.
YANG Kaibo, ZHONG Mingen, TAN Jiawei, DENG Zhiying, ZHOU Mengli, XIAO Ziji.
随着深度学习技术的不断发展,针对黑色浓烟的检测研究已经取得了良好进展. 这些研究主要侧重2个方面:一是算法的检测准确率,二是算法的轻量化以能够灵活部署于无人机之类的边缘设备上. 针对算法的检测准确率,马庆禄等[3]通过在YOLOv5s中引入注意力机制,提高了算法在公路隧道场景下的检测精度,但采用的数据集内多为中后期火灾烟雾图像,其算法对早期火灾烟雾的检测准确率还有待考量;谢康康等[4]通过改进YOLOv7的骨干网络并在训练阶段采用Mosaic数据增强,降低了算法在动态场景下的漏检率,但使用的自建数据集规模较小,算法在多场景下的适应性还有待提升;王晨灿等[5]在YOLOv8n的基础上增加一个更小的目标检测层,提高了算法对小规模烟雾的检测精度,但算法没有考虑到稀薄烟雾的检测,针对早期火灾的预警工作还有待进一步提升. 针对算法的轻量化,Huo等[6]提出基于深度可分离卷积的单场景烟雾检测算法,有效降低了模型复杂度,但深度可分离卷积是在二维平面内进行的,难以充分利用通道间相同空间位置上的特征信息;Wang等[7]通过改进YOLOv4算法结构,实现了对视频烟雾的实时检测,但改进后的结构特征提取效率下降,算法结构还可进一步完善;金程拓等[8]提出轻量化的YOLOX算法,改善了模型在嵌入式设备下实时性差的问题,但算法定位准确性还可进一步提升. 总的来说,小规模稀薄烟雾与上述研究中的黑色浓烟图像特征存在着显著差别,因此上述算法对火灾初期烟雾的检测性能和对应的算法轻量化处理方法尚欠佳.
针对上述问题,本研究将火灾烟雾图像分为小规模烟雾、稀薄烟雾和其他易检测烟雾3种类型,从9种典型火灾场景中收集并构建了一个多场景火灾烟雾图像集(multi scenario initial fire smoke dataset, MSIFSD),为算法研究创建数据条件. 基于半监督学习策略给出在不同场景下针对3种类别的火灾烟雾都具有良好检测性能且相对轻量的算法模型DeepSmoke_SST. 主要创新工作体现在:1)提出部分混合卷积PMConv,以此为基础设计新型残差结构PM-B (partial mix bottleneck)并嵌入到基础特征提取模块中,减少了网络层间信息融合时的冗余计算;2)以PM-B为基础构造轻量化的特征聚合网络模块PM-C2f (partial mix convolution 2 fully connected),在颈部网络中高效整合各层次特征的上下文信息并抑制干扰;3)以自主提出的最相关区域自注意力机制TF为基础,结合PM-B,构建部分混合自注意力机制模块PM-TF (partial mix top former),以强化火灾初期小规模稀薄烟雾的图像特征;4)设计伪标签分类器(pseudo label classifier, PLC),对伪标签的质量进行动态评估,据此针对性地设计不同损失函数,提升半监督学习效率.
1. 算法设计
整体算法由用于实现烟雾检测功能的深度卷积神经网络和用于网络权重参数训练的半监督学习策略2部分组成.
1.1. 基础网络模型
1.1.1. 总体网络结构
所构建的火灾烟雾检测网络DeepSmoke的具体结构如图1所示,由用于提取图像特征的基础骨干网络Backbone、用于实现图像特征深度融合的颈部网络Neck和用于实现烟雾目标检测的Head三大部分组成. 其中,骨干网络的核心部分由CBS模块和自主设计的特征聚合模块PM-C2f组成,并且重复堆叠了4次,以提取出图中b1、b2、b3、b4位置的4个不同深度和尺度的基础特征. 颈部网络总体借鉴了特征金字塔网络(feature pyramid network, FPN)[18]和路径聚合网络(path aggregation network, PAN)[19]的架构,并使用快速空间金字塔池化(spatial pyramid pooling fast, SPPF)[20]和自主设计的部分混合最相关区域自注意力模块PM-TF. 在DeepSmoke中引入FPN有利于将烟雾图像的深层语义特征传递到浅层,达到增强多尺度语义表达的目的;引入PAN能够将浅层位置信息传递至深层,获得更强的目标定位能力. SPPF能够有效融合不同尺度特征,扩大烟雾目标检测的感受野. PM-TF将最相关区域注意力应用于PM-C2f上,起到增强小规模稀薄烟雾特征和降低背景干扰的作用. 通过这些模块,颈部网络最终输出4个不同尺寸的特征图,用以检测不同大小的烟雾目标.
图 1
1.1.2. 高效特征聚合模块PM-C2f
传统特征聚合模块C2f [21]通过堆叠多个Bottleneck结构融合上下文残差特征,以充分学习不同维度的特征信息,但这不可避免会造成通道信息的过度冗余,进而导致运算量过大. 针对该问题,设计更为轻量化的残差结构PM-B替换C2f中的Bottleneck,得到更为高效的特征聚合模块PM-C2f. 其关键在于采用部分混合卷积PMConv来降低冗余计算. PMConv的原理如图2所示,是在部分卷积PConv[22]的基础上改进获得的一种新型卷积. PConv通常用于减少残差网络中多个通道携带相同或相似信息的冗余计算,具体过程如下:首先将输入特征采样为2部分,一部分直接前向传输以保留原始梯度信息,另一部分经过卷积运算获得深层梯度信息,然后将两者直接进行拼接. 虽然此方法有效提升了运算效率,但实验发现这种仅对部分通道进行计算的做法会导致未参与计算的层间信息缺乏交互,从而影响信息融合的效果. 针对该不足,在PConv的基础上进一步采用核大小为1×1的卷积对原始输入特征和中间滤波特征进行错层运算,这样相较于普通卷积既能降低计算量又能提取出更丰富的梯度流.
图 2
1.1.3. 部分混合最相关区域自注意力模块PM-TF
火灾初期的小规模稀薄烟雾在视频图像中一般具有像素比例小、特征模糊的特点,导致提取出的烟雾特征容易被背景特征所淹没,造成算法漏检. 通常采用注意力机制来提高算法对此类稀疏特征的敏感度以解决该问题,其中全局注意力机制(global attention mechanism, GAM)[23]被证明是一种相对有效的方法,但会带来巨大的计算负担. 为此,提出仅计算最相关区域且对小规模稀薄烟雾敏感的最相关区域自注意力机制(top former mechanism, TFM),如图3所示. 不同于常规注意力机制直接对整幅图像进行运算,TF首先对图像进行局部区域窗口划分,然后分别计算注意力关联权重,据此收集前k个最相关窗口的键值对,跳过其他窗口的计算,实现选择性学习输入特征的目的. 这种运算机制既能减少自注意力计算中的冗余运算又能有效滤除小规模稀薄烟雾图像中广泛存在的干扰信息,提升算法对这2类特殊烟雾的检测性能.
图 3
基于部分混合卷积PMConv和最相关区域自注意力机制TFM,构建即插即用的部分混合最相关区域自注意力模块PM-TF,以强化小规模稀薄烟雾的图像特征,具体结构如图4所示,其中c=i、c=o分别表示此时的特征通道数等于预设的输入、输出通道数. 在PM-TF主干上首先使用CBS来改变输入特征图的通道数,其次,将调整通道后的特征图同时传入图4的中间和右侧2个主分支,并通过中间分支进一步衍生出左侧的2个分支,最后将4个分支进行Concat拼接融合,传入CBS进行通道调整后输出. 其并未对所有支路的特征图进行TFM自注意力运算,这种间隔注意力策略可以避免特征图中的重要信息被过度突显而掩盖次重要信息,并且有效控制了运算量.
图 4
1.1.4. 训练损失计算
DeepSmoke火灾烟雾检测网络的损失函数由回归框损失
CIOU综合考虑了预测框
式中:
结合以上计算方法,当背景噪声过大导致烟雾预测框和真实框不相交时,CIOU也能够体现两者的距离远近以及重合度.
1.2. 半监督学习策略
在过去的烟雾检测研究中,基本都采用全监督方式来训练网络模型. 为了获得高检测精度和强适应性的模型,须提前制备大规模多样性的标注数据集. 为了减少对标注数据集的依赖,提出半监督学习策略(semi supervised training, SST),利用大量未标注图像生成伪标签来训练模型,以提升模型针对不同场景火灾烟雾的检测性能.
1.2.1. 整体训练方案
半监督学习框架一般包含教师Teacher和学生Student这2个已经过预训练的模型. 教师模型从未标注的图像样本中自动生成标注信息,据此构建出用于学生模型训练所需的标注样本. 这些标注信息并不一定准确,因此将其称为伪标签. 在启用半监督学习策略后,首先将经过数据增强后的未标注图像传入教师模型DeepSmoke-T,生成烟雾图像伪标签;然后利用伪标签分类器PLC进行噪声评估和分类,自动将评分较高的伪标签制作成训练样本用来辅助训练学生模型DeepSmoke-S;接着结合已标注样本和对应的2类伪标签训练样本再结合预设的权重参数分别计算对应的损失函数,据此更新学生模型;最后再以学生模型为基础通过指数移动平均算法(exponential moving average, EMA)[24]对教师模型进行权值更新. 如此反复循环,直至达到预设训练轮次或总训练损失不再明显降低为止,具体结构如图5所示.
图 5
1.2.2. 伪标签分类器原理
与其他目标检测任务不同,在烟雾检测任务中,干扰目标相对单一,多为云朵、水汽、雾霾等与烟雾相似的目标,这为伪标签分类工作带来了研究方向. 为此,在半监督训练过程中,对生成的烟雾伪标签进行统计分类,发现训练初期置信度较低的伪标签多为上述类烟雾目标,称其为噪声伪标签(noise pseudo label, NPL);置信度中等的伪标签通常为检测框位置偏移过大的小规模和稀薄烟雾目标,称其为偏移伪标签(offset pseudo label, OPL);对于其余高置信度的伪标签,则将其统称为可靠伪标签(reliable pseudo label, RPL). 其中,噪声伪标签的置信度会随着训练迭代次数的增加而逐渐增加,最终导致被误检为火灾烟雾,而偏移标签会降低小规模稀薄烟雾检测的位置准确性. 为此,提出伪标签分类器PLC来对伪标签进行细分,即首先采用非极大值抑制(non maximun suppression, NMS)来滤选所有伪标签,然后基于其置信度C和预设阈值th1和th2的大小关系进一步将伪标签划分为NPL、OPL和RPL这3类,划分细节如图5右上角所示. 最后分别计算对应损失,其中,对于可靠伪标签,计算其回归框损失和目标置信度损失,对于偏移伪标签,仅计算其目标置信度损失,而噪声伪标签则直接丢弃.
如图6所示展示了2张包含烟雾相似干扰的图像案例,并用热力图呈现了网络特征提取的情况. 可以观察到,无论是否使用PLC,算法都能关注到烟雾区域的特征,但不使用PLC时这种关注也被分散到了天空中的云朵和雾霾这类干扰上,而使用PLC后热力图更加集中并主要聚焦在烟雾区域上,且偏移量更小. 本研究侧重的是早期火灾,此时可能还未产生明显火焰,因此算法的关注区域并不位于火焰区域.
图 6
1.2.3. 损失函数
半监督训练的损失函数由式(1)中的有监督损失Ls和无监督损失Lu两部分组成. 有监督损失主要起参数纠正作用,防止无监督训练误差过大而导致参数突变,影响模型正常训练. 无监督损失则直接影响着半监督阶段的训练效果,应赋予较高的损失权重. 最终,本研究将权重平衡因子λ设置为2.5.
与Ls类似,无监督损失Lu同样由回归框损失
无监督学习的回归框损失的表达式如下:
式中:
目标置信度损失表达式如下:
当伪标签置信度
2. 实验与分析
2.1. 数据集
早期研究使用的数据集主要采样于CVPR-KMU实验室公开的4段火灾烟雾视频[25]和Yuan等[26]公开的3段火灾烟雾视频,因此数据集中的火灾场景相对单一且小规模稀薄烟雾图像样本较少,这限制了算法在不同场景下的适应性和对小规模稀薄烟雾的检测能力. 近期,Pedro等[27]在GitHub上公开了包含
图 7
图 7 部分常见场景火灾烟雾图像举例
Fig.7 Examples of fire smoke sample images for some scenarios
表 1 MSIFSD数据集中的场景类别及具体数量
Tab.1
数据集 | N | |||||||||
住宅 | 工厂 | 仓库 | 学校 | 森林 | 农场 | 村庄 | 交通 | 停车场 | 总数 | |
Hard_1 | 857 | 865 | 811 | 896 | 923 | 849 | 796 | 314 | 657 | |
Hard_2 | 733 | 415 | 933 | 709 | 699 | 328 | 500 | |||
Easy | 818 | 906 | 390 | 798 | 358 | 672 | 488 | 968 | ||
总数 |
2.2. 实验条件
实验的运行环境为64位Windows10系统,GPU 驱动为 CUDA10.1与CUDNN7.6;硬件采用NVIDIA GeForce RTX
在进行模型训练时,检测到Loss值不再明显下降或训练轮次达到预设的400轮则停止训练. 半监督训练的前100轮为模型预训练阶段,在后300轮才使用未标注图像,开启半监督模式. 除了最后的对比实验使用D-Fire数据集进行测试外,实验使用的数据集皆为MSIFSD,按照train∶val∶test为8∶1∶1的比例进行. 此外,采用Adam优化器,设置初始学习率为0.001,权重衰减率为
2.3. 评价指标
在火灾烟雾检测任务中,实验选用4个指标对模型进行评估:召回率R、平均精度(average precision, AP)、浮点运算次数(floating point of operations, FLOPs)和每秒传输帧数(frames per second, FPS). 其中,R与AP用于评估算法精度. 表达式如下:
式中:TP为真阳性,即算法正确检测出的目标数量;FP为假阳性,即误检目标的数量;FN为假阴性,即未被检测出的目标数量;P(R)表示在召回率为R时的精度.
2.4. DeepSmoke基础网络实验
2.4.1. 残差模块对比实验
表 2 使用不同残差模块的实验结果
Tab.2
残差类型 | AP/% | R/% | FLOPs/109 |
Bottleneck | 92.1 | 85.6 | 10.4 |
P-B | 90.8 | 84.3 | 9.2 |
PM-B | 92.0 | 85.6 | 9.3 |
图 8
2.4.2. 不同注意力机制对比实验
为了验证TFM的有效性,将网络中所有的TFM移除并依次替换为:通道注意力机制(channel attention mechanism, CAM)[28]、通道-空间注意力机制(convolutional block attention module, CBAM)[29]和全局注意力机制GAM这3种典型的注意力机制进行对比实验,结果如表3所示. 可以看出:1)在不引入注意力机制时,模型的AP和R在4种烟雾集下均为最低值. 2)在引入CAM、CBAM、GAM这3种经典注意力机制后,模型的AP和R在4种烟雾集下均有不同程度的提升,且在Easy集下的提升效果最为明显. 3)在引入本研究提出的TFM后,模型的AP和R在4种烟雾集下都达到了当前最佳. 与次优的GAM组进行对比后发现,在Easy烟雾集下,2组实验的AP和R相差相对较小,均小于0.1%;在Hard_1烟雾集下,2组实验的AP和R的差异为0.9%、0.9%;在Hard_2烟雾集下,2组实验的AP和R的差异为0.9%、0.8%. 相较而言,TFM在Hard_1与Hard_2烟雾集下带来的指标差异更为明显. 这证明了TFM仅计算最相关区域的运算机制对小规模稀薄烟雾的检测是更为有效的;4)在保证精度最佳的前提下,TFM带来的计算开销相对较小,相较于无注意力机制的对照组仅增加0.8×109,最终为9.3×109.
表 3 使用不同注意力机制的实验结果
Tab.3
注意力机制类型 | Easy | Hard_1 | Hard_2 | MSIFSD | FLOPs/109 | |||||||
AP/% | R/% | AP/% | R/% | AP/% | R/% | AP/% | R/% | |||||
无 | 95.0 | 88.2 | 84.9 | 79.0 | 86.2 | 80.7 | 90.6 | 83.7 | 8.5 | |||
CAM | 95.5 | 89.4 | 85.1 | 79.5 | 86.6 | 81.4 | 90.9 | 84.5 | 9.7 | |||
CBAM | 96.1 | 89.5 | 85.3 | 79.8 | 86.8 | 81.6 | 91.2 | 84.7 | 10.7 | |||
GAM | 96.2 | 89.6 | 85.5 | 80.1 | 86.9 | 81.5 | 91.3 | 85.1 | 10.3 | |||
TFM | 96.3 | 89.6 | 86.4 | 81.0 | 87.8 | 82.3 | 92.0 | 85.6 | 9.3 |
2.4.3. PM-TF结构方案实验
图 9
图 9 不同最相关区域注意力特征提取模块结构对比
Fig.9 Comparison of structure of different most relevant region attention feature extraction modules
把DeepSmoke网络中的所有PM-TF模块分别替换成PM-C2f和图9中的simPM-TF和PM-2TF进行实验对比,结果如表4所示. 可以看出:1)在采用未引入注意力机制的PM-C2f时,AP和R分别为最低值90.6%和83.7%,这反向证明引入TFM注意力机制确实能够提升火灾烟雾检测模型DeepSmoke的综合性能;2)在模型的注意力分支中去掉CBS模块后,无论是simPM-TF还是PM-2TF的AP和R指标,相比于本研究采用的PM-TF的均有所下降,表明CBS模块在促进网络信息流动方面发挥了重要作用,能够有效地传递和提取来自上层的特征信息,进而提升检测精度;3)采用2个TFM模块级联的PM-2TF并未带来更高的指标提升,反而增加了网络的浮点运算量至最高的9.9×109,表明多个TFM最相关区域自注意力机制模块级联会使算法过度选择部分重要特征学习,导致网络丢失其他次重要通道的特征信息,进而致使网络特征提取效果下降,精度降低;4)本研究设计采用的PM-TF相比其他3种候选结构能够帮助DeepSmoke模型取得最高的AP和R,分别为92.0%和85.6%,且最终的浮点运算量FLOPs仅为9.3×109,表明这种结构是合理和有效的.
表 4 不同特征提取模块性能对比
Tab.4
模块类型 | AP/% | R/% | FLOPs/109 |
PM-C2f | 90.6 | 83.7 | 8.5 |
simPM-TF | 91.5 | 85.0 | 9.2 |
PM-2TF | 91.1 | 84.9 | 9.9 |
PM-TF | 92.0 | 85.6 | 9.3 |
2.4.4. PM-TF消融实验
PM-TF在提升网络性能的时候带来的一个问题是增大了计算量. 考虑到浅层网络中语义特征较弱,而PM-TF仅对最相关区域进行自注意力运算,因此本研究未在特征提取骨干网络Backbone中过早引入PM-TF,而是在如图1所示的p1~p4位置即Neck环节最终输出的4个尺度特征的融合位置引入. 如表5所示给出了在各个不同位置引入PM-TF的网络综合性能,其中“×”表示该位置采用的是不包含注意力机制的PM-C2f,“√”表示该位置采用了使用注意力机制的PM-TF.实验结果表明:1)在各个位置引入PM-TF都能够提高模型的平均检测精度AP,且在输出特征规模越大的位置引入带来的提升越多;2)当在p1~p4位置都引入PM-TF后,模型能达到最高AP和R,分别为92.0%和85.6%;3)模型的浮点运算量仅增加了0.8×109,相对较小.
表 5 PM-TF消融实验结果
Tab.5
p1 | p2 | p3 | p4 | AP/% | R/% | FLOPs/109 |
× | × | × | × | 90.6 | 83.7 | 8.5 |
√ | × | × | × | 91.2 | 85.0 | 8.7 |
× | √ | × | × | 91.0 | 83.9 | 8.7 |
× | × | √ | × | 90.9 | 84.0 | 8.7 |
× | × | × | √ | 90.8 | 83.9 | 8.7 |
√ | √ | √ | √ | 92.0 | 85.6 | 9.3 |
2.5. 半监督学习策略性能实验
图 10
图 10 全监督与半监督学习策略的AP变化曲线对比
Fig.10 Comparison of AP variation curves between supervised and semi-supervised learning strategies
表 6 不同学习策略时DeepSmoke模型的性能对比
Tab.6
SST | PLC | AP/% | R/% |
× | × | 92.0 | 85.6 |
√ | × | 93.6 | 87.3 |
√ | √ | 94.2 | 87.6 |
由图10可以看出,由于DeepSmoke_SST在前100个Epoch内均处于预训练状态,因此与DeepSmoke的曲线基本一致,在第100个Epoch时仍基本交于一点,但在100个Epoch之后,DeepSmoke的AP增长速率变缓,而半监督模式下的DeepSmoke_SST由于引入了未标注样本,AP的提升速率相对较高.
由表6可以看出:1)在采用了半监督学习策略但不使用伪标签分类器PLC时,DeepSmoke的AP和R分别提高至93.6%和87.3%,表明利用未标注样本进行的半监督学习策略确实能够提升该模型的检测性能;2)当进一步采用了伪标签分类器PLC后,模型的AP和R分别达到了94.2%和87.6%,验证了本研究所提出的伪标签分类器确实能够提升模型的检测精度.
2.6. 不同模型的对比实验
为了验证本研究算法的先进性,将其与现有主流算法在MSIFSD数据集上进行训练和对比实验. 此外,为了分析算法模型的适应能力,还在公开数据集D-Fire上进行测试,结果如表7所示. 须指出的是,为了保证公平性,其中的对比算法YOLOv5和YOLOv8选用了n、s、l、x版本中参数量差距最小的n版本. 可以看出:1)在所有的全监督算法中,DeepSmoke的AP和R在5种烟雾集下都达到了当前最佳值,相比于次优的YOLOv8n算法,对于易检测烟雾集,AP和R分别提高了1.3个百分点、1.2个百分点. 对于小规模烟雾集,AP和R分别提高2.1个百分点、4.4个百分点. 对于稀薄烟雾集,AP和R分别提高3.7个百分点、4.0个百分点. 对于2类特殊烟雾情况的精度提升更为明显,说明本研究设计的PM-TF模块能够有效提取图像中的稀疏特征,进而增强算法对早期烟雾的检测能力. 2)以DeepSmoke为基础模型进行半监督训练,算法在5种烟雾集下都有不同程度的提升. 须指出的是,在未经过D-Fire数据集训练的情况下,除了DeepSmoke_SST之外的其余算法在该数据集上的测试指标都略显不足,但DeepSmoke_SST相较于未经过半监督训练的DeepSmoke,AP和R却分别提高4.3个百分点和4.2个百分点,较为显著,说明半监督训练下网络能够从未标注图像中学习到更多的场景信息,提升模型在训练场景下的检测精度和适应能力;3)最终DeepSmoke_SST模型的FLOPS相较于YOLOv8n算法仅增加1.1×109即最终为9.3×109,在实验设备上的每秒传输帧数为85.3,可以部署于边缘设备且满足实时性需求.
表 7 不同烟雾集下各个模型的性能对比
Tab.7
算法 | Easy | Hard_1 | Hard_2 | MSIFSD | D-Fire | FLOPs/109 | FPS | |||||||||
AP/% | R/% | AP/% | R/% | AP/% | R/% | AP/% | R/% | AP/% | R/% | |||||||
Faster R-CNN[30] | 83.6 | 73.2 | 73.6 | 65.7 | 77.1 | 68.7 | 79.1 | 69.3 | 73.2 | 62.9 | 40.3 | 25.3 | ||||
SSD[31] | 75.4 | 62.8 | 67.3 | 57.7 | 68.2 | 58.4 | 71.3 | 59.4 | 68.5 | 64.3 | 27.6 | 51.1 | ||||
YOLOv5n[32] | 89.5 | 81.3 | 78.2 | 72.0 | 82.1 | 75.5 | 84.9 | 77.2 | 80.3 | 74.2 | 1.7 | 57.8 | ||||
YOLOv8n | 95.0 | 88.4 | 82.3 | 77.3 | 83.4 | 78.3 | 89.9 | 83.7 | 86.2 | 81.4 | 8.2 | 103.0 | ||||
DETR[33] | 75.6 | 85.4 | 69.9 | 77.6 | 71.3 | 79.2 | 72.2 | 81.6 | 69.3 | 76.6 | 8.7 | 52.1 | ||||
DeepSmoke | 96.3 | 89.6 | 86.4 | 81.0 | 87.8 | 82.3 | 92.0 | 85.6 | 88.3 | 84.1 | 9.3 | 85.3 | ||||
DeepSmoke_SST | 98.3 | 91.4 | 88.2 | 82.7 | 90.0 | 84.3 | 94.2 | 87.6 | 92.6 | 88.3 | 9.3 | 85.3 |
为了更直观地对比各算法的检测性能,如图11所示展示了DeepSmoke_SST算法与之前取得最高准确率的YOLOv8n算法在6种常见火灾场景下的检测结果对比,其中上图和下图分别对应为YOLOv8n和DeepSmoke_SST的结果. 可以看出,针对停车场场景左图和住宅场景下的易检测烟雾,2种算法检测效果良好,本研究算法置信度略高且定位更为准确;针对停车场场景右图和森林场景右图下的存在干扰的图像,YOLOv8n算法出现了错检的情况,将光照和云朵与烟雾混杂,但本研究算法得益于半监督训练中伪标签分类器对噪声伪标签进行识别并丢弃的优势,能够较好地分辨出此类干扰;针对森林场景左图和农场场景下的小规模和稀薄烟雾,YOLOv8n算法出现了明显的漏检情况,但本研究算法由于引入了TFM,对此类难存在稀疏特征信息的烟雾针对性地计算注意力机制,因此能够准确识别和定位此类目标;针对工厂场景和仓库场景下的混杂烟雾,YOLOv8n算法出现了缺检的情况,检测框中仅包含部分烟雾而本研究算法能对该类目标进行完整检测. 以上实验数据与检测性能对比,验证了本研究算法在不同场景下的适应能力和对小规模稀薄烟雾的检测能力.
图 11
图 11 本研究算法DeepSmoke-SST与现有最优算法YOLOv8n的检测结果对比
Fig.11 Comparison of detection results between proposed algorithm DeepSmoke-SST and existing optimal algorithm YOLOv8n
3. 结 语
提出基于半监督学习的多场景火灾烟雾检测算法DeepSmoke_SST,用于检测火灾初期的小规模稀薄烟雾,旨在通过视频图像进行火灾预警,达到消防减灾的目的. 通过自主提出的部分混合卷积PMConv设计了PM-B新型残差结构,PM-B对原始输入特征和中间滤波特征进行错层运算,能提取特征层间更丰富的梯度流并降低冗余计算. 使用PM-B构建了高效特征聚合模块PM-C2f和部分混合最相关区域自注意力机制模块PM-TF,前者在颈部网络中通过高效整合4个不同梯度方向的特征信息,实现高效特征聚合的作用,后者通过最相关区域自注意力机制,在进行特征运算时仅计算小规模稀薄烟雾的稀疏特征,达到选择性特征强化的目的. 此外,在应用半监督学习策略训练模型时,通过PLC将未标注图像的伪标签分为3类并设计不同的损失函数以更新模型参数,提升了算法模型在9类常见火灾场景下的适应能力. 最后,设计一系列消融对比实验验证了本研究所提模块和方法的有效性与先进性.
本研究算法在面对极端小目标和类烟雾气体干扰时的识别准确率还有待进一步提升,其中极端小目标是当前所有目标检测算法共同面临的挑战. 后续将考虑利用特征可视化之类的手段探究模型训练和推理过程的可解释性,并探究融合Transformer之类架构和传统卷积神经网络可能带来的网络性能提升.
参考文献
多类场景下无人机航拍视频烟雾检测算法
[J].DOI:10.11918/202205119 [本文引用: 1]
Smoke detection algorithm for UAV aerial video in multiple scenarios
[J].DOI:10.11918/202205119 [本文引用: 1]
改进YOLOv5s的公路隧道烟火检测方法
[J].
Improved YOLOv5s flame and smoke detection method in road tunnels
[J].
基于改进YOLOv7的火焰烟雾检测算法
[J].
Improved YOLOv7-based flame smoke detection algorithm
[J].
基于YOLOv8的火灾烟雾检测算法研究
[J].
Research on fire smoke detection algorithms based on YOLOv8
[J].
A deep separable convolutional neural network for multiscale image-based smoke detection
[J].
Real-time detection of flame and smoke using an improved YOLOv4 network
[J].DOI:10.1007/s11760-021-02060-8 [本文引用: 1]
基于改进YOLOX轻量级的烟雾火焰目标检测方法
[J].DOI:10.3969/j.issn.1673-1794.2023.05.008 [本文引用: 1]
Improved YOLOX-based lightweight fire object detectiion algorithm
[J].DOI:10.3969/j.issn.1673-1794.2023.05.008 [本文引用: 1]
半监督学习理论及其研究进展概述
[J].
A review of semi-supervised learning theories and recent advances
[J].
弱监督深层神经网络遥感图像目标检测模型
[J].
Object detection models of remote sensing images using deep neural networks with weakly supervised training method
[J].
Spatial pyramid pooling in deep convolutional networks for visual recognition
[J].DOI:10.1109/TPAMI.2015.2389824 [本文引用: 1]
Exponential moving average versus moving exponential average
[J].DOI:10.1007/s00591-010-0080-8 [本文引用: 1]
A high-precision forest fire smoke detection approach based on ARGNet
[J].DOI:10.1016/j.compag.2022.106874 [本文引用: 1]
A gated recurrent network with dual classification assistance for smoke semantic segmentation
[J].DOI:10.1109/TIP.2021.3069318 [本文引用: 1]
An automatic fire detection system based on deep convolutional neural networks for low-power, resource-constrained devices
[J].
/
〈 |
|
〉 |
