基于半监督学习的多场景火灾小规模稀薄烟雾检测

doi:10.3785/j.issn.1008-973X.2025.03.012

基于半监督学习的多场景火灾小规模稀薄烟雾检测

杨凯博^,, 钟铭恩^,, 谭佳威, 邓智颖, 周梦丽, 肖子佶

1. 厦门理工学院福建省客车先进设计与制造重点实验室，福建厦门 361024

2. 厦门大学航空航天学院，福建厦门 361102

Small-scale sparse smoke detection in multiple fire scenarios based on semi-supervised learning

YANG Kaibo^,, ZHONG Mingen^,, TAN Jiawei, DENG Zhiying, ZHOU Mengli, XIAO Ziji

1. Fujian Key Laboratory of Bus Advanced Design and Manufacture, Xiamen University of Technology, Xiamen 361024, China

2. School of Aerospace Engineering, Xiamen University, Xiamen 361102, China

通讯作者: 钟铭恩，男，教授. orcid.org/0000-0003-0775-7850. E-mail：zhongmingen@xmut.edu.cn

收稿日期: 2024-02-3

基金资助:

福建省自然科学基金资助项目(2023J011439, 2019J01859).

Received: 2024-02-3

Fund supported:

福建省自然科学基金资助项目(2023J011439,2019J01859).

作者简介 About authors

杨凯博（2000—），硕士生，从事机器视觉和智能消防研究.orcid.org/0009-0002-7707-0288.E-mail：kaiboo_yang.ty@foxmail.com , E-mail：kaiboo_yang.ty@foxmail.com

摘要

为了探索高性能的轻量级火灾烟雾检测算法，构建了包含9种火灾场景、3个烟雾类型的图像集MSIFSD，设计了深度卷积神经网络DeepSmoke. 针对小规模稀薄烟雾检测困难的问题，提出高效特征聚合模块PM-C2f和部分混合最相关区域自注意力机制模块PM-TF，PM-C2f模块用来整合各层次图像特征的上下文信息，PM-TF模块用于强化小规模稀薄烟雾的稀疏特征. 针对DeepSmoke在不同场景下适应性不足的问题，提出使用伪标签分类器的半监督训练策略，利用大量未标注数据辅助模型训练，提升多类场景下的检测性能. 实验结果表明，该算法针对小规模、稀薄烟雾和普通烟雾的检测准确率分别为88.2%、90.0%和98.3%，综合平均检测准确率为94.2%，均优于现有主流算法，且浮点运算量仅为9.3×10⁹，体现了对边缘设备的友好性.

关键词： 火灾 ; 烟雾检测 ; 深度学习 ; 半监督学习 ; 伪标签 ; 注意力

Abstract

A dataset named MSIFSD, which contained 9 types of fire scenes and 3 types of smoke, was constructed to explore a lightweight fire smoke detection algorithm with good performance. Additionally, a deep convolutional neural network named DeepSmoke was developed. To address the challenge of detecting small-scale and sparse smoke, an efficient feature aggregation module called PM-C2f was proposed and incorporated with a partial mixed-relevance region self-attention mechanism module called PM-TF. The PM-C2f module was utilized to integrate contextual information from various levels of image features, while the PM-TF module was used to strengthen the sparse features of small-scale and sparse smoke. A semi-supervised training strategy using a pseudo-label classifier was proposed to address the issue of DeepSmoke’s insufficient adaptability across different scenarios. A large amount of unlabeled data were leveraged to assist model training and improve the detection performance across multiple scene types. Experimental results demonstrated that the proposed algorithm achieved the detection accuracies of 88.2%, 90.0%, and 98.3% for small-scale, sparse, and general smoke, respectively. The average comprehensive detection accuracy was 94.2%, outperforming the existing mainstream algorithms. And the floating-point operation was 9.3×10⁹, reflecting the friendliness to edge devices.

Keywords： fire ; smoke detection ; deep learning ; semi-supervised learning ; pseudo label ; attention

PDF (3276KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

杨凯博, 钟铭恩, 谭佳威, 邓智颖, 周梦丽, 肖子佶. 基于半监督学习的多场景火灾小规模稀薄烟雾检测. 浙江大学学报(工学版)[J], 2025, 59(3): 546-556 doi:10.3785/j.issn.1008-973X.2025.03.012

YANG Kaibo, ZHONG Mingen, TAN Jiawei, DENG Zhiying, ZHOU Mengli, XIAO Ziji. Small-scale sparse smoke detection in multiple fire scenarios based on semi-supervised learning. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(3): 546-556 doi:10.3785/j.issn.1008-973X.2025.03.012

火灾极具破坏力和危险性，早期检测是公认的降低危害的有效手段. 烟雾作为火灾的主要伴生物，早于明火发生且易于被显著发现^[1]，因此可以通过检测烟雾来更早地发现火灾，这对于消防减灾具有重要意义^[2]. 根据燃烧物和燃烧条件的不同，火灾初期的烟雾常见为黑色浓烟和小规模稀薄烟雾2类. 其中，黑色浓烟因对比于背景具有更明显的视觉特征而易于发现，相比而言，检测小规模稀薄烟雾仍是一项颇具挑战的任务.

随着深度学习技术的不断发展，针对黑色浓烟的检测研究已经取得了良好进展. 这些研究主要侧重2个方面：一是算法的检测准确率，二是算法的轻量化以能够灵活部署于无人机之类的边缘设备上. 针对算法的检测准确率，马庆禄等^[3]通过在YOLOv5s中引入注意力机制，提高了算法在公路隧道场景下的检测精度，但采用的数据集内多为中后期火灾烟雾图像，其算法对早期火灾烟雾的检测准确率还有待考量；谢康康等^[4]通过改进YOLOv7的骨干网络并在训练阶段采用Mosaic数据增强，降低了算法在动态场景下的漏检率，但使用的自建数据集规模较小，算法在多场景下的适应性还有待提升；王晨灿等^[5]在YOLOv8n的基础上增加一个更小的目标检测层，提高了算法对小规模烟雾的检测精度，但算法没有考虑到稀薄烟雾的检测，针对早期火灾的预警工作还有待进一步提升. 针对算法的轻量化，Huo等^[6]提出基于深度可分离卷积的单场景烟雾检测算法，有效降低了模型复杂度，但深度可分离卷积是在二维平面内进行的，难以充分利用通道间相同空间位置上的特征信息；Wang等^[7]通过改进YOLOv4算法结构，实现了对视频烟雾的实时检测，但改进后的结构特征提取效率下降，算法结构还可进一步完善；金程拓等^[8]提出轻量化的YOLOX算法，改善了模型在嵌入式设备下实时性差的问题，但算法定位准确性还可进一步提升. 总的来说，小规模稀薄烟雾与上述研究中的黑色浓烟图像特征存在着显著差别，因此上述算法对火灾初期烟雾的检测性能和对应的算法轻量化处理方法尚欠佳.

上述算法均属于全监督模型，检测精度和适应能力受制于训练样本的规模和多样性，而这些样本需要人工收集整理和标注. 因此，降低标注成本、增加样本规模和拓展样本多样性成为提升模型性能的紧迫任务. 相比而言，半监督学习利用有限标注数据和大量未标注数据来训练模型^[9]，能够大幅降低对标注数据的需求，在同等成本下，半监督模型的适应能力更强^[10]. 不过，当前的半监督学习策略仍存在局限性，虽然其分为一致性学习^[11-14]和伪标签^[15-17] 2类，但本质上均为基于伪标签的学习，而伪标签一般由教师模型产生，在生成过程中会掺杂大量的噪声标签和偏移标签，这在训练过程中会对算法检测精度带来不利影响.

针对上述问题，本研究将火灾烟雾图像分为小规模烟雾、稀薄烟雾和其他易检测烟雾3种类型，从9种典型火灾场景中收集并构建了一个多场景火灾烟雾图像集(multi scenario initial fire smoke dataset, MSIFSD)，为算法研究创建数据条件. 基于半监督学习策略给出在不同场景下针对3种类别的火灾烟雾都具有良好检测性能且相对轻量的算法模型DeepSmoke_SST. 主要创新工作体现在：1)提出部分混合卷积PMConv，以此为基础设计新型残差结构PM-B (partial mix bottleneck)并嵌入到基础特征提取模块中，减少了网络层间信息融合时的冗余计算；2)以PM-B为基础构造轻量化的特征聚合网络模块PM-C2f (partial mix convolution 2 fully connected)，在颈部网络中高效整合各层次特征的上下文信息并抑制干扰；3)以自主提出的最相关区域自注意力机制TF为基础，结合PM-B，构建部分混合自注意力机制模块PM-TF (partial mix top former)，以强化火灾初期小规模稀薄烟雾的图像特征；4)设计伪标签分类器(pseudo label classifier, PLC)，对伪标签的质量进行动态评估，据此针对性地设计不同损失函数，提升半监督学习效率.

1. 算法设计

整体算法由用于实现烟雾检测功能的深度卷积神经网络和用于网络权重参数训练的半监督学习策略2部分组成.

1.1. 基础网络模型

1.1.1. 总体网络结构

所构建的火灾烟雾检测网络DeepSmoke的具体结构如图1所示，由用于提取图像特征的基础骨干网络Backbone、用于实现图像特征深度融合的颈部网络Neck和用于实现烟雾目标检测的Head三大部分组成. 其中，骨干网络的核心部分由CBS模块和自主设计的特征聚合模块PM-C2f组成，并且重复堆叠了4次，以提取出图中b1、b2、b3、b4位置的4个不同深度和尺度的基础特征. 颈部网络总体借鉴了特征金字塔网络(feature pyramid network, FPN)^[18]和路径聚合网络(path aggregation network, PAN)^[19]的架构，并使用快速空间金字塔池化(spatial pyramid pooling fast, SPPF)^[20]和自主设计的部分混合最相关区域自注意力模块PM-TF. 在DeepSmoke中引入FPN有利于将烟雾图像的深层语义特征传递到浅层，达到增强多尺度语义表达的目的；引入PAN能够将浅层位置信息传递至深层，获得更强的目标定位能力. SPPF能够有效融合不同尺度特征，扩大烟雾目标检测的感受野. PM-TF将最相关区域注意力应用于PM-C2f上，起到增强小规模稀薄烟雾特征和降低背景干扰的作用. 通过这些模块，颈部网络最终输出4个不同尺寸的特征图，用以检测不同大小的烟雾目标.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 DeepSmoke网络结构

Fig.1 Overall structure of DeepSmoke

1.1.2. 高效特征聚合模块PM-C2f

传统特征聚合模块C2f ^[21]通过堆叠多个Bottleneck结构融合上下文残差特征，以充分学习不同维度的特征信息，但这不可避免会造成通道信息的过度冗余，进而导致运算量过大. 针对该问题，设计更为轻量化的残差结构PM-B替换C2f中的Bottleneck，得到更为高效的特征聚合模块PM-C2f. 其关键在于采用部分混合卷积PMConv来降低冗余计算. PMConv的原理如图2所示，是在部分卷积PConv^[22]的基础上改进获得的一种新型卷积. PConv通常用于减少残差网络中多个通道携带相同或相似信息的冗余计算，具体过程如下：首先将输入特征采样为2部分，一部分直接前向传输以保留原始梯度信息，另一部分经过卷积运算获得深层梯度信息，然后将两者直接进行拼接. 虽然此方法有效提升了运算效率，但实验发现这种仅对部分通道进行计算的做法会导致未参与计算的层间信息缺乏交互，从而影响信息融合的效果. 针对该不足，在PConv的基础上进一步采用核大小为1×1的卷积对原始输入特征和中间滤波特征进行错层运算，这样相较于普通卷积既能降低计算量又能提取出更丰富的梯度流.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 PMConv模块的工作原理

Fig.2 Working principles of PMConv module

1.1.3. 部分混合最相关区域自注意力模块PM-TF

火灾初期的小规模稀薄烟雾在视频图像中一般具有像素比例小、特征模糊的特点，导致提取出的烟雾特征容易被背景特征所淹没，造成算法漏检. 通常采用注意力机制来提高算法对此类稀疏特征的敏感度以解决该问题，其中全局注意力机制(global attention mechanism, GAM)^[23]被证明是一种相对有效的方法，但会带来巨大的计算负担. 为此，提出仅计算最相关区域且对小规模稀薄烟雾敏感的最相关区域自注意力机制(top former mechanism, TFM)，如图3所示. 不同于常规注意力机制直接对整幅图像进行运算，TF首先对图像进行局部区域窗口划分，然后分别计算注意力关联权重，据此收集前k个最相关窗口的键值对，跳过其他窗口的计算，实现选择性学习输入特征的目的. 这种运算机制既能减少自注意力计算中的冗余运算又能有效滤除小规模稀薄烟雾图像中广泛存在的干扰信息，提升算法对这2类特殊烟雾的检测性能.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 GAM与TFM的效果对比

Fig.3 Effects comparison of GAM and TFM

基于部分混合卷积PMConv和最相关区域自注意力机制TFM，构建即插即用的部分混合最相关区域自注意力模块PM-TF，以强化小规模稀薄烟雾的图像特征，具体结构如图4所示，其中c=i、c=o分别表示此时的特征通道数等于预设的输入、输出通道数. 在PM-TF主干上首先使用CBS来改变输入特征图的通道数，其次，将调整通道后的特征图同时传入图4的中间和右侧2个主分支，并通过中间分支进一步衍生出左侧的2个分支，最后将4个分支进行Concat拼接融合，传入CBS进行通道调整后输出. 其并未对所有支路的特征图进行TFM自注意力运算，这种间隔注意力策略可以避免特征图中的重要信息被过度突显而掩盖次重要信息，并且有效控制了运算量.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 PM-TF模块结构

Fig.4 PM-TF module structure

1.1.4. 训练损失计算

DeepSmoke火灾烟雾检测网络的损失函数由回归框损失$L_{\text{s}}^{{\text{reg}}}$和目标置信度损失$L_{\text{s}}^{{\text{obj}}}$两部分组成：

(1)$ {L_{\mathrm{s}}} = L_{\mathrm{s}}^{{\mathrm{reg}}}+L_{\mathrm{s}}^{{\mathrm{obj}}}\;. $

$L_{\mathrm{s}}^{{\mathrm{reg}}}$使用CIOU定位损失，具体表达式如下：

(2)$ {L_{\mathrm{s}}}^{{\mathrm{reg}}} = {{\mathrm{CIOU}}} (X_{hw}^{},Y_{hw})\;. $

CIOU综合考虑了预测框${X_{hw}}$和真实框${Y_{hw}}$的重叠面积、中心点距离和长宽比.

(3)$ {{\mathrm{CIOU}}} = {\mathrm{IoU}}({X_{hw}},{Y_{hw}}) - ({\mathrm{dis}}+\alpha v) \text{，} $

(4)$ {\mathrm{dis}} ={{{\rho ^2}({X_{hw}},{Y_{hw}})}}/{{{c^2}}}, $

(5)$ \alpha = \frac{v}{{(1 - {\mathrm{IoU}})+v}} \text{，} $

(6)$ v = \frac{4}{{{{\text{π}} ^2}}}{\left(\arctan\; \frac{{{w_{\mathrm{Y}}}}}{{{h_{\mathrm{Y}}}}} - \arctan \;\frac{{{w_{\mathrm{X}}}}}{{{h_{\mathrm{X}}}}}\right)^2} . $

式中：$ {\mathrm{IoU}}({X_{hw}},{Y_{hw}}) $表示预测框${X_{hw}}$与真实框${Y_{hw}}$的交并比，用于衡量两者的重合程度；dis为预测框和真实框中心点距离$ \rho ({X_{hw}},{Y_{hw}}) $与最小外接矩形对角距离c之比的平方，用于衡量两者距离；α为平衡因子；v用来衡量目标框与真实框长宽比的相似性；w_X、h_X和w_Y、h_Y分别表示预测框和真实框的宽、高.

结合以上计算方法，当背景噪声过大导致烟雾预测框和真实框不相交时，CIOU也能够体现两者的距离远近以及重合度.

$L_{\mathrm{s}}^{{\mathrm{obj}}}$使用CE交叉熵损失，能够衡量随机变量中2个不同概率分布的差异程度，表达式如下：

(7)$ L_{\mathrm{s}}^{{\mathrm{obj}}} = {\mathrm{CE}}(X_{hw}^{{{\mathrm{obj}}} },Y_{hw}^{{\mathrm{obj}}}). $

1.2. 半监督学习策略

在过去的烟雾检测研究中，基本都采用全监督方式来训练网络模型. 为了获得高检测精度和强适应性的模型，须提前制备大规模多样性的标注数据集. 为了减少对标注数据集的依赖，提出半监督学习策略(semi supervised training, SST)，利用大量未标注图像生成伪标签来训练模型，以提升模型针对不同场景火灾烟雾的检测性能.

1.2.1. 整体训练方案

半监督学习框架一般包含教师Teacher和学生Student这2个已经过预训练的模型. 教师模型从未标注的图像样本中自动生成标注信息，据此构建出用于学生模型训练所需的标注样本. 这些标注信息并不一定准确，因此将其称为伪标签. 在启用半监督学习策略后，首先将经过数据增强后的未标注图像传入教师模型DeepSmoke-T，生成烟雾图像伪标签；然后利用伪标签分类器PLC进行噪声评估和分类，自动将评分较高的伪标签制作成训练样本用来辅助训练学生模型DeepSmoke-S；接着结合已标注样本和对应的2类伪标签训练样本再结合预设的权重参数分别计算对应的损失函数，据此更新学生模型；最后再以学生模型为基础通过指数移动平均算法(exponential moving average, EMA)^[24]对教师模型进行权值更新. 如此反复循环，直至达到预设训练轮次或总训练损失不再明显降低为止，具体结构如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 半监督训练原理

Fig.5 Semi-supervised training principle

1.2.2. 伪标签分类器原理

与其他目标检测任务不同，在烟雾检测任务中，干扰目标相对单一，多为云朵、水汽、雾霾等与烟雾相似的目标，这为伪标签分类工作带来了研究方向. 为此，在半监督训练过程中，对生成的烟雾伪标签进行统计分类，发现训练初期置信度较低的伪标签多为上述类烟雾目标，称其为噪声伪标签(noise pseudo label, NPL)；置信度中等的伪标签通常为检测框位置偏移过大的小规模和稀薄烟雾目标，称其为偏移伪标签(offset pseudo label, OPL)；对于其余高置信度的伪标签，则将其统称为可靠伪标签(reliable pseudo label, RPL). 其中，噪声伪标签的置信度会随着训练迭代次数的增加而逐渐增加，最终导致被误检为火灾烟雾，而偏移标签会降低小规模稀薄烟雾检测的位置准确性. 为此，提出伪标签分类器PLC来对伪标签进行细分，即首先采用非极大值抑制(non maximun suppression, NMS)来滤选所有伪标签，然后基于其置信度C和预设阈值th1和th2的大小关系进一步将伪标签划分为NPL、OPL和RPL这3类，划分细节如图5右上角所示. 最后分别计算对应损失，其中，对于可靠伪标签，计算其回归框损失和目标置信度损失，对于偏移伪标签，仅计算其目标置信度损失，而噪声伪标签则直接丢弃.

如图6所示展示了2张包含烟雾相似干扰的图像案例，并用热力图呈现了网络特征提取的情况. 可以观察到，无论是否使用PLC，算法都能关注到烟雾区域的特征，但不使用PLC时这种关注也被分散到了天空中的云朵和雾霾这类干扰上，而使用PLC后热力图更加集中并主要聚焦在烟雾区域上，且偏移量更小. 本研究侧重的是早期火灾，此时可能还未产生明显火焰，因此算法的关注区域并不位于火焰区域.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 使用PLC前后热力图对比

Fig.6 Comparison of heat map before and after using PLC

1.2.3. 损失函数

半监督训练的损失函数由式(1)中的有监督损失L_s和无监督损失L_u两部分组成. 有监督损失主要起参数纠正作用，防止无监督训练误差过大而导致参数突变，影响模型正常训练. 无监督损失则直接影响着半监督阶段的训练效果，应赋予较高的损失权重. 最终，本研究将权重平衡因子λ设置为2.5.

(8)$ L = {L_{\mathrm{s}}}+\lambda {L_{{\mathrm{u}}} }\;. $

与L_s类似，无监督损失L_u同样由回归框损失$L_{\mathrm{u}}^{{\mathrm{reg}}}$和目标置信度损失$L_{\mathrm{u}}^{{\mathrm{obj}}}$两部分组成：

(9)$ {L_{\mathrm{u}}} = L_{\mathrm{u}}^{{\mathrm{reg}}}+L_{\mathrm{u}}^{{\mathrm{obj}}}. $

无监督学习的回归框损失的表达式如下：

(10)$ {L}_{{\mathrm{u}}}^{{\mathrm{reg}}}={\displaystyle \sum _{h,w}\left({{I}}_{\left\{{{C}}_{{hw }}{ \geqslant {\mathrm{th}}2}\right\}}{\mathrm{CIOU}} \left({X}_{hw},{\overline{Y}}_{hw}\right)\right)}. $

式中：${{C} _{{{hw}}}}$表示位置(h,w)处的伪标签置信度；$ {\bar Y_{hw}} $表示教师模型的输出的伪标签；${{{I}}_{\{ \cdot\} }}$为指示函数，当条件$\{ \cdot\} $满足时输出1，否则输出0. 当伪标签置信度${{C} _{{\mathrm{hw}}}}$大于等于阈值th2时，该伪标签为可靠伪标签，此时计算学生模型预测结果与伪标签的CIOU回归损失.

目标置信度损失表达式如下：

(11)$ {L}_{{\mathrm{u}}}^{{\mathrm{obj}}}={\displaystyle \sum _{h,w}\left({{I}}_{\left\{{\text{C}}_{{hw }}{ \geqslant {\mathrm{th}}1}\right\}}{\mathrm{CE}}\left({X}_{hw}^{\mathrm{obj}},{\overline{Y}}_{hw}^{\mathrm{obj}}\right)\right)}\;. $

当伪标签置信度${{C} _{hw}}$大于等于阈值th1即伪标签为可靠伪标签或偏移伪标签时，使用交叉熵损失计算学生模型预测结果与伪标签的目标差异.

2. 实验与分析

2.1. 数据集

早期研究使用的数据集主要采样于CVPR-KMU实验室公开的4段火灾烟雾视频^[25]和Yuan等^[26]公开的3段火灾烟雾视频，因此数据集中的火灾场景相对单一且小规模稀薄烟雾图像样本较少，这限制了算法在不同场景下的适应性和对小规模稀薄烟雾的检测能力. 近期，Pedro等^[27]在GitHub上公开了包含21527张火灾烟雾图像的D-Fire数据集，数据规模更大且场景更丰富，较好地缓解了上述问题. 本研究进一步通过网络收集筛选和自行拍摄的方式，将图像规模扩充到约50000张，构建了前文所述的火灾初期烟雾数据集MSIFSD，其中标注图像与未标注图像比例约为2∶3. 将20000张已标注图像按场景归纳为9类，并根据烟雾特征进一步区分为3类：烟雾面积占比小于视野图像1/32的小规模烟雾集Hard_1、烟雾区域中可见背景像素占比大于1/2的稀薄烟雾集Hard_2以及不符合上述定义的普通烟雾集Easy. 须指出的是，火灾初期的烟雾经常同时拥有小规模和稀薄2种特征，本研究将此类烟雾图像随机分配于Hard_1和Hard_2中. 如图7所示为几种常见场景下的典型火灾烟雾样本图像示例，MSIFSD数据集内已标注的20000张图像划分的样本数量如表1所示. 表中，N为各数据集中各场景类别的图像的具体数量.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 部分常见场景火灾烟雾图像举例

Fig.7 Examples of fire smoke sample images for some scenarios

表 1 MSIFSD数据集中的场景类别及具体数量

Tab.1 Scene categories and specific numbers in MSIFSD dataset

数据集	N
数据集	住宅	工厂	仓库	学校	森林	农场	村庄	交通	停车场	总数
Hard_1	857	865	811	896	923	849	796	314	657	6968
Hard_2	733	415	933	709	1005	699	328	500	1034	6356
Easy	818	906	390	798	1278	358	672	488	968	6676
总数	2408	2186	2134	2403	3206	1906	1796	1302	2659	20000

新窗口打开| 下载CSV

2.2. 实验条件

实验的运行环境为64位Windows10系统，GPU 驱动为 CUDA10.1与CUDNN7.6；硬件采用NVIDIA GeForce RTX 3090 24G显卡和Intel(R) Core(TM) i7-10700K CPU；算法实验的软件环境采用Python 3.9和PyTorch框架.

在进行模型训练时，检测到Loss值不再明显下降或训练轮次达到预设的400轮则停止训练. 半监督训练的前100轮为模型预训练阶段，在后300轮才使用未标注图像，开启半监督模式. 除了最后的对比实验使用D-Fire数据集进行测试外，实验使用的数据集皆为MSIFSD，按照train∶val∶test为8∶1∶1的比例进行. 此外，采用Adam优化器，设置初始学习率为0.001，权重衰减率为0.0005. 在训练期间将图像像素大小统一为640×640，并通过缩放、旋转、平移和遮挡等操作进行随机几何增强，并通过改变图片的饱和度、亮度进行随机光照增强.

2.3. 评价指标

在火灾烟雾检测任务中，实验选用4个指标对模型进行评估：召回率R、平均精度(average precision, AP)、浮点运算次数(floating point of operations, FLOPs)和每秒传输帧数(frames per second, FPS). 其中，R与AP用于评估算法精度. 表达式如下：

(12)$ {{{R}}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}}, $

(13)$ {{{P}}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FP}}}}, $

(14)$ {{\mathrm{AP}}} = \int_0^1 {P(R){\mathrm{d}}R}. $

式中：TP为真阳性，即算法正确检测出的目标数量；FP为假阳性，即误检目标的数量；FN为假阴性，即未被检测出的目标数量；P(R)表示在召回率为R时的精度.

2.4. DeepSmoke基础网络实验

2.4.1. 残差模块对比实验

为了验证本研究所提出的PM-B模块相较于现有残差模块在算法轻量化方面的优势及其对模型检测精度的影响，额外选择如图8所示的经典的Bottleneck模块和P-B模块对网络中的所有PM-B模块进行替换比较，实验结果如表2所示.可以看出，在使用PM-B残差模块时，DeepSmoke网络的烟雾平均检测精度与使用Bottleneck模块时相当，但模型总浮点运算量相比减少了约10.6%，即1.1 ×10⁹. P-B残差模块在减少浮点运算量上虽然效果最显著，但模型的检测精度相比最差. 这些结果证明PM-B确实能够在保持模型精度的情况下降低冗余计算量.

表 2 使用不同残差模块的实验结果

Tab.2 Experimental results of using different residual modules

残差类型	AP/%	R/%	FLOPs/10⁹
Bottleneck	92.1	85.6	10.4
P-B	90.8	84.3	9.2
PM-B	92.0	85.6	9.3

新窗口打开| 下载CSV

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 2种残差模块结构示意图

Fig.8 Schematic structure of two residual modules

2.4.2. 不同注意力机制对比实验

为了验证TFM的有效性，将网络中所有的TFM移除并依次替换为：通道注意力机制(channel attention mechanism, CAM)^[28]、通道-空间注意力机制(convolutional block attention module, CBAM)^[29]和全局注意力机制GAM这3种典型的注意力机制进行对比实验，结果如表3所示. 可以看出：1)在不引入注意力机制时，模型的AP和R在4种烟雾集下均为最低值. 2)在引入CAM、CBAM、GAM这3种经典注意力机制后，模型的AP和R在4种烟雾集下均有不同程度的提升，且在Easy集下的提升效果最为明显. 3)在引入本研究提出的TFM后，模型的AP和R在4种烟雾集下都达到了当前最佳. 与次优的GAM组进行对比后发现，在Easy烟雾集下，2组实验的AP和R相差相对较小，均小于0.1%；在Hard_1烟雾集下，2组实验的AP和R的差异为0.9%、0.9%；在Hard_2烟雾集下，2组实验的AP和R的差异为0.9%、0.8%. 相较而言，TFM在Hard_1与Hard_2烟雾集下带来的指标差异更为明显. 这证明了TFM仅计算最相关区域的运算机制对小规模稀薄烟雾的检测是更为有效的；4)在保证精度最佳的前提下，TFM带来的计算开销相对较小，相较于无注意力机制的对照组仅增加0.8×10⁹，最终为9.3×10⁹.

表 3 使用不同注意力机制的实验结果

Tab.3 Experimental results of using different attention mechanisms

注意力机制类型	Easy		Hard_1		Hard_2		MSIFSD		FLOPs/10⁹
注意力机制类型	AP/%	R/%	AP/%	R/%	AP/%	R/%	AP/%	R/%	FLOPs/10⁹
无	95.0	88.2	84.9	79.0	86.2	80.7	90.6	83.7	8.5
CAM	95.5	89.4	85.1	79.5	86.6	81.4	90.9	84.5	9.7
CBAM	96.1	89.5	85.3	79.8	86.8	81.6	91.2	84.7	10.7
GAM	96.2	89.6	85.5	80.1	86.9	81.5	91.3	85.1	10.3
TFM	96.3	89.6	86.4	81.0	87.8	82.3	92.0	85.6	9.3

新窗口打开| 下载CSV

2.4.3. PM-TF结构方案实验

为了验证所设计的PM-TF模块结构的合理性及其性能，将其内部结构进行修改，构造出如图9所示的2种候选结构. 图9(a)相比于PM-TF在最相关区域注意力模块TFM之前简化了CBS；图9(b)相比于PM-TF重复堆叠了TFM.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 不同最相关区域注意力特征提取模块结构对比

Fig.9 Comparison of structure of different most relevant region attention feature extraction modules

把DeepSmoke网络中的所有PM-TF模块分别替换成PM-C2f和图9中的simPM-TF和PM-2TF进行实验对比，结果如表4所示. 可以看出：1)在采用未引入注意力机制的PM-C2f时，AP和R分别为最低值90.6%和83.7%，这反向证明引入TFM注意力机制确实能够提升火灾烟雾检测模型DeepSmoke的综合性能；2)在模型的注意力分支中去掉CBS模块后，无论是simPM-TF还是PM-2TF的AP和R指标，相比于本研究采用的PM-TF的均有所下降，表明CBS模块在促进网络信息流动方面发挥了重要作用，能够有效地传递和提取来自上层的特征信息，进而提升检测精度；3)采用2个TFM模块级联的PM-2TF并未带来更高的指标提升，反而增加了网络的浮点运算量至最高的9.9×10⁹，表明多个TFM最相关区域自注意力机制模块级联会使算法过度选择部分重要特征学习，导致网络丢失其他次重要通道的特征信息，进而致使网络特征提取效果下降，精度降低；4)本研究设计采用的PM-TF相比其他3种候选结构能够帮助DeepSmoke模型取得最高的AP和R，分别为92.0%和85.6%，且最终的浮点运算量FLOPs仅为9.3×10⁹，表明这种结构是合理和有效的.

表 4 不同特征提取模块性能对比

Tab.4 Performance comparison of different feature extraction modules

模块类型	AP/%	R/%	FLOPs/10⁹
PM-C2f	90.6	83.7	8.5
simPM-TF	91.5	85.0	9.2
PM-2TF	91.1	84.9	9.9
PM-TF	92.0	85.6	9.3

新窗口打开| 下载CSV

2.4.4. PM-TF消融实验

PM-TF在提升网络性能的时候带来的一个问题是增大了计算量. 考虑到浅层网络中语义特征较弱，而PM-TF仅对最相关区域进行自注意力运算，因此本研究未在特征提取骨干网络Backbone中过早引入PM-TF，而是在如图1所示的p1~p4位置即Neck环节最终输出的4个尺度特征的融合位置引入. 如表5所示给出了在各个不同位置引入PM-TF的网络综合性能，其中“×”表示该位置采用的是不包含注意力机制的PM-C2f，“√”表示该位置采用了使用注意力机制的PM-TF.实验结果表明：1)在各个位置引入PM-TF都能够提高模型的平均检测精度AP，且在输出特征规模越大的位置引入带来的提升越多；2)当在p1~p4位置都引入PM-TF后，模型能达到最高AP和R，分别为92.0%和85.6%；3)模型的浮点运算量仅增加了0.8×10⁹，相对较小.

表 5 PM-TF消融实验结果

Tab.5 PM-TF ablation experiment results

p1	p2	p3	p4	AP/%	R/%	FLOPs/10⁹
×	×	×	×	90.6	83.7	8.5
√	×	×	×	91.2	85.0	8.7
×	√	×	×	91.0	83.9	8.7
×	×	√	×	90.9	84.0	8.7
×	×	×	√	90.8	83.9	8.7
√	√	√	√	92.0	85.6	9.3

新窗口打开| 下载CSV

2.5. 半监督学习策略性能实验

为了进一步探明采用全监督学习策略和半监督学习策略来训练DeepSmoke模型的效果差异，在MSIFSD数据集上进行对比实验，并将采用了半监督学习策略的火灾烟雾检测模型标记为DeepSmoke_SST. 如图10所示展示了经过平滑处理后的模型平均精度AP变化趋势曲线，如表6所示给出了算法的平均精度AP和召回率R.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 全监督与半监督学习策略的AP变化曲线对比

Fig.10 Comparison of AP variation curves between supervised and semi-supervised learning strategies

表 6 不同学习策略时DeepSmoke模型的性能对比

Tab.6 Performance comparison of DeepSmoke model with different learning strategies

SST	PLC	AP/%	R/%
×	×	92.0	85.6
√	×	93.6	87.3
√	√	94.2	87.6

新窗口打开| 下载CSV

由图10可以看出，由于DeepSmoke_SST在前100个Epoch内均处于预训练状态，因此与DeepSmoke的曲线基本一致，在第100个Epoch时仍基本交于一点，但在100个Epoch之后，DeepSmoke的AP增长速率变缓，而半监督模式下的DeepSmoke_SST由于引入了未标注样本，AP的提升速率相对较高.

由表6可以看出：1)在采用了半监督学习策略但不使用伪标签分类器PLC时，DeepSmoke的AP和R分别提高至93.6%和87.3%，表明利用未标注样本进行的半监督学习策略确实能够提升该模型的检测性能；2)当进一步采用了伪标签分类器PLC后，模型的AP和R分别达到了94.2%和87.6%，验证了本研究所提出的伪标签分类器确实能够提升模型的检测精度.

2.6. 不同模型的对比实验

为了验证本研究算法的先进性，将其与现有主流算法在MSIFSD数据集上进行训练和对比实验. 此外，为了分析算法模型的适应能力，还在公开数据集D-Fire上进行测试，结果如表7所示. 须指出的是，为了保证公平性，其中的对比算法YOLOv5和YOLOv8选用了n、s、l、x版本中参数量差距最小的n版本. 可以看出：1)在所有的全监督算法中，DeepSmoke的AP和R在5种烟雾集下都达到了当前最佳值，相比于次优的YOLOv8n算法，对于易检测烟雾集，AP和R分别提高了1.3个百分点、1.2个百分点. 对于小规模烟雾集，AP和R分别提高2.1个百分点、4.4个百分点. 对于稀薄烟雾集，AP和R分别提高3.7个百分点、4.0个百分点. 对于2类特殊烟雾情况的精度提升更为明显，说明本研究设计的PM-TF模块能够有效提取图像中的稀疏特征，进而增强算法对早期烟雾的检测能力. 2)以DeepSmoke为基础模型进行半监督训练，算法在5种烟雾集下都有不同程度的提升. 须指出的是，在未经过D-Fire数据集训练的情况下，除了DeepSmoke_SST之外的其余算法在该数据集上的测试指标都略显不足，但DeepSmoke_SST相较于未经过半监督训练的DeepSmoke，AP和R却分别提高4.3个百分点和4.2个百分点，较为显著，说明半监督训练下网络能够从未标注图像中学习到更多的场景信息，提升模型在训练场景下的检测精度和适应能力；3)最终DeepSmoke_SST模型的FLOPS相较于YOLOv8n算法仅增加1.1×10⁹即最终为9.3×10⁹，在实验设备上的每秒传输帧数为85.3，可以部署于边缘设备且满足实时性需求.

表 7 不同烟雾集下各个模型的性能对比

Tab.7 Performance comparison of each model with different smoke sets

算法	Easy		Hard_1		Hard_2		MSIFSD		D-Fire		FLOPs/10⁹	FPS
算法	AP/%	R/%	AP/%	R/%	AP/%	R/%	AP/%	R/%	AP/%	R/%	FLOPs/10⁹	FPS
Faster R-CNN^[30]	83.6	73.2	73.6	65.7	77.1	68.7	79.1	69.3	73.2	62.9	40.3	25.3
SSD^[31]	75.4	62.8	67.3	57.7	68.2	58.4	71.3	59.4	68.5	64.3	27.6	51.1
YOLOv5n^[32]	89.5	81.3	78.2	72.0	82.1	75.5	84.9	77.2	80.3	74.2	1.7	57.8
YOLOv8n	95.0	88.4	82.3	77.3	83.4	78.3	89.9	83.7	86.2	81.4	8.2	103.0
DETR^[33]	75.6	85.4	69.9	77.6	71.3	79.2	72.2	81.6	69.3	76.6	8.7	52.1
DeepSmoke	96.3	89.6	86.4	81.0	87.8	82.3	92.0	85.6	88.3	84.1	9.3	85.3
DeepSmoke_SST	98.3	91.4	88.2	82.7	90.0	84.3	94.2	87.6	92.6	88.3	9.3	85.3

新窗口打开| 下载CSV

为了更直观地对比各算法的检测性能，如图11所示展示了DeepSmoke_SST算法与之前取得最高准确率的YOLOv8n算法在6种常见火灾场景下的检测结果对比，其中上图和下图分别对应为YOLOv8n和DeepSmoke_SST的结果. 可以看出，针对停车场场景左图和住宅场景下的易检测烟雾，2种算法检测效果良好，本研究算法置信度略高且定位更为准确；针对停车场场景右图和森林场景右图下的存在干扰的图像，YOLOv8n算法出现了错检的情况，将光照和云朵与烟雾混杂，但本研究算法得益于半监督训练中伪标签分类器对噪声伪标签进行识别并丢弃的优势，能够较好地分辨出此类干扰；针对森林场景左图和农场场景下的小规模和稀薄烟雾，YOLOv8n算法出现了明显的漏检情况，但本研究算法由于引入了TFM，对此类难存在稀疏特征信息的烟雾针对性地计算注意力机制，因此能够准确识别和定位此类目标；针对工厂场景和仓库场景下的混杂烟雾，YOLOv8n算法出现了缺检的情况，检测框中仅包含部分烟雾而本研究算法能对该类目标进行完整检测. 以上实验数据与检测性能对比，验证了本研究算法在不同场景下的适应能力和对小规模稀薄烟雾的检测能力.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 本研究算法DeepSmoke-SST与现有最优算法YOLOv8n的检测结果对比

Fig.11 Comparison of detection results between proposed algorithm DeepSmoke-SST and existing optimal algorithm YOLOv8n

3. 结　语

提出基于半监督学习的多场景火灾烟雾检测算法DeepSmoke_SST，用于检测火灾初期的小规模稀薄烟雾，旨在通过视频图像进行火灾预警，达到消防减灾的目的. 通过自主提出的部分混合卷积PMConv设计了PM-B新型残差结构，PM-B对原始输入特征和中间滤波特征进行错层运算，能提取特征层间更丰富的梯度流并降低冗余计算. 使用PM-B构建了高效特征聚合模块PM-C2f和部分混合最相关区域自注意力机制模块PM-TF，前者在颈部网络中通过高效整合4个不同梯度方向的特征信息，实现高效特征聚合的作用，后者通过最相关区域自注意力机制，在进行特征运算时仅计算小规模稀薄烟雾的稀疏特征，达到选择性特征强化的目的. 此外，在应用半监督学习策略训练模型时，通过PLC将未标注图像的伪标签分为3类并设计不同的损失函数以更新模型参数，提升了算法模型在9类常见火灾场景下的适应能力. 最后，设计一系列消融对比实验验证了本研究所提模块和方法的有效性与先进性.

本研究算法在面对极端小目标和类烟雾气体干扰时的识别准确率还有待进一步提升，其中极端小目标是当前所有目标检测算法共同面临的挑战. 后续将考虑利用特征可视化之类的手段探究模型训练和推理过程的可解释性，并探究融合Transformer之类架构和传统卷积神经网络可能带来的网络性能提升.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

FRIZZI S, KAABI R, BOUCHOUICHA M, et al. Convolutional neural network for video fire and smoke detection [C]// 42nd Annual Conference of the IEEE Industrial Electronics Society . Florence: IEEE, 2016: 877–882.