面向煤矿综掘工作面复杂环境的视觉感知系统

doi:10.3785/j.issn.1008-973X.2025.05.013

面向煤矿综掘工作面复杂环境的视觉感知系统

苏国用^,, 胡坤^,, 王鹏彧, 赵东洋, 张辉

1. 安徽理工大学深部煤矿采动响应与灾害防控国家重点实验室，安徽淮南 232001

2. 安徽理工大学矿山智能技术与装备省部共建协同创新中心，安徽淮南 232001

3. 安徽理工大学机电工程学院，安徽淮南 232001

Visual perception system for complex environment of coal mine comprehensive excavation working face

SU Guoyong^,, HU Kun^,, WANG Pengyu, ZHAO Dongyang, ZHANG Hui

1. State Key Laboratory of Deep Coal Mining Response and Disaster Prevention and Control, Anhui University of Science and Technology, Huainan 232001, China

2. Collaborative Innovation Center for Mining Intelligent Technology and Equipment, Anhui University of Science and Technology, Huainan 232001, China

3. School of Mechatronics Engineering, Anhui University of Science and Technology, Huainan 232001, China

通讯作者: 胡坤，男，教授，博士. orcid.org/ 0000-0001-6105-3016. E-mail: hk924@126.com

收稿日期: 2024-03-19

基金资助:

安徽省高等学校科学研究资助项目(2022AH050834)；国家自然科学基金资助项目(52304166，52274153)；深部煤矿采动响应与灾害防控国家重点实验室开放基金资助项目(SKLMRDPC22KF24)；安徽理工大学矿山智能技术与装备省部共建协同创新中心开放基金资助项目(CICJMITE202206)；安徽理工大学引进人才科研启动基金资助项目(2022yjrc61).

Received: 2024-03-19

Fund supported:

作者简介 About authors

苏国用（1990—），男，讲师，博士，从事煤矿智能感知与控制系统的研究.orcid.org/0000-0001-7202-0922.E-mail：guoyongs005@sina.cn , E-mail：guoyongs005@sina.cn

摘要

针对煤矿恶劣环境下视觉检测算法鲁棒性不足的难题，提出面向煤矿综掘工作面复杂环境的视觉感知系统. 该系统采用ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头对YOLOv7-tiny算法进行优化，构建煤矿综掘工作面视觉检测网络(CMCE-Net). 将CMCE-Net迁移部署到视觉感知终端平台内，测试CMCE-Net在煤矿实际作业工况下的检测性能，基于煤矿综掘工作面数据集开展验证实验. 实验结果表明，CMCE-Net的检测精度达到89.5%，相较于YOLOv7-tiny算法提升了5.2%. 与Faster RCNN、YOLOv7-tiny、YOLOv8s等8种算法相比，综合检测性能最佳，模型复杂度处于较低水平. 在视觉感知终端平台内，CMCE-Net对测试视频的检测速度最高达到33.4 帧/s，在人机多目标混杂工况下，CMCE-Net对装备与人员的检测精度均大于90.0%.

关键词： 综掘工作面 ; 关键目标 ; 视觉感知 ; 检测网络

Abstract

A visual perception system for the complex environment of the coal mine comprehensive excavation working face was proposed aiming at the problem of insufficient robustness of visual detection algorithms in the harsh environment of coal mines. ELAN-DS feature extraction module, SimAM attention module with decoupled detection head were used to optimize the YOLOv7-tiny algorithm in order to construct the coal mining comprehensive excavation face visual inspection network (CMCE-Net). CMCE-Net was migrated and deployed into the visual perception terminal platform in order to test the detection performance of CMCE-Net under the actual working conditions in coal mines. Validation experiments were conducted based on the data set of coal mine comprehensive excavation working face. The experimental results showed that the detection accuracy of CMCE-Net reached 89.5%, which was a 5.2% improvement compared with the YOLOv7-tiny algorithm. The combined detection performance was the best and the model complexity was at a lower level compared with eight algorithms such as Faster RCNN, YOLOv7-tiny and YOLOv8s. The detection speed of CMCE-Net on the test video reached up to 33.4 frames/s within the visual perception terminal platform, and the detection accuracy of CMCE-Net on the equipment and personnel was more than 90.0% under the human-machine multi-target mixing working condition.

Keywords： comprehensive excavation working face ; critical target ; visual perception ; detection network

PDF (4637KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

苏国用, 胡坤, 王鹏彧, 赵东洋, 张辉. 面向煤矿综掘工作面复杂环境的视觉感知系统. 浙江大学学报(工学版)[J], 2025, 59(5): 995-1006 doi:10.3785/j.issn.1008-973X.2025.05.013

SU Guoyong, HU Kun, WANG Pengyu, ZHAO Dongyang, ZHANG Hui. Visual perception system for complex environment of coal mine comprehensive excavation working face. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 995-1006 doi:10.3785/j.issn.1008-973X.2025.05.013

随着煤矿智能化建设的不断推进，针对煤矿井下人员、装备与环境的视觉感知需求日益迫切. 在煤矿复杂环境中，通过构建特定作业场景下的机器视觉感知模型，利用图像处理、特征提取、特征融合等技术对作业场景进行描述和反馈，以实现对关键装备与作业人员的行为识别、安全监测、风险预警等，对建设煤矿全面感知、实时互联、自主决策的智能化体系具有重要意义^[1-3].

近年来，基于视觉信息的目标检测技术已广泛应用于采煤、掘进、巡检等煤矿场景. 传统的目标检测模型利用人工设计特征^[4]和机器学习分类器^[5]，实现对目标的识别与定位^[6]，但该检测模型在矿井实际应用中存在复杂度高、参数量大、鲁棒性差、检测效率低等问题. 相较于传统的目标检测模型，在对象级特征提取与描述中，基于深度学习的目标检测模型凭借自适应特征学习^[7]、多尺度信息整合^[8]、端对端的高效网络训练方法^[9]等优势，逐步成为研究热点. 郭永存等^[10]提出基于YOLOv4-tiny-4S的煤矿电机车多目标检测模型，提升了电机车对行人、信号灯与碎石的实时检测精度. Wang等^[11]针对煤与矸石粘连与半遮档导致的识别精度降低难题，提出基于Mask RCNN的煤矸图像实例分割网络. 上述算法在工况条件良好的作业场景中检测效果较好，但在煤矿综掘工作面中，受光照不均、高粉尘的恶劣环境因素干扰，视频图像采集终端易出现成像模糊、色彩辨识度低、对比度差等问题，导致目标检测模型的性能急剧下降. 为了提升目标检测模型对煤矿复杂环境下关键目标的识别与定位能力^[12-13]，国内外学者将图像增强算法、注意力机制、特征金字塔结构等与深度学习算法相结合^[14-15]. 张夫净等^[16]结合超分辨率重构技术、坐标注意力机制与YOLOv5s算法，实现了不同光照条件下掘进巷道支护钢带的锚孔识别与定位. Zhao等^[17]针对煤矿恶劣环境中的关键目标感知难题，采用密集连接卷积网络、加权双向特征金字塔网络，对YOLOv5s算法进行优化，实现了煤矿恶劣环境中的多目标实时检测任务.

基于上述研究的启发，针对煤矿综掘工作面光照不均、高粉尘、人机多目标混杂分布的恶劣环境下视觉检测算法鲁棒性不足的难题，本文提出面向煤矿综掘工作面复杂环境的视觉感知系统. 该系统利用融合分布移位卷积(distribution shifting convolution, DSConv)的高效特征聚合模块(ELAN-DS)、无参注意力模块(simple and parameter-free attention module, SimAM)与解耦检测头(decoupled detection head, D-Deteciton)，对YOLOv7-tiny算法进行优化，构建煤矿综掘工作面视觉检测网络(CMCE-Net). 联合基于NVIDIA Jetson Xavier NX控制板的视觉感知终端平台，实现对煤矿复杂工况条件下关键装备与作业人员的实时检测任务，为煤矿恶劣环境下的安全生产提供技术支持与性能保障.

1. 煤矿综掘工作面的视觉感知系统

1.1. 特性分析与问题描述

在煤矿综掘工作面中，针对掘进与支锚作业2种复杂作业场景的视觉感知研究，主要以掘进机截割头、手持式锚杆钻机、机载式锚杆钻机、支护架与作业人员5类关键目标为研究对象，具体分析如下. 1) 装备作业特性分析. 在掘进与支锚破岩作业过程中产生大量粉尘，极易形成高粉尘的恶劣工况. 2) 人员作业特性分析. 掘进与支锚装备均需要人工现场操作，极易引起人员与装备间的重叠与遮挡，进而出现人机多目标混杂分布的复杂作业场景. 同时，由于煤矿综掘工作面的人造光源有限，且时常发生交叉与晃动，极易引起光照不均的工况.

综上，煤矿综掘工作面复杂环境的视觉感知，主要面临以下难题. 1) 受煤矿综掘工作面高粉尘与光照不均的恶劣因素干扰，导致目标成像出现纹理信息缺失、边缘模糊的问题，不利于检测模型对目标复杂特征信息的学习与提取. 2) 检测模型在对目标进行特征提取的过程中保留了大量冗余的背景信息，加之人机多目标混杂分布的影响，导致检测网络仅通过反复的卷积处理，难以对各目标的关键特征区域进行聚焦. 3) 在检测输出过程中，检测模型的耦合头部对分类与回归任务的联合处理极易引起2种任务误差的相互干扰，加之煤矿综掘工作面的恶劣因素干扰，导致检测模型对各目标的分类与定位损失急剧上升.

1.2. 视觉感知系统的总体架构

为了解决上述难题，根据关键装备与人员作业特性，建立煤矿综掘工作面的视觉感知系统. 该系统主要由视觉感知终端、数据集与视觉检测网络3部分组成，具体内容如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 煤矿综掘工作面的视觉感知系统架构

Fig.1 Visual perception system architecture for coal mine comprehensive excavation working face

图1中，视觉感知系统的工作流程通过虚线箭头与长短划线箭头进行指示说明，具体分析如下. 利用煤矿工业计算机工作站调用多组防爆监控摄像仪，实时采集煤矿综掘工作面的作业视频，通过提取多帧视频图像构建数据集. 将数据集中的训练集输入至视觉检测网络中进行检测训练，利用主干网络、颈部网络与头部，对图像中目标多层级特征进行提取融合与识别输出. 将训练后检测模型迁移部署至视觉感知终端的NVIDIA Jetson Xavier NX控制板上，利用控制板对测试视频进行实时检测. 控制板将检测结果解码上传至工业计算机工作站，由工作站对关键装备与作业人员的实时检测结果进行可视化呈现.

1.3. 煤矿综掘工作面的视觉检测网络

1.3.1. 视觉检测网络的整体结构

针对煤矿综掘工作面恶劣环境干扰因素所导致的目标复杂特征提取困难、目标特征感知区域模糊以及目标分类与定位精度降低的问题，分别采用融合分布移位卷积DSConv的ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头对YOLOv7-tiny算法^[18]进行优化. 提出煤矿综掘工作面视觉检测网络(CMCE-Net)，以提升煤矿复杂作业场景下系统对关键装备与作业人员的检测性能. CMCE-Net的整体结构如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 煤矿综掘工作面视觉检测网络的整体结构

Fig.2 Overall structure of visual detection network for coal mine comprehensive excavation working face

图2中，以YOLOv7-tiny算法为基线模型，CMCE-Net所采用的具体优化策略如下. 1) 在主干网络中，采用融合分布移位卷积DSConv的ELAN-DS特征提取模块替换高效层聚合网络(efficient layer aggregation network, ELAN)模块，凭借DSConv的可变量化核与分布移位机制，提升检测模型对目标复杂特征的提取能力. 2) 在颈部网络中，添加3组SimAM无参注意力机制，引导检测模型聚焦目标的关键特征区域，抑制煤矿综掘工作面的复杂背景信息干扰. 3) 在检测模型的头部，采用解耦检测头(D-detection)来替换耦合检测头(coupled detection head, C-detection)，从而通过解耦检测头的2条独立分支并行处理分类与回归任务，以提升检测精度，降低目标的分类与定位损失.

1.3.2. ELAN-DS特征提取模块

随着以AlexNet^[19]、ResNet^[20]为代表的大型卷积神经网络的应用，计算机视觉中的高精度检测与深层特征提取技术取得了突破，但标准卷积层的过度堆叠给大型网络带来了高额的计算成本，大幅降低了运算速度与存储效率. 为了使网络“更小更快”，相关研究学者通过优化标准卷积块的结构并引入轻量化算子，构建“即插即用”的新型卷积模块，如MobileNet^[21]中的深度可分离卷积、ShuffleNet^[22]中的信道混洗与分组卷积. 上述轻量化卷积块在信息处理时会损失部分原始的特征信息，导致特征提取不充分. 此外，由于煤矿综掘工作面掘进与支锚作业过程中存在高粉尘、光照不均的恶劣环境因素干扰，导致装备与作业人员的特征对比度降低且复杂性提高，使得YOLOv7-tiny算法原有的ELAN模块仅凭借固定卷积核与单一线性的特征学习方式，难以在煤矿复杂背景中提取目标的有效特征信息. 为了在减少运算量的同时提升特征提取能力，将DSConv^[23]模块与ELAN模块相结合，重新构建ELAN-DS特征提取模块，凭借DSConv的可变量化核(variable quantized kernel, VQK)与分布移位组件，提升检测网络对复杂特征的提取与学习能力. ELAN-DS模块与DSConv的整体结构如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 ELAN-DS模块与DSConv结构分解的示意图

Fig.3 Schematic diagram of ELAN-DS module and DSConv structure decomposition

图3(a)中，ELAN-DS模块由4个分布移位特征提取层(DS-BL)、1个拼接(Concatenation, Concat)模块与1个CBL层组成，DS-BL层由DSConv模块、批量归一化层(batch normalization, BN)与LeakyRelu激活函数组成. 在特征提取过程中，ELAN-DS模块利用分支1中的3个分布移位特征提取层(DS-BL)、2组残差边以及分支2中的1个DS-BL层，对输入图像同步进行特征提取. 将提取出的2组中间特征图进行拼接，通过CBL层的卷积操作得到最终输出. 图3(b)中，$ ({\zeta _{ij}},{\zeta _{{\mathrm{S}}ij}}) $与$ ({\varphi _{ij}},{\varphi _{{\mathrm{S}}ij}}) $分别为KDS与CDS中第i个通道内第j个卷积核的缩放参数与偏置参数，$ {\omega _{{\mathrm{Q}}ij}}、{\omega _{{\mathrm{K}}ij}}、{\omega _{{\mathrm{R}}ij}} $分别为VQK组件、中部张量与输出张量中第i个通道内第j个卷积核的权重参数. DSConv将卷积层分解为可变量化核组件与分布移位组件2个部分，分布移位组件由卷积核分布移位器与通道分布移位器构成. DSConv的主要工作流程如下. 利用VQK组件，将原始卷积张量的浮点型权值量化为可变位长的整数型权值，以降低网络存储占用与计算成本. 将分布移位组件中的卷积核分布移位器(kernel distribution shifter, KDS)切片扩展填充至与VQK组件相同的通道维度. 依次通过KDS与VQK组件以及通道分布移位器(channel distribution shifter, CDS)与中部张量的点积运算，得到输出张量的多维权值参数矩阵，实现2种移位器在每个切片与每个通道方向上对VQK组件的权值分布移位操作. 将输出张量与输入图像进行卷积运算，以提取多层级特征图，并将其用于下一次的特征提取. 在网络训练的过程中，ELAN-DS模块中的多组DSConv会依据前一层输出特征图的权值参数，反复利用VQK组件自适应调整权值量化范围，凭借分布移位操作灵活调整卷积核的位置，使得网络逐步学习特定目标的复杂特征信息以适应不同输入图像的权值数据分布和特征形态.

1.3.3. SimAM注意力模块

在深度学习算法中，注意力机制可以促进检测网络捕获与任务相关的特征信息，抑制无关背景因素的干扰. 挤压激励(squeeze and excitation network, SE)模块^[24]、CBAM^[25]注意力机制通常只能沿着空间或通道维度来细化特征，限制了对于注意力权重学习的灵活性，而全局注意力机制(global attention mechanism, GAM)^[26]、ACmix模块^[27]虽然对特征的捕获能力强，但结构复杂且参数量大. 区别于上述注意力机制模块，SimAM注意力模块^[28]在保持轻量级属性的同时，可以通过生成全三维权重来加强网络的全局信息感知能力. 本文在视觉检测网络的颈部集成了3组SimAM注意力模块，在不额外增加参数的情况下，引导视觉检测网络将目标感知区域聚焦于关键装备与作业人员，进一步降低煤矿综掘工作面的复杂背景干扰. SimAM注意力模块的结构如图4所示. 图中，H、W、C分别为输入特征图的高、宽与通道数.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 SimAM模块的结构

Fig.4 Structure of SimAM module

图4中，通过基于视觉神经科学理论的SimAM注意力模块，可以直接提取输入特征图在通道、空间与特征点3个维度上的信息，融合生成三维权重. 利用扩展后的三维权重，对输入特征图进行加权聚合并，以能量函数的形式向下传播. 将经sigmoid函数得到的各神经元权值和原始特征图进行点积运算，以输出聚焦关键目标感知区域的细化特征图. SimAM注意力模块的计算过程如下所示：

(1)$ \tilde {\boldsymbol{X}} = {\mathrm{sigmoid}}\left( {\frac{1}{{\boldsymbol{E}}}} \right) \cdot {\boldsymbol{X}} . $

式中：$ {\boldsymbol{X }}$为所有输入特征集合；$ \tilde {\boldsymbol{X}} $为所有输出特征集合；$ \cdot $为点积运算；$ {\boldsymbol{E}} $为所有跨通道与空间维度的能量函数值$ e_t^ * $的集合； $ {\mathrm{sigmoid}} $函数可以将输入值映射到(0,1.0)，用于限制$ {\boldsymbol{E}} $可能出现的过大值. 其中，$ e_t^ * $的计算公式为

(2)$ e_t^ * = \frac{{4({\sigma ^2}+\lambda )}}{{{{(t - \mu )}^2}+2{\sigma ^2}+2\lambda }} . $

式中：$ t $为输入特征$ {\boldsymbol{X}} $单个通道中的目标神经元；$\mu $和${\sigma ^2}$分别为单个通道中除$ t $外所有其他神经元$ {x_i} $的均值和方差，

$\mu = \frac{1}{M}\displaystyle \sum_{i = 1}^{M - 1} {{x_i}} ,\;{\sigma ^2} = \dfrac{1}{M} \sum\limits_{i = 1}^{M-1} {({x_i} - \mu )}^2,$

其中M为单个通道上所有神经元的数量，M = H×W.

1.3.4. 解耦检测头

如图5(a)所示，在YOLO系列检测算法^[18,29-32]中，普遍采用耦合检测头提取检测结果，输出待检测目标的类别标签、位置信息与置信度. 在耦合检测头中，分类任务与回归任务共享同一组特征权重参数，但两项任务本身对特征图的关注区域存在明显差异. 当将二者进行耦合计算时，易引起特征需求冲突与误差信息交叉干扰的问题，加之煤矿综掘工作面粉尘浓度高、人机多目标混杂、目标间遮挡等因素的干扰，极大加剧了网络对关键装备与作业人员的分类与定位精度损失. 在煤矿综掘工作面视觉检测网络(CMCE-Net)的检测头部，引入解耦检测头以实现对不同层级特征图的并行处理，避免耦合检测头所造成的性能损失. 如图5(b)所示，解耦检测头利用1个1×1的CBL模块将多种维度的输入特征图统一映射为H×W×256的固定维度，再分别利用2条独立分支中的2组3×3的CBL模块同步执行分类与回归操作，通过3个1×1的Conv模块独立输出目标的类别标签、位置信息与置信度.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 耦合与解耦检测头结构的示意图

Fig.5 Schematic diagram of coupled and decoupled detection head structure

2. 实验与分析

2.1. 实验数据集

煤矿综掘工作面数据集来源于山西矿区、淮南矿区与淮北矿区不同时段的综掘作业监控视频，将该数据集用于后续的消融实验与对比实验. 对所采集的视频进行剪辑处理，从中筛选出包括掘进作业、人工支锚作业与机载支锚作业场景的视频片段(见图6). 由于视频中相邻帧图像的相似程度较高，凭借OpenCV库以抽帧方式将视频片段转化为2000张图像，并将该2 000张图像构成的数据集命名为煤矿综掘工作面数据集，按照7∶2∶1的比例将数据集划分为训练集、验证集和测试集. 采用LabelImg软件对数据集中的作业人员(person)、机载式锚杆钻机(A-jumbolter)、手持式锚杆钻机(H-jumbolter)、掘进机截割头(R-cutting)以及支护架(support)在内的5类关键目标进行标注(见图7)，且共计标注的目标样本数量为6 440，其中person、A-jumbolter、H-jumbolter、R-cutting与support 5类关键目标的占比分别为57.7%、18.3%、9.4%、7.1%与7.5%.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 煤矿掘进、人工支锚与机载支锚作业场景

Fig.6 Excavating, anchor support and airborne anchor support operation scenes in coal mine

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 煤矿综掘工作面数据集的标注

Fig.7 Annotation of coal mine comprehensive excavation working face data set

采用PASCAL VOC2007与PASCAL VOC2012 2种公共数据集，验证检测模型的鲁棒性与泛化能力. PASCAL VOC2007与PASCAL VOC2012数据集是由PASCAL VOC系列世界级计算机视觉挑战赛推出的2种目标检测领域的标准数据集. 2种数据集均包含person、bird、cat、cow等日常生活场景中常见的20个目标类别，其中PASCAL VOC2007共包含9 963张图像，并标注有24 640个目标物体. PASCAL VOC2012包含挑战赛2008—2012年的所有图像，共23 080张，并标注有54 900个目标物体. 按照此2种公共数据集默认划分的训练集、验证集与测试集，对检测模型进行性能测试实验. PASCAL VOC2007的训练集、验证集与测试集默认包含的图像数量分别为2 501、2 510与4 652；PASCAL VOC2012的训练集、验证集与测试集默认包含的图像数量分别为5 171、5 832与11 540.

2.2. 实验环境

基于AutoDL云服务器开展针对视觉检测网络(CMCE-Net)的消融实验与对比实验，具体的训练环境包括Ubuntu20.04操作系统、Intel(R) Xeon(R) Platinum 8350C CPU、RTX 3090 (24GB) GPU、Python 3.8语言、Cuda 11.3加速器和Pytorch 1.11.0算法框架. 网络训练参数的设置如下：输入图像尺寸为640像素×640像素，批量大小为32，初始学习率为0.001，动量因子为0.937，权重衰减因子为0.000 5，训练过程迭代次数为300.

基于NVIDIA Jetson Xavier NX控制平台，开展针对检测网络的视觉感知终端嵌入式实验. 该平台的硬件部分采用6核的NVIDIA Carmel ARM®v8.2 64-bit CPU、384核的NVIDIA VoltaTM GPU、7路VLIW视觉处理器，软件部分采用Ubuntu 20.04 OS系统、Python 3.8语言、CUDA 11.4加速器及PyTorch 1.11.0的深度学习框架.

2.3. 实验评价指标

在目标检测领域，通常采用平均检测精度均值mAP(mean average precision)、平均检测精度AP(average precision)、检测准确率P(precision)、检测召回率R(recall)、内存、参数量、每秒浮点运算次数FLOPs(floating point operations per second)与帧率作为实验评价指标^[30]，mAP_0.5、mAP_0.75、mAP_0.5∶0.95分别为交并比阈值为0.5、0.75、0.5~0.95时的平均精度，综合评价模型的检测性能. 相关评价指标的计算如下所示：

(3)$ P = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FP}}}} , $

(4)$ R = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}} , $

(5)$ {{{\text{AP}}}} = \int_0^1 {P(R){\mathrm{d}}R} , $

(6)$ {{{\text{mAP}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{{\text{AP}}_i}}} . $

式中：TP为被检测为正确的目标数量；FP为被误检为正确的目标数量；FN为漏检的目标数量；n为目标类别数；$ {{{\text{AP}}_i}} $为第i种类别的平均检测精度.

2.4. 实验结果分析

2.4.1. 消融实验

为了验证各优化模块对模型检测性能提升的有效性，基于煤矿综掘工作面数据集以相同的训练策略开展消融实验，实验结果如图8~11与表1所示. 图中，N_i为迭代次数.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 消融实验的mAP_0.5曲线图

Fig.8 mAP_0.5 curve of ablation experiment

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 模型A与模型B的特征提取模块的输出特征图

Fig.9 Output feature map of feature extraction module for model A and model B

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 模型B与模型C的热力图

Fig.10 Heat map of model B and model C

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 分类与回归损失曲线

Fig.11 Classification and regression loss curve

表 1 消融实验结果

Tab.1 Result of ablation experiment

模型	优化方法	AP_0.5/%					mAP_0.5/%
模型	优化方法	person	R-cutting	A-jumbolter	H-jumbolter	support	mAP_0.5/%
A	YOLOv7-tiny (基线模型)	81.9	87.4	85.7	80.8	85.5	84.3
B	模型A+ELAN-DS	82.5	89.7	87.9	83.8	86.5	86.1
C	模型B+SimAM	83.9	88.9	92.7	81.7	89.8	87.4
D	模型C+D-Detection	83.9	92.3	93.5	82.6	95.1	89.5

新窗口打开| 下载CSV

图8和表1中，模型A为YOLOv7-tiny基线模型，模型B~D依次添加了ELAN-DS模块、SimAM注意力模块与解耦检测头结构，且模型D为最终所构建的CMCE-Net模型. 图9~11中，分别利用特征图、热力图与损失曲线，以表征各优化模块对模型检测性能的提升.

1）模型A→模型B. 在利用重新构建的ELAN-DS模块替换ELAN模块后，模型B的mAP_0.5曲线在第200轮迭代后逐步攀升高于模型A(见图8)，mAP_0.5从84.3%提升至86.1%，且对5类关键目标的检测精度均有所提升. 此外，结合图9可见，在高粉尘与光照不均的复杂背景中，模型A的5组ELAN模块所输出的特征图仅覆盖了目标R-cutting与person的少量特征激活点与模糊边界，模型B的5组ELAN-DS模块所输出的特征图对目标R-cutting与person的特征激活点显著增加且目标轮廓更加清晰. 该结果表明，ELAN-DS模块利用DSConv的可变量化核与分布移位操作，可以显著增强网络的特征提取与表达能力.

2）模型B→模型C. 在网络颈部集成SimAM模块后，模型C的mAP_0.5曲线在第200轮迭代后逐步攀升高于模型B(见图8)，mAP_0.5从86.1%提升至87.4%，且将A-jumbolter与support的AP_0.5提升了4.8%与3.3%. 由图10可见，在人机多目标混杂的支锚作业场景中，模型B仅凭反复的卷积运算，难以聚焦目标特征区域；模型C对目标person与A-jumbolter的感知热度更高，感知区域更集中于目标本身. 该结果表明, SimAM模块可以增强网络对目标关键特征的辨识能力与关注度.

3）模型C→模型D. 在网络头部采用解耦检测头替换耦合检测头后，模型D的mAP_0.5曲线在第200轮迭代后逐步攀升高于模型C(见图8)，mAP_0.5从87.4%大幅提升至89.5%，且将R-cutting与support的AP_0.5显著提升了3.4%与5.3%. 此外，结合图11可见，相较于模型C，模型D所对应的分类损失L_c曲线与回归损失L_r曲线的下降速度明显更快且收敛损失更小. 该结果表明，解耦检测头有效解决了因分类与回归任务的耦合误差干扰所导致的检测精度降低难题，减小了检测网络的分类与回归损失.

综合上述分析，ELAN-DS、SimAM注意力机制与解耦检测头3种优化模块对网络检测性能的提升均有贡献，在提升检测网络特征提取与目标特征感知区域聚焦能力的同时，减小了网络训练过程中的分类与回归损失.

2.4.2. 对比实验

为了进一步探究CMCE-Net检测性能的优越性与可靠性，选取Faster RCNN~CenterNet^[33-37] 4种经典检测算法，YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法，并与CMCE-Net算法在煤矿综掘工作面数据集、公共数据集上进行对比实验，实验结果如图12、表2、表3所示. 表中，T1表示person，T2表示R-cutting，T3表示A-jumbolter，T4表示H-jumbolter，T5表示support，N_p为参数量.

表 2 煤矿综掘工作面数据集的对比实验结果

Tab.2 Result of comparison experiment on coal mine comprehensive excavation working face data set

模型	AP_0.5/%					mAP_0.5/%	mAP_0.75/%	mAP_0.5:0.95/%	N_p/10⁶	FLOPs/10⁹
模型	T1	T2	T3	T4	T5	mAP_0.5/%	mAP_0.75/%	mAP_0.5:0.95/%	N_p/10⁶	FLOPs/10⁹
Faster RCNN	59.7	64.3	60.0	59.3	64.9	61.6	33.7	27.1	28.3	940.9
DETR	62.7	66.9	68.6	45.6	79.3	64.6	36.5	29.7	36.7	114.2
SSD	75.0	82.0	79.0	78.0	92.0	81.1	60.2	53.9	24.2	61.2
CenterNet	84.1	80.3	80.8	81.7	86.9	82.8	63.4	56.5	32.7	70.2
YOLOX-tiny	81.0	82.0	88.5	82.4	92.0	85.2	69.7	62.6	5.0	15.2
YOLOv5s	85.6	83.8	88.1	80.7	93.6	86.4	70.7	63.7	7.0	15.8
YOLOv7-tiny	81.9	87.4	85.7	80.8	85.5	84.3	68.7	61.9	6.0	13.1
YOLOv8s	84.3	87.6	86.2	84.9	92.2	87.0	71.5	65.2	11.1	28.7
CMCE-Net	83.9	92.3	93.5	82.6	95.1	89.5	73.5	66.3	12.6	21.9

新窗口打开| 下载CSV

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 目标检测算法对比实验的mAP_0.5曲线图

Fig.12 mAP_0.5 curve of comparison experiment for target detection algorithm

表 3 公共数据集的对比实验结果

Tab.3 Result of comparison experiment on public data set

模型	PASCAL VOC2007		PASCAL VOC2012
模型	mAP_0.5/%	mAP_0.5:0.95/%	mAP_0.5/%	mAP_0.5:0.95/%
YOLOX-tiny	70.3	43.0	69.5	46.5
YOLOv5s	70.6	43.6	70.1	47.0
YOLOv7-tiny	67.5	42.5	65.1	44.7
YOLOv8s	70.9	44.1	70.3	48.3
CMCE-Net	72.7	46.0	71.5	49.4

新窗口打开| 下载CSV

图12和表2中，Faster RCNN与DETR 2种算法的mAP_0.5曲线远低于其他7种检测算法，mAP_0.75与mAP_0.5:0.95均低于50.0%，同时参数量与计算量极高. SSD与CenterNet 2种算法的mAP_0.5曲线在第200轮迭代后逐步稳定在81.1%与82.8%，但mAP_0.75与mAP_0.5:0.95分别低于65.0%与60.0%，参数量与计算量远高于YOLOX-tiny~CMCE-Net的5种检测算法. 虽然YOLOX-tiny~YOLOv7-tiny 3种算法的参数量与计算量较小，但稳定后的mAP_0.5曲线以及mAP_0.75、mAP_0.5:0.95和对5类关键目标的AP_0.5低于YOLOv8s与CMCE-Net 2种算法. 虽然CMCE-Net的参数量略高于YOLOv8s，但计算量与检测精度均优于YOLOv8s，且相较于YOLOv8s，CMCE-Net的mAP_0.5、mAP_0.75、mAP_0.5:0.95和对R-cutting、A-jumbolter、support 3类目标的AP_0.5分别高2.5%、2.0%、1.1%、4.7%、7.3%与2.9%. 综合上述结果分析可知，Faster RCNN、DETR、SSD与CenterNet 4种算法对嵌入式平台的计算能力与存储空间的要求极高且检测精度较低，不利于检测网络的迁移部署. YOLOX-tiny~YOLOv8s 4种算法模型的复杂度较低，但检测精度均低于CMCE-Net，难以适应煤矿掘进与支锚作业的复杂工况与恶劣环境，极易引起漏检与误检问题. 本文选用综合检测性能最佳且模型复杂度适中的CMCE-Net，开展后续的视觉感知终端嵌入式实验，实现煤矿复杂背景中对关键装备与作业人员的准确识别与定位.

为了验证CMCE-Net算法的可靠性，选取模型检测精度较高且模型复杂度相近的YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法，与CMCE-Net算法在PASCAL VOC2007与PASCAL VOC2012 2种公共数据集上开展检测精度的对比实验. 表3中，YOLOX-tiny、YOLOv5s与YOLOv8s 3种算法在PASCAL VOC2007与PASCAL VOC2012 2种公共数据集上的mAP_0.5与mAP_0.5:0.95相近，但均低于CMCE-Net算法. CMCE-Net算法在PASCAL VOC2007与PASCAL VOC2007数据集上的mAP_0.5与mAP_0.5:0.95分别达到72.7%、46.0%以及71.5%、49.4%，且相较于YOLOv7-tiny算法分别高5.2%、3.5%以及6.4%、4.7%. 综合上述对比分析可见，与YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法相比，CMCE-Net在公共数据集上具有最高的检测精度，泛化能力强且可靠性最佳.

2.4.3. 嵌入式实验与检测验证

将训练后的CMCE-Net迁移部署至视觉感知终端的NVIDIA Jetson Xavier NX控制板上，CMCE-Net的模型参数量、浮点运算量与权重文件大小分别为12.6×10⁶、21.9×10⁹与31.0 MB. 选取8段包含煤矿井下综掘工作面实际掘进与支锚作业的视频，对模型在不同分辨率下的检测性能进行测试，测试结果如表4所示.表中，v_d为平均检测速度，t_in为平均推理时间，BS为样本批量.

表 4 CMCE-Net的性能测试结果

Tab.4 Performance test result of CMCE-Net

分辨率	v_d/(帧·s⁻¹)	t_in/ms	BS
640×360 (360像素)	33.4	26.0	32
850×480 (480像素)	31.9	27.3	32
1 280×720 (720像素)	18.7	49.1	32
1 920×1 080 (1 080像素)	9.6	99.1	32

新窗口打开| 下载CSV

表4中，经测试发现，当数据样本批量设定为32时，NVIDIA Jetson Xavier NX控制板的GPU利用率最高. 随着分辨率的提升，在视觉感知终端平台上，CMCE-Net的检测速度逐渐下降，推理时间逐渐上升. 参考煤矿监控视频的实时监测帧率(24帧/s)，当检测速度≥24帧/s时，可以实现实时检测. 在视觉感知终端上，本文所提的CMCE-Net更适用于分辨率为360~480像素的KBA12(A)、KBA127(B)、KBA18(C)等型号的海康威视矿用本安防爆摄像仪.

此外，为了进一步验证CMCE-Net在煤矿实际作业场景中的检测效果，在视觉感知终端平台上，对检测精度较高的YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法与CMCE-Net算法进行对比测试，结果如图13所示.

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 4种YOLO系列检测算法与CMCE-Net的对比测试结果

Fig.13 Comparison test result of four YOLO series detection algorithms and CMCE-Net

图13(a)~(c)分别为光照不均、高粉尘与人机多目标3种复杂作业工况下的4种YOLO系列算法与CMCE-Net算法对关键装备与作业人员的检测结果，具体的对比测试分析如下. 1) 在光照不均的环境中，YOLOv5s与YOLOv8s对目标A-jumbolter均存在漏检情况，CMCE-Net对person、A-jumbolter与R-cutting 3类目标的检测精度均高于YOLOX-tiny与YOLOv7-tiny，尤其对目标A-jumbolter的检测精度分别高出12.0%与19.0%. 2) 在高粉尘环境中，YOLOX-tiny与YOLOv7-tiny对目标R-cutting的检测精度为87.0%与89.0%，YOLOv5s、YOLOv8s与CMCE-Net对目标R-cutting的检测精度相近且均大于90.0%. 3) 在人机多目标混杂环境中，多种目标间均存在不同程度的遮挡，YOLOvX-tiny与YOLOv8s对被遮挡目标H-jumbolter的检测精度仅为81.0%与86.0%，YOLOv5s、YOLOv7-tiny与CMCE-Net对person、H-jumbolter与support 3类目标的检测精度均大于90.0%. 综合上述分析可见，相较于YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法，CMCE-Net在3种复杂作业环境中对person~support 5类关键目标的检测效果最佳，可以实现对关键装备与作业人员的稳定检测与精准定位.

3. 结　论

(1)基于YOLOv7-tiny算法，构建煤矿综掘工作面视觉检测网络(CMCE-Net). 采用ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头结构，极大提升了网络在目标多层级特征提取、目标感知区域快速聚焦以及分类与回归任务并行处理三方面的能力，解决了煤矿综掘工作面因复杂作业工况与恶劣环境因素所导致的YOLOv7-tiny算法检测性能急剧下降问题.

(2)基于AutoDL云服务器与煤矿综掘工作面数据集，开展消融实验与对比实验. 实验结果表明，ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头结构3项优化模块对网络检测性能的提升均有贡献，分别将检测精度(mAP_0.5)提升了1.8%、1.3%与2.1%. CMCE-Net的检测精度、参数量、计算量与内存占用分别为89.5%、12.6×10⁶、22.1×10⁹与31.0 MB，相较于Faster RCNN~YOLOv8s的8种检测算法，综合检测性能最佳，模型复杂度处于较低水平，更适用于煤矿综掘工作面的多目标检测任务.

(3)将CMCE-Net嵌入视觉感知终端平台，利用测试集图像对系统的检测性能进行测试. 测试结果表明，在视觉感知终端平台上，CMCE-Net对测试集图像的实时检测速度可达27.9帧/s，内存占用仅为31.0 MB，可以满足煤矿工程应用的实时性要求. CMCE-Net在煤矿光照不均、高粉尘与人机多目标混杂的复杂环境中，可以实现对关键装备与作业人员的准确识别与定位，尤其在人机多目标混杂的工况下，对各类目标的检测精度均大于90.0%，验证了视觉感知系统良好的检测性能、环境适应性与鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

程德强, 寇旗旗, 江鹤, 等

全矿井智能视频分析关键技术综述

[J]. 工矿自动化, 2023, 49 (11): 1- 21