面向煤矿综掘工作面复杂环境的视觉感知系统
Visual perception system for complex environment of coal mine comprehensive excavation working face
通讯作者:
收稿日期: 2024-03-19
基金资助: |
|
Received: 2024-03-19
Fund supported: | 安徽省高等学校科学研究资助项目(2022AH050834);国家自然科学基金资助项目(52304166,52274153);深部煤矿采动响应与灾害防控国家重点实验室开放基金资助项目(SKLMRDPC22KF24);安徽理工大学矿山智能技术与装备省部共建协同创新中心开放基金资助项目(CICJMITE202206);安徽理工大学引进人才科研启动基金资助项目(2022yjrc61). |
作者简介 About authors
苏国用(1990—),男,讲师,博士,从事煤矿智能感知与控制系统的研究.orcid.org/0000-0001-7202-0922.E-mail:
针对煤矿恶劣环境下视觉检测算法鲁棒性不足的难题,提出面向煤矿综掘工作面复杂环境的视觉感知系统. 该系统采用ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头对YOLOv7-tiny算法进行优化,构建煤矿综掘工作面视觉检测网络(CMCE-Net). 将CMCE-Net迁移部署到视觉感知终端平台内,测试CMCE-Net在煤矿实际作业工况下的检测性能,基于煤矿综掘工作面数据集开展验证实验. 实验结果表明,CMCE-Net的检测精度达到89.5%,相较于YOLOv7-tiny算法提升了5.2%. 与Faster RCNN、YOLOv7-tiny、YOLOv8s等8种算法相比,综合检测性能最佳,模型复杂度处于较低水平. 在视觉感知终端平台内,CMCE-Net对测试视频的检测速度最高达到33.4 帧/s,在人机多目标混杂工况下,CMCE-Net对装备与人员的检测精度均大于90.0%.
关键词:
A visual perception system for the complex environment of the coal mine comprehensive excavation working face was proposed aiming at the problem of insufficient robustness of visual detection algorithms in the harsh environment of coal mines. ELAN-DS feature extraction module, SimAM attention module with decoupled detection head were used to optimize the YOLOv7-tiny algorithm in order to construct the coal mining comprehensive excavation face visual inspection network (CMCE-Net). CMCE-Net was migrated and deployed into the visual perception terminal platform in order to test the detection performance of CMCE-Net under the actual working conditions in coal mines. Validation experiments were conducted based on the data set of coal mine comprehensive excavation working face. The experimental results showed that the detection accuracy of CMCE-Net reached 89.5%, which was a 5.2% improvement compared with the YOLOv7-tiny algorithm. The combined detection performance was the best and the model complexity was at a lower level compared with eight algorithms such as Faster RCNN, YOLOv7-tiny and YOLOv8s. The detection speed of CMCE-Net on the test video reached up to 33.4 frames/s within the visual perception terminal platform, and the detection accuracy of CMCE-Net on the equipment and personnel was more than 90.0% under the human-machine multi-target mixing working condition.
Keywords:
本文引用格式
苏国用, 胡坤, 王鹏彧, 赵东洋, 张辉.
SU Guoyong, HU Kun, WANG Pengyu, ZHAO Dongyang, ZHANG Hui.
近年来,基于视觉信息的目标检测技术已广泛应用于采煤、掘进、巡检等煤矿场景. 传统的目标检测模型利用人工设计特征[4]和机器学习分类器[5],实现对目标的识别与定位[6],但该检测模型在矿井实际应用中存在复杂度高、参数量大、鲁棒性差、检测效率低等问题. 相较于传统的目标检测模型,在对象级特征提取与描述中,基于深度学习的目标检测模型凭借自适应特征学习[7]、多尺度信息整合[8]、端对端的高效网络训练方法[9]等优势,逐步成为研究热点. 郭永存等[10]提出基于YOLOv4-tiny-4S的煤矿电机车多目标检测模型,提升了电机车对行人、信号灯与碎石的实时检测精度. Wang等[11]针对煤与矸石粘连与半遮档导致的识别精度降低难题,提出基于Mask RCNN的煤矸图像实例分割网络. 上述算法在工况条件良好的作业场景中检测效果较好,但在煤矿综掘工作面中,受光照不均、高粉尘的恶劣环境因素干扰,视频图像采集终端易出现成像模糊、色彩辨识度低、对比度差等问题,导致目标检测模型的性能急剧下降. 为了提升目标检测模型对煤矿复杂环境下关键目标的识别与定位能力[12-13],国内外学者将图像增强算法、注意力机制、特征金字塔结构等与深度学习算法相结合[14-15]. 张夫净等[16]结合超分辨率重构技术、坐标注意力机制与YOLOv5s算法,实现了不同光照条件下掘进巷道支护钢带的锚孔识别与定位. Zhao等[17]针对煤矿恶劣环境中的关键目标感知难题,采用密集连接卷积网络、加权双向特征金字塔网络,对YOLOv5s算法进行优化,实现了煤矿恶劣环境中的多目标实时检测任务.
基于上述研究的启发,针对煤矿综掘工作面光照不均、高粉尘、人机多目标混杂分布的恶劣环境下视觉检测算法鲁棒性不足的难题,本文提出面向煤矿综掘工作面复杂环境的视觉感知系统. 该系统利用融合分布移位卷积(distribution shifting convolution, DSConv)的高效特征聚合模块(ELAN-DS)、无参注意力模块(simple and parameter-free attention module, SimAM)与解耦检测头(decoupled detection head, D-Deteciton),对YOLOv7-tiny算法进行优化,构建煤矿综掘工作面视觉检测网络(CMCE-Net). 联合基于NVIDIA Jetson Xavier NX控制板的视觉感知终端平台,实现对煤矿复杂工况条件下关键装备与作业人员的实时检测任务,为煤矿恶劣环境下的安全生产提供技术支持与性能保障.
1. 煤矿综掘工作面的视觉感知系统
1.1. 特性分析与问题描述
在煤矿综掘工作面中,针对掘进与支锚作业2种复杂作业场景的视觉感知研究,主要以掘进机截割头、手持式锚杆钻机、机载式锚杆钻机、支护架与作业人员5类关键目标为研究对象,具体分析如下. 1) 装备作业特性分析. 在掘进与支锚破岩作业过程中产生大量粉尘,极易形成高粉尘的恶劣工况. 2) 人员作业特性分析. 掘进与支锚装备均需要人工现场操作,极易引起人员与装备间的重叠与遮挡,进而出现人机多目标混杂分布的复杂作业场景. 同时,由于煤矿综掘工作面的人造光源有限,且时常发生交叉与晃动,极易引起光照不均的工况.
综上,煤矿综掘工作面复杂环境的视觉感知,主要面临以下难题. 1) 受煤矿综掘工作面高粉尘与光照不均的恶劣因素干扰,导致目标成像出现纹理信息缺失、边缘模糊的问题,不利于检测模型对目标复杂特征信息的学习与提取. 2) 检测模型在对目标进行特征提取的过程中保留了大量冗余的背景信息,加之人机多目标混杂分布的影响,导致检测网络仅通过反复的卷积处理,难以对各目标的关键特征区域进行聚焦. 3) 在检测输出过程中,检测模型的耦合头部对分类与回归任务的联合处理极易引起2种任务误差的相互干扰,加之煤矿综掘工作面的恶劣因素干扰,导致检测模型对各目标的分类与定位损失急剧上升.
1.2. 视觉感知系统的总体架构
为了解决上述难题,根据关键装备与人员作业特性,建立煤矿综掘工作面的视觉感知系统. 该系统主要由视觉感知终端、数据集与视觉检测网络3部分组成,具体内容如图1所示.
图 1
图 1 煤矿综掘工作面的视觉感知系统架构
Fig.1 Visual perception system architecture for coal mine comprehensive excavation working face
图1中,视觉感知系统的工作流程通过虚线箭头与长短划线箭头进行指示说明,具体分析如下. 利用煤矿工业计算机工作站调用多组防爆监控摄像仪,实时采集煤矿综掘工作面的作业视频,通过提取多帧视频图像构建数据集. 将数据集中的训练集输入至视觉检测网络中进行检测训练,利用主干网络、颈部网络与头部,对图像中目标多层级特征进行提取融合与识别输出. 将训练后检测模型迁移部署至视觉感知终端的NVIDIA Jetson Xavier NX控制板上,利用控制板对测试视频进行实时检测. 控制板将检测结果解码上传至工业计算机工作站,由工作站对关键装备与作业人员的实时检测结果进行可视化呈现.
1.3. 煤矿综掘工作面的视觉检测网络
1.3.1. 视觉检测网络的整体结构
图 2
图 2 煤矿综掘工作面视觉检测网络的整体结构
Fig.2 Overall structure of visual detection network for coal mine comprehensive excavation working face
图2中,以YOLOv7-tiny算法为基线模型,CMCE-Net所采用的具体优化策略如下. 1) 在主干网络中,采用融合分布移位卷积DSConv的ELAN-DS特征提取模块替换高效层聚合网络(efficient layer aggregation network, ELAN)模块,凭借DSConv的可变量化核与分布移位机制,提升检测模型对目标复杂特征的提取能力. 2) 在颈部网络中,添加3组SimAM无参注意力机制,引导检测模型聚焦目标的关键特征区域,抑制煤矿综掘工作面的复杂背景信息干扰. 3) 在检测模型的头部,采用解耦检测头(D-detection)来替换耦合检测头(coupled detection head, C-detection),从而通过解耦检测头的2条独立分支并行处理分类与回归任务,以提升检测精度,降低目标的分类与定位损失.
1.3.2. ELAN-DS特征提取模块
随着以AlexNet[19]、ResNet[20]为代表的大型卷积神经网络的应用,计算机视觉中的高精度检测与深层特征提取技术取得了突破,但标准卷积层的过度堆叠给大型网络带来了高额的计算成本,大幅降低了运算速度与存储效率. 为了使网络“更小更快”,相关研究学者通过优化标准卷积块的结构并引入轻量化算子,构建“即插即用”的新型卷积模块,如MobileNet[21]中的深度可分离卷积、ShuffleNet[22]中的信道混洗与分组卷积. 上述轻量化卷积块在信息处理时会损失部分原始的特征信息,导致特征提取不充分. 此外,由于煤矿综掘工作面掘进与支锚作业过程中存在高粉尘、光照不均的恶劣环境因素干扰,导致装备与作业人员的特征对比度降低且复杂性提高,使得YOLOv7-tiny算法原有的ELAN模块仅凭借固定卷积核与单一线性的特征学习方式,难以在煤矿复杂背景中提取目标的有效特征信息. 为了在减少运算量的同时提升特征提取能力,将DSConv[23]模块与ELAN模块相结合,重新构建ELAN-DS特征提取模块,凭借DSConv的可变量化核(variable quantized kernel, VQK)与分布移位组件,提升检测网络对复杂特征的提取与学习能力. ELAN-DS模块与DSConv的整体结构如图3所示.
图 3
图 3 ELAN-DS模块与DSConv结构分解的示意图
Fig.3 Schematic diagram of ELAN-DS module and DSConv structure decomposition
图3(a)中,ELAN-DS模块由4个分布移位特征提取层(DS-BL)、1个拼接(Concatenation, Concat)模块与1个CBL层组成,DS-BL层由DSConv模块、批量归一化层(batch normalization, BN)与LeakyRelu激活函数组成. 在特征提取过程中,ELAN-DS模块利用分支1中的3个分布移位特征提取层(DS-BL)、2组残差边以及分支2中的1个DS-BL层,对输入图像同步进行特征提取. 将提取出的2组中间特征图进行拼接,通过CBL层的卷积操作得到最终输出. 图3(b)中,
1.3.3. SimAM注意力模块
在深度学习算法中,注意力机制可以促进检测网络捕获与任务相关的特征信息,抑制无关背景因素的干扰. 挤压激励(squeeze and excitation network, SE)模块[24]、CBAM[25]注意力机制通常只能沿着空间或通道维度来细化特征,限制了对于注意力权重学习的灵活性,而全局注意力机制(global attention mechanism, GAM)[26]、ACmix模块[27]虽然对特征的捕获能力强,但结构复杂且参数量大. 区别于上述注意力机制模块,SimAM注意力模块[28]在保持轻量级属性的同时,可以通过生成全三维权重来加强网络的全局信息感知能力. 本文在视觉检测网络的颈部集成了3组SimAM注意力模块,在不额外增加参数的情况下,引导视觉检测网络将目标感知区域聚焦于关键装备与作业人员,进一步降低煤矿综掘工作面的复杂背景干扰. SimAM注意力模块的结构如图4所示. 图中,H、W、C分别为输入特征图的高、宽与通道数.
图 4
图4中,通过基于视觉神经科学理论的SimAM注意力模块,可以直接提取输入特征图在通道、空间与特征点3个维度上的信息,融合生成三维权重. 利用扩展后的三维权重,对输入特征图进行加权聚合并,以能量函数的形式向下传播. 将经sigmoid函数得到的各神经元权值和原始特征图进行点积运算,以输出聚焦关键目标感知区域的细化特征图. SimAM注意力模块的计算过程如下所示:
式中:
式中:
其中M为单个通道上所有神经元的数量,M = H×W.
1.3.4. 解耦检测头
如图5(a)所示,在YOLO系列检测算法[18,29-32]中,普遍采用耦合检测头提取检测结果,输出待检测目标的类别标签、位置信息与置信度. 在耦合检测头中,分类任务与回归任务共享同一组特征权重参数,但两项任务本身对特征图的关注区域存在明显差异. 当将二者进行耦合计算时,易引起特征需求冲突与误差信息交叉干扰的问题,加之煤矿综掘工作面粉尘浓度高、人机多目标混杂、目标间遮挡等因素的干扰,极大加剧了网络对关键装备与作业人员的分类与定位精度损失. 在煤矿综掘工作面视觉检测网络(CMCE-Net)的检测头部,引入解耦检测头以实现对不同层级特征图的并行处理,避免耦合检测头所造成的性能损失. 如图5(b)所示,解耦检测头利用1个1×1的CBL模块将多种维度的输入特征图统一映射为H×W×256的固定维度,再分别利用2条独立分支中的2组3×3的CBL模块同步执行分类与回归操作,通过3个1×1的Conv模块独立输出目标的类别标签、位置信息与置信度.
图 5
图 5 耦合与解耦检测头结构的示意图
Fig.5 Schematic diagram of coupled and decoupled detection head structure
2. 实验与分析
2.1. 实验数据集
煤矿综掘工作面数据集来源于山西矿区、淮南矿区与淮北矿区不同时段的综掘作业监控视频,将该数据集用于后续的消融实验与对比实验. 对所采集的视频进行剪辑处理,从中筛选出包括掘进作业、人工支锚作业与机载支锚作业场景的视频片段(见图6). 由于视频中相邻帧图像的相似程度较高,凭借OpenCV库以抽帧方式将视频片段转化为
图 6
图 6 煤矿掘进、人工支锚与机载支锚作业场景
Fig.6 Excavating, anchor support and airborne anchor support operation scenes in coal mine
图 7
图 7 煤矿综掘工作面数据集的标注
Fig.7 Annotation of coal mine comprehensive excavation working face data set
采用PASCAL VOC2007与PASCAL VOC2012 2种公共数据集,验证检测模型的鲁棒性与泛化能力. PASCAL VOC2007与PASCAL VOC2012数据集是由PASCAL VOC系列世界级计算机视觉挑战赛推出的2种目标检测领域的标准数据集. 2种数据集均包含person、bird、cat、cow等日常生活场景中常见的20个目标类别,其中PASCAL VOC2007共包含9 963张图像,并标注有24 640个目标物体. PASCAL VOC2012包含挑战赛2008—2012年的所有图像,共23 080张,并标注有54 900个目标物体. 按照此2种公共数据集默认划分的训练集、验证集与测试集,对检测模型进行性能测试实验. PASCAL VOC2007的训练集、验证集与测试集默认包含的图像数量分别为2 501、2 510与4 652;PASCAL VOC2012的训练集、验证集与测试集默认包含的图像数量分别为5 171、5 832与11 540.
2.2. 实验环境
基于AutoDL云服务器开展针对视觉检测网络(CMCE-Net)的消融实验与对比实验,具体的训练环境包括Ubuntu20.04操作系统、Intel(R) Xeon(R) Platinum 8350C CPU、RTX
基于NVIDIA Jetson Xavier NX控制平台,开展针对检测网络的视觉感知终端嵌入式实验. 该平台的硬件部分采用6核的NVIDIA Carmel ARM®v8.2 64-bit CPU、384核的NVIDIA VoltaTM GPU、7路VLIW视觉处理器,软件部分采用Ubuntu 20.04 OS系统、Python 3.8语言、CUDA 11.4加速器及PyTorch 1.11.0的深度学习框架.
2.3. 实验评价指标
在目标检测领域,通常采用平均检测精度均值mAP(mean average precision)、平均检测精度AP(average precision)、检测准确率P(precision)、检测召回率R(recall)、内存、参数量、每秒浮点运算次数FLOPs(floating point operations per second)与帧率作为实验评价指标[30],mAP0.5、mAP0.75、mAP0.5∶0.95分别为交并比阈值为0.5、0.75、0.5~0.95时的平均精度,综合评价模型的检测性能. 相关评价指标的计算如下所示:
式中:TP为被检测为正确的目标数量;FP为被误检为正确的目标数量;FN为漏检的目标数量;n为目标类别数;
2.4. 实验结果分析
2.4.1. 消融实验
图 8
图 9
图 9 模型A与模型B的特征提取模块的输出特征图
Fig.9 Output feature map of feature extraction module for model A and model B
图 10
图 11
表 1 消融实验结果
Tab.1
模型 | 优化方法 | AP0.5/% | mAP0.5/% | ||||
person | R-cutting | A-jumbolter | H-jumbolter | support | |||
A | YOLOv7-tiny (基线模型) | 81.9 | 87.4 | 85.7 | 80.8 | 85.5 | 84.3 |
B | 模型A+ELAN-DS | 82.5 | 89.7 | 87.9 | 83.8 | 86.5 | 86.1 |
C | 模型B+SimAM | 83.9 | 88.9 | 92.7 | 81.7 | 89.8 | 87.4 |
D | 模型C+D-Detection | 83.9 | 92.3 | 93.5 | 82.6 | 95.1 | 89.5 |
1)模型A→模型B. 在利用重新构建的ELAN-DS模块替换ELAN模块后,模型B的mAP0.5曲线在第200轮迭代后逐步攀升高于模型A(见图8),mAP0.5从84.3%提升至86.1%,且对5类关键目标的检测精度均有所提升. 此外,结合图9可见,在高粉尘与光照不均的复杂背景中,模型A的5组ELAN模块所输出的特征图仅覆盖了目标R-cutting与person的少量特征激活点与模糊边界,模型B的5组ELAN-DS模块所输出的特征图对目标R-cutting与person的特征激活点显著增加且目标轮廓更加清晰. 该结果表明,ELAN-DS模块利用DSConv的可变量化核与分布移位操作,可以显著增强网络的特征提取与表达能力.
综合上述分析,ELAN-DS、SimAM注意力机制与解耦检测头3种优化模块对网络检测性能的提升均有贡献,在提升检测网络特征提取与目标特征感知区域聚焦能力的同时,减小了网络训练过程中的分类与回归损失.
2.4.2. 对比实验
表 2 煤矿综掘工作面数据集的对比实验结果
Tab.2
模型 | AP0.5/% | mAP0.5/% | mAP0.75/% | mAP0.5:0.95/% | Np/106 | FLOPs/109 | ||||
T1 | T2 | T3 | T4 | T5 | ||||||
Faster RCNN | 59.7 | 64.3 | 60.0 | 59.3 | 64.9 | 61.6 | 33.7 | 27.1 | 28.3 | 940.9 |
DETR | 62.7 | 66.9 | 68.6 | 45.6 | 79.3 | 64.6 | 36.5 | 29.7 | 36.7 | 114.2 |
SSD | 75.0 | 82.0 | 79.0 | 78.0 | 92.0 | 81.1 | 60.2 | 53.9 | 24.2 | 61.2 |
CenterNet | 84.1 | 80.3 | 80.8 | 81.7 | 86.9 | 82.8 | 63.4 | 56.5 | 32.7 | 70.2 |
YOLOX-tiny | 81.0 | 82.0 | 88.5 | 82.4 | 92.0 | 85.2 | 69.7 | 62.6 | 5.0 | 15.2 |
YOLOv5s | 85.6 | 83.8 | 88.1 | 80.7 | 93.6 | 86.4 | 70.7 | 63.7 | 7.0 | 15.8 |
YOLOv7-tiny | 81.9 | 87.4 | 85.7 | 80.8 | 85.5 | 84.3 | 68.7 | 61.9 | 6.0 | 13.1 |
YOLOv8s | 84.3 | 87.6 | 86.2 | 84.9 | 92.2 | 87.0 | 71.5 | 65.2 | 11.1 | 28.7 |
CMCE-Net | 83.9 | 92.3 | 93.5 | 82.6 | 95.1 | 89.5 | 73.5 | 66.3 | 12.6 | 21.9 |
图 12
图 12 目标检测算法对比实验的mAP0.5曲线图
Fig.12 mAP0.5 curve of comparison experiment for target detection algorithm
表 3 公共数据集的对比实验结果
Tab.3
模型 | PASCAL VOC2007 | PASCAL VOC2012 | |||
mAP0.5/% | mAP0.5:0.95/% | mAP0.5/% | mAP0.5:0.95/% | ||
YOLOX-tiny | 70.3 | 43.0 | 69.5 | 46.5 | |
YOLOv5s | 70.6 | 43.6 | 70.1 | 47.0 | |
YOLOv7-tiny | 67.5 | 42.5 | 65.1 | 44.7 | |
YOLOv8s | 70.9 | 44.1 | 70.3 | 48.3 | |
CMCE-Net | 72.7 | 46.0 | 71.5 | 49.4 |
图12和表2中,Faster RCNN与DETR 2种算法的mAP0.5曲线远低于其他7种检测算法,mAP0.75与mAP0.5:0.95均低于50.0%,同时参数量与计算量极高. SSD与CenterNet 2种算法的mAP0.5曲线在第200轮迭代后逐步稳定在81.1%与82.8%,但mAP0.75与mAP0.5:0.95分别低于65.0%与60.0%,参数量与计算量远高于YOLOX-tiny~CMCE-Net的5种检测算法. 虽然YOLOX-tiny~YOLOv7-tiny 3种算法的参数量与计算量较小,但稳定后的mAP0.5曲线以及mAP0.75、mAP0.5:0.95和对5类关键目标的AP0.5低于YOLOv8s与CMCE-Net 2种算法. 虽然CMCE-Net的参数量略高于YOLOv8s,但计算量与检测精度均优于YOLOv8s,且相较于YOLOv8s,CMCE-Net的mAP0.5、mAP0.75、mAP0.5:0.95和对R-cutting、A-jumbolter、support 3类目标的AP0.5分别高2.5%、2.0%、1.1%、4.7%、7.3%与2.9%. 综合上述结果分析可知,Faster RCNN、DETR、SSD与CenterNet 4种算法对嵌入式平台的计算能力与存储空间的要求极高且检测精度较低,不利于检测网络的迁移部署. YOLOX-tiny~YOLOv8s 4种算法模型的复杂度较低,但检测精度均低于CMCE-Net,难以适应煤矿掘进与支锚作业的复杂工况与恶劣环境,极易引起漏检与误检问题. 本文选用综合检测性能最佳且模型复杂度适中的CMCE-Net,开展后续的视觉感知终端嵌入式实验,实现煤矿复杂背景中对关键装备与作业人员的准确识别与定位.
为了验证CMCE-Net算法的可靠性,选取模型检测精度较高且模型复杂度相近的YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法,与CMCE-Net算法在PASCAL VOC2007与PASCAL VOC2012 2种公共数据集上开展检测精度的对比实验. 表3中,YOLOX-tiny、YOLOv5s与YOLOv8s 3种算法在PASCAL VOC2007与PASCAL VOC2012 2种公共数据集上的mAP0.5与mAP0.5:0.95相近,但均低于CMCE-Net算法. CMCE-Net算法在PASCAL VOC2007与PASCAL VOC2007数据集上的mAP0.5与mAP0.5:0.95分别达到72.7%、46.0%以及71.5%、49.4%,且相较于YOLOv7-tiny算法分别高5.2%、3.5%以及6.4%、4.7%. 综合上述对比分析可见,与YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法相比,CMCE-Net在公共数据集上具有最高的检测精度,泛化能力强且可靠性最佳.
2.4.3. 嵌入式实验与检测验证
将训练后的CMCE-Net迁移部署至视觉感知终端的NVIDIA Jetson Xavier NX控制板上,CMCE-Net的模型参数量、浮点运算量与权重文件大小分别为12.6×106、21.9×109与31.0 MB. 选取8段包含煤矿井下综掘工作面实际掘进与支锚作业的视频,对模型在不同分辨率下的检测性能进行测试,测试结果如表4所示.表中,vd为平均检测速度,tin为平均推理时间,BS为样本批量.
表 4 CMCE-Net的性能测试结果
Tab.4
分辨率 | vd/(帧·s−1) | tin/ms | BS |
640×360 (360像素) | 33.4 | 26.0 | 32 |
850×480 (480像素) | 31.9 | 27.3 | 32 |
1 280×720 (720像素) | 18.7 | 49.1 | 32 |
1 920×1 080 (1 080像素) | 9.6 | 99.1 | 32 |
表4中,经测试发现,当数据样本批量设定为32时,NVIDIA Jetson Xavier NX控制板的GPU利用率最高. 随着分辨率的提升,在视觉感知终端平台上,CMCE-Net的检测速度逐渐下降,推理时间逐渐上升. 参考煤矿监控视频的实时监测帧率(24帧/s),当检测速度≥24帧/s时,可以实现实时检测. 在视觉感知终端上,本文所提的CMCE-Net更适用于分辨率为360~480像素的KBA12(A)、KBA127(B)、KBA18(C)等型号的海康威视矿用本安防爆摄像仪.
此外,为了进一步验证CMCE-Net在煤矿实际作业场景中的检测效果,在视觉感知终端平台上,对检测精度较高的YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法与CMCE-Net算法进行对比测试,结果如图13所示.
图 13
图 13 4种YOLO系列检测算法与CMCE-Net的对比测试结果
Fig.13 Comparison test result of four YOLO series detection algorithms and CMCE-Net
图13(a)~(c)分别为光照不均、高粉尘与人机多目标3种复杂作业工况下的4种YOLO系列算法与CMCE-Net算法对关键装备与作业人员的检测结果,具体的对比测试分析如下. 1) 在光照不均的环境中,YOLOv5s与YOLOv8s对目标A-jumbolter均存在漏检情况,CMCE-Net对person、A-jumbolter与R-cutting 3类目标的检测精度均高于YOLOX-tiny与YOLOv7-tiny,尤其对目标A-jumbolter的检测精度分别高出12.0%与19.0%. 2) 在高粉尘环境中,YOLOX-tiny与YOLOv7-tiny对目标R-cutting的检测精度为87.0%与89.0%,YOLOv5s、YOLOv8s与CMCE-Net对目标R-cutting的检测精度相近且均大于90.0%. 3) 在人机多目标混杂环境中,多种目标间均存在不同程度的遮挡,YOLOvX-tiny与YOLOv8s对被遮挡目标H-jumbolter的检测精度仅为81.0%与86.0%,YOLOv5s、YOLOv7-tiny与CMCE-Net对person、H-jumbolter与support 3类目标的检测精度均大于90.0%. 综合上述分析可见,相较于YOLOX-tiny~YOLOv8s 4种YOLO系列检测算法,CMCE-Net在3种复杂作业环境中对person~support 5类关键目标的检测效果最佳,可以实现对关键装备与作业人员的稳定检测与精准定位.
3. 结 论
(1)基于YOLOv7-tiny算法,构建煤矿综掘工作面视觉检测网络(CMCE-Net). 采用ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头结构,极大提升了网络在目标多层级特征提取、目标感知区域快速聚焦以及分类与回归任务并行处理三方面的能力,解决了煤矿综掘工作面因复杂作业工况与恶劣环境因素所导致的YOLOv7-tiny算法检测性能急剧下降问题.
(2)基于AutoDL云服务器与煤矿综掘工作面数据集,开展消融实验与对比实验. 实验结果表明,ELAN-DS特征提取模块、SimAM注意力模块与解耦检测头结构3项优化模块对网络检测性能的提升均有贡献,分别将检测精度(mAP0.5)提升了1.8%、1.3%与2.1%. CMCE-Net的检测精度、参数量、计算量与内存占用分别为89.5%、12.6×106、22.1×109与31.0 MB,相较于Faster RCNN~YOLOv8s的8种检测算法,综合检测性能最佳,模型复杂度处于较低水平,更适用于煤矿综掘工作面的多目标检测任务.
(3)将CMCE-Net嵌入视觉感知终端平台,利用测试集图像对系统的检测性能进行测试. 测试结果表明,在视觉感知终端平台上,CMCE-Net对测试集图像的实时检测速度可达27.9帧/s,内存占用仅为31.0 MB,可以满足煤矿工程应用的实时性要求. CMCE-Net在煤矿光照不均、高粉尘与人机多目标混杂的复杂环境中,可以实现对关键装备与作业人员的准确识别与定位,尤其在人机多目标混杂的工况下,对各类目标的检测精度均大于90.0%,验证了视觉感知系统良好的检测性能、环境适应性与鲁棒性.
参考文献
全矿井智能视频分析关键技术综述
[J].
Overview of key technologies for mine-wide intelligent video analysis
[J].
矿井视觉计算体系架构与关键技术
[J].
Architecture and key technologies of coalmine underground vision computing
[J].
机器视觉感知理论与技术在煤炭工业领域应用进展综述
[J].
Review on the application of machine vision perception theory and technology in coal industry
[J].
Longitudinal tear detection of conveyor belt under uneven light based on Haar-AdaBoost and Cascade algorithm
[J].
煤矸分选机器人图像识别方法和系统
[J].
Image identification method and system for coal and gangue sorting robot
[J].
基于HOG特征的InSAR矿区开采沉陷盆地检测方法
[J].
A method of detecting the subsidence basin from InSAR interferogram in mining area based on HOG features
[J].
Video detection of foreign objects on the surface of belt conveyor underground coal mine based on improved SSD
[J].DOI:10.1007/s12652-020-02495-w [本文引用: 1]
基于图像融合和改进CornerNet-Squeeze的煤矿井下行人检测方法
[J].
A pedestrian target detection method for underground coal mine based on image fusion and improved CornerNet-Squeeze
[J].
Real-time detection of safety hazards in coal mines utilizing an enhanced YOLOv3 algorithm
[J].DOI:10.18280/ts.400424 [本文引用: 1]
基于改进YOLOv4–Tiny的矿井电机车多目标实时检测
[J].
Multi-object real-time detection of mine electric locomotive based on improved YOLOv4-Tiny
[J].
Multi-scale coal and gangue detection in dense state based on improved Mask RCNN
[J].
AI智能视频识别分析技术在智能化掘进的研究与应用
[J].
Research and application of AI intelligent video recognition analysis technology in intelligent excavation
[J].
综掘系统视觉处理技术研究现状及发展趋势
[J].
Research status and development trend of visual processing technology for fully mechanized excavation systems
[J].
基于Mask R-CNN的煤矿巷道掘进迎头裂隙检测与定位算法
[J].
Research on crack detection and localization for advancing face in coal mine roadways based on Mask R-CNN
[J].
Research on the detection method of coal mine roadway bolt mesh based on improved YOLOv7
[J].DOI:10.3390/electronics12143050 [本文引用: 1]
煤矿巷道支护钢带锚孔智能识别与定位
[J].
Intelligent identification and positioning of steel belt anchor hole in coal mine roadway support
[J].
Research on real-time perception method of key targets in the comprehensive excavation working face of coal mine
[J].
ImageNet classification with deep convolutional neural networks
[J].
Faster R-CNN: towards real-time object detection with region proposal networks
[J].DOI:10.1109/TPAMI.2016.2577031 [本文引用: 1]
/
〈 |
|
〉 |
