浙江大学学报(工学版), 2022, 56(11): 2156-2167 doi: 10.3785/j.issn.1008-973X.2022.11.006

机械与能源工程

基于混合域注意力YOLOv4的输送带纵向撕裂多维度检测

李飞,, 胡坤,, 张勇, 王文善, 蒋浩

1. 安徽理工大学 机械工程学院,安徽 淮南 232001

2. 深部煤矿采动响应与灾害防控国家重点实验室,安徽 淮南 232001

3. 安徽理工大学 环境友好材料与职业健康研究院,安徽 芜湖 241003

Multi-dimensional detection of longitudinal tearing of conveyor belt based on YOLOv4 of hybrid domain attention

LI Fei,, HU Kun,, ZHANG Yong, WANG Wen-shan, JIANG Hao

1. School of Mechanical Engineering, Anhui University of Science and Technology, Huainan 232001, China

2. State Key Laboratory of Mining Response and Disaster Prevention and Control in Deep Coal Mines, Anhui University of Science and Technology, Huainan 232001, China

3. Institute of Environment-friendly Materials and Occupational Health, Anhui University of Science and Technology, Wuhu, 241003, China

通讯作者: 胡坤,男,教授,从事智能矿山技术与装备研究. orcid.org/0000-0003-3144-6323. E-mail: hk924@126.com

收稿日期: 2021-11-29  

基金资助: 国家自然科学基金资助项目(51874004);国家重点研发计划资助项目(2020YFB1314203);安徽省重点研发计划资助项目(202004a07020043);芜湖市研究院研发专项基金资助项目(ALW2021YF10)

Received: 2021-11-29  

Fund supported: 国家自然科学基金资助项目(51874004);国家重点研发计划资助项目(2020YFB1314203);安徽省重点研发计划资助项目(202004a07020043);芜湖市研究院研发专项基金资助项目(ALW2021YF10)

作者简介 About authors

李飞(1995—),女,硕士生,从事带式输送机视觉检测研究.orcid.org/0000-0002-5432-8867.E-mail:2698341084@qq.com , E-mail:2698341084@qq.com

摘要

针对输送带纵向撕裂目标检测维度单一、模型复杂度高等问题,提出一种高效的MobileNetv3及YOLOv4集成网络输送带纵向撕裂多维度实时检测方法. 基于YOLOv4目标识别算法,通过将轻量化网络MobileNetv3代替CSPDarknet53作为骨干网络,结合高效通道域ECA模块和空间域注意力机制(STNet)构建混合域注意力网络(ECSNet),改进了MobileNetv3嵌入ECSNet,并且提升了模型对空间和通道的关注度. 引入深度可分离卷积块代替网络中3*3卷积,并将YOLOv4的检测头(Prediction Heads)缩减为2种尺度,轻量化模型降低网络复杂度和训练难度,完成ECSMv3_YOLOv4模型的搭建,使用K-means聚类6个Anchors预测目标框高宽,提高网络对表面撕裂的检测性能. 研制带式输送机多维度智能巡检样机,采集制作输送带多维度面的纵向撕裂数据集,开展网络模型的训练、测试、识别和定位实验. 结果表明,提出算法在测试集中的平均识别准确率为97.8%,识别速度为37 帧/s,模型的计算量和参数量为4.882 G和8.851 M,通过试验不同的网络模型效果和改变光照强度,该方法体现出检测精度高、速度快和轻量化等优点,具备更强的适应性和抗干扰能力.

关键词: 纵向撕裂 ; 多维度检测 ; MobileNetv3 ; 混合域注意力机制 ; YOLOv4 ; 轻量化

Abstract

An efficient MobileNetv3 and YOLOv4 integrated network multi-dimensional real-time detection method for longitudinal tearing of conveyor belt was proposed to aim at the problem of single dimension and high complexity of model in the detection of the longitudinal tearing target of the conveyor belt. The lightweight network MobileNetv3 based on the object detection algorithm of YOLOv4 was used to replace CSPDarknet53 as the backbone network of YOLOv4. The ECSNet was constructed by combining efficient channel domain ECA model and spatial transformer network (STNet). The ECSNet was embedded in MobileNetv3 to improve the attention of model to space and channels. The deep separable convolution block was introduced to replace the 3*3 convolution in the network and the Prediction Heads of YOLOv4 were reduced to two scales. The network model was lightened, the complexity and training difficulty were reduced and ECSMv3_YOLOv4 model was built. The K-means was used to cluster six Anchors to predict the height and width of the bounding box, which improved the detection performance of the network for surface tearing. The multi-dimensional intelligent inspection prototype of belt conveyor was developed, the longitudinal tear data set of multi-dimensional surface of conveyor belt was collected and made. The training, testing, identification and positioning experiments of network model were carried out. The results show that the average detection accuracy of the proposed algorithm in the test set is 97.8%, the recognition speed is 37 frame/s and the computational quantity and parameter quantity of the model are 4.882 G and 8.851 M respectively. By testing the effects of different network models and changing the light intensity, the method embodies the advantages of high detection accuracy, fast speed, lightweight and the proposed algorithm has stronger adaptability and anti-interference ability.

Keywords: longitudinal tear ; multi-dimensional detection ; MobileNetv3 ; Mixed domain attention mechanism ; YOLOv4 ; lightweight

PDF (8267KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李飞, 胡坤, 张勇, 王文善, 蒋浩. 基于混合域注意力YOLOv4的输送带纵向撕裂多维度检测. 浙江大学学报(工学版)[J], 2022, 56(11): 2156-2167 doi:10.3785/j.issn.1008-973X.2022.11.006

LI Fei, HU Kun, ZHANG Yong, WANG Wen-shan, JIANG Hao. Multi-dimensional detection of longitudinal tearing of conveyor belt based on YOLOv4 of hybrid domain attention. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(11): 2156-2167 doi:10.3785/j.issn.1008-973X.2022.11.006

矿井下带式输送机运行环境恶劣,输送带是承接物料关键的部分[1-2]. 从采掘机械运到输送机落料口的煤块会伴随有尖锐棱角物体(如槽钢和角钢等),并且落料口与两条输送带之间的首尾衔接处存在高度差,尖锐物体可以直接穿透或撕开输送带[3-4]. 纵向撕裂主要发生在机头和机尾装载点处,主要表现为出现较大裂纹或完全撕裂,产生运输隐患的同时降低运输效率,造成经济损失. 因此,研究输送带纵向撕裂的实时检测具有重要意义. 常见的输送带纵向撕裂检测方法有线圈检测法[5]、X光探伤[6]和磁力检测法[7]等,煤矿运输环境复杂有干扰性,这些方法因为稳定性和准确性低而不能满足需求. 传统的机器学习由人工制定学习特征量,进行图像的特征提取,目前以机器视觉技术为基础的输送带纵向撕裂检测得到发展. Yang等[8]提出红外和可见光融合的输送带纵向撕裂双目视觉检测方法,一定程度上提高了模型的检测精度;Hou等[9]提出多光谱视觉检测输送带纵向撕裂的方法,识别准确率达到92.04%;王等[10-11]搭建输送带纵向撕裂的检测平台,利用FAST角点检测和Hough变换算法实现无接触检测;Li等[12]提出基于多组激光的计算机视觉检测算法,准确分割激光条纹区域,定位检测输送带的撕裂区域. 上述方法普遍存在数据预处理复杂,只关注输送带单一维度面的撕裂,还伴随着检测速度慢以及精度低等问题.

深度学习中卷积神经网络凭借强大的特征提取能力和自主学习能力被广泛运用于矿井作业的检测任务,可快速实现目标的分类识别和定位. 目标检测算法主要包括Fast R-CNN[13]系列和Mask R-CNN[14]等为代表的二阶段检测,SSD[15]和YOLO[16]系列等为代表的一阶段检测算法. 由于输送带纵向撕裂检测的实时性要求较高,大多采用一阶段的目标检测算法. Yang等[17]提出改进SSD网络的微小部件缺陷检测算法,确定系统的最优带速为7.67 m/min;Li等[18]基于YOLOv3识别左右侧的托辊基座是否被遮盖,用于输送带跑偏监测;蒋等[19]在YOLOv4算法中嵌入scSE注意力模块,提升小目标物体的检测准确率;Woo等[20]提出CBAM混合域注意力机制,使模型沿着通道和空间2个独立维度依次推导. 为了降低模型复杂度的应用需求,一些轻量化的网络如MobileNet[21]和ShuffleNet[22]被提出,使网络模型在精度和速度间进行较好的平衡. 薄等[23]利用Mobilenetv2改进YOLOv3,在neck部分引入CBAM用于输送带运输中的杂物检测,提升检测精度和速度,但整个模型内存占用较大,不利于应用到移动端设备. 周等[24]改进YOLOv4检测输送带损伤,采用PANet结构进行4种尺度的特征层融合,提升检测精度达到96.68%的同时,忽略了算法增加的参数量并且计算复杂度较高.

本研究基于多维度检测点的工业相机采集的纵向撕裂图像制作数据集,以YOLOv4目标检测算法为基础,设计混合域注意力机制,嵌入Mobilenetv3作为骨干网络进行特征提取,提升网络对主要特征的学习能力,大量引入深度可分离卷积块,采用2种尺度的Prediction Heads和确定6个先验框参数,缩减模型参数量和提升模型检测精度,得到ECSMv3_YOLOv4模型. 通过搭建实验装置,研究变光照强度下的输送带表面撕裂检测效果,实现对裂纹类别和实际位置的检测,对比分析原始网络、改进的YOLOv4网络和YOLOX轻量型网络,结果表明ECSMv3_YOLOv4算法能显著提升检测精度,具有较低的复杂度、较高的检测速度及较低的计算量.

1. 混合注意力机制与改进Mobilenetv3

深度卷积神经网络中的注意力机制包括空间域注意力机制[25]、通道域注意力机制[26]和像素域注意力机制[27]等,其中空间域注意力机制能够根据任务需求,自适应地对图像进行空间变换与对齐,通道域注意力机制专注通道间的信息,增强有益通道特征且抑制无用通道特征.

1.1. 空间域注意力机制

基于仿射变换方法的空间变换网络(spatial transformer networks, STNet)结构如图1所示. 其中U是MobileNetv3作为骨干网络的中间层输入特征图,通过定位网络学习一组用于生成仿射变换的矩阵 $ {\boldsymbol{\theta}} $,对输入图片进行仿射变换,通过双线性插值的采样方法处理变换中出现的小数位置进行填充,得到新生成的输出特征图VV的通道数与U相同,且各通道进行的变换也相同.

图 1

图 1   空间域注意力机制STNet

Fig.1   Spatial attention mechanisms


仿射变换公式为

$ \left[ \begin{gathered} {\boldsymbol{x}}_{{i}}^{{s}} \\ {\boldsymbol{y}}_{{i}}^{{s}} \\ \end{gathered} \right] = {{T}}\left( {{G_{{i}}}} \right) = {\boldsymbol{\theta}} \left[ \begin{gathered} {\boldsymbol{x}}_{{i}}^{{t}} \\ {\boldsymbol{y}}_{{i}}^{{t}} \\ {{ }}{1} \\ \end{gathered} \right] = \left[ \begin{gathered} {{\boldsymbol{\theta}} _{{{11}}}}\;\;{{\boldsymbol{\theta}} _{{{12}}}}\;\;{{\boldsymbol{\theta}} _{{{13}}}} \\ {{\boldsymbol{\theta}} _{{{21}}}}\;\;{{\boldsymbol{\theta}} _{{{22}}}}\;\;{{\boldsymbol{\theta}} _{{{23}}}} \\ \end{gathered} \right]\left[ \begin{gathered} {\boldsymbol{x}}_{{i}}^{{t}} \\ {\boldsymbol{y}}_{{i}}^{{t}} \\ {{ }}{1} \\ \end{gathered} \right] . $

式中: $ ({\boldsymbol{x}}_i^s,{\boldsymbol{y}}_i^s) $为输入特征图U每个像素的坐标点; $ ({\boldsymbol{x}}_i^t,{\boldsymbol{y}}_i^t) $为输出特征图V每个像素的坐标点; $ {{T}}\left( {{G_{{i}}}} \right) $为仿射变换函数;采用二维仿射变换,则 $ {\boldsymbol{\theta}} $为一个2×3的矩阵.

空间域注意力机制使CNN网络有效利用数据的空间信息,赋予网络基于特征图自身进行空间变换的能力,学习平移、剪切、旋转和更多扭曲的不变性,提升模型在数据集和变换分类上的准确率,输送带纵向撕裂特征图的仿射变换如图2所示.

图 2

图 2   输送带纵向撕裂图像的仿射变换

Fig.2   Affine transformation of longitudinal tearing image of conveyor belt


1.2. 通道域注意力机制

通道注意力是通过获取每个特征通道的重要程度来增强有用特征的占用比. 通过对SE-Var1、SE-Var2和SE-Var3模块探究,可知避免采用降维和通道间交互的策略将帮助网络学习有效的通道特征,采用一种高效通道注意力(efficient channel attention,ECA)模块如图3所示.

图 3

图 3   高效通道注意力ECA模型

Fig.3   Efficient channel attention ECA model


图3中,输入特征图 $ {{\chi }} $尺寸为H×W×C,进行全局平均池化GAvgPool得到1×1×C的向量,通过具有自适应卷积核大小k的一维卷积,实现每个通道及该通道k个近邻捕获局部跨通道间的信息交互,基于 $ \sigma $激活操作获得交互后的通道权值,经过concat操作得到输出特征图 $ \widetilde {{\chi }} $,并作用到网络后期的卷积特征提取,ECA模块学习通道注意力的矩阵为

$ \boldsymbol{W}_k=\left[\begin{array}{cccccccc}\boldsymbol{w}^{1,1} & \cdots & \boldsymbol{w}^{1, k} & {\boldsymbol{0}} & {\boldsymbol{0}} & \cdots & \cdots & {\boldsymbol{{\boldsymbol{0}}}} \\ {\boldsymbol{0}} & \boldsymbol{w}^{2,2} & \cdots & \boldsymbol{w}^{2, k+1} & {\boldsymbol{0}} & \cdots & \cdots & {\boldsymbol{0}} \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ {\boldsymbol{0}} & \cdots & {\boldsymbol{0}} & {\boldsymbol{0}} & \cdots & \boldsymbol{w}^{C, C-k+1} & \cdots & \boldsymbol{w}^{C, C}\end{array}\right]. $

$ {\boldsymbol{W}}_k $共涉及k×C个参数,考虑到不同通道之间的相互作用,也考虑通道特征 $ {{\boldsymbol{y}}_i} $k个近邻通道之间的信息交互,对于 $ {{\boldsymbol{y}}_i} $的权重 $ {{\boldsymbol{\omega }}_i} $计算为

$ {{\boldsymbol{\omega }}_i} = \sigma \left( {\sum\limits_{j = 1}^k {{\boldsymbol{\omega }}_i^j{\boldsymbol{y}}_i^j} } \right),\;\;{\boldsymbol{y}}_i^j \in \varOmega _i^k . $

式中: $ \sigma $为sigmoid激活操作, $ {\boldsymbol{y}}_i^j $$ {{\boldsymbol{y}}_i} $的第j个相邻通道的特征值, $ {\boldsymbol{\omega }}_i^j $$ {{\boldsymbol{y}}_i} $的第j个相邻通道的权重值, $ \varOmega _i^k $$ {{\boldsymbol{y}}_i} $k个相邻通道的集合.

为了进一步降低模型复杂度和提高效率,采用相同的权重 $ {{\boldsymbol{\omega }}^j} $实现通道间的权重信息共享,设计卷积核为k的一维卷积来实现局部跨通道信息交互,计算公式为

$ {{\boldsymbol{\omega}} }_{i}=\sigma \left({\displaystyle \sum _{j=1}^{k}{{\boldsymbol{\omega}} }^{j}{{\boldsymbol{y}}}_{i}^{j}}\right),\;\;{{\boldsymbol{y}}}_{i}^{j}\in {\varOmega }_{i}^{k}\text{,} $

$ {\boldsymbol{\omega }} = \sigma \left( {{\rm{C1}}{{\rm{D}}_k}\left( {\boldsymbol{y}} \right)} \right) . $

式中: $ {{\boldsymbol{\omega }}^j} $为共享权重,C1D为一维卷积操作.

在ECA模块中,卷积核大小k根据具有不同通道数和各种CNN结构的卷积块而变化,由于CNN网络中通道数C(即滤波器的数量)通常设置为2的整次幂,确定Ck之间的非线性映射关系为

$ C = \phi \left( k \right) = {2^{\left( {\gamma \times k - b} \right)}} . $

式中: $ \phi $为通道数C关于卷积核大小k的映射函数, $ \gamma $设置为2, $ b $设置为1. 给定通道维数C,卷积核大小k可以自适应地确定为

$ k = \psi \left( C \right) = {\left| {\frac{{{{\log }_2}\left( C \right)}}{\gamma }+\frac{b}{\gamma }} \right|_{{\text{odd}}}} . $

式中: $ \psi $为卷积核大小k关于通道数C的映射函数;表达式 $ {\text{|}}t{{\text{|}}_{{\text{odd}}}} $为计算最近的奇数 $ t $$ \psi $使得较高维C具有更远程的交互作用,较低维C具有较短的交互作用.

1.3. 混合域注意力模型

采用2种注意力机制顺序叠加的方式,构建混合域注意力模型结构(ECSNet)如图4所示,包括通道域和空间域2个部分,输入特征图依次通过通道域注意力ECA模块和空间域注意力ST模块的作用,得到输出特征图. 首先特征图通过ECA模块的学习,不降低通道维度数来进行跨通道信息的交互,增加少量参数的同时,获得有用特征的通道,增大网络模型的性能增益. 其次基于空间域注意力ST模块,对获取的有用通道特征图进行目标形状和位置的空间变换,增强网络对特征图中目标位置的感受能力,有利于加深模型的层数,提高模型的鲁棒性和适应性. 将ECA模块和ST模块顺序叠加嵌入Mobilenetv3网络,逐级强化网络训练效果,可以有效提升骨干网络对图像的特征提取能力,更加适用于复杂多变和光强较暗且不断变化的矿井环境.

图 4

图 4   混合域注意力机制结构ECSNet

Fig.4   Structure of hybrid domain attention mechanism


在网络结构中输入特征图,经过高效通道域注意力ECA模块作用后的输出特征为

$ {{\boldsymbol{M}}_c}\left( {\boldsymbol{F}} \right) = {\boldsymbol{F}} * \sigma \left( {{\rm{C1D}}\left( {{\text{GAvgPool}}\left( {\boldsymbol{F}} \right)} \right)} \right) . $

混合域注意力机制输出特征为

$ {{\boldsymbol{M}}_s}\left( {\boldsymbol{F}} \right) = \sigma \left( {{{\boldsymbol{f}}^{7 \times 7}}\left( {{\text{stack}}\left( \begin{gathered} {\text{AvgPool}}\;\left( {{{\boldsymbol{M}}_c}\left( {\boldsymbol{F}} \right)} \right) \\ {\text{MaxPool}}\;\left( {{{\boldsymbol{M}}_c}\left( {\boldsymbol{F}} \right)} \right) \\ \end{gathered} \right)} \right)} \right) . $

式中: $ {\boldsymbol{F}} $为输入特征图,GAvgPool、AvgPool和MaxPool分别为全局平均池化、平均池化和最大值池化操作,stack为拼接操作, $ {{\boldsymbol{f}}^{7 \times 7}} $为卷积核大小为7的二维卷积操作.

1.4. 融入混合域注意力的Mobilenetv3网络

改进Mobilenetv3网络模型如图5所示,提出采用混合域注意力机制替换SENet通道注意力机制,首先输入特征层进行1*1的升维,使用3*3的深度可分离卷积进行特征提取,经过全局平均池化,结合自适应卷积核大小k的1D卷积,构建高效注意力ECA模块,完成跨通道间的信息交互,获取通道的权值,增强有用通道的占用比,基于对有用通道的特征图进行空间变换ST模块和2D卷积操作,得到仿射变换后的特征图,强化网络的特征提取能力,采用1*1的卷积进行降维,并拼接输入的特征图,获取网络模型的输出.

图 5

图 5   改进的Mobilenetv3网络模型(ECSMv3)

Fig.5   Improved Mobilenetv3 network model (ECSMv3)


在标准卷积中,每个卷积核对输入的所有通道同时进行卷积操作,提出采用深度可分离卷积块替换网络结构中的普通3*3卷积,深度可分离卷积由逐通道卷积(depthwise convolution, DC)和逐点卷积(pointwise convolution, PC)2步进行,DC中每个通道只被1个卷积核进行卷积,PC采用1*1的卷积操作,在特征图深度方向上进行加权组合,相较于标准卷积的参数量降低至1/9,同时确保模型的精度,2种卷积的具体操作流程如图6所示.

图 6

图 6   标准卷积和深度可分离卷积

Fig.6   Standard convolution and depth wise separable convolution


2. ECSMv3-YOLOv4网络模型构建

2.1. ECSMv3-YOLOv4网络模型设计

在原始YOLOv4算法[28]中的CSPDarknet-53网络结构包含52个标准卷积层和1个全连接层,网络层数较多,模型复杂度高并且训练困难. 因此,在原始YOLOv4的基础上,提出轻量级的实时目标检测神经网络模型ECSMv3-YOLOv4来提高模型的推理速度,并且融入混合域注意力机制的MobileNetv3网络(ECSMv3)结构如表1所示.

表 1   融入混合域注意力机制的MobileNetv3网络结构(ECSMv3)

Tab.1  MobileNetv3 network architecture with mixed domain attention mechanism

层级名称 Input Out Numbers Activation
Function
Attention
Conv2D_BN_
hard-swish
4162×3 2082×16 1 hard-swish
Bneck_block 2082×16 2082×16 1 relu
Bneck_block 2082×16 1042×24 2 relu
Bneck_block 1042×24 522×40 3 relu
Bneck_block 522×40 262×112 6 hard-swish
Bneck_block 262×112 132×160 3 hard-swish

新窗口打开| 下载CSV


ECSMv3-YOLOv4是基于回归思想端到端的检测框架,构建的网络模型如图7所示. 将MobileNetv3代替CSPDarknet-53作为YOLOv4的骨干网络,研究 模型的性能和MobileNetv3的运行时间,针对模型的轻量化设计对MobileNetv3进行改进,基于高效通道域ECA模块和空间域ST模块构建的混合域注意力机制ECANet,替换MobileNetv3的SENet注意力机制,增强网络对于输送带纵向撕裂的检测能力和不同姿态裂纹的适应能力,提高模型的检测精度. 设计的ECSMv3-YOLOv4网络模型采用深度可分离卷积替换标准卷积,进一步降低模型复杂度,提升训练效率和推理速度.

图 7

图 7   ECSMv3-YOLOv4网络模型结构

Fig.7   ECSMv3-YOLOv4 network model structure


在ECSMv3-YOLOv4的模型架构中,采用K-means算法聚类数据集Anchors先验框的长宽比和数量,模型输入图片尺寸为416*416,使用ECSMv3骨干网络进行特征提取,获取2个有效特征层,模型的Neck部分采用大量的深度可分离卷积进行轻量化. 在SPP结构中分别利用13*13、9*9、5*5和1*1这4个不同尺度的最大池化核进行处理,有利于增加网络的感受野,分离出显著的上下文特征信息,基于PANet结构进行从上到下和从下到上的特征融合,输出13×13和26×26这2种尺寸的Prediction Heads,预测每种尺度上的3个先验框,实现对不同类别的输送带表面撕裂图像的识别和分类输出.

3. 实验结果与分析

3.1. 多维度纵向撕裂识别检测装置

针对输送带的纵向撕裂不仅容易发生在承载煤料的上表面,当输送带跑偏以及打滑等情况发生时,输送煤料中伴有的尖锐物体易卡在下方位置的托辊处,导致输送带下表面的撕裂严重,因此需对输送带上下维度面进行全方位的撕裂检测,设计多维度输送带纵向撕裂的检测装置如图8所示. 针对带式输送机的机头和机尾装卸载点处常常发生撕裂,因此先固定相机与光源的安装位置,设计上表面检测相机悬挂在落料口前侧无煤处正上方,下表面检测相机安装在靠近卸料端的上下输送带之间,采用上下固定搭载相机的方式输入图像源,对于常发生撕裂位置可实现更加快速和有效地安全巡检,同时确保采集的图像不被煤料覆盖,更大程度地检测输送带表面的纵向撕裂,设计的光源均设置为垂直照射,可调节亮度用于模拟变光照的环境.

图 8

图 8   相机与光源安装位置图

Fig.8   Installation position diagram of cameras and light source


本文研究了一种轻量型的输送带多维度纵向撕裂识别定位方法,通过垂直于输送带架设的多维度点的相机实时采集输送带表面特征,并将采集的图像样本送入训练好的ECSMv3-YOLOv4网络模型中进行检测识别,输出当前感受野中输送带表面裂纹的类别、置信度和位置信息,实时分类标记,为输送带的及时维修和更换提供可靠的位置信号,开展的纵向撕裂检测的实验流程如图9所示.

图 9

图 9   输送带撕裂检测流程图

Fig.9   Flow chart of conveyor belt tear detection


实验室搭载的多维度输送带检测装置如图10所示,其中输送带是一种常见的煤矿用钢丝绳输送带,带宽为0.6 m,厚度为15.0 mm,带式输送机速度可调且总长度为4.0 m,最大带速为4.0 m/s. 实验中的相机和光源采用滑轨式固定,可以动态调整与输送带的间距. 相机型号为MV-CA003-21UC视觉检测USB3.0工业相机,镜头型号为C-Mount,滤镜使用工业滤光片,光源型号为2个FG-DR70-A45-W环形光,光源控制器型号为HG-APC2424-C-4CH,用于调节2个环形光强度.

图 10

图 10   输送带纵向撕裂识别检测实验装置

Fig.10   Experimental device of conveyor belt longitudinal tear identification and detection


3.2. 数据集采集与处理

数据集在深度学习中占有着重要地位,数据集的优劣对实际生产环境中输送带表面裂纹的检测有着重要影响. 基于不同位点的工业相机进行视屏源采集,实验装置中的带速设置为0.5 m/s,对发生纵向撕裂的图像采用视频提取帧的方法,制作输送带上表面和输送带下表面图片共350 张. 由于小样本数据集在深度学习网络模型训练时容易陷入过拟合,采用Mosaic数据增强、仿射变换、旋转剪切、翻转和加入高斯噪声等方法对采集的输送带表面特征数据集进行扩张到1 500 张,进一步提升模型对图像目标位置的感受能力,从而有效进行特征提取,优化网络模型的性能. 撕裂表现为大裂纹和完全撕裂2种类别,原始采集制作的图像与增强后的样本如图11所示.

图 11

图 11   输送带纵向撕裂图像增强的样本数据

Fig.11   Sample data of longitudinal tearing image enhancement of conveyor belt


3.3. 模型训练

模型训练基于PyTorch 1.7.1深度学习框架,使用NVIDIA GeForce RTX 2070 SUPER GPU进行计算,运行内存为8 G,CuDnn10.1库进行加速. ECSMv3-YOLOv4模型采用迁移学习的方法进行训练,加载的预训练权重为YOLOv4网络在VOC2007数据集训练后的权重. 对于输送带表面的数据集设计冻结训练方式,冻结前训练周期设定为200,初始学习率设为0.001;冻结后训练周期设为300,初始学习率设为0.000 1. 采用数据增强策略,设置最小批尺寸值(mini-batch size)为8.0,IOU阈值设置为0.5. 使用Adam优化器更新网络权重文件进行学习,动量参数为0.9,权重衰减正则项为0.000 5,总训练迭代轮数E为500. 训练完成得到的ECSMv3-YOLOv4模型损失函数曲线如图12(a)所示,在10次迭代训练之前,损失函数值较大且剧烈下降,经过500次的迭代,根据图12(b)中的局部放大图,损失函数值L降为0.8左右稳定,获得较好的模型参数.

图 12

图 12   ECSMv3-YOLOv4训练模型损失曲线

Fig.12   Ecsmv3-yolov4 training model loss function curve


3.4. 模型评价与结果分析

所设计的网络模型方法的主要目的是在保证检测精度和速度的同时,降低模型的计算量和参数量,实现低复杂度和轻量化设计. 通过平均精度均值mAP、每秒传输帧数FPS、浮点数运算次数FLOPs和总训练参数量评估模型性能Params,评估指标的计算如下:

$ P = \frac{{{\text{TP}}}}{{{\text{TP+FP}}}} , $

$ R = \frac{{{\text{TP}}}}{{{\text{TP+FN}}}} , $

$ {\text{AP}} = \int_0^1 {P(R){\text{d}}R} , $

$ {\text{mAP}} = \dfrac{1}{N}{ \displaystyle \sum\limits_{i = 1}^N {{\text{A}}{{\text{P}}_i}} } , $

$ {\text{F}} {\text{L}} {\text{O}} {\text{P}} {\text{s}} = 2 \times \left( {{C_{{\text{out}}}} \times {H_{{\text{out}}}} \times {W_{{\text{out}}}} \times {C_{{\text{in}}}}+{C_{{\text{out}}}}} \right), $

$ {\rm{{P} {a} {r} {a} {m} {s}}} = {k^2} \times {C_{{\text{in}}}} \times {C_{{\text{out}}}}+{C_{{\text{out}}}}. $

式中:P为准确率;R为召回率;TPFPFN分别为检出正确样本数量、误检样本数量和漏检样本数量; $ {\text{A}}{P_i} $为第 $ i $个类别P-R曲线的积分面积;mAP为每个类别AP的平均值,体现所有类别上检测结果的平均好坏程度;FPS为每秒帧率,用以评估模型对输入视频的目标检测速度;FLOPs为计算网络模型的浮点运算数,评估模型的时间复杂度; $ k $为卷积核尺寸; $ N $为模型的类别数; $ {C_{{\text{in}}}} $$ {C_{{\text{out}}}} $分别为输入和输出的通道数; $ {H_{{\text{out}}}} $$ {W_{{\text{out}}}} $为输出特征图的高度和宽度;Params为网络模型中需要训练的参数总数,对应硬件内存资源的消耗,用以评估模型的空间复杂度.

3.4.1. 不同主干网络的测试结果

通过替换YOLOv4网络模型的主干网络,利用十折交叉验证法对测试集的检测结果来验证MobileNetv3-YOLOv4的优点如表2所示. 相比较原始CSPDarknet-53主干网络,VGG16主干网络的FLOPs呈2倍增长,模型复杂度高,速度提升1 帧/s,检测精度损失较多约4.2%,ResNet-50和DenseNet-169主干网络的FLOPs和Params均略微下降,但ResNet-50的检测精度损失2.7%,DenseNet-169检测速度降至22 帧/s,采用MobileNetv3作为骨干网络的YOLOv4模型,相较于原始YOLOv4网络,不管是模型计算量FLOPs还是参数量Params都成倍降低,且网络精度提升1.4%,检测速度达到33 帧/s,体现出改进后较好的检测效果.

表 2   YOLOv4不同的主干网络之间的测试结果

Tab.2  Results of YOLOv4 different backbone networks

网络模型 主干网络 FLOPs/G Params/M mAP FPS/(frame·s−1
YOLOv4 CSPDarknet-53 59.765 63.943 0.939 31
YOLOv4 DenseNet-169 48.654 50.171 0.925 22
YOLOv4 ResNet-50 53.948 61.522 0.912 33
YOLOv4 VGG16 130.936 51.778 0.897 32
YOLOv4 MobileNetv3 26.115 39.570 0.953 33

新窗口打开| 下载CSV


3.4.2. 改变注意力机制的测试结果

基于主干网络为MobileNetv3的YOLOv4网络模型,在Neck和Prediction部分引入深度可分离卷积块替代3*3卷积,进一步降低模型的计算量和参数量. 改进MobileNetv3网络,分别融入SENet、CBAM和ECA模块和本研究采用的混合域注意力机制ECSNet,测得不同注意力机制对模型检测性能的影响结果如表3所示. 通过对比分析,添加通道域注意力ECA模块的效果较好于SENet,混合域注意力机制ECSNet在检测速度FPS相差1 帧/s的情况下,检测精度较ECA略高1.8%,与CBAM比较提升了1.3%,FLOPs和Params分别降低了0.003 G与0.752 M,测试结果验证本研究设计的ECSNet的性能较好.

表 3   改变注意力机制的网络性能测试结果

Tab.3  Network performance test results for changing attention mechanism

网络模型 主干网络 FLOPs/G Params/M mAP FPS/(frame·s−1
YOLOv4 MobileNetv3+SENet 7.030 11.309 0.952 33
YOLOv4 MobileNetv3+ECA 7.027 9.797 0.958 35
YOLOv4 MobileNetv3+CBAM 7.032 10.550 0.963 33
YOLOv4 MobileNetv3+ECSNet 7.029 9.798 0.976 34

新窗口打开| 下载CSV


3.4.3. 使用K-means聚类Anchors的测试效果

基于YOLOv4网络本身采用3种不同尺度的Prediction Heads,分别预测3个先验框. 在改进的ECSMv3_YOLOv4网络模型中,使用K-means方法对制作数据集的目标检测框进行聚类,网络设计不同数量的Prediction Heads和先验框Anchors,经模型训练完成后,得到的测试结果如表4所示. 通过对比分析,得出采用2种尺寸的Prediction Heads可以极大地缩减模型的计算量和参数量,降低模型复杂度. 由于输送带表面纵向撕裂的尺寸形态不属于0~32像素的小目标范围,去掉52×52的Prediction Head对模型精度影响不大,并且能够提升模型的检测速度达到37 帧/s. 根据表4结果,模型采用6个Anchors的FLOPs、Params和FPS均优于9个Anchors,采用4个Anchors的模型复杂度和检测速度进一步得到优化,但网络模型精度较6个Anchors降低2.7%,因此选用较优的2种尺度Prediction Heads和6个Anchors的组合方式设计网络模型.

表 4   不同数量的Prediction Heads和Anchors对模型精度的测试结果

Tab.4  Different numbers of Prediction Heads and Anchors test results for model accuracy

网络模型 主干网络 FLOPs/G Params/M mAP FPS/(frame·s−1
ECSMv3_YOLOv4+3Heads+9Anchors ECSMv3 7.029 9.798 0.976 34
ECSMv3_YOLOv4+3Heads+6Anchors ECSMv3 7.012 9.785 0.968 35
ECSMv3_YOLOv4+2Heads+6Anchors ECSMv3 4.882 8.851 0.978 37
ECSMv3_YOLOv4+2Heads+4Anchors ECSMv3 4.875 8.841 0.951 38

新窗口打开| 下载CSV


3.4.4. 不同网络模型的测试结果

通过对YOLOv3、YOLOX、轻量型SSD-MobileNetv2和YOLOv4-Tiny网络模型的比较试验,验证ECSMv3_YOLOv4的优点,测试集的检测结果如表5所示. 其中YOLOv3网络的FLOPs和Params最高,轻量型目标检测网络的计算量和参数量均较小,模型的时间和空间复杂度得到降低,SSD-MobileNetv2网络的复杂度最低,但检测精度和速度均不高. 相较于YOLOv4-Tiny网络,在Params相差2.975 M和FPS相差8 帧/s情况下,ECSMv3_YOLOv4网络mAP提升10.3%,FLOPs降低1.941 G. 相比较YOLOX网络,由于ECSMv3_YOLOv4模型的骨干网络、Neck和Prediction部分采用大量的深度可分离卷积块,并且采用2种尺度Prediction Heads和6个Anchors的组合方式设计,计算量和参数量分别降低至4.882 G和8.851 M,速度提升至37 帧/s,检测精度达到0.978,性能指标均进一步得到优化. 对比结果表明,将ECSMv3_YOLOv4网络作为输送带纵向撕裂的检测模型具有明显的优势.

表 5   不同网络模型之间的测试效果对比

Tab.5  Effect comparison of different network models

网络模型 主干网络 FLOPs/G Params/M mAP FPS/(frame·s−1
YOLOv3 Darknet-53 65.527 61.529 0.901 32
YOLOv4-Tiny CSPdarknet53-Tiny 6.823 5.876 0.875 45
SSD MobileNetv2 2.493 3.675 0.884 33
YOLOX Focus+CSPDarknet 11.254 8.938 0.952 35
ECSMv3_YOLOv4 MobileNetv3+ECSNet 4.882 8.851 0.978 37

新窗口打开| 下载CSV


3.4.5. ECSMv3-YOLOv4网络模型测试

为进一步验证所改进的ECSMv3_YOLOv4网络模型的有效性,针对自制的不同维度输送带表面的数据集,利用搭建的实验测试平台,开展输送带表面撕裂检测试验,图13为不同网络模型对输送带上维度面和下维度面纵向撕裂的类别、位置框和置信度值. 其中C_T为“完全撕裂”类别,L_C为 “大裂纹”类别,根据测试结果图相比较大裂纹,所有网络模型对特征明显的完全撕裂类别检测精度较高. 不同网络模型均能够对测试样本进行正确识别,对于YOLOv4系列网络,通过更换主干网络,添加混合域注意力改进后的网络模型较原始YOLOv4精度有效提升. 与轻量型YOLOX和采用MobileNetv2改进的SSD网络相比较,ECSMv3_YOLOv4表现测试效果最好,识别效果均较低于ECSMv3_YOLOv4网络模型.

图 13

图 13   不同网络模型对输送带纵向撕裂多维度检测效果图

Fig.13   Detection effect diagram of longitudinal tearing of multi-dimensional conveyor belt by different network models


针对5种不同的光照强度进行实验,分别设置为84 lux、207 lux、341 lux、2 599 lux和4 891 lux,利用训练完成的ECSMv3_YOLOv4网络模型,得到输送带上下维度面纵向撕裂类别的检测效果如图14所示. 试验结果表明,采用所建议的网络模型,对于输送带上维度和下维度面的完全撕裂和大裂纹类别,均有较高的检测精度. 在变光照强度下,模型在84 lux光照强度检测效果较佳,这也使得模型更加适应矿井下较暗的光照检测环境. 随着光照强度的增加,相同撕裂位置的检测框置信度相差甚小,表现出较强的适应能力和抗干扰能力,体现出改进模型的有效性.

图 14

图 14   不同光照强度的ECSMv3_YOLOv4模型检测结果

Fig.14   Detection results of ECSMv3_YOLOv4 model with different light intensities


4. 结 论

(1)提出了一种输送带纵向撕裂多维度检测方法,基于改进YOLOv4网络算法,构建轻量高效的ECSMv3_YOLOv4检测模型. 试验结果表明,提出模型检测精度达到97.8%不弱于YOLOv4网络,FPS从31帧/s提升到37帧/s. 通过改进MobileNetv3嵌入混合域注意力机制作为骨干特征提取网络,模型的检测精度从95.3%提升到97.6%,利用深度可分离卷积块,进一步优化网络模型,对撕裂目标的分类和定位提供了技术性支持.

(2)所改进的网络模型采用2种尺度的Prediction Heads和6个Anchors的组合方式,极大地降低了模型复杂度,计算量FLOPs仅为4.882 G,参数量为8.851 M,优于YOLOX轻量型网络,使用K-means算法,重新聚类自制不同维度面数据集的目标检测框,使得模型的测试性能达到最佳.

(3)基于搭建的输送带纵向撕裂多维度检测装置,对不同的主干网络,如CSPDarknet-53、DenseNet-169、ResNet-50和MobileNetv3,嵌入不同的注意力机制,如SENet、CBAM、ECA模块和所提出的ECSNet,同时对轻量型网络YOLOX、YOLOv4-Tiny和改进SSD,在检测精度、计算量、参数量和检测速度上进行试验,验证ECSMv3_YOLOv4算法的优越性和有效性,通过改变光照强度,验证了所提算法具有较强的适应性和抗干扰能力.

参考文献

杨小林, 葛世荣, 祖洪斌, 等

带式输送机永磁智能驱动系统及其控制策略

[J]. 煤炭学报, 2020, 45 (6): 2116- 2126

DOI:10.13225/j.cnki.jccs.zn20.0345      [本文引用: 1]

YANG Xiao-lin, GE Shi-rong, ZU Hong-bin, et al

The permanent magnet intelligent drive system of belt conveyor and its control strategy

[J]. Journal of China Coal Society, 2020, 45 (6): 2116- 2126

DOI:10.13225/j.cnki.jccs.zn20.0345      [本文引用: 1]

PETRIKOVA I, MARVALOVA B, SAMAL S, et al

Digital image correlation as a measurement tool for large deformations of a conveyor belt

[J]. Applied Mechanics and Materials, 2015, 732: 77- 80

DOI:10.4028/www.scientific.net/AMM.732.77      [本文引用: 1]

曹虎奇

煤矿带式输送机撕带断带研究分析

[J]. 煤炭科学技术, 2015, 43 (Suppl.2): 130- 134

[本文引用: 1]

CAO Hu-qi

Research and analysis on tearing and breaking belt of coal mine belt conveyor

[J]. Coal Science and Technology, 2015, 43 (Suppl.2): 130- 134

[本文引用: 1]

刘伟力, 乔铁柱

矿用输送带纵向撕裂检测系统研究

[J]. 工矿自动化, 2017, 43 (2): 78- 81

DOI:10.13272/j.issn.1671-251x.2017.02.017      [本文引用: 1]

LIU Wei-li, QIAO Tie-zhu

Research on longitudinal tear detection system of mine conveyor belt

[J]. Industrial and Mining Automation, 2017, 43 (2): 78- 81

DOI:10.13272/j.issn.1671-251x.2017.02.017      [本文引用: 1]

PANG Y S, LODEWIJKS G. A novel embedded conductive detection system for intelligent conveyor belt monitoring [C]// IEEE International Conference on Service Operations and Logistics and Informatics. Shanghai: IEEE, 2006: 803-808.

[本文引用: 1]

LI X G, SHEN L F, MING Z X, et al

Laser-based online machine vision detection for longitudinal rip of conveyor belt

[J]. Optik, 2018, 168: 360- 369

DOI:10.1016/j.ijleo.2018.04.053      [本文引用: 1]

BLAZEJ R, JURDZIAK L, KOZLOWSKI T, et al

The use of magnetic sensors in monitoring the condition of the core in steel cord conveyor belts-Tests of the measuring probe and the design of the diag belt system.

[J]. Measurement, 2018, 123: 48- 53

DOI:10.1016/j.measurement.2018.03.051      [本文引用: 1]

YANG R Y, QIAO T Z, PANG Y S, et al

Infrared spectrum analysis method for detection and early warning of longitudinal tear of mine conveyor belt

[J]. Measurement, 2020, 165: 107856

DOI:10.1016/j.measurement.2020.107856      [本文引用: 1]

HOU C C, QIAO T Z, ZHANG H T, et al

Multispectral visual detection method for conveyor belt longitudinal tear

[J]. Measurement, 2019, 143: 246- 257

DOI:10.1016/j.measurement.2019.05.010      [本文引用: 1]

王志星. 输送带纵向撕裂双目视觉在线检测系统研究与设计[D]. 太原: 太原理工大学, 2018: 33-40.

[本文引用: 1]

WANG Zhi-xing. Research and design of binocular vision online detection system for longitudinal tearing of conveyor belt [D]. Taiyuan: Taiyuan University of Technology, 2018: 33-40.

[本文引用: 1]

刘伟力. 输送带纵向撕裂机器视觉在线监控系统研究[D]. 太原: 太原理工大学, 2017: 39-46.

[本文引用: 1]

LIU Wei-li. Research on online monitoring system of conveyor belt longitudinal tearing based on machine vision [D]. Taiyuan: Taiyuan University of Technology, 2017: 39-46.

[本文引用: 1]

LI W W, LI C Q, YAN F L

Research on belt tear detection algorithm based on multiple sets of laser line assistance

[J]. Measurement, 2021, 174 (2): 109047

[本文引用: 1]

GIRSHICK R. Fast R-CNN [EB/OL]. [2021-09-15]. https://arxiv.org/abs/1504.08083.

[本文引用: 1]

HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [EB/OL]. [2021-09-15]. https://arxiv.org/abs/1703.06870.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[本文引用: 1]

YANG J, LI S B, WANG Z, et al

Real-time tiny part defect detection system in manufacturing using deep learning

[J]. IEEE Access, 2019, 7 (1): 89278- 89291

[本文引用: 1]

LI Z Y, ZHU X N, ZHOU J. Intelligent monitoring system of coal conveyor belt based on computer vision technology [C]// International Conference on Dependable Systems and Their Applications. Harbin: IEEE, 2020: 359-364.

[本文引用: 1]

蒋镕圻, 彭月平, 谢文宣, 等

嵌入scSE模块的改进YOLOv4小目标检测算法

[J]. 图学学报, 2021, 42 (4): 546- 555

[本文引用: 1]

JIANG Rong-qi, PENG Yue-ping, XIE Wen-xuan, et al

Improved YOLOv4 small target detection algorithm embedded with scSE module

[J]. Journal of Graphics, 2021, 42 (4): 546- 555

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// European Conference on Computer Vision. Berlin: Springer, 2018: 3-19.

[本文引用: 1]

HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2021-09-18]. https://arxiv.org/abs /1704.04861.

[本文引用: 1]

ZHANG X, ZHOU X, LIN M, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices [EB/OL]. [2021-09-18]. https://arxiv.org/abs/1707. 01083v2.

[本文引用: 1]

薄景文, 张春堂, 樊春玲, 等

改进YOLOv3的矿石输送带杂物检测方法

[J]. 计算机工程与应用, 2021, 57 (21): 248- 255

DOI:10.3778/j.issn.1002-8331.2105-0025      [本文引用: 1]

BO Jing-wen, ZHANG Chun-tang, FAN Chun-ling, et al

Improved YOLOv3 method for detecting trash on ore conveyor belts

[J]. Computer Engineering and Applications, 2021, 57 (21): 248- 255

DOI:10.3778/j.issn.1002-8331.2105-0025      [本文引用: 1]

周宇杰, 徐善永, 黄友锐, 等

基于改进YOLOv4的输送带损伤检测方法

[J]. 工矿自动化, 2021, 47 (11): 61- 65

DOI:10.13272/j.issn.1671-251x.17843      [本文引用: 1]

ZHOU Yu-jie, XU Shan-yong, HUANG You-rui, et al

Conveyor belt damage detection method based on improved YOLOv4

[J]. Industry and Mine Automation, 2021, 47 (11): 61- 65

DOI:10.13272/j.issn.1671-251x.17843      [本文引用: 1]

JADERBERG M, KAREN S, ANDREW Z. Spatial transformer networks [J]. Advances in Neural Information Processing Systems, 2015 (28): 2017-2025.

[本文引用: 1]

WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531-11539.

[本文引用: 1]

WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7794-7803.

[本文引用: 1]

BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2021-10-11]. https://arxiv.org/pdf/2004.10934.

[本文引用: 1]

/