基于改进YOLOv5的推力球轴承表面缺陷检测算法

doi:10.3785/j.issn.1008-973X.2022.12.004

基于改进YOLOv5的推力球轴承表面缺陷检测算法

袁天乐^,, 袁巨龙^,, 朱勇建, 郑翰辰

1. 浙江工业大学机械工程学院，浙江杭州 310023

2. 浙江科技学院机械工程学院，浙江杭州 310023

Surface defect detection algorithm of thrust ball bearing based on improved YOLOv5

YUAN Tian-le^,, YUAN Ju-long^,, ZHU Yong-jian, ZHENG Han-chen

1. College of Mechanical Engineering, Zhejiang University of Technology, Hangzhou 310023, China

2. College of Mechanical Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, China

通讯作者: 袁巨龙，男，教授. orcid.org/0000-0003-1242-2983. E-mail： jlyuan@zjut.edu.cn

收稿日期: 2021-12-10

基金资助:

国家重点研发计划资助项目(2018YFB2000402)；国家自然科学基金资助项目(U1809221)；浙江省基础公益计划资助项目(LGG21E050006)

Received: 2021-12-10

Fund supported:

国家重点研发计划资助项目(2018YFB2000402)；国家自然科学基金资助项目(U1809221)；浙江省基础公益计划资助项目(LGG21E050006)

作者简介 About authors

袁天乐（1997—），男，硕士生，从事机器视觉检测技术研究.orcid.org/0000-0002-1696-5558.E-mail：435282558@qq.com , E-mail：435282558@qq.com

摘要

为了提高推力球轴承表面缺陷检测的精确率和召回率，增强模型抗干扰能力，提出自动提取检测区域预处理和改进Transformer中的多头自注意力机制模块. 在特征网络引入所提模块，忽略无关噪声信息而关注重点信息，提升中小表面缺陷的提取能力. 使用实例归一化代替批量归一化，提高模型训练时的收敛速度和检测精度. 结果表明，在推力球轴承表面缺陷检测数据集中，改进YOLOv5模型的准确率达到87.0%，召回率达到83.0%，平均精度达到86.1%，平均每张图片检测时间为14.96 ms. 相比于YOLOv5s模型，改进模型的准确率提升1.5%，召回率提升7.3%，平均精度提升7.9%. 与原模型相比，改进YOLOv5模型有更好的缺陷定位能力和较高的准确度，能够减小检测过程中的异物对检测结果造成的干扰，检测速度满足工业大批量检测的要求.

关键词： 深度学习 ; 推力球轴承 ; YOLOv5 ; Transformer ; 注意力机制 ; 表面缺陷检测

Abstract

An automatic extraction detection area preprocessing and a multi-head self-attention mechanism module in the improved Transformer were proposed, in order to improve the accuracy and recall rate of the surface defect detection of thrust ball bearings, and enhance the anti-interference ability of the model. The proposed module was introduced into the feature network ignoring irrelevant noise information and focusing on the key information, and the extraction ability of small and medium-sized surface defects was improved. Instance normalization was used instead of Batch normalization to improve the convergence speed and detection accuracy during model training. Results show that in the thrust ball bearing surface defect detection dataset, the accuracy rate of the improved YOLOv5 model reaches 87.0%, the recall rate reaches 83.0%, the average precision reaches 86.1%, and the average detection time per image was 14.96 ms. Compared with the YOLOv5s model, the accuracy of the improved model is increased by 1.5%, the recall rate is increased by 7.3%, and the average precision is increased by 7.9%. Compared with the original model, the improved YOLOv5 model has better defect positioning ability and higher accuracy, and can reduce interference of foreign objects in the detection process on detection results. A detection speed of the improved YOLOv5 model can meet the requirements of industrial mass detection.

Keywords： deep learning ; thrust ball bearing ; YOLOV5 ; Transformer ; attention mechanism ; surface defect detection.

PDF (1216KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

袁天乐, 袁巨龙, 朱勇建, 郑翰辰. 基于改进YOLOv5的推力球轴承表面缺陷检测算法. 浙江大学学报(工学版)[J], 2022, 56(12): 2349-2357 doi:10.3785/j.issn.1008-973X.2022.12.004

YUAN Tian-le, YUAN Ju-long, ZHU Yong-jian, ZHENG Han-chen. Surface defect detection algorithm of thrust ball bearing based on improved YOLOv5. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(12): 2349-2357 doi:10.3785/j.issn.1008-973X.2022.12.004

轴承影响机械设备的稳定性和使用寿命，它的主要作用是支撑和传递力^[1]. 推力球轴承由座圈、轴圈和钢球保持架组成，广泛应用于减速变速装置，该类轴承运转时能够承受单面轴向载荷. 缺珠、压印、划伤是加工钢球保持架时常见的3类表面缺陷. 缺珠缺陷会导致推力球轴承受力不均，使设备无法正常工作；压印、划伤缺陷影响着推力球轴承的使用寿命；为此，人们在轴承加工过程中设置了检测环节.

射线检测、超声检测、磁粉检测、热成像检测等无损检测技术^[2-5]已被应用于产品表面缺陷检测，有越来越多的研究者将目光投向光学检测. 光学检测具有无接触、检测速度快、检测灵敏度高等优点. 光学检测中的热门的目标检测算法有R-CNN^[6]、SPP-Net^[7]、Fast R-CNN^[8]、Faster R-CNN^[9]、RFCN^[10]、Mask R-CNN^[11]、Detect-Net、Over-Feat、YOLO系列^[12-15]、SSD系列^[16-18]、RetinaNet^[19]等. 利用深度学习可以解决轴承表面缺陷成像不清晰、噪声干扰大、对比度低、纹理背景复杂、缺陷区域小和整体亮度不均匀等原因造成的检测困难问题. 王鹏^[20]提出改进的Canny边缘算子提取钢球表面缺陷，解决了传统边缘提取对边缘信息的平滑问题和算法抗干扰能力低的问题. 陈琦^[21]使用区域形态学和图像减法提取轴承内表面的缺陷特征，并使用支持向量机（support vector machines，SVM）分类器完成对缺陷的分类. Kunakornvong等^[22]提出变化亮度的空气轴承缺陷检测方法，利用共生矩阵使空气轴承图像免受亮度变化的干扰，通过4个识别特征定义特征参数，并根据每个识别的欧几里得距离选择的阈值进行缺陷检测. Deng等^[23]提出自动检测轴承表面系统，使用最小二乘拟合和环形扫描定位轴承的检测区域，通过对比度增强和低通滤波提高图像质量，应用对象检查判断是否存在缺陷，利用形状特征完成缺陷识别，最后在U-Net网络中加入注意力机制以完成磁片的表面缺陷检测. 李维刚等^[24]用加权K-means聚类算法优化先验框参数，通过融合浅层与深层特征，提高对带刚表面缺陷的检测精度. 张磊等^[25]借鉴SLAM中特征提取匹配的思想，使用K-means聚类算法优化原始图像和预处理后的图像，采用YOLOv3检测铝型材表面缺陷. 李浪怡等^[26]使用Ghost Bottleneck模块替换YOLOv5网络中的Bottleneck，在网络中添加SElayer注意力机制以提高模型对大目标缺陷的检测能力，实现了轨面缺陷检测. Jin等^[27]在YOLOv5网络的基础上引入teacher-student网络架构对模型进行蒸馏压缩，采用焦点损失函数^[19]处理数据不均衡的问题，提出用多任务学习策略进行织物缺陷检测. Zhao等^[28]结合伽马射线变换法和图像差分法处理光照不均匀的问题，在YOLOv5网络的Neck端，用深度卷积（DWConv）替换原卷积来压缩网络参数，完成了对刨花板表面缺陷的检测.

本研究以推力球轴承为检测对象，通过实验平台采集轴承缺陷图片，对训练集部分划伤和压印缺陷样本进行数据增强. 以YOLOv5s网络模型为网络主体，引入自动裁剪提取目标区域的图像预处理模块，在特征提取网络中添加双层改进Transformer多头自注意力机制模块，强化网络对中小目标的特征提取，使用批量归一化(batch normalization，BN)^[29]代替实例归一化(instance normalization, IN)^[30]来加快网络的收敛速度.

1. YOLOv5目标检测算法

不同于双阶段检测算法用区域候选网络(region proposal network，RPN)生成候选区域， YOLO算法采用直接预测目标的边界框来完成目标位置定位和分类，有较快的检测速度. YOLOv5在YOLOv4算法的基础上，将自动缩放、裁剪和马赛克用于数据增强，添加了自动学习锚定框的尺寸. 在官方数据集的测试中， YOLOv5的检测速度和精度较YOLOv4的有一定提升. YOLOv5算法按照网络深度和特征图宽度从小到大分为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x. 其中YOLOv5s模型的深度是YOLOv5l的1/3，特征图宽度是YOLOv5l的1/2，在官方数据集中检测速度可达每秒140张图片. 由于本研究的检测对象为推力球轴承，缺陷目标较大，要求较高的检测速度，选择YOLOv5s作为研究对象.

YOLOv5由输入端、主干网络、颈部和头部组成. 1）输入端将4张图片以随机缩放、随机裁剪和随机排布的方式拼接，进行数据增强并且提升网络的训练速度. 2）经过Focus切片，进入由CSPDarkNet组成的主干网络，从输入图像中提取丰富的特征. 3）由特征金字塔网络(feature pyramid networks，FPN)^[31]和路径聚合网络(path aggregation network，PAN)^[32]结构组成的颈部不同尺度特征融合，由网络的头部输出端进行预测，输出端使用分类损失函数和回归损失函数. YOLOv5的结构如图1所示，其中Conv模块由卷积层、归一化函数和激活函数组成，CSP_1x模块由Conv模块、残差网络模块以及卷积层组成，CSP_2x由卷积层和x个残差网络模块组合而成.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 YOLOv5的网络结构

Fig.1 YOLOv5 network structure

2. 改进YOLOv5算法

2.1. 图片预处理

图片预处理过程如图2所示：原图经阈值分割后进行填充处理，由填充图获得推力球轴承的中心坐标 $ \left( {{X_{\rm{C}}},{Y_{\rm{C}}}} \right) $并生成圆环，从原图中提取圆环区域，以中心坐标裁剪图片，预处理完成. 2 448×2 048像素的原图中心部位有很多噪声和灰尘组成的白色干扰点，预处理流程后的图片为1 400×1 400像素，图片中心的噪声干扰消失，推力球轴承的表面缺陷信息没有丢失. 转换预处理后图片的标注框信息，原标注框的信息为 $ \left( {X,Y,{W_{{\text{tag}}}},{H_{{\text{tag}}}}} \right) $，其中X为目标框的中心点横坐标与图片宽度的比值，Y为目标框的中心点纵坐标与图片高度的比值， ${W_{{\rm{tag}}}} $为目标框的宽度与图片宽度的比值， ${H_{{\rm{tag}}}}$为目标框的高度与图片高度的比值。更新后的坐标为 $\left( {{X_{{\rm{out}}}},{Y_{{\rm{out}}}},{W_{{\rm{Tag}}}},{H_{{\rm{Tag}}}}} \right)$，其中 ${X_{{\rm{out}}}} $为预处理后目标框的中心点横坐标与图片宽度的比值， ${Y_{{\rm{out}}}} $为预处理后目标框的中心点纵坐标与图片高度的比值， ${W_{{\rm{Tag}}}} $为预处理后目标框的宽度与图片宽度的比值， ${H_{{\rm{Tag}}}} $为预处理后目标框的高度与图片高度的比值. 目标框坐标转换过程为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 推力球轴承图片自动提取目标区域的预处理流程图

Fig.2 Flow chart of preprocessing for automatic extraction of target area from thrust ball bearing images

(1) $ {X_{{\rm{out}}}} = \frac{{W X - {X_{\rm{C}}}}}{{{W_{{\rm{out}}}}}}+0.5 \;, $

(2) $ {Y_{{\rm{out}}}} = \frac{{H Y - {Y_{\rm{C}}}}}{{{H_{{\rm{out}}}}}}+0.5 \;, $

(3) $ {W_{{\rm{Tag}}}} = {W_{{\rm{tag}}}} \frac{W}{{{W_{{\rm{out}}}}}} \;,$

(4) $ {H_{{\rm{Tag}}}} = {H_{{\rm{tag}}}} \frac{H}{{{H_{{\rm{out}}}}}} . $

式中： $ W $、 $ H $分别为预处理图片的宽和高， $ {W_{{\rm{out}}}} $、 $ {H_{{\rm{out}}}} $分别为预处理后图片的宽和高.

2.2. 改进Transformer多头自注意力机制模块

多头自注意力机制模块借鉴了如图3所示的Vision Transformer^[33]. 该研究将图像分割成9个图像块，将这些图像块的线性嵌入序列作为Transformer的输入，输入到由多头自注意力机制和多层感知机模块组成的编码器，再经过线性层和分类后输出. 虽然Transformer模块的处理速度较快，能够极大提升网络对特征的提取能力，但是Transformer模块的每个自注意力机制需要3个线形层查询（query）、键（key）、值（value）的输入. 查询、键通过点乘和归一化指数函数（SoftMax）运算计算每个通道得分，值保留着原图片各个通道的信息，将每个通道得分与值矩阵相乘得到自注意力机制模块的输出，输出中忽略了无关噪声信息而关注重点信息。多头注意力机制模块是由多个自注意力机制叠加而成的. 每个自注意力机制中的值参数极度相似，对每个头部使用不同的值会造成计算浪费，多头自注意力机制在输出前经过的2个简单的线性层对模型的表达能力提升效果不大. 如图4所示，本研究改进Transformer模块：1）每个头部共用同一层值完成自注意力机制；2）在输出的每层线性层后添加激活函数ReLU6，提高模型的表达能力.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 Vision Transformer 网络结构

Fig.3 Vision Transformer network structure

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 Transformer多头自注意力机制模块的改进

Fig.4 Improvement of Transformer multi-head self-attention mechanism module

2.3. 改进卷积神经网络的归一化函数

YOLOv5的卷积层中使用的是批量归一化，BN对图片的行、列和通道进行归一化，每次归一化结果与Batch里的图片有关. 每张推力球轴承划伤和压印缺陷图的灰度值差异较大，使用BN，会降低灰度值差异较大的压印缺陷对比度，使检测精度降低. 本研究训练时所用的Batch较小，不能代表全局灰度值进行归一化，为此，选用实例归一化对图片的行和列做归一化，每次归一化只与单张图片有关，不会由于训练时Batch过小或者一些特殊的缺陷图片影响检测精度.

2.4. 改进YOLOv5模型的结构

在推力球轴承表面缺陷中，大目标的缺球检测准确率高，中小目标的压印和划伤检测难度大，因此网络改进主要集中在对中小目标的检测上. 改进后的骨干神经网络如图5所示，将原来卷积层中的BN函数改进为IN函数，加入改进Transformer多头注意力机制模块于中小目标的特征提取中，增强后续FPN+PAN结构对中小目标的提取能力，提升算法的检测率和降低漏检率.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 改进YOLOv5模型结构

Fig.5 Improve YOLOv5 model structure

3. 实验结果分析

3.1. 实验环境

硬件配置为AMD Ryzen 5 3600 CPU、NVIDIA GTX 1080 8G显卡、24G内存、Windows 10系统、CUDA Toolkit10.2、Pytorch1.7深度学习框架平台. 实验的超参数设置中初始学习率为0.01，动量为0.937，权重衰减为0.000 5，训练次数为300.

3.2. 推力球轴承表面缺陷数据集的制作

采集推力球轴承图片1 553 张，如图6所示将表面缺陷分为划伤、压印、缺球. 按照工厂检测要求，划伤缺陷的检测精度为0.1 mm，最短划伤长度大于3 mm；压印缺陷的检测精度为0.1 mm，最小压印区域直径大于1 mm. 共标注2 000余个缺陷框，划伤缺陷约为850个，压印缺陷约为950个，缺球缺陷约为1 200个. 缺陷分布于推力球轴承的保持架中央，缺陷大小集中在图片大小的0.01~0.20. 训练集、验证集、测试集按7∶1∶2划分.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 推力球轴承表面缺陷样品

Fig.6 Thrust ball bearing surface defect sample

对训练集的划伤和压印缺陷样本进行旋转、添加噪声和随机亮度变换处理，3种缺陷数量相似，提高模型的泛化能力和鲁棒性，避免样本不均匀造成的精度降低. 数据增强结果如图7所示.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 推力球轴承图像数据增强

Fig.7 Thrust ball bearing image data enhancement

3.3. 检测结果对比

3.3.1. 检测指标

评价目标检测性能的指标有精确率p、召回率r、F1分数、平均精度均值mAP. 精确率表示分类器预测结果中真实结果的概率，召回率体现了分类器找出所有正类的能力. 精确率越高，误检率越低; 召回率越高，漏检率越低. 计算精确率和召回率须使用混淆矩阵. 混淆矩阵含义如下：TP为将正样本预测为正样本的数量，FN为将正样本预测为负样本的数量，FN为将负样本预测为正样本的数量，TN为将负样本预测为负样本的数量.

(5) $ p = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}} \;, $

(6) $ r = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}} . $

单独使用精确率和召回率对分类器的评估效果不佳，因此引入F1分数，作为评估模型的精确率和召回率的指标.

(7) $ {\rm{F1}} = \frac{{2 \times p \times r}}{{p+r}} . $

在YOLOv5中，使用GIOU评估模型预测框位置的准确性，GIOU解决了IOU中预测框和真实框不相交导致损失函数不可导的问题，GIOU计算式为

(8) $ {\rm{GIOU}} = \frac{{\left| {\left( {A \cap B} \right)} \right|}}{{\left| {\left( {A \cup B} \right)} \right|}} - \frac{{\left| {C\backslash \left( {A \cup B} \right)} \right|}}{{\left| {\left( C \right)} \right|}} . $

式中： $ A $为预测框， $ B $为标注框， $ \left| {\left( {A \cup B} \right)} \right| $为预测框和真实框相并的面积， $ \left| {\left( {A \cap B} \right)} \right| $为预测框和真实框相交的面积， $ \left| {\left( C \right)} \right| $为预测框和真实框最小外接矩形的面积，|C\(A∪B )|为C的面积减去A∪B的面积. 平均精度均值是度量模型预测框类别和位置是否准确的指标，由平均精度AP的均值计算得到. mAP@0.5是在框损失的阈值大于0.5的条件下，当r=0，0.1，0.2，···，1.0时，所有精确率的平均值.

(9) ${\rm{ mAP}} = \frac{1}{N}\sum\nolimits_{n \in N} {{\rm{AP}}(n)} $

式中：N为预测框类别的总数量.

3.3.2. YOLOv5s与YOLOv5m检测结果对比

使用YOLOv5s和YOLOv5m对推力球轴承数据集进行实验，检测测试集所有图片，计算平均每张图片检测所用时间t. 实验结果如表1所示. 使用YOLOv5s模型训练推力球轴承数据集，得到模型权重为14.0 MB，使用YOLOv5m模型训练推力球轴承数据集，得到模型权重为41.5 MB. YOLOv5s模型的t=8.28 ms，比YOLOv5m模型快7.36 ms；YOLOv5s模型的精确率比YOLOv5m模型高0.044，但是召回率降低0.026，YOLOv5s模型的mAP@0.5=0.782，比YOLOv5m模型的低0.001. 实验结果表明，与YOLOv5m相比，YOLOv5s不仅拥有较快的检测速度，还有较高的检测精度.

表 1 YOLOv5s和YOLOv5m的轴承检测结果对比

Tab.1 Comparison of YOLOv5s and YOLOv5m detection result of bearing

模型	AP			p	r	mAP@0.5	t/ms
模型	划伤	压印	缺球	p	r	mAP@0.5	t/ms
YOLOv5s	0.567	0.789	0.988	0.855	0.757	0.782	8.28
YOLOv5m	0.550	0.807	0.991	0.811	0.783	0.783	15.64

新窗口打开| 下载CSV

3.3.3. 预处理前后检测结果对比

对推力球轴承数据集进行预处理，去除推力球轴承外灰尘和噪声干扰，增加模型检测精度，减少模型训练时间. 以YOLOv5s为模型，预处理前后检测结果如表2所示. 可以看出，模型对经预处理的数据集进行训练后，划伤缺陷和压印缺陷的检测精度有很大提高，mAP@0.5提高0.054，但是平均检测时间增加0.61 ms. 推测原因可能是由于模型检测出更多的缺陷，导致平均检测时间增加. 实验结果表明，在推力球轴承数据集上使用传统图像算法进行图片自适应采集预处理对mAP@0.5有显著提升是，尤其是划伤和压印缺陷.

表 2 预处理前后的轴承检测结果对比

Tab.2 Comparison of test results before and after pretreatment of bearing

预处理	AP			p	r	mAP@0.5	t/ms
预处理	划伤	压印	缺球	p	r	mAP@0.5	t/ms
无	0.567	0.789	0.988	0.855	0.757	0.782	8.28
有	0.676	0.846	0.986	0.826	0.816	0.836	8.89

新窗口打开| 下载CSV

3.3.4. 改进卷积层归一化函数检测结果对比

为了减少不同批次拍摄光照的影响，用不受通道和batch影响的IN替换原YOLOv5用的BN，使用改进卷积层归一化函数的实验结果以提升收敛速度和检测精度. 使用不同的归一化算法的模型的分类损失L和迭代次数 $\eta $的关系如图8所示. 可以看出，相比与BN，使用IN后，模型收敛速度更快. 在未使用图像预处理的数据集中，使用IN的收敛速度比BN的更快、更稳定. 使用2种算法的检测结果对比如表3所示. 可以看出，在未使用图像预处理的数据集中，使用IN的mAP@0.5比BN的提高0.025；在图像预处理后的数据集中，使用IN的mAP@0.5比BN的提高0.008. 实验结果表明，在推力球轴承数据集中，使用IN可以有效提升算法的精度.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 改进前后分类损失收敛情况对比

Fig.8 Comparison of loss convergence before and after improvement

表 3 改进归一化函数检测结果对比

Tab.3 Improved comparison of detection results for normalization functions

算法	预处理	AP			p	r	mAP@0.5
算法	预处理	划伤	压印	缺球	p	r	mAP@0.5
BN	无	0.567	0.789	0.988	0.855	0.757	0.782
IN	无	0.592	0.835	0.994	0.840	0.791	0.807
BN	有	0.676	0.846	0.986	0.826	0.816	0.836
IN	有	0.684	0.855	0.993	0.862	0.792	0.844

新窗口打开| 下载CSV

3.3.5. 添加改进Transformer多头自注意力机制模块结果对比

在特征提取网络中添加注意力模块，模块的类型和添加位置如图9所示. 图9(a)、(b)、(c)分别为在特征图尺度 $20 \times 20 \times 1\;024$后添加传统Transformer模块、改进后的Transformer模块和SElayer模块，图9(d)为在特征图尺度 $20 \times 20 \times 1\;024$和 $40 \times 40 \times 512$后添加改进Transformer模块. 不同检测模型的实验结果如表4所示. 实验1、2表明，在特征图尺度 $20 \times 20 \times 1\;024$后添加注意力机制模块有效，使用传统Transformer模块的mAP@0.5比原模型提升0.005. 实验1、4表明，使用SElayer注意力机制模块的效果不佳，与原模型的mAP@0.5相比，下降0.029. 实验2、3表明，改进后的Transformer模块比传统Transformer模块的mAP@0.5提升0.005. 实验3、5表明，在特征图尺度 $40 \times 40 \times 512$和 $20 \times 20 \times 1\;024$后使用改进Transformer模块的网络相比于在特征图尺度 $20 \times 20 \times 1\;024$后使用改进Transformer模块的网络mAP@0.5提升0.011. 实验3、6与实验5、7表明，使用IN的网络比使用BN的网络mAP@0.5分别提升0.01300、0.004. 实验7为本研究所提模型，相比于原网络，F1提升0.029，mAP@0.5提升0.023. 综合表4的实验结果可以看出，在推力球轴承数据集中，使用改进Transformer模块与使用IN可以有效提升轴承表面缺陷的检测精度.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 模型基准网络结构

Fig.9 Model base network structure

表 4 添加多头自注意力机制模块检测结果对比

Tab.4 Add multi-head self-attention mechanism module detection result comparison

实验	模型	算法	AP			F1	mAP@0.5
实验	模型	算法	划伤	压印	缺球	F1	mAP@0.5
1	原	BN	0.676	0.846	0.986	0.821	0.836
2	图5(a)	BN	0.666	0.864	0.993	0.821	0.841
3	图5(b)	BN	0.698	0.851	0.988	0.831	0.846
4	图5(c)	BN	0.566	0.869	0.987	0.814	0.807
5	图5(d)	BN	0.714	0.869	0.989	0.832	0.857
6	图5(b)	IN	0.715	0.869	0.992	0.845	0.859
7	图5(d)	IN	0.717	0.876	0.991	0.850	0.861

新窗口打开| 下载CSV

3.3.6. 改进后YOLOv5模型测试结果

如图10所示为检测模型改进前后的轴承缺陷样本检测对比，对比了样本1、样本2和样本3的检测结果. 样本1可以看出，改进后的YOLOv5模型能够检测到与推力球轴承外圆环重叠的划伤缺陷; 样本2可以看出，改进后的YOLOv5模型能够检测到更小的压印缺陷；样本3可以看出，改进后的YOLOv5模型的缺陷置信度有明显提高.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 YOLOv5s改进前后在轴承表面缺陷数据集中的检测结果对比

Fig.10 Comparison of detection results of surface defects on bearings before and after YOLOv5s improvement

在相同预处理后的推力球轴承数据集和相同配置条件下，对比本研究所提算法与YOLOv3、YOLOv3-spp、Faster RCNN、YOLOv5s等主流目标检测网络的检测效果，实验结果如表5所示. 可以看出，相比与YOLOv3和Faster-RCNN，本研究所提算法检测推力球轴承表面缺陷的mAP@0.5分别高0.055、0.147，相比YOLOv5s网络提升0.025. 本研究所提算法的检测时间较其他主流模型短，检测精度和检测速度均满足工业大批量检测的需求.

表 5 本研究模型与主流模型检测结果对比

Tab.5 Comparison of proposed model detection results with mainstream models

模型	AP			mAP@0.5	t/ms
模型	划伤	压印	缺球	mAP@0.5	t/ms
YOLOv3	0.586	0.813	0.981	0.806	34.39
YOLOv3-SPP	0.65	0.815	0.991	0.819	30.73
Faster-RCNN	0.468	0.690	0.984	0.714	124
YOLOv5s	0.676	0.846	0.986	0.836	8.28
本研究	0.717	0.876	0.991	0.861	14.96

新窗口打开| 下载CSV

4. 结　论

（1）结合传统图像算法，对图片进行自适应裁剪，去除无效检测区域，不仅能够提高检测速度，还能够提高检测精度.

（2）在模型中使用Transformer多头注意力机制，通过共用线性输入和在线性层后添加激活函数改进机制，不仅提升了检测速度，而且提升了模型的表达能力.

（3）针对同一物体类别在不同图片中的灰度值差异过大的数据集（如推力球轴承数据集），使用实例归一化能提高模型的收敛速度.

（4）使用YOLOv5目标检测算法进行轴承表面缺陷检测，改进后算法的平均检测时间为每张图片14.96 ms. 改进后算法的检测速度和精度均满足项目检测指标要求. 目标检测算法的缺陷可视化效果好，便于轴承制造企业进行产品观察和改进产品制造工艺.

（5）YOLOv5s会将输入的图片进行自适应缩放到适应尺寸，从而丢失大量的缺陷信息，降低检测精度，后续计划探究Transformer多头自注意力模块放置于网络的颈部的作用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

刘桥方, 严枫

我国轴承制造技术的现状及其发展趋势

[J]. 轴承, 2005, (6): 42- 45

DOI:10.3969/j.issn.1000-3762.2005.06.018 [本文引用: 1]

LIU Qiao-fang, YAN Feng

Current situation and development trend of Chinese bearing manufacturing technology

[J]. Bearing, 2005, (6): 42- 45

DOI:10.3969/j.issn.1000-3762.2005.06.018 [本文引用: 1]

[2]

ZOU Y, DU D, CHANG B, et al

Automatic weld defect detection method based on Kalman filtering for real-time radiographic inspection of spiral pipe

[J]. NDT&E International, 2015, 72: 1- 9