基于改进YOLOv5的锂电池极片缺陷检测方法

doi:10.3785/j.issn.1008-973X.2024.09.006

基于改进YOLOv5的锂电池极片缺陷检测方法

冉庆东^,, 郑力新^,

1. 华侨大学信息科学与工程学院，福建厦门 361021

2. 华侨大学工学院，福建泉州 362021

Defect detection method of lithium battery electrode based on improved YOLOv5

RAN Qingdong^,, ZHENG Lixin^,

1. College of Information Science and Engineering, Huaqiao University, Xiamen 361021, China

2. College of Engineering, Huaqiao University, Quanzhou 362021, China

通讯作者: 郑力新，男，教授，博士. orcid.org/0000-0002-5146-8661. E-mail: zlx@hqu.edu.cn

收稿日期: 2023-07-29

基金资助:

福建省科技计划资助项目（2020Y0039）.

Received: 2023-07-29

Fund supported:

福建省科技计划资助项目（2020Y0039）.

作者简介 About authors

冉庆东（1997—），男，硕士生，从事计算机视觉与深度学习研究.orcid.org/0009-0005-4072-3558.E-mail：jlu_rqd@163.com , E-mail：jlu_rqd@163.com

摘要

针对同时存在多种小目标、大长宽比目标缺陷的锂电池极片复杂表面，基于可变形卷积和YOLOv5提出DDCNet-YOLO算法模型. 在主干网络部分构建出可变形下采样卷积主干网络(DDCNet)，在特征融合部分引入上下文增强模块(CAM)，并使用构造的可变形卷积块(DCB)替换C3模块，在检测头部分设计带有注意力机制的解耦头AD-Head. 提出RIoU方法优化不同长宽比目标的损失计算. 实验表明，DDCNet-YOLO模型相较于YOLOv5s及YOLOv5m模型在mAP50上分别提高了6.2个百分点和3.7个百分点. 仅通过DDCNet和注意力机制解耦头构建了DDCNet-YOLOs轻量化模型，与YOLOv5s模型相比，参数量减少7.2个百分点，mAP50∶95提升8.9个百分点. 对2种模型通过C++的方式进行了部署. 本研究所提出的2种算法模型分别侧重于精度和轻量化，都能够在满足一定实际检测速度的条件下，达到较高的检测精度.

关键词： 极片缺陷 ; 可变形卷积 ; 小目标 ; 大长宽比目标 ; YOLOv5

Abstract

The DDCNet-YOLO algorithm model was proposed based on the deformable convolution and YOLOv5, aiming at the complex lithium battery electrode surface with multiple small object defects and large aspect ratio object defects at the same time. The deformable downsampling convolution network (DDCNet) was constructed in the backbone. The context augmentation module (CAM) was introduced in the feature fusion part and the deformable convolution block (DCB) was used to replace the C3 module. AD-Head, a decoupling head with an attention mechanism, was designed in the head part. The RIoU method was proposed to optimize the loss calculation for different aspect ratio objects. Experiments showed that the DDCNet-YOLO model improved the mAP50 by 6.2 percentage points compared to YOLOv5s model and by 3.7 percentage points compared to YOLOv5m model. The lightweight model DDCNet-YOLOs, constructed by DDCNet and a decoupling head with an attention mechanism. The DDCNet-YOLOs improved the mAP50:95 by 8.9 percentage points and reduced the number of parameters by 7.2 percentage points, compared with the YOLOv5s model. In addition, both models were deployed based on the C++. The two algorithmic models focus on accuracy and speed respectively, but both can achieve high accuracy under the condition of meeting the actual detection speed requirement.

Keywords： electrode defect ; deformable convolution ; small object ; large aspect ratio object ; YOLOv5

PDF (2293KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

冉庆东, 郑力新. 基于改进YOLOv5的锂电池极片缺陷检测方法. 浙江大学学报(工学版)[J], 2024, 58(9): 1811-1821 doi:10.3785/j.issn.1008-973X.2024.09.006

RAN Qingdong, ZHENG Lixin. Defect detection method of lithium battery electrode based on improved YOLOv5. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(9): 1811-1821 doi:10.3785/j.issn.1008-973X.2024.09.006

近年来，新能源产业和锂电池技术迅速发展. 极片作为锂电池中的电极，其重要性不言而喻. 极片如果存在缺陷，不仅会降低电池充放电性能，还有较大的安全隐患，在严重的情况下可能导致电池隔膜刺穿，引发电池燃烧和爆炸. 因此，在生产中检测出存在缺陷的极片产品非常重要.

目前，锂电池极片的缺陷检测方法可以分为传统方法和深度学习方法. 传统方法主要根据图像的结构和频域信息，通过增强算子提取图像特征，进而进行检测分类^[1]. 如黄梦涛等^[2-3]通过改进Canny算子，融合BoF-SURF和灰度特征，突出锂电池极片表面的缺陷，并使用支持向量机实现极片缺陷分类. 但传统方法需要复杂、针对性强的算法设计，近年来相关研究呈相对减少的趋势.

深度学习方法以其自动提取特征、鲁棒性和泛化能力强等优势得到关注. 目前主流方法根据检测方式的不同可分为单阶段网络和双阶段网络检测方法. 单阶段网络直接对特征图预测和回归，速度相较于双阶段网络更快. 因此，本任务更适合以单阶段网络进行检测. 目前，单阶段网络的代表主要有SSD^[4]、RetinaNet^[5]、YOLO^[6-9]等，其中YOLO具备实时监测能力，并且检测效果较好，得到了广泛的研究与应用. 刘国栋^[10]基于YOLOv3网络改进，对6类分辨率为256×256的极片缺陷图片进行实验，在自建数据集上的准确率达到96%. 葛钊明等^[11]在YOLOv5s的基础上加入卷积注意力模块(convolutional block attention module, CBAM)，并使用EIoU替代损失函数，相较于YOLOv5s，改进模型在自建数据集中对3类缺陷的mAP50提高1.2个百分点，召回率提高1.5个百分点. 整体上，相关研究普遍存在着缺陷检测类别少、图片分辨率低的不足，尤其是如刘国栋等^[10-11]研究提出的模型，普遍缺少对于极片表面缺陷特点的针对性设计.

极片缺陷的主要特点是存在众多小目标和大长宽比目标缺陷. 小目标本身面积较小，在经过深度学习网络几十倍下采样后，信息容易缺失. 大长宽比目标为细长状的矩形，传统卷积无法完整提取大长宽比目标的特征信息，如果采用大卷积核，周围无关信息可能影响特征的提取.

对于小目标的定义方式可以分为绝对定义和相对定义，其中相对定义在实际应用中经常采纳. 相对定义是选择物体大小相对于原图的比例作为判断指标，如普遍定义目标框的长宽和图像长宽的比值小于0.1，或覆盖面积与图片面积之比小于0. 0009的目标为小目标^[12-15]. 此外，也存在一些对大长宽比目标的研究^[16-18]，但普遍缺乏对大长宽比目标的定量标准. 本研究对极片表面的小目标、大长宽比目标，采用更严苛的标准，即目标框的长宽和图像长宽的比值小于0. 05，或覆盖面积与图片面积之比小于0. 0003的目标确定为小目标，同时将长宽比大于5的目标定义为大长宽比目标.

本研究基于YOLOv5结构，针对大长宽比目标，设计可变形卷积块(deformable convolution block，DCB)，构建出可变形下采样卷积主干网络(deformable downsampling convolution network，DDCNet). 针对小目标在特征融合部分融入上下文增强模块(context augmentation module，CAM)^[19]. 在检测头部分设计了融合注意力机制的解耦头(attention decoupled head，AD-Head). 提出RIoU(ratio-IoU)以优化不同长宽比目标的损失计算. 最终形成DDCNet-YOLO(deformable downsampling convolution network-YOLO)模型. 在考虑模型检测效率的前提下，追求更优的检测效果.

1. DDCNet-YOLO算法

1.1. 模型整体结构

DDCNet-YOLO模型结构如图1所示，大体上分为3个部分，提取特征的主干网络(Backbone)、融合特征的颈部网络(Neck)和用来预测类别和回归坐标及置信度的头部网络(Head). 其中，橙色阴影矩形块为本研究设计和增加的模块，左侧黑色虚线矩形框为可变形下采样卷积网络DDCNet，右侧为新增的P6检测分支. Conv 模块是一个基础模块，包含卷积、归一化和激活函数3个操作，Unsample模块为下采样模块，Concat表示对特征图沿深度通道进行拼接操作，SPPF和C3模块为YOLOv5的原始模块.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 DDCNet-YOLO模型结构

Fig.1 Structure of DDCNet-YOLO model

在主干网络部分，为了提高对大长宽比缺陷目标的检测效果，设计了可变形下采样卷积模块(deformable downsampling convolution module，DDCM)，并基于该模块构建出主干网络DDCNet，实现64倍下采样，以增大感受野，提高模型对于全局信息的学习能力. 在特征融合部分，在浅层引出分支加入上下文增强模块CAM，关注暗斑、凹陷、漏箔等小目标缺陷的周围信息，提升对小目标缺陷的检测能力，同时使用可变形卷积块DCB取代原C3模块，进一步加强对大长宽比缺陷的检测，并保留最后2个C3模块以保证模型收敛速度. 在检测头设计了一个融合注意力机制的解耦头AD-Head，提高模型对重点区域和特征通道的关注度，并对分类和回归任务进行解耦，分别预测缺陷的类别、边界框及置信度信息.

1.2. 可变形下采样卷积模块

DDCM如图2所示，通过3×3卷积模块实现下采样，使特征图尺寸减小为原来的一半，扩大特征图的感受野，获得更大范围信息；使用1×1卷积增加网络深度，达到升维的作用，实现通道间的信息交互，相较于单独使用3×3卷积增加网络深度，可以减少参数量；分别通过DCB及1×1卷积模块调整通道数，并对两者进行通道上的拼接，使通道数翻倍；最后的1×1卷积起到将通道数降低为预设值的作用.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 可变形下采样卷积模块

Fig.2 Deformable downsampling convolution module

DCB融入了可变形卷积的思想^[20-22]，主要针对大长宽比的目标缺陷进行特征提取，如图3所示为常规卷积和可变形卷积对极片采样位置的对比示意图. 图中，浅色部分为胶带种类缺陷.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 常规卷积和可变形卷积采样位置示意图

Fig.3 Diagram of sampling positions of conventional and deformable convolution

常规的卷积方式如图3(a)所示，通过方形卷积核对特征图的固定位置区域进行卷积，常规卷积的表达式如下：

(1)$ y\left(p_0\right)=\sum_{k=1}^K w_k x\left(p_0+p_k\right) . $

式中：$ K $表示采样点个数，$ {p_{\text{0}}} $表示卷积核中心点，$ {p_k} $表示卷积核各点相对于中心点的偏移坐标，$ {w_k} $表示卷积核各位置的权重，$ x $和$ y $分别为常规卷积前、后对应点的值.

但这对于形状不规则的缺陷特征的提取存在一定不足. 相比之下，可变形卷积可以对每个采样位置进行学习，在原采样位置上增加一个偏移量(offset)，就可以改变采样卷积核的形状以及扩展卷积的范围，如图3(b)所示. 对于此偏移量的学习，通过一个作用在输入特征图的卷积操作得到. 这个偏移特征图的尺寸大小和输入特征图保持相同，但通道数为原来的2倍，分别对应每个通道每个采样点水平和竖直方向上的偏移量，最后再映射回原特征图中的对应位置进行采样，得到输出特征图. DCNv3可变形卷积模块的表达式如下：

(2)$ y_g\left(p_0\right)=\sum_{g=1}^G \sum_{k=1}^K w_g \; m_{g k} \; x_g\left(p_0+p_k+\Delta p_{g k}\right) . $

式中：$ G $表示分组的数量，$ {w_g} $为组内共享投影权重，$ {m_{gk}} $表示第$ g $组第$ k $个采样点归一化后的调制因子，$ \Delta{p_{gk}} $表示组内相应采样点的偏移量，$ {x_g} $和$ {y_g} $分别表示可变形卷积操作前、后对应点的值.

通过对比示意图和公式可以发现，可变形卷积在采样时可以更贴近目标缺陷的形状和尺寸，更具有鲁棒性，而常规卷积无法达到这一点. 因此，采用可变形卷积来提高模型对于胶带、竖直条纹、开裂等较大长宽比目标缺陷的学习能力.

1.3. 上下文增强模块

在极片的缺陷检测中，还存在着暗斑、凹陷、白点等微小目标缺陷，这些小目标随着网络的加深与感受野的增大会损失一定的特征信息. 为了更好地保留小目标的原始特征，在第2个DDCM模块后引出分支，加入针对小目标有良好效果的上下文增强模块CAM，并与深层特征进行拼接融合.

CAM主要基于扩张卷积(dilated convolution)的思想，在不通过池化损失信息的情况下，指数级增加感受野，再对不同扩张率Rate下的卷积进行融合，丰富上下文信息，提高对小目标的检测效果. CAM的结构如图4所示，展现了扩张卷积及其融合方式. 对输入的特征图进行卷积核大小为3×3，扩张率分别为1、3、5的卷积操作；共有3种融合方式可以选择，分别为加权融合、自适应融合和拼接融合，根据数据集的不同，3种融合方式的效果也有所不同.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 上下文增强模块

Fig.4 Context augmentation module

1.4. 注意力机制解耦头

YOLOv5在检测头中只进行了一次1×1卷积，并将分类任务和回归任务耦合. 不过，2个任务所关注的内容不同，分类聚焦于所提取特征的类别，而回归注重位置坐标和边界框参数的修正，如果共同输出可能会对检测效果产生影响. 因此，YOLOX^[23]提出将分类任务和回归任务解耦从而有效提高网络的检测效果. YOLOX的解耦头包含多个卷积层，会使模型增加一定参数量，因此，本研究考虑解耦头的轻量化，并融合注意力机制，设计了AD-Head，其中注意力机制的引入能够提高模型对位置和通道数的敏感性.

解耦头结构如图5所示. 输入的特征图首先通过注意力机制模块，紧接通过一个1×1卷积模块调整通道数，然后进入2条支路，分别用于分类任务和回归任务. 分类任务通过一个3×3卷积和一个1×1卷积对类别进行预测，回归任务通过2个3×3卷积后，解耦为对位置坐标的回归任务和对置信度的回归任务，相较于YOLOX在类别的预测上，减少了一个3×3卷积，同时减少了通道数. 其中，由于注意力机制的效果受到数据集的影响，根据实验结果选择合适的注意力机制方法. AD-Head解耦头通过注意力机制提高模型对重点区域和特征通道的关注度，并从轻量化角度，削减了分类任务的卷积层数量，以及各自的通道数，总体上平衡模型的效率与精度. 此外，为了进一步追求轻量化，将AD-Head中所有3×3卷积全部替换为1×1卷积，构成AD-Heads，以减少模型的参数量，搭建了DDCNet-YOLOs网络模型.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 融合注意力机制的解耦头结构

Fig.5 Structure of decoupled head with attention

1.5. RIoU损失函数

在YOLOv5中采用CIoU作为目标框的定位损失，其损失函数为

(3)$ L_{\text {CloU }}=1-\mathrm{IoU}+\frac{\rho^2}{c^2}+\alpha v , $

(4)$ v=\frac{4}{{\text{π}}^2}\left(\arctan \;\frac{w^{{\mathrm{g t}}}}{h^{{\mathrm{g t}}}}-\arctan \; \frac{w}{h}\right)^2, $

(5)$ \alpha=\frac{v}{(1-\mathrm{IoU})+v}. $

式中：$ {\text{IoU}} $为真实目标框和预测目标框的交并比，$ \rho $为两者中心点的位置距离，$ c $为两者外接矩形框的对角线距离，$ v $为两者宽高比相似度，$ {w^{{\mathrm{gt}}}} $、$ {h^{{\mathrm{gt}}}} $和$ w $、$ h $分别为真实目标框和预测目标框的宽、高，$ \alpha $为$ v $的影响因子. 其中，$ \rho $的平方和$ c $的平方之比主要是为了衡量中心点的偏移损失，$ \alpha $与$ v $的乘积用来评价真实框和预测框的宽高比差异.

锂电池极片缺陷图片中存在着许多大长宽比目标，而这会对$ v $产生一定影响. 首先假设真实目标框的宽高比为$ r $，预测目标框的宽高比为$ \lambda $倍的$ r $，示意图如图6所示. 图6分别呈现了在IoU相同时，一般目标和较大长宽比目标的真实目标框与预测目标框的不同情况. 其中，内部灰色实线矩形框为真实框，外部橙色虚线矩形框为预测框，由于中心点的偏移对$ v $没有影响，将真实框和目标框的中心点重合，并将$ {h^{{\mathrm{gt}}}} $和$ h $统一为单位长度，便于对比.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同长宽比的真实目标框和预测目标框示意图

Fig.6 Schematic diagrams of ground truth box and predicted box with different aspect ratios

分别取$ \lambda $的值为1.5、2. 0、3. 0、5. 0，绘制出不同$ \lambda $下$ v $与$ r $的关系，结果如图7所示. 可以看出，当$ r $≈1时，$ v $远大于$ r $取较大值时对应的$ v $，即目标框长宽比约为1时的$ v $远大于大长宽比目标框的$ v $. 同时，当$ r $较大时，$ v $对不同$ \lambda $的敏感度较低，即对于大长宽比目标，预测值产生较大的偏差对宽高比的损失影响较小. 在IoU相同时，一般目标和大长宽比的目标的$ v $差距较大. 因此，为了平衡大长宽比目标和一般长宽比目标的损失，在$ v $的基础上提出了$ v' $：

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 大长宽比目标对损失函数计算的影响

Fig.7 Influence of large aspect ratio objects on calculation of loss function

(6)$ \begin{split} v^{\prime}=&\frac{8}{{\text{π}}^3}\left[\arctan \;\left(\max\; \left(\frac{w^{{\mathrm{g t}}}}{h^{{\mathrm{g t}}}},\; \frac{h^{{\mathrm{g t}}}}{w^{{\mathrm{g t}}}}\right)\right)\right] \times \\&\left(\arctan\; \frac{w^{{\mathrm{g t}}}}{h^{{\mathrm{g t}}}}-\arctan \;\frac{w}{h}\right)^2 .\end{split} $

式中：max用于得到真实目标框的宽高比和高宽比中的最大值，同时为了保证$ v' $的值域为0~1. 0，所乘常量为$ 8/{{\text{π }}^3} $.

$ v $关于$ w $、$ h $这2个变量的导数分别如下：

(7)$ \frac{{\partial v}}{{\partial w}} = \frac{8}{{{{\text{π}}^2}}}\left( {\arctan \;\frac{{{w^{{\mathrm{gt}}}}}}{{{h^{{\mathrm{gt}}}}}} - \arctan\; \frac{w}{h}} \right) \frac{h}{{{w^2}+{h^2}}}, $

(8)$ \frac{{\partial v}}{{\partial h}} = - \frac{8}{{{{\text{π}}^2}}}\left( {\arctan\; \frac{{{w^{{\mathrm{gt}}}}}}{{{h^{{\mathrm{gt}}}}}} - \arctan \;\frac{w}{h}} \right) \frac{w}{{{w^2}+{h^2}}}. $

当预测小目标时，$ w $和$ h $会非常小，导致$ 1/ \left( {w^2}+\right. \left.{h^2} \right) $的值非常大，进而可能引发梯度爆炸. 为了避免这个问题，同时为了提高模型对于宽高比差异损失的关注，在本研究设计的RIoU损失中，将$ \alpha $的值设置为常数1.0，即其值域范围内的最大值. 因此，本研究设计的RIoU损失函数表达式如下：

(9)$ L_{\mathrm{RIoU}}=1-\mathrm{IoU}+\frac{\rho^2}{c^2}+v^{\prime} . $

2. 实验结果与分析

2.1. 实验数据集

使用某公司提供的锂电池极片表面采集图片制作数据集，图片原始分辨率为8192×3000，缺陷种类分为暗斑(dark spot)、凹陷(pit)、白点(white dot)、痕迹(trace)、烘烤纹(bake pattern)、划痕(scratch)、胶带(adhesive tape)、漏箔(drain foil)、竖直条纹(vertical stripe)、褶皱(fold)、开裂(crazing)，共11类，如图8所示. 原始数据集共1 166 张，总缺陷数量为5 976 个，其中，小目标缺陷为3 902 个，占总缺陷数量的65.3%，大长宽比目标缺陷为1 213 个，占比为20.3%. 对数据集按照6∶2∶2划分训练集、验证集和测试集，并通过水平翻转、竖直翻转以及中心对称的方式对划分后的训练集和验证集分别进行扩充，测试集模拟真实不可见场景，不进行扩充，扩充后的训练集共2 800 张，并采用边缘裁剪和线性对比度增强的预处理方法. 除特殊标明外，实验数据均为模型在测试集上的实验结果.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 十一类缺陷图像示例

Fig.8 Eleven classes of defective images

2.2. 实验环境

实验在Windows 10系统上进行，基于Pytorch 2. 0框架，通过2 张NVIDIA GeForce RTX 3080Ti 显卡，batch size设置为4，预设总训练轮数为500次，patience设为50次，采用SGD优化器，学习率为0. 01，动量为0.937，权重衰减系数为0. 000 5.

2.3. 评价指标

对于模型的性能评估主要采用平均精度均值(mean average precision，mAP)，其中mAP50表示IoU阈值为0.50时各类别AP的均值，mAP50∶95表示IoU阈值从0.50到0.95每隔0. 05取值所对应mAP的平均值. 精确率P、召回率R和AP的表达式如下：

(10)$ P = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FP}}}}, $

(11)$ R = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FN}}}}, $

(12)$ {\text{AP}} = \int_0^1 {P\left( R \right){\mathrm{d}}R} . $

式中：TP为真正例，FP为假正例，FN为假负例，AP为精确率和召回率曲线下的面积. 此外，为了体现对小目标和大长宽比目标的提升效果，使用mAP50_S和mAP50_L作为其评价指标，分别表示如图8中，小目标和大长宽比目标类别的mAP50指标均值.

2.4. 实验结果

为了尽可能保留图像的原始信息，实验设定压缩(resize)后输入图片尺寸的最大边长为1280，通过kmeans聚类生成的锚框如表1所示. 表中，尺寸(x,y)中的x、y分别表示锚框的宽度和高度. 此外，为了公平对比实验结果，实验不使用预训练权重.

表 1 各检测分支生成锚框尺寸

Tab.1 Anchor size generated by each detection branch

检测分支	锚框尺寸
P3	(14,12)，(22,19)，(25,69)
P4	(35,199)，(64,118)，(31,598)
P5	(371,61)，(82,295)，(49,494)
P6	(1215,41)，(809,92)，(1226,131)

新窗口打开| 下载CSV

2.4.1. CAM不同融合方式对比实验

为了对比CAM的3种不同融合方式对模型检测效果的影响，对其分别进行实验. 基准模型baseline为YOLOv5s模型，在第2个C3模块后的引出分支中加入3种不同融合方式的CAM，实验结果如表2所示. 表中，P为参数量，val表示模型在验证集的实验结果. 可以看出，CAM的3种融合方式对于模型的性能都有一定的提升，其中加权融合方式可以达到更好的效果，相较于原始模型，在测试集上mAP50提高2. 0个百分点，同时对于小目标的精度指标mAP50_S，在验证集和测试集上分别提升2.6个百分点和0.5个百分点. 因此，CAM的引入能够有效提升模型对小目标以及整体的检测性能.

表 2 CAM不同融合方式对比

Tab.2 Comparison of different fusion methods for CAM

方法	P/10⁶	mAP50/%	mAP50_S/%	mAP50_S(val)/%
baseline	7. 04	70.9	73.4	70.1
+加权融合	7.53	71.9	73.5	71.4
+自适应融合	7.56	72. 0	72.4	70.7
+拼接融合	7.53	72.9	73.9	72.7

新窗口打开| 下载CSV

2.4.2. 注意力机制检测头对比实验

为了探究不同注意力机制融入检测头后的检测效果，对6种注意力机制方式进行对比实验，其中不添加注意力机制的YOLOv5s模型为baseline，实验结果如表3所示. 可以看出，注意力机制的引入对网络mAP50∶95的检测指标有一定的提升，其中ParNet和ECA分别对mAP50和mAP50∶95提升最大，ParNet使mAP50提高3.3个百分点，使mAP50∶95提高4.8个百分点，而ECA使mAP50∶95和mAP50分别提高5.4个百分点和1.8个百分点. 综合来看，ParNet提升效果最好，但ParNet的参数量较原模型增加较大，可能对于模型的检测速度产生一定影响. 因此，为了保证检测速度，追求更高检测精度，在构建DDCNet-YOLO时采用带有ParNet注意力机制的检测头. 在DDCNet-YOLOs轻量化模型中，使用含有ECA注意力机制的检测头，兼顾精度和轻量化.

表 3 6种注意力机制检测头对比

Tab.3 Comparison of six attention detection heads

方法	P/10⁶	mAP50/%	mAP50∶95/%
baseline	7. 04	70.9	36.3
+SimAM^[24]	7. 04	69.1	37. 0
+SA^[25]	7. 04	69.1	37.3
+ECA^[26]	7. 04	72.7	41.7
+SE^[27]	7. 08	70.5	40.8
+CoT^[28]	10. 06	70.9	37.7
+ParNet^[29]	10.83	74.2	41.1

新窗口打开| 下载CSV

2.4.3. 消融实验

为了验证所提改进模块与引入方法对于模型检测性能的提升效果，进行消融实验. 实验以YOLOv5s为基础模型逐个添加改进模块及方法，分别以A~H表示模型序号，首先将主干网络替换为32倍下采样的DDCNet构成模型B，然后在模型B的基础上，添加使用ECA 注意力机制的轻量化解耦头AD-Heads组成模型C，即DDCNet-YOLOs模型. 同时对模型B依次加入CAM模块、替换DCB模块以及融入包含ParNet注意力机制的解耦头AD-Head构成模型D~F，最后添加P6分支使模型达到64倍下采样得到模型G，再在模型G基础上使用RIoU得到模型H，即DDCNet-YOLO模型，实验结果如表4所示.

表 4 消融实验结果

Tab.4 Results of ablation experiments

模型序号	方法	P/10⁶	mAP50/ %	mAP50_S/ %	mAP50_L/ %	mAP50∶95/ %
A	baseline	7. 04	70.9	73.4	67.9	36.3
B	A+DDCNet	6. 02	71.6	70.7	72.7	41.5
C	B+AD-Heads	6.53	72.4	74.4	70. 0	45.2
D	B+CAM	6.51	71.2	74.2	67.5	45.4
E	D+DCB	6.61	72.6	71. 0	74.6	44.7
F	E+AD-Head	14.14	73.9	72.4	75.9	45.3
G	F+P6	22.76	76.8	75.4	78.4	43.8
H	G+RIoU	22.76	77.1	75.6	79. 0	45.7

新窗口打开| 下载CSV

可以看出，所设计的模型对检测效果均有一定的提升. 其中，以DDCNet为基础主干网络的提升效果较为明显，能够在参数量减少1.02×10⁶时，mAP50∶95提高5.2个百分点，mAP50_L提高4.8个百分点，体现出模型对大长宽比类别缺陷的针对性提升效果，同时从mAP50∶95的大幅提升也可以看出DDCNet预测目标框与真实框的重合度更高，能够更为精准地预测出缺陷的位置及大小. 在此基础上加入AD-Heads构成的DDCNet-YOLOs轻量化模型，mAP50∶95和mAP50_S均提升3.7个百分点，可见AD-Heads对小目标检测效果的提升，使DDCNet-YOLOs能够在实现轻量化的同时,达到更高的精度. 此外，在对DDCNet依次融入CAM、DCB、AD-Head、P6分支及RIoU后，组成模型H，即DDCNet-YOLO模型，将mAP50进一步提升至77.1%，相较于原模型mAP50提高了6.2个百分点，mAP50∶95提高了9.4个百分点. 其中在特征融合部分依次加入CAM和DCB，与模型B相比，小目标mAP50_S和大长宽比目标mAP50_L分别提升了3.5个百分点和1.9个百分点，而AD-Head同时提高了对这2种目标的检测效果. P6分支的引入促成了网络的加深，模型获得了更大的感受野，有利于提升模型对大目标缺陷的检测能力，将mAP50和mAP50_L分别提高2.9个百分点和2.5个百分点，同时，融合更深层次的信息也有助于对小目标的预测. RIoU能够平衡一般目标和大长宽比目标的损失，多种检测指标都有所提升. 综合来看，各模块的设计和引入，都能够针对性地提高小目标或大长宽比目标类别的检测效果，进而提升模型整体的检测性能.

2.4.4. 综合对比实验

为了测试所提模型的性能，将所设计的DDCNet-YOLO模型和轻量化模型DDCNet-YOLOs，与经典主流深度学习方法^[5,30]以及采用深度学习方法检测锂电池极片缺陷的文献^[10-11]进行实验对比. 所有实验均基于本研究所构建的锂电池极片表面缺陷数据集. 考虑到实际工业场景下工控机的性能，对比验证实验使用单张GPU进行，训练轮数为200次，实验数据如表5所示. 表中，t为耗时. 可以看出，基于YOLO构建的模型从精度和速度上都要优于另外2种经典网络. 其中本研究设计的轻量化DDCNet-YOLOs模型能够在参数量少于YOLOv5s模型0.51×10⁶的情况下，在mAP50、mAP50∶95上分别提升1.5个百分点、8.9个百分点. 对于参数更多、精度更高的YOLOv5m模型，所构建的DDCNet-YOLO模型在参数量上与其接近，但mAP50和mAP50∶95指标分别高于YOLOv5m模型3.7个百分点和3.1个百分点，同时检测速度更快，对每张图片的检测速度平均减少1.1 ms，达到26.5 ms. 同时，对比2篇针对极片表面缺陷的改进文献方法^[10-11]，无论是整体的检测效果还是针对小目标和大长宽比目标的检测效果，本研究所提模型均有较大的优势.

表 5 不同算法在锂电池极片数据集中的实验结果对比

Tab.5 Comparative experimental results of different algorithms on lithium battery electrode dataset

方法	P/10⁶	t/ ms	mAP50/ %	mAP50_S/ %	mAP50_L/ %	mAP50∶95/ %
Swin-Transformer^[30]	37. 03	56.8	46.4	37.1	57.7	22.3
RetinaNet^[5]	36.31	44.6	53.4	46.9	61.1	25.4
文献[10]	9.33	23.5	52.2	63.9	38.2	27.3
YOLOv5s	7. 04	22. 0	70.9	73.4	67.9	36.3
文献[11]	7. 08	24.1	70.4	72. 0	68.5	37.4
DDCNet-YOLOs (本研究)	6.53	22.8	72.4	74.4	70. 0	45.2
YOLOv5m	20.89	27.6	73.4	72.6	74.3	42.6
DDCNet-YOLO (本研究)	22.76	26.5	77.1	75.6	79. 0	45.7

新窗口打开| 下载CSV

此外，如图9~11所示分别呈现了训练过程中，mAP50和mAP50∶95指标以及Loss损失在100个训练轮次内的变化情况. 可以看出，所构建的DDCNet-YOLO模型在mAP50和mAP50∶95指标上具有更快的增长速度以及更优的检测结果，同时Loss曲线体现出模型较快的收敛速度.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 训练过程mAP50曲线

Fig.9 Curve of mAP50 during training

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 训练过程mAP50∶95曲线

Fig.10 Curve of mAP50∶95 during training

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 训练过程损失曲线

Fig.11 Curve of loss during training

2.4.5. 特征图可视化

为了验证所设计的模型检测效果及探究网络的可解释性，可视化深度神经网络中对预测结果贡献最大的部分. 选取极片表面缺陷图片，对YOLOv5m模型及构造的DDCNet-YOLO模型，采用Grad-CAM方法进行热力图可视化分析对比，结果如图12所示.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 模型特征图可视化对比

Fig.12 Visualization comparison of model feature maps

在缺陷图片的顶部存在着胶带种类缺陷，热力图中颜色越接近红色说明对应区域对预测结果贡献越大，越接近蓝色说明贡献越小. 在热力图中，YOLOv5m的红色热区主要存在于胶带缺陷的中间部分，以及图片底部的非缺陷区域，说明模型的重点关注区域存在着部分偏差，而DDCNet-YOLO模型对于预测结果的主要贡献区域，与实际缺陷区域重合度更高，展现出更好的检测效果，同时对神经网络的决策增加了可解释性来源.

2.4.6. 模型部署

近些年，学术上采用深度学习方法的研究很多仅停留在理论实验层面，并未在实际工业场景下进行部署应用方面的研究，主要原因之一在于深度学习模型是基于python语言训练得到的，而工业界软件目前普遍使用C语言，如何将模型进行转化并推理部署便成为一个难点. 本研究选择三大主流部署平台之一的ONNX RUNTIME，通过C++的方式进行部署. 同时，考虑到实际工业生产环境中的不同产品检测速度要求不同以及成本因素，分别采用显卡为NVIDIA GeForce RTX 3080Ti的台式电脑及显卡为NVIDIA GeForce GTX 965M的较低配置笔记本电脑模拟不同硬件条件下的部署实验. 实验选取10张图片，预热显卡后计算平均检测时间t_d作为模型在硬件上的部署耗时，实验结果如表6所示. 同时，本研究2种模型在NVIDIA GeForce RTX 3080Ti 显卡上的轻量化部署结果示意图如图13所示. 可以看出，2种模型都能够在满足不同检测速度的标准下，快速准确地检测出小目标和大长宽比目标缺陷. DDCNet-YOLO模型检测出缺陷目标的整体置信度相较于DDCNet-YOLOs更高，检测精度更好，但在速度上稍显劣势. 同时，高性能显卡检测速度极快，对于不同模型的推理耗时差距较小，而对于一般性能的显卡，模型大小对推理时间的影响会被放大. 因此，在实际工业场景下，须根据检测任务和检测要求的不同，选择合适的硬件，如果为达到更快的检测速度，可以配置更高性能的工控机及显卡，或者选择更轻量化的模型.

表 6 2种模型在不同硬件上平均检测时间对比

Tab.6 Comparison of average detection time between two models on different hardwares

GPU	t_d
GPU	DDCNet-YOLOs	DDCNet-YOLO
NVIDIA GeForce GTX 965M	0.71 s	1.19 s
NVIDIA GeForce RTX 3080Ti	22.99 ms	28.88 ms

新窗口打开| 下载CSV

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 DDCNet-YOLOs和DDCNet-YOLO部署结果

Fig.13 Deployment results of DDCNet-YOLOs and DDCNet-YOLO

3. 结　论

（1）针对锂电池极片表面缺陷及深度学习目标检测的难点，即同时存在的多种小目标、大长宽比目标缺陷，提出多个针对性的算法模块和IoU的改进，构建出DDCNet-YOLO算法模型.

（2）在锂电池极片数据集上的实验结果表明，DDCNet-YOLO模型和轻量化模型DDCNet-YOLOs在速度和精度上具有更强的综合检测性能，并展现出对小目标和大长宽比目标的提升效果.

（3）对所提出的2种算法模型以目前工业上普遍采用的C++方式进行轻量化部署研究，部署的模型能够快速准确识别锂电池极片表面的多种缺陷.

整体上，所提出的2种算法模型分别侧重于更高的检测精度与模型轻量化，但都能够在满足实际检测速度要求下，针对小目标和大长宽比目标取得较好的检测效果. 并通过对模型的部署，使其更加贴合实际工业场景应用，进而在锂电池极片生产中，有效检测出缺陷产品.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

朱贺, 杨华, 尹周平

纹理表面缺陷机器视觉检测方法综述

[J]. 机械科学与技术, 2023, 42 (8): 1293- 1315