基于高精多尺度集成的轻量织物缺陷检测方法

doi:10.3785/j.issn.1008-973X.2025.12.010

基于高精多尺度集成的轻量织物缺陷检测方法

张捷皓^,, 张进峰, 吴威涛, 向忠^,

浙江理工大学机械工程学院，浙江杭州 310018

Lightweight fabric defect detection method based on high precision multi-scale integration

ZHANG Jiehao^,, ZHANG Jinfeng, WU Weitao, XIANG Zhong^,

College of Mechanical Engineering, Zhejiang Sci-Tech University, Hangzhou 310018, China

通讯作者: 向忠，男，教授. orcid.org/0000-0003-3046-6170. E-mail：xz@zstu.edu.cn

收稿日期: 2024-11-20

基金资助:

国家自然科学基金资助项目（52575602）；国家重点研发计划资助项目（2024YFB4614200）；浙江省“尖兵领雁”科技计划资助项目（2025C01088）.

Received: 2024-11-20

Fund supported:

国家自然科学基金资助项目（52575602）；国家重点研发计划资助项目（2024YFB4614200）；浙江省“尖兵领雁”科技计划资助项目（2025C01088）.

作者简介 About authors

张捷皓（1999—），男，硕士生，从事深度学习研究.orcid.org/0009-0007-9725-6238.E-mail：zszhangjh1999@163.com , E-mail：zszhangjh1999@163.com

摘要

织物缺陷形态尺寸多样，尤其是极端大纵横比缺陷会对检测构成巨大挑战. 为了实现在计算资源有限的情况下提高检测精度，提出高精多尺度集成的轻量织物缺陷检测方法. 设计坐标并行深度卷积(CPDConv)，通过添加坐标为卷积提供图像中每个像素点的绝对位置，又通过并行多尺寸卷积核提取不同尺寸特征图，拼接多尺度、多视野的显著缺陷特征；基于CPDConv重构新瓶颈块CPDBottleneck，使高质量特征提取模块C3CPD具备获取更多特征信息的能力；构建多尺度逐步特征融合网络(MSFPN)，减少非相邻层间特征信息在传递过程中的损失；引入基于辅助边界框的Powerful IoU(Inner-PIoU)避免预测框膨胀并加快其回归速度. 实验结果表明，在自建的织物数据集上，对比原版YOLOv5s，由上述模块改进的YOLOv5s在mAP50上提高了3.2个百分点，参数量和计算量分别下降约24.3、16.9个百分点，每秒帧数仅下降约1.9，能够满足工业织物缺陷检测中精度与速度的要求.

关键词： 深度学习 ; 多特征整合 ; 关键特征保留 ; YOLO ; 纺织织物

Abstract

Fabric defects with various shapes and sizes, especially those with extremely large aspect ratio, pose a great challenge to detection. In order to improve detection accuracy with limited computational resources, a lightweight fabric defect detection method with high-precision multiscale integration was proposed. Firstly, coordinate parallel depthwise convolution (CPDConv) was designed to provide the absolute position of each pixel point in the image by adding coordinates to the convolution, as well as extract different-scale feature maps, and splice significant defect features with multi-scale and multi-fields of view through parallel multiscale convolution kernels. New bottleneck block CPDBottleneck was reconstructed based on CPDConv, so that high-quality feature extraction module C3CPD had the ability to obtain more feature information. Secondly, a multiscale stepwise feature pyramid network (MSFPN) was constructed, which reduced the loss of feature information between non-adjacent layers during transmission. Finally, a powerful IoU (Inner-PIoU) based on auxiliary bounding boxes was introduced to avoid the expansion of prediction boxes and accelerate their regression speed. The experimental results showed that, on the self-constructed fabric dataset, compared with the original YOLOv5s, the mAP50 of the YOLOv5s improved by the above modules was increased by 3.2 percentage points, its parameters and computational complexity were reduced by about 24.3 percentage points and 16.9 percentage points, respectively, and its frames per second decreased by only about 1.9. The proposed method can meet the requirements of accuracy and speed in industrial fabric defect detection.

Keywords： deep learning ; multi-feature integration ; key feature preservation ; YOLO ; textile fabrics

PDF (8138KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张捷皓, 张进峰, 吴威涛, 向忠. 基于高精多尺度集成的轻量织物缺陷检测方法. 浙江大学学报(工学版)[J], 2025, 59(12): 2556-2565 doi:10.3785/j.issn.1008-973X.2025.12.010

ZHANG Jiehao, ZHANG Jinfeng, WU Weitao, XIANG Zhong. Lightweight fabric defect detection method based on high precision multi-scale integration. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2556-2565 doi:10.3785/j.issn.1008-973X.2025.12.010

在织物生产中，受人员操作不当、机械故障因素影响，织物表面不可避免会产生缺陷^[1]. 不及时检出织物缺陷会影响纺织成品的美观及使用，这将对企业造成巨大的经济损失^[2]. 目前，多数纺织企业采取人工检测方法，但受人员视检疲劳、注意力不集中影响，缺陷检出效率低、速度慢^[3-4]. 因此，纺织企业开始引入深度学习用于织物缺陷检测.

织物缺陷的自动检测方法有传统图像处理和深度学习. 深度学习凭借强大的自适应特征提取能力和鲁棒性，在各种图像检测的应用中取得了远优于传统图像处理的检测能力^[5]. 常用的基于深度学习的检测模型有二阶模型R-CNN (region convolutional neural network)系列网络^[6-7]、一阶模型YOLO (you only look once)系列网络^[8-10]以及单阶多层检测器(single shot multibox detector, SSD)^[11].

基于深度学习的检测方法快速应用于各领域，其本身的局限性也逐渐暴露. Liu等^[12]发现卷积网络在处理现实三维空间坐标点到对应图像像素坐标点的映射时会产生偏差，因此，为普通卷积添加额外坐标通道(coordinate convolution, CoordConv). Yang等^[13]针对特征融合网络存在特征信息丢失或退化严重的问题，提出支持非相邻层间交互的渐进特征融合网络，通过自适应空间融合减少多目标信息冲突问题.

针对实际织物缺陷检测任务存在的挑战，对常用检测模型进行改进. Liu等^[14]在YOLOv7的主干引入部分卷积降低参数量，还使用集成接收域块和内容感知重组上采样算子，在不提高参数量的同时扩大感受野. 但模型仅使用单一背景、缺陷种类少的样本进行训练. Luo等^[15]设计了新的路径聚合网络(path aggregation network, PAN)，并在YOLOv4中引入深度可分离卷积及卷积注意力，减少模型参数量及增强小目标缺陷的检出能力. 然而，深度可分离卷积没有权重共享及跨通道的信息融合能力，检测受背景干扰较大. Wang等^[16]在YOLOv5s中引入坐标注意力，引导网络关注缺陷区域，且抑制彩色图案背景，并使用双向特征融合网络提高融合效率. Guo等^[17]在YOLOv5主干引入空洞空间金字塔池化，并提出卷积压缩激励通道注意力，提高了模型检测和抗干扰能力，但增加了较多的参数量. Li等^[18]为YOLOv5的改进提出部分深度卷积以减少信息冗余，提出增强的双向特征融合网络提高融合效果，提出交叉归一化损失函数加块模型收敛及提高小目标检测能力.

上述模型取得了一定的成功，但没有较好地平衡模型的精度、速度、模型参数和计算量，另外，有些模型在面对大纵横比及成像外观相似缺陷的检测中出现了问题. 因此，织物缺陷检测依旧存在如下的一些挑战. 1）不同原因会造成不同形态及尺寸的织物缺陷^[19]，如污染导致大面积缺陷，断经、断纬形成具有极端纵横比的缺陷，破洞、纬缩形成小或微小缺陷. 现有检测模型无法完全有效检出并正确分类. 2）网络频繁地提取与融合特征导致特征细节信息丢失，容易出现相似缺陷错检、背景误检问题. 3）边缘计算机低延迟和小体积的特点能提高系统响应速度，并减少多台设备使用时的占地面积. 但边缘计算机存在算力受限问题，当模型选择降低参数和计算量以实现部署时，却无法保证模型精度.

为了解决上述问题，本研究提出高精多尺度的轻量织物缺陷检测方法CPD-YOLO. 设计添加了坐标通道的并行深度卷积，并以该卷积重构特征提取模块，该模块以降低瓶颈块中通道数的方法，降低模型参数及计算量，同时有效提取多尺寸缺陷特征；设计逐步特征融合网络，将非相邻层间的信息进行直接交互以提高融合效果；引入Inner-PIoU损失函数以提高边界框的回归速度及定位能力.

1. 基于CPD-YOLO的织物缺陷检测

1.1. CPD-YOLO的网络结构

所提出的CPD-YOLO模型结构如图1所示. 其中，w为特征图宽度，h为特征图高度，k为卷积核尺寸，s为步长，p为零填充大小，c为卷积核个数. 其检测步骤如下：采集织物缺陷图片作为输入的图像，调整图片分辨率为640×640，Backbone不断深入提取图片特征信息，MSFPN融合从骨干中提取的不同深度的特定特征图，检测层Head根据融合后的特征回归及分类目标，最后输出预测框及置信度.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 CPD-YOLO结构

Fig.1 Structure of CPD-YOLO

1.2. 基于坐标并行深度卷积的C3CPD模块

纺织工业生产的织物表面可能存在不同尺寸并且分布位置随机的缺陷，为此设计了添加坐标的并行深度卷积模块(coordinate parallel depthwise convolution, CPDConv)，通过不同尺寸卷积核提取到不同尺度特征以适应不同尺寸的织物缺陷，其结构如图2所示. 其中，e₁为通道膨胀率，实验中e₁设为0.25. CPDConv对图像特征提取过程如下：1）引入CoordConv的思想，在输入特征通道数$C_1$中额外添加2个坐标通道作为图像像素点的坐标，输入特征与坐标值共同决定卷积核权重. 因此，检测中卷积核能够访问添加的坐标以感知全局空间位置，解决普通卷积运算局部性难以获取全局信息的问题. 2）通过一个1×1卷积保留添加坐标的图像详细特征信息，同时降低特征通道获得中间特征映射${\boldsymbol{F}}_{\mathrm{m}}$；将${\boldsymbol{F}}_{\mathrm{m}}$分别用3×3、5×5、7×7的深度卷积提取不同尺度的子特征映射${\boldsymbol{F}}_x(x = 1,2,3)$，使用不同尺寸的卷积核提取到不同尺度特征图，增强网络对各尺寸缺陷的检出能力. 3）将3个不同尺度的子特征映射与原有的中间特征映射进行拼接获得输出特征，输出通道数为$C_2$. 该过程可以形式化如下：

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 CPDConv模块结构

Fig.2 CPDConv module structure

(1)$ \boldsymbol{F}_{\text {coords }}=\operatorname{AddCoords}\left(\boldsymbol{F}_{\text {in }}\right) . $

(2)$ \boldsymbol{F}_{\mathrm{m}}=\text { Conv } 1 \times 1\left(\boldsymbol{F}_{\text {coords }}\right) . $

(3)$ \boldsymbol{F}_{{x}}=\operatorname{Conv}_{k \times k}\left(\boldsymbol{F}_{\rm{m}}\right);\;x=1,2,3 ,\;k=3,5,7 . $

(4)$ \boldsymbol{F}_{\text {out }}=\operatorname{Concat}\left(\left[\boldsymbol{F}_{\mathrm{m}}, \boldsymbol{F}_1, \boldsymbol{F}_2, \boldsymbol{F}_3\right]\right) . $

式中：${\boldsymbol{F_{{\mathrm{in}}}}}$、${\boldsymbol{F_{{\mathrm{out}}}}}$分别为输入、输出特征；$ {\mathrm{AddCoords}}( \cdot )$操作表示为输入特征通道额外增加${{i}}$和${{j}}$坐标通道，2个坐标通道均为$H \times W \times 1$矩阵，${{i}}$坐标通道用0到n的常量填充行，${{j}}$坐标通道由相同常量填充列，常量归一化后映射到[−1.0,1.0]，坐标通道中的常量不参与训练；$ {\text{Conv}}k\times k( \cdot ) $为卷积运算，$ \text{Conv}k\times k( \cdot )= f(\text{BN}(\text{Conv2d}k\times k( \cdot ))) $，其中 $k$为卷积核尺寸，$ \text{BN}( \cdot ) $为批归一化(batch normalization, BN)，$ f( \cdot ) $为SiLU激活函数(sigmoid linear unit, SiLU).

在研究中，基于CPDConv重构特征提取模块C3CPD进行实验，C3CPD模块如图3所示. 其中，e₂为通道膨胀率，e₂设为0.5. 3×3卷积使通过CPDConv模块拼接的特征图中各个独立的通道间产生关联，减少深度卷积由于未跨通道学习而丢失的信息，并进一步提取丰富的特征信息. CPDConv能够更加准确感知到图像像素点的全局位置并有效提取到不同尺度的特征信息，提高各种尺寸以及纵横比大的缺陷检出率与检测精度，另外，采用深度卷积与C3CPD降通道操作能大幅减少模型参数和计算量.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 C3CPD模块结构

Fig.3 C3CPD module structure

1.3. 用于信息直接交互的特征融合网络

深度卷积神经网络具有类似金字塔层次的固有多尺度特征，以此构建自顶向下的横向连接结构被称为特征金字塔网络(feature pyramid network, FPN)^[20]. 在YOLO模型中，特征融合采用自顶向下的FPN与自底向上的PAN相结合的方式. 然而，该方式中非相邻层只能通过中间层进行信息的传递，存在信息退化甚至丢失的问题，阻碍模型检测精度.

为了解决上述问题，设计非相邻层间信息直接交互的多尺度逐步特征融合网络(multi-scale stepwise feature pyramid network, MSFPN)，其结构如图4所示. MSFPN特征融合过程如下. 1）非相邻的浅层特征${\boldsymbol{P}}_3$与深层特征${\boldsymbol{P}}_5$所包含特征信息差异非常大，两者直接融合会产生信息冲突. 因此，采用逐步融合的方式，即先将中间层${\boldsymbol{P}}_4$特征信息融合到浅层中，获得的中间特征映射${\boldsymbol{P}}_{3{\text{M}}}$减少了非相邻层间的特征信息差异；再将深层特征加入到融合过程中去，该方法提高了3个不同尺度特征层间特征融合及信息交互的效果. 2）为了减少${\boldsymbol{P}}_{3{\text{M}}}$在信息传递中的损耗，充分利用从骨干网络中提取的浅层输入特征${\boldsymbol{P}}_{3{\text{in}}}$，以补充浅层输出特征图的细节及边缘信息. 3）引入高效多尺度注意力模块(efficient multi-scale attention, EMA)^[21]集成到C3CPD模块中并作用于浅层输出特征，使模型能够关注到织物中的小物体缺陷. MSFPN直接有效融合了多尺度特征信息，提高了检测精度.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 MSFPN结构

Fig.4 MSFPN structure

为了详细表征每一层的输出特征，第1次特征融合操作定义如下：

(5)$ {\boldsymbol{P}}_{3{\text{M}}} = {\text{C3CPD}}\left( {{\text{Concat}}\left( {\left[ {{\boldsymbol{P}}_{3{\text{in}}},{\text{Rsz}}\left( {{\boldsymbol{P}}_{{4{\text{in}}}}} \right)} \right]} \right)} \right). $

第2次特征融合操作定义如下：

(6)$ \begin{split} \boldsymbol{P}_{\rm {3out }}= & { {\mathrm{C3CPD}}\_{\mathrm{EMA}} }\Big({\rm {Concat}} \Big(\big[\boldsymbol{P}_{\rm {3in },} \boldsymbol{P}_{\rm {3M }}, \\& {{\mathrm{Rsz}}}\left(\boldsymbol{P}_{4 \rm { in }}\right), {{\mathrm{Rsz}}}\left(\boldsymbol{P}_{5 \rm { in }}\right)\big]\Big)\Big) .\end{split} $

(7)$ \begin{split} &{\boldsymbol{P}}_{4{\text{out}}} = \\& {\text{C3CPD}}\left( {{\text{Concat}}\left( {\left[ {{\text{Rsz}}'\left( {{\boldsymbol{P}}_{3{\text{M}}}} \right),{\boldsymbol{P}}_{4{\text{in}}},{\text{Rsz}}\left( {{\boldsymbol{P}}_{5{\text{in}}}} \right)} \right]} \right)} \right).\end{split} $

(8)$ \begin{split} &{\boldsymbol{P}}_{5{\text{out}}} = \\& {\text{C3CPD}}\left( {{\text{Concat}}\left( {\left[ {{\text{Rsz}}'\left( {{\boldsymbol{P}}_{3{\text{M}}}} \right),{\text{Rsz}}'\left( {{\boldsymbol{P}}_{4{\text{in}}}} \right),{\boldsymbol{P}}_{5{\text{in}}}} \right]} \right)} \right).\end{split} $

式中：${\text{Rsz}}$表示双线性插值上采样；${\text{Rsz}}'$表示ADown下采样；${\boldsymbol{P}}_{3{\text{M}}}$为浅层的中间特征映射；${\boldsymbol{P}}_{n{\text{in}}}$为输入特征，$ {\boldsymbol{P}}_{n{\text{out}}} $为输出特征，n = 3，4，5.

1.4. 边界框回归损失函数

在IoU的损失函数中，惩罚项分母设计不合理，使预测框在回归时不停膨胀，甚至超出真实框，这会导致预测框须花费额外时间和真实框重合，严重影响其回归效率. 为了避免上述问题，且引导预测框直接有效地进行回归，引入Inner-IoU^[22]与PIoU^[23]相结合的损失函数用于边界框的回归. 训练阶段的回归损失$L_{\text{reg}}$定义如下：

(9)$ p = \left( {\dfrac{{d_{\mathrm{w1}}+d_{\mathrm{w2}}}}{{{w^{{\text{gt}}}}}}+\dfrac{{d_{\mathrm{h1}}+d_{\mathrm{h2}}}}{{{h^{{\text{gt}}}}}}} \right)\bigg/4, $

(10)$ L_{\text{reg}} = 1 - {{\mathrm{IoU}}^{{\mathrm{inner}}}}+1 - {{\text{e}}^{ - {p^2}}}. $

式中：${w^{{\text{gt}}}}$、${h^{{\text{gt}}}}$分别为真实框宽、高；$d_{\mathrm{w1}}$、$d_{\mathrm{w2}}$、$d_{\mathrm{h1}}$、$d_{\mathrm{h2}}$分别为预测框各个边缘到真实框对应边缘距离的绝对值.

Inner-IoU添加了宽高缩放因子${\text{ratio}}$，由于织物缺陷占整张图片像素点少，通过使用大于1的缩放因子，增大辅助框的交集面积从而加快IoU损失回归速度. PIoU损失函数以固定的真实框的宽高值作为分母设计惩罚项$p$，避免了预测框膨胀. 因此，Inner-PIoU组合损失函数能实现边界框快速且精准的回归. 在研究中，${\text{ratio}}$设为1.4.

2. 实验数据及结果分析

2.1. 实验环境及参数设置

所有实验均在Ubuntu Linux操作系统的计算机上进行. 配置AMD EPYC 7763 64-Core Processor，2.45 GHz的处理器和 NVIDIA GeForce RTX 4090显卡. 训练过程中使用SGD优化器，初始学习率为0.01，动量因子为0.937，权重衰减为0.0005. 在模型训练中共迭代300次，初始批大小设置为64.

2.2. 数据集与模型评估指标

2.2.1. ZY数据集

ZY数据集^[24]是由自主搭建的织物采集系统在新昌某纺织企业验布车间采集得到的，图片的尺寸均为1920×1080. 预处理去掉重复及摩尔纹严重的图片，采用视频截图、镜像翻转、调参等方法扩充数据集. 该数据集剔除了数量极少的缺陷类型，最终包含密路1564张、稀路2805张、断经2269张、棉球882张、错综1996张和错筘2349张，共6类织物缺陷，样本趋于平衡. 将处理后的11865张图片按8∶2的比例划分. 如图5所示展示ZY数据集中织物缺陷图例.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 ZY数据集中缺陷例图

Fig.5 Examples of defect images in ZY dataset

2.2.2. 天池布匹缺陷检测数据集

天池数据集^[25]是用于竞赛的高质量布匹疵点数据集，样本种类多且不平衡. 该数据集有5913张图像，所有图片尺寸均为2446×1000. 图片按8∶2比例划分. 该数据集包含多达34种常见织物缺陷，因此，将相似成因的缺陷归一类，将数量极少的缺陷归一类. 如表1所示，最终整理为20类进行训练. 如图6所示展示了天池数据集中部分缺陷图例.

表 1 天池数据集中根据成因划分缺陷种类

Tab.1 Classification of defects by cause in Tianchi dataset

类别	缺陷	类别	缺陷
1	破洞	11	吊经
2	水渍、油渍、污渍	12	粗纬
3	三丝	13	纬缩
4	结头	14	浆斑
5	花跳板	15	整经结
6	百脚	16	星跳、跳花
7	毛粒	17	断氨纶
8	粗经	18	稀密档、浪纹档、色差档
9	松经	19	磨痕、轧痕、修痕、烧毛痕
10	断经	20	死皱、云织、双纬、双经、跳纱、筘路、纬纱不良

新窗口打开| 下载CSV

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 天池数据集中部分缺陷图例

Fig.6 Example of some defect images in Tianchi dataset

2.2.3. 模型评估指标

采取7个目标检测的评价指标进行评估，即精准度$P$、召回率$R$、${\mathrm{F}}1$、各类别平均精度(mean average precision, mAP)、模型参数量、每秒浮点运算次数(giga floating point operations per second, GFLOPs)以及帧率(frame per second, FPS). mAP是所有织物缺陷种类检测的平均精度的平均值，平均精度(average precision, AP)是以召回率为横坐标，精准度为纵坐标，精度-召回率曲线所围成的区域面积. 此外，$F1$分数为精准度与召回率的调和平均数，是分类问题的一个衡量指标；模型参数、运算浮点数和FPS用于评估模型的复杂性、运算速度. 上述部分指标定义如下：

(11)$ P = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FP}}}}, $

(12)$ R = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FN}}}}, $

(13)$ {\mathrm{F}}1 = \frac{{2 P R}}{{P+R}}, $

(14)$ {\text{AP}} = {\int}_0^1 {P\left( R \right)} {\mathrm{d}}R, $

(15)$ {\text{mAP}} = \frac{1}{N}\sum\limits_{i = 1}^N {{\text{AP}}i} . $

式中：TP为织物缺陷被模型正确识别出的数量，FP为背景错误地被模型识别成缺陷的数量，FN为缺陷未被模型识别出的数量，$N$为织物缺陷类别总数.

2.3. 消融实验

消融实验是验证模块有效性的重要方法. 共进行6组消融实验，结果如表2所示. YOLOv5是YOLO系列中泛用性最好，版本更新最多的模型，因此，实验1以参数量适中，精度较高的YOLOv5s为基线. 其中，打勾项表示使用了对应模块进行相应的实验，以评估一个或多个模块叠加对整体网络性能的贡献. mAP50表示IoU阈值为0.5时的各类别平均精度；mAP50:95表示IoU阈值从0.50到0.95，步长为0.05时的10个mAP的平均值，mAP50:95用以评估中等与高质量预测框的占比情况.

表 2 基于ZY数据集的消融实验结果

Tab.2 Results of ablation experiments based on ZY dataset

实验	C3CPD	MSFPN	Inner-PIoU	Param/10⁶	GFLOPs/10⁹	mAP50	mAP50:95	FPS
1	—	—	—	7.0	16.0	0.880	0.624	52.9
2	√	—	—	5.8	13.9	0.899	0.639	51.0
3	—	√	—	5.7	15.4	0.900	0.622	51.5
4	—	—	√	7.0	16.0	0.892	0.618	55.3
5	√	√	—	5.3	13.3	0.898	0.633	48.1
6	√	√	√	5.3	13.3	0.912	0.640	51.7

新窗口打开| 下载CSV

对比第1、2组实验结果，基于CPDConv重构的C3CPD模块使模型的mAP50提高了1.9个百分点，同时降低约1.2×10⁶参数量和约每秒2.1×10⁹计算量，但3组并行卷积运算增加了不少计算的时间成本，FPS下降了约1.9. 对比第1组和第3组结果， MSFPN可以提高特征融合效果，使mAP50提高了2.0个百分点，并降低约1.3×10⁶参数量与约0.6×10⁹计算量，但多次使用上下采样使得FPN下降了约1.4. 对比第1组和第4组的结果，使用Inner-PIoU能够加快预测框回归速度，FPS提高了约2.4. 对比第1、5、6组的结果，C3CPD模块和MSFPN能够共同为提高网络检测精度、减少模型参数量和计算量做出贡献，最终模型精度能够提高3.2个百分点，降低约1.7×10⁶参数量和约2.7×10⁹计算量，而帧数仅降低约1.2，满足实时检测的要求. 另外，当Inner-PIoU中超参数ratio设为1.4时，模型精度与速度获得了最佳的平衡，如表3所示. 其中，Base为CPD-YOLO模型，ratio为Inner-IOU中辅助框的尺寸缩放因子.

表 3 基于ZY数据集的损失函数性能研究

Tab.3 Loss function performance study based on ZY dataset

模型	ratio	mAP50	mAP50:95	FPS
Base+CIoU	—	0.898	0.633	48.1
Base+ Inner-PIoU	1.2	0.901	0.638	49.8
	1.3	0.907	0.624	49.4
	1.4	0.912	0.640	51.7
	1.5	0.898	0.625	52.1

新窗口打开| 下载CSV

2.4. 对比实验

2.4.1. 基于ZY数据集的对比实验

通过对比实验，可以评估不同网络模型面对相同织物缺陷数据的检测效果. 如表4所示，显示CPD-YOLO与目前几种公开或常用的一阶模型SSD、YOLOv5^[26]，YOLOv7^[27]、YOLOv8^[28]、YOLOv9^[29]、YOLOv10^[30]、YOLO11^[28]及两阶模型Faster R-CNN的性能比较. 以上模型均在ZY数据集上训练与验证，并使用各自预训练权重.

表 4 不同模型基于ZY数据集的对比实验结果

Tab.4 Comparative experimental results of different models based on ZY dataset

Method	P	R	F1	mAP50	mAP50:95	Param/10⁶	GFOLPs/10⁹	FPS
Faster RCNN	0.432	0.813	0.56	0.634	0.250	137.0	370.3	11.2
SSD	0.515	0.452	0.48	0.520	0.238	105.2	87.4	33.7
YOLOv5s	0.965	0.790	0.87	0.880	0.624	7.0	16.0	52.9
YOLOv7	0.747	0.252	0.38	0.246	0.174	37.2	105.2	52.7
YOLOv8s	0.945	0.801	0.87	0.886	0.623	11.1	28.7	51.3
YOLOv9s	0.931	0.690	0.79	0.814	0.324	9.9	40.7	45.9
YOLOv10s	0.864	0.867	0.87	0.879	0.335	8.0	24.5	63.5
YOLO11s	0.722	0.636	0.68	0.688	0.399	9.4	21.3	66.7
CPD-YOLO	0.974	0.848	0.91	0.912	0.640	5.3	13.3	51.0

新窗口打开| 下载CSV

作为二阶模型，Faster R-CNN参数量多、计算量大，且在不设计锚框的情况下检测性能差，SSD同理，两者均无法应用于实际工业纺织检测中. YOLOv7在300轮迭代训练后无法完全收敛，检测效果不佳. 与YOLOv5s、YOLOv8s、YOLOv9s、YOLOv10s及YOLO11s相比， CPD-YOLO针对不同尺寸，尤其是纵横比大的织物缺陷检测，模型拥有较高的精度以及较低的参数和计算量.

为了直观展示CPD-YOLO对ZY数据集中6类缺陷检测的优越性，如图7所示，将Faster R-CNN、SSD、YOLOv5s、YOLOv7、YOLOv8s、YOLOv9s 、YOLOv10s、YOLO11s、CPD-YOLO对原图检测后产生的可视化结果进行对比. 通过各模型结果对比可以看出，各模型都能够较好地检出棉球，而对于大纵横比缺陷的检测，其他模型都大量出现了缺陷分类错误、缺陷漏检、背景误检以及缺陷区域定位不精确等现象. 例如，Faster RCNN、SSD无法有效检出大纵横比缺陷，严重漏检；YOLOv5s、YOLOv8s可以检出大部分缺陷，但不能有效区分成像外观相似的不同类别；YOLOv9s、 YOLOv10s、YOLO11s的预测框定位缺陷区域不完整. 而CPD-YOLO对大纵横比缺陷的检测能力较强，成像外观相似缺陷的错检率以及背景部分的误检率都显著低于其他目标检测模型，并且预测框标注的缺陷位置更加精确.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同模型基于ZY数据集的缺陷检测可视化结果

Fig.7 Visualisation results of defect detection based on ZY dataset for different models

2.4.2. 基于天池数据集的对比实验

为了继续验证CPD-YOLO的精度和泛化性，使用具有丰富形态尺寸缺陷的天池数据集进行实验. 如表5所示展示了CPD-YOLO和YOLO系列在天池数据集上的性能比较.

表 5 不同模型基于天池数据集的对比实验结果

Tab.5 Comparative experimental results of different models based on Tianchi dataset

模型	P	R	F1	mAP50	mAP50:95	Param/10⁶	GFOLPs/10⁹	FPS
YOLOv5s	0.578	0.488	0.51	0.482	0.234	7.1	16.1	54.9
YOLOv7	0.586	0.469	0.48	0.470	0.227	37.3	105.4	62.1
YOLOv8s	0.524	0.479	0.49	0.479	0.243	11.1	28.6	61.7
YOLOv9s	0.534	0.472	0.47	0.471	0.240	9.9	40.7	50.0
YOLOv10s	0.483	0.406	0.44	0.387	0.201	8.1	24.5	63.5
YOLO11s	0.459	0.399	0.43	0.389	0.183	9.4	21.3	71.4
CPD-YOLO	0.588	0.479	0.52	0.491	0.230	5.4	13.5	51.8

新窗口打开| 下载CSV

CPD-YOLO对于像素10×10以内的微小目标缺陷的检出效果较差，如结头、毛粒、纬缩等，因此，CPD-YOLO准确率总体较高，但召回率比YOLOv5s低. 与YOLOv5s、YOLOv8s、YOLOv9s对比，CPD-YOLO的mAP50:95指标较低，原因是CPD-YOLO能够检出部分微小目标，但模型给予的置信度较低，预测框质量较差. 但是CPD-YOLO对于其他尺寸及大纵横比缺陷的检出率及精度高于其他模型，其准确率、mAP50之类的指标优于其他模型的.

3. 分析与讨论

3.1. CPDConv结构分析

本研究设计的特征提取模块中有2个关键操作，即使用不同尺寸的深度卷积核并行提取图片特征和为每个像素点添加坐标. 为了评估这2个操作给图片特征提取带来的影响，对比经过不同特征提取模块后输出的特征图，如图8所示. C3PD使用并行多尺寸的卷积核，能够提取到比C3更多的几何特征信息；C3CPD为输入图片中每个像素点添加坐标，使卷积局部运算时也能获得全局的空间位置信息，比C3PD关注更多位置信息，突出缺陷部分，并抑制布匹隆起和背景纹理干扰因素的负面影响.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 各模块特征提取效果

Fig.8 Feature extraction effect of different modules

3.2. MSFPN对比FPN+PAN优势分析

将FPN+PAN与MSFPN在ZY数据集上执行Grad-CAM可视化对比，如图9所示. MSFPN将特征信息进行直接交互，减少了信息损耗使得网络拥有足够的信息以精确关注缺陷区域，并在一定程度上抑制了非缺陷区域以及对织物纹理干扰因素具有一定的鲁棒性. 相比之下，YOLO采用的FPN+PAN组合网络会被织物纹理背景及布匹隆起因素干扰，从而错误地关注许多非缺陷区域.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 各FPN的Grad-CAM可视化对比

Fig.9 Comparison of Grad-CAM visualizations with different FPNs

3.3. 失效案例分析

CPD-YOLO在预测过程中依旧出现一些失败案例，如图10所示，其中，(a)~(d)取自ZY数据集，(e)~(j)取自天池数据集，白色虚线为漏检缺陷. 与真实框对比，图10(b)、(c)中，缺陷在边缘位置，成像不完整且边缘信息丢失导致误检与漏检；图10(d)、(g)中，缺陷与织物纹理高度相似导致背景误检. 面对误检和漏检问题，将疑似目标区域裁剪后进行二次检测，可以有效增加特殊位置特征信息的完整度. 图10(e)、(f)、(i)和(j)中模型对像素10×10以内的微小缺陷给予较低置信度甚至漏检. 微小缺陷在整个图片中像素占比少，其几何特征甚至无法在浅层特征图中有效保留，添加微小目标检测层，将160×160的特征图参与到特征融合和检测中，可能有效检出微小缺陷. 图10(a)、 (h)中，高亮度（或低亮度）图片使较亮（或较暗）区域的缺陷特征不突出，这都会使缺陷漏检. 在输入层中，添加自适应调整图片对比度的数据处理算法，或许能够解决特征不明显带来的问题.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 CPD-YOLO的部分失效案例可视化

Fig.10 Visualization of partial failures of CPD-YOLO

4. 结　语

针对织物缺陷尺寸多样、计算机算力有限问题，提出CPD-YOLO织物缺陷检测模型. 设计了CPDConv并基于该卷积重构了特征提取模块，还设计特征融合网络结构MSFPN. CPDConv使模型提取到不同尺度特征，以适应不同尺寸的缺陷. MSFPN网络对非相邻层间特征进行渐进式的直接融合，以信息直接交互的方式减少特征信息的丢失. 这2个部分都对提升模型性能以及实现轻量级模型做出了贡献. 此外，使用Inner-PIoU损失进一步提高预测框的回归速度和定位精度. 实验表明，CPD-YOLO以较低的参数和计算量，实现了快速训练快速部署，同时提高了模型精度和目标定位能力，满足纺织企业对织物缺陷检测的要求，该模型能够在验布机速度为30 m/min的情况下良好检出目标缺陷. 然而，CPD-YOLO的精度无法进一步提高的原因是其对于微小织物缺陷及特征不明显缺陷检出能力不足，因此，未来工作将着重提高模型对于微小缺陷的检测能力以及对背景与缺陷间对比度的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHAO Z, MA X, YANG X, et al. Research on fabric defect detection algorithm based on improved YOLOv5 [C]// IEEE 7th Advanced Information Technology, Electronic and Automation Control Conference. Chongqing: IEEE, 2024: 387–391.