基于全局信息感知的轻量级螺纹钢表面缺陷检测算法

doi:10.3785/j.issn.1008-973X.2026.07.007

基于全局信息感知的轻量级螺纹钢表面缺陷检测算法

肖剑^,, 杨小苑, 何昕泽, 陈林, 胡欣^,

1. 长安大学电子与控制工程学院，陕西西安 710064

2. 宿迁学院信息工程学院，江苏宿迁 223800

3. 长安大学能源与电气工程学院，陕西西安 710064

Lightweight rebar surface defect detection algorithm based on global information perception

XIAO Jian^,, YANG Xiaoyuan, HE Xinze, CHEN Lin, HU Xin^,

1. School of Electronics and Control Engineering, Chang’an University, Xi’an 710064, China

2. School of Information Engineering, Suqian University, Suqian 223800, China

3. School of Energy and Electrical Engineering, Chang’an University, Xi’an 710064, China

通讯作者: 胡欣，女，教授. orcid.org/0009-0006-2066-5490. E-mail：huxin@chd.edu.cn

收稿日期: 2025-04-2

基金资助:

陕西省秦创原“科学家+工程师”队伍建设项目（2024QCY-KXJ-161）；咸阳市重点研发计划资助项目（L2025-ZDKJ-ZDGG-RGZN-005）.

Received: 2025-04-2

Fund supported:

陕西省秦创原“科学家+工程师”队伍建设项目（2024QCY-KXJ-161）；咸阳市重点研发计划资助项目（L2025-ZDKJ-ZDGG-RGZN-005）.

作者简介 About authors

肖剑（1975—），男，副教授，博士，从事检测技术研究.orcid.org/0000-0003-0650-6099.E-mail：xiaojian@chd.edu.cn , E-mail：xiaojian@chd.edu.cn

摘要

针对螺纹钢表面缺陷检测精度不足及终端设备计算资源受限的问题，提出轻量级缺陷检测算法. 基于YOLOv8n模型，结合卷积门控线性单元的条件位置编码特性与自注意力机制的动态全局交互能力重新设计C2f模块，构建具有全局信息建模能力的主干网络. 采用上下文锚点注意力模块改进高层筛选特征金字塔网络，通过宽、高方向带状卷积组合策略聚焦远距离像素信息，并通过特征选择减少多尺度特征融合中的信息冗余. 通过共享卷积与分离BN层，提出自适应检测头，提高参数利用率并保证检测精度. 采用Unified-IoU边界框损失函数，通过动态权重分配提升密集缺陷检测性能. 实验结果表明，在自建螺纹钢数据集上，改进算法的mAP@0.5达到94.5%，较YOLOv8n提升了4.3个百分点；模型参数量降低至1.4 M，减少了53.33%；计算量降低了34.57%，FPS达到156帧/s，实现了检测性能与计算资源消耗的平衡. 此外，在NEU-DET数据集上验证了该算法具有良好的泛化性能.

关键词： 缺陷检测 ; YOLOv8n ; 轻量化网络 ; 全局信息 ; 高层筛选特征金字塔网络（HS-FPN） ; Unified-IoU

Abstract

A lightweight defect detection algorithm was proposed to address the issues of insufficient detection accuracy for rebar surface defects and limited computational resources of terminal devices. Based on the YOLOv8n model, the C2f module was redesigned and a backbone network with global information modeling capabilities was constructed by combining the conditional positional encoding characteristics of the convolutional gated linear unit and the dynamic global interaction capability of the self-attention mechanism. A context anchor attention module was used to improve the high-level screening feature pyramid network. A combined strategy of width-wise and height-wise strip convolutions was adopted to effectively focus on the long-distance pixel information, and the information redundancy in multi-scale feature fusion was reduced through feature selection. An adaptive detection head was proposed via shared convolution and separated BN layers to improve the parameter utilization while ensuring the detection accuracy. The Unified-IoU bounding box loss function was employed to enhance the performance of dense defect detection through dynamic weight distribution. Experimental results showed that the improved algorithm achieved a mAP@0.5 of 95.4% on a self-constructed rebar dataset, which was 4.3 percentage points higher than that of YOLOv8n. The model’s parameter count was reduced to 1.4 M, representing a decrease of 53.33%, the computational complexity was reduced by 34.57%, and the FPS reached 156 frames per second, achieving a balance between the detection performance and the computational resource consumption. Additionally, the algorithm’s good generalization performance was validated on the NEU-DET dataset.

Keywords： defect detection ; YOLOv8n ; lightweight network ; global information ; HS-FPN ; Unified-IoU

PDF (4002KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

肖剑, 杨小苑, 何昕泽, 陈林, 胡欣. 基于全局信息感知的轻量级螺纹钢表面缺陷检测算法. 浙江大学学报(工学版)[J], 2026, 60(7): 1438-1451 doi:10.3785/j.issn.1008-973X.2026.07.007

XIAO Jian, YANG Xiaoyuan, HE Xinze, CHEN Lin, HU Xin. Lightweight rebar surface defect detection algorithm based on global information perception. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1438-1451 doi:10.3785/j.issn.1008-973X.2026.07.007

螺纹钢作为一种重要的建筑材料，因其良好的力学性能和耐久性，在基础设施建设领域占据不可替代的位置. 然而，在生产加工过程中，由于设备故障、存储不当和人为操作失误等因素，螺纹钢表面可能会出现划伤、锈迹、结疤等缺陷. 这不仅会影响螺纹钢的机械性能和连接可靠性，而且可能引发建筑结构的安全问题. 因此，实施高效、精准的螺纹钢缺陷检测至关重要^[1].

传统的螺纹钢缺陷检测方法依赖于人工筛选，主观性强、检测效率低且容易发生漏检和误检的问题. 随着电子仪器和无损检测技术的发展，漏磁检测^[2]、涡流检测^[3]等方法已经在工业生产领域的缺陷检测中得到了广泛应用. 机器视觉的发展为螺纹钢表面缺陷检测提供了新的思路，该方法主要通过提取纹理或形状等不同形态的特征来判别缺陷. Luo等^[4]提出的广义完备局部二值模式框架增强了缺陷表示能力，但是其噪声抑制效果较为有限.

随着深度学习技术的发展，两阶段目标检测算法因其较高的检测精度被广泛应用于缺陷检测领域. Yin等^[5]将特征金字塔网络(feature pyramid network, FPN)与目标检测算法Faster R-CNN结合，并采用感兴趣区域对齐 (region of interest align, RoI align)方法替代感兴趣区域池化方法，优化高、低层特征融合并减少量化误差. 此类算法在精度上表现优异，但是由于需要先进行候选框的筛选，检测速度较慢. 相比之下，单阶段目标检测算法因其较快的推理速度，在实时检测方面有着显著的优势，其中，以YOLO系列为代表的算法在螺纹钢缺陷检测方面已经取得了一定的研究成果. 胡欣等^[6]通过在YOLOv5中融合多空间金字塔池化(multi-spatial pyramid pooling, M-SPP)来加强特征提取能力，改进空间和坐标注意力模块以提高对小目标缺陷的关注，有效提升了检测精度. 李相垚等^[7]在YOLOv8的基础上引入可变形卷积DCNv2，增强了模型对复杂特征的提取能力，并引入无参数通道注意力机制SimAM来提取更加丰富的全局特征. 刘义艳等^[8]将Neck层与Gold-YOLO算法结合，实现了不同层级特征的全局信息聚合，进而提升了特征图间的信息交互效率，增强了模型对全局信息的感知. 为了解决目标检测模型在终端检测设备上的部署问题，Liu等^[9]在YOLOv5主干网络中引入C3Ghost和GhostConv模块，减少了模型参数并提升了特征融合的速度. 王春梅等^[10]使用轻量级的VanillaNet网络作为YOLOv8n的主干网络，通过减少不必要的分支结构来降低模型的复杂度，并引入空间到深度(space-to-depth, SPD)模块，在减少网络层数的同时加快了模型的推理速度. Tang等^[11]将部分卷积(PConv)集成到特征融合模块中，并使用重参数化卷积(RepConv)改进检测头，从而减少参数量，实现模型的轻量化. 梁礼明等^[12]采用轻量级的EfficientViT网络作为主干网络，以降低模型复杂度并更好地处理跨尺度特征信息，从而提升检测性能. Peng等^[13]通过全局信息融合模块和四叶草融合模块增强模型的全局信息提取与多尺度特征融合能力，并引入LDyHead和RFA-Block优化特征流动路径，提升了检测精度且不增加模型复杂度. 刘振江等^[14]提出快速双空间金字塔池化模块，强化目标全局上下文特征的提取，并通过聚合局部和全局特征来提升特征泛化能力，同时采用轻量级下采样模块，以减少参数并增强细粒度特征提取能力. 以上研究对计算量较大的目标检测算法具有一定的启发意义. 然而，在螺纹钢表面缺陷检测领域，面对计算资源受限的终端设备，主流目标检测模型的计算量和参数量仍然偏大；同时，轻量化操作虽然有利于减小模型体积，但是会降低网络的非线性能力，从而损失精度. 因此，如何平衡检测性能与计算资源消耗仍然是当前亟待解决的问题.

鉴于以上研究存在的局限性，以YOLOv8n为基准模型，提出轻量化、高效的螺纹钢表面缺陷检测算法. 1）结合卷积门控线性单元(convolutional gated linear unit, ConvGLU)^[15]和自注意力机制重新设计C2f模块，在此基础上构建轻量化的CACGLUFormer主干框架，旨在有效获取全局信息，增强特征提取能力，同时减少模型参数量，加快模型推理速度. 2）采用上下文锚点注意力（context anchor attention, CAA）模块^[16]对高层筛选特征金字塔网络(high-level screening-feature pyramid network, HS-FPN)^[17]进行改进，通过带状卷积策略聚焦远距离像素信息，并减少信息冗余，提高检测效率. 3）设计轻量化的自适应共享卷积分离批归一化(shared convolutional separate batch normalization, SCSBN)检测头，通过共享参数权重和引入自适应尺度缩放机制，在提升参数利用率的同时保证检测精度. 4）使用Unified-IoU作为边界框损失函数，通过动态权重分配提升密集缺陷检测性能.

1. 模型改进

1.1. YOLOv8n模型

YOLOv8是由Ultralytics团队开发的开源网络^[18]，集成了检测、分割和实时追踪等任务，继承并优化了YOLO系列模型的核心设计. 相较于之前的YOLO版本，YOLOv8的主要创新在于采用了无锚框(anchor-free)检测方法，取代传统的锚框机制，从而简化了目标位置和大小的预测过程. 通过解耦头(decoupled head)结构，YOLOv8将分类任务与回归任务分离，从而减少了模型训练中的干扰. 此外，YOLOv8在主干网络中采用C2f模块，优化了梯度流，增强了特征提取能力，并减小了网络的计算量. 同时，主干网络的空间金字塔池化快速(spatial pyramid pooling fast, SPPF)模块通过多尺度池化操作增强了模型对不同尺度目标的适应性. 在特征融合网络(即颈部网络)中，YOLOv8移除了部分冗余的下采样层，改进特征融合方式，同时在检测头部分进一步简化网络结构，以确保高效的实时追踪能力. YOLOv8按照网络深度和宽度提供了n、s、m、l、x这5种不同尺寸；经实验对比，为了平衡检测精度与资源消耗，选择YOLOv8n作为螺纹钢表面缺陷检测的基准模型.

1.2. 改进方案

针对螺纹钢表面存在密集分布、尺度跨度较大的缺陷，导致检测精度较低，以及现有目标检测算法难以兼顾计算资源消耗与检测精度的问题，以YOLOv8n为基础模型，提出平衡检测性能与计算资源消耗的轻量级网络模型. 整体网络结构如图1所示. 其中，CBS为包含卷积层、批归一化(batch normalization, BN)层和激活函数的基础卷积模块，k为卷积核尺寸，s为卷积步长.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 整体网络结构图

Fig.1 Overall network architecture diagram

首先，基于MetaFormer框架，结合卷积门控线性单元的条件位置编码特性和自注意力机制的动态全局交互能力，设计C2f_CCGLU(C2f_ConvFormer with ConvGLU)、C2f_CACGLU(C2f_CAFormer with ConvGLU)模块，替换原有主干网络中的C2f模块，构建具有全局信息建模能力的CACGLUFormer主干网络，从而有效获取全局信息，在增强特征提取能力的同时减少模型参数量，加快模型推理速度. 其次，采用CAA模块对HS-FPN网络进行改进，替换颈部网络的PANet结构，从而有效聚焦远距离像素信息，增强图像中心区域的特征表达，并通过特征选择减少多尺度融合过程中的信息冗余，提高检测效率. 随后设计轻量化的自适应SCSBN检测头，通过共享参数权重和引入自适应尺度缩放机制，在提升参数利用率的同时保证检测精度. 最后，使用具有动态权重分配的边界框损失函数Unified-IoU^[19]替换CIoU，动态地将模型注意力从低质量预测框转移到高质量预测框，提升密集缺陷检测性能.

1.2.1. CACGLUFormer主干网络

YOLOv8的主干网络主要由下采样卷积层和残差模块堆叠而成，导致模型体积过大，不利于在资源受限的移动设备上部署. 此外，传统CNN模型难以捕捉长距离依赖关系，限制了全局信息的建模，无法有效获取螺纹钢表面缺陷的全局特征. 为了解决上述问题，重新设计C2f模块，提出C2f_CCGLU和C2f_CACGLU模块，并基于MetaFormer框架^[20]构建轻量化主干网络CACGLUFormer.

MetaFormer是从Transformer中抽象而来的通用架构，由2部分组成：一是令牌混合器(Token mixer)，用于融合空间位置信息；二是通道多层感知机(Channel MLP)，用于融合通道信息. 输入I被嵌入为一系列令牌(tokens)：

(1)$ \boldsymbol{X}=\text { InputEmbedding }(\boldsymbol{I}) . $

式中：${\boldsymbol{X}} \in {{\bf{R}}^{N \times C}}$为token序列，$N$为序列长度，$C$为通道数. X被送入重复的MetaFormer块中，其中Token mixer块和Channel MLP块的处理过程分别表示为

(2)$ \boldsymbol{X}^{\prime}=\boldsymbol{X}+\operatorname{Tokenmixer}\left(\operatorname{Norm}_1(\boldsymbol{X})\right), $

(3)$ \boldsymbol{X}^{\prime \prime}=\boldsymbol{X}^{\prime}+\sigma\left(\operatorname{Norm}_2\left(\boldsymbol{X}^{\prime}\right) \boldsymbol{W}_1\right) \boldsymbol{W}_2 . $

式中：$ {\mathrm{Norm}}_1\left( \cdot \right) $和${\text{Nor}}{{\text{m}}_2}\left( \cdot \right)$为标准化操作，${\mathrm{Tokenmixer}}\left( \cdot \right)$表示令牌混合器对信息的处理，$\sigma \left( \cdot \right)$表示激活函数，${{\boldsymbol{W}}_1}$和${{\boldsymbol{W}}_2}$为Channel MLP中的可学习参数. 同时，使用ResScale方法，缩放分支输出：

(4)$ \boldsymbol{X}^{\prime}={\boldsymbol{\lambda}}_{\mathrm{r}} \odot \boldsymbol{X}+F(\operatorname{Norm}(\boldsymbol{X})) . $

式中：${\text{Norm}}\left( \cdot \right)$表示归一化操作；$F\left( \cdot \right)$表示Token mixer或Channel MLP 模块对特征的处理；${{\boldsymbol{\lambda}} _{\mathrm{r}}} \in {{\bf{R}}^C}$是可学习的ResScale参数，初始化为1；$ \odot $表示逐元素相乘. 通过指定具体的Token mixer，可以获得特定模型，而MetaFormer的重点是使用最基本的Token mixer获得较高的准确率，从而在不牺牲性能的情况下高效地融合信息. ConvFormer框架采用分离卷积作为Token mixer；CAFormer框架在前2个阶段使用分离卷积作为Token mixer，在之后的阶段使用原始自注意力机制作为Token mixer.

受此启发，重新设计C2f模块，提出C2f_CCGLU和C2f_CACGLU模块，并构建CACGLUFormer轻量化主干网络，整体框架如图2(a)所示. 下采样采用3×3卷积；在主干网络的P₂和P₃层采用C2f_CCGLU，在P₄、P₅层采用C2f_CACGLU.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 主干网络CACGLUFormer结构图

Fig.2 Architecture diagram of backbone network CACGLUFormer

C2f_CCGLU模块结构如图2(b)所示，其中使用CCGLU_block替换原有的Bottleneck. CCGLU_block首先对输入特征进行归一化，再采用分离卷积作为Token mixer进行空间位置信息的融合. 在这一过程中，分离卷积通过逐通道卷积捕捉局部空间特征，确保了位置编码的有效传递. 同时，经过残差连接后，引入ConvGLU作为通道混合器(Channel mixer). ConvGLU的关键是在门控线性单元(GLU)前添加1个3×3的深度卷积，形成条件位置编码机制，从而将GLU转化为基于最近邻特征的门控通道注意力机制，即利用门控机制调节通道特征的流动，并引入局部空间信息. ConvGLU结构如图3中(b)所示，(a)为原始前馈网络. 在ConvGLU中，每个token都有1个基于最近邻细粒度特征的门控信号，这解决了SE注意力机制中全局平均池化导致的特征信息量欠缺问题.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同的通道混合器对比

Fig.3 Comparison of different channel mixers

C2f_CACGLU的结构如图2(c)所示，其中使用CACGLU_Block替换原有的Bottleneck，CACGLU_Block同样采用ConvGLU作为Channel mixer，但是不同的是其选用具有动态全局交互能力的自注意力机制作为Token mixer，从而能够捕捉长距离依赖关系，有效融合更复杂的空间位置信息. 因此，C2f_CACGLU能够在空间维度上关注全局上下文信息，充分提取特征之间的全局依赖关系.

改进后的C2f模块在不同层次上优化了特征的提取过程. C2f_CCGLU主要处理局部特征，通过分离卷积捕捉位置编码并通过ConvGLU调节通道特征；C2f_CACGLU模块通过引入自注意力机制进一步增强了对长距离依赖关系的建模能力，使得模型能够更全面地融合全局信息，提高对复杂空间信息的感知能力. 由于采用深度可分离卷积作为Token mixer，轻量的ConvGLU作为Channel mixer，显著减少了主干网络的参数量. 虽然C2f_CACGLU中包含自注意力机制，但是在低维度空间(输入与输出维度较小的P₄、P₅层)进行时，其参数量仍然低于传统卷积结构，避免了传统全局自注意力机制中由于输入维度过大而导致的计算开销. 综上所述，提出的CACGLUFormer主干网络能够有效获取全局信息，增强特征提取能力，在保证性能的同时减少了模型参数量，实现了主干网络的轻量化.

1.2.2. 改进高层筛选特征金字塔网络

HS-FPN通过基于层次尺度的特征金字塔来实现多尺度特征融合，包括特征选择和特征融合2个阶段. 在特征选择阶段，通过通道注意力和维度匹配机制对不同尺度的特征图进行筛选，其中最大池化操作主要用于提取每个通道中最具判别性的特征，而平均池化操作旨在获取全局统计信息，以有效减少信息丢失. 在特征融合阶段，采用选择性特征融合(selective feature fusion, SFF)策略，以充分利用高层特征的语义信息与低层特征的精准目标定位能力. 与传统特征融合方法不同，该策略并非简单地将上采样后的高层特征和低层特征进行像素级叠加，而是通过高层特征对低层特征中嵌入的重要语义信息进行加权过滤，从而实现特征协同融合. 这不仅减少了融合过程中的信息冗余，而且提高了模型的特征表达能力. SFF的结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 SFF策略的结构图

Fig.4 Structure diagram of SFF strategy

给定高层特征输入${{\boldsymbol{f}}_{{\text{high}}}} \in {{\bf{R}}^{C \times H \times W}}$和低层特征输入$ {{\boldsymbol{f}}_{{\text{low}}}} \in {{\bf{R}}^{C \times {H_1} \times {W_1}}} $，首先利用3×3的转置卷积对高层特征进行上采样，得到${{\boldsymbol{f}}'_{{\text{high}}}} \in {{\bf{R}}^{C \times 2H \times 2W}}$. 接着，为了统一不同层级特征的空间尺寸，使用双线性插值方法对高层特征进行适应性上采样或下采样，得到调整后的特征${{\boldsymbol{f}}_{{\text{att}}}} \in {{\bf{R}}^{C \times {H_1} \times {W_1}}}$. 再采用通道注意力(CA)模块获取高级特征对应的注意力权重，并对低层特征进行加权过滤. 最后，融合高层特征与过滤后的低层特征得到输出特征$ {{\boldsymbol{f}}_{{\text{out}}}} \in {{\bf{R}}^{C \times {H_1} \times {W_1}}} $. 其中，$W$、$H$分别为高层特征图的宽度和高度，${W_1}$、${H_1}$分别为双线性插值后低层特征图的宽度和高度. 该融合过程表示为

(5)$ \boldsymbol{f}_{\text {att }}=\operatorname{BL}\left(\mathrm{T}{\text{-}}\operatorname{Conv}\left(\boldsymbol{f}_{\text {high }}\right)\right), $

(6)$ \boldsymbol{f}_{\text {out }}=\boldsymbol{f}_{\text {low }} \odot \mathrm{CA}\left(\boldsymbol{f}_{\text {att }}\right)+\boldsymbol{f}_{\text {att }} . $

式中：$ {\text{T-Conv}} $为步幅为2的3×3转置卷积，${\text{BL}}$表示双线性插值处理，${\text{CA}}$表示通道注意力操作.

为了捕捉远距离像素间的上下文依赖关系，以解决螺纹钢表面锈迹、划伤尺度跨度大的情况下检测精度低的问题，对HS-FPN进行改进. 采用上下文锚点注意力模块CAA替换原有的通道注意力机制，并采用1.2.1节中提出的C2f_CCGLU模块替换特征融合阶段中的C2f模块. 改进后的HS-FPN结构如图5所示. 对于来自不同层级的多尺度特征，CAA首先通过全局平均池化操作压缩空间，并利用1×1卷积整合局部区域特征；再通过2个深度可分离条形卷积，分别沿着宽、高方向获取像素信息；最后，在1×1卷积整合后通过Sigmoid激活函数获取注意力权重，并将其与输入特征图逐元素相乘. 该过程的数学表达式为

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 改进的高层筛选特征金字塔网络结构图

Fig.5 Architecture diagram of improved HS-FPN

(7)$ \boldsymbol{Y}=\operatorname{Conv}_{1 \times 1}\left(P_{\mathrm{avg}}(\boldsymbol{X})\right) , $

(8)$ \boldsymbol{Y}_{\mathrm{w}}=\operatorname{DSConv}_{1 \times k}(\boldsymbol{Y}), $

(9)$ \boldsymbol{Y}_{\mathrm{h}}=\operatorname{DSConv}_{k \times 1}\left(\boldsymbol{Y}_{\mathrm{w}}\right), $

(10)$ \boldsymbol{X}^{\prime}=\boldsymbol{X} \odot\left(\operatorname{Sigmoid}\left(\operatorname{Conv}_{1 \times 1}\left(\boldsymbol{Y}_{\mathrm{h}}\right)\right)\right) . $

式中：${\boldsymbol{X}}$为输入，${P_{{\text{avg}}}}$为全局平均池化操作，${\text{DSCon}}{{\text{v}}_{1 \times k}}$表示列数为$k$的深度可分离卷积，${\text{DSCon}}{{\text{v}}_{k \times 1}}$表示行数为$k$的深度可分离卷积.

CAA的核心在于全局平均池化和沿宽、高方向的一维带状卷积的组合应用，该策略使得网络能够在不同视角下准确地捕捉远距离像素间的上下文依赖关系，尤其会强化对检测精度影响较大的远处像素信息，从而有效增强图像中心区域的特征表达. 采用C2f_CCGLU模块替换特征融合阶段中的C2f，进一步减少了模型参数，且能够充分挖掘多尺度特征的语义信息和定位能力，增强了特征融合效率. 最终改进后的CAA-HS-FPN能够在有效感知全局信息的同时减少多尺度特征融合过程中的信息冗余，从而增强了特征表达能力；在面对复杂场景和尺度跨度较大的锈迹、划伤缺陷时，其能够显著提升模型的检测精度.

1.2.3. 轻量化的自适应SCSBN检测头

YOLOv8采用主流解耦头，将分类和回归任务分离，每个分支都通过2个3×3卷积和1个1×1卷积进行特征提取. 此举虽然提升了检测性能，但是导致参数利用率低下. 若使用共享卷积，由于不同层级之间特征的差异性，直接在共享参数时采用BN层会导致其滑动平均值产生误差，而使用组归一化(group normalization, GN)层会增加推理时间. 受特征融合网络NAS-FPN^[21]的启发，重新设计轻量化的自适应SCSBN检测头，在共享卷积层的同时使用独立的BN层，使得模型可以更加灵活地调整每个任务的特征分布. 这种做法避免了共享卷积在不同任务中特征学习能力受限的问题，从而在大幅降低参数量的同时保持较高的精度. 检测头的结构如图6所示. 首先将颈部输出的3个特征层(P₃~P₅)分别通过1×1的卷积，调整为相同的隐藏层通道数，再通过共享卷积汇集不同尺度的特征层进行特征提取，之后分别通过独立的BN(separate BN)层进行归一化，最后将回归分支和分类分支分离. 在分类分支中使用共享的Conv_Cls层预测类别，在回归分支中先通过共享的Conv_Reg层预测边界框，再使用自适应的Scale因子对特征进行动态缩放，调整目标尺度，以定位不同尺寸的缺陷目标.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 SCSBN检测头结构图

Fig.6 Structure diagram of SCSBN detection head

1.2.4. Unified-IoU损失函数

边界框回归损失函数作为目标检测模型中定位分支的关键组成部分，对检测器的定位精度具有显著影响，而交并比(intersection over union, IoU)在很大程度上反映了当前预测框与真实框之间的匹配程度. 为了提升回归准确性，研究人员不断在IoU基础上加入中心距离、长宽比等几何因素，相继提出GIoU^[22]、CIoU、EIoU^[23]、WIoU等一系列IoU损失函数. 但是，仅仅对几何差异进行细化的做法具有一定的局限性，且新引入的几何度量与IoU本身存在潜在关联，直接对两者操作可能会导致过度耦合. 因此，引入与YOLO现有的边界框回归损失相结合的Unified-IoU损失函数，改进YOLOv8网络中原有的CIoU损失函数.

Unified-IoU更关注不同质量的预测框之间的权重分配，而不再修改边界框之间的几何度量规则. 其采用新的动态加权方法：通过缩小边界框来增大预测框和真实框之间的IoU损失，相当于对高质量的预测框赋予更高的权重，从而让模型集中关注高质量预测框；反之，放大边界框可以让模型集中关注低质量的预测框. 这使得模型能够在不同训练阶段中集中优化不同质量的框，从而加速训练收敛并提升最终的检测精度.

为了平衡模型注意力和收敛速度之间的矛盾，设计动态因子ratio调整边界框的缩放比例. 在训练初期采用放大边界框的方法，将模型的注意力集中在低质量预测框上，以加速收敛(ratio>1). 在训练过程中，ratio逐渐减小，模型的注意力逐渐转向高质量预测框(ratio<1). 此策略有效避免了传统方法中过早关注易预测框，而影响收敛效率的问题. 鉴于ratio值与当前训练轮数(epoch)有关，在Unified-IoU中提出3种下降策略：线性下降策略、余弦下降策略和分数下降策略. 这些策略旨在根据训练进度动态调整模型的注意力，使模型在训练初期集中于低质量框，后期转向高质量框，从而有效提高收敛速度和检测精度. 3种ratio下降策略分别为

(11)$ {\text{ratio}} = - 0.005 \times {\text{epoch}}+2, $

(12)$ {\text{ratio}} = 0.75 \times \cos \left( {{\text{π }} \times {\text{epoch}}/300} \right)+1.25, $

(13)$ {\text{ratio}} = 200/\left( {{\text{epoch}}+100} \right). $

通过动态因子ratio调整边界框的缩放比例并更新边界框的角坐标，更新的真实框的4个角坐标$ b_{\text{l}}^{{\text{gt}}} $、$ b_{\text{r}}^{{\text{gt}}} $、$b_{\text{t}}^{{\text{gt}}}$、$b_{\text{b}}^{{\text{gt}}}$以及预测框的4个角坐标$ b_{\text{l}}^{} $、$ b_{\text{r}}^{} $、$b_{\text{t}}^{}$、$b_{\text{b}}^{}$分别为

(14)$ \left. \begin{gathered} b_{\text{l}}^{{\text{gt}}} = x_{\text{c}}^{{\text{gt}}} - \frac{{{w^{{\text{gt}}}} \times {\text{ratio}}}}{2},{\text{ }}b_{\text{r}}^{{\text{gt}}} = x_{\text{c}}^{{\text{gt}}}+\frac{{{w^{{\text{gt}}}} \times {\text{ratio}}}}{2}, \\ b_{\text{t}}^{{\text{gt}}} = y_{\text{c}}^{{\text{gt}}} - \frac{{{h^{{\text{gt}}}} \times {\text{ratio}}}}{2},{\text{ }}b_{\text{b}}^{{\text{gt}}} = y_{\text{c}}^{{\text{gt}}}+\frac{{{h^{{\text{gt}}}} \times {\text{ratio}}}}{2}. \\ \end{gathered} \right\}{\text{ }} $

(15)$ \left. \begin{gathered} {b_{\text{r}}} = {x_{\text{c}}} - \frac{{w \times {\text{ratio}}}}{2},{\text{ }}{b_{\text{r}}} = {x_{\text{c}}}+\frac{{w \times {\text{ratio}}}}{2}, \\ {b_{\text{l}}} = {y_{\text{c}}} - \frac{{h \times {\text{ratio}}}}{2},{\text{ }}{b_{\text{r}}} = {y_{\text{c}}}+\frac{{h \times {\text{ratio}}}}{2}. \\ \end{gathered} \right\}{\text{ }} $

式中：$ (x_{\text{c}}^{{\text{gt}}},y_{\text{c}}^{{\text{gt}}}) $为真实框的中心点，$({x_{\text{c}}},{y_{\text{c}}})$为预测框的中心点，$ {w^{{\text{gt}}}} $和${h^{{\text{gt}}}}$为真实框的宽度和高度，$w$和$h$为预测框的宽度和高度. 更新后的交集$ {\text{inter}} $、并集${\text{union}}$和交并比IoU为

(16)$ \begin{split} {\text{inter}} =& \left( {\min \left( {b_{\text{r}}^{{\text{gt}}},{b_{\text{r}}}} \right) - \max \left( {b_{\text{l}}^{{\text{gt}}},{b_{\text{l}}}} \right)} \right) \times \\&\left( {\min \left( {b_{\text{b}}^{{\text{gt}}},{b_{\text{b}}}} \right) - \max \left( {b_{\text{t}}^{{\text{gt}}},{b_{\text{t}}}} \right)} \right), \end{split} $

(17)$ {\text{union}} = \left( {{w^{{\text{gt}}}} \times {h^{{\text{gt}}}}} \right) \times {\text{rati}}{{\text{o}}^2}+\left( {w \times h} \right) \times {\text{rati}}{{\text{o}}^2} - {\text{inter}}, $

(18)$ {\text{Io}}{{\text{U}}^{{\text{Unified}}}} = \frac{{{\text{inter}}}}{{{\text{union}}}}. $

更新后的边界框损失函数为

(19)$ {\text{ }}{L_{{\text{Unified-IoU}}}} = 1 - {\text{Io}}{{\text{U}}^{{\text{Unified}}}}+\frac{{{\rho ^2}\left( {b,{b^{{\text{gt}}}}} \right)}}{{{c^2}}}+\alpha v. $

式中：$ {\rho ^2}\left( {b,{b^{{\text{gt}}}}} \right) $为预测框和真实框之间的欧几里得距离，$c$为最小边界框的对角线长度，$\alpha $为正权值参数，即

(20)$ {\text{ }}\alpha = \frac{v}{{1 - {\text{Io}}{{\text{U}}^{{\text{Unified}}}}}}+v, $

$v$为衡量预测框与真实框纵横比的重合度，即

(21)$ {\text{ }}v = \frac{4}{{{{\text{π}}^2}}}{\left( {\arctan \frac{{{w^{{\text{gt}}}}}}{{{h^{{\text{gt}}}}}} - \arctan \frac{w}{h}} \right)^2}. $

2. 实验结果及分析

2.1. 螺纹钢数据集准备

因为目前没有针对螺纹钢表面缺陷的公共数据集，所以采用自建数据集，聚焦于最为常见且对产品质量影响显著的缺陷，包括锈迹、划伤、结疤. 在工地螺纹钢加工现场拍摄1 370张图片，利用Labelimg平台对预处理后的图片进行标注，并通过镜像、翻转、缩放等数据增强方法将数据集扩充至3 440张，其中包含3个类别和23 548个实例，具体数目见表1. 数据集中结疤缺陷的实例较少，与实际生产中该缺陷的低出现频率相符，同时结疤缺陷的特征显著，易于识别. 针对实例数量少引发的类间不平衡问题，通过YOLOv8的Mosaic和MixUp数据增强方法有效缓解其影响. 数据集中部分实例照片如图7所示. 实验中按照8∶1∶1划分训练集、验证集、测试集.

表 1 自建数据集中各类缺陷的图片数目与实例个数

Tab.1 Number of images and instances for each defect type in self-built dataset

类别	N
类别	图片	实例
锈迹	1 883	12 673
划伤	1 995	10 304
结疤	396	571

新窗口打开| 下载CSV

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 数据集中部分实例照片

Fig.7 Partial sample photos in dataset

2.2. 实验平台与网络参数设置

实验采用windows11操作系统，CPU为AMD7000R9-7940H，GPU为NVIDIA GeForce RTX4060，显存为8 GB. 采用Pycharm2022，搭建Pytorch2.4.0深度学习框架，CUDA版本为12.6. 优化器采用SGD，初始学习率设为0.01，momentum设为0.937，批大小设为16，workers设为8，输入图像大小设为640×640像素，迭代300轮，在最后10轮关闭mosaic训练.

2.3. 评价指标

选取精度(P)、召回率(R)和平均精度均值(mAP@0.5和mAP@0.5-0.95)来衡量模型的检测精度，选用参数量(N_p)、计算量(FLOPs)、每秒帧率(FPS)来衡量模型的轻量化水平和检测速度. 其中，mAP@0.5表示在IoU阈值为0.5时的平均精度均值，mAP@0.5-0.95表示在0.5~0.95(以0.05的间隔取值)的不同IoU阈值下的平均mAP值. 由于FPS的波动性，对于实验结果中的FPS，均采用重复推理取平均值的方法.

2.4. 实验结果分析

2.4.1. 轻量级主干网络对比实验

为了验证CACGLUFormer轻量化主干网络的高效性，将其与目前主流的轻量化网络进行对比，包括GhostNet^[24]、GhostNetV2^[25]、MobileViT^[26]、MobileNetV3^[27]、MobileNetV4^[28]、ShuffleNetV2^[29]、EfficientNetV2^[30]、VanillaNet^[31]、FasterNet^[32]、StarNet^[33]. 用上述网络替换YOLOv8n主干网络，在螺纹钢数据集上进行对比实验，实验结果如表2所示. 由结果可知，GhostNet、ShuffleNetV2、VanillaNet网络的参数量虽然大幅下降，但是精度随之降低，这是因为这些网络在设计时侧重于极限压缩参数量和计算量，忽略了特征表示能力的维持，从而影响了最终的检测精度. GhostNetV2、MobileNetV3、StarNet的参数量和计算量与所提主干网络相近，但是其mAP@0.5、mAP@0.5-0.95均低于CACGLUFormer，由此可见，提出的轻量化主干网络框架在检测精度和轻量化之间达到了较好的平衡. 在CACGLUFormer框架中，C2f_CCGLU通过分离卷积捕捉局部空间特征并通过ConvGLU调节通道特征，使模型保持了较强的局部特征表示能力. C2f_CACGLU模块进一步引入自注意力机制，增强了模型对全局信息的建模能力，能够有效捕捉长距离依赖关系，且在低维度空间中有效减少了计算开销. 综上所述，提出的轻量化主干网络克服了传统轻量化网络在精度与资源消耗之间的权衡问题，在减少参数量和计算量的同时，保证了优异的检测性能.

表 2 轻量级主干网络对比实验结果

Tab.2 Results of comparison experiment on lightweight backbone networks

模型	P/%	R/%	mAP@0.5/%	mAP@0.5-0.95/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
YOLOv8n(baseline)	88.3	83.1	90.2	55.9	3.0	8.1	133
YOLOv8n-GhostNet	85.5	82.8	87.6	52.2	1.7	5.1	140
YOLOv8n-GhostNetV2	81.4	84.8	86.3	49.6	2.4	6.4	134
YOLOv8n-MobileViT	87.8	83.0	89.8	55.4	2.2	12.8	132
YOLOv8n-MobileNetV3	82.7	80.2	84.5	41.1	2.3	5.7	133
YOLOv8n-MobileNetV4	85.0	83.7	88.8	41.7	5.7	22.5	128
YOLOv8n-ShuffleNetV2	81.3	80.0	84.2	41.5	1.9	5.2	139
YOLOv8n-EfficientNetV2	82.9	78.8	84.5	42.0	2.1	2.6	148
YOLOv8n-VanillaNet	84.9	83.2	86.5	51.8	2.0	5.7	147
YOLOv8n-FasterNet	85.1	83.9	87.8	50.4	4.2	10.7	130
YOLOv8n-StarNet	82.0	78.9	83.7	45.9	2.2	6.5	137
CACGLUFormer	87.5	87.4	92.9	56.2	2.4	6.8	148

新窗口打开| 下载CSV

2.4.2. 损失函数对比实验

为了验证Unified-IoU损失函数的有效性，在YOLOv8n网络上对Unified-IoU与当前主流损失函数进行比较. 实验中仅更换损失函数，其他实验条件保持一致，同时对Unified-IoU中3种下降策略进行对比验证. 实验结果如表3所示，其中linear、cos和fraction分别表示Unified-IoU中的线性、余弦和分数下降策略. 当采用DIoU作为损失函数时，FPS虽然达到了136帧/s，但是检测精度并未提升. 当采用Unified-IoU损失函数，特别是该函数中的线性下降策略时，mAP@0.5提高了1.5个百分点，可见其能够通过动态调整预测框权重有效提升检测精度，同时保持了较高的检测速度.

表 3 损失函数对比实验

Tab.3 Comparison experiment of loss functions

损失函数	P/%	R/%	mAP@0.5/%	mAP@0.5-0.95/%	FPS/(帧·s⁻¹)
CIoU	88.3	83.1	90.2	55.9	133
DIoU	86.4	84.9	90.2	56.2	136
GIoU	87.9	83.6	90.0	55.9	131
EIoU	81.5	85.8	89.9	56.0	73
WIoU	81.5	85.3	89.8	55.8	93
SIoU	87.4	83.7	90.2	56.5	101
Wise-IoU	88.2	85.4	90.7	55.7	125
Inner-IoU	87.4	87.1	91.2	55.5	128
Unified-IoU(linear)	89.1	89.2	91.7	56.5	135
Unified-IoU(cos)	89.0	89.1	91.6	56.5	135
Unified-IoU(fraction)	88.8	89.1	91.3	56.6	136

新窗口打开| 下载CSV

2.4.3. 轻量化检测头对比实验

为了验证提出的轻量化自适应SCSBN检测头在提升参数利用率上的优越性，进行3种轻量化检测头的对比实验，结果如表4所示. 其中，A-Head采用共享卷积，B-Head采用共享卷积并使用GN层，所提轻量化、自适应SCSBN Head采用共享卷积但分离BN层. 由表4可知，3种检测头的参数量均从3.0 M降低至2.4 M，相应的计算量也减少了20%，但是在检测精度和推理速度方面存在明显差异. A-Head通过共享卷积减少了参数量，但由于BN层的滑动平均误差，mAP@0.5下降了2.1个百分点. B-Head在共享卷积时采用GN层，由于其需要按组进行标准化处理，检测精度相较于A-Head有所提升，但是在推理时无法像BN层那样实现高效并行化处理，增加了推理时间. 提出的轻量化检测头在共享卷积层的同时采用独立的BN层，使得模型能够更灵活地调整每个任务的特征分布，从而在提升参数利用率的同时保证了检测精度.

表 4 轻量化检测头对比实验

Tab.4 Comparison experiment of lightweight detection heads

检测头	mAP@0.5/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
YOLOv8n	90.2	3.0	8.1	133
+A-Head	88.1	2.4	6.5	135
+B-Head	89.9	2.4	6.5	128
+SCSBN Head	90.9	2.4	6.5	135

新窗口打开| 下载CSV

2.4.4. 消融实验

为了验证基于YOLOv8n提出的改进策略的有效性，在自建螺纹钢数据集上进行消融实验，结果如表5所示. 其中，A表示采用CACGLUFormer改进主干网络，B表示CAA-HS-FPN对Neck层的改进，C表示对检测头的改进，D表示对损失函数的优化(F为分数下降策略，C为余弦下降策略，L为线性下降策略)；M0为YOLOv8n模型，M1~M8均为在此基础上进行相应模块改进的模型；All表示3个类别的检测精度或召回率的平均值.

表 5 不同改进策略的消融实验

Tab.5 Ablation experiments of different improvement strategies

模型	A	B	C	D	类别	P/%	R/%	mAP@0.5/%	mAP@0.5-0.95/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
M0	—	—	—	—	划伤	92.9	85.2	93.0	54.7	3.0	8.1	133
					锈迹	88.0	76.2	87.2	52.2
					结疤	84.1	87.8	90.5	60.7
					All	88.3	83.1	90.2	55.9
M1	√	—	—	—	划伤	89.2	90.0	94.4	54.5	2.4	6.8	148
					锈迹	89.3	80.2	89.9	53.0
					结疤	84.0	92.0	94.4	61.1
					All	87.5	87.4	92.9	56.2
M2	—	√	—	—	划伤	90.4	86.8	92.4	54.1	2.1	7.3	152
					锈迹	88.9	79.9	89.4	53.0
					结疤	85.4	90.6	92.5	64.4
					All	88.2	85.8	91.4	57.2
M3	—	—	√	—	划伤	92.0	90.9	94.3	57.4	2.4	6.5	135
					锈迹	88.4	82.9	89.3	57.8
					结疤	82.0	85.7	88.9	55.4
					All	87.5	86.5	90.9	57.4
M4	√	√	—	—	划伤	89.9	90.9	94.5	57.4	1.8	6.4	141
					锈迹	87.2	84.0	91.6	54.4
					结疤	88.9	93.8	92.1	56.6
					All	88.7	89.5	92.7	56.8
M5	√	√	√	—	划伤	89.2	91.2	95.0	55.4	1.4	5.3	149
					锈迹	87.6	84.0	91.5	55.7
					结疤	86.4	90.9	93.8	60.6
					All	87.8	88.7	93.4	57.2
M6	√	√	√	F	划伤	91.2	92.4	95.6	56.3	1.4	5.3	155
					锈迹	91.0	86.6	94.2	56.1
					结疤	86.3	88.6	93.1	64.2
					All	90.0	88.9	94.3	58.9
M7	√	√	√	C	划伤	91.4	93.0	96.5	56.2	1.4	5.3	152
					锈迹	91.2	86.5	94.6	56.3
					结疤	87.6	87.2	92.5	64.0
					All	90.2	89.0	94.5	58.8
M8	√	√	√	L	划伤	91.6	93.0	96.3	56.4	1.4	5.3	156
					锈迹	91.2	86.8	94.7	56.1
					结疤	87.7	87.1	92.4	64.0
					All	90.2	89.0	94.5	58.8

新窗口打开| 下载CSV

结果表明，采用CACGLUFormer改进主干网络后，模型参数量从3.0 M降至2.4 M，浮点运算量从8.1 G降至6.8 G，FPS提升至148帧/s，mAP@0.5提高了2.7个百分点，这表明CACGLUFormer能够在减少计算复杂度、提升检测速度的同时大幅提高检测精度. 当单独使用CAA-HS-FPN进行特征融合时，参数量降至2.1 M，运算量降至7.3 G，FPS提升至152帧/s，mAP@0.5提升了1.2个百分点，表明此改进减少了信息冗余并加快了检测速度. 加入SCSBN检测头后，参数量降至2.4 M，运算量降至6.5 G，mAP@0.5提升了0.7个百分点，表明该检测头在保证检测精度的同时有效减少了参数量和计算量. 根据表3可知，当单独使用Unified-IoU改进损失函数并采用线性下降策略时，模型在保证检测速度的同时，mAP@0.5提升了1.5个百分点. 由表5可知，当同时改进Backbone和Neck层时，mAP@0.5提升了2.5个百分点，参数量降低了40%，计算量降低了21%，且提升了检测速度；对于尺度跨度较大的锈迹类缺陷mAP@0.5提升了4.4个百分点，mAP@0.5-0.95提升了2.2个百分点. 在此基础上加入轻量化检测头后，参数量降至1.4 M，检测速度进一步提升. 最后将4种改进策略结合，并对3种下降策略进行对比验证. 可以看出，当采用余弦下降策略时，FPS仅为152帧/s，这是由于其周期性的调整带来了额外的计算开销；尤其在训练初期，模型尚未完全收敛，频繁的权重调整增加了计算复杂度. 当采用线性下降策略时，模型性能达到了最优. 最终，模型参数量从3.0 M降至1.4 M（降低了53.33%），浮点运算量减少了34.57%，FPS从133帧/s提升至156帧/s，mAP@0.5提高了4.3个百分点，mAP@0.5-0.95提高了2.9个百分点. 尤其对尺度跨度大且密集的锈迹缺陷，mAP@0.5提升了7.5个百分点；对锈迹和划伤缺陷的召回率分别提升了10.6和7.8个百分点. 综上所述，最终的改进模型充分发挥了各个模块的优势，显著减少了参数量和计算量，并有效提升了检测精度，实现了速度与精度的较好平衡.

2.4.5. 不同模型对比实验

为了进一步验证改进的轻量化模型在螺纹钢表面缺陷检测中的高效性，采用自建螺纹钢数据集，选择当前先进的目标检测模型进行对比实验，涵盖了Faster R-CNN、SSD和YOLO系列中较小的模型，包括YOLOv3-Tiny、YOLOv4-Tiny、YOLOv5n、YOLOv6n、YOLOX-Tiny、YOLOv7-Tiny、YOLOv8n、YOLOv9n、YOLOv10n和YOLOv11n，以及YOLOv8-VSC^[10]、LTSCD-YOLO^[11]和S-YOLO^[14]，实验设置与基准模型保持一致. 对比实验结果见表6. 结果表明，Faster R-CNN、SSD、YOLOv3-Tiny和YOLOv4-Tiny不仅结构复杂，且检测精度较低；YOLOv5n虽然改进了检测性能，但FPS提升有限，精度较低；YOLOX-Tiny的精度略优，但因庞大的参数量导致速度较慢. 相比之下，改进模型在与YOLOv9n、YOLOv10n和YOLOv11n的对比中，mAP@0.5分别提升了3.8、4.0、3.6个百分点，参数量和计算量大幅降低，FPS显著提升. 尽管S-YOLO精度较高，但参数量较高，检测速度不如LTSCD-YOLO. 改进模型以1.4 M的参数量和5.3 G的计算量，达到了94.5%的mAP@0.5值和156帧/s的速度，显著优于其他模型. 综上所述，所提模型表现出较强的竞争力，兼顾轻量化与检测精度，适合部署在计算资源有限的终端设备上.

表 6 先进主流模型对比实验

Tab.6 Comparative experiments of advanced mainstream models

模型	P/%	R/%	mAP@0.5/%	mAP@0.5-0.95/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
Faster R-CNN	82.1	72.9	82.7	44.6	137.1	370.2	6
SSD	80.6	80.7	85.0	49.3	41.1	145.3	41
YOLOv3-Tiny	80.8	79.9	86.3	50.9	12.1	18.9	78
YOLOv4-Tiny	84.3	81.0	88.4	52.1	5.9	16.1	113
YOLOv5n	85.5	81.2	89.4	52.5	2.4	7.1	107
YOLOv6n	81.6	80.6	87.2	51.3	4.2	11.2	130
YOLOv7-Tiny	85.4	81.2	89.3	54.7	6.1	13.1	109
YOLOX-Tiny	86.2	82.5	90.3	56.1	5.1	6.5	122
YOLOv8n	88.3	83.1	90.2	55.9	3.0	8.1	133
YOLOv9n	85.5	83.3	90.7	56.5	2.3	8.4	135
YOLOv10n	85.6	82.7	90.5	55.9	2.7	8.2	131
YOLOv11n	86.1	83.4	90.9	55.8	2.6	6.3	136
YOLOv8-VSC	88.6	88.8	92.7	56.3	2.0	6.0	152
LTSCD-YOLO	89.2	87.8	91.9	56.5	2.4	9.8	144
S-YOLO	89.8	87.9	93.2	57.9	2.6	8.4	127
本研究模型	90.2	89.0	94.5	58.8	1.4	5.3	156

新窗口打开| 下载CSV

2.4.6. 可视化分析

为了直观地验证改进模型在螺纹钢表面缺陷检测中的性能优势，从螺纹钢测试集中抽取部分样本进行检测，并引入先进的YOLOv11n模型进行对比分析. 通过计算精度、召回率定量分析检测效果，如图8所示. 同时，利用Grad-CAM生成热力图，从而更直观地观察模型对具体目标的关注度，热力图结果如图9所示.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 模型改进前后检测结果的可视化对比

Fig.8 Visual comparison of detection results before and after model improvement

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 模型改进前后的缺陷检测热力图对比

Fig.9 Comparison of defect detection heatmaps before and after model improvement

从结果分析可知，在单类别锈迹场景中，YOLOv8n模型对较小点状锈迹存在漏检现象，精度P=1.00，而召回率R仅为0.83，原因是其对小目标的敏感度较低. 从热力图中也可以看出YOLOv8n对密集小目标锈迹和尺度跨度较大的锈迹的关注度不足. YOLOv11n和所提模型能全面检测所有锈迹(P=1.00，R=1.00)，且所提模型对长条状锈迹的定位更精准. 在单类别划伤场景中，YOLOv8n对大跨度条状划伤缺陷不够敏感，未能识别较大跨度的划伤(P=1.00，R=0.81). YOLOv11n未能检测出小目标划伤(P=1.00，R=0.86). 所提模型能准确检出大跨度条状划伤，但对较小的划伤仍有漏检(P=1.00，R=0.91)，原因是较小划伤的局部特征不够显著，且模型倾向于关注尺寸较大的缺陷. 但是，相较于其他模型，其召回率明显提升. 对于特征明显、易于辨别的结疤缺陷，所有模型均能检出(P=1.00，R=1.00)，其中所提模型的检测精度更高. 对于锈迹与划伤分布较为密集且容易重叠的复杂场景，由于检测难度较大，基准模型无法同时检测锈迹和划伤，召回率为0.53，存在较多漏检. YOLOv11n在此类复杂场景下的检测效果也较差(P=1.00，R=0.71). 改进模型能有效识别重叠缺陷，召回率为0.94. 尽管仍有漏检，所提模型在综合检测性能上优于其他模型.

综上所述，所提模型相较于基准模型和其他先进模型的检测性能更好，尤其在处理密集重叠的锈迹缺陷、尺度跨度较大的条状划伤和锈迹缺陷时具有显著优势. 然而，模型在局部特征较弱的小目标划伤检测中仍然存在一定的漏检现象. 未来将在保证轻量化的同时，聚焦于优化复杂场景下小目标的检测性能.

2.4.7. 泛化性验证

选用公开的NEU-DET钢材表面缺陷数据集对所提模型进行泛化性验证. 该数据集共有1 800张图片，包括裂纹、斑块、内含物、点蚀表面、轧制氧化皮和划痕6种缺陷，数据集划分比例和训练参数设置均与上述实验保持一致. 基准模型YOLOv8n、YOLOv11、本研究算法和DCS-YOLOv8^[7]、SDB-YOLOv8s^[26]的对比实验结果见表7.

表 7 在NEU-DET数据集上不同模型的对比实验

Tab.7 Comparison experiment of different models on NEU-DET dataset

模型	P/%	R/%	mAP@0.5/%	mAP@0.5-0.95/%	N_p/M	FLOPs/G	FPS/(帧·s⁻¹)
YOLOv8n	74.6	71.3	76.8	42.6	3.0	8.1	122
DCS-YOLOv8	74.9	71.4	76.9	—	3.3	7.8	277
SDB-YOLOv8s	77.4	72.1	79.2	—	7.2	16.2	146
YOLOv11n	76.3	71.5	79.6	42.5	2.6	6.3	127
本研究模型	76.6	71.7	79.7	43.0	1.4	5.3	129

新窗口打开| 下载CSV

由表7可知，相比于其他先进的检测模型，改进算法在保证最低参数量和计算量的同时实现了最高的检测精度. 相较于基准模型，其mAP@0.5提升了2.9个百分点，参数量减少了53.33%，浮点运算量降低了34.57%. 虽然在FPS上低于DCS-YOLOv8，但综合其他指标，所提算法仍展现出优越性能，验证了其在NEU-DET数据集上的泛化性与鲁棒性. 可视化检测结果如图10所示，所提算法能够更有效地捕捉全局信息，提升特征提取能力，并避免信息丢失，因而在缺陷定位上精度更高，减少了漏检与误检现象，这一结果进一步验证了其优越性.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 NEU-DET数据集上所提模型与基准模型的检测结果

Fig.10 Detection results of proposed model and baseline model on NEU-DET dataset

3. 结　语

为了解决现有模型对螺纹钢表面密集、尺度跨度较大的缺陷的检测精度不足，以及其参数量庞大，不利于在资源受限的边缘设备上部署的问题，提出平衡检测性能与计算资源消耗的轻量级螺纹钢表面缺陷检测模型. 通过设计轻量化的C2f_CCGLU和C2f_CACGLU模块，并结合卷积门控线性单元与自注意力机制，构建聚焦于全局信息的CACGLUFormer轻量化主干网络，有效降低了模型的参数量和计算量. 通过引入上下文锚点注意力模块和SCSBN检测头，进一步提升了检测精度，并通过Unified-IoU损失函数优化模型对密集缺陷的检测精度. 最终的改进模型在自建螺纹钢数据集上的mAP@0.5相比于YOLOv8n提高了4.3个百分点，同时其参数量减少了53.33%，计算量降低了34.57%，且FPS达到了156帧/s，验证了改进算法在平衡检测性能与计算资源消耗方面的优越性，以及在实际终端设备上部署的潜力. 此外，在NEU-DET公开数据集上的泛化性实验进一步验证了其良好的泛化性与鲁棒性. 目前模型的部署尚在实验阶段，未来研究将聚焦于其在工业螺纹钢检测场景中的实际部署与应用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

TIAN Y, ZHANG G, YE H, et al

Corrosion of steel rebar in concrete induced by chloride ions under natural environments

[J]. Construction and Building Materials, 2023, 369: 130504

DOI:10.1016/j.conbuildmat.2023.130504 [本文引用: 1]

[2]

QIU J, ZHANG W, JING Y

Quantitative linear correlation between self-magnetic flux leakage field variation and corrosion unevenness of corroded rebars

[J]. Measurement, 2023, 218: 113173

DOI:10.1016/j.measurement.2023.113173 [本文引用: 1]

[3]

EDDY I C, UNDERHILL P R, MORELLI J, et al. Pulsed eddy current response to liftoff in different sizes of concrete embedded rebar [C]// Proceedings of the IEEE SENSORS. Montreal: IEEE, 2019: 1–4.