融合CNN与高低频聚焦注意力的TOFD焊缝缺陷识别方法

doi:10.3785/j.issn.1006-754X.2026.05.134

融合CNN与高低频聚焦注意力的TOFD焊缝缺陷识别方法

张俊辉^,^,¹, 唐东林^,^,¹, 王平杰², 胡远遥¹, 李渊博¹

1.西南石油大学机电工程学院，四川成都 610500

2.四川省特种设备检验研究院，四川成都 610000

TOFD weld defect identification method integrating CNN and high-low frequency focused attention

ZHANG Junhui^,^,¹, TANG Donglin^,^,¹, WANG Pingjie², HU Yuanyao¹, LI Yuanbo¹

1.School of Mechanical and Electrical Engineering, Southwest Petroleum University, Chengdu 610500, China

2.Sichuan Special Equipment Inspection Institute, Chengdu 610000, China

通讯作者: 唐东林（1970—），男，教授，博士，从事无损检测、模式识别等研究，E-mail: tdl840451816@163.com，https://orcid.org/0000-0002-3922-1711

收稿日期: 2025-05-20 修回日期: 2025-07-08

基金资助:

四川省自然科学基金资助项目.  2024NSFSC2003
四川省市场监督管理总局科技项目.  SCSJS2024006
南充市-西南石油大学市校科技战略合作项目.  23XNSYSX0048
南充市-西南石油大学市校科技战略合作项目.  23XNSYSX0061

Received: 2025-05-20 Revised: 2025-07-08

作者简介 About authors

张俊辉（2000—），男，硕士生，从事超声无损检测、模式识别等研究，E-mail:zhangjh26100800@163.com，https://orcid.org/0009-0005-7244-2793 , E-mail：zhangjh26100800@163.com

摘要

针对TOFD（time of flight diffraction，衍射时差法）超声检测技术中焊缝缺陷图像受高噪声和干扰条纹影响的问题，以及当前深度学习模型在处理此类图像时面临的特征信息丢失与计算效率失衡的挑战，创新性地提出了一种融合卷积神经网络（convolutional neural network, CNN）与Transformer架构的缺陷识别模型，命名为MHLFNet（multi-scale high-low focused network，多尺度高低聚焦网络）。该模型通过引入多尺度特征融合（multi-scale feature fusion, MSFF）模块，显著增强了捕捉局部信息的能力；同时，设计了一种高低频聚焦线性（high-low focused linear, HLFL）模块，利用可调分配比对特征图的高低频信息进行动态注意力分配，并采用聚焦线性注意力代替传统多头自注意力，在有效降低计算复杂度的同时，增强了注意力机制的多样性与特征表达能力。为验证MHLFNet的性能，构建了TOFD焊缝缺陷图像数据集，并进行了系统的实验评估。结果表明，MHLFNet在焊缝缺陷识别任务中实现了98.6%的准确率，同时在模型参数量、浮点运算量以及推理时间方面表现优异。在可视化分析与识别验证中，MHLFNet对高危缺陷（如未熔合和裂纹）展现出卓越的识别能力，证明了其在工业检测中的可靠性与工程价值。

关键词： 衍射时差法 ; 焊缝缺陷识别 ; 卷积神经网络 ; Transformer架构 ; 多尺度特征融合

Abstract

Aiming at the problem of weld defect images affected by high noise and interference fringes in TOFD (time of flight diffraction) ultrasonic detection technology, as well as the challenge of feature information loss and computational efficiency imbalance faced by current deep learning models in processing such images, an innovative defect identification model integrating convolutional neural network (CNN) and Transformer architecture is proposed, named MHLFNet (multi-scale high-low focused network). By introducing a multi-scale feature fusion (MSFF) module, this model significantly enhanced the ability of capturing local information. At the same time, a high-low focused linear (HLFL) module was designed, which used the adjustable allocation ratio to dynamically allocate the attention for the high and low frequency information of feature images, and adopted focused linear attention instead of traditional multi-head self-attention, effectively reducing the computational complexity while enhancing the diversity of attention mechanisms and the feature expression ability. In order to verify the performance of MHLFNet, a TOFD weld defect image dataset was constructed, and a systematic experimental evaluation was conducted. The results showed that MHLFNet achieved an accuracy of 98.6% in the weld defect identification task, and performed excellently in terms of model parameters, floating-point operations, and inference time. In visual analysis and identification validation, MHLFNet demonstrates excellent identification capabilities for high-risk defects (such as lack of fusion and cracks), proving its reliability and engineering value in industrial inspection.

Keywords： time of flight diffraction (TOFD) ; weld defect identification ; convolutional neural network ; Transformer architecture ; multi-scale feature fusion

PDF (6094KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张俊辉, 唐东林, 王平杰, 胡远遥, 李渊博. 融合CNN与高低频聚焦注意力的TOFD焊缝缺陷识别方法[J]. 工程设计学报, 2026, 33(1): 44-55 doi:10.3785/j.issn.1006-754X.2026.05.134

ZHANG Junhui, TANG Donglin, WANG Pingjie, HU Yuanyao, LI Yuanbo. TOFD weld defect identification method integrating CNN and high-low frequency focused attention[J]. Chinese Journal of Engineering Design, 2026, 33(1): 44-55 doi:10.3785/j.issn.1006-754X.2026.05.134

作为现代制造业的核心技术，焊接在航空航天、船舶、石化和能源等不同领域的大型设备制造中发挥着重要作用^[1-2]。然而，由于焊接环境、焊接工艺和焊接参数的影响，焊接过程中不可避免地会出现各类焊接缺陷^[3]，从而影响设备的承载能力、强度和刚度，对系统安全和设备可靠性构成极大威胁^[4-5]。焊接缺陷的高效检测与准确评估，对于保障设备的质量与安全极为关键^[6]。因此，开展焊接制造过程中焊缝质量的智能化检测和在线监测研究，对提升焊缝缺陷检测精度和焊接质量具有重要意义。

TOFD（time of flight diffraction，衍射时差法）超声检测技术凭借可准确测量超声波在材料内部传播时间的能力^[7]，能够精确量化焊缝缺陷的深度与高度特征，进而实现缺陷的三维高精度定位^[8]。然而，需要注意的是，TOFD焊缝缺陷图像存在以下特征。1）成像机制复杂。超声波在焊缝中传播时，遇到不同的结构和缺陷会产生反射、折射和衍射信号，这些信号相互叠加、干涉。例如，当焊缝中同时存在多种类型的缺陷时，不同衍射信号相互交织，导致TOFD图像的干扰显著，难以准确识别单个缺陷。2）分辨率有限。当检测深度增大时，超声波信号的扩散和衰减导致TOFD图像的细节逐渐模糊。此外，对于微小缺陷或相邻较近缺陷，TOFD图像很难清晰地呈现其边界特征信息。3）噪声干扰显著。由于焊接环境、焊接材料不均匀等因素，TOFD图像容易受到噪声干扰。同时，焊接材料自身的晶粒结构差异、化学成分变化等均会导致超声波传播特性不一致，进而产生背景噪声。上述特征导致基于TOFD图像的焊缝缺陷识别存在较大误差。

近年来，焊缝缺陷的自动识别技术成为研究热点^[9]，一些学者开始对融合深度学习的TOFD图像自动识别方法进行研究。Al-Ataby等^[10]提出了一种基于纹理特征的TOFD焊缝缺陷图像检测方法，先利用二维Gabor函数对TOFD图像进行纹理特征分析，再利用模糊C均值聚类分类器对焊缝缺陷类型进行分类。林乃昌等^[11]针对TOFD-D扫描图像中的焊缝缺陷，采用KPCA（kernel principal component analysis，核主元分析）算法提取特征，并利用微粒群优化算法自动优化核参数，最后使用支持向量机（support vector machine, SVM）完成缺陷分类。 Theresa Cenate等^[12]从TOFD图像中手动提取待识别区域，计算均值和标准差等统计参数，并将其表示为图像特征，然后采用级联前馈反向传播（cascade feedforward back propagation, CFBP）网络对AISI316型不锈钢TOFD数据中的焊接缺陷进行了分类。综上，特征描述符可有效捕获特定缺陷的属性，如边缘^[13]、轮廓^[14]和纹理^[15]等。然而，上述特征信息提取方法和分类器在处理大规模检测数据和复杂任务时，存在模型泛化能力差、智能化水平低等问题。

相较于传统的检测方法，基于CNN（convolutional neural network，卷积神经网络）的焊缝缺陷检测方法具有较强的学习能力和泛化能力，且在特征学习和图像结构理解方面表现优异。CNN通过卷积运算建立图像像素之间的密切联系，从而有效捕获特征图中的局部信息^[16]。Roca Barceló等^[17]通过设定小波阈值，应用小波变换技术消除了TOFD图像的噪声，并借助CNN实现了焊缝缺陷类型的精准分类。黄焕东等^[18]分析了TOFD-D扫描图像中焊缝缺陷轮廓与图像特征之间的关系，并使用Faster R-CNN（faster region-based CNN，快速区域卷积神经网络）来检测和识别缺陷。针对图像去噪技术的局限性，支泽林等^[19]提出了一种基于小波带特征融合的深度学习去噪模型，该模型通过特征提取、特征融合及图像重构，有效地实现了球形压力容器TOFD图像中的焊缝缺陷分类。但是，上述3种方法均需要在TOFD图像中预先截取缺陷区域。为解决这一问题，Zhi等^[20]基于深度学习理论对Faster R-CNN模型进行了优化，提出了EFRCNN（enlighten Faster R-CNN，启发式快速区域卷积神经网络）框架，结合CF-RW（channel feature reweighting，通道特征二次加权）流程及基于ZSNF（Z-score normalization and fusion，Z分数标准化融合）的多尺度特征融合机制，实现了钛合金钢材TOFD-D缺陷图像的高效定位与识别。然而，CNN通常更擅长捕捉图像的局部特征，但焊缝缺陷图像往往包含复杂的结构特征和多样的缺陷形态，局部特征虽能够提供有用信息，但无法充分反映焊缝的整体特征和缺陷全貌。

现阶段，ViT（vision Transformer）模型及其众多变体^[21-22]在图像领域快速发展，为焊缝缺陷检测提供了有力的技术支持^[23]。作为Transformer的核心模块，自注意力机制通过计算查询（query）和键（key）之间的相似性来生成亲和矩阵，使其能够在整个图像上建立全局依赖关系，而不受卷积核大小的限制。然而，Transformer模型的特点是计算成本高、训练过程复杂及缺乏可解释性^[24]。一方面，自注意力机制的计算具有二次复杂度和较高的内存消耗，这对复杂的实际工程应用提出了重大挑战；另一方面，计算所涉及的特征序列中的某些特征并不重要，这会导致不必要的计算开销。尽管ViT模型在缺陷检测领域展现出巨大的应用潜力，但其在局部特征提取方面落后于CNN，且需要大量的训练数据。

为应对上述问题，本文提出了一种名为MHLFNet（multi-scale high-low focused network，多尺度高低聚焦网络）的混合网络架构，该架构融合了CNN与Transformer模型的优势。通过设计多分支特征融合模块并引入映射函数与秩恢复模块，使得MHLFNet能够在有效降低计算复杂度的同时，针对性地解决TOFD焊缝缺陷图像特征信息易丢失的难题。

1 本文方法

1.1　MHLFNet整体架构

MHLFNet的整体架构如图1(a)所示，其能够有效融合多尺度信息，增强模型对目标细节和上下文的捕获能力。该网络主要包括Conv Block模块、Stage模块和分类模块。假设输入图像 $X_{1} \in R^{H \times W \times 3}$ （H为图像高度，W为图像宽度），通过Conv Block层进行下采样，该层采用3×3卷积核，步长为2。经过2次卷积操作后，特征映射的高度和宽度减小到原始图像的1/4，而通道数增加到128。Conv Block模块可提取基础的低层次特征，且能在有效压缩特征图空间维度的同时，显著降低模型的参数量和计算复杂度。为了提取不同层次的图像特征，提升模型对不规则和复杂缺陷的识别能力，设计了4个Stage层，命名为Stage1、Stage2、Stage3和Stage4。每个Stage层均由MSFF（multi-scale feature fusion，多尺度特征融合）模块和HLFL（high-low focused linear，高低频聚焦线性）模块组成。4个Stage层的堆叠次数分别为2、2、6和2。为了在深层网络中平衡模型的复杂度和表达能力，网络在Stage3和Stage4层中将通道数设置为前一阶段的1.5倍，而非简单地倍增，以避免通道数快速膨胀导致的计算代价过高问题。最后，在经过4个Stage层后，网络通过对特征图进行全局平均池化来整合全局信息，并通过全连接层对融合的特征进行处理，以实现对焊缝缺陷的分类任务。MHLFNet通过协同感知TOFD焊缝缺陷图像的局部异常特征与全局结构信息，在计算复杂度与分类性能之间实现了良好的平衡，从而提升了整体检测效果。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 MHLFNet整体架构及其关键模块

Fig.1 Overall architecture of MHLFNet and its key modules

1.2　MSFF模块

MSFF模块被集成到MHLFNet的各个阶段，其具体结构如图1(b)所示。该模块以多分支深度可分离卷积和空洞卷积为核心，通过分组策略高效提取多尺度特征，并结合权重自适应调整与特征融合机制，增强模型的表征能力。首先，MSFF模块通过逐点卷积（PWConv）将输入特征图的通道数扩展至原来的2倍，并在通道维度上进行分组，使每个分组专注于独立特征的提取。随后，每个分支依次执行以下3步操作：1）使用3×3卷积核的深度可分离卷积（DWConv）捕获局部细节特征；2）通过空洞率为2、卷积核为3×3的深度空洞卷积（DWDConv）来进一步扩展感受野，以更好地对全局上下文信息进行建模；3）通过逐点卷积调整通道数。上述操作用公式可表示为：

f (x) = f_{P W} (f_{D W D} (f_{D W} (x)))

(1)

式中： $f (\cdot)$ 表示各分支的输出特征， $f_{P W} (\cdot)$ 、 $f_{D W D} (\cdot)$ 、 $f_{D W} (\cdot)$ 分别表示逐点卷积、深度空洞卷积和深度可分离卷积操作。

对于第 $i$ 个分支的输入特征 $x_{i}$ ，为了有效缓解块效应并捕获更丰富的局部信息，引入空间门控单元，并通过自适应调整机制动态分配各分支的重要性，该步骤可表示为：

F (x_{i}) = G_{i} (x_{i}) \otimes f (x_{i})

(2)

式中：F $(x_{i})$ 表示第 $i$ 个分支的加权特征， $f (x_{i})$ 表示第i个分支的输出特征， $G_{i} (x_{i})$ 表示通过3×3深度卷积生成的第i个门控单元。

最后，各分支的加权特征通过逐元素加和来实现内部融合，并通过逐点卷积进一步调整通道数至原始维度，进而完成特征的高效整合。综上，MSFF模块通过分组策略、深度可分离卷积和深度空洞卷积的结合，实现了高效的多尺度特征提取与融合。

1.3　HLFL模块

TOFD焊缝缺陷图像蕴含丰富的频率信息。其中：高频特征用于描述局部细节（如边缘与形状），低频特征用于描述全局结构（如纹理与颜色）。基于频率分解这一思想，本文提出了HLFL模块，即通过动态调节不同频段的特征权重，利用频段之间的互补作用，实现频率信息的有效融合，进而提升模型对复杂场景或缺陷的识别能力。HLFL模块的具体结构如图1(c)所示。

HLFL模块由3个关键层组成：归一化层（layer normalization, LN）、注意力层（attention）以及多层感知层（multi-layer perceptron, MLP）。具体而言，首先，输入特征通过第1个LN层和注意力层，生成注意力增强的输出；随后，利用残差连接将注意力增强的输出与原始输入相加，得到中间特征；最后，中间特征通过第2个LN层和MLP层进行进一步变换，并与中间特征通过残差连接相加，生成最终输出。以x_A表示输入特征，则HLFL模块的整个计算过程可表示为：

F = x_{A} + M L P (L N (x_{A} + A t t e n t i o n (L N (x_{A}))))

(3)

式中：F表示HLFL模块的输出。

在注意力层中，对特征图的高频与低频信息进行独立处理，其详细结构如图1(d)所示。本质上，低频注意力分支聚焦于对输入特征的全局依赖关系进行建模，故对高分辨率特征的需求较低。而高频注意力分支聚焦于捕获输入特征局部细节的依赖关系，对高分辨率特征的需求较高，但仅需通过局部注意力即可完成建模。具体而言，引入分配比参数 $α$ 对注意力头进行动态分配，高频路径直接使用原始分辨率的特征图，而低频路径通过平均池化（Avg Pool）操作对特征图进行降采样，以提取低频全局信息，从而实现高效的多尺度特征建模。

Transformer模型主要依赖MHSA（multi-head self-attention，多头自注意力）来捕捉输入序列中远距离的关系。在编码器中，MHSA可以对输入序列进行全局的语义编码，使每个位置的编码都包含序列中其他位置的信息，从而较好地处理长距离的语义依赖。假设输入图像 $X \in R^{H \times W \times C}$ （C为通道数），利用 X 来定义查询向量 Q 、键向量 K 和值向量 V，即：

\{\begin{matrix} Q = X W_{Q} \\ K = X W_{K} \\ V = X W_{V} \end{matrix}

(4)

式中： $W_{Q}$ 、 $W_{K}$ 、 $W_{V}$ 表示线性变换的可训练矩阵， $W_{Q} \in R^{C \times C}$ ， $W_{K} \in R^{C \times C}$ ， $W_{V} \in R^{C \times C}$ 。

在输入和输出具有相同维度的假设下，传统的MHSA可表示为：

A = S o f t m a x (\frac{Q K^{T}}{\sqrt[]{d}})

(5)

式中：A表示注意力分数；d表示键的维度， $\sqrt[]{d}$ 为近似归一化操作；Softmax函数用于将注意力分数规范为概率分析，对矩阵的每一行应用一次。

由此可得到MHSA的计算复杂度Ω：

Ω (M H S A) = 3 H W C^{2} + 2 H^{2} W^{2} C

(6)

上述MHSA的计算复杂度可表示为 $O (H^{2} W^{2})$ 。高分辨率输入图像的高度和宽度通常很大，导致MHSA的计算量非常庞大，限制了Transformer在视觉任务中的性能。为了解决这一问题，本文采用聚焦线性注意力替换原有的MHSA，以在保证计算开销下降的同时，模型性能不减弱。

首先，构造一个简单的映射函数 $f_{p}$ ，通过调整每个查询向量 Q 和键向量 K 的方向，以使相似的 Q 和 K 靠近，不相似的 Q 和 K 远离。映射函数 $f_{p}$ 定义如下：

S i m (Q_{k}, K_{j}) = Φ_{p} (Q_{k}) Φ_{p} (K_{j}^{T})

(7)

Φ_{p} (x) = f_{p} (R e L U (x)), f_{p} (x) = \frac{| | x | |}{| | x^{* * p} | |} x^{* * p}

(8)

式中： $x^{* * p}$ 表示特征 $x$ 的 $p$ 次方， $| | x | |$ 表示特征 $x$ 的范数， Q_k 和 K_j 分别表示用于注意力计算的第 $k$ 个查询向量和第 $j$ 个键向量。

利用ReLU（rectified linear unit，修正线性单元）激活函数对特征 $x$ 进行处理，可确保输入的非负性和分母的有效性。在完成映射后，特征的范数被保留，仅调整了特征的方向。由此可知，所采用的映射函数 $f_{p}$ 会影响注意力的分布。

根据文献[25-26]，可知注意力矩阵的秩也是影响特征多样性的重要因素。在自注意力计算中，Softmax函数提供了一种非线性权重生成机制，使得模型能够更好地聚焦于一些重要特征，即自注意力矩阵的秩为满秩。而传统线性注意力的权重分布则是十分平均的，导致输出的特征接近所有特征的平均值，无法聚焦于更有信息量的特征。线性注意力矩阵的秩由标记数N和通道维度d决定：

r a n k (ϕ (Q) ϕ (K_{}^{T})) \leq m i n {r a n k (ϕ (Q))}

(9)

r a n k (ϕ (K)) \leq m i n {N, d}

(10)

式中： $ϕ (\cdot)$ 表示线性变换函数。

在常见的Transformer模型中^[21]，通道维度d通常小于标记数N，故可得线性注意力矩阵是一个降秩矩阵。而自注意力矩阵输出的是同一组值向量 V，注意力权重均匀化必然会导致特征之间具有相似性，这也是传统线性注意力特征矩阵多行相似的一个重要原因。为此，本文采用深度可分离卷积（DWConv）处理值向量 V，对应的输出O可表示为：

O = ϕ (Q) ϕ (K_{}^{T}) V + D W C (V)

(11)

上述设计方法具有2个优点：第一，计算复杂度低，通过改变自注意力机制的矩阵乘法顺序，将计算复杂度降低为线性级；第二，模型表达能力强，使用聚焦函数和深度可分离卷积突破了模型的性能瓶颈，聚焦线性注意力机制的性能显著优于自注意力机制。

2 TOFD数据集构建和实验设置

2.1　TOFD数据集构建

如图2(a)所示，TOFD超声检测通常采用一对布置在焊缝两侧的宽波束、宽带纵波角探头，以一发一收的方式进行检测。探头可平行或垂直于焊缝移动，分别实现非平行或平行扫描。探头平行于焊缝移动时的情况如图2(b)所示，此时超声波的传播方向垂直于探头移动方向，生成对应的TOFD-D扫描图像。图2(c)所示为A扫描信号转换为灰度图像的过程，其中灰度值直接反映波形幅度变化：波形正半周表现为较高灰度（白色），负半周表现为较低灰度（黑色）。这种转换方式可将A扫描信号的特征信息直观地呈现在D扫描图像上，为分析材料内部的结构和缺陷提供了高效、清晰的方法。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 TOFD检测原理与成像过程

Fig.2 TOFD detection principle and imaging process

按照中国能源行业相关标准（NB/T 47013.10—2015）^[27]，制作了30块板-板对接的焊接缺陷试块，材质为Q235钢，规格为300 mm×300 mm，厚度分别为20、30、40 mm（各10块）。在焊接工艺上，选择手工电弧焊技术，坡口形状为V形，并在每块焊接试块的焊缝上设计3个缺陷，以满足测试需求。本文共设计了5种焊缝缺陷类型：裂纹、未熔合、气孔、夹渣和表面开口。按照表1所示的参数，选择规格合适的TOFD检测探头进行检测。TOFD焊缝缺陷图像如图3所示。由图3可以看出，不同类型缺陷的衍射回波特征存在显著差异：裂纹缺陷为尖锐、集中且信号强的衍射回波，与周围材料的衍射回波明显不同，但形状通常较为一致；气孔和夹渣缺陷多呈现散乱的衍射回波，分布较广泛，且信号较模糊、不连续；未熔合和表面开口缺陷表现为连续或层状的衍射回波，伴随结构变化明显，信号具有层状或平行特征。

表1 TOFD检测探头参数选择

Table 1 Selection of TOFD detection probe parameters

试块厚度/mm	频率/MHz	声束角度 $α$ /(°)	晶片尺寸/mm
>15~35	5~10	60~70	2~6
>35~50	3~5	60~70	3~6

新窗口打开| 下载CSV

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 TOFD焊缝缺陷图像

Fig.3 TOFD weld defect images

如图4所示，采用高精度的HS810型多功能TOFD检测仪对钢板试块进行检测，采集原始的TOFD焊缝缺陷图像数据。这些图像是由不同规格的探头通过对不同厚度试块焊缝处不同位置的缺陷进行检测所采集到的。然而，原始的焊缝缺陷图像尺寸较大且包含大量冗余特征，这不仅会增加模型训练的复杂性，还可能会导致对正常图像的误分类。为优化数据质量，对图像进行裁剪处理，使每张图像仅包含单一类型的缺陷，以构建原始数据集。随后，通过平移、翻转及添加噪声等数据增强方法扩充数据集，最终生成7 500张TOFD焊缝缺陷图像（增强数据集）。最后，对数据集进行随机划分，80%用于训练，20%用于测试，具体划分结果如表2所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 TOFD焊缝缺陷图像采集过程

Fig.4 TOFD weld defect image acquisition process

表2 TOFD焊缝缺陷图像数据集划分

Table 2 Division of TOFD weld defect image dataset

数据集	缺陷图像/张
数据集	裂纹	未熔合	气孔	夹渣	表面开口
训练集	1 200	1 200	1 200	1 200	1 200
测试集	300	300	300	300	300

新窗口打开| 下载CSV

2.2　实验参数配置

本文实验基于PyCharm平台，采用深度学习框架PyTorch实现。硬件配置如下：NVIDIA GeForce RTX 3060 GPU（12 GB显存）和AMD EPYC 7R12 48核CPU（2.65 GHz）。MHLFNet模型的超参数如表3所示。在实验开始前，将图像分辨率统一调整至(224×224)像素，并对像素值进行归一化处理，将其范围映射至[0, 1]，以加速模型收敛。

表3 MHLFNet模型的超参数设置

Table 3 Hyperparameter setting of MHLFNet model

参数类型	参数设置
优化算法	AdamW
损失函数	交叉熵函数
初始学习率	0.000 1
学习率调整策略	余弦退火，周期为30
批大小	32
迭代数/次	150
激活函数	ReLU

新窗口打开| 下载CSV

3 实验与结果讨论

3.1　模型分类性能验证

图5展示了MHLFNet模型在原始数据集与增强数据集上的分类性能动态变化曲线。由图5可知，在训练初期，由于模型参数更新较快，准确率和损失值的波动较大。从整体趋势来看，模型的准确率逐步提高，而损失值持续下降，表现出逐渐收敛的特性。当模型达到收敛后，与原始数据集相比，模型在增强数据集上的分类准确率提升了2.4个百分点。这一性能提升得益于数据增强策略扩展了数据的多样性，满足Transformer架构对大规模数据的需求，从而显著提升了模型的泛化性能，降低了过拟合风险。此外，MHLFNet通过结构优化和参数精简，进一步确保了其在训练和测试过程中的稳定性，整体准确率较高。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 MHLFNet模型的分类性能验证

Fig.5 Validation of classification performance of MHLFNet model

为深入评估模型的分类性能，还需重点关注模型对判别性特征的学习与区分能力。t-SNE（t-distributed stochastic neighbor embedding，t-分布随机邻域嵌入）作为一种高效的降维方法，能够将高维数据映射至二维空间，从而显著提升模型对数据的可视化分析能力。本文采用t-SNE对MHLFNet模型在增强数据集上的焊缝缺陷分类结果进行聚类分析，结果如图6所示。从图6中可以看出，不同的焊缝缺陷类别在特征空间中形成了清晰而独立的聚类，这充分验证了MHLFNet模型在识别和区分多种缺陷类型方面的优越性。同时，各类缺陷样本的分布呈现出高度紧凑性，进一步表明该模型在特征提取上的有效性。然而，裂缝与未熔合缺陷在语义特征上具有较高相似性，这种特征重叠不可避免地会导致模型存在一定程度的分类混淆和误判现象。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 t-SNE聚类分析结果

Fig.6 t-SNE cluster analysis result

3.2　消融实验

为了评估注意力机制对MHLFNet模型分类性能和计算复杂度的影响，设计了消融实验。保持网络其余结构不变，仅对基线网络中的注意力结构进行调整，实验结果如表4所示。通过分析可以发现，聚焦线性注意力机制在分类准确率和计算效率上均优于自注意力机制。这是因为自注意力机制需要计算所有输入元素的权重，导致计算复杂度呈平方级增长，而聚焦线性注意力机制仅需计算当前输入元素与少量相关元素的权重，可将计算复杂度有效降低至线性级。此外，无论是HLFL模块还是MSFF模块，均能显著提升MHLFNet模型的分类性能。尽管MSFF模块会略微增加模型的计算复杂度，但可使模型的整体计算开销得到优化。这一改进得益于模型结构的优化调整，具体表现为堆叠次数调整为2、2、6、2，且通道数由原先的512和1 024缩减至384和576。针对改进后计算量减少的现象，本文开展了进一步分析：优化后的网络通过在各层引入并行学习机制，融合了TOFD焊缝缺陷图像中的局部特征与全局特征。综上，MHLFNet模型通过串联和交替布局MSFF模块和HLFL模块，无需依赖过于庞大的结构即可充分提取和学习丰富的特征信息，从而在降低计算复杂度的同时显著提升分类效能。

表4 不同模块的消融实验结果

Table 4 Ablation experiment results of different modules

基线网络	MSFF模块	HLFL模块	准确率/%	损失值	参数量/10⁶个	浮点运算量/10⁹次
√			96.1	0.375	28.00	3.7
√	√		97.6	0.217	28.84	5.3
√		√	97.2	0.274	25.62	3.1
√	√	√	98.6	0.133	28.11	4.2

新窗口打开| 下载CSV

在聚焦线性注意力机制中，参数 $α$ 用于调整高频与低频注意力头的分配比例（ $α$ 越大，低频注意力头占比越高）。分配比 $α$ 对MHLFNet模型性能的影响如图7所示。由图7可知，低频注意力头通过降采样有效地减少了键向量和值向量的计算复杂度，在较大分配比 $α$ 下可显著提升计算效率。然而，当 $α = 0$ 时，模型性能显著下降，这是因为此时模型仅依赖高频特征信息，缺乏对整体特征的建模能力，说明低频特征信息在注意力机制中具有较高的重要性。在不同的 $α$ 取值下，模型分类准确率的波动范围约为1个百分点，当 $α = 0.9$ 时，模型能够实现最佳的分类性能。虽然纯低频分支（ $α = 1$ ）可以在分类任务中取得较好的效果，但高频分支在捕捉精细的特征细节方面具有重要作用，尤其是在处理包含丰富语义信息和密集特征的TOFD焊缝缺陷图像时更为显著。因此，为实现全局特征与局部特征建模的有效权衡，选择 $α = 0.9$ 作为高、低频注意力头的分配比。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 分配比对MHLFNet模型性能的影响

Fig.7 Effect of allocation ratio on MHLFNet model performance

3.3　模型综合对比实验

为进一步验证MHLFNet模型的性能，选取几种典型的分类模型进行综合对比，各模型的分类准确率与计算性能参数的对比分别如图8(a)与图8(b)所示。从图8中不难发现，本文所提出的MHLFNet模型的分类准确率最高，达到了98.6%，这充分证明了其捕捉各类特征的卓越能力。值得注意的是，Transformer模型的分类性能普遍优于CNN模型，如Swin-Transformer（简称Swin-S）模型的分类准确率为96.1%，而ResNet34模型的分类准确率仅为93.5%。这一差距可归因于CNN过深的层次结构易导致梯度消失，进而削弱了网络的分类准确率。尽管ViT模型在精度上超越了CNN模型，但其高昂的参数量与浮点运算量是工程部署的重大阻碍。此外，ViT-Base模型因缺失局部信息提取能力，其分类准确率相较于MHLFNet模型下降了3个百分点。与传统CNN与Transformer的融合方法（如Swin-S模型）相比，MHLFNet模型不仅在分类精度上提升了2.5个百分点，而且在参数量上减少了91.1%，浮点运算量减少了85.9%，推理时间也缩短了69.1%。综上所述，可得以下结论：MHLFNet在大幅降低计算复杂度的同时，实现了识别精度的显著提升，验证了其高效性与实用性。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 不同模型的分类准确率和计算性能参数对比

Fig.8 Comparison of classification accuracy and computational performance parameters of different models

为直观呈现各模型对焊缝缺陷的分类效果，本文采用混淆矩阵对模型的分类性能进行量化分析，结果如图9所示。通过对比混淆矩阵可知，MHLFNet模型整体的识别精度最高，且不同缺陷类型的特征差异会对模型的识别精度产生显著影响。未熔合与裂纹在形态特征上存在显著差异（裂纹缺陷通常呈现细长且尖锐的形态，而未熔合缺陷的形状相对规则），这种鲜明的特征差异使得模型能够较为准确地区分这2种缺陷，从而实现了较高的识别精度。然而，气孔和夹渣在形态特征上具有一定的相似性，导致模型在识别这2种缺陷的过程中产生了一定程度的误识别，影响了模型整体的识别效果。此外，表面开口缺陷的衍射信号容易陷入检测死区，导致模型难以有效识别该类缺陷。

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 不同模型的混淆矩阵比较

Fig.9 Comparison of confusion matrices of different models

3.4　可视化实验

为深入探究MHLFNet模型在各阶段对焊缝缺陷特征的捕捉能力及其对关键信息的关注能力，在模型参数收敛后实施了特征图可视化实验，结果如图10所示（从上到下依次对应裂纹、未熔合、气孔、夹渣和表面开口缺陷）。图10展示了MHLFNet模型在Conv Block层、Stage1层、Stage2层、Stage3层和Stage4层上的特征图输出结果，这些特征图通过通道维度平均处理后直观呈现，特征图中的高亮区域清晰揭示了模型在各阶段关注的核心信息。

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 MHLFNet模型的特征图可视化结果

Fig.10 Visualization results of feature maps of MHLFNet model

从特征图可视化结果可以看出，MHLFNet的Conv Block层主要捕捉缺陷的纹理、边缘等基础特征，充分体现了初始卷积运算在获取缺陷基本语义信息方面的强大能力。进入Stage1阶段后，MHLFNet对关键特征区域的关注度显著提升，这表明该模型在此阶段已具备初步构建全局特征映射的能力。在Stage2阶段，MHLFNet提取的纹理和边缘特征逐渐模糊化、抽象化，其所学习的特征信息包含更深层次的全局语义内容，这标志着全局特征建模能力显著增强。在Stage3阶段，特征图进一步抽象化，纹理和轮廓特征趋于模糊，表明模型开始关注更本质、更高层次的语义信息。作为最终特征提取层，Stage4层的输出为高度抽象的全局语义信息，更多关注全局特征分布的整体态势，而非具体的缺陷位置和类别。这一特性表明MHLFNet在特征提取的深层阶段已实现从细节到语义的抽象过渡，完成了对全局信息的整合。综上，MHLFNet模型在特征提取的浅层阶段主要聚焦于基础特征，而在深层阶段逐步过渡到对抽象语义和全局特征的提取。实验结果不仅验证了MHLFNet模型设计的科学性和合理性，也充分体现了其在提取局部与全局特征方面的卓越性能，为模型在复杂缺陷分类中的应用提供了强有力的理论支持。

此外，深入理解深度学习模型所习得的判别性特征至关重要。为此，采用Grad-CAM（gradient-weighted class activation mapping，梯度加权类激活映射）技术^[28]进行分析。该技术能够生成类别激活的热力图，从而直观地展示各模型在识别缺陷时的注意力分布情况。从数据集中挑选5类缺陷样本，利用Grad-CAM技术对各模型的识别结果进行可视化展示，结果如图11所示。图中：红色高亮区域为模型重点关注的区域。通过比较各模型在不同类别缺陷上的可视化结果，观察到 ResNet34模型较为宽泛地关注图像的语义信息，包括图像的上下端部区域，但在处理气孔缺陷时，其提取的特征出现了偏差。相较于ResNet34的热力图颜色略显单一和平面化，基于ViT-Base的热力图的色彩稍显丰富且立体感更强，这反映了2个模型在特征提取能力和表达能力上的差异。此外，Swin-S和MobileViT-S模型在整体轮廓信息的呈现上相对模糊。对此进行深入分析，可能的原因如下：1）Swin-S采用窗口滑动机制，虽能够高效地捕捉跨尺度的特征信息，但在捕捉整体轮廓方面存在不足；2）MobileViT-S作为轻量化模型，在计算量和参数量上受到限制，同时在特征融合方面存在缺陷，导致特征信息提取不充分。相比之下，BiFormer-S通过引入双层路由注意力机制，对传统自注意力机制进行了改进，但在分支间的信息交互方面仍有待提升。与MHLFNet模型相比，BiFormer-S模型对裂纹和未熔合缺陷的信息提取不足，增大了误判风险。

图11

新窗口打开| 下载原图ZIP| 生成PPT

图11 不同模型的类激活热力图

Fig.11 Class activation heat maps of different models

4 结论

本文系统地分析了传统CNN与Transformer模型在TOFD焊缝缺陷识别任务中的优缺点。针对基于ViT的焊缝缺陷识别方法性能不佳以及MHSA机制计算冗余的问题，提出了一种新型的混合分类网络——MHLFNet。该模型融合了CNN的局部特征提取能力和Transformer的全局建模优势，可有效提升分类性能并降低计算复杂度。为满足工程实验需求，设计并制作了包含多种缺陷类型的钢板焊接试块，采用不同规格的探头进行了TOFD检测，构建了焊缝缺陷图像数据集。随后，基于该数据集开展了相关实验，以验证MHLFNet模型的性能。实验结果表明，MHLFNet在捕获图像局部和全局特征信息方面表现优异，同时可有效降低计算复杂度。与目前最先进的分类模型相比，MHLFNet在参数量和浮点运算数方面具有显著优势，尤其在识别裂纹和未熔合等高风险缺陷时，该模型表现出更高的分类准确性。然而，MHLFNet的整体规模相对较大，且模型中设置的可调分配比将高/低频特征划分为固定比例，这样单一设置的阈值难以适应多样化场景，增加了参数调优的复杂度。未来工作将进一步探索参数动态调整机制，即根据输入图像的特征动态调整分配比等。

本文所提出的焊缝缺陷识别方法具有较强的适用性与扩展性，可推广至相控阵超声检测、射线检测等领域，展现出良好的实用价值与工程意义。未来研究可进一步验证该方法在其他领域识别任务中的通用性，以扩展其在多领域工业检测中的应用潜力。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LIU

T Y

， ZHENG

， BAO

J S

Deep learning-based welding image recognition： a comprehensive review

［J］. Journal of Manufacturing Systems， 2023， 68： 601-625.