修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测

doi:10.3785/j.issn.1008-973X.2024.04.007

修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测

唐善成^,, 逯建辉, 张莹, 金子成, 赵安新

1. 西安科技大学通信与信息工程学院，陕西西安 710054

Unsupervised surface defect detection of magnetic tile for repair of suspected area defects

TANG Shancheng^,, LU Jianhui, ZHANG Ying, JIN Zicheng, ZHAO Anxin

1. College of Communication and Information Technology, Xi’an University of Science and Technology, Xi’an 710054, China

收稿日期: 2023-06-27

基金资助:

国家重点研发计划资助项目（2018YFC0808300）；陕西省科技计划重点产业创新链（群）项目（2020ZDLGY15-07）.

Received: 2023-06-27

Fund supported:

国家重点研发计划资助项目（2018YFC0808300）；陕西省科技计划重点产业创新链（群）项目（2020ZDLGY15-07）.

作者简介 About authors

唐善成（1975—），男，副教授，从事人工智能、深度学习及自然语言理解研究.orcid.org/0009-0000-8458-9657.E-mail：tangshancheng@xust.edu.cn , E-mail：tangshancheng@xust.edu.cn

摘要

磁瓦表面缺陷样本数量少，异常视觉特征分布发散，现有依赖目标特征的有监督检测方法不能有效检测未定义缺陷；磁瓦表面正常纹理呈非均匀且非周期性分布，使得经典重构网络难以准确地重构磁瓦表面正常特征，导致相关无监督检测方法性能低下. 为此，采用多头注意力增强的掩码图像修复网络(MIINet)，长距离提取图像特征，捕捉全局信息，增强图像修复的能力；引入视觉显著性算法抑制磁瓦表面纹理信息和突显缺陷区域，以便二值化算法精准分割缺陷嫌疑区域；利用MIINet修复待检测图像缺陷嫌疑区域，选用修复前后图像的残差图像和结构相似性实现缺陷检测与缺陷判定. 与经典无监督方法相比，修复缺陷嫌疑区域的表面缺陷检测方法的准确率提升了2.36%，F1值提升了1.62%.

关键词： 多头注意力 ; 磁瓦表面缺陷检测 ; 无监督学习 ; 图像修复 ; 视觉显著性

Abstract

The number of magnetic tiles with surface defects is limited, and abnormal visual features are diversely distributed. The existing supervised detection methods that rely on target features cannot effectively detect undefined defects. The non-uniform and non-periodic distribution of normal texture on the surface of magnetic tiles makes it difficult for classical reconstruction networks to accurately reconstruct the normal features, resulting in poor performance of related unsupervised detection methods. The multi-head attention-based masked image inpaint network (MIINet) was utilized to extract image features over long distances, capture global information and enhance the repair capability of images. The vision saliency algorithm was used to suppress the texture information of the magnetic tile surface and emphasize the defect area, enabling the binary value algorithm to accurately segment the suspected defect region. MIINet was utilized to repair the suspected defect region in the image. The residual image and structural similarity of the before and after repair images were selected to achieve defect detection and defect judgment. Compared with the classical unsupervised method, the accuracy of the proposed surface defect detection method for repairing the suspected defect area was increased by 2.36%, and the F1 value was increased by 1.62%.

Keywords： multi-head attention ; magnetic tile surface defect detection ; unsupervised learning ; image inpainting ; vision saliency

PDF (2238KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

唐善成, 逯建辉, 张莹, 金子成, 赵安新. 修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测. 浙江大学学报(工学版)[J], 2024, 58(4): 718-728 doi:10.3785/j.issn.1008-973X.2024.04.007

TANG Shancheng, LU Jianhui, ZHANG Ying, JIN Zicheng, ZHAO Anxin. Unsupervised surface defect detection of magnetic tile for repair of suspected area defects. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(4): 718-728 doi:10.3785/j.issn.1008-973X.2024.04.007

磁瓦作为永磁直流电机的重要组成元件，被广泛应用在永磁电机中. 受到生产工艺的影响，磁瓦表面容易形成漏洞、裂纹、漏角、起级、断块等缺陷，这些表面缺陷严重影响磁瓦寿命和性能. 随着工业生产的自动化，基于深度学习的表面缺陷检测在产品质量控制中发挥着越来越重要的作用，主要分为有监督学习和无监督学习检测方法.

一些学者利用不同有监督学习方法检测磁瓦表面缺陷. Huang等^[1]提出专门用于表面缺陷检测的显著性实时模型MCuePush U-Net，在磁瓦数据集上，能够从低对比度图像中准确检测出多个表面缺陷，有效地将单张图片的检测时间从0.50 s降低到0.07 s. Cui等^[2]提出的表面缺陷检测网络SDDNet快速准确，对微小缺陷的检测效果较好. Liu等^[3]将二元网络引入表面缺陷检测领域，提出利用低位宽的二进制卷积层和激活层的网络Bi-ShuffleNet和U-BiNet，并将所提网络串联后应用在MT和NEU数据集上，与BiRealNet、ReActNet-A模型相比，模型所需计算量(operations per second，OPs)最小，精度少量下降. Tang等^[4]提出融合高分辨率特征和多尺度特征的表面缺陷语义分割网络，该网络能够准确检测缺陷并精准定位缺陷边界. Ling等^[5]提出的基于多头自注意力和自监督学习(SSL-VIT)的磁瓦表面缺陷检测方法，可以准确定位一个或者多个缺陷，测试精度高达98.5%. 刘培勇等^[6]提出的基于卷积神经网络的磁瓦表面缺陷检测算法，在MT数据集上的检测精度达到99.90%. 卞佰成等^[7]改进YOLOv3主干网络，引入SPP模块和SE模块，提升了模型的检测能力. Hou等^[8]在YOLOv5s中引入Res-Head和Drop-CA，以增强不同层结构之间的特征融合，缓解了模型过于关注缺陷目标的问题. 以上方法虽然能够实现高精度检测，但是实际工况中通常磁瓦表面缺陷样本数量较少，而且异常视觉特征分布发散，现有依赖目标特征的有监督检测方法不能有效检测未定义缺陷^[9].

针对有监督方法的弊端，学者开展了无监督方法研究，主要使用自编码器^[10]和生成对抗网络^[11]2种类型的重构网络. Mi等^[12]在GAN的基础上加入注意力机制，使模型能够更好地理解全局信息. Guo等^[13]基于cycleGAN构建无监督小样本缺陷检测模型，该模型可以在未标记训练数据不到1/3的情况下获得高的检测精度和精准的缺陷曲线. Wei等^[14]基于GAN提出DCGAN的多级无监督织物缺陷检测方法，方法包含3个阶段：GAN训练、编码器训练和分类器训练，每个阶段采用单独的训练策略. 景海钊等^[15]提出基于密集残差块的GAN超分辨率重建方法，有效实现了空间目标AO图像的清晰化重建，降低了重建图像的伪影，丰富了图像细节. 唐善成等^[16]在VAE编解码器中融入注意力机制，增强了模型提取压敏电阻表面特征能力，实现了压敏电阻高精度检测. Wei等^[17]在AE和VAE编解码网络中引入平均结构相似度(MSSIM)作为网络训练损失函数，仅使用L-p距离损失函数进行图像亮度比较. Liu等^[18]基于AE编解码网络提出卷积自编码器网络(RCCAEN)，与标准自编码器(AE)相比，RCCAEN可以提高系统的实时性和恢复图像边缘的模糊性. 上述图像重建网络应用于表面纹理分布均匀且周期性的图像时的重建效果良好，应用于表面纹理分布呈现非均匀和非周期性特征的图像时的重建能力不足.

针对以上问题，本研究提出修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测方法. 该检测方法综合无监督检测方法只需要无缺陷样本的优点，能够解决磁瓦表面缺陷数据量少、异常视觉特征发散的问题，可以减少对人工标注数据样本的依赖.为了解决传统图像重构网络无法长距离分析图像特征的问题，引入多头注意力机制构建图像修复模型，提升模型修复图像表面纹理细节的能力. 通过实验证明所提检测方法的可行性与有效性.

1. 修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测

修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测框架如图1所示，包括无缺陷磁瓦表面特征提取、缺陷嫌疑区域定位、磁瓦表面缺陷检测3个阶段. 1）无缺陷磁瓦表面特征提取：掩码图像修复网络(masked image inpaint network，MIINet)训练阶段输入为无缺陷图像. 首先将输入图像分割成指定大小的图像块；再随机生成掩码图像，根据掩码区域移除输入图像中对应位置的图像块，得到输入图像；然后将输入图像输入编码器进行编码，并在编码特征向量中嵌入共享特征向量，输入解码器预测被移除图像块；最后以修复图像与标签图像之间的均方误差值作为模型损失. 2）缺陷嫌疑区域定位：任意图像具备显著性特征，磁瓦图像缺陷区域显著性尤为突出. 首先利用显著性算法分析磁瓦图像表面特征信息，得到显著特征图；然后使用二值化对显著特征图进行阈值分割，确定缺陷嫌疑区域；最后对缺陷嫌疑区域进行分块定位. 3）磁瓦表面缺陷检测：首先向模型输入无缺陷图像，得到修复图像，修复前后图像相减，得到差分图像；再基于$3\sigma $准则处理差分图像，得到判定阈值(区分有无缺陷)；然后将待检测图像输入模型，利用MIINet修复待检测图像中缺陷嫌疑区域对应的掩码位置；依据判定阈值辨别差分图像是否包含缺陷，分离无缺陷图像与有缺陷图像；最后对有缺陷图像使用区域结构相似性比对完成缺陷区域定位.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测

Fig.1 Unsupervised surface defect detection of magnetic tile for repair of suspected area defects

1.1. 无缺陷磁瓦表面特征提取

MIINet的结构如图2所示. 首先通过块嵌入层将输入图像分割为196块同等大小的图像块，并将二维图像块展平为一维特征向量；然后随机丢弃固定比例特征向量，并在保留的特征向量中嵌入类别编码和位置编码，通过依赖多头注意力机制的编码器，长距离捕获不同维度下的图像特征，加权融合得到图像本质特征隐向量${\boldsymbol{Z}}$；最后在${\boldsymbol{Z}}$中插入共享特征向量，输入至解码器预测缺失的特征向量，使用均方误差值作为损失约束迫使模型收敛. MIINet包括掩码模块、块嵌入层、编码模块、解码模块、损失模块.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 掩码图像修复网络的结构

Fig.2 Structure of masked image inpaint network

1.1.1. 掩码策略

首先模型会随机生成一张掩码图像，掩码比率为75%^[19]，该掩码比率能够获得最佳的模型训练效果；然后将输入图像分割成规则的非重叠图像块；最后根据掩码区域移除输入图像中对应位置的图像块. 这种随机掩码的训练方式可以让重建任务多样化，有效增强模型的重构能力.

1.1.2. 块嵌入层

通过降维函数Flatten展平$ {\boldsymbol{x}} \in {{{\bf{R}}}^{{H} \times {W} \times {C}}} $的图像为${{\boldsymbol{x}}_{\mathrm{p}}} \in {{{\bf{R}}}^{{N} \times ({{P}^{2}} \times {C})}}$一维序列，其中$N = H \times W/P$为一维序列的个数，H=W=224分别为图像的长和宽，${P^2} = 256$为序列的像素大小，$C = 3$为通道数，因此${P^2} \times C$为每个序列的维度，对序列$ \left\{ {{\boldsymbol{x}}_{\mathrm{p}}^i} \right\}_{i = 1}^N $进行线性变换${\boldsymbol{E}} \in {{\bf{R}}^{({{\boldsymbol{p}}^2} \times {\boldsymbol{C}}) \times {\boldsymbol{D}}}} $，D为变换后维度，表示为

(1)$ {{\boldsymbol{Z}}_0} = \left[ {{\boldsymbol{x}}_{\mathrm{p}}^1{\boldsymbol{E}},{\boldsymbol{x}}_{\mathrm{p}}^2{\boldsymbol{E}},\cdots,{\boldsymbol{x}}_{\mathrm{p}}^N{\boldsymbol{E}}} \right] . $

随机生成掩码图像，根据掩码区域移除${\boldsymbol{Z}}_0^{}$中对应位置特征向量；再通过拼接函数Concat添加1个可学习的类别编码$ {{\boldsymbol{x}}_{{\mathrm{cls}}}} $，用于代表图像经过编码后的全局特征，表示为

(2)$ {{\boldsymbol{Z}}_1} = [{\boldsymbol{x}}_{{\mathrm{cls}}},{\boldsymbol{x}}_{\mathrm{p}}^1{\boldsymbol{E}},{\boldsymbol{x}}_{\mathrm{p}}^2{\boldsymbol{E}},{\boldsymbol{x}}_{\mathrm{p}}^3{\boldsymbol{E}}, \cdots ,{\boldsymbol{x}}_{\mathrm{p}}^{50}{\boldsymbol{E}}] . $

嵌入位置编码$ {{\boldsymbol{E}}_{{{\mathrm{pos}}}}} $，得到待编码向量

(3)$ {{\boldsymbol{Z}}_2} = [{\boldsymbol{x}}_{{\mathrm{cls}}},{\boldsymbol{x}}_{\mathrm{p}}^1{\boldsymbol{E}},{\boldsymbol{x}}_{\mathrm{p}}^2{\boldsymbol{E}},{\boldsymbol{x}}_{\mathrm{p}}^3{\boldsymbol{E}}, \cdots ,{\boldsymbol{x}}_{\mathrm{p}}^{50}{\boldsymbol{E}}]+{\boldsymbol{E}}_{{\mathrm{pos}}} . $

${\boldsymbol{E}}_{{\mathrm{pos}}}$使用相同的固定位置编码，即使用不同频率的正弦和余弦函数表示：

(4)$ {E}_{(\text{pos},2i)}^{}\text=\mathrm{sin}\left(\frac{\text{pos}}{{\text{10\;000}}^{\text{2}i{/d}}}\right) , $

(5)$ {E}_{(\text{pos},2i\text{+1})}\text{=cos}\left(\frac{\text{pos}}{{\text{10\;000}}^{\text{2}i{/d}}}\right) . $

式中：${\mathrm{pos}}$为图像块在图像中的位置，$d$为${{\boldsymbol{x}}_{\mathrm{p}}}$的维度.

1.1.3. 编码器

编码器由交替的多头注意力机制^[20-21]层和多层感知机层组成，每层之间通过层归一化和残差连接进行连接. 多头注意力机制是自注意力机制的变体，通过计算输入序列中每个像素与其他像素的关联性来降低模型对无关信息的依赖，从而捕捉更精确、更丰富的特征信息. 多头注意力机制可以从多个维度计算输入向量注意力特征并加权融合，得到更准确、更深层次的无缺陷磁瓦表面图像特征. 具体步骤如下：1）对输入向量$ {\boldsymbol{Z}}_2 $进行h次线性变换，得到h个不同维度下的子向量：

(6)$ {{\boldsymbol{Q}}}_i = {{\boldsymbol{Z}}}_2{{\boldsymbol{W}}}_i^{\boldsymbol{Q}},\;{{\boldsymbol{K}}}_i = {{\boldsymbol{Z}}}_2{{\boldsymbol{W}}}_i^{\boldsymbol{K}},\;{{\boldsymbol{V}}}_i = {{\boldsymbol{Z}}}_2{{\boldsymbol{W}}}_i^{\boldsymbol{V}} . $

式中：$i$为第$i$个自注意力头，$ {{\boldsymbol{W}}}_i^{\boldsymbol{Q}} $、$ {{\boldsymbol{W}}}_i^{\boldsymbol{K}} $和$ {{\boldsymbol{W}}}_i^{\boldsymbol{V}} $为随机权重矩阵，${{\boldsymbol{Q}}}_i^{}$、${{\boldsymbol{K}}}_i^{}$、${{\boldsymbol{V}}}_i^{}$分别为线性映射下的查询序列、键序列和值序列. 2）计算Q和K之间的点积相似度B，以分析全部像素特征之间的相互联系，强化有关信息，抑制无关信息.

(7)$ {{\boldsymbol{B}}} = {\text{Attention}}\; \left( {{{\boldsymbol{Q}}},{{\boldsymbol{K}}},{{\boldsymbol{V}}}} \right) = {{\boldsymbol{V}}} \times {\text{softmax}}\left( {\frac{{{{{\boldsymbol{K}}}^{\mathrm{T}}} \times {{\boldsymbol{Q}}}}}{{\sqrt {{d_{\mathrm{k}}}} }}} \right) . $

式中：${\mathrm{Attention}}( \cdot ) $为自注意力机制函数，${\mathrm{softmax}}( \cdot ) $为激活函数，${d_{\mathrm{K}}} $为${\boldsymbol{K}} $的维度. 3）对步骤2）进行h次计算，每次计算称为1个“头”. 这个过程可以从多个不同维度的子空间，提取不同的图像特征，

(8)$ {\text{head}}_i^{} = {\text{Attention}}\;({{\boldsymbol{QW}}}_i^{\boldsymbol{Q}},{{\boldsymbol{KW}}}_i^{\boldsymbol{K}},{{\boldsymbol{VW}}}_i^{\boldsymbol{V}}). $

每次$ {{\boldsymbol{Q}}}、{{\boldsymbol{K}}}、{{\boldsymbol{V}}} $进行线性变换的参数W均不同. 4）融合提取到的各个不同的子空间特征，得到全面的图像特征.

(9)$ \begin{split} {{\boldsymbol{Z}}} = &{\text{MultiHead}}\;({{\boldsymbol{Q}}},{{\boldsymbol{K}}},{{\boldsymbol{V}}}) \\ = &{\text{Concat}}\;({\mathrm{head}}_0^{},{\mathrm{head}}_1^{}, \cdots ,{\mathrm{head}}_h^{}){{\boldsymbol{W}}}^0 .\end{split} $

式中：${\mathrm{MultiHead}}( \cdot ) $为多头注意力机制函数. 多层感知机是前馈神经网络，作用是将输入序列映射为固定长度的向量. 这种向量可以被送入注意力机制进一步计算和处理，以提高模型的表达能力和性能. 多层感知机还能够捕捉输入向量的局部特征和全局特征关系，进一步提高模型性能.

1.1.4. 解码器

在对编码器输出向量进行一系列处理后，输入解码器预测被丢弃特征向量，得到输出图像，具体流程如下. 1）通过线性层对输入数据进行维度转换，表示为

(10)$ {\boldsymbol{y}} = {\boldsymbol{x}}{{\boldsymbol{A}}^{\mathrm{T}}}+{\boldsymbol{B}} . $

式中：$ {\boldsymbol{A}} $为512×1024维权重矩阵，$ {\boldsymbol{B}} $为偏执变量. 2）向转换后的向量矩阵中添加嵌入位置编码的共享特征向量，以代替被移除的图像块，为模型提供可预测的区域. 3）将获得的向量矩阵输入一系列Transformer块，以预测被移除图像块. 解码器计算过程与编码器相似. 4）通过归一化(layer normalization，LN)层对解码器输出结果进行归一化. 5）通过线性层对步骤4）输出结果进行维度转换. 6）将嵌入的位置编码移除，得到输出图像.

1.1.5. 模型损失

MIINet训练中的损失函数${L_{\overline {\boldsymbol{X}},{{{\boldsymbol{X}}}}}}$ 为输入图像与修复图像的均方误差值，表达式为

(11)$ {L_{{ { {\overline{{\boldsymbol{X}}}}}},{\boldsymbol{X}}} }= {\left\| { {{\overline{{\boldsymbol{X}}}}}}- {\boldsymbol{X}} \right\|^2} . $

式中：$ \overline {\boldsymbol{X}} $为输入图像，$ {\boldsymbol{X}} $为修复图像.

1.2. 缺陷嫌疑区域定位

1.2.1. 视觉显著性特征分析

鉴于磁瓦表面复杂的纹理信息，采用基于空间尺度差异显著性^[22]算法从多个尺度分析图像特征信息，获得不同尺度图像之间的像素关系，平衡不同尺度图像的权重，抑制纹理信息的显著特征，突显缺陷区域显著特征. 算法流程如下：1）使用2次3×3窗口的高斯滤波器，平滑原始磁瓦图像，得到灰度图像$ I $. 2）根据灰度图像$ I $计算积分图像$O $，

(12)$ O(r,c) = \sum\limits_{r' \leqslant r ,\;c' \leqslant c} {I(r',\;c')} . $

给定任何矩形区域(对角顶点为${P_1} = ({r_1},{c_1}) $，${P_2} = ({r_2}, {c_2}) $的和${S_{{\mathrm{rect}}}} $都可以用积分图像O计算得到.

(13)$ \begin{split} {S_{{\mathrm{rect}}}}(r_1^{},c_1^{},r_2^{},c_2^{}) =& O(r_2^{},c_2^{}) - O(r_1^{},c_2^{}) - \\&O(r_2^{},c_1^{}) + O(r_1^{},c_1^{}){\rm{ }}.\end{split} $

3）利用中心-周围方法计算12个多尺寸显著特征图. 具体计算步骤为a)计算全部矩形窗口尺寸,

(14)$ \xi = \sigma 2_{}^s . $

式中：$\xi $为窗口尺寸，s∈{2, 3, 4}，σ∈{3, 7}. b)计算中心和周围显著特征值，

(15)$ {F_{{\mathrm{sur}}}} = \frac{{{S_{{\mathrm{rect}}}}(r - \xi ,r + \xi ,c - \xi ,c + \xi ) - I(r,c)}}{{{{(2\xi + 1)}^2} + 1}}, $

(16)$ {F_{{\mathrm{cen}}}}(r,c) = I(r,c). $

c)依次计算每个显著特征图的每个像素，

(17)$ {\rm{Int}}_{{\rm{on}},\xi }^{}(r,c) = \max \;\{ {F_{{\mathrm{cen}}}}(r,c) - {F_{{\mathrm{sur}}}}(r,c,\xi ),\;0\} , $

(18)$ {\rm{Int}}_{{\rm{off}},\xi }^{}(r,c) = \max \;\{ {F_{{\mathrm{sur}}}}(r,c,\xi ) - {F_{{\mathrm{cen}}}}(r,c),\;0\} . $

式中：$\xi $∈{12, 24, 28, 48, 56, 112}为矩形窗口，$ {\rm{In}}{{\rm{t}}_{{\rm{on}}}}_{,\xi } $、$ {\rm{In}}{{\rm{t}}_{{\rm{off}}}}_{,\xi } $分别表示内中心差和外中心差. 4）显著特征图合成：逐个像素对6个内中心显著特征图进行求和，得到内中心显著特征图；以相同的方式生成外中心显著特征图；融合内中心和外中心显著特征图得到最终的显著特征图.

(19)$ {\text{In}}{{\text{t}}_{{\text{on}}}}{\text{ = }}\sum\limits_\xi {{\text{In}}{{\text{t}}_{{\text{on},\xi}}}} , $

(20)$ {\text{In}}{{\text{t}}_{{\text{off}}}}{\text{ = }}\sum\limits_\xi {{\text{In}}{{\text{t}}_{{\text{off}},\xi}}} . $

1.2.2. 缺陷嫌疑区域确定

在磁瓦图像中，无缺陷区域也存在显著特征. 为了消除这些特征，对无缺陷图像的显著特征值进行统计分析，得到其分布区间；再采用阈值分割的方法来消除这些信息. 如图3所示，统计无缺陷显著特征图的像素分布情况，得到其像素分布柱状图，表示为

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 无缺陷磁瓦显著特征分析

Fig.3 Analysis of saliency characteristics of defect-free magnetic tiles

(21)$ H(k) = {n_k} ; \; k = 0,1, \cdots ,L - 1. $

式中：$ k $为图像的灰度像素值，$ L $为灰度像素值的个数，$n_k^{}$为图像中灰度像素值为$ k $的像素个数. 可以看出，在无缺陷磁瓦图像分析得到的显著特征图中主体像素主要分布在$ k $=0~100. 因此，采用固定阈值100来消除显著特征图的背景信息. 对显著特征图进行固定阈值二值化操作，将像素值大于100的像素点赋值为255，将像素值小于100的像素点赋值为0，从而分割缺陷嫌疑区域. 对缺陷嫌疑区域进行分块定位. 将缺陷嫌疑区域图分为16×16图像块，对每一块进行赋值，得到MIINet掩码图像，计算式为

(22)$ p_i^{}{\rm{(}}{r}{\rm{,}}{c}{\rm{) = }}\Biggl\{ {\begin{array}{l}{{ \rm{255, }} \;\; \sum\limits {p_i^{}{\rm{(}}{r}{\rm{,}}{c}{\rm{)}} \ne 0;} }\\{{ \rm{0, }} \;\;\;\;\;\;\; \sum\limits {p_i^{}{\rm{(}}{r}{\rm{,}}{c}{\rm{)}} = 0 .} }\end{array}} $

式中：${p_i}(r,c) $为第i个图像块，$i = 1,2, \cdots, 196 $.

1.3. 磁瓦表面缺陷检测

1.3.1. 磁瓦表面缺陷检测流程

磁瓦表面缺陷检测流程如图4所示，具体检测流程如下. 1）将待检测图像分为16×16的图像块，根据掩码图像移除待检图像中被掩蔽的图像块(包括嫌疑缺陷)；2）将步骤1）得到的结果输入MIINet，修复缺陷嫌疑区域，得到修复图像；3）将待检测图像与修复图像进行“减”操作，得到差分图像；4）对差分图像进行形态学处理，滤除图像中的小噪点；5）对步骤4）得到的结果进行阈值判断. 若结果为无缺陷图像，则输出检测结果；若结果为有缺陷图像，则进一步判定缺陷区域并输出检测结果.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 磁瓦表面缺陷检测流程

Fig.4 Surface defect detection process of magnetic tile

1.3.2. 磁瓦表面缺陷检测

“减”操作的表达式为

(23)$ \Delta {{X}}(r,c) = \left\{ {\begin{array}{l}{ |{{{X}}}(r,c) - \overline {{{X}}} (r,c)|,\;{\rm{ }}{{{{X}}}_{\rm{V}}}{\rm{(}}r,c{\rm{)}} \ne {\rm{0;}}}\\{ 0,{\rm{\quad\quad\quad\quad\quad\quad }}\;{{{{X}}}_{\rm{V}}}{\rm{(}}r,c{\rm{)}} = {\rm{0 }}{\rm{.}}}\end{array}} \right. $

式中：$\Delta {{X}}(r,c) $为“减”操作后的结果，即差分图像；${{X}}(r,c) $、$\overline {{X}} (r,c) $和${{{X}}_{\mathrm{V}}}(r,c) $分别为原始图像、修复图像和缺陷嫌疑区域图像中第r行第c列的像素值，其中$r = 0,1, \cdots, 223 $；$c = 0,1, \cdots, 223 $. 将MIINet修复前后图像进行“减”操作，结果如图5所示，其中3D图像z轴为2D图像灰度像素值，x、y轴为像素点位置坐标. 在无缺陷图像中，MIINet修复前后图像之间存在微小像素差异；在有缺陷图像中，存在较大的像素差异. 提取差分图像最高灰度像素值$ {P_{{\text{max}}}} $，作为判别待检测图像是否包含缺陷区域的标准：

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 磁瓦修复前后的差分图像

Fig.5 Differential image before and after magnetic tile repair

(24)$ P_{\max }^{}{\text{ = }}\max \;\{ P{\text{(0,\;0),\;}}P{\text{(0,\;1),}} \cdots ,P(223,\;223){\text{\} }} . $

式中：$P(0,0)$为第0行第0列灰度像素值. 采用$3\sigma $准则对无缺陷磁瓦图像进行统计分析，并选取判定阈值(用于区分有无缺陷). 本研究选择的判定阈值为

(25)$ T = \mu +\beta \times \sigma . $

式中：$\; \mu $为图像的均值；$\sigma $为图像的标准差；$\;\beta $为标准差$\sigma $的系数，取$\;\beta $=3；$T$为阈值.

1.3.3. 缺陷区域判定

如图6所示，为了消除差分图像中残留的非缺陷区域，并确定缺陷区域的轮廓，对差分图像进行进一步检测，算法具体流程如下. 1）对比待检测图像与修复图像结构相似度，得到结构相似度热力图，热力图中灰度像素值越高，图像结构相似度越低，计算式为

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 缺陷区域判定流程图

Fig.6 Flow chart of defect area determination

(26)$ {\mathrm{SSIM}}({{\boldsymbol{X}}},\overline {{\boldsymbol{X}}} ) = \frac{{(2{\mu _X}{\mu _{\overline X }} + {C_1})(2{\sigma _{X\overline X }} + {C_2})}}{{(\mu _X^2 + \mu _{\overline X }^2 + C_1^{})(\sigma _X^2 + \sigma _{\overline X }^2 + C_2^{})}}. $

式中：${\mu _X} $为X各元素的均值；${\mu _{\overline {\boldsymbol{X}} }} $为$\overline {\boldsymbol{X}} $各元素的均值；$\sigma _X^2 $为X各元素的方差；$\sigma _{\overline X }^2 $为$\overline {\boldsymbol{X}} $各元素的方差；${\sigma _{X\overline X }} $为X和$\overline {\boldsymbol{X}} $各元素的协方差；${C_1} = {({k_1}L)^2}$、${C_2} = {({k_2}L)^2}$均为稳定常数，避免分母为0时系统错误，其中L为像素动态取值范围，${k_1} = 0.01$、${k_2} = 0.03$. 2）对差分图像进行开运算，消除背景信息中的细小噪点. 3）融合步骤1)、2)得到的结果图，在结构相似度热力图中去除非缺陷嫌疑区域灰度像素值. 4）对缺陷嫌疑区域热力图逐像素计算区域像素均值，增加缺陷区域与非缺陷区域对比度. 计算式为

(27)$ P_{{\mathrm{mor}}}^{}(r,c) = \sum\limits_{r - m}^{r + m} {\sum\limits_{c - m}^{c + m} {{P_{\mathrm{S}}}(r,c)} } . $

式中：${P_{{\mathrm{mor}}}}\left( {r,c} \right) $为滤波图像第r行第c列的像素值，${{P_{\mathrm{S}}}(r,c)} $为潜在缺陷结构相似度图第r行第c列的像素值，$ m $为缺陷嫌疑区域热力图中非零像素个数的一半. 5）在步骤4）结果图中提取前10个灰度像素值. 6）寻找步骤2）结果图中所有区域轮廓. 7）依据步骤5）提取的10个灰度像素值对应位置坐标，在步骤6）结果图中定位缺陷区域轮廓，得到最终的缺陷轮廓.

2. 实验结果与分析

2.1. 实验环境

处理器为64位Win10、Intel(R) Core(TM) i9-12900H@2.50 GHz，CPU为NVIDIA GeForce RTX 2080 Laptop. 试验平台为python 3.7，CUDA Toolkit 11.6，OpenCV 1.6.0.

2.2. 实验数据

实验数据集为中科院自动化所公开的磁瓦数据集(magnetic tile dataset，MTD)，包含6种类型的磁瓦图像，共计1 344张. 为了满足MIINet所需图片尺寸，将MTD的图像裁剪成224×224的统一尺寸，实验数据集各类别图片数目如表1所示. 其中${n_0}$为原始数据量，${n_{\mathrm{e}}}$为实验数据量. 在3 324张Free类型(无缺陷)图像中随机选取2 000张，分别进行90°、180°和270°的旋转，以及上下翻转和左右翻转操作，得到的24 000张图像作为MIINet的训练集；剩余的1 324张Free类型图像和其他类型的图像作为MIINet的测试集.

表 1 磁瓦数据集参数

Tab.1 Parameters of magnetic tile dataset

类别	${n_0}$	${n_{\mathrm{e}}}$	类别	${n_0}$	${n_{\mathrm{e}}}$
Blow hole	115	122	Fray	32	68
Break	85	98	Uneven	103	—
Crack	57	75	Free	952	3 324

新窗口打开| 下载CSV

2.3. 实验结果

2.3.1. 磁瓦重建结果对比实验

在无监督缺陷检测模型中，重建能力是直接影响检测结果的关键因素. 检测模型的重建能力主要表现在修复待检测磁瓦图像的缺陷区域和保持无缺陷区域的图像细节能力方面. 使用相同数据集训练DCGAN、DCAE以及GAN+DA^[23]，为了让这3种方法在磁瓦数据集上达到最优的效果，统一迭代次数为1 000次，确保模型损失收敛；为了比较DCGAN、DCAE以及GAN+DA和MIINet的重建能力，选择5种不同类型的磁瓦样本进行定性分析. 如图7所示为磁瓦重建实验结果，其中列1、2分别是原始图像和对应的正确缺陷区域(ground truth，GT). 可以看出，DCAE和DCGAN的重建结果中都存在明显的缺陷残留痕迹，特别是DCGAN无缺陷区域的纹理细节在视觉上明显丢失严重；GAN+DA几乎能够完全修复如Blowhole、Break的小面积缺陷，而对于如Break、Fray的大面积缺陷，重建图像中存在明显缺陷残留，并且重建图像中纹理细节丢失严重. MIINet的重建结果中没有缺陷残留痕迹，并且缺陷区域与非缺陷区域衔接融洽. 实验结果表明，所提图像修复网络具有高质量的缺陷区域修复能力，为后续的缺陷检测工作奠定了基础.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同检测模型的磁瓦重建结果

Fig.7 Magnetic tile reconstruction results of different detection models

DCAE和DCGAN通常用于均匀、周期性的规则纹理表面缺陷检测，难以处理磁瓦表面正常纹理呈现的非均匀且非周期性的特征. 此外， DCAE和DCGAN的感受野较小，只能对输入图像进行简单的映射变换，因此训练后的模型无法提取无缺陷图像本质的纹理信息，容易生成与原始图像高度相似的重建图像. GAN+DA通过引入双头注意力机制，增强了GAN模型捕获无缺陷图像数据特征的能力，但是重建图像中无缺陷区域的细节在视觉上丢失严重. 与上述模型相比，MIINet具有捕获磁瓦图像本质信息的能力，能够将缺陷特征修复为正常特征，因此在磁瓦图像的重建和修复效果最佳.

2.3.2. 缺陷嫌疑区域定位精准性实验

为了验证缺陷嫌疑区域定位的精准性，在5种磁瓦类别上进行测试，缺陷嫌疑区域定位结果如图8所示. 可以看出，显著特征图不仅有效突出了缺陷特征区域，而且分析得到的缺陷区域轮廓清晰；二值化算法分割得到的缺陷嫌疑区域不仅保留了相对完整的缺陷特征，而且有效消除了背景信息；MIINet掩码能够精准定位缺陷区域，完全遮掩缺陷区域. 由5种磁瓦类别的实验验证可以得出结论：采用视觉显著性和二值化算法定位缺陷嫌疑区域方面具有较高的准确性，有助于提高图像修复能力和缺陷检测的准确率.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 不同方法的缺陷嫌疑区域定位结果

Fig.8 Localization results of suspected defect area for different methods

2.3.3. 缺陷判定准确性实验

为了验证模型对不同缺陷类型定位的准确性和对轮廓检测的完整性，检测4种缺陷类型，缺陷判定结果如图9所示. 可以看出，所提方法不仅可以准确地定位缺陷的位置，而且能够比较完整地检测到缺陷区域轮廓. 综合来看，所提方法具有辨别缺陷区域与非缺陷区域的能力.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 MIINet对不同缺陷类型的判定结果

Fig.9 Verdict results of different defects by MIINet

2.4. 缺陷检测性能评估

为了评估所提检测模型的性能，将所提修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测方法与经典图像重建网络DCGAN、DCAE和3种具有代表性的磁瓦表面缺陷检测方法^[23-25]进行比较. Li等^[23]采用无监督检测方法，其训练集中均为无缺陷样本；Liu等^[24-25]提出弱监督检测方法，训练集中加入少量的缺陷图像. 实验均使用MTD数据集，将准确率Acc、F1值、受试者工作特性曲线ROC和ROC下的面积AUC作为评价指标.

(28)$ {\mathrm{Acc}} = \frac{{{\mathrm{TP}}+{\mathrm{TN}}}}{{{\mathrm{TP}}+{\mathrm{TN}}+{\mathrm{FP}}+{\mathrm{FN}}}} \times 100{\text{%}} , $

(29)$ {\mathrm{F}}1 = \frac{{2 \times {\mathrm{TP}}}}{{2 \times {\mathrm{TP}}+{\mathrm{FP}}+{\mathrm{FN}}}} \times 100{\text{%}} . $

式中：${\mathrm{TP}}$为无缺陷样本检测正确的数量，${\mathrm{FN}}$为缺陷样本检测错误的数量，${\mathrm{FP}}$为无缺陷样本检测错误的数量，${\mathrm{TN}}$为无缺陷样本检测正确的数量. AUC值为ROC与其横轴之间的面积，ROC的横轴为假阳率${\mathrm{FPR}}$，纵轴为真阳率${\mathrm{TPR}}$.

(30)$ {\mathrm{TPR}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}} , $

(31)$ {\mathrm{FPR}} = \frac{{{\mathrm{FP}}}}{{{\mathrm{FP}}+{\mathrm{TN}}}} . $

在已有的实验环境下，构建修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测方法，利用测试集进行实验，结果如图10所示. 图中，p_g为MIINet修复前后图像做“减”操作得到差分图像中的最高灰度像素值. 实际阈值T=31.574 853，由式（25）计算得到. 在相同实验环境下，采用相同数据集训练文献[23]~[25]所提模型，迭代次数统一为1 000次，以确保模型损失达到稳定状态. 利用同一测试集进行实验，实验结果如图11和表2所示. 从检测精度和ROC来看，所提方法较其他5种检测方法的检测效果更好，检测准确率Acc至少提高了2.36个百分点，F1值至少提高了1.62个百分点，AUC至少提高了0.84个百分点. 模型检测精度是间接反映模型将异常视觉特征修复为正常特征能力的参数，所提方法在磁瓦数据集上拥有较高检测精度，更符合工业生产线对可靠性的要求.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 磁瓦表面缺陷检测结果

Fig.10 Magnet tile surface defect detection results

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 6种检测方法受试者工作特供曲线比较

Fig.11 Comparison of receiver operating characteristic curves for six detection methods

表 2 6种检测方法的检测精度比较

Tab.2 Comparison of detection accuracy for six detection methods

方法	Acc/%	F1/%	AUC/%
DCAE	69.28	63.33	64.63
DCGAN	79.12	71.05	70.55
文献[23]	89.07	92.77	83.83
文献[24]	90.05	93.81	89.06
文献[25]	94.51	96.31	95.04
本研究	96.87	97.93	95.88

新窗口打开| 下载CSV

2.5. 模型失效实验

本研究模型在MTD数据集上整体表现良好，但在部分图像上失效，例样本检测过程如表3所示，其中N_F为修复失效的图片数量. 主要失效原因如下. 类型1：在修复图像时，模型难以对与异常视觉特征相似的表面纹理进行高质量修复，图片共计25张. 类型2：在定位缺陷嫌疑区域时，算法不能对与正常特征对比度低的缺陷特征区域进行精准遮掩，图片共计23张. 类型3：在判定缺陷区域时，算法难以准确判定与正常纹理重合的缺陷区域，图片共计8张. 未来研究可以进一步优化和提升磁瓦表面缺陷检测中类型1、2的有效性，以提高模型的稳定性.

表 3 本研究部分模型失效样本检测过程

Tab.3 Failure sample detection process of proposed model

失效类型	输入图像	缺陷嫌疑区域	修复图像	检测结果	期待结果	判定结果	GT	N_F
1				有缺陷	无缺陷			25
1				有缺陷	无缺陷			25
2				无缺陷	有缺陷			23
2				无缺陷	有缺陷			23
3				有缺陷	有缺陷			8
3				有缺陷	有缺陷			8

新窗口打开| 下载CSV

3. 结　论

(1)提出新的图像修复网络MIINet，引入多头注意力机制，长距离分析图像特征，充分学习修复不规则纹理所需表面特征信息. MIINet使用无缺陷图像进行训练，通过掩码遮蔽的方式修复有缺陷图像的缺陷区域，得到无缺陷图像利用判别阈值和SSIM，对修复前后的差分图像进行缺陷检测和缺陷区域判定.

(2)为了使模型能够精准修复有缺陷图像中的缺陷区域，构建缺陷嫌疑区域定位方法. 将原始图像经过视觉显著性分析，得到显著特征图；利用二值化算法消除显著特征图的背景信息，确定缺陷嫌疑区域；将缺陷嫌疑区域结果图转化为MIINet掩码，为MIINet提供目标修复区域.

(3)实验结果表明，修复缺陷嫌疑区域的无监督磁瓦表面缺陷检测方法具有将异常视觉特征转化为正常特征的能力，缺陷检测准确率、F1值和AUC值分别为96.87%、97.93%、95.88%. 与经典磁瓦表面缺陷检测方法进行相比，该方法解决了磁瓦缺陷样本数量少和缺陷类型不确定的问题，检测效果更好.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HUANG Y, QIU C, YUAN K

Surface defect saliency of magnetic tile

[J]. Visual Computer, 2020, 36: 85- 96

DOI:10.1007/s00371-018-1588-5 [本文引用: 1]

[2]

CUI L, TIANG X, XU M, et al

SDDNet: a fast and accurate network for surface defect detection

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 2505713