浙江大学学报(工学版), 2025, 59(12): 2566-2575 doi: 10.3785/j.issn.1008-973X.2025.12.011

计算机技术

基于异常特征对抗学习的工业图像异常检测方法

王天飞,, 周文俊,, 项圣, 贺宇航, 彭博

1. 西南石油大学 计算机与软件学院,四川 成都 610500

2. 浙江工业大学 信息工程学院,浙江 杭州 310023

Industrial image anomaly detection method based on adversarial learning of abnormal features

WANG Tianfei,, ZHOU Wenjun,, XIANG Sheng, HE Yuhang, PENG Bo

1. School of Computer Science and Software Engineering, Southwest Petroleum University, Chengdu 610500, China

2. School of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

通讯作者: 周文俊,男,讲师,硕导. orcid.org/0000-0001-5357-9237. E-mail:zhouwenjun@swpu.edu.cn

收稿日期: 2024-12-18  

基金资助: 四川省自然科学基金资助项目(2023NSFSC0504).

Received: 2024-12-18  

Fund supported: 四川省自然科学基金资助项目(2023NSFSC0504).

作者简介 About authors

王天飞(2000—),男,硕士生,从事图像异常检测研究.orcid.org/0009-0007-0187-2723.E-mail:tianfeifeiwang@outlook.com , E-mail:tianfeifeiwang@outlook.com

摘要

为了解决工业图像异常检测中遇到的异常样本稀缺、标注过程复杂及深度模型计算开销大的问题,提出新的异常检测方法EDA. 该方法分为2个阶段. 1)异常学习和嵌入阶段,采用生成式对抗网络(GAN)架构来学习异常特征,通过缩减生成器参数量以保证网络轻量化,引入亚像素卷积以增强异常信息,随后在正常图像中随机选择区域,通过SAM (segment anything)模型进行区域的细化处理,在细化处理后的区域生成异常信息,为异常检测阶段提供先验异常特征及相应掩码. 2)异常检测阶段,引入Contrast U-Net网络利用有监督训练方式增强对异常特征的敏感度,并提升识别与定位的准确性. 在MVTec数据集上进行的实验结果表明,所提方法性能优异,图像级别AUROC为98.2%,像素级别AUROC为97.8%,AU-PR为81.1%,具有显著优势,在图像异常检测分割领域具有出色表现.

关键词: 异常检测 ; 生成对抗网络 ; 异常图像生成 ; 对比度算子 ; 深度学习

Abstract

A novel anomaly detection method named EDA (enhancing anomaly detection via adversarial anomaly learning) was proposed, to address the challenges of industrial image anomaly detection, including the scarcity of anomalous samples, the complexity of annotation, and the high computational cost of deep models. The proposed approach consisted of two key stages. 1) Anomaly learning and embedding stage: a generative adversarial network (GAN) architecture was employed to learn anomalous features. The generator’s parameters were reduced to ensure lightweight design, and subpixel convolution was introduced to enhance anomalous information. Random regions were selected from normal images, refined using the SAM (segment anything) model, and then anomalous features were generated in these refined regions, providing prior anomalous features and corresponding masks for the anomaly detection stage. 2) Anomaly detection stage: a Contrast U-net network was introduced to improve sensitivity to anomalous features and enhance the accuracy of identification and localization through supervised training. Experimental results on the MVTec dataset demonstrated the superior performance of the proposed method, achieving an image-level AUROC of 98.2%, a pixel-level AUROC of 97.8%, and an AU-PR of 81.1%, showing significant advantages and outstanding performance in the field of industrial image anomaly detection and segmentation.

Keywords: anomaly detection ; generative adversarial network ; anomaly generation ; contrast operator ; deep learning

PDF (2791KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王天飞, 周文俊, 项圣, 贺宇航, 彭博. 基于异常特征对抗学习的工业图像异常检测方法. 浙江大学学报(工学版)[J], 2025, 59(12): 2566-2575 doi:10.3785/j.issn.1008-973X.2025.12.011

WANG Tianfei, ZHOU Wenjun, XIANG Sheng, HE Yuhang, PENG Bo. Industrial image anomaly detection method based on adversarial learning of abnormal features. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2566-2575 doi:10.3785/j.issn.1008-973X.2025.12.011

在制造业中,工业图像异常检测技术常用于检测工业制品的表面异常,其以独特的优势与功能,在提升产品质量、优化成本结构方面发挥着不可替代的作用. 然而,目前大部分的传统方法仅在特定场景下有效[1],不具有普适性,比如Reed等提出的RX (Reed-xiao)算法就利用高斯分布函数来描述高光谱图像中像素点内信息的分布情况[2]. 仅仅依靠一个高斯分布模型很难描述更为复杂多变的场景,在现实环境中的适用性受限. 监督学习方法又面临带准确标注的样本量不足的问题. 因此,学界目前采用无监督方式进行训练. 仅使用正常数据训练的深度网络理论上无法准确重建异常区域,在某些情况下,网络可能过于泛化,以至于可以将异常输入重建为正常信息,从而导致误检. 总的来说,图像异常检测领域目前的问题在于无监督方法对于图像异常检测的准确度不够,而监督学习虽然可以得到较高的准确度,但在实际生产中没有足够数据集来支撑监督学习.

为了解决这个问题,提出异常定位和检测网络EDA,其具有出色的异常检测性能. 分为2个阶段,第1个阶段利用少量异常样本,初步学习异常特征,生成模拟异常图像以解决带标注样本数量不足的问题,第2个阶段进行监督训练,充分利用图像浅层纹理信息,获取最佳的像素级分割效果.

1. 相关工作

目前工业异常检测领域常用方法可以分为基于重建、基于嵌入、基于知识蒸馏以及基于生成模型. 不同方法各有优劣,具体总结如表1所示.

表 1   工业异常检测常用方法对比

Tab.1  Comparison of commonly used methods for industrial anomaly detection

方法类别关键技术优点缺点
基于重建编码器将输入的工业图像压缩成低维特征向量;解码器再根据该特征向量重建图像无须对缺陷进行标注,通用性较强精度及准确度不足,容易误判
基于嵌入将图像映射到低维的特征空间,计算其特征嵌入与正常图像特征嵌入之间的距离能够有效提取图像的深层特征,在特征空间中进行距离计算,可量化图像的异常程度,便于分析和决策若训练数据不足或存在偏差,
会影响模型的泛化能力
基于知识蒸馏将教师模型的知识迁移到轻量级的学生模型中降低模型的计算成本,内存需求低蒸馏效果依赖超参数,
缺乏泛化能力
基于生成模型通过生成器和判别器的对抗训练,生成器逐渐学习到正常图像的分布特征能够生成与真实图像相似的样本,可用于数据增强训练过程不稳定,容易出
现梯度消失、爆炸的问题

新窗口打开| 下载CSV


2. 方 法

本研究提出新的检测框架,即通过利用少量的异常图像,来学习并理解异常区域在纹理、色彩、亮度等多个特征上的分布特性,进而运用这些异常特征,扩充带有标注的异常图像数据集,使其样本量足以支撑监督训练. 如图1所示,EDA主要分为异常学习和嵌入阶段与异常检测阶段,其中图1(a)表示异常学习和嵌入阶段,使用少量真实异常图像及其掩码进行训练,仅学习异常区域的特征. 在预测模块中,输入大量正常图像,随机选择一块区域并使用SAM (segment anything)[3]进行细分,将其输入到模型中将正常特征转化为异常特征,得到大量模拟异常图像及相应掩码;图1(b)表示异常检测阶段,输入的异常图像经过网络得到异常分值图和正常分值图,当异常得分大于正常得分时判定为异常从而得到二值化输出;图1(c)表示图像在网络中的特征图,模拟异常和真实异常具有相似的特征,并且与正常区域有着显著差别.

图 1

图 1   EDA整体结构

Fig.1   Overall structure of EDA


2.1. 异常学习和嵌入阶段

此阶段经多轮迭代,重构正常区域以模拟异常区域的特征分布. 随后,利用学习到的异常表征,结合SAM在大量正常图像中选取特定区域将其重构为异常形态,从而有效扩增异常数据集的规模. 首先,利用少量带注释的异常图像分割异常区域作为GT,同时分割正常图像相应区域作为输入. 异常区域占比小,模型输入数据较小,因此减少了模型中的参数数量,降低了计算资源. 为了获得更好的结果,对生成对抗网络进行了一些修改,以更好地适应实际需求. 网络结构如图2所示. 在生成器的编码器部分,为了保留更多的空间特征信息,增加了瓶颈模块和传输模块[4]. 瓶颈模块结构图如图3所示,采用实例归一化,使网络具有更好的训练稳定性,避免梯度爆炸. 传输模块放置在最后一层,以增强从瓶颈模块获得的特征. 鉴于异常区域仅占正常图像很小的比例且分辨率较低,为了增强异常信息并捕捉更多细节,在网络中融入了亚像素卷积[5],以显著提升图像处理敏锐度,确保精准捕捉并放大异常特征. 当真实摄像机捕捉图像时,物理世界中的连续图像被离散化. 成像平面上的每个像素只表示它周围的颜色. 在微观层面上,它们之间存在着无限小的实体. 将这些较小的实体称为“亚像素”. 本研究在解码器中加入了亚像素卷积,其表达式如下:

图 2

图 2   异常学习和嵌入阶段工作示意

Fig.2   Illustration of anomaly learning and embedding


图 3

图 3   瓶颈模块结构图

Fig.3   Structure of Bottleneck block


$ \boldsymbol{I}^{\rm{H R}}=f^{{L}}\left(\boldsymbol{I}^{\rm{L R}}\right)=\operatorname{PS}\left(W_{{L}} \times f^{{L}-1}\left(\boldsymbol{I}^{\rm{L R}}\right)+b_{{L}}\right). $

式中:$ {\boldsymbol{I}}^{\rm{HR}} $表示高分辨图像,$ {\boldsymbol{I}}^{\rm{LR}} $表示低分辨率图像,$ f $表示卷积运算,$ {W}_{{L}} $表示卷积核的权重,$ {b}_{{L}} $表示偏置项,$ \mathrm{P}\mathrm{S} $表示像素运算.

MVTec数据集[6]中的异常图像数量有限,每种异常类型只有16张图像,因此选择使用实例规范化(IN)而不是批处理规范化. IN对每个样本的每个特征通道进行独立归一化,能更好地保留图像细节,适合小批量训练.

使用L1损耗来测量模拟异常与真实异常之间逐像素的差异,其表达式如下:

$ L_{\mathrm{Res}}=\frac{1}{N} \sum_{i=1}^N\left|G\left(\boldsymbol{I}_i\right)-\boldsymbol{J}_i\right|. $

式中:$ {\boldsymbol{I}}_{{i}} $为输入的正常图像,$ {\boldsymbol{J}}_{{i}} $为该图像对应的真实异常图像,$ G({\boldsymbol{I}}_i) $为生成器生成的异常图像.

为了进一步强化模拟异常图像与真实异常图像之间的特征相似性,借助模型参数进行损失计算. 其核心目的在于促使模拟异常图像在网络中的特征值逼近真实异常图像特征值,表达式如下:

$ {L}_{\rm{p}}=\frac{1}{N} \sum_{i=1}^N\left\|\varphi\left(G\left(\boldsymbol{I}_{\boldsymbol{i}}\right)\right)-\varphi\left(\boldsymbol{J}_{\boldsymbol{i}}\right)\right\|_2^2 . $

式中:$\varphi ( \cdot ) $表示从网络中获得的特征映射.

对抗损失(adversarial loss)是生成对抗网络(GANs)中常见的损失函数,用于增强生成图像的真实性,表达式如下:

${L}_{\mathrm{A}}=\sum_{i=1}^N \log \;\left(1-D\left(\boldsymbol{J}_i, G\left(\boldsymbol{I}_i\right)\right)\right). $

式中:$ D $表示鉴别器网络. 上述损失相加得到最终损失函数:

$ {L}=L_{\mathrm{Res}}+L_{\mathrm{p}}+L_{\mathrm{A}} . $

在此阶段的训练过程结束后,开始进行异常信息的嵌入. 在正常图像上选择各自一块区域,分割正常图像的选定区域并对其进行重构,目标是将其分布特征与异常区域的分布特征对齐,从而将正常图像转化为异常图像. 为了确保所选区域的边界与原始图像的纹理分布相匹配,防止突然的边缘过渡,采用SAM模型来划分出正常图像中的随机一个不规则区域,以嵌入异常. 其网络结构如图4所示,包括编码器、提示编码器和轻量级、部分注释的解码器. 其中编码器将输入图像编码为高维特征表示. 提示编码器把用户提示(点、框、文本、掩码)编码为向量. 掩码解码器是SAM的核心组件,负责将图像编码和提示编码结合,生成最终的分割掩码. 其结构基于Transformer的解码器,参考MVTec数据集异常区域占比,在图像中随机选长和宽为原图1/20~1/5的区域,用SAM 划分不规则掩模,模拟实际异常位置和大小不定的情况. 将该掩模输入异常学习模块,生成异常图像.

图 4

图 4   掩码区域生成示意

Fig.4   Schematic of mask region generation


2.2. 异常检测阶段

在异常检测阶段,针对于一些特定场合中异常区域的颜色、锐度及色调特征可能与正常区域并无显著区别的情况,聚焦于纹理特征的显著差异,引入Contrast U-Net作为异常检测主干网络,该网络能对于图像浅层纹理信息充分提取和利用,准确学习到目标区域的纹理特性,从而达到较好的分割效果. 这在笔者之前的工作[7]得到了验证,在颈动脉超声图像斑块检测任务中,该网络实现了对颈动脉斑块的高精度分割,展现了其处理纹理复杂数据的卓越性能. 针对工业图像异常检测任务,异常区域的纹理信息通常与正常区域具有明显偏差,基于Contrast U-Net在纹理特征处理方面的优势,本研究将其作为异常检测主干网络. 考虑到工业图像包含更丰富的浅层信息,将Contrast U-Net进行细微优化调整,取消第1层的挤压和激励(SE)模块[8],保留第2层与第3层,在保证关键纹理特征提取的前提下,有效减少了模型的参数量. 该网络架构如图5所示,将对比度算子$ {\mathrm{cvo}} $[9]作为固定卷积核,嵌入至U-Net原有架构之上. 通过多次实验验证,对比度算子$ {\mathrm{cvo}} $在萃取纹理特征方面展现出卓越的能力. 经过多次实验,最终将固定的卷积核合并到网络的第2、3层. $ {\mathrm{cvo}} $在反向传播过程中保持不变. 这既增强了算法对异常信息的敏感性,又减少了计算资源,从而提升了算法的整体性能. 此外,引入固定的卷积核,即使在网络中参数数量减少的情况下,也可以取得出色的结果. 与传统U-Net相比,每层的参数数量减少了一半,进一步降低了网络的时间复杂度,便于更高效地处理异常图像. 网络具体细节如图6所示. 其中,图6(a)为网络的整体结构;图6(b)表示Contrast Block,分别使用xy方向的对比度算子cvo对输入图像进行卷积,以获得图像的梯度信息和纹理特征;图6(c)表示挤压和激励模块.

图 5

图 5   异常检测阶段工作示意

Fig.5   Illustration of anomaly detection module


图 6

图 6   异常检测网络结构图

Fig.6   Network structure of anomaly detection module


在图像的异常检测中,由于异常图像中正常区域的比例较大,正常区域和异常区域的分布会不平衡. 为了解决这种不平衡并改善网络的效果,采用2个损失函数的组合:Focal loss (FL)[10]和Lovasz loss (LL)[11].

FL作为主要损失函数来衡量预测映射与真实值之间的关系. FL降低了分类良好的示例的权重,更多地关注难分类、错误分类的样本,有效解决了正常和异常区域分布的不平衡,确保网络优先从更具挑战性的异常区域学习. 表达式如下:

$ {\mathrm{F L}}=\left(1-p\right)^\gamma \log \;\left(p\right). $

式中:$ {p} $反映了与地面真实值的接近程度,$ \gamma $为超参数变量.

除了FL之外,此模块还融合了LL以进一步提高网络的性能. 通过优化IoU, LL会使模型得到更准确和精确的分割结果,特别是在像素级精度至关重要的场景中. 表达式如下:

$ {\mathrm{L L}}=\bar{\Delta}_{J_1}(m). $

式中:$\bar{\Delta}_{J_1} $为Jaccard损失,$ m $为优化后的IoU算法.

通过结合Focal Loss和Lovasz Loss,模型可以有效地处理正常区域和异常区域的不平衡,同时优化准确的分割结果. 这种双损失策略确保了此模型是鲁棒的,能够从简单和具有挑战性的例子中学习,并产生高质量的异常检测结果. 最后,总损失函数表达式如下:

$ \text { loss }={\mathrm{F L}}+\alpha \cdot {\mathrm{L L}}. $

式中:$ \alpha $在模型中被设置为0.5.

3. 实 验

3.1. 实验数据集

使用的实验数据集为MVTec AD[6]. 该数据集涵盖了工业检测领域的多种场景,包含15个不同的对象或纹理类别(例如铁丝网、皮革、大理石等),每个类别都有一组无异常的训练图像和一组带有各种异常或无异常的测试图像. 总共有5354张高分辨率图像,其中1258张为异常图像,并且提供了所有异常区域的像素级精确标注. 这些异常图像反映了70多种不同类型的异常现象,如划痕、凹痕、污染和各种结构变化等. 如图7所示展示了MVTec数据集中部分类别的异常图像及Ground Truth.

图 7

图 7   MVTec数据集的示例

Fig.7   Examples from MVTec dataset


3.2. 实验平台及评价指标

本算法在Ubuntu18.04平台Pytorch框架下实现,GPU为NVIDIA 3090,初始学习率为0.0001,批大小为16,在异常学习和嵌入阶段,设置迭代轮数为100,在异常检测阶段,设置迭代轮数为150.

采用异常检测的标准度量AUROC (area under the ROC curve)[12]以及平均精度AP (average precision)进行检测效果评价,ROC曲线是一种图形表示,其横轴为假阳率(FPR),纵轴为真阳率(TPR). AP为PR曲线下方的面积,其中PR曲线是一个二维坐标系,其中横轴表示召回率(Recall),纵轴表示精度(Precision). 指标相关计算公式如下:

$ {\mathrm{T P R}}=\dfrac{{\mathrm{T P}}}{P}=\dfrac{{\mathrm{T P}}}{{\mathrm{T P}}+{\mathrm{F N}}}, $

$ {\mathrm{F P R}}=\dfrac{{\mathrm{F P}}}{N}=\dfrac{{\mathrm{F P}}}{{\mathrm{F P}}+{\mathrm{T N}}}, $

$ { {\mathrm{Recall}} }=\dfrac{{\mathrm{T P}}}{{\mathrm{T P}}+{\mathrm{F N}}}, $

$ { {\mathrm{Precision}} }=\dfrac{{\mathrm{T P}}}{{\mathrm{T P}}+{\mathrm{F P}}} . $

式中:TP表示真正异常且被正确预测的实例数量,FN表示被错误预测为正常的异常实例数量,FP表示被错误标记为异常的正常实例的数量, TN表示正确识别的正常实例的数量.

3.3. 对比实验

挑选8种近期在异常检测领域表现突出的算法进行比较,分别为US[13]、AESSIM[14]、RIAD[15]、PaDim[12]、CutPaste[16]、CLGAN[17]、MB-PFM[18]和ATSNM[19]. 与本研究实验设置相同,最大迭代轮数为150,初始学习率为0.0001,批处理大小为16. 其中US、AESSIM、RIAD均基于重建的核心理念,它们通过重构输入数据并对比重构误差来识别异常. PaDim及MB-PFM通过多层网络提取特征后进行多尺度融合,通过判断测试图像的特征与高斯分布的偏离程度来检测异常. CutPaste对正常图像进行裁剪和黏贴之类的数据增强操作,然而简单的裁剪黏贴操作后的增强数据不具备原本的异常特征,从而在训练过程对于异常信息的学习出现偏差. 本研究方法采用深度学习准确地学习异常特征,纠正了这种偏差并取得了更为优异的表现. CLGAN在生成对抗网络的基础上采用对比学习加强潜在特征空间正负例样本约束,使得输入与输出图像对应Patch之间的互信息最大化,使模型识别异常样本图像能力得到提升. ATSNM基于非对称师生网络,为师生网络添加结构差异性,阻止学生网络过模仿教师网络的映射,提升了蒸馏的稳定性. 如表2所示显示了不同方法在图像级和像素级上的AUROC性能,在多个类中获取最佳表现并且在均值上表现优异. 如表3所示显示了不同方法在像素级上的AP性能具有显著优势,表明本研究方法较先进,对于异常区域的分割较精准. 为了直观地展示EDA的优越性能,如图8所示展示了与其他方法的定性比较结果. 由于AESSIM、MB-PFM、CLGAN以及ATSNM模型未公开代码,这4种方法的指标结果取自其论文[14,17-19]. 从结果可以看出,EDA的分割结果更为精细和准确. 如图10所示展示了本研究方法对于不同类别的一些异常图像的检测结果. 可以看出,EDA对不同种类工业品图像中的不同类型的异常均进行了有效的定位和分割.

表 2   不同方法图像级/像素级AUROC结果对比

Tab.2  Image- and pixel-level AUROC comparison results for different models

类别AUROC
USAE-SSIMRIADPaDimCutPasteCLGANMB-PFMATSNM本研究算法
1)注:斜线前、后数据分别表示图像级以及像素级AUROC结果
bottle99.0/97.81)88.0/93.099.9/98.499.9/98.398.2/97.697.6/92.6100.0/98.4100.0/98.396.8/98.5
capsule86.1/96.861.0/94.088.4/92.891.3/98.598.2/97.498.2/98.494.5/94.393.7/98.596.2/97.3
grid81.0/89.969.0/94.099.6/98.896.7/97.3100.0/97.599.3/98.798.0/98.895.2/98.7100.0/99.6
leather88.2/97.846.0/78.0100.0/99.4100.0/99.2100.0/99.5100.0/99.7100.0/96.4100.0/99.5100.0/99.9
pill87.9/96.560.0/91.083.8/95.793.3/95.794.9/95.798.1/97.396.5/95.293.7/96.598.2/96.5
tile99.1/92.552.0/59..098.7/89.198.1/98.194.6/90.596.5/94.199.6/96.295.9/97.9100.0/98.6
transistor81.8/97.852.0/90.090.9/87.797.4/97.596.1/93.096.4/93.397.8/97.891.6/87.595.0/92.1
zipper91.9/95.680.0/88.098.1/97.890.3/98.599.9/99.399.3/97.897.4/98.296.3/98.5100.0/99.1
cable86.2/91.961.0/82.081.9/84.292.7/96.781.2/90.098.3/95.698.8/96.791.3/96.893.2/96.7
carpet91.6/93.567.0/87.084.2/96.399.8/99.193.9/98.398.2/97.8100.0/99.297.8/98.396.5/99.2
hazelnut93.1/98.254.0/97.083.3/96.192.0/98.298.3/97.399.0/98.1100.0/99.199.8/98.4100.0/98.8
metalnut82.0/97.254.0/89.088.5/92.598.7/97.299.9/93.197.9/96.8100.0/97.298.6/96.798.9/97.8
screw54.9/97.451.0/92.084.5/98.885.8/98.588.7/96.795.2/94.991.8/97.792.1/98.996.6/98.9
toothbrush95.3/97.974.0/96.0100.0/98.996.1/98.899.4/98.198.2/96.688.6/98.691.4/98.9100.0/97.9
wood97.7/92.183.0/73.093.0/85.899.2/94.999.1/95.598.9/96.999.5/95.698.8/96.997.6/94.5
平均89.7/95.363.4/88.091.3/94.295.3/97.596.1/96.097.5/95.197.5/97.395.7/97.498.2/97.8

新窗口打开| 下载CSV


表 3   不同方法像素级AU-PR结果对比

Tab.3  Pixel-level AU-PR comparison results for different models

类别US[9]AE-SSIMRIADPaDimCutPasteCLGANMB-PFMATSNM本研究算法
bottle74.276.473.077.979.676.778.786.6
capsule25.938.233.432.369.646.252.772.8
grid10.136.458.042.664.945.345.168.5
leather40.949.145.254.675.446.857.476.3
pill62.051.660.251.876.378.666.472.5
tile65.352.651.767.287.680.389.195.6
transistor27.139.271.370.867.756.870.377.5
zipper36.163.416.668.568.755.672.686.3
cable48.224.434.355.673.867.769.475.3
carpet52.261.449.757.387.658.380.290.7
hazelnut57.833.837.453.768.460.776.396.3
metalnut83.564.339.462.567.778.177.675.6
screw17.843.951.758.669.352.669.474.2
toothbrush37.750.640.646.859.653.454.967.4
wood53.338.242.379.377.346.778.776.8
平均46.1448.247.058.667.561.168.9281.1

新窗口打开| 下载CSV


图 8

图 8   不同方法的定性结果对比

Fig.8   Qualitative comparison of different models


3.4. 消融实验

为了评估基于异常学习和嵌入阶段的工作以及Contrast U-Net对异常检测性能的影响,进行了3种消融实验设计,如表4所示.

表 4   消融实验设计

Tab.4  Ablation experiment design

设计第1阶段第2阶段
设计1Contrast U-Net
设计2U-Net
设计3Contrast U-Net

新窗口打开| 下载CSV


在设计1中,仅直接引用Contrast U-Net于异常检测阶段;在设计2中,在主干网络中加入异常学习和嵌入阶段,并且将异常检测阶段中的Contrast U-Net替换为U-Net;在设计3中,融合异常学习模块和对比U-Net. 通过对比设计1、3的实验结果,清晰地展示异常学习和嵌入阶段的关键作用. 设计2、3的对比结果则凸显了Contrast U-Net在增强异常识别能力、提高检测精度方面的优势.

表5所示展示了相应的实验结果,针对每个类别,表格分别列出了3种设计在图像级AUROC和像素级AUROC方面的表现. 结果表明,在加入了异常学习和嵌入阶段后,整体效果有了显著提升,凸显了其基础有效性和在提高模型区分正常与异常模式能力中的关键作用. 此外,采用Contrast U-Net替换传统U-Net架构进一步提升了检测精度. 这一发现凸显了Contrast U-Net的固有优势,特别是其在减少参数使用量的限制下仍能有效提升检测效果的能力. 这一结果强调了Contrast U-Net在异常检测任务中高效且强大的潜力.

表 5   消融实验图像级/像素级AUROC结果

Tab.5  Image- and piexl-level AUROC results of ablation experiment

类别AUROC
设计1设计2设计3
1)注:斜线前、后数据分别表示图像级以及像素级AUROC结果
bottle98.2/69.71)96.8/97.297.2/98.5
capsule77.5/63.794.9/91.097.0/97.3
grid75.6/66.3100.0/99.4100.0/99.6
leather83.1/57.7100.0/97.4100.0/99.9
pill89.0/65.796.2/96.498.2/97.5
tile98.5/78.799.8/99.3100.0/98.6
transistor91.4/59.692.7/88.996.3/92.1
zipper94.3/64.2100.0/98.4100.0/99.1
cable54.0/69.488.3/93.486.2/96.7
carpet52.5/56.190.6/93.897.6/99.2
hazelnut94.3/64.299.9/99.6100.0/98.8
metalnut89.5/86.599.0/99.198.9/97.8
screw84.5/54.697.3/99.596.6/98.9
toothbrush86.6/76.9100.0/97.7100.0/97.9
wood91.0/67.999.6/94.997.6/94.5
平均84.0/66.7597.0/96.498.2/97.8

新窗口打开| 下载CSV


本研究对于生成对抗网络的改进,相较于原始网络具有明显优势,结果如表6所示. 改进后生成图像的平均SSIM由0.76提升至0.92,PNSR由18.54 dB提升至24.36 dB.

表 6   生成对抗网络消融实验结果

Tab.6  Ablation experiment results of GAN

方法SSIMPSNR/dB
原始网络0.7618.54
改进后0.9224.36

新窗口打开| 下载CSV


3.5. 时间复杂度

为了深入验证所提出模型的性能,对模型的时间复杂度进行验证比较,并据此与现有方法进行对比性评估,结果如表7所示. 须注意的是,RIAD、CLGAN、ATSNM由于未开放源代码,无法直接对其时间复杂度进行量化分析. 此外,鉴于MB-PFM主干网络采纳的是ResNet34架构,利用该网络估算其时间复杂度. 如表7所示,与其他算法相比,本研究所提算法在参数数量上呈现出显著的级别优势. 此外,本研究方法的MACs亦处于较低的水平. 相较于其他模型,本研究所提方法达成了计算量与性能的优化平衡,保证了在实际应用场景中的高效性能.

表 7   时间复杂度对比

Tab.7  Comparison of time complexity

MethodsParam/106MACs/109
US18.623.44
AE-SSIM62.3712.61
RIAD
PaDim68.8811.46
CutPaste11.771.82
CLGAN
MB-PFM22.863.62
ATSNM
本研究算法0.952.64

新窗口打开| 下载CSV


3.6. 实验分析

图8所示,对于被油渍污染的瓷砖,由于油渍的通透性,其异常区域与正常区域的纹理特征差异并不显著,仅在油污的边缘地带存在细微的突变. 这无疑给异常检测算法带来了不小的挑战. 然而本研究模型依然可以准确检测到异常区域并且检测效果优于其他方法,这得益于EDA中的异常检测模块对于纹理信息的敏感性,准确地识别到了油污边缘的纹理信息的异常性,进而准确地分割出了油污区域.

针对其他几类材料,其异常区域的纹理特征与正常区域存在显著的差异. 在这种情境下,与其他算法相比,EDA仍展现出最优秀的性能. 这主要得益于其异常学习模块为异常检测模块提供了丰富且精确的异常特征信息.

图9所示为真实/模拟异常图像特征分布相似性示意. 其中,fg分别为频率和特征值. 对比真实异常图像与模拟异常图像在模型中的特征值分布,可以发现两者相似度极高,均与正常特征之间存在显著的差异性,证明了异常检测模块在训练阶段已经成功地掌握了异常特征和正常特征的信息,在面对未知的异常信息时,也可以准确利用其与正常信息的偏差而准确识别和定位到异常区域. 相比之下,其他检测算法仅仅掌握了正常信息. 更进一步,EDA的异常检测模块建立在U-Net网络之上,它与其他基于CNNs的异常检测算法有所不同,能够进行像素级别的异常图像处理,从而确保了模型在异常区域的精细分割上具有优越的性能. 如图10所示为纹理图像定性结果示例,更直观地展示了本研究所提算法对于纹理特征明显的异常图像的精确和细致的分割效果.

图 9

图 9   真实/模拟异常图像特征分布相似性示意

Fig.9   Illustration of similarity of real and simulated abnormal image feature distribution


图 10

图 10   纹理图像定性结果示例

Fig.10   Qualitative result examples for texture image


4. 结 语

提出新的异常检测方法 EDA,旨在解决现有方法因依赖噪声或外部数据而引发的语义鸿沟问题,该问题限制了模型对真实异常的识别能力. EDA采用2阶段策略:第1阶段,利用少量真实异常样本,通过精心设计的生成网络学习并嵌入逼真且多样化的异常特征至正常图像中,从而丰富训练集并确保生成特征与真实异常高度一致. 第2阶段,基于这些高质量的异常图像数据,检测模型在有监督环境下得到充分训练,展现出优异的检测性能. EDA在训练阶段易用且灵活,仅须少量标注异常样本,大大降低了计算需求,提升了方法的实用性和效率,为工业缺陷检测领域提供了新的研究思路和实践方法. 不过,目前模型仅应用于实验室环境中,未来将考虑在真实生产检测环境中部署模型并结合其表现进行模型的优化,进一步提升其实用性与稳定性.

参考文献

吕承侃, 沈飞, 张正涛, 等

图像异常检测研究现状综述

[J]. 自动化学报, 2022, 48 (6): 1402- 1428

[本文引用: 1]

LV Chengkan, SHEN Fei, ZHANG Zhengtao, et al

Review of image anomaly detection

[J]. Acta Automatica Sinica, 2022, 48 (6): 1402- 1428

[本文引用: 1]

LIU J, XIE G, WANG J, et al

Deep industrial image anomaly detection: a survey

[J]. Machine Intelligence Research, 2024, 21 (1): 104- 135

DOI:10.1007/s11633-023-1459-z      [本文引用: 1]

KIRILLOV A, MINTUN E, RAVI N, et al. Segment anything [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 3992–4003.

[本文引用: 1]

HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2261–2269.

[本文引用: 1]

SHI W, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1874–1883.

[本文引用: 1]

BERGMANN P, FAUSER M, SATTLEGGER D, et al. MVTec AD: a comprehensive real-world dataset for unsupervised anomaly detection [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9584–9592.

[本文引用: 2]

ZHOU W, WANG T, HE Y, et al

Contrast U-Net driven by sufficient texture extraction for carotid plaque detection

[J]. Mathematical Biosciences and Engineering, 2023, 20 (9): 15623- 15640

DOI:10.3934/mbe.2023697      [本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

HE Y, XIANG S, ZHOU W, et al. A novel contrast operator for robust object searching [C]// 17th International Conference on Computational Intelligence and Security. Chengdu: IEEE, 2021: 309–313.

[本文引用: 2]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999–3007.

[本文引用: 1]

BERMAN M, TRIKI A R, BLASCHKO M B. The lovasz-softmax loss: a tractable surrogate for the optimization of the intersection-over-union measure in neural networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4413–4421.

[本文引用: 1]

DEFARD T, SETKOV A, LOESCH A, et al. PaDiM: a patch distribution modeling framework for anomaly detection and localization [C]// International conference on pattern recognition. Cham: Springer International Publishing, 2021: 475–489.

[本文引用: 2]

BERGMANN P, FAUSER M, SATTLEGGER D, et al. Uninformed students: student-teacher anomaly detection with discriminative latent embeddings [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 4182−4191.

[本文引用: 1]

BERGMANN P, LOWS S, FAUSER M, et al. Improving unsupervised defect segmentation by applying structural similarity to autoencoders.

[本文引用: 2]

ZAVRTANIK V, KRISTAN M, SKOČAJ D

Reconstruction by inpainting for visual anomaly detection

[J]. Pattern Recognition, 2021, 112: 107706

DOI:10.1016/j.patcog.2020.107706      [本文引用: 1]

LI C L, SOHN K, YOON J, et al. CutPaste: self-supervised learning for anomaly detection and localization [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 9659-9669.

[本文引用: 1]

张玥, 陈锡伟, 陈梦丹, 等

基于对比学习生成对抗网络的无监督工业品表面异常检测

[J]. 电子测量与仪器学报, 2023, 37 (10): 193- 201

[本文引用: 2]

ZHANG Yue, CHEN Xiwei, CHEN Mengdan, et al

Unsupervised surface anomaly detection of industrial products based on contrastive learning generative adversarial network

[J]. Journal of Electronic Measurement and Instrumentation, 2023, 37 (10): 193- 201

[本文引用: 2]

WAN Q, GAO L, LI X, et al

Unsupervised image anomaly detection and segmentation based on pretrained feature mapping

[J]. IEEE Transactions on Industrial Informatics, 2023, 19 (3): 2330- 2339

DOI:10.1109/TII.2022.3182385      [本文引用: 1]

孔森林, 张辉, 黄镇南, 等

面向工业图像异常检测的非对称师生网络模型

[J]. 计算机科学, 2024, 51 (Suppl.2): 331- 337

[本文引用: 2]

KONG Senlin, ZHANG Hui, HUANG Zhennan, et al

Asymmetric teacher-student network model for industrial image anomaly detection

[J]. Computer Science, 2024, 51 (Suppl.2): 331- 337

[本文引用: 2]

/