基于无监督域适应的跨场景带钢表面缺陷识别
Surface defect identification of cross scene strip based on unsupervised domain adaptation
收稿日期: 2022-03-10
基金资助: |
|
Received: 2022-03-10
Fund supported: | 国家自然科学基金资助项目(62173124);河北省自然科学基金资助项目(F2019202305) |
作者简介 About authors
刘坤(1980—),女,副教授,从事图像处理、机器视觉研究.orcid.org/0000-0002-5034-9249.E-mail:
深度学习模型面对跨场景的带钢表面缺陷识别时存在泛化性能差的问题,为此提出端到端的多级对齐域适应神经网络模型(MADA),实现源域与目标域数据的像素级光照分布对齐与特征级纹理分布对齐. MADA通过无参考像素级光照分布对齐模块和光照校正损失函数,将源域与目标域数据投影到光照子空间,实现源域与目标域的像素级光照分布对齐. 利用纹理特征提取器和特征级域鉴别器的对抗学习,实现源域和目标域数据的纹理分布对齐. 实验在邯郸钢铁集团带钢表面缺陷数据集的F1指数达到98%,在谢维尔钢铁集团带钢表面缺陷数据集上的F1指数达到86.6%. 实验结果表明,与其他域适应方法相比,所提方法具有更好的泛化性能.
关键词:
In view of the poor generalization performance of the deep learning model at surface defect identification of cross scene strip, an end-to-end multi-level aligned domain adaptation neural network (MADA) was proposed, which could achieve pixel-level illumination distribution alignment and feature-level texture distribution alignment, respectively. The source and target domain data were projected into the illumination subspace by MADA to achieve the pixel-level illumination distribution alignment, through the non-reference pixel-level illumination distribution alignment module and the illumination loss function. The adversarial learning of texture feature extractor and feature-level domain discriminator were used to achieve the texture distribution alignment of the source and target domain. The experiment achieved an F1 measure of 98% in Handan strip surface defect dataset and 86.6% in Severstal strip surface defect dataset. Experimental results showed that the proposed method has better generalization performance than other domain adaptation methods.
Keywords:
本文引用格式
刘坤, 杨晓松.
LIU Kun, YANG Xiao-song.
带钢是航空航天、机械和汽车等行业的主要原材料. 在带钢的生产过程中,由于工厂环境、轧辊的滚动速度与带钢运行速度不一、钢坯材料等因素的影响,其表面不可避免地存在一些缺陷[1]. 带钢表面缺陷会对相关产品的外观造成影响,降低产品的抗腐蚀性、抗疲劳强度. 基于视觉的带钢表面质量检测技术对于提升产品质量具有重要意义. 视觉检测技术是带钢表面质量检测的常用手段. 传统的缺陷识别方法依赖人工手动设计的视觉特征,主要包括统计法[2-4]、频谱法[5-7]、模型法[8]等. Tsai等[9]提出基于加权协方差矩阵的度量纹理规则性的方法,实现塑料和皮革产品的表面缺陷识别. Boudani等[10]提出基于小波的带钢表面缺陷检测方法. 徐科等[11]提出基于多尺度融合的小波域隐马尔科夫树模型,实现对带钢表面缺陷的识别. 基于深度学习的缺陷检测方法能够自动提取图像特征[12]. He等[13]提出基于多级特征融合的带钢表面缺陷检测网络. Dong等[14]提出基于多尺度特征融合和全局上下文注意力的缺陷分割网络. Chen等[15]提出基于朴素贝叶斯和CNN的缺陷识别方法.
虽然基于深度学习的目标识别方法在封闭场景下取得良好的效果,但它高度依赖大规模高质量标注数据,在很多场景下难以获得大规模高质量数据集. 以域适应为代表的迁移学习技术通过挖掘和迁移跨域相似场景中的共享知识,可以实现无监督模式下的目标识别[16-17]. Liu等[18]提出基于任务加权机制和图像修复的域适应网络,实现由荧光显微镜图像到真实组织病理学图像的分割. Zheng等[19]提出基于注意力特征对齐和聚类的域适应网络,实现由正常天气场景到大雾天气场景的目标检测. Sindagi等[20]提出基于支持向量描述的域适应缺陷检测模型,实现针对不同光照场景下的有机发光二极管的缺陷检测. Goetz等[21]提出基于自编码器的域适应缺陷方法,实现跨场景下相钢显微图像中的板条形贝氏体检测. Fan等[22]提出基于图像增强的域适应缺陷检测方法,利用新生成的不同纹理和背景道路缺陷图像,实现对复杂的道路坑洼场景的分割任务.
虽然上述研究通过迁移跨域相似场景中的共享知识,实现了特定场景下的无监督目标检测与识别,但是针对动态跨场景迁移方法的研究较少. 以某种特定类型的工业产品为例,不同成像条件(包括相机类型、参数、环境光照等)下获得的图像数据分布之间存在较大差异,如何将在有标签源域数据上学到的知识迁移到多种不同成像条件下的目标域数据,实现无监督表面缺陷识别是亟待解决的研究热点问题. 本研究针对跨场景的带钢表面缺陷识别问题展开.
1. 多级对齐域适应神经网络模型
如图1所示为本研究提出的多级对齐域适应神经网络模型(multi-level alignment domainadaptation neural network, MADA)结构,共包含光照分布对齐模块
图 1
图 1 多级对齐域适应神经网络模型结构
Fig.1 Structure of multi-level alignment domain adaptation neural network
1.1. 无参考像素级光照分布对齐
受Guo等[23]提出的低光照图像增强方法的启发,设计无参考像素级光照分布对齐模块,旨在实现源域和目标域数据在光照子空间下的光照分布对齐. 对于给定的两域图像,模块先提取图像的像素级光照特征,再对图像中的每个像素估计非线性校正参数,并建立不同光照场景下的图像到光照子空间的映射曲线,最后通过光照分布对齐模块和像素级域鉴别器进行对抗训练,实现源域和目标域的光照分布对齐. 光照分布对齐模块由光照特征提取器和光照校正模块2个部分组成. 对于源域输入图像
式中:
1.2. 纹理分布对齐
针对源域和目标域的纹理分布,利用纹理特征提取器提取两域数据的纹理特征分布,并将纹理特征提取器与特征级域鉴别器进行对抗学习,以对齐源域和目标域的纹理分布. 1)纹理特征提取器提取源域图像
1.3. 损失函数设计
为了实现源域和目标域的无参考像素级光照分布对齐与纹理分布对齐,设计由光照校正损失函数、对抗损失函数和分类损失函数构成的损失函数.
1.3.1. 光照校正损失函数
光照校正损失函数
式中:
式中:
式中:
式中:
1.3.2. 对抗损失函数
对抗损失函数
式中:
式中:
1.3.3. 分类损失函数
分类损失函数
式中:
综上,本研究设计的整体损失函数为
式中:
2. 实验验证
2.1. 数据集
为了验证所提方法的有效性,在邯郸钢铁集团的带钢表面缺陷数据集(Handan strip surface defect dataset,HSDD)及根据HSDD虚拟生成的不同光照数据集上对跨场景条件下的带钢表面缺陷识别算法进行性能评估,缺陷图像如图2(a)所示. HSDD数据集包含的缺陷图像数量为1 814张,图像分辨率为240×240,包括322张渐变图像、330张划痕图像、345张油污图像、311张边缘图像、 276张网纹图像和230张油点图像. 利用伽马校正方法对HSDD数据集中的图像进行亮度调整,生成不同光照场景下的虚拟子数据集HSDD_N1、HSDD_N2和HSDD_N3,子数据集的伽马参数分别为0.7、1和1.5. 在光照分布更加复杂的谢韦尔钢铁公司带钢表面缺陷数据集(Severstal strip surface defect dataset,SSDD)上对所提方法进行实验验证,缺陷图像如图2(b)所示. SSDD数据集包含12 568张训练图像,图像分辨率为1 600×256,有凹坑、夹杂、划痕和补丁共4类缺陷. 验证分3个步骤:1)根据图像灰度的高斯分布将SSDD划分为3个场景下的子数据集SSDD_1、SSDD_2和SSDD_3,子数据的高斯分布的均值分别为[0.2, 0.3]、[0.3, 0.4]和[0.4, 0.5],方差范围为[0, 0.1]. 2)3个子数据中的夹杂缺陷图像数量小于100张,较其他3类缺陷数量少,划痕缺陷图像大于3 000张,较其他类别缺陷数量多,麻点和片状缺陷数量分别为450张和500张. 为了保证数据集类别数量均衡,仅使用凹坑、划痕和补丁3类缺陷,并利用随机采样组成子数据集. 3)将图像分辨率调整为256×256. 3个数据子集中包括450张凹坑图像、500张划痕图像和500张片状图像.
图 2
图 2 不同光照场景的带钢表面缺陷数据集
Fig.2 Strip surface defect datasets with different lighting scenarios
2.2. 实验环境与参数设置
本实验的计算机硬件配置为I7-11700K,NVIDIA GeForce RTX 2080Ti,操作系统为Ubuntu20.04. 网络模型使用PyTorch框架搭建,共训练100代,批量大小设置为32. 使用SGD优化器对模型进行优化,初始学习率为0.000 1,动量为0.9,衰减系数为0.000 5. 损失函数的参数分别设置为
2.3. 评价指标
为了对所提方法的性能进行统计性能评估,采用准确率、召回率和F1指数评估不同方法在数据集上的有效性.
式中:P为精准率,R为召回率,TP为实际阳性且预测为阳性的样本数,FN为实际阳性且预测为阴性的样本数,FP为实际为阴性且预测为阳性的样本数. F1指数将精准率和召回率相结合,使模型的分类性能评价更具合理性,计算式为
3. 实验结果分析
3.1. 统计性能对比
在HSDD数据集中共设计6个迁移任务,分别为HSDD_N1⇒HSDD_N2、HSDD_N1⇒HSDD_N3、HSDD_N2⇒HSDD_N1、HSDD_N2⇒HSDD_N3、HSDD_N3→HSDD_N1和HSDD_N3⇒HSDD_N2,其中HSDD_N1 ⇒ HSDD_N2表示以HSDD_N1数据集为源域、以HSDD_N2数据集为目标域的迁移任务. 每个迁移任务中所有的源域和随机抽取70%的目标域进行训练,30%的目标域数据用于测试. 6个迁移任务中目标域的精准率、召回率和F1指数如表1所示. 可以看出,基于Resnet50的直推方法的泛化能力较差,在不同迁移任务中获得的平均F1指数仅为51%. DAN方法使用MK-MMD在特征层对齐两域数据的特征分布,在不同数据集上的平均F1指数比基于Resnet50的直推方法高0.26. JAN方法利用JMMD在多个特征层对齐两域数据的特征分布,在不同数据集上获得的平均F1指数较DAN方法高0.04. DANN方法对齐两域数据的边缘分布,在不同数据集上获得的平均F1指数较JAN方法高0.11. ASAN方法在DANN方法的基础上,对齐两域数据的条件分布,在HSDD_N1⇒HSDD_N3中的F1指数较DANN方法高0.03. GVB方法在DANN方法的基础之上,利用桥连接降低领域私有特征对领域不变特征的影响,在不同数据集上获得的平均F1指数较ASAN高0.02. 所提方法在不同数据集上的F1指数较其他方法均有提高,平均F1指数较GVB方法高0.04,验证了MADA方法对跨场景的带钢表面缺陷识别具有良好的泛化性能.
表 1 不同方法在HSDD上的评价指标对比
Tab.1
方法 | HSDD_N1⇒HSDD_N2 | HSDD_N1⇒HSDD_N3 | HSDD_N2⇒HSDD_N1 | HSDD_N2⇒HSDD_N3 | HSDD_N3⇒HSDD_N1 | HSDD_N3⇒HSDD_N2 | | ||||||||||||||||||
P | R | F | P | R | F | P | R | F | P | R | F | P | R | F | P | R | F | ||||||||
ResNet50 | 53 | 43 | 47 | 31 | 36 | 35 | 76 | 50 | 49 | 62 | 60 | 68 | 39 | 39 | 39 | 82 | 72 | 69 | 51 | ||||||
DAN | 89 | 86 | 86 | 62 | 45 | 40 | 87 | 84 | 85 | 91 | 88 | 88 | 79 | 66 | 68 | 96 | 96 | 96 | 77 | ||||||
JAN | 85 | 85 | 85 | 62 | 61 | 61 | 90 | 90 | 90 | 88 | 87 | 87 | 74 | 74 | 74 | 90 | 90 | 90 | 81 | ||||||
DANN | 94 | 94 | 94 | 91 | 91 | 91 | 92 | 92 | 92 | 94 | 94 | 94 | 92 | 92 | 92 | 92 | 92 | 92 | 92 | ||||||
ASAN | 92 | 92 | 92 | 94 | 94 | 94 | 91 | 91 | 91 | 94 | 94 | 95 | 90 | 90 | 90 | 92 | 93 | 93 | 92 | ||||||
GVB | 95 | 95 | 95 | 96 | 96 | 96 | 95 | 95 | 95 | 96 | 96 | 97 | 91 | 91 | 90 | 93 | 93 | 93 | 94 | ||||||
MADA | 98 | 99 | 99 | 99 | 99 | 99 | 98 | 98 | 98 | 98 | 98 | 98 | 97 | 97 | 97 | 98 | 98 | 98 | 98 |
在SSDD数据集中共设计6个迁移任务,分别为SSDD_1⇒SSDD_2、SSDD_1⇒SSDD_3、SSDD_2⇒SSDD_1、SSDD_2⇒SSDD_3、SSDD_3 ⇒SSDD_1和SSDD_3⇒SSDD_2,其中SSDD_1 ⇒SSDD_2表示以SSDD_1为源域、SSDD_2为目标域的迁移任务. 每个迁移任务中所有的源域和随机抽取70%的目标域进行训练,30%的目标域数据用于测试. 在SSDD数据集中6个迁移任务的目标域测试集的精准率、召回率和F1指数如表2所示. 可以看出,基于Resnet50的直推方法在不同迁移任务中获得的平均F1指数仅为72%. DAN方法在不同数据集上获得的平均F1指数较Resnet50高0.05,说明以DAN为代表的域适应方法提高了源域在目标域的泛化效果. JAN方法不同数据集上获得的平均F1指数较DAN方法高0.01. DANN方法在SSDD_1⇒SSDD_3中的F1指数和在不同数据集上获得的平均F1指数较JAN分别高0.07和0.03. ASAN方法在不同数据集上获得的平均F1指数较DANN方法高0.02. GVB方法在不同数据集上获得的平均F1指数较ASAN方法高0.01. 所提方法在不同数据集上获得的平均F1指数较GVB方法高0.02. 综上,MADA方法针对跨场景的带钢表面缺陷识别具有更好的泛化性能.
表 2 不同方法在SSDD上的评价指标对比
Tab.2
方法 | SSDD_1⇒SSDD_2 | SSDD_1⇒SSDD_3 | SSDD_2⇒SSDD_1 | SSDD_2⇒SSDD_3 | SSDD_3⇒SSDD_1 | SSDD_3⇒SSDD_2 | | ||||||||||||||||||
P | R | F | P | R | F | P | R | F | P | R | F | P | R | F | P | R | F | ||||||||
ResNet50 | 78 | 78 | 78 | 60 | 61 | 59 | 80 | 72 | 73 | 79 | 79 | 79 | 67 | 67 | 66 | 82 | 77 | 77 | 72 | ||||||
DAN | 84 | 84 | 84 | 67 | 66 | 66 | 78 | 78 | 78 | 85 | 85 | 85 | 69 | 69 | 69 | 83 | 84 | 84 | 77 | ||||||
JAN | 84 | 83 | 83 | 65 | 65 | 65 | 84 | 84 | 84 | 84 | 84 | 84 | 70 | 70 | 70 | 84 | 84 | 84 | 78 | ||||||
DANN | 82 | 82 | 82 | 72 | 73 | 72 | 88 | 86 | 86 | 88 | 88 | 88 | 74 | 72 | 73 | 85 | 85 | 85 | 81 | ||||||
ASAN | 88 | 87 | 88 | 75 | 73 | 74 | 89 | 89 | 86 | 91 | 91 | 91 | 75 | 75 | 75 | 85 | 85 | 85 | 83 | ||||||
GVB | 88 | 88 | 87 | 76 | 75 | 76 | 90 | 90 | 90 | 91 | 91 | 91 | 79 | 77 | 78 | 86 | 86 | 86 | 84 | ||||||
MADA | 90 | 92 | 90 | 80 | 80 | 79 | 91 | 91 | 91 | 92 | 92 | 92 | 82 | 82 | 82 | 85 | 85 | 85 | 86 |
如图3所示为不同方法对目标域数据集HSDD_N1的损失函数曲线和准确率曲线. 为了验证所提方法的有效性,在HSDD_N3⇒HSDD_N1迁移任务中,将所提方法与DANN、ASAN和GVB方法进行对比. 可以看到,DANN方法的准确率曲线上升较快,但损失函数曲线的波动较为剧烈. ASAN和GVB方法的损失函数曲线收敛速度较DANN方法更快,且收敛后更为稳定. 所提方法的损失函数曲线收敛较快,并且准确率曲线收敛值高于其他域适应方法,证明MADA方法对目标域有更好的泛化效果.
图 3
图 3 不同方法目标域的损失曲线和准确率曲线
Fig.3 Loss and accuracy of target domain for different methods
3.2. 特征可视化结果与分析
如图4所示,为了进一步验证所提方法的有效性,利用T-SNE方法将MADA方法与不同对比方法对目标域数据集HSDD_N2的特征进行可视化.t-SNE[30]方法能够将模型学习到的目标域高维特征向量映射为二维特征向量,并在二维嵌入空间中对目标域特征分布进行可视化. 在HSDD_N1⇒ HSDD_N2迁移任务中,对比基于直推的Resnet50方法、DAN、JAN、DANN、ASAN和MADA方法. 基于Resnet50的直推方法对划痕和油点缺陷提取的特征在嵌入空间中的类间距离较小. DAN方法对边缘缺陷提取的特征在嵌入空间中的类内距离较基于Resnet50的直推方法更小,但对划痕、网纹和油点缺陷提取的特征在嵌入空间中的相似度依然较高. 针对划痕、油点和油污缺陷,DANN方法较DAN方法在嵌入空间中的类内距离更为紧凑,但边缘和网纹缺陷提取的特征相似度较高. 针对网纹缺陷,ASAN方法对提取的特征的类内间距较DANN和DAN方法更小,但渐变与油点缺陷在嵌入空间中存在远离聚类中心的异常样本. GVB方法较ASAN方法拉近了油点缺陷特征的类内距离,但边缘缺陷提取的特征的散度较大. 所提方法对目标域所有缺陷特征在嵌入空间中的类内距相比其他方法更为紧凑,类间距更大,验证了MADA方法对目标域数据提取的特征的具有类别区分性.
图 4
图 4 不同方法针对目标域提取的特征可视化结果
Fig.4 Feature visualization results extracted by different methods for target domain
为了验证所提方法是否提取目标域缺陷的特征表示,利用Grad-CAM[31]方法对模型所提取的目标域特征进行可视化. Grad-CAM方法通过中间层对某一类别的偏导数得到特征权重,并利用特征权重对特征图进行加权求和,得到模型类别对图像不同区域的关注程度. 不同域适应方法在SSDD_1⇒SSDD_3迁移任务中对目标域SSDD_3的可视化结果如图5所示. 可以看出,DAN方法易于受到背景纹理的干扰,并且凹坑和划痕类别的关注区域没有集中在缺陷区域. JAN方法对于划痕类别的识别效果优于DAN方法,所关注区域集中在划痕缺陷区域,但对于2道划痕的关注权重不同. DANN方法相较于JAN方法对凹坑和片状类别的关注区域更集中在缺陷区域. ASAN方法对划痕类别的识别效果优于DANN方法,对于划痕区域有更高的关注度. GVB方法相较于ASAN方法对划痕类别的关注区域更集中在缺陷本身,并对2道划痕有相同的权重. MADA方法的关注区域更加集中在缺陷范围内,并且背景区域有更低的关注程度,验证了MADA方法能够更关注目标域的缺陷区域,对跨场景的带钢缺陷识别具有良好的泛化性能.
图 5
图 5 不同方法针对目标域的提取特征热力图
Fig.5 Heat map of features extracted by different methods for target domain
3.3. 消融实验
如表3所示,为了进一步探索光照损失函数中曝光损失、空间损失和平滑度损失的作用,为HSDD_N1 ⇒ HSDD_N2设计消融实验,其中√表示在实验中添加相应损失函数. 可以看出,单独使用曝光损失、空间损失和平滑度损失的F1指数相比于不使用损失函数的分别高0.0724、0.0297和0.0164,说明3个损失函数均有利于提高模型的泛化性,其中曝光损失的贡献最大. 使用曝光损失和空间损失的F1指数比不使用损失函数的高0.1209,比仅使用曝光损失的高0.0485. 共同使用3个损失函数的F1指数达到98.20%,相比于不使用损失函数的高0.1309. 因此,同时使用曝光损失、空间损失和平滑度损失能够增强模型对最终分类结果的性能,实现两域图像的像素级光照分布对齐.
表 3 光照损失函数的消融实验
Tab.3
| | | P/% | R/% | F/% |
— | — | — | 90.04 | 86.07 | 85.11 |
√ | — | — | 94.30 | 92.93 | 92.35 |
— | √ | — | 90.83 | 88.76 | 88.08 |
— | — | √ | 91.29 | 88.27 | 86.75 |
√ | √ | — | 97.36 | 97.03 | 97.20 |
√ | — | √ | 96.27 | 95.50 | 95.56 |
— | √ | √ | 90.92 | 88.10 | 86.99 |
√ | √ | √ | 98.36 | 98.03 | 98.20 |
4. 结 语
提出新的端到端的多级对齐域适应神经网络模型,分别针对源域与目标域数据进行像素级光照分布对齐与特征级分布对齐,实现针对跨场景条件下的无监督带钢表面缺陷识别. 通过提出的无参考像素级光照分布对齐模块和设计的光照校正损失函数,将源域图像和目标域图像投影到相同的光照子空间,实现两域数据的像素级光照分布对齐. 利用纹理特征提取器和特征级域鉴别器进行对抗学习,实现两域数据的纹理分布对齐. 在邯郸钢铁集团带钢表面缺陷数据集及其虚拟数据集、谢维尔钢铁集团带钢表面缺陷数据集上分别进行实验验证,实验结果表明本研究所提方法对跨场景的带钢表面缺陷识别具有更好的泛化性. 实际场景中,存在光照和纹理之外的其他因素,能够影响模型跨场景的泛化能力,例如拍摄角度、产品类型和摄像参数等,下一步计划对如拍摄角度和产品类型的其他影响因素开展研究,以进一步提高模型跨场景的泛化能力.
参考文献
Research on surface detects on line detection system for steel plate using computer vision
[J].
Surface defect detection via entity sparsity pursuit with intrinsic priors
[J].DOI:10.1109/TII.2019.2917522 [本文引用: 1]
Steel surface defect classification using multi-resolution empirical mode decomposition and LBP
[J].
Steel strip surface defect identification using multiresolution binarized image features
[J].DOI:10.1007/s11668-020-01012-7 [本文引用: 1]
Application of wavelet transform to damage identification in the steel structure elements
[J].
A multi-step anomaly detection strategy based on robust distances for the steel industry
[J].DOI:10.1109/ACCESS.2021.3070659 [本文引用: 1]
A fast regularity measure for surface defect detection
[J].DOI:10.1007/s00138-011-0403-3 [本文引用: 1]
隐马尔可夫树模型在带钢表面缺陷在线检测中的应用
[J].DOI:10.3901/JME.2013.22.034 [本文引用: 1]
Application of hidden Markov tree model to on-line detection of surface defects for steel strips
[J].DOI:10.3901/JME.2013.22.034 [本文引用: 1]
Automatic metallic surface defect detection and recognition with convolutional neural networks
[J].
An end-to-end steel surface defect detection approach via fusing multiple hierarchical features
[J].
PGA-net: pyramid feature fusion and global context attention network for automated surface defect detection
[J].
NB-CNN: deep learning-based crack detection using convolutional neural network and naïve bayes data fusion
[J].DOI:10.1109/TIE.2017.2764844 [本文引用: 1]
基于双向特征融合卷积神经网络的液晶面板缺陷检测算法
[J].
Defect detection algorithm of liquid crystal panel based on bidirectional feature fusion convolution neural network
[J].
Domain adaptation for automatic OLED panel defect detection using adaptive support vector data description
[J].DOI:10.1007/s11263-016-0953-y [本文引用: 1]
Addressing materials’ microstructure diversity using transfer learning
[J].DOI:10.1038/s41524-021-00695-2 [本文引用: 1]
Visualizing data using t-SNE
[J].
/
〈 |
|
〉 |
