基于无监督域适应的跨场景带钢表面缺陷识别

doi:10.3785/j.issn.1008-973X.2023.03.005

基于无监督域适应的跨场景带钢表面缺陷识别

刘坤^,, 杨晓松

河北工业大学人工智能与数据科学学院，天津 300131

Surface defect identification of cross scene strip based on unsupervised domain adaptation

LIU Kun^,, YANG Xiao-song

College of Artificial Intelligence, Hebei University of Technology, Tianjin 300131, China

收稿日期: 2022-03-10

基金资助:

国家自然科学基金资助项目（62173124）；河北省自然科学基金资助项目（F2019202305）

Received: 2022-03-10

Fund supported:

国家自然科学基金资助项目（62173124）；河北省自然科学基金资助项目（F2019202305）

作者简介 About authors

刘坤（1980—），女，副教授，从事图像处理、机器视觉研究.orcid.org/0000-0002-5034-9249.E-mail：liukun@hebut.edu.cn , E-mail：liukun@hebut.edu.cn

摘要

深度学习模型面对跨场景的带钢表面缺陷识别时存在泛化性能差的问题，为此提出端到端的多级对齐域适应神经网络模型(MADA)，实现源域与目标域数据的像素级光照分布对齐与特征级纹理分布对齐. MADA通过无参考像素级光照分布对齐模块和光照校正损失函数，将源域与目标域数据投影到光照子空间，实现源域与目标域的像素级光照分布对齐. 利用纹理特征提取器和特征级域鉴别器的对抗学习，实现源域和目标域数据的纹理分布对齐. 实验在邯郸钢铁集团带钢表面缺陷数据集的F1指数达到98%，在谢维尔钢铁集团带钢表面缺陷数据集上的F1指数达到86.6%. 实验结果表明，与其他域适应方法相比，所提方法具有更好的泛化性能.

关键词： 带钢表面缺陷识别 ; 域适应 ; 跨场景 ; 泛化 ; 光照 ; 纹理

Abstract

In view of the poor generalization performance of the deep learning model at surface defect identification of cross scene strip, an end-to-end multi-level aligned domain adaptation neural network (MADA) was proposed, which could achieve pixel-level illumination distribution alignment and feature-level texture distribution alignment, respectively. The source and target domain data were projected into the illumination subspace by MADA to achieve the pixel-level illumination distribution alignment, through the non-reference pixel-level illumination distribution alignment module and the illumination loss function. The adversarial learning of texture feature extractor and feature-level domain discriminator were used to achieve the texture distribution alignment of the source and target domain. The experiment achieved an F1 measure of 98% in Handan strip surface defect dataset and 86.6% in Severstal strip surface defect dataset. Experimental results showed that the proposed method has better generalization performance than other domain adaptation methods.

Keywords： strip surface defect identification ; domain adaptation ; cross scene ; generalization ; illumination ; texture

PDF (1277KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘坤, 杨晓松. 基于无监督域适应的跨场景带钢表面缺陷识别. 浙江大学学报(工学版)[J], 2023, 57(3): 477-485 doi:10.3785/j.issn.1008-973X.2023.03.005

LIU Kun, YANG Xiao-song. Surface defect identification of cross scene strip based on unsupervised domain adaptation. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 477-485 doi:10.3785/j.issn.1008-973X.2023.03.005

带钢是航空航天、机械和汽车等行业的主要原材料. 在带钢的生产过程中，由于工厂环境、轧辊的滚动速度与带钢运行速度不一、钢坯材料等因素的影响，其表面不可避免地存在一些缺陷^[1]. 带钢表面缺陷会对相关产品的外观造成影响，降低产品的抗腐蚀性、抗疲劳强度. 基于视觉的带钢表面质量检测技术对于提升产品质量具有重要意义. 视觉检测技术是带钢表面质量检测的常用手段. 传统的缺陷识别方法依赖人工手动设计的视觉特征，主要包括统计法^[2-4]、频谱法^[5-7]、模型法^[8]等. Tsai等^[9]提出基于加权协方差矩阵的度量纹理规则性的方法，实现塑料和皮革产品的表面缺陷识别. Boudani等^[10]提出基于小波的带钢表面缺陷检测方法. 徐科等^[11]提出基于多尺度融合的小波域隐马尔科夫树模型，实现对带钢表面缺陷的识别. 基于深度学习的缺陷检测方法能够自动提取图像特征^[12]. He等^[13]提出基于多级特征融合的带钢表面缺陷检测网络. Dong等^[14]提出基于多尺度特征融合和全局上下文注意力的缺陷分割网络. Chen等^[15]提出基于朴素贝叶斯和CNN的缺陷识别方法.

虽然基于深度学习的目标识别方法在封闭场景下取得良好的效果，但它高度依赖大规模高质量标注数据，在很多场景下难以获得大规模高质量数据集. 以域适应为代表的迁移学习技术通过挖掘和迁移跨域相似场景中的共享知识，可以实现无监督模式下的目标识别^[16-17]. Liu等^[18]提出基于任务加权机制和图像修复的域适应网络，实现由荧光显微镜图像到真实组织病理学图像的分割. Zheng等^[19]提出基于注意力特征对齐和聚类的域适应网络，实现由正常天气场景到大雾天气场景的目标检测. Sindagi等^[20]提出基于支持向量描述的域适应缺陷检测模型，实现针对不同光照场景下的有机发光二极管的缺陷检测. Goetz等^[21]提出基于自编码器的域适应缺陷方法，实现跨场景下相钢显微图像中的板条形贝氏体检测. Fan等^[22]提出基于图像增强的域适应缺陷检测方法，利用新生成的不同纹理和背景道路缺陷图像，实现对复杂的道路坑洼场景的分割任务.

虽然上述研究通过迁移跨域相似场景中的共享知识，实现了特定场景下的无监督目标检测与识别，但是针对动态跨场景迁移方法的研究较少. 以某种特定类型的工业产品为例，不同成像条件（包括相机类型、参数、环境光照等）下获得的图像数据分布之间存在较大差异，如何将在有标签源域数据上学到的知识迁移到多种不同成像条件下的目标域数据，实现无监督表面缺陷识别是亟待解决的研究热点问题. 本研究针对跨场景的带钢表面缺陷识别问题展开.

1. 多级对齐域适应神经网络模型

如图1所示为本研究提出的多级对齐域适应神经网络模型(multi-level alignment domainadaptation neural network, MADA)结构，共包含光照分布对齐模块 ${{M}}$，纹理特征提取器 ${{F}}$，分类器 ${{C}}$，像素级域鉴别器 $ {{{D}}_{{\text{illum}}}} $和特征级域鉴别器 ${{{D}}_{{\text{feat}}}}$共5个模块. 针对给定源域数据 ${D_{\rm{s}}} = \{ {X_{\rm{s}}},Y\} $和目标域数据 ${D_{\rm{t}}} = \{ {X_{\rm{t}}}\} $，光照分布对齐模块和纹理特征提取器分别对齐源域和目标域的光照和纹理分布，以实现跨场景带钢表面缺陷识别.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 多级对齐域适应神经网络模型结构

Fig.1 Structure of multi-level alignment domain adaptation neural network

1.1. 无参考像素级光照分布对齐

受Guo等^[23]提出的低光照图像增强方法的启发，设计无参考像素级光照分布对齐模块，旨在实现源域和目标域数据在光照子空间下的光照分布对齐. 对于给定的两域图像，模块先提取图像的像素级光照特征，再对图像中的每个像素估计非线性校正参数，并建立不同光照场景下的图像到光照子空间的映射曲线，最后通过光照分布对齐模块和像素级域鉴别器进行对抗训练，实现源域和目标域的光照分布对齐. 光照分布对齐模块由光照特征提取器和光照校正模块2个部分组成. 对于源域输入图像 ${{\boldsymbol{I}}_{\text{s}}}$和目标域输入图像 ${{\boldsymbol{I}}_{\text{t}}}$，光照特征提取器提取像素级光照特征 ${\boldsymbol{P}}$，其中 ${\boldsymbol{P}}$为与图像的尺寸一致的多通道二维矩阵. 光照特征提取器是由7层对称结构的卷积层构成的卷积神经网络，每层由8个大小为 $3 \times 3$的卷积核构成. 光照校正模块根据获得的多通道光照特征 ${\boldsymbol{P}}$将源域和目标域图像映射到光照子空间，分别得到两域输出图像 ${{\boldsymbol{I}}_{{\text{sn}}}}$、 ${{\boldsymbol{I}}_{{\text{tn}}}}$. 光照校正模块包含多层光照校正函数，每层校正函数以光照特征 ${\boldsymbol{P}}$的1个通道作为参数，调整光照校正函数的幅度和输入图像的曝光率. 光照校正函数为

(1) $ \begin{split} & {{\text{LE}}({{\boldsymbol{I}}_{n - 1}}(x);{{\boldsymbol{P}}_n}(x)) } = {{\boldsymbol{P}}_n}(x)/2 \times {{\boldsymbol{I}}^2}_{n - 1}(x)+ \\ & \qquad\qquad \qquad \qquad {\text{ }}{{\boldsymbol{I}}_{n - 1}}(x) - {{\boldsymbol{P}}_n}(x)/2. \\ \end{split} $

式中： $ {\text{LE}} $为校正函数， $ x $为像素坐标， $ n $为校正次数， ${{\boldsymbol{P}}_n} $为像素级光照特征的第 $ n $个通道的二维矩阵，其中每个元素 $\in [ - 1,1] $. ${{\boldsymbol{I}}_{{n}}}$为第 $ n $代校正生成的图像. 校正函数 $ {\text{LE}} $是单调可微函数，能够保持输入图像和输出图像中相邻区域对比度差异的一致性，并且校正函数输入图像和输出图像的像素值范围为[−1,1]，能够防止像素值溢出导致的信息丢失.

1.2. 纹理分布对齐

针对源域和目标域的纹理分布，利用纹理特征提取器提取两域数据的纹理特征分布，并将纹理特征提取器与特征级域鉴别器进行对抗学习，以对齐源域和目标域的纹理分布. 1）纹理特征提取器提取源域图像 ${{\boldsymbol{I}}_{\text{s}}}$的特征 $F({{\boldsymbol{I}}_{\text{s}}})$、目标域图像 ${{\boldsymbol{I}}_{\text{t}}}$的特征 $F({{\boldsymbol{I}}_{\text{t}}})$、光照子空间中源域图像 ${{\boldsymbol{I}}_{{\text{sn}}}}$的特征 $F({{\boldsymbol{I}}_{{\text{sn}}}})$、光照子空间中目标域图像 ${{\boldsymbol{I}}_{{\text{tn}}}}$的特征 $F({{\boldsymbol{I}}_{{\text{tn}}}})$；2）特征级域鉴别器 ${D_{{\text{feat}}}}$最小化对抗损失函数混淆 $F({{\boldsymbol{I}}_{\text{s}}})$、 $F({{\boldsymbol{I}}_{\text{t}}})$、 $F({{\boldsymbol{I}}_{{\text{sn}}}})$和 $F({{\boldsymbol{I}}_{{\text{tn}}}})$，实现源域和目标域的纹理特征分布对齐；3）经过光照分布对齐和纹理分布对齐，得到源域和目标域的领域不变的特征表示，实现源域向目标域的特征分布对齐.

1.3. 损失函数设计

为了实现源域和目标域的无参考像素级光照分布对齐与纹理分布对齐，设计由光照校正损失函数、对抗损失函数和分类损失函数构成的损失函数.

1.3.1. 光照校正损失函数

光照校正损失函数 ${L_{{\text{img}}}}$由1组无参考的损失函数构成，包括将图像投影到光照子空间的曝光损失函数 ${L_{{\text{exp}}}}$和2个以约束输出图像与输入图像差异的损失函数，分别为空间损失函数 ${L_{{\text{spa}}}}$和平滑度损失函数 ${L_{{\text{tuA}}}}$. 曝光损失函数 ${L_{{\text{exp}}}}$度量输出图像局部区域的曝光程度与光照子空间中的曝光程度 $E$之间的距离，以将不同光照分布的图像投影到相同的光照子空间. 曝光损失函数为

(2) $ \begin{array}{*{20}{c}} {{L_{{\text{exp}}}} = \dfrac{1}{A}\displaystyle\mathop \sum \limits_{k = 1}^A \left| {{Y_k} - E} \right|} \end{array}. $

式中： $A$为不重叠局部区域，大小设置为 $16 \times 16$； $Y$为输入图像局部区域的平均像素值. 空间损失函数 ${L_{{\text{spa}}}}$度量输入图像和输出图像在相邻局部区域上的对比度差异，以增强输入图像和输出图像的空间一致性，空间损失函数为

(3) $ {L}_{\text{spa}}\text=\left\{ \begin{array}{l}\dfrac{1}{K}{\displaystyle \sum _{i}^{K} }{\displaystyle \sum _{j}^{\Omega \left(i\right)} } \dfrac{1}{2}{\left(\left|{Y}_{i}-{Y}_{j}\right|-\left|{I}_{i}-{I}_{j}\right|\right)}^{2}, \\ \qquad \qquad \left|\left|{Y}_{i}-{Y}_{j}\right|-\left|{I}_{i}-{I}_{j}\right|\right|\leqslant \delta ; \\ \dfrac{1}{K}{\displaystyle \sum _{i}^{K} }{\displaystyle \sum _{j}^{\Omega \left(i\right)} }\delta \left|\left|{Y}_{i}-{Y}_{j}\right|-\left|{I}_{i}-{I}_{j}\right|\right|-\dfrac{1}{2}\delta , \\ \qquad \qquad 其他.\end{array}\right. $

式中： $K$为图像的局部区域； $\varOmega \left( i \right)$为与之相邻的4个区域； $I$为输出图像局部区域的像素平均值，局部区域的大小设置为 $4 \times 4$. 平滑度损失函数 ${L_{{\text{tuA}}}}$度量校正函数的输出图像在 $x$方向和 $y$方向上的梯度，以增强输出图像的平滑性.

(4) $ {{L_{{\text{tuA}}}} = \dfrac{1}{N}\mathop \sum \limits_{n = 1}^N {{(\left| {{\nabla _x}{{\boldsymbol{A}}}_n\left| + \right|{\nabla _y}{{\boldsymbol{A}}}_n} \right|)}^2}} . $

式中： $N$为迭代次数， ${\nabla _x}$为图像水平方向的梯度变化， ${\nabla _y}$为图像垂直方向的梯度变化，A_n的第n次迭代生成的图像. 光照校正损失函数为

(5) $ {L_{{\text{img}}}} = {L_{{\text{exp}}}}+{\alpha _1}{L_{{\text{spa}}}}+{\alpha _2}{L_{{\text{tuA}}}}{\text{.}} $

式中： $ {\alpha _1} $为空间损失的权重因子， $ {\alpha _2} $为平滑度损失的权重因子.

1.3.2. 对抗损失函数

对抗损失函数 ${L_{{\text{adv}}}}$度量像素级域鉴别器与特征级域鉴别器对两域数据的领域预测值和两域数据的领域标签之间的差异性，以对齐源域和目标域图像的光照分布和纹理分布. 对抗损失函数包括像素级对抗损失函数 $ {L_{\text{p}}} $和特征级对抗损失函数 ${L_{\text{f}}}$：

(6) $ \left.\begin{split} & {{L_{\rm{p}}} = {E_{x\sim{p_{\text{s}}}}}\left[ {\lg {D_{\text{p}}}\left( {M\left( x \right)} \right)} \right]} + {E_{x\sim{p_{\text{t}}}}}\left[ {\lg {D_{\text{p}}}\left( {M\left( x \right)} \right)} \right] ，\\ & {L_{\text{f}}} { = {E_{x\sim{p_{\text{s}}},{p_{{\text{xn}}}}}}\left[ {\lg {D_{\text{f}}}\left( {M\left( x \right)} \right)} \right]} + {E_{x\sim{p_{\text{t}}},{p_{{\text{tn}}}}}}\left[ {\lg {D_{\text{f}}}\left( {M\left( x \right)} \right)} \right]{\text{.}} \\ \end{split}\right\} $

式中： $ {p_{\text{s}}} $为源域的数据分布， $ {p_{\text{t}}} $为目标域的数据分布， $ {p_{{\text{sn}}}} $为光照子空间中源域的数据分布， $ {p_{{\text{tn}}}} $为光照子空间中目标域的数据分布. 对抗损失函数为

(7) $ {L_{{\text{adv}}}} = {L_{\text{p}}}+\beta {L_{\text{f}}}. $

式中： $ \;\beta $为特征级域鉴别器损失的权重因子.

1.3.3. 分类损失函数

分类损失函数 ${L_{{\text{cls}}}}$度量分类器对源域数据的类别预测值和源域数据的类别标签之间的差异性. 分类损失函数为

(8) $ \begin{split} {L_{{\text{cls}}}} =& - \frac{1}{H} \displaystyle \sum\limits_{i = 1}^H [ {y_i}\lg C(F\left( {{{\boldsymbol{x}}_{{\rm{s}},i}}} \right))+ {y_i}\lg C(F\left( {{{\boldsymbol{x}}_{{\text{sn}},i}}} \right))]. \\ \end{split} $

式中： $ {{\boldsymbol{x}}_{\text{s}}} $为源域图像， $ {{\boldsymbol{x}}_{{\rm{sn}}}} $为光照子空间中的源域图像， $ y $为源域的类别标签.

综上，本研究设计的整体损失函数为

(9) $ {L_{{\text{all}}}} = {L_{{\text{cls}}}}+{\lambda _1}{L_{{\text{adv}}}}+{\lambda _2}{L_{{\text{img}}}}{\text{.}} $

式中： $ {\lambda _1} $为对抗损失函数的权重因子， $ {\lambda _2} $为光照校正损失函数的权重因子.

2. 实验验证

2.1. 数据集

为了验证所提方法的有效性，在邯郸钢铁集团的带钢表面缺陷数据集(Handan strip surface defect dataset，HSDD)及根据HSDD虚拟生成的不同光照数据集上对跨场景条件下的带钢表面缺陷识别算法进行性能评估，缺陷图像如图2（a）所示. HSDD数据集包含的缺陷图像数量为1 814张，图像分辨率为240×240，包括322张渐变图像、330张划痕图像、345张油污图像、311张边缘图像、 276张网纹图像和230张油点图像. 利用伽马校正方法对HSDD数据集中的图像进行亮度调整，生成不同光照场景下的虚拟子数据集HSDD_N1、HSDD_N2和HSDD_N3，子数据集的伽马参数分别为0.7、1和1.5. 在光照分布更加复杂的谢韦尔钢铁公司带钢表面缺陷数据集(Severstal strip surface defect dataset，SSDD)上对所提方法进行实验验证，缺陷图像如图2（b）所示. SSDD数据集包含12 568张训练图像，图像分辨率为1 600×256，有凹坑、夹杂、划痕和补丁共4类缺陷. 验证分3个步骤：1）根据图像灰度的高斯分布将SSDD划分为3个场景下的子数据集SSDD_1、SSDD_2和SSDD_3，子数据的高斯分布的均值分别为[0.2, 0.3]、[0.3, 0.4]和[0.4, 0.5]，方差范围为[0, 0.1]. 2）3个子数据中的夹杂缺陷图像数量小于100张，较其他3类缺陷数量少，划痕缺陷图像大于3 000张，较其他类别缺陷数量多，麻点和片状缺陷数量分别为450张和500张. 为了保证数据集类别数量均衡，仅使用凹坑、划痕和补丁3类缺陷，并利用随机采样组成子数据集. 3）将图像分辨率调整为256×256. 3个数据子集中包括450张凹坑图像、500张划痕图像和500张片状图像.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 不同光照场景的带钢表面缺陷数据集

Fig.2 Strip surface defect datasets with different lighting scenarios

2.2. 实验环境与参数设置

本实验的计算机硬件配置为I7-11700K，NVIDIA GeForce RTX 2080Ti，操作系统为Ubuntu20.04. 网络模型使用PyTorch框架搭建，共训练100代，批量大小设置为32. 使用SGD优化器对模型进行优化，初始学习率为0.000 1，动量为0.9，衰减系数为0.000 5. 损失函数的参数分别设置为 $ {\alpha _1} = 0.9 $、 $ {\;\alpha _2} = 0.5 $、 $\; \beta = 0.5 $、 $ {\lambda _1} = 0.5 $、 $ {\lambda _2} = 0.8 $. 使用ResNet50作为特征提取器，加载在ImageNet上的预训练分类权重作为初始权重. 光照特征提取器最后一层卷积层的输出通道数设置为8.

2.3. 评价指标

为了对所提方法的性能进行统计性能评估，采用准确率、召回率和F1指数评估不同方法在数据集上的有效性.

(10) $ P\text=\frac{\text{TP}}{\text{TP+FP}} \times 100 {\text{%}} \text{，}R\text=\frac{\text{TP}}{\text{TP+FN}}\times 100 {\text{%}} . $

式中：P为精准率，R为召回率，TP为实际阳性且预测为阳性的样本数，FN为实际阳性且预测为阴性的样本数，FP为实际为阴性且预测为阳性的样本数. F1指数将精准率和召回率相结合，使模型的分类性能评价更具合理性，计算式为

(11) $ \begin{array}{*{20}{c}} {F = \dfrac{{2PR}}{{{{P}}+{{R}}}}} \times 100 {\text{%}} \end{array}. $ \[ \times \]

3. 实验结果分析

3.1. 统计性能对比

分别在HSDD和SSDD数据集上进行所提方法的有效性实验验证，并将所提方法与基于Resnet50^[24]的直推方法和现有的领域自适应方法进行比较. 对比的域适应方法包括基于MK-MMD的DAN^[25]方法、基于JMMD的JAN^[26]方法、基于领域鉴别器的DANN^[27]方法、基于统计的ASAN^[28]方法和基于桥连接的GVB^[29]等.

在HSDD数据集中共设计6个迁移任务，分别为HSDD_N1⇒HSDD_N2、HSDD_N1⇒HSDD_N3、HSDD_N2⇒HSDD_N1、HSDD_N2⇒HSDD_N3、HSDD_N3→HSDD_N1和HSDD_N3⇒HSDD_N2,其中HSDD_N1 ⇒ HSDD_N2表示以HSDD_N1数据集为源域、以HSDD_N2数据集为目标域的迁移任务. 每个迁移任务中所有的源域和随机抽取70%的目标域进行训练，30%的目标域数据用于测试. 6个迁移任务中目标域的精准率、召回率和F1指数如表1所示. 可以看出，基于Resnet50的直推方法的泛化能力较差，在不同迁移任务中获得的平均F1指数仅为51%. DAN方法使用MK-MMD在特征层对齐两域数据的特征分布，在不同数据集上的平均F1指数比基于Resnet50的直推方法高0.26. JAN方法利用JMMD在多个特征层对齐两域数据的特征分布，在不同数据集上获得的平均F1指数较DAN方法高0.04. DANN方法对齐两域数据的边缘分布，在不同数据集上获得的平均F1指数较JAN方法高0.11. ASAN方法在DANN方法的基础上，对齐两域数据的条件分布，在HSDD_N1⇒HSDD_N3中的F1指数较DANN方法高0.03. GVB方法在DANN方法的基础之上，利用桥连接降低领域私有特征对领域不变特征的影响，在不同数据集上获得的平均F1指数较ASAN高0.02. 所提方法在不同数据集上的F1指数较其他方法均有提高，平均F1指数较GVB方法高0.04，验证了MADA方法对跨场景的带钢表面缺陷识别具有良好的泛化性能.

表 1 不同方法在HSDD上的评价指标对比

Tab.1 Comparison of evaluation indicators with different methods on HSDD %

方法	HSDD_N1⇒HSDD_N2			HSDD_N1⇒HSDD_N3			HSDD_N2⇒HSDD_N1			HSDD_N2⇒HSDD_N3			HSDD_N3⇒HSDD_N1			HSDD_N3⇒HSDD_N2			$ \bar F $
方法	P	R	F	P	R	F	P	R	F	P	R	F	P	R	F	P	R	F	$ \bar F $
ResNet50	53	43	47	31	36	35	76	50	49	62	60	68	39	39	39	82	72	69	51
DAN	89	86	86	62	45	40	87	84	85	91	88	88	79	66	68	96	96	96	77
JAN	85	85	85	62	61	61	90	90	90	88	87	87	74	74	74	90	90	90	81
DANN	94	94	94	91	91	91	92	92	92	94	94	94	92	92	92	92	92	92	92
ASAN	92	92	92	94	94	94	91	91	91	94	94	95	90	90	90	92	93	93	92
GVB	95	95	95	96	96	96	95	95	95	96	96	97	91	91	90	93	93	93	94
MADA	98	99	99	99	99	99	98	98	98	98	98	98	97	97	97	98	98	98	98

新窗口打开| 下载CSV

在SSDD数据集中共设计6个迁移任务，分别为SSDD_1⇒SSDD_2、SSDD_1⇒SSDD_3、SSDD_2⇒SSDD_1、SSDD_2⇒SSDD_3、SSDD_3 ⇒SSDD_1和SSDD_3⇒SSDD_2，其中SSDD_1 ⇒SSDD_2表示以SSDD_1为源域、SSDD_2为目标域的迁移任务. 每个迁移任务中所有的源域和随机抽取70%的目标域进行训练，30%的目标域数据用于测试. 在SSDD数据集中6个迁移任务的目标域测试集的精准率、召回率和F1指数如表2所示. 可以看出，基于Resnet50的直推方法在不同迁移任务中获得的平均F1指数仅为72%. DAN方法在不同数据集上获得的平均F1指数较Resnet50高0.05，说明以DAN为代表的域适应方法提高了源域在目标域的泛化效果. JAN方法不同数据集上获得的平均F1指数较DAN方法高0.01. DANN方法在SSDD_1⇒SSDD_3中的F1指数和在不同数据集上获得的平均F1指数较JAN分别高0.07和0.03. ASAN方法在不同数据集上获得的平均F1指数较DANN方法高0.02. GVB方法在不同数据集上获得的平均F1指数较ASAN方法高0.01. 所提方法在不同数据集上获得的平均F1指数较GVB方法高0.02. 综上，MADA方法针对跨场景的带钢表面缺陷识别具有更好的泛化性能.

表 2 不同方法在SSDD上的评价指标对比

Tab.2 Comparison of evaluation indicators with different methods on SSDD %

方法	SSDD_1⇒SSDD_2			SSDD_1⇒SSDD_3			SSDD_2⇒SSDD_1			SSDD_2⇒SSDD_3			SSDD_3⇒SSDD_1			SSDD_3⇒SSDD_2			$ \bar F $
方法	P	R	F	P	R	F	P	R	F	P	R	F	P	R	F	P	R	F	$ \bar F $
ResNet50	78	78	78	60	61	59	80	72	73	79	79	79	67	67	66	82	77	77	72
DAN	84	84	84	67	66	66	78	78	78	85	85	85	69	69	69	83	84	84	77
JAN	84	83	83	65	65	65	84	84	84	84	84	84	70	70	70	84	84	84	78
DANN	82	82	82	72	73	72	88	86	86	88	88	88	74	72	73	85	85	85	81
ASAN	88	87	88	75	73	74	89	89	86	91	91	91	75	75	75	85	85	85	83
GVB	88	88	87	76	75	76	90	90	90	91	91	91	79	77	78	86	86	86	84
MADA	90	92	90	80	80	79	91	91	91	92	92	92	82	82	82	85	85	85	86

新窗口打开| 下载CSV

如图3所示为不同方法对目标域数据集HSDD_N1的损失函数曲线和准确率曲线. 为了验证所提方法的有效性，在HSDD_N3⇒HSDD_N1迁移任务中，将所提方法与DANN、ASAN和GVB方法进行对比. 可以看到，DANN方法的准确率曲线上升较快，但损失函数曲线的波动较为剧烈. ASAN和GVB方法的损失函数曲线收敛速度较DANN方法更快，且收敛后更为稳定. 所提方法的损失函数曲线收敛较快，并且准确率曲线收敛值高于其他域适应方法，证明MADA方法对目标域有更好的泛化效果.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同方法目标域的损失曲线和准确率曲线

Fig.3 Loss and accuracy of target domain for different methods

3.2. 特征可视化结果与分析

如图4所示，为了进一步验证所提方法的有效性，利用T-SNE方法将MADA方法与不同对比方法对目标域数据集HSDD_N2的特征进行可视化.t-SNE^[30]方法能够将模型学习到的目标域高维特征向量映射为二维特征向量，并在二维嵌入空间中对目标域特征分布进行可视化. 在HSDD_N1⇒ HSDD_N2迁移任务中，对比基于直推的Resnet50方法、DAN、JAN、DANN、ASAN和MADA方法. 基于Resnet50的直推方法对划痕和油点缺陷提取的特征在嵌入空间中的类间距离较小. DAN方法对边缘缺陷提取的特征在嵌入空间中的类内距离较基于Resnet50的直推方法更小，但对划痕、网纹和油点缺陷提取的特征在嵌入空间中的相似度依然较高. 针对划痕、油点和油污缺陷，DANN方法较DAN方法在嵌入空间中的类内距离更为紧凑，但边缘和网纹缺陷提取的特征相似度较高. 针对网纹缺陷，ASAN方法对提取的特征的类内间距较DANN和DAN方法更小，但渐变与油点缺陷在嵌入空间中存在远离聚类中心的异常样本. GVB方法较ASAN方法拉近了油点缺陷特征的类内距离，但边缘缺陷提取的特征的散度较大. 所提方法对目标域所有缺陷特征在嵌入空间中的类内距相比其他方法更为紧凑，类间距更大，验证了MADA方法对目标域数据提取的特征的具有类别区分性.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 不同方法针对目标域提取的特征可视化结果

Fig.4 Feature visualization results extracted by different methods for target domain

为了验证所提方法是否提取目标域缺陷的特征表示，利用Grad-CAM^[31]方法对模型所提取的目标域特征进行可视化. Grad-CAM方法通过中间层对某一类别的偏导数得到特征权重，并利用特征权重对特征图进行加权求和，得到模型类别对图像不同区域的关注程度. 不同域适应方法在SSDD_1⇒SSDD_3迁移任务中对目标域SSDD_3的可视化结果如图5所示. 可以看出，DAN方法易于受到背景纹理的干扰，并且凹坑和划痕类别的关注区域没有集中在缺陷区域. JAN方法对于划痕类别的识别效果优于DAN方法，所关注区域集中在划痕缺陷区域，但对于2道划痕的关注权重不同. DANN方法相较于JAN方法对凹坑和片状类别的关注区域更集中在缺陷区域. ASAN方法对划痕类别的识别效果优于DANN方法，对于划痕区域有更高的关注度. GVB方法相较于ASAN方法对划痕类别的关注区域更集中在缺陷本身，并对2道划痕有相同的权重. MADA方法的关注区域更加集中在缺陷范围内，并且背景区域有更低的关注程度，验证了MADA方法能够更关注目标域的缺陷区域，对跨场景的带钢缺陷识别具有良好的泛化性能.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同方法针对目标域的提取特征热力图

Fig.5 Heat map of features extracted by different methods for target domain

3.3. 消融实验

如表3所示，为了进一步探索光照损失函数中曝光损失、空间损失和平滑度损失的作用，为HSDD_N1 ⇒ HSDD_N2设计消融实验，其中√表示在实验中添加相应损失函数. 可以看出，单独使用曝光损失、空间损失和平滑度损失的F1指数相比于不使用损失函数的分别高0.0724、0.0297和0.0164，说明3个损失函数均有利于提高模型的泛化性，其中曝光损失的贡献最大. 使用曝光损失和空间损失的F1指数比不使用损失函数的高0.1209，比仅使用曝光损失的高0.0485. 共同使用3个损失函数的F1指数达到98.20%，相比于不使用损失函数的高0.1309. 因此，同时使用曝光损失、空间损失和平滑度损失能够增强模型对最终分类结果的性能，实现两域图像的像素级光照分布对齐.

表 3 光照损失函数的消融实验

Tab.3 Ablation experiment of light loss function

${L_{{\rm{exp}}} }$	${L_{{\rm{spa}}} }$	${L_{ {\rm{tuA} } } }$	P/%	R/%	F/%
—	—	—	90.04	86.07	85.11
√	—	—	94.30	92.93	92.35
—	√	—	90.83	88.76	88.08
—	—	√	91.29	88.27	86.75
√	√	—	97.36	97.03	97.20
√	—	√	96.27	95.50	95.56
—	√	√	90.92	88.10	86.99
√	√	√	98.36	98.03	98.20

新窗口打开| 下载CSV

4. 结　语

提出新的端到端的多级对齐域适应神经网络模型，分别针对源域与目标域数据进行像素级光照分布对齐与特征级分布对齐，实现针对跨场景条件下的无监督带钢表面缺陷识别. 通过提出的无参考像素级光照分布对齐模块和设计的光照校正损失函数，将源域图像和目标域图像投影到相同的光照子空间，实现两域数据的像素级光照分布对齐. 利用纹理特征提取器和特征级域鉴别器进行对抗学习，实现两域数据的纹理分布对齐. 在邯郸钢铁集团带钢表面缺陷数据集及其虚拟数据集、谢维尔钢铁集团带钢表面缺陷数据集上分别进行实验验证，实验结果表明本研究所提方法对跨场景的带钢表面缺陷识别具有更好的泛化性. 实际场景中，存在光照和纹理之外的其他因素，能够影响模型跨场景的泛化能力，例如拍摄角度、产品类型和摄像参数等，下一步计划对如拍摄角度和产品类型的其他影响因素开展研究，以进一步提高模型跨场景的泛化能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HU L, DUAN F, DING K, et al

Research on surface detects on line detection system for steel plate using computer vision

[J]. Iron and Steel, 2005, 40 (2): 59- 61