基于深度学习三维成型的钢板表面缺陷检测

doi:10.3785/j.issn.1008-973X.2023.03.004

基于深度学习三维成型的钢板表面缺陷检测

兰欢^,, 余建波^,

1. 同济大学机械与能源工程学院，上海 201804

2. 上海市大型构件智能制造机器人技术协同创新中心, 上海 201620

Steel surface defect detection based on deep learning 3D reconstruction

LAN Huan^,, YU Jian-bo^,

1. School of Mechanical Engineering, Tongji University, Shanghai 201804, China

2. Shanghai Collaborative Innovation Center of Intelligent Manufacturing Robot Technology for Large Components, Shanghai 201620, China

通讯作者: 余建波，男，教授. orcid.org/0000-0003-3204-2486. E-mail: jbyu@tongji.edu.cn

收稿日期: 2022-03-27

基金资助:

国家自然科学基金资助项目 (92167107，71777173)；中央高校基本业务经费资助项目

Received: 2022-03-27

Fund supported:

国家自然科学基金资助项目(92167107，71777173)；中央高校基本业务经费资助项目

作者简介 About authors

兰欢（1998—），男，硕士生，从事三维重建、缺陷检测研究.orcid.org/0000-0001-5657-5581.E-mail：13120521883@163.com , E-mail：13120521883@163.com

摘要

为了解决二维检测方法难以检测带有深度信息的缺陷问题，提出全新的三维重建网络. 提出基于多尺度特征增强的级联式三维重建网络(MFE-CasMVSNet)，并与点云数据处理技术结合，用于钢板表面缺陷检测. 为了提高三维重建的精度，提出位置导向的特征增强模块(PFEM)和多尺度特征自适应融合模块(MFAFM)，对特征进行有效提取并减少信息丢失. 提出基于曲率稀疏化的密度聚类方法(CS-DBSCAN)，用于精确识别不同部位的缺陷. 引入三维检测框，实现对缺陷的定位与检测可视化. 实验结果表明，相较于图像几何的重建方法，MFE-CasMVSNet能够更加精确、快速地实现钢板表面的三维重建. 相较于二维检测，三维缺陷检测能够精确获取缺陷的三维形状信息，实现对钢板表面缺陷的多维度检测.

关键词： 表面缺陷检测 ; 深度学习 ; 三维重建 ; 点云分割 ; 缺陷定位

Abstract

A new 3D reconstruction network was proposed in order to resolve the difficulty of 2D detection method to detect defects with depth information. CasMVSNet with multiscale feature enhancement (MFE-CasMVSNet) was combined with the technology of point cloud processing for steel plate surface defect detection. In order to improve the accuracy of 3D reconstruction, a position-oriented feature enhancement module (PFEM) and a multiscale feature adaptive fusion module (MFAFM) were proposed to effectively extract features and reduce information loss. A density clustering method, curvature-sparse-guided density-based spatial clustering of applications with noise (CS-DBSCAN), was proposed for accurately extracting defects in different parts, and the 3D detection box was introduced to locate and visualize defects. Experimental results show that compared with the reconstruction method based on images, MFE-CasMVSNet can realize the 3D reconstruction of steel plate surface more accurately and quickly. Compared with 2D detection, 3D visual defect detection can accurately obtain the 3D shape information of defects and realize the multi-dimensional detection of steel plate surface defects.

Keywords： surface defect detection ; deep learning ; 3D reconstruction ; point cloud segmentation ; defect location

PDF (5141KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

兰欢, 余建波. 基于深度学习三维成型的钢板表面缺陷检测. 浙江大学学报(工学版)[J], 2023, 57(3): 466-476 doi:10.3785/j.issn.1008-973X.2023.03.004

LAN Huan, YU Jian-bo. Steel surface defect detection based on deep learning 3D reconstruction. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 466-476 doi:10.3785/j.issn.1008-973X.2023.03.004

表面缺陷检测是保证钢材质量的重要环节. 传统检测方法主要是通过非自动化的方式进行检测，不但资源成本消耗大，且难以保证检测质量. 计算机视觉检测技术具有非接触、效率高、检测成本低等特点，在工业零件表面缺陷检测领域得到了广泛的研究与应用.

基于机器视觉的检测方法大致分为二维检测和三维检测. 二维检测利用工业相机和光源设备采集钢板表面图像，通过图像处理、模式识别、机器学习对图像进行分析以获得钢板表面的质量状况. 程训等^[1]提出基于图像处理的刀具缺陷检测流程，通过改进边缘检测算法，控制检测误差不超过7%. Chu等^[2-3]将机器学习方法应用于缺陷检测，实现了带钢表面缺陷的有效分类. 众多边缘检测算子的提出也大大促进了二维检测的发展^[4-5]. 随着深度学习的出现，深度神经网络（deep neural networks, DNN）可以提取高度抽象的信息，具有很强的特征表达能力，机器视觉检测任务的效率和准确性都极大提高. He等^[6]将多尺度特征提取融入Faster R-CNN，进行了带钢表面缺陷的检测. Liu等^[7]提出结合注意力机制的长短期记忆网络的缺陷检测方法. 金侠挺等^[8]提出轻量级可伸缩的DeeperLab，实现了钢轨表面缺陷91.46%精度的分割.

三维检测可以大致分为主动式检测和被动式检测. 主动式系统一般采用激光、结构光获取物体的三维信息. Liu等^[9]设计了基于反射的激光三维检测系统，进行了金属表面微裂纹缺陷的测量检测. Gunatilake等^[10]利用立体视觉和红外激光实现对管道内部缺陷毫米级的检测. 孙彬等^[11]采用激光设备结合截面线一阶导矢法实现对叶片型面3 µm 精度的缺陷识别. 被动式测量主要通过解析相机与相片的几何关系获取三维数据. Zhao等^[12]利用单目测量系统通过运动结构恢复算法重建出钢板三维模型，再对点云进行聚类以检测缺陷. 相较于传统的三维视觉，基于深度学习的方法能够以数据驱动的形式，通过多张RGB图像融合如相机位姿在内的参数实现重建，而无需非常复杂的数学过程. Eigen等^[13]通过卷积神经网络直接预测图像的深度信息. Yao等^[14]提出MVSNet，开启了用深度学习进行多视图三维重建的先河. Im等^[15]提出与MVSNet类似的深度平面扫描重建网络DPSNet. Fast-MVSNet^[16]、Point-MVSNet^[17]、CasMVSNet^[18]等网络的提出也极大促进了该领域的发展.

虽然工业零件表面缺陷检测的发展已经相对成熟但仍存在以下问题：1）大多数二维检测方法无法检测深度缺陷；2）三维缺陷检测大多依赖如结构光、激光扫描仪的主动式三维测量设备，该类设备安装复杂且价格昂贵，而被动检测方法耗时长，效率低. 针对上述问题，本研究提出基于多尺度特征增强的级联式三维重建网络(CasMVSNet^[18] with multiscale feature enhancement, MFE-CasMVSNet)并结合点云数据处理技术应用于钢板表面缺陷检测，通过实验验证所提方法的有效性.

1. 基于MFE-CasMVSNet的钢板表面缺陷检测方法

如图1所示，基于MFE-CasMVSNet的钢板表面缺陷检测方法主要分为2个部分. 第一部分为三维成型网络的训练：采用三维重建数据集，1）通过PFEM、MFAFM模块结合FPN^[19]对输入图片进行特征提取，2）利用单应性变换构造匹配代价体(cost volume)，通过回归函数得到像素的深度置信值，结合级联结构对深度信息进行细化，3）得到深度网络模型参数. 第二部分为钢板表面缺陷的三维检测流程：1）将多视角下的钢板图通过运动结构恢复算法(structure from motion，SFM)进行预处理得到如相机位姿在内的参数，利用MFE-CasMVSNet输出重建点云，通过k-means聚类和统计滤波对背景和噪声进行分割，得到钢板表面点云；2）通过基于随机一致采样（random sample consensus，RANSAC）的平面分割和基于曲率稀疏化的密度聚类方法（curvature-sparse-guided density-based spatial clustering of applications with noise，CS-DBSCAN），提取不同位置的缺陷点云；3）通过三维检测框进行缺陷可视化检测和定位.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 本研究所提网络的钢板表面缺陷三维检测流程

Fig.1 Steel plate surface three-dimensional defect detection process by proposed net

1.1. MFE-CasMVSNet

1.1.1. 网络结构

如图2所示， MFE-CasMVSNet分为3个部分：1）FPN结合PFEM和MFAFM的特征提取；2）根据立体匹配原理利用单应性变换构建匹配代价体；3）利用softmax 函数对匹配代价体进行处理，得到深度概率体；通过softargmin函数，得到每个像素在某一深度的置信值，进行深度预测.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 多尺度特征增强的级联式三维重建网络结构

Fig.2 Structure of CasMVSNet with multiscale feature enhancement

1.1.2. 位置信息引导的特征增强模块

随着降采样过程图像的分辨率越来越小，由于池化的存在，高层次中的微小信息可能丢失，通过插值法进行上采样的同时也可能存在无法恢复而丢失的信息. 如图3所示，本研究在特征金字塔网络横向相加前，提出位置信息引导的特征增强模块PFEM，该模块更多关注池化及采样过程中丢失微小特征的位置信息以提高三维重建完整度. 图中， ${\boldsymbol{U}}$为经过插值上采样和 $1 \times 1$卷积调整通道后得到特征图， ${\boldsymbol{I}}$为特征金字塔自底而上的特征图. ${\boldsymbol{X}}$为 ${\boldsymbol{U}}$、 ${\boldsymbol{I}}$通过元素相减所得到的差值特征图.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 位置引导的特征增强模块结构

Fig.3 Structure of position-guided feature enhancement module

$ {\text{substract}}:{\boldsymbol{I}} - {\boldsymbol{U}} \to {\boldsymbol{X}};\;\left\{ {{\boldsymbol{I}},{\boldsymbol{U}},{\boldsymbol{X}}} \right\} \in {{\bf{R}}^{H \times W \times C}}$

传统的自适应特征增强方法一般采用全局池化方法将全局信息压缩在单维度的通道映射中，重点关注通道信息而难以保留每个通道特征图内部的位置信息^[20]. 为了获得更好的特征增强效果，PFEM将差值特征编码的全局二维池化过程分解为2个一维特征编码过程，将输入的特征图分别沿空间的2个方向聚集特征，被压缩的方向可以捕获长距离的依赖关系，同时可以保留另一方向上的具体位置信息. 对输入的特征图 ${\boldsymbol{X}}$，分别采用2个空间池化核分别沿方向 $W$、 $H$进对其行编码，得到压缩特征图 ${{\boldsymbol{l}}^h}$、 ${{\boldsymbol{l}}^w}$. 高度为 $h$的第 $c$个通道的输出表达式为

(1) $ l_c^h\left( h \right) = \frac{1}{W}\mathop \sum \limits_{0 \leqslant i < W} {X_c}\left( {h,i} \right). $

式中： $W$为特征图 ${\boldsymbol{X}}$的宽度， ${X_c}\left( {h,i} \right)$为 ${\boldsymbol{X}}$第 $c$个通道上高为 $h$、宽为 $i$的元素. 同理，宽度为 $w$的第 $c$个通道的输出表达式为

(2) $ l_c^w\left( w \right) = \frac{1}{H}\mathop \sum \limits_{0 \leqslant j < H} {X_c}\left( {j,w} \right). $

式中： $H$为特征图 ${\boldsymbol{X}}$的高度， ${X_c}\left( {j,w} \right)$为 ${\boldsymbol{X}}$第 $c$个通道上高为 $j$、宽为 $w$的元素. 得到2个方向的变换后，将其进行拼接，通过 $1 \times 1$的卷积变换 $F$进行通道调整，过程为

(3) $ {\boldsymbol{f}} = \sigma \left( {F\left( {\left[ {{{\boldsymbol{l}}^h},{{\boldsymbol{l}}^w}} \right]} \right)} \right). $

式中： $ \left[ {{{\boldsymbol{l}}^h},{{\boldsymbol{l}}^w}} \right] $为拼接操作； $\sigma $为ReLU函数对通过卷积变换 $F$后得到的矩阵进行激活； ${\boldsymbol{f}} \in {{\bf{R}}^{{C}/{r} \times 1 \times \left( {H+W} \right)}}$为空间信息在方向 $H$、 $W$进行编码的中间特征映射，其中 $r$为控制通道大小的比率. 沿着空间方向将 $ {\boldsymbol{f}} $为2个张量 ${{\boldsymbol{f}}^{{h}}} \in {{\bf{R}}^{{C}/{r} \times 1 \times H}}$、 ${{\boldsymbol{f}}^w} \in {{\bf{R}}^{{C}/{r} \times W \times 1}}$，通过 $1 \times 1$的卷积 ${F_h}$、 ${F_w}$，使 $ {{\boldsymbol{f}}}^{h}、{{\boldsymbol{f}}}^{w} $恢复到与输入一样的通道数，利用sigmoid函数 $\delta $对改变通道后的 ${{\boldsymbol{f}}}^{{{h}}}， {{\boldsymbol{f}}}^{{{w}}}$进行非线性激活，得到特征图 ${{\boldsymbol{g}}^{{h}}}$、 ${{\boldsymbol{g}}^{{w}}}$，

(4) $ {{\boldsymbol{g}}^{{h}}} = \delta \left( {{F_h}\left( {{{\boldsymbol{f}}^{{h}}}} \right)} \right), $

(5) $ {{\boldsymbol{g}}^{{w}}} = \delta \left( {{F_w}\left( {{{\boldsymbol{f}}^{{w}}}} \right)} \right) . $

通过PFEM的输出 ${\boldsymbol{Y}}$，表示为

(6) $ {Y_c}\left( {i,j} \right) = {I_c}\left( {i,j} \right)\cdot g_c^h\left( i \right)\cdot g_c^w\left( j \right). $

式中： ${Y_c}\left( {i,j} \right)$为特征图 ${\boldsymbol{Y}}$第 $c$个通道上高为 $i$、宽为 $j$的元素， ${I_c}\left( {i,j} \right)$为特征图 ${\boldsymbol{I}}$第 $c$个通道上高为 $i$、宽为 $j$的元素， $g_c^h\left( i \right)$为特征图 ${{\boldsymbol{g}}^{{h}}}$第 $c$个通道上高为 $i$的元素， $g_c^w\left( j \right)$为特征图 $ {{\boldsymbol{g}}^{{w}}} $第 $c$个通道上宽为 $j$的元素. 将特征增强后的特征图与相应的上采样特征图进行横向相加，实现特征信息增强.

1.1.3. 多尺度特征自适应融合模块

为了充分利用不同尺度下丰富的特征信息，提高三维重建的质量，提出多尺度特征自适应融合模块MFAFM，该模块的结构如图4所示. MFAFM主要分为2个部分：多尺度的特征提取、基于通道信息的自适应特征融合. 本研究利用分组卷积的方法，通过不同扩张率的空洞卷积，实现多尺度的特征提取. 将自下而上的特征图 $\left\{ {{{\boldsymbol{F}}_2},{{\boldsymbol{F}}_3},{{\boldsymbol{F}}_4}} \right\}$中的顶层特征 ${{\boldsymbol{F}}_4}$沿通道方向拆分为4个特征块组 $\left[ {{{\boldsymbol{f}}_1},{{\boldsymbol{f}}_2},{{\boldsymbol{f}}_3},{ {\boldsymbol{f}} _4}} \right]$，每个特征块组的通道数相同，过程定义为

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 多尺度特征自适应融合模块结构

Fig.4 Structure of multiscale feature adaptive fusion module

(7) $ \left[ {{{\boldsymbol{f}}_1},{{\boldsymbol{f}}_2},{{\boldsymbol{f}}_3},{{\boldsymbol{f}}_4}} \right] = {\rm{Split}}\;\left( {{{\boldsymbol{F}}_4}} \right). $

通过分组卷积的方法可以降低计算量、提高效率. 将拆分后的特征块组 ${{\boldsymbol{f}}_i}$分别输入扩张率 ${{e}}$ = {3,6,12,18}的空洞卷积层中进行卷积，得到特征图 ${\tilde {\boldsymbol{f}}_i}$，该过程定义为

(8) $ {\tilde {\boldsymbol{f}}_i} = {\rm{DilatedConv}}\;\left( {{e_i}} \right)\left( {{{\boldsymbol{f}}_i}} \right);\;i = 1,2,3,4. $

式中： ${e_i}$为空洞卷积的扩张率，通过空洞卷积过程能够获得在不减少分辨率下不同感受野的特征图. 将提取的多尺度特征进行拼接，得到特征图 ${\boldsymbol{F}}$，过程定义为

(9) $ {\boldsymbol{F}} = {\rm{Concat}}\left( {\left[ {{{\tilde {\boldsymbol{f}}}_1},{{\tilde {\boldsymbol{f}}}_2},{{\tilde {\boldsymbol{f}}}_3},{{\tilde {\boldsymbol{f}}}_4}} \right]} \right). $

对经过多尺度空洞卷积后的4个特征组块 ${\tilde {\boldsymbol{f}}_i}$进行压缩操作，得到通道级别的全局特征. 传统的SE方法^[21]采用平均池化对特征进行压缩映射，由于最大池化能够收集独特特征的重要线索，帮助实现更加精细化的特征提取，本研究用平均池化结果 ${{\boldsymbol{S}}_i}$和最大池化结果 ${{\boldsymbol{D}}_i}$的映射之和代替SE中的平均池化，得到最后映射 ${{\boldsymbol{P}}_i}$. 为了实现更好的自适应融合多尺度的特征信息，将上述每个特征块组的全局信息映射 ${{\boldsymbol{P}}_i}$进行拼接，用sofmax函数进行归一化： $ {\boldsymbol{P}}={\rm{softmax}}\;({{\boldsymbol{P}}}_{1}\oplus {{\boldsymbol{P}}}_{2}\oplus {{\boldsymbol{P}}}_{3}\oplus {{\boldsymbol{P}}}_{4}） $. 得到自适应融合后的特征图

(10) $ \tilde{{\boldsymbol{F}}}={\boldsymbol{P}}\cdot {\boldsymbol{F}} . $

1.1.4. 构建匹配代价体

如图5所示，构建匹配代价体借鉴经典的平面扫描法的多视角立体匹配思想^[18]. 图中， $O$为相机原点， $\theta $为光轴， ${\theta _{\min }}$、 ${\theta _{\max }}$为沿光轴方向距离 $O$最近和最远的平面. 单应性变换

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 平面扫描法

Fig.5 Illustration of planar scanning method

(11) $ {H_i}\left( d \right) = {{\boldsymbol{K}}_i}\cdot{{\boldsymbol{R}}_i}\cdot\left( {{\boldsymbol{I}} - \frac{{\left( {{{{t}}_1} - {{{t}}_i}} \right)\cdot{{{{\boldsymbol{n}}_1}}}^{\rm{T}}}}{d}} \right)\cdot{{\boldsymbol{R}}_1}^{\rm{T}}\cdot{{\boldsymbol{K}}_1}^{\text{T}}. $

将第 $i$个视图的特征图 ${{\boldsymbol{F}}_i}$沿着光轴变换为与参考视图 ${I_1}$的特征图 ${{\boldsymbol{F}}_1}$所在的平行平面，融合成参考视图所对应的相机视锥的特征映射体. 其中 ${n_1}$为参考相机的主轴线， $\{ {{\boldsymbol{K}}_i},{{\boldsymbol{R}}_i},{{{t}}_i}\} _{i = 1}^N$为其对应特征图的相机参数. 通过式（11）可以将所有特征图投射到 ${I_1}$参考平面的不同深度，形成 $N$个特征映射体 $\{ {{\boldsymbol{V}}_i}\} _{i = 1}^N$.

如图6所示，采用3层级联，通过由粗到细的深度预测，实现深度信息的细化. 第一阶段的主要任务是粗略估计对象深度范围，为第二阶段的深度细化做准备. 第二阶段的主要任务是根据前一阶段粗略定位的深度范围，通过减小假设平面间隔，实现特征映射体精度的提高. 图中，水平直线表示假设平面，曲线表示物体深度， ${P_1}$、 ${P_2}$为深度范围， ${S_1}$、 ${S_2}$为平面间隔. 根据级联式的细化深度方法修改 $N+1$阶段单应性映射：

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 深度图细化

Fig.6 Depth map refinement

(12) $ \begin{split} & {H}_{i}({d}_{N}^{m}+ {\Delta }_{N+1}^{m})=\\ &{{\boldsymbol{K}}}_{i}\cdot{{\boldsymbol{R}}}_{i}\cdot\left({\boldsymbol{I}}-\frac{\left({{{t}}}_{1}-{{{t}}}_{i}\right)\cdot{{\boldsymbol{n}}}_{1}{}^{{\rm{T}}}}{{d}_{N}^{m}+{\varDelta }_{N+1}^{m}}\right)\cdot{{\boldsymbol{R}}}_{1}{}^{{\rm{T}}}\cdot{{\boldsymbol{K}}}_{1}{}^{\text{T}}\text{，}N\in \left(1,2\right) . \end{split} $

式中： $d_N^m$为第 $N$阶段像素 $m$的深度预测， $\varDelta _{N+1}^m$为在第 $N+1$阶段学习到的像素 $m$的深度值与上一阶段的深度差值. 将在级联式细化深度方法下的单应性映射变式带入，得到该方法下的特征映射体 $\{ {{\boldsymbol{V}}_i}\} _{i = 1}^N，$采用基于方差的映射关系 $M:{{\bf{R}}^v} \times \cdots \times {{\bf{R}}^v} \to {{\bf{R}}^v}$，实现构建可变输入视图的统一匹配代价体，计算式

(13) $ {\boldsymbol{C}} = {{M}}\left( {{{\boldsymbol{V}}_1},\cdots,{{\boldsymbol{V}}_N}} \right) = {\frac{1}{N}}{\mathop \sum \nolimits_{i = 1}^N {{\left( {{{\boldsymbol{V}}_i} - \overline {{{\boldsymbol{V}}_i}} } \right)}^2}}. $

式中： $N$为输入视图的数量， $\overline {{{\boldsymbol{V}}_i}} $为所有特征映射体的均值. 对得到的统一匹配代价体进行正则化处理，过滤噪声防止过拟合. 基于方差的匹配代价计算方式较好地衡量了多视图之间的特征差异性.

1.1.5. 深度预测

利用softmax 函数计算沿深度维度下不同深度采样值处的概率分布，得到深度概率体(depth probability volume) ${\boldsymbol{O}}$. ${\boldsymbol{O}}$上任意点 $\left( {x,y,d} \right)$对应的值 ${{{O}}_{\left( {x,y,d} \right)}}$表示像素点 $\left( {x,y} \right)$对应深度值为 $d$的概率. 得到深度概率体 ${\boldsymbol{O}}$后，采用softargmin函数估计深度：

(14) $ D = \mathop \sum \limits_{d = {d_{{\rm{min}}}}}^{d = {d_{{\rm{max}}}}} d \times {{O}} \left( d \right). $

式中： ${d_{{\rm{min}}}}$为该像素点的最小深度， ${d_{{\rm{max}}}}$为该像素点的最大深度， $d$为深度采样值， $O\left( d \right)$为 $d$处的概率估计值. 对生成的深度图微调之后，具有3级的级联结构产生2个中间输出和最终预测. 本研究采用基准网络CasMVSNet^[18]的损失函数构造方法，将初始估计深度图、微调后的深度图与真实深度图之间的平均绝对差值作为训练的损失函数，对深度学习三维重建网络MFE-CasMVSNet进行训练. 级联结构第k级的损失计算为损失函数:

(15) $ L_{k}=\displaystyle \sum\limits _{p\varepsilon P}{\lambda }_{1}{\Vert {\boldsymbol{d}}\left({{p}}\right)-\widehat{{{\boldsymbol{d}}}_{i}}\left({{p}}\right)\Vert }_{1}+{\lambda }_{2}{\Vert {\boldsymbol{d}}\left({{p}}\right)-\widehat{{{\boldsymbol{d}}}_{r}}\left({{p}}\right)\Vert }_{1} . $

式中：p为三维点云模型中的可用点集， $\widehat {{{\boldsymbol{d}}_i}}\left( {{p}} \right)$为初始深度估计， $\widehat {{{\boldsymbol{d}}_r}}\left( {{p}} \right)$为微调后的精细深度估计， ${\boldsymbol{d}}\left( {{p}} \right)$为场景的真实像素深度. 总损失函数为

(16) $ L = \sum\limits_{k = 1}^{k = 3} {{r_k}L_k} . $

式中： $ {r_k} $表示级联结构第k级的损失权重. 以 $L$最小化为目标对网络进行训练以优化网络性能.

1.2. 钢板表面缺陷检测与定位

传统的点云处理方法一般根据钢板缺陷处点云曲率、法线参量的异常对整个点云数据进行聚类处理，这样的方法运行时间长、效率低，并且稠密的点云会对曲率计算产生干扰. 本研究提出综合点云平面分割、聚类、三维检测框可视化定位的全新三维检测流程以提高三维检测效率以及可视化、智能化水平. 检测流程如下：1）对钢板点云进行平面分割，剥离带有凹凸信息的缺陷部位，2）通过 CS-DBSCAN对不同位置的缺陷点云进行聚类提取，3）利用三维检测框实现缺陷部位的可视化检测定位.

1.2.1. 基于随机一致性采样的点云平面分割

点云平面分割采用随机一致性采样的方法，具有较强鲁棒性和抗噪性，能够有效地将钢板表面平整的标准部分和具有凹凸深度信息的缺陷部分进行一次性分割.

1.2.2. 基于CS-DNSCAN的缺陷部位提取

传统的DBSCAN^[22] 算法对密度不均匀的缺陷点云聚类效果较差，为此本研究提出基于曲率稀疏化的密度聚类算法(CS-DBSCAN)，通过曲率信息对点云进行差异稀疏化操作，提高聚类效率和精度. 算法步骤如下.

1）计算法线夹角. 输入原始点云集 $S$，对其中的每个点 ${s_i}$计算其 $k$邻域，计算该点到邻域点的平均法线夹角 ${s_{i - {\rm{a}}}}$，夹角可以近似表示曲率，曲率越大的地方，夹角越大.

2）对点云进行曲率差异稀疏化. 设定角度阈值 $\sigma_{\rm{a}}$，对于任意点 ${s_i}$，夹角 ${s_{i - {\rm{a}}}}$若大于角度阈值 $\sigma_{\rm{a}}$，则被归入曲率明显点集 ${S_{\rm{c}}}$，否则归入曲率不明显点集 ${S_{{\rm{uc}}}}$. 设曲率明显点集的点云个数为 ${N_{{{\rm{c}}}}}$，不明显点集的点云个数为 ${N_{{{{\rm{uc}}}}}}$，稀疏率为 $M$，稀疏均匀性为 $U(U < 0.5)$，曲率明显点集 ${S_{\rm{c}}}$经均匀稀疏化后的点云个数为 ${N_{{\text{c}}}} \cdot M \cdot \left( {1 - U} \right)$,曲率不明显集 ${S_{{\rm{uc}}}}$的经均匀稀疏化后的点云个数为 ${N_{{{{\rm{uc}}}}}} \cdot M \cdot U$. 将2个曲率稀疏化后的点云集合并，得到点云集 ${S_{{\rm{cs}}}}$.

3）迭代聚类. 对任一数据点 ${s_i} \in {S_{{\rm{cs}}}}$，判断其小于 $D$(距离参数)邻域内的点云数目是否大于点数量参数 $P$，若不符合要求，则暂时标记为噪点，否则形成一簇，标记其为已访问. 对所有点进行递归，以相同的方法处理簇内所有未被标记为已访问的点，从而对簇进行扩展. 直到每个对象都被标记为已访问或噪点. CS-DBSCAN能够使缺陷点云和噪声点云密度分布均匀，提高基于密度的聚类精度.

1.2.3. 三维缺陷检测可视化

提出基于三维检测框的缺陷可视化检测定位方法，采用三维线框近似地对缺陷点云进行包围定位，通过1个三阶方向矩阵和3个1/2 边长参量进行表示，具体步骤如下.

1）计算缺陷点云的中心坐标. 已知的几何对象的基本组成元素都为三角形，假设点云簇中包含的三角形片面数为 $n$，第 $i$个三角形片面的顶点坐标分别为 $ {{\boldsymbol{p}}}^{i}、{{\boldsymbol{q}}}^{i}、{{\boldsymbol{r}}}^{i} $，长方体检测框的中心坐标为

(17) $ {\boldsymbol{m}} = \frac{1}{{3n}}\mathop \sum \limits_{i = 1}^n \left( {{{\boldsymbol{p}}^i}+{{\boldsymbol{q}}^i}+{{\boldsymbol{r}}^i}} \right) . $

2）计算三维检测框的三阶方向矩阵. 采用主成分分析，获取三维检测框的主轴方向. 通过计算协方差矩阵表示各个维度偏离均值的程度. 求主轴方向的特征向量^[23]：

(18) $ \left. {\begin{array}{*{20}{c}} {{{\boldsymbol{P}}^i} = {{\boldsymbol{p}}^i} - {\boldsymbol{m}},} \\ {{{\boldsymbol{Q}}^i} = {{\boldsymbol{q}}^i} - {\boldsymbol{m}},} \\ {{{\boldsymbol{R}}^i} = {{\boldsymbol{r}}^i} - {\boldsymbol{m}},} \\ {{{\boldsymbol{C}}_{jk}} = \dfrac{1}{{3n}}\displaystyle\sum \limits_{i = 1}^n \left( {{\boldsymbol{P}}_j^i{\boldsymbol{P}}_k^i+{\boldsymbol{Q}}_j^i{\boldsymbol{Q}}_k^i+{\boldsymbol{R}}_j^i{\boldsymbol{R}}_k^i} \right).} \end{array}} \right\} $

式中： $1 \leqslant j 、 k \leqslant 3$为空间坐标分量； ${{\boldsymbol{P}}^i}$、 ${{\boldsymbol{Q}}^i}$、 ${{\boldsymbol{R}}^i}$均为 $3 \times 1$阶向量； ${{\boldsymbol{C}}_{jk}}$为对应的协方差矩阵，计算其单位特征向量作为三维检测框的方向轴.

3）计算三维检测框的长度. 将点云簇沿检测框方向轴进行投影，投影区间的长度即可作为三维锚框的三边长度参数.

2. 实验与结果分析

在日常的生产加工中，钢板表面经常带有划痕、孔洞、焊痕、结疤、毛刺等缺陷，如图7所示. 为了验证本研究所提方法对钢板带有深度信息缺陷的检测有效性，以Q235号钢板作为研究对象，在钢板表面加工制造切割痕、钻痕、焊痕，以结疤充当表面缺陷进行对比实验，如图8所示. 钢板与表面缺陷尺寸如表1所示. 表中，l_d、w_d、h_d分别为缺陷尺寸的长度、宽度和深度. 选取Nikon品牌D5600型号的2 000万像素分辨率的互补金属氧化物半导体存储器(complementary metal oxide semiconductor, CMOS)相机，搭配Nikon AF-P 18-55型号的镜头作为图像采集器.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 带有深度信息的钢板常见表面缺陷

Fig.7 Common surface defects of steel plate with depth information

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 待检测缺陷钢板

Fig.8 Defective steel plate to be tested

表 1 钢板缺陷的尺寸

Tab.1 Defect size of steel plate mm

缺陷类型	l_d	w_d	h_d
割痕缺陷1	40.0	3.0	2.0
割痕缺陷2	33.0	3.0	1.2
焊点缺陷	9.1	6.0	1.3
钻痕缺陷	7.0	7.0	2.5
结疤缺陷	4.4	4.1	0.7

新窗口打开| 下载CSV

2.1. 实验参数和MFE-CasMVSNet重建效果评估

实验前，对MFE-CasMVSNet进行参数设定和权重训练. 训练结束后通过特定的数据集对比分析MFE-CasMVSNet与传统的基于图像几何、深度学习的重建方法的三维成型效果，以验证本研究所提方法的优越性.

2.1.1. 实验参数

计算机硬件配置为Intel(R) Core(TM) i7-10700K处理器、RTX3090显卡、CUDA10.0、cuDNN7.6，开发环境为Ubuntu18.0. 通过Pycharm和开源的深度学习框架 Pytorch1.4.0，搭建MFE-CasMVSNet三维重建网络.

实验使用的数据集来自DTU^[24]多视图数据集，是专门针对多视图三维重建而拍摄的大型室内数据集. 该数据集包括124个不同的场景，每个场景都是从49或者64个角度拍摄，包含7种不同的光照条件.

为了满足显存的要求，在训练过程中将每个训练样本的图像数量设置为3，即包含1个参考图像和2个原图像，将输入图片的分辨率设置为640×512，特征提取网络的下采样比率为原图分辨率的{1/16,1/4,1}. 级联结构的深度假设数量分别为48、32、8. 使用Adam优化器，设置初始的学习率 ${l_{\rm{r}}}$=0.001，一阶矩估计的指数衰减率 $\;{\beta _1}$=0.9，二阶矩估计的指数衰减率 $\;{\beta _2}$= 0.999，训练16代.

采用DTU Benchmark提供方法，通过计算2个点云相互投影后的距离，定量评价重建方法的精度和完整度.

2.1.2. DTU数据集上的三维重建对比实验

实验将与传统的基于图像几何的三维重建方法COLMAP^[25]、Tola^[26]，以及基于深度学习的方法RMVSNet^[27]、CasMVSNet在DTU数据集上进行对比实验，结果如表2所示. 表中，Acc、Com、OR分别为三维重建的精度、完整度和总体重建水平，GPU、t_R分别为三维重建所消耗的显卡资源和运行时间，分数越低代表效果越好. 可以看出，MFE-CasMVSNet在精度和完整度上超过传统方法. 本研究所提方法相较基准方法 CasMVSNet在精确度、完整度、整体上分别提高了2.5%、2.3%、2.3%，较好地说明了本研究所提方法的有效性. 相较于MVSNet、RMVSNet，MFE-CasMVSNet消耗的空间资源和时间资源更少；相较于CasMVSNet，MFE-CasMVSNet增加的消耗也在可接受的范围.

表 2 不同方法在DTU数据集上重建效果的比较

Tab.2 Comparison of reconstruction effects with different methods on DTU

方法	Acc/mm	Com/mm	OR/mm	GPU /MB	t_R/s
COLMAP	0.400	0.664	0.532	—	—
Tola	0.342	1.190	0.766	—	—
Gipuma	0.283	0.873	0.578	—	—
MVSNet	0.456	0.646	0.551	10823	1.210
RMVSNet	0.383	0.452	0.417	7577	1.280
CasMVSNet	0.325	0.385	0.355	5360	0.496
本研究	0.317	0.376	0.347	6272	0.532

新窗口打开| 下载CSV

2.1.3. 消融实验

消融实验在DTU数据集上进行，在基准网络CasMVSNet中分别添加PFEM和MFAFM评测网络的精度、完整度，对比训练过程的显卡消耗以及运行时间，实现结果如表3所示. PFEM通过位置信息引导对微小特征进行增强，可以减少特征的丢失，重建的精度相较基准网络提高了3.1%. MFAFM通过多层空洞卷积增大了输出的感受野，通过通道信息进行自适应融合；该模块还提高了三维重建的精度、完整度. MFAFM的整体优化效果不如PFEM，但是消耗资源更少. 由表可知，2种模块同时添加的效果最好.

表 3 添加不同模块的CasMVSNet消融实验结果

Tab.3 Ablation experimental results of CasMVSNet with different modules added

添加模块	Acc /mm	Com /mm	OR /mm	GPU /MB	t_R/s
—	0.325	0.385	0.355	5374	0.494
PFEM	0.315	0.381	0.348	5613	0.512
MFAFM	0.320	0.382	0.351	5529	0.509
PFEM+MFAFM	0.317	0.376	0.347	6272	0.532

新窗口打开| 下载CSV

2.2. 基于MFE-CasMVSNet的钢板表面重建

将钢板垂直立于桌面，用相机在待检测钢板前方均匀移动，拍摄不同视角下的12张图片，通过SFM方法进行图像预处理获取相机位姿参数，将图像以及相机位姿参数输入MFE-CasMVSNet，得到三维重建点云.

2.2.1. 钢板重建效果

如图9所示为采集到的多角度钢板图像集和经过深度学习网络所得到的钢板重建点云. 受限于拍摄，重建出的钢板点云包含部分桌面点云和零星噪点，不能直接进行缺陷检测，本研究采用基于k-means的聚类方法，将桌面点云和钢板点云快速分离，通过点云统计滤波处理零散噪声，得到钢板表面点云. 如图10所示，处理后的钢板表面点云完整，缺陷部位重建清晰，三维检测框能很好地体现了缺陷部位的深度信息.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 钢板的部分图像集和重建效果

Fig.9 Part of photo collection and reconstruction effect of steel plate

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 钢板缺陷的重建效果

Fig.10 Reconstruction effect of steel plate defect

2.2.2. 与传统方法对比

基于MFE-CasMVSNet的三维重建方法与传统的方法COLMAP在实际的缺陷钢板表面重建效果的对比结果如图11所示. 图中，直角框内表示COLMAP的重建效果，圆角框表示MFE-CasMVSNet的重建效果. 钢板具有金属光泽，表面不仅纹理较弱，而且反光，这对基于图像几何的三维重建效果影响极大. 具体表现为弱纹理处重建点云非常稀疏，点云完整度较低，对光线比较敏感，对存在反光的区域重建效果不理想. 基于MFE-CasMVSNet的方法在钢板表面重建中取得了良好的效果. 实验对不同方法的重建时间t_r进行比较，结果如表4所示. 可以看到，本研究所提重建方法的效率较COLMAP有大幅提升.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 不同方法的钢板重建效果对比

Fig.11 Comparison of steel plate reconstruction with different methods

表 4 不同方法的重建时间比较

Tab.4 Comparison of reconstruction time among different methods

方法	t_r /s	方法	t_r /s
COLMAP	579	RMVSNet	76
VisualSFM	263	CasMVSNet	43
OpenMVG+MVS	345	本研究	49

新窗口打开| 下载CSV

2.3. 缺陷部位提取与检测定位可视化

2.3.1. 钢板平面分割和缺陷部位聚类提取

通过体素降采样在保持点云拓扑结构不变的基础上，减少钢板点云数目，提高计算效率. 如图12所示，通过本研究提出的缺陷提取流程，对降采样后的点云进行处理：采用RANSAC点云平面分割，提取出钢板表面缺陷点云；利用CS-DBSCAN对缺陷点云进行聚类，得到的不同部位的缺陷点云；引入三维检测框对缺陷进行定位和检测可视化. 实验中将体素降采样的降采样网格参数设置为0.012；将RANSAC平面分割算法中点到估计平面的最大距离设置为0.023，随机采样点数设置为4；针对CS-DBSCAN，将聚类参数 $D$、 $P$、 $\sigma $、 $M$、 $U$，分别设置为0.04、150、 ${\text{π}}/60$、0.6、0.4.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 基于点云的三维缺陷检测流程

Fig.12 Process of three-dimensional defect detection based on point cloud

为了验证所提出的基于点云的缺陷提取流程的有效性，将平面分割+ CS-DBSCAN缺陷聚类方法a与一阶段基于法线夹角聚类的缺陷提取方法b^[12]进行对比，结果如图13所示. 针对b方法，设置邻域点个数为16，计算每个点在该邻域内的平均法线夹角作为该点的法线夹角参量，设置夹角阈值为 ${\text{π}}/60$，以区域生长的方法对该点进行聚类. 为了验证CS-DBSCAN的效果，对照DBSCAN，设置DBSCAN的距离参数 $D = 0.04$，点数目 $P = 150$. 由图13可以看出，方法b无法对缺陷点云进行有效聚类，原因是稠密点云厚度并非单层，内部点云被包围因此无法得到有效的夹角参数. 方法a通过点云分割能够得到具有深度信息的缺陷点云以及一些表层的噪声点云，通过CS-DBSCAN对缺陷点云和噪声点云进行曲率差异稀疏化：将层状的噪声点云稀疏化处理，增大类间密度差异，平均类内密度差异，进一步提高聚类效果. 如实验所示，DBSCAN最后的聚类效果包含误识别的噪声，相比之下本研究提出的平面分割+CS-DBSCAN的点云处理方法能够对缺陷点云进行有效提取.

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 不同点云处理方法的缺陷聚类效果比较

Fig.13 Comparison of defect clustering effects of different point cloud processing methods

2.3.2. 钢板表面缺陷检测定位可视化

利用三维检测框对缺陷部位进行包围，可视化缺陷检测结果如图14所示.

图 14

新窗口打开| 下载原图ZIP| 生成PPT

图 14 基于三维检测框的缺陷检测可视化

Fig.14 Visualization of defect detection based on three-dimensional detection box

2.4. 缺陷检测结果分析

基于MFE-CasMVSNet的钢板缺陷检测算法对4种类型的缺陷检测精度如表5所示. 缺陷检测框的三边长度与比例因子相乘得到算法测量长度，将其与实际长度对比得到的误差作为三维缺陷检测算法的精度衡量标准. 表中， ${b_1}$为钢板割痕缺陷、焊点缺陷、钻痕缺陷、结疤缺陷的人工测量结果, ${b_2}$为算法的测量结果， ${{\varepsilon }}$为误差. 由于割痕的实际长度是按照切割机在钢板上的切割纹路进行测量的，包含割痕头部、尾部的抛光部分导致测量误差偏大，对平行于钢板平面的缺陷长、宽参数测量精度均不超过6%，对垂直于钢板方向的缺陷深度测量误差不超过10%，说明本研究所提方法具有较好的检测精度. 如表6所示为三维缺陷检测算法的各步骤耗时t，三维检测总时间不超过3.5 s. 缺陷检测结果如图15所示.

表 5 多尺度特征增强的级联式三维重建网络对钢板表面缺陷的三维检测精度

Tab.5 Three-dimensional detection accuracy for steel plate surface defect by CasMVSNet with multiscale feature enhancement

缺陷类型		${b_1}/{\rm{mm}}$	${b_2}/{\rm{mm}}$	${{\varepsilon }}/{\text{% }}$
割痕缺陷1	长	40.0	33.88	15.3
	宽	3.0	3.13	4.3
	深	2.0	1.85	7.5
割痕缺陷2	长	33.0	27.13	17.8
	宽	3.0	3.17	5.7
	深	1.2	1.10	8.3
焊点缺陷	长	9.1	9.59	5.4
	宽	6.0	5.74	4.3
	高	1.3	1.39	7.0
钻痕缺陷	长	7.0	6.69	4.4
	宽	7.0	6.68	4.6
	高	2.5	2.26	9.6
结疤缺陷	长	4.4	4.64	5.5
	宽	4.1	4.30	4.9
	高	0.7	0.76	8.6

新窗口打开| 下载CSV

表 6 基于所提点云数据处理流程的钢板表面缺陷检测各步骤耗时

Tab.6 Time consuming of each step of steel plate surface defect detection based on proposed point cloud processing process

检测步骤	$t/s$
检测步骤	割痕	焊痕	钻痕	结疤
滤波，降采样	1.78	1.98	1.46	1.34
点云平面分割	0.54	0.59	0.72	0.84
点云缺陷聚类	0.66	0.53	0.65	0.49
三维可视化	0.45	0.17	0.21	0.11
合计	3.43	3.27	3.04	2.78

新窗口打开| 下载CSV

图 15

新窗口打开| 下载原图ZIP| 生成PPT

图 15 基于多尺度特征增强的级联式三维重建网络的钢板表面缺陷三维检测结果

Fig.15 Three-dimensional detection results of steel plate surface defects based on CasMVSNet with multiscale feature enhancement

2.5. 讨论

本研究所提三维缺陷检测方法对带有深度缺陷钢板的检测效果良好. 相较于二维检测方法，所提方法可以准确地提取出缺陷部位的点云并获取几何形状信息，具有更高的可视化能力. 由于点云本身无序、稀疏、无规则等特点，导致算法对计算机算力(CPU、GPU)有较高的要求，效率不及二维检测方法. 如图16为基于深度学习二维检测方法误检结果，二维检测结果受图像视野影响大且无法准确提取缺陷的形状信息.

图 16

新窗口打开| 下载原图ZIP| 生成PPT

图 16 基于RetinaNet的钢板缺陷误检结果

Fig.16 False detection results of steel plate defects based on RetinaNet

3. 结　语

针对钢板表面带有深度信息的缺陷较难检测的问题，提出基于多尺度特征增强的级联式三维重建网络MFE-CasMVSNet的钢板表面缺陷检测方法. 该方法不依赖复杂的主动式三维测量设备，能够低成本实现目标物体的三维重建，相较于传统的基于图像几何的三维成型方法有着更高的效率、完整度和精度. 通过添加位置引导的特征增强模块PFEM和多尺度特征自适应融合模块MFAFM，MFE-CasMVSNet在精度、完整度、整体上，分别提高2.5%、2.3%、2.3%. 本研究提出的三维检测流程能够精确地检测深度缺陷，通过三维检测框可以实现缺陷的可视化检测与定位. 经钢板缺陷实例验证对缺陷部位形状的检测误差不超过10%. 后续，将着重三维重建网络的轻量化、精确化研究，以及高效的点云结构精简化处理方法研究，进一步提高三维检测效率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

程训, 余建波

基于机器视觉的加工刀具磨损监测方法

[J]. 浙江大学学报: 工学版, 2021, 55 (5): 896- 904