基于RGB与深度信息融合的管片抓取位置测量方法

doi:10.3785/j.issn.1008-973X.2023.01.005

基于RGB与深度信息融合的管片抓取位置测量方法

王林涛^,, 毛齐

大连理工大学机械工程学院，辽宁大连 116024

Position measurement method for tunnel segment grabbing based on RGB and depth information fusion

WANG Lin-tao^,, MAO Qi

School of Mechanical Engineering, Dalian University of Technology, Dalian 116024, China

收稿日期: 2022-01-26

Received: 2022-01-26

作者简介 About authors

王林涛（1987—），男，副教授，从事复杂机电系统多学科建模与优化、重大装备电液控制与智能化技术、流体机械CFD分析与优化研究.orcid.org/0000-0002-7647-8559.E-mail：wlt@dlut.edu.cn , E-mail：wlt@dlut.edu.cn

摘要

针对管片拼装机在管片抓取阶段依赖人工的问题，提出用于自动化拼装的管片螺栓抓取阶段的位置测量方法. 该方案通过SIFT算法匹配管片螺栓，利用Faster-Rcnn算法，筛选出位于工作区的待抓取的管片螺栓. 通过添加注意力机制改变特征提取网络结构，使其在0.8的交并比下保持约94%的准确率并排除其他管片螺栓的识别干扰. 在识别到目标管片螺栓后，结合深度相机的信息获取完整的三维坐标，使得抓取设备位于抓取位置时测量的管片螺栓位置各轴的误差均不超过3 mm，满足机械式抓取装置对抓取的精度要求. 直接对管片螺栓进行识别，无须考虑管片在工作区摆放位置的不确定性造成的误差，避免了使用靶标进行测量时靶标与管片之间的相对位置误差及设置靶标的人力与时间成本.

关键词： SIFT特征匹配 ; Faster-Rcnn算法 ; 注意力机制 ; 信息融合 ; 管片螺栓位置测量

Abstract

A position measurement method which fits automatic segment assembly to grab segment bolt was proposed in order to solve the problem that grabbing segments relied on manual labor. SIFT algorithm was used to match the target segment bolts, and Faster-Rcnn algorithm was used to choose the target segment placed in working area. Convolutional attention block module was implemented to change the structure of feature extracting network, which maintained the recognition accuracy around 94% under stricter IOU (intersection over union) of 0.8 and prevented the affect of other segment bolts. Information from depth camera was fused to get the complete three-dimensional coordination after target segment bolt being recognized. The error of measurement in each axis was less than 3 mm when grabbing facility was in position, which meeted the requirement of grabbing with mechanical hoisting facility. The segment bolt was directly recognized. Then the error caused by segment placement uncertainty need not be considered. The relative error between segment and target object and the manual and time cost of setting target object can be prevented.

Keywords： SIFT feature matching ; Faster-Rcnn algorithm ; attention mechanism ; information fusion ; segment bolt position measurement

PDF (3034KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王林涛, 毛齐. 基于RGB与深度信息融合的管片抓取位置测量方法. 浙江大学学报(工学版)[J], 2023, 57(1): 47-54 doi:10.3785/j.issn.1008-973X.2023.01.005

WANG Lin-tao, MAO Qi. Position measurement method for tunnel segment grabbing based on RGB and depth information fusion. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(1): 47-54 doi:10.3785/j.issn.1008-973X.2023.01.005

在盾构法隧道施工过程中，管片的安装过程分为管片的递送、抓取和拼装3个阶段. 由吊装设备将管片运输至工作区，再抓取放置于拼装区域，最后由管片拼装机完成拼装. 在管片抓取环节，需要人工调整拼装机的径向和轴向油缸，使抓头对准管片完成抓取，效率较低. 采用自动化方法是提升工程效率的首选之策. 确定目标管片的位姿是实现自动化的前提，也是自动化控制的对象. 对于管片的位姿测量，Wada等^[1-4]利用激光传感器与机器视觉结合的方法，提升了测量效率. 刘飞香^[5]使用多个激光测距仪测量管片的相关参数，推导拼装机的运动状态，完成抓取设备与管片间相对位姿的测量. 朱凯源等^[6-7] 通过设置管片外的标志和管片上的靶标，完成管片位置的测量以及管片相对靶标位姿的求解. 高翔等^[8-9]使用激光传感器检测管片的几何信息，实现无标记物的位姿测量. 李穗婷^[10]使用双目视觉方法对管片螺栓进行测量，直接完成需要被抓取的管片螺栓的位置测量.

随着深度学习在视觉领域研究的不断推进，对于目标物的检测，涌现出了YOLO系列^[11]、Faster-Rcnn^[12]目标识别算法及基于U-Net的语义分割算法^[13]等. 基于深度学习检测到的目标物，可以获知目标物在相机的成像平面上的像素信息. 朵建华等^[14]利用语义分割，结合激光点云数据完成轨道识别. 李国瑞等^[15]使用激光雷达与视觉传感器信息融合完成障碍物的识别，以上思路可以应用于管片的识别，结合其他传感器信息可以测量目标物在三维坐标系下的坐标，完成位姿测量.

在对管片抓取的过程中，使用靶标进行位姿测量时，除了增加设置靶标的时间、人力成本外，增大了靶标与管片间的相对误差. 由于管片递送至工作区后在摆放时不规整，直接对管片进行视觉测量时，需要避免识别到其他工作区的管片，目前的研究仅限于对单一管片进行位姿测量，未考虑管片在工作区的实际情况. 针对上述问题，本文提出针对管片抓取的位置测量方法，利用特征匹配和深度学习算法，直接对需要抓取的管片螺栓进行识别，避免位于工作区其他管片螺栓被误识别的情况. 融合深度相机数据完成管片的三维坐标测量，确定管片螺栓的位置.

1. 实现方法

1.1. 基于SIFT的螺栓特征匹配

利用SIFT算法，可以进行具有尺度不变性、旋转不变性的稳定的特征匹配^[16]. 利用不同角度的螺栓图片建立匹配库，使不同角度、距离的管片螺栓都能被匹配.

1）构建图像的多尺度空间. 像素图像的尺度空间 $ L\left( {x,y,\sigma } \right) $可以由原始图像 $ I\left( {x,y} \right) $和二维高斯核函数 $ G\left( {x,y,\sigma } \right) $的卷积表示：

(1) $ \left. \begin{split} & L\left( {x,y,\sigma } \right) = G\left( {x,y,\sigma } \right) * I\left( {x,y} \right), \\ & G\left( {x,y,\sigma } \right) = \frac{1}{{2\text{π} {\sigma ^2}}}{{\rm{exp}} \left({\frac{{{x^2}+{y^2}}}{{2{\sigma ^2}}}}\right)}. \end{split} \right\} $

构建尺度空间可以获得不受尺度影响的特征点. 对原始图像采样得到不同尺度图像的特征金字塔，将金字塔相邻的图像相减得到高斯差分，如下：

(2) $ \begin{split} D\left( {x,y,\sigma } \right) =& \left[ {G\left( {x,y,k\sigma } \right) - G\left( {x,y,\sigma } \right)} \right] * I\left( {x,y} \right) =\\ & L\left( {x,y,k\sigma } \right) - L\left( {x,y,\sigma } \right) . \end{split} $

将图像差值组合，获得高斯金字塔(difference of Gaussian，DoG).

2）DoG金字塔极值点检测. 为了找到极值点，每个像素点需要与金字塔中同一尺度和相邻尺度的相邻点进行对比，最大和最小处为极值点. 金字塔的上、下2层无法比较，通过高斯模糊在上层额外生成3张图像进行比较，可以得到连续的尺度变换.

3）特征点筛选. 对于筛选出的特征点，需要将对比度较低以及边缘响应点中较不稳定的点删除. 对于对比度，需要设置阈值进行筛选. 特征点 ${\boldsymbol{x}}$的DoG函数 $D\left( {\boldsymbol{x}} \right)$及偏移量 $\Delta {\boldsymbol{x}}$应用泰勒展开可得

(3) $ D\left( {\boldsymbol{x}} \right) = {{D}}+\left( \frac{{\partial {{{D}}}}}{{\partial {\boldsymbol{x}}}} \right)^{\rm{T}} \Delta {\boldsymbol{x}}+\frac{1}{2}\Delta {{\boldsymbol{x}}^{\text{T}}}\frac{{{\partial ^2}{{D}}}}{{\partial {{\boldsymbol{x}}^2}}}\Delta {\boldsymbol{x}}{\kern 1pt} {\kern 1pt} . $

由于特征点为极值点，令式(3)的导数为0，可得

(4) $ \Delta {\boldsymbol{x}} = -\left( \frac{{{\partial ^2}{{{D}}}}}{{\partial {{\boldsymbol{x}}^2}}} \right)^{ - 1} \frac{{\partial D}}{{\partial {\boldsymbol{x}}}}. $

将 $\Delta {\boldsymbol{x}}$代入式(3)，得到下式的图像对比度：

(5) $ D\left( {\hat {\boldsymbol{x}}} \right) = {{D}}+\frac{1}{2}\left( \frac{{\partial {{{D}}}}}{{\partial {\boldsymbol{x}}}} \right)^{\text{T}}\hat {\boldsymbol{x}}{\kern 1pt} {\kern 1pt} . $

设置阈值 $ T $，若 $\left| {D\left( {\hat {\boldsymbol{x}}} \right)} \right| \geqslant T$，则去除该特征点.

对于不稳定的边缘响应点，须将其去除. 特征点的海森阵为

(6) $ {\boldsymbol{H}} = \left[ {\begin{array}{*{20}{c}} {{{{D}}_{{{xx}}}}}&{{{{D}}_{{{yx}}}}} \\ {{{{D}}_{{{xy}}}}}&{{{{D}}_{{{yy}}}}} \end{array}} \right]{\kern 1pt} {\kern 1pt} . $

式中： ${{{D}}_{{{xx}}}}$、 ${{{D}}_{{{xy}}}}$和 ${{{D}}_{{{yy}}}}$为特征点相邻像素的差分. 特征点的DoG函数 $D\left( {\boldsymbol{x}} \right)$主曲率与该海森阵的特征值成正比.

令 $ \alpha = {\lambda _{{\text{max}}}} $即 $ {\boldsymbol{H}} $的最大特征值， $ \;\beta = {\lambda _{{\text{min}}}} $即 $ {\boldsymbol{H}} $的最小特征值，则 $ {\boldsymbol{H}} $的迹 $ {\text{tr}}\left( {\boldsymbol{H}} \right) $与行列式 $ {\text{det}}\left( {\boldsymbol{H}} \right) $存在如下关系：

(7) $ \frac{{{\text{t}}{{\text{r}}^2}\left( {\boldsymbol{H}} \right)}}{{{\text{det}}\left( {\boldsymbol{H}} \right)}} = \frac{{{{\left( {\alpha +\beta } \right)}^2}}}{{\alpha \beta }} = \frac{{{{\left( {\mu +1} \right)}^2}}}{\mu }. $

式中： $ \;\mu = \alpha /\beta $.

为了消除边缘效应，DoG函数 $ D\left( {\boldsymbol{x}} \right) $的主曲率应设置阈值. 当满足下式的关系时，保留该特征点：

(8) $ \frac{{{\text{t}}{{\text{r}}^2}\left( {\boldsymbol{H}} \right)}}{{{\text{det}}\left( {\boldsymbol{H}} \right)}} > \frac{{{{\left( {{T_\mu }+1} \right)}^2}}}{{{T_\mu }}}. $

4）求取特征点主方向. 根据式(1)可知，每个像素点 $ L\left( {x,y} \right) $梯度的模 $ m $及方向 $ \theta $如下：

(9) $ \begin{split} {m^2}\left( {x,y} \right) =& {\left[ {L\left( {x+1,y} \right) - L\left( {x - 1,y} \right)} \right]^2}+ \\ & {\left[ {L\left( {x,y+1} \right) - L\left( {x,y - 1} \right)} \right]^2}, \end{split} $

(10) $ \theta \left( {x,y} \right) = \arctan \frac{{L\left( {x,y+1} \right) - L\left( {x,y - 1} \right)}}{{L\left( {x+1,y} \right) - L\left( {x - 1,y} \right)}}. $

对于筛选出的特征点，对邻域内像素求取模和方向，在 $ 0\sim{360^ \circ } $内以 $ {45^ \circ } $为间隔作横轴，以对应方向梯度的累加为纵轴统计直方图，直方图中的峰值为主方向，80%峰值的方向为辅助方向.

5）特征点的匹配与目标点的确定. 待匹配图与匹配库中的管片螺栓参考图的匹配效果以欧氏距离衡量，如下所示：

(11) $ {{{D}}_{{\text{p}} \to {\text{m}}}} = \sqrt {\sum\limits_{i = 1}^{128} {\left[ {{{{D}}_{\text{p}}}\left( i \right) - {{{D}}_{\text{m}}}\left( i \right)} \right]} ^{2}{\kern 1pt} } . $

式中： $ {{\boldsymbol{D}}_{\text{p}}} $和 $ {{\boldsymbol{D}}_{\text{m}}} $分别为参考图与待匹配图中特征点的特征向量. 根据上述过程进行匹配，得到匹配效果，如图1所示. 如图1(a)所示为特征库中部分管片螺栓生成的关键点，如图1(b)所示为某次匹配结果.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 管片螺栓特征匹配的过程

Fig.1 Process of feature matching of segment bolt

为了测量位置，需要在图像上确定1个位于管片螺栓上的点为目标点，从图像上可以获得该目标点的像素坐标. 在实际匹配时，有时会产生远离正确匹配点的离散点，根据高斯分布 $ d\sim N\left( {\mu ,\sigma } \right) $将像素距离模型化：

(12) $ \left.\begin{split} & \mu = \frac{1}{{nk}}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^k {{d_{ij}}} } , \\ & \sigma = \sqrt {\frac{1}{{nk}}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^k {{{\left( {{d_{ij}} - \mu } \right)}^2}} } } . \end{split} \right\} $

式中： $ m $为筛选出的特征点个数， $ k $为特征点的相邻点个数， $ \mu $和 $ \sigma $为所有特征点与相邻像素点距离的均值和标准差. 当去除离散点时，遍历所有特征点. 若某点与其相邻点的像素距离均值 $ \displaystyle\sum\nolimits_{j = 1}^k {{d_{ij}}} $不在区间 $\left( {\mu -3\sigma ,\;\mu +3\sigma } \right)$内，则去除，其余特征点用1个最小矩形包含在内，该最小矩形的中心点为目标点.

1.2. 基于深度学习的目标螺栓筛选

在实际的盾构施工中，会有多个管片运送至工作区进行堆放，因此匹配时通常会生成2、3个管片螺栓上的目标点. 除了待抓取管片上的螺栓，也匹配到了其他在工作区的管片螺栓，需要对待抓取管片及其他工作区管片进行区分. 探究将待抓取管片与其他管片区分开的识别算法，研究如何筛选位于待抓取管片上的管片螺栓，获得最终测量的唯一目标点.

1）目标管片识别. Faster-Rcnn是双阶段的目标识别算法^[12]，预测流程如图2所示. 其中，卷积层的作用为提取图像特征，将生成的不同大小的特征图送入候选框生成网络，生成尺寸不同的候选框. 在预测与回归网络中，候选框尺寸、中心点位置与真实框尺寸、中心点位置的差距损失 $ {\text{Los}}{{\text{s}}_{{\text{cls}}}} $以及是否存在目标物的回归损失 $ {\text{Los}}{{\text{s}}_{{\text{reg}}}} $构成了总损失函数：

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 Faster-Rcnn算法的预测流程

Fig.2 Predicting process of Faster-Rcnn algorithm

(13) $ \begin{split} {\text{Loss}}\left( {{P_i},{t_i}} \right) = &\frac{1}{{{N_{{\text{cls}}}}}}\sum\limits_i {{\text{Los}}{{\text{s}}_{{\text{cls}}}}\left( {{P_i},{{P}_i}'} \right)+} \\ & \lambda \frac{1}{{{N_{{\text{reg}}}}}}\sum\limits_i {{{P}_i}'{\text{Los}}{{\text{s}}_{{\text{reg}}}}\left( {{t_i},{{t}_i}'} \right)} . \end{split} $

式中： ${P_i}$为第 $ i $个候选框预测分类的概率，当预测为正样本时 $ {P'_i} = 1 $，负样本时 ${P'_i} = 0$； $ {N_{{\text{cls}}}} $为训练批次大小； $ {N_{{\text{reg}}}} $为锚框数量； $ t $与 $ t' $为与边界框尺寸偏移量相关的参数； $ \lambda $为调节二分回归与边界框回归损失权重的参数. 判断正负样本的标准如下：

(14) $ {\text{IOU}} = \left( {{S_{{\text{prop}}}} \cap {S_{{\text{gt}}}}} \right)/\left( {{S_{{\text{prop}}}} \cup {S_{{\text{gt}}}}} \right){\kern 1pt} {\kern 1pt} . $

式中： $ {S_{{\text{prop}}}} $和 $ {S_{{\text{gt}}}} $分别为候选框与真实框的面积，当 $ {\text{IOU}} > 0.7 $时为正样本， $ {\text{IOU}} < 0.3 $时为负样本，其他在训练时摒弃. 基于以上思路，将位于工作区与拼装区最近的管片，即待抓取的管片标注为“目标管片”，其余管片为“后备管片”.

2）基于注意力机制的特征提取网络改进. 当对目标识别的准确率进行检验时，通常以真实框与预测框的交并比是否为0.5作为预测正确的检测标准. 分析采集图像可知，若真实框与预测框的交并比小于0.8，则有可能使得“目标管片”的预测框将其他位于工作区的管片螺栓包含在内，致使匹配到多个管片螺栓，如图3所示. 为了排除其他管片螺栓的影响，需要更加准确地识别框，因此对特征提取网络进行改进，以使模型适应更加严苛的0.8交并比.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 0.5交并比下误匹配多个管片螺栓

Fig.3 Mismatching of more than 1 segment bolts under 0.5 IOU

在盾构施工的过程中，管片拼装的顺序按照标准块-标准块-标准块-邻接块-邻接块-封顶块完成一次砌环，则运送至工作区的管片按照该顺序进行堆放. “目标管片”和“后备管片”的区别仅在于摆放位置不同，与管片类型无关，特征提取网络提取到的特征较相似. 为了满足更严苛的交并比，需要将神经网络的“注意力”更加严格地集中到2种类别，由此引入注意力机制,以提高模型的识别效果. 注意力机制分为空间注意力和通道注意力，本文采用两者兼具的混合注意力机制^[17](convolutional block attention module，CBAM)，该模型结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 混合注意力机制的结构

Fig.4 Structure of convolutional block attention module

本文使用的Faster-Rcnn算法的主干网络为Resnet50，主要构成为Identity Block. 由于注意力机制不会改变输入特征图的尺寸，仅通过全连接层为通道及图像像素分配权重，注意力机制可以放置在特征提取网络的任意位置. 本文的主干网络中共有4组Identity Block的堆叠，分别在第1组和第4组中的Identity Block中RELU层和输出之间添加混合注意力机制模块CBAM，Identity Block变为如图5所示的结构，识别效果在2.2节中详述.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 添加注意力机制的Identity Block结构

Fig.5 Structure of Identity Block after adding attention module

1.3. 信息融合位置测量

通过引入注意力机制的Faster-Rcnn算法，结合特征匹配生成测量目标点，可以有效地找到目标管片上螺栓的像素位置. 仅有像素位置只能推断出管片螺栓相对于相机光心坐标系的 $ x $、 $ y $轴坐标信息，无法获取管片螺栓的深度信息. 通过Kinect相机上搭载的深度摄像机及RGB相机，对两者的内、外参数进行标定. 结合两者所获得的深度信息和RGB信息，可以获取完整的管片螺栓在三维世界的准确坐标，测量流程如图6所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 基于信息融合的管片螺栓位置测量流程

Fig.6 Process of position measurement of segment bolt based on information fusion

1）相机内参标定. 相机成像原理为小孔成像，三维世界的物体经过相机小孔在配置有感光元件的成像平面上映射出倒立的实像. 该实像通过感光元件将光信号转化为电信号，经过转化放大处理得到数字图像，转化关系如下：

(15) $ \left[\begin{array}{c}m\\ n\\ 1\end{array}\right]=\left[\begin{array}{ccc}{\beta }_{{x}}& 0& {m}_{0}\\ 0& {\beta }_{{y}}& {n}_{0}\\ 0& 0& 1\end{array}\right]\left[\begin{array}{c}x/z\\ y/z\\ 1\end{array}\right]={{\boldsymbol{M}}}_{\text{in}}\left[\begin{array}{c}x/z\\ y/z\\ 1\end{array}\right]． $

式中：世界坐标系下物体点 $ M $在成像平面上映射的点的坐标为 $ \left( {x,y} \right) $，成像点 $ M' $在图像点的坐标为 $ \left( {m,n} \right) $，光轴中心线与成像平面交点坐标为 $ \left( {{m_0},{n_0}} \right) $， $\;{\beta _{{x}}} = {\alpha _{{x}}}f$和 $\;{\beta _{{y}}} = {\alpha _{{y}}}f$分别为成像点到图像点的放大系数， $ f $为相机的焦距， ${\alpha _{{x}}}$和 ${\alpha _{{y}}}$分别为 $ x $轴和 $ y $轴的放大系数， $ {{\boldsymbol{M}}_{{\text{in}}}} $为内参矩阵. 采用张正友标定法^[18]对相机的内、外参数进行标定，使用ROS系统下的camera_calibration功能包，拍摄不同角度位置的棋盘标定板即可完成标定. 深度相机的标定除了使用红外光源外，其余步骤与RGB相机一致.

2）相机外参数标定. 相机的外参数矩阵描述相机在世界坐标系中的位置，关系如下：

(16) $ \begin{split} &\left[ {\begin{array}{*{20}{c}} {{x_{\text{c}}}} \\ {{y_{\text{c}}}} \\ {{z_{\text{c}}}} \\ 1 \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{u_{{x}}}}&{{v_{{x}}}}&{{w_{{x}}}}&{{p_{{x}}}} \\ {{u_{{y}}}}&{{v_{{y}}}}&{{w_{{y}}}}&{{p_{{y}}}} \\ {{u_z}}&{{v_{{z}}}}&{{w_{{z}}}}&{{p_{{z}}}} \\ 0&0&0&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{x_{\text{w}}}} \\ {{y_{\text{w}}}} \\ {{z_{\text{w}}}} \\ 1 \end{array}} \right] = \\ & \left[ {\begin{array}{*{20}{c}} {\boldsymbol{R}}&{\boldsymbol{t}} \\ {\boldsymbol{0}}&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{x_{\text{w}}}} \\ {{y_{\text{w}}}} \\ {{z_{\text{w}}}} \\ 1 \end{array}} \right] = {{\boldsymbol{M}}_{{\text{out}}}}\left[ {\begin{array}{*{20}{c}} {{x_{\text{w}}}} \\ {{y_{\text{w}}}} \\ {{z_{\text{w}}}} \\ 1 \end{array}} \right] . \end{split} $

式中： $ \left( {{x_{\text{c}}},{y_{\text{c}}},{z_{\text{c}}}} \right) $为物体在相机坐标系下的坐标； $ \left( {{x_{\text{w}}},{y_{\text{w}}},{z_{\text{w}}}} \right) $为物体在世界坐标系下的坐标； $ {\boldsymbol{R}} $和 $ {\boldsymbol{t}} $分别表示世界坐标系各轴与原点相对于以相机光心为原点的坐标系的各轴与光心之间的转换关系，构成外参矩阵 $ {{\boldsymbol{M}}_{{\text{out}}}} $. 当进行目标物测量时，相机外参数矩阵一直随着坐标系的改变而变化，使用棋盘形靶标，在同一场景下对2种相机分别进行标定，可得2种相机在该场景下相对于棋盘形靶标的外参数矩阵，从而可以求得2种相机坐标系的转换矩阵.

3）相机畸变消除. 在实际的相机拍摄中，镜头会产生径向畸变及切向畸变，致使成像失真，因此需要对畸变进行校正. 校正后的图像点坐标为

(17) $ \left. \begin{gathered} m = {\beta _{{x}}} x''+{m_0}, \\ n = {\beta _{{y}}} y''+{n_0}. \\ \end{gathered} \right\}$

式中：

(18) $ \left. \begin{gathered} x'' = x' \left( {1+{k_1} {r^2}+{k_2} {r^4}} \right)+ 2 {p_1} x' y'+{p_2} \left( {{r^2}+2{{x'}^2}} \right), \\ y'' = y' \left( {1+{k_1} {r^2}+{k_2} {r^4}} \right)+ 2 {p_2} x' y'+{p_1} \left( {{r^2}+2{{y'}^2}} \right) . \end{gathered} \right\}$

其中 $ {k_1} $、 $ {k_2} $、 $ {p_1} $和 $ {p_2} $分别为径向和切向的畸变系数， $ x' = x/z $， $ y' = y/z $.

4）深度相机校准. 在进行相机参数标定及畸变消除后，需要对深度相机的深度进行校准，使用线性校准

(19) $ {d_{{\text{shift}}}} = \alpha {d_{{\text{mea}}}}+\beta {\kern 1pt} {\kern 1pt} . $

通过内参矩阵计算出的深度为真值d_shift，与测量值d_mea一起进行线性回归，可以完成深度信息的校准.

5）信息融合. 所使用的拍摄设备为Kinect相机，由于自带RGB相机的分辨率为 $ 640 \times 480 $，难以满足特征匹配的要求，使用1080像素的网络摄像头进行RGB信息的获取. 完成2种相机的配准，如图7所示，获得两者的坐标转换关系矩阵，即可进行信息融合.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 RGB相机与深度相机的配准

Fig.7 Registration of RGB camera and depth camera

(20) $ \left. \begin{split} & {{\boldsymbol{P}}_{{\text{ir}}}} = {\boldsymbol{R}} {{\boldsymbol{P}}_{{\text{rgb}}}}+{\boldsymbol{t}}, \\ & {\boldsymbol{R}} = {{\boldsymbol{R}}_{{\text{ir}}}} {\boldsymbol{R}}_{{\text{rgb}}}^{ - 1}, \\ & {\boldsymbol{t}} = {{\boldsymbol{t}}_{{\text{ir}}}} - {\boldsymbol{R}} {{\boldsymbol{t}}_{{\text{rgb}}}}. \end{split} \right\}$

式中： $ {P_{{\text{ir}}}} $和 $ {P_{{\text{rgb}}}} $分别为深度相机与RGB相机坐标系下的坐标， $ {\boldsymbol{R}} $和 $ {\boldsymbol{t}} $分别为两者的旋转量参数矩阵和平移量参数矩阵. 获得以上信息，可以进行完整的位置测量，测量结果与分析见2.3节.

2. 实验分析

2.1. 图像采集策略

为了在实验室环境下更接近盾构施工的实际条件，采用与实际管片颜色相近的3D打印管片，形状与管片上的孔洞与真实管片完全相同，大小为实际管片的1/20. 对实验环境进行分析，提出图像采集策略.

1）在施工时的隧道中，待抓取的管片都来自于已经拼装完成的隧道中，因此周围环境较单一. 隧道内没有自然光源，须使用光源照明. 随着盾构机的推进，照射在管片上的光照不固定，因此在隔绝自然光的暗室中设置变化的光源，对管片进行照明并采集图像.

2）在隧道中可能由于光噪声的干扰，导致图像不清晰、产生噪声或者管片的某一部分较暗无法识别. 为了获得鲁棒性较强的识别模型，对一部分图像进行添加高斯噪声、椒盐噪声及随机遮挡处理.

3）管片拼装在完成一次砌环时遵循1.2节中所述的拼装顺序，管片吊运装置按照该顺序将管片运送至工作区等待抓取. 在该过程中，管片的放置具有随机性，因此在采集图像时用随机的位姿和不同的顺序放置管片.

综上所述，图像采集策略如图8所示.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 管片训练集的图像采集策略

Fig.8 Strategy of segment images collection for training set

根据以上实验条件，共采集约5 000张图像，使用华为云平台Modelarts的NVIDIA V100显卡进行训练.

2.2. 添加注意力机制识别效果实验分析

将训练集送入神经网络，每批16个样本，在迭代约17次时准确率趋于平稳. 当预测框与真实框的交并比设置为0.5时，随着损失值的下降，准确率达到约95%；当交并比为0.8时，准确率下降至约90.6%. 利用相同的数据集对添加混合注意力机制后的神经网络进行训练，当迭代约20次时准确率趋于稳定，交并比为0.5和0.8时的准确率约为96%和94%，测试集的准确率变化趋势如图9所示. 图中，E_p为迭代次数，A_cc为测试集准确率.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 不同交并比条件下注意力机制对测试集准确率的影响变化

Fig.9 Influence of attention module on accuracy of test set under different IOU conditions

从图9可知，虽然在训练过程中添加注意力机制后导致训练稍慢，但添加注意力机制后的训练效果优于之前的结果，在更加严格的0.8的交并比下保持着较稳定的识别效果. 通过Grad-Cam技术^[19]，可以直观地反映神经网络对整个图像不同区域的关注度，用热图表示. 对于同一张管片图像，当神经网络预测其为“后备管片”时，观察添加注意力机制前、后网络对重点区域的关注程度，结果如图10所示.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 添加注意力机制前、后Grad-Cam可视化热图的对比

Fig.10 Comparison of Grad-Cam heat map between before and after adding attention module

当未添加注意力机制时，神经网络在识别“后备管片”时，不仅关注了部分“目标管片”中的区域，还额外关注了一些图像中的无关区域. 在加入注意力机制后，热图显示“后备管片”被给予了更加准确的“注意力”，减少了对无关区域的关注，这从侧面印证了在0.8的交并比下添加注意力机制维持更高准确率的原因.

2.3. 管片螺栓位置测量实验结果的分析

采用的测量方法适配机械式抓取装置，该装置成本较低，安全系数高，应用较广泛^[20]. 利用该方法直接对管片螺栓进行抓取，因此在使用本文的位置测量方法时无须考虑管片的摆放情况，只要识别到“目标管片”并匹配到管片螺栓，即可匹配出螺栓上的测量点进行测量. 使用的管片螺栓与管片等比例缩小，头部为类球型，上部平整，最大直径为16 mm. 使用管片拼装实验设备，该设备抓取装置底部适配的锁紧装置，如图11所示^[21]，最大开口直径为27 mm. 从不同角度、距离,对管片螺栓的位置进行测量，得到管片螺栓位置的测量结果，如表1所示.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 管片抓取及锁紧装置

Fig.11 Segment grabbing and locking facility

表 1 管片螺栓的位置测量结果

Tab.1 Result of position measurement of segment bolt

序号	坐标实际值/mm	坐标测量值/mm	各轴误差/mm
1	(−150,260,535)	(−151.315, 259.504, 533.467)	(1.315, 0.496, 1.533)
2	(300,180,710)	(299.407, 178.901, 707.661)	(0.593, 1.099, 2.339)
3	(−350,340,605)	(−348.159, 342.073, 606.517)	(−1.841, −2.073, −1.517)
4	(550,420,570)	(552.542, 419.404, 570.113)	(−2.542, 0.596, −0.113)
5	(−400,220,745)	(−399.669, 221.963, 747.673)	(−0.331, −1.963, −2.673)
6	(200,140,780)	(199.867, 139.417, 782.735)	(0.133, 0.583, −2.735)
7	(500,380,675)	(497.884, 381.682, 672.139)	(2.116, −1.682, 2.861)
8	(−250,100,500)	(−247.947, 98.754, 502.227)	(−2.053, 1.246, −2.227)
9	(450,300,640)	(448.682, 300.676, 642.410)	(1.318, −0.676, −2.410)

新窗口打开| 下载CSV

观察以上测量结果可以发现，测量值在3个轴上的误差均不超过3 mm. 对于本文的抓取装置所适配的锁紧机构，管片螺栓轴线理论上可偏离锁紧机构中心轴的最大距离为5.5 mm，因此可以将管片螺栓纳入抓取范围，该测量方法可以满足管片抓取的需要.

3. 结　语

本文针对管片抓取阶段，提出利用深度学习与特征匹配获取RGB信息并与深度信息融合的管片螺栓位置测量方法，避免了设置靶标的位置误差和管片螺栓误识别. 在特征提取网络部分添加了混合注意力机制，使得识别准确率在高交并比要求下维持在94%左右. 利用Grad-Cam可视化技术，从侧面证明了注意力机制的有效性.

当进行目标物识别时，相对于管片，管片螺栓的体积过小，识别效果远低于管片的识别. 若采用深度学习的方法对管片螺栓进行有效识别，则可以省去特征匹配阶段，直接完成管片螺栓的定位，提高位置测量的效率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WADA M

Automatic segment erection system for shield tunnels

[J]. Advanced Robotics, 1990, 5 (4): 429- 443

DOI:10.1163/156855391X00304 [本文引用: 1]

[2]

张碧, 赵海峰, 杨涛, 等

盾构管片拼装机国内外研究现状

[J]. 矿山机械, 2014, (4): 1- 6

ZHANG Bi, ZHAO Hai-feng, YANG Tao, et al

Research status of segment erector in shield tunneling machine at home and abroad

[J]. Mining and Processing Equipment, 2014, (4): 1- 6

[3]

HIRASAWA Y, HASHIMOTO H, WORI Y, et al. Development of automatic segment assembly robot for shield tunnelling machine [C]// BRILAKIS I. Proceedings of International Symposium on Automation and Robotics in Construction. Tokyo: [s. n. ], 1996: 813−820.

[4]

TANAKA Y

Automatic segment assembly robot for shield tunneling machine

[J]. Computer-Aided Civil and Infrastructure Engineering, 1995, 10 (5): 325- 337

DOI:10.1111/j.1467-8667.1995.tb00295.x [本文引用: 1]

[5]

刘飞香

管片拼装机抓取和拼装智能化研究

[J]. 铁道建筑, 2020, 60 (8): 58- 63