采用动态残差图卷积的3D点云超分辨率
3D point cloud super-resolution with dynamic residual graph convolutional networks
通讯作者:
收稿日期: 2021-11-29
基金资助: |
|
Received: 2021-11-29
Fund supported: | 云南省重大科技专项计划资助项目(202002AD080001) |
作者简介 About authors
钟帆(1997—),男,硕士生,从事基于深度学习3D建模研究.orcid.org/0000-0002-5392-5926.E-mail:
为了在超分辨率中对非欧数据的3D点云进行局部信息高效提取,提出采用动态残差图卷积的3D点云超分辨率网络(PSR-DRGCN),该网络包括特征提取模块、DRGCN模块及上采样模块. 对于输入的3D点云, 特征提取模块采用k-近邻(k-NN)算法在3D空间中找到每个点对应的k个邻居,通过逐点卷积把局部几何信息转换到高维特征空间中;DRGCN模块利用多层图卷积操作将3D空间中每个点的局部几何特征抽象为语义特征,在每一层对点的近邻空间进行动态调整以增加感受野范围,并通过残差连接融合多层次语义信息,从而对局部几何信息高效提取;上采样模块将特征空间中的点进行上采样并转换到3D空间中. 实验结果表明,PSR-DRGCN生成的高分辨率点云在放大尺度为2倍时,相似性指标CD、EMD、F-score相比第2网络分别优化了10.00%,4.76%,16.84%;当放大尺度为6倍时,相似性指标相比第2网络分别优化了2.35%,40.00%,0.58%;在所有情况下的均值与标准差指标上达到最优效果,生成的高分辨率点云质量高.
关键词:
A 3D point cloud super-resolution network with dynamic residual graph convolution (PSR-DRGCN) was proposed to efficiently extract of local information from 3D point clouds of non-European data in super-resolution. The network includes feature extraction module, DRGCN module and upsampling module. For the input point cloud, the feature extraction module locates k nearest points of each point in 3D space by k-NN algorithm and then converts the local geometry information into the high dimensional feature space through a multi-layer pointwise convolution. The DRGCN module converts the local geometry feature of each point into the semantic feature through a multi-layer graph convolution. It dynamically adjusts the neighbor space of the point in each layer to increase the receptive field range and effectively fuse the semantic information of different levels through residual connection, which makes the extraction of local geometric information efficient. The upsampling module adds the number of points and maps them from feature space to 3D space. The results showed that at 2× magnification of the high-resolution point cloud generated by PSR-DRGCN, the similarity indexes CD, EMD and F-score compared with the second network were increased by 10.00%, 4.76% and 16.84% respectively. Compared with the second network, the similarity indexes at 6× magnification were increased by 2.35%, 40.00% and 0.58% respectively. In all cases, the optimal effect was achieved on the mean and the std indicators and the generated high-resolution point cloud quality was high.
Keywords:
本文引用格式
钟帆, 柏正尧.
ZHONG Fan, BAI Zheng-yao.
基于深度学习的点云特征提取方法可以分为以下4种:基于多分支多层感知机的方法[9-12]、基于体素卷积的方法[13-15]、基于图的方法[16-18]与基于注意力机制[19-20]的方法. 1)基于多分支多层感知机的核心思想是分别对每个输入点通过多层感知机独立提取特征,然后聚合池化得到全局特征,这种方法往往很难提取到每个点周围的邻域几何信息. 2)基于体素卷积方法的核心思想是将点云转化为高度规则化的体素结构,再对体素采用类似像素的方法进行3D卷积,借鉴传统方法先验知识来设计神经网络结构,通过学习每个体素之间的权重参数自适应地提取局部几何语义特征,这种方法缺陷是计算量非常大,无法处理点数目稍多的点云数据. 3)基于图的方法在当前处理点云中较为常用,将点云中的每个点及其若干邻居点看作图的顶点、中心点与邻居点相连构建图,通过自适应学习相连顶点边的权重,更新顶点特征来提取顶点的局部几何信息,但这类方法只通过欧氏距离将邻居固定的做法限制感受野的大小,同时由于图网络缺陷,无法通过堆叠网络层数的方法对高级语义信息进行提取. 4)基于注意力机制的方法是近年比较热门的方向,事实上注意力机制和图卷积2种方法可以归结在信息传递的框架下,通过邻居的特征信息来更新中心点的特征信息. 与图卷积有所区别的是,注意力机制考虑的是更大范围的每个点,并且网络的大量冗余设计使得计算成本难以接受.
为了解决上述方法存在的问题,提出基于动态残差图卷积网络的点云超分辨率网络(point cloud super-resolution with dynamic residual graph convolutional networks, PSR-DRGCN),借鉴PU-net的网络结构,重新设计改进带有残差连接[21]的图卷积模块,该模块集合图卷积与残差连接的优点,避免网络退化与梯度爆炸的消失问题,同时考虑到每个点及其邻域空间的局部信息,通过共享参数的卷积减少计算量;在特征提取的图卷积环节引入动态近邻空间调节,大大增加每一层的感受野,使网络能够更大范围地考虑局部几何结构,提高生成点云的质量;在每次进行特征提取操作前将每个点的邻域空间从绝对坐标转化为相对坐标,使得网络对绝对位置的敏感程度下降,增强网络在不同上采样尺度下的鲁棒性.
1. 相关工作
近年来,基于数据驱动的深度学习已经成为直接从点云数据中提取特征的有力工具,不同的特征提取方法很大程度上影响着点云超分辨率网络最后的生成效果. PU-net[7]是基于深度学习的点云超分辨率网络的开创性工作,特征提取模块借鉴PointNet++[11]的做法,将每个点及其邻居点输入参数共享的多层感知机,输出进行池化操作提取点的局部特征,然后在每一层中对不同尺度的特征进行融合;在层间进行下采样操作得到不同分辨率的特征,融合后更新该点的特征向量,最后通过控制输出维度的方式对点的数量进行增加. PU-net对点云进行的下采样操作往往会造成不必要的分辨率损失,参数共享的多层感知机大大减少所需的参数量,但过小的网络参数量也限制网络提取特征的能力. 对抗残差图卷积网络(adversarial residual graph convolutional networks,AR-GCN)[6]对上述方法进行改进,将每个点及其邻居点看成一个无向图,引入图中常用的图卷积操作对点的局部特征进行提取,中心点和邻居点分别用2组不同的参数进行1×1卷积计算后相加.
2. 网络设计
2.1. 点云超分辨率
给定一个稀疏的点集
2.2. 网络结构
点云超分辨率网络PSR-DRGCN如图1所示,主要由特征嵌入模块、动态残差图卷积模块和上采样模块组成. 输入点云通过特征嵌入模块将点云中的每个点及其邻域空间映射到特征空间中. 动态残差图卷积模块在每一层的特征空间中动态地调整邻域,并将邻域空间中邻居点特征的绝对位置转化为相对中心点的相对位置,同时引入残差结构对邻域进行图卷积并采用多层次特征融合. 动态调整邻域增大每一层的感受野,带残差连接的图卷积结构在相对减少参数量的同时,能够构造更深的网络且减缓网络退化现象,更有效地捕捉到高级局部几何语义信息. 特殊的P-DRGCN层的作用是将上采样尺度
图 1
2.2.1. 特征嵌入模块
特征嵌入模块是一个简单网络,将3D点云嵌入到高维特征空间. 对于输入点云中的每个维度为
2.2.2. DRGCN模块
如图2所示,DRGCN模块包含图卷积操作、若干残差连接、动态近邻调整与相对位置转化. 该模块用于特征聚合,输入点云特征
图 2
式中:P为顶点集V中的任意一点;
DRGCN模块的核心思想是信息传递框架[23],将中心点的特征和邻居的特征通过图卷积操作聚合. 首先通过k-最近邻(k-nearest neighbor, K-NN) 算法确定中心点的k个邻居,根据
2.2.3. P-DRGCN模块
传统的超分辨率网络为单一尺度网络,只能通过重新训练的方式得到不同尺度的点云. 在上采样过程中,不同尺度会使得同一位置附近的生成点对应不同的原始点,由于使用的是同一套网络参数,上采样最大尺度到下采样需要的尺度,最后生成点云的质量较低. 针对上述问题,受到元学习思想[24]的启发,根据尺度因子
图 3
式中:函数
图 4
中心点的权重和邻居点的权重不共享,需要分别训练2组不同的拟合网络进行拟合,每个上采样尺度对应不同图卷积权重参数. 上采样尺度组成的向量
2.2.4. 上采样模块
如图5所示,上采样模块输入特征向量
图 5
2.3. 损失函数
式中:
式中:
该损失函数鼓励生成的点云尽可能落在真实点云所描述的二维闭曲面上.
式中:
式中:
式中:a为采样区域占整个二维闭曲面表面积的百分比,K为点云个数,D为区域个数,
3. 实验结果及分析
3.1. 实验设置
3.1.1. 实验环境及参数
实验使用的深度学习框架为Pyotrch 1.7.0和Python3.8,操作系统为Ubuntu 18.04 LTS. 在Intel i5-10400f处理器、16 GB内存、12 GB显存NVIDIA GrForce RTX3060显卡的设备上完成训练,采用Adam优化器,初始学习率设置为0.000 3、联合损失中的参数分别设置为
3.1.2. 数据集
网络训练和测试采用PU-Net[7]、AR-GCN[6]及Meta-PU[27]相同的数据集,含有从Visionair repository数据库得到的60个不同模型,设置40个模型对网络进行训练,剩下20个模型对网络进行测试. 在训练时,每个模型都被分为100块,总共有4 000个几何点云块,首先随机选定上采样尺度
3.1.3. 评价指标
由于网络的输入输出均为点云,为了衡量2个点云的相似程度,采用定义在欧氏距离上的倒角距离(chamfer distance, CD)[25]和移地距离(earth mover’s distance, EMD)[28]作为评价指标,CD计算生成点云中的每个点到真实点云中最近点的平均距离. EMD衡量通过移动 生成点云中的每个点与真实点云完全重合的最小代价. 这2个指标越小,表示2个点云越相似. 由于CD和EMD受奇异点的影响很大,可以将点云超分辨率任务看作分类任务,引入分类任务里常用到的F-score[29]作为评价指标. 对于点云超分辨率任务,精确率指的是在距离
3.2. 实验结果分析
3.2.1. 与其他超分辨率网络的对比实验
为了验证本研究提出的PSR-DRGCN网络的有效性,将其与目前表现最好的点云超分辨率网络在
表 1 点云超分辨率对比
Tab.1
方法 | CD | EMD | F-score | NUC | mean | std | CD | EMD | F-score | NUC | mean | std | |
2× | 4× | ||||||||||||
注:CD、EMD、NUC、mean、std指标均为10−3数量级 | |||||||||||||
AR-GCN | − | − | − | − | − | − | 8.6 | 18.0 | 70.09% | 339.0 | 2.9 | 3.3 | |
PU-GAN | 16.0 | 9.0 | 32.17% | 249.0 | 12.0 | 15.0 | 9.7 | 16.0 | 69.75% | 202.0 | 3.0 | 3.1 | |
AR-GCN x16sample | 15.0 | 13.0 | 36.98% | 273.0 | 6.7 | 8.2 | 13.0 | 13.0 | 54.05% | 288.0 | 6.6 | 8.0 | |
PC-SR | 15.0 | 12.0 | 52.82% | 188.0 | 2.8 | 3.3 | 14.0 | 19.0 | 72.18% | 211.0 | 2.8 | 3.1 | |
Meta-PU | 10.0 | 6.3 | 53.20% | 163.0 | 2.6 | 2.9 | 8.7 | 7.8 | 74.05% | 192.0 | 2.6 | 2.7 | |
PSR-DRGCN | 9.0 | 6.0 | 70.06% | 154.0 | 2.4 | 2.3 | 8.8 | 7.6 | 70.12% | 183.0 | 2.4 | 2.2 | |
方法 | CD | EMD | F-score | NUC | mean | std | CD | EMD | F-score | NUC | mean | std | |
6× | 9× | ||||||||||||
AR-GCN | − | − | − | − | − | − | 8.1 | 22.0 | 74.63% | 344.0 | 3.4 | 4.4 | |
PU-GAN | 12.0 | 13.0 | 58.56% | 287.0 | 11.0 | 18.0 | 9.1 | 8.5 | 70.61% | 212.0 | 4.7 | 5.7 | |
AR-GCN x16sample | 12.0 | 14.0 | 59.41% | 293.0 | 6.5 | 7.9 | 11 | 14.0 | 62.70% | 298.0 | 6.5 | 7.8 | |
PC-SR | 14.0 | 22.0 | 70.02% | 225.0 | 2.7 | 2.9 | 9.3 | 25.0 | 72.92% | 232.0 | 2.6 | 2.8 | |
Meta-PU | 8.5 | 14.0 | 72.98% | 267.0 | 2.5 | 3.0 | 8.3 | 16.0 | 73.74% | 274.0 | 3.0 | 3.4 | |
PSR-DRGCN | 8.3 | 8.4 | 73.56% | 243.0 | 2.3 | 2.1 | 7.9 | 9.8 | 74.23% | 210.0 | 2.2 | 2.0 |
从表1可以看出,本研究网络在绝大部分情况下的评价指标优于其他网络,在放大尺度为2倍时,结果指标CD, EMD, F-score比表1中性能第2的网络分别优化了10.00%,4.76%,16.84%;在放大尺度为6倍时,结果指标相对性能第2的网络分别优化了2.35%,40.00%,0.58%. 在所有情况下本研究的mean与std指标都优于其他网络,表明本研究方法生成的超分辨率点云最接近真实点云所在的曲面. 以4倍放大尺度为例对比当前主流点云超分辨网络的计算成本,结果如表2所示,其中D为偏差. 所提出的网络生成的点云在点到真实曲面的评价指标下达到质量最优,对比其他网络的参数量较大但生成点云耗时较少,这表明网络的计算复杂度较低. 对比采用传统图卷积的DGCNN网络,本研究采用共享参数的1×1卷积在显著减少网络计算成本的同时,平衡网络生成点云的质量. 在对比PU-net为代表的一类网络中,本研究方法在使用更多参数的情况下,获得质量更高的生成点云,但计算时间并未显著增加,综合来看,本研究的网络取得较好结果.
表 2 参数与推理时间对比结果
Tab.2
网络 | D/(10−2) | k | t/ms | |
mean | std | |||
Pointnet++ | 3.13 | 3.74 | 1 480 | 25.30 |
PU-net | 0.46 | 0.55 | 777 | 10.40 |
AR-GCN | 0.29 | 0.33 | 785 | 15.60 |
PU-GAN | 0.30 | 0.31 | 684 | 14.30 |
DGCNN | 2.90 | 3.20 | 1 842 | 41.60 |
PC-SR | 2.64 | 2.90 | 844 | 21.30 |
Meta-PU | 0.29 | 0.27 | 2 756 | 90.20 |
PSR-DRGCN | 0.24 | 0.22 | 1 282 | 12.30 |
3.2.2. 不同尺度下的网络表现
分析本研究网络在2倍~16倍的不同上采样尺度上,生成点云的CD与F-score这2个评价指标变化情况。在16倍的大跨度上采样尺度面前,本研究网络生成点云的CD指标变化范围为0.009 0~0.007 7,最大波动为16.67%,F-score指标变化范围为70.12%~76.35%,波动为6.23%. 生成的点云整体质量虽在降低但速率较慢,这表明网络对不同上采样尺度具有较好鲁棒性.
3.2.3. 消融实验
为了分析使用的动态调整近邻空间(dynamic neighbor, DN)与残差连接(residual connection, RC)对网络进行点云超分辨率的有效性,在同样的数据集上设置采样尺度为2倍对DRGCN模块进行消融实验,对比改进前后的网络性能,实验结果见表3.
表 3 2倍动态调整近邻空间与残差连接消融对比
Tab.3
方法 | CD | EMD | F-score | NUC | mean | std |
注:CD、EMD、NUC、mean、std指标均为10−3数量级 | ||||||
RGCN | 11.0 | 15.0 | 63.36% | 224.0 | 55.0 | 57.0 |
DRGCN | 9.0 | 6.0 | 70.06% | 154.0 | 2.4 | 2.3 |
无残差连接网络(GCN, DGCN)的退化现象[30]十分严重,输出很快收敛到秩为1的矩阵,所有新生成点在3D空间位置重合,网络输出结果没有意义. 对比1、2这2行的结果,动态近邻空间调整的加入使网络评价指标分别优化了18.18%、60.00%、6.64%、31.25%、56.36%与59.65%. 动态近邻空间调整应用到该网络扩大了每一层的感受野,更好地对局部几何特征信息进行提取. 残差连接允许网络堆叠更深以提取高级语义信息,这使得生成点云与输入点云形状更相似,提高生成点云质量的同时避免网络退化问题.
3.3. 可视化分析
3.3.1. 不同尺度的上采样可视化
可视化结果如图6所示,在所有尺度上的上采样点云都含有若干空洞区域,较好地继承输入点云的空间分布,这既是优点也是缺点. 对比不同上采样尺度的可视化图像,上采样尺度越高,点云越稠密,但视觉感官越差,高分辨率点云边界与细节处较为模糊,这主要是不同区域的点云密度差值造成. 表1中EMD与NUC指标随尺度的增大而增大也印证了这一点. 在上采样尺度
图 6
图 6 2×、4×、6×、9×、16×上采样尺度可视化对比图
Fig.6 Visual performance compression in 2×, 4×, 6×, 9×, 16× scale
3.3.2. 其他网络的上采样可视化对比
以4倍上采样尺度为例,如图7所示。对比结果图7(c)和7(d),结果图7(g)明显从视觉上来看更为均匀,出现空洞区域和高密度点云区域的个数较少,原因是引入了动态邻域空间调整,网络能够考虑到更大的范围,这使得高密度聚集点变少,有利于点云的均匀分布. 对比结果图7(e)和7(f)来看,结果图7(g)更好地保留输入点的局部几何特征,这得益于残差连接与相对坐标变换. 残差连接能更好地对多尺度语义信息进行融合,同时缓解图卷积网络容易出现的网络退化缺点,使得深层图卷积网络成为可能,而深层网络对特征的表示能力更强;相对坐标变换也使得局部几何特征更加容易捕获,如图7的局部放大所示,猪的2只足部较为突出,易于辨认.
图 7
图 7 不同网络超分辨率可视化对比图(猪)
Fig.7 visual performance compression in different SR networks(pig)
以4倍上采样尺度为例,如图8的误差色谱图所示,红色与蓝色的深浅表示生成点云到真实曲面偏差e的大小. 通过对比可以发现本研究方法生成的高分辨率点云平均误差较小,特别是在物体边缘处更贴近真实3D物体模型,同时极值点数目较少,可保证后续建模的效果.
图 8
图 8 不同网络超分辨率误差图
Fig.8 error visual performance compression in different SR networks
4. 结 语
经过一系列的对比试验表明,本研究的网络在所有上采样尺度上的点云生成评价指标上均取得显著提升,性能优于其它网络,更适合进行点云超分辨率的应用,其中提出PSR-DRGCN是为高效利用局部几何特征进行点云超分辨率. PSR-DRGCN具有3个关键点:首先,摆脱只在3D空间对邻居点进行搜索的传统,且邻居点一经固定就不再改变的限制,在每次图卷积前都在特征空间中对每个点的邻域进行动态调整,这使得每一层的感受野范围增加,从而更好地提取局部几何信息. 其次,对邻居点进行相对位置的转换,而非直接采用绝对位置作为DRGCN模块的输入,这克服了局部几何特征对绝对位置敏感的问题,从而对不同位置的几何特征更具鲁棒性. 最后,通过网络设计将残差连接与图卷积有机结合,在对特征进行多层次融合的同时缓解网络退化的问题,提高生成点云的质量. 在未来的研究中,可以从很多方面对该网络改进和优化,如增加额外的T-net[9]预测网络对旋转矩阵进行预测,可进一步增强网络对点云的旋转稳定性.
参考文献
Image super-resolution via sparse representation
[J].DOI:10.1109/TIP.2010.2050625 [本文引用: 1]
Evaluation and development of deep neural networks for image super-resolution in optical microscopy
[J].DOI:10.1038/s41592-020-01048-5
基于多尺度特征映射网络的图像超分辨率重建
[J].
Image super-resolution reconstruction based on multi-scale feature mapping network
[J].
Image super-resolution using deep convolutional networks
[J].
Image super-resolution reconstruction based on feature map attention mechanism
[J].
一种面向散乱点云语义分割的深度残差特征金字塔网络框架
[J].
A deep residual-feature pyramid network for scattered point cloud semantic segmentation
[J].
Two-stage point cloud super resolution with local interpolation and readjustment via outer-product neural network
[J].DOI:10.1007/s11424-020-9266-x [本文引用: 2]
Pct: point cloud transformer
[J].DOI:10.1007/s41095-021-0229-5 [本文引用: 1]
Optimum design of chamfer distance transforms
[J].DOI:10.1109/83.718487 [本文引用: 2]
Meta-PU: an arbitrary-scale upsampling network for point cloud
[J].DOI:10.1109/TVCG.2021.3058311 [本文引用: 1]
/
〈 |
|
〉 |
