浙江大学学报(工学版), 2022, 56(11): 2251-2259 doi: 10.3785/j.issn.1008-973X.2022.11.016

计算机技术

采用动态残差图卷积的3D点云超分辨率

钟帆,, 柏正尧,

云南大学 信息学院,云南 昆明 650500

3D point cloud super-resolution with dynamic residual graph convolutional networks

ZHONG Fan,, BAI Zheng-yao,

School of Information Science and Engineering, Yunnan University, Kunming 650500, China

通讯作者: 柏正尧,男,教授. orcid.org/0000-0001-5350-629X. E-mail: baizhy@ynu.edu.cn

收稿日期: 2021-11-29  

基金资助: 云南省重大科技专项计划资助项目(202002AD080001)

Received: 2021-11-29  

Fund supported: 云南省重大科技专项计划资助项目(202002AD080001)

作者简介 About authors

钟帆(1997—),男,硕士生,从事基于深度学习3D建模研究.orcid.org/0000-0002-5392-5926.E-mail:zffhost@mail.ynu.edu.cn , E-mail:zffhost@mail.ynu.edu.cn

摘要

为了在超分辨率中对非欧数据的3D点云进行局部信息高效提取,提出采用动态残差图卷积的3D点云超分辨率网络(PSR-DRGCN),该网络包括特征提取模块、DRGCN模块及上采样模块. 对于输入的3D点云, 特征提取模块采用k-近邻(k-NN)算法在3D空间中找到每个点对应的k个邻居,通过逐点卷积把局部几何信息转换到高维特征空间中;DRGCN模块利用多层图卷积操作将3D空间中每个点的局部几何特征抽象为语义特征,在每一层对点的近邻空间进行动态调整以增加感受野范围,并通过残差连接融合多层次语义信息,从而对局部几何信息高效提取;上采样模块将特征空间中的点进行上采样并转换到3D空间中. 实验结果表明,PSR-DRGCN生成的高分辨率点云在放大尺度为2倍时,相似性指标CD、EMD、F-score相比第2网络分别优化了10.00%,4.76%,16.84%;当放大尺度为6倍时,相似性指标相比第2网络分别优化了2.35%,40.00%,0.58%;在所有情况下的均值与标准差指标上达到最优效果,生成的高分辨率点云质量高.

关键词: 3D点云 ; 超分辨率 ; 动态图卷积网络 ; 语义特征 ; 深度学习

Abstract

A 3D point cloud super-resolution network with dynamic residual graph convolution (PSR-DRGCN) was proposed to efficiently extract of local information from 3D point clouds of non-European data in super-resolution. The network includes feature extraction module, DRGCN module and upsampling module. For the input point cloud, the feature extraction module locates k nearest points of each point in 3D space by k-NN algorithm and then converts the local geometry information into the high dimensional feature space through a multi-layer pointwise convolution. The DRGCN module converts the local geometry feature of each point into the semantic feature through a multi-layer graph convolution. It dynamically adjusts the neighbor space of the point in each layer to increase the receptive field range and effectively fuse the semantic information of different levels through residual connection, which makes the extraction of local geometric information efficient. The upsampling module adds the number of points and maps them from feature space to 3D space. The results showed that at 2× magnification of the high-resolution point cloud generated by PSR-DRGCN, the similarity indexes CD, EMD and F-score compared with the second network were increased by 10.00%, 4.76% and 16.84% respectively. Compared with the second network, the similarity indexes at 6× magnification were increased by 2.35%, 40.00% and 0.58% respectively. In all cases, the optimal effect was achieved on the mean and the std indicators and the generated high-resolution point cloud quality was high.

Keywords: 3D point cloud ; super-resolution ; dynamic GCN ; semantic feature ; deep learning

PDF (1454KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

钟帆, 柏正尧. 采用动态残差图卷积的3D点云超分辨率. 浙江大学学报(工学版)[J], 2022, 56(11): 2251-2259 doi:10.3785/j.issn.1008-973X.2022.11.016

ZHONG Fan, BAI Zheng-yao. 3D point cloud super-resolution with dynamic residual graph convolutional networks. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(11): 2251-2259 doi:10.3785/j.issn.1008-973X.2022.11.016

随着机器人和自动驾驶技术的深入研究与3D传感器(如雷达)的大量应用,采用点云表示3D数据越来越广泛,但受限于环境、硬件与算法等客观因素,特别是当物体较小或距离较远时,3D传感器经常得到稀疏带噪的点云,这给点云数据的后续处理带来诸多不便. 点云超分辨率能够将输入的稀疏、残缺和带噪声的点云输出为稠密、完整和清晰的点云. 随着深度学习在图像超分辨率领域[1-5]广泛应用,基于深度学习的点云超分辨率方法也成为当前研究的热点[6-8]. 现有的基于深度学习的点云超分辨率网络包括2个主要部分:特征提取和点的上采样,其中特征提取的性能对网络性能存在很大影响.

基于深度学习的点云特征提取方法可以分为以下4种:基于多分支多层感知机的方法[9-12]、基于体素卷积的方法[13-15]、基于图的方法[16-18]与基于注意力机制[19-20]的方法. 1)基于多分支多层感知机的核心思想是分别对每个输入点通过多层感知机独立提取特征,然后聚合池化得到全局特征,这种方法往往很难提取到每个点周围的邻域几何信息. 2)基于体素卷积方法的核心思想是将点云转化为高度规则化的体素结构,再对体素采用类似像素的方法进行3D卷积,借鉴传统方法先验知识来设计神经网络结构,通过学习每个体素之间的权重参数自适应地提取局部几何语义特征,这种方法缺陷是计算量非常大,无法处理点数目稍多的点云数据. 3)基于图的方法在当前处理点云中较为常用,将点云中的每个点及其若干邻居点看作图的顶点、中心点与邻居点相连构建图,通过自适应学习相连顶点边的权重,更新顶点特征来提取顶点的局部几何信息,但这类方法只通过欧氏距离将邻居固定的做法限制感受野的大小,同时由于图网络缺陷,无法通过堆叠网络层数的方法对高级语义信息进行提取. 4)基于注意力机制的方法是近年比较热门的方向,事实上注意力机制和图卷积2种方法可以归结在信息传递的框架下,通过邻居的特征信息来更新中心点的特征信息. 与图卷积有所区别的是,注意力机制考虑的是更大范围的每个点,并且网络的大量冗余设计使得计算成本难以接受.

为了解决上述方法存在的问题,提出基于动态残差图卷积网络的点云超分辨率网络(point cloud super-resolution with dynamic residual graph convolutional networks, PSR-DRGCN),借鉴PU-net的网络结构,重新设计改进带有残差连接[21]的图卷积模块,该模块集合图卷积与残差连接的优点,避免网络退化与梯度爆炸的消失问题,同时考虑到每个点及其邻域空间的局部信息,通过共享参数的卷积减少计算量;在特征提取的图卷积环节引入动态近邻空间调节,大大增加每一层的感受野,使网络能够更大范围地考虑局部几何结构,提高生成点云的质量;在每次进行特征提取操作前将每个点的邻域空间从绝对坐标转化为相对坐标,使得网络对绝对位置的敏感程度下降,增强网络在不同上采样尺度下的鲁棒性.

1. 相关工作

近年来,基于数据驱动的深度学习已经成为直接从点云数据中提取特征的有力工具,不同的特征提取方法很大程度上影响着点云超分辨率网络最后的生成效果. PU-net[7]是基于深度学习的点云超分辨率网络的开创性工作,特征提取模块借鉴PointNet++[11]的做法,将每个点及其邻居点输入参数共享的多层感知机,输出进行池化操作提取点的局部特征,然后在每一层中对不同尺度的特征进行融合;在层间进行下采样操作得到不同分辨率的特征,融合后更新该点的特征向量,最后通过控制输出维度的方式对点的数量进行增加. PU-net对点云进行的下采样操作往往会造成不必要的分辨率损失,参数共享的多层感知机大大减少所需的参数量,但过小的网络参数量也限制网络提取特征的能力. 对抗残差图卷积网络(adversarial residual graph convolutional networks,AR-GCN)[6]对上述方法进行改进,将每个点及其邻居点看成一个无向图,引入图中常用的图卷积操作对点的局部特征进行提取,中心点和邻居点分别用2组不同的参数进行1×1卷积计算后相加.

2. 网络设计

2.1. 点云超分辨率

给定一个稀疏的点集 ${\boldsymbol{x}} \in {{\bf{R}}^{{{n}} \times 3}}$和上采样尺度 $ \gamma $,目标是生成稠密的点集 $ {\boldsymbol{\hat y}} \in {{\bf{R}}^{\gamma {{n}} \times 3}} $.$ {\boldsymbol{\hat y}} $中的每个点都尽可能接近x所描述的二维闭曲面表面,两者在3D空间的形状应尽可能相似,且 $ {\boldsymbol{\hat y}} $中的点尽可能均匀分布.

2.2. 网络结构

点云超分辨率网络PSR-DRGCN如图1所示,主要由特征嵌入模块、动态残差图卷积模块和上采样模块组成. 输入点云通过特征嵌入模块将点云中的每个点及其邻域空间映射到特征空间中. 动态残差图卷积模块在每一层的特征空间中动态地调整邻域,并将邻域空间中邻居点特征的绝对位置转化为相对中心点的相对位置,同时引入残差结构对邻域进行图卷积并采用多层次特征融合. 动态调整邻域增大每一层的感受野,带残差连接的图卷积结构在相对减少参数量的同时,能够构造更深的网络且减缓网络退化现象,更有效地捕捉到高级局部几何语义信息. 特殊的P-DRGCN层的作用是将上采样尺度 $ \gamma $这一信息引入到点云超分辨率网络中,从而可以个性化学习到每个上采样尺度所对应的参数. 点云的上采样模块将特征空间中的点云通过特征维度重组的方法增加点的数目,并将点云从高维特征空间反射到3D空间,生成最大上采样尺度的点云,这样的点云可下采样到目标尺度.

图 1

图 1   PSR-DRGCN框架图

Fig.1   llustration of PSR-DRGCN architecture


2.2.1. 特征嵌入模块

特征嵌入模块是一个简单网络,将3D点云嵌入到高维特征空间. 对于输入点云中的每个维度为 $ 1 \times 3 $的点 ${{{\boldsymbol{p}}}} \in {\boldsymbol{x}}$,首先聚合与点p欧氏距离最近的k个点得到维度为 $ k \times 3 $的点集 $ {\boldsymbol{g}} $,然后经过若干个卷积核大小为 $ 1 \times 3 $的卷积与最大池化操作后,提取到维度为 $ 1 \times c $的特征,其中 $ c $为每个点的特征维数,最后输出维度为 $ n \times c $的点云特征 $ {{\boldsymbol{F}}_{{\text{out}}}} $. 最大池化作为对称函数保证输出对输入顺序的不敏感性,同时聚合邻域特征,使得更具有代表性. 设置k=8,c=128,使用8层卷积.

2.2.2. DRGCN模块

图2所示,DRGCN模块包含图卷积操作、若干残差连接、动态近邻调整与相对位置转化. 该模块用于特征聚合,输入点云特征 $ {{\boldsymbol{F}}_{{\text{in}}}} $与输出点云特征 $ {{\boldsymbol{F}}_{{\text{out}}}} $维度相同. DRGCN中的图卷积(graph convolution network, GCN)[22]操作定义在图 $ {\boldsymbol{G}} = ({\boldsymbol{V}},{\boldsymbol{\varepsilon }}) $上,其中V为图G的顶点集, $ {\boldsymbol{\varepsilon }} $为图G的邻接矩阵. 图卷积用公式表示为

图 2

图 2   DRGCN模块

Fig.2   DRGCN module


$ {\boldsymbol{f}}_{{\text{out}}}^{\boldsymbol{p}}{\boldsymbol{ = }}{{\boldsymbol{\omega }}_{{0}}}*{\boldsymbol{f}}_{{\text{in}}}^{\boldsymbol{p}}{\boldsymbol+}{{\boldsymbol{\omega }}_{\text{1}}}*\sum\nolimits_{q \in {\boldsymbol{N}}({\boldsymbol{p}})} {{\boldsymbol{f}}_{{\text{in}}}^q} {\boldsymbol{,}}\;\forall {\boldsymbol{p}} \in {\boldsymbol{V}}. $

式中:P为顶点集V中的任意一点; $ {\boldsymbol{f}}_{{\text{out}}}^{\boldsymbol{p}} $为经过图卷积操作后顶点输出的特征向量; $ {\boldsymbol{f}}_{{\text{out}}}^{\boldsymbol{p}} $为顶点p的输入特征向量; ${\boldsymbol{N}}({\boldsymbol{p}})$为顶点集V中相对于顶点p,欧氏距离最近的k个邻居点形成的邻居点集;q为邻居点集 ${\boldsymbol{N}}({\boldsymbol{p}})$中的任意一点; $ {{\boldsymbol{\omega }}_0} $${{\boldsymbol{\omega }}_1} $为通过学习而得到的参数; *为1×1卷积操作。

DRGCN模块的核心思想是信息传递框架[23],将中心点的特征和邻居的特征通过图卷积操作聚合. 首先通过k-最近邻(k-nearest neighbor, K-NN) 算法确定中心点的k个邻居,根据 $ {\boldsymbol{f}}_{{\text{in}}}^q - {\boldsymbol{f}}_{{\text{in}}}^{\boldsymbol{p}} $得到邻居点的相对位置,然后输入点特征与邻居点特征分别通过 $ 1 \times 1 $卷积后进行拼接和最大池化操作. 为避免堆叠深层网络训练时出现收敛速度过慢与梯度消失的问题,网络在输出特征前,进行残差连接和归一化操作. 每个点的邻居并非固定不变,而是在每一层开始时,根据输入的特征向量在特征空间中进行动态更新,这有助于获得更大的感受野. 在网络训练过程中,参数设置为k=8, c=128,共使用40个DRGCN模块,其中第20个模块是特殊的P-DRGCN.

2.2.3. P-DRGCN模块

传统的超分辨率网络为单一尺度网络,只能通过重新训练的方式得到不同尺度的点云. 在上采样过程中,不同尺度会使得同一位置附近的生成点对应不同的原始点,由于使用的是同一套网络参数,上采样最大尺度到下采样需要的尺度,最后生成点云的质量较低. 针对上述问题,受到元学习思想[24]的启发,根据尺度因子 $ \gamma $对网络参数进行设计,自适应调整的P-DRGCN模块如图3所示. P-DRGCN与DRGCN相似,区别在于P-DRGCN中的图卷积权重是根据因子动态生成而非直接通过学习得到. 对于尺度因子 $ \gamma $,生成长度为 $ {\gamma _{\max }} $的对应尺度向量 ${\boldsymbol{\tilde \gamma }} = [0,1,\cdots , \gamma ,0,\cdots ,0]$作为1×1卷积权重预测模块的输入,每轮训练网络前,先随机在 $ [0,{\gamma _{\max }}] $随机选定上采样规模 $ \gamma $,根据上采样规模对训练集进行采样到需要的点数作为本轮的训练数据,这样能够通过一次训练获得多种上采样尺度的网络. 相应的图卷积改写为

图 3

图 3   P-DRGCN模块

Fig.3   P-DRGCN module


$ {\boldsymbol{f}}_{{\text{out}}}^{\boldsymbol{p}} = \varphi (\tilde {\boldsymbol{\gamma }};{{\boldsymbol{\theta }}_{\text{0}}}) * {\boldsymbol{f}}_{{\text{in}}}^{\boldsymbol{p}}+\varphi (\tilde {\boldsymbol{\gamma }};{{\boldsymbol{\theta }}_1}) * \sum\nolimits_{q \in N({\boldsymbol{p}})} {{\boldsymbol{f}}_{{\text{in}}}^q} ,\;\forall {\boldsymbol{p}} \in {\boldsymbol{V}}.$

式中:函数 $ \varphi $为将 $ \tilde {\boldsymbol{\gamma }} $映射为图卷积权重,利用图4所示的全连接网络进行拟合; $ {{\boldsymbol{\theta }}_i} $为全连接网络中通过学习得到的参数.

图 4

图 4   尺度预测网络

Fig.4   Scale predict network


中心点的权重和邻居点的权重不共享,需要分别训练2组不同的拟合网络进行拟合,每个上采样尺度对应不同图卷积权重参数. 上采样尺度组成的向量 $ \tilde {\boldsymbol{\gamma }} $通过一次训练直接得到任意尺度的网络,本研究设置最大尺度 $ {\gamma _{\max }} = 16 $拟合网络由3个全连接层组成. 第1个全连接层输入尺度向量 $ \tilde {\boldsymbol{\gamma }} $,输出 ${{{c}}_{{\text{hidden}}}} = 128$的隐藏层特征向量;第2个全连接层输入隐藏特征向量,输出权重 $ {{\boldsymbol{w}}_0} $;第3个全连接层输入尺度向量 $ \tilde {\boldsymbol{\gamma }} $,输出权重 ${{\boldsymbol{w}}_{{\text{s}}}}$${{\boldsymbol{w}}_{{\text{s}}}}$$ {{\boldsymbol{w}}_0} $相加后作为权重w进入P-DRGCN的图卷积操作中参与运算.

2.2.4. 上采样模块

图5所示,上采样模块输入特征向量 $ {{\boldsymbol{F}}_{{\text{in}}}} $,输出超分辨率点云 $ \hat {\boldsymbol{y}} $. 上采样模块在进行1×1卷积的过程中,通过控制通道数,将特征向量由c维扩展到 $ 3 \times {\gamma _{\max }} $维,然后对张量进行重整,完成上采样并将点云从特征空间反映射到3D空间,利用最远距离采样算法将点云下采样到需要的放大尺度. 最远距离的采样最大程度保留点云的形状特征,这样在根据要求控制点数的情况下,尽可能减小下采样操作造成的点云几何结构偏差.

图 5

图 5   上采样模块

Fig.5   Upsampling module


2.3. 损失函数

PSR-DRGCN采用联合损失函数,由倒角损失 $ {L_{{\text{cd}}}} $[25]、一致损失 $ {L_{{\text{uni}}}} $[7]和辛霍恩损失 $ {L_{\sin }} $[26]组成,用公式表示为

$ L = {\lambda _{{\text{cd}}}}{L_{{\text{cd}}}}+{\lambda _{{\text{uni}}}}{L_{{\text{uni}}}}+{\lambda _{{\text{sin}}}}{L_{{\text{sin}}}} . $

式中: $ {\lambda _{{\text{cd}}}} $$ {\lambda _{{\text{uni}}}} $$ {\lambda _{{\text{sin}}}} $分别为平衡3个损失函数权重的参数.

$ {L_{{\text{cd}}}} $用于衡量生成高分辨率点云 $ \hat {\boldsymbol{y}} $和真实高分辨率点云y在欧氏距离度量下的相似程度,与图像超分辨率任务中采用的 $ {L_2} $损失相似,具体公式为

$ {L_{{\text{cd}}}}({\boldsymbol{y}},\hat {\boldsymbol{y}}) = \sum\limits_{{{j}} \in {\boldsymbol{y}}} {\mathop {\min }\limits_{{{l}} \in \hat {\boldsymbol{y}}} } \left\| {{{j}} - {{l}}} \right\|_2^2+\sum\limits_{{{j}} \in \hat {\boldsymbol{y}}} {\mathop {\min }\limits_{{{l}} \in {\boldsymbol{y}}} } \left\| {{{j - l}}} \right\|_2^2. $

式中: ${{j}}$为点云y中的点, ${{l}}$为点云 $ \hat {\boldsymbol{y}} $中的点.

该损失函数鼓励生成的点云尽可能落在真实点云所描述的二维闭曲面上. $ {L_{\sin }} $是使空间中2个分布完全相同所需的最小代价,计算公式为

$ {L_{\sin }}({\boldsymbol{y}},\hat {\boldsymbol{y}}) = \min\; \left(\int_{{\chi ^2}} {C} {\rm{d}}{\rm{y}}+\mu {KL} ({\boldsymbol{y}},\hat {\boldsymbol{y}})\right). $

式中: $ {KL} ({\boldsymbol{y}},\hat {\boldsymbol{y}}) $为当两点云分布完全相同时的空间状态; $ \mu $$ {KL} ({\boldsymbol{y}},\hat {\boldsymbol{y}}) $所确定的正则化参数;代价函数C是定义在H维特征空间 $\chi \subset {\bf{R}}^H$上两点间的距离. 用公式表示为

$ {\text{C(}}{{\boldsymbol{\tilde y}}_{\boldsymbol{i}}},{{\boldsymbol{y}}_{\boldsymbol{i}}}) = \frac{1}{2}\left\| {{{{\boldsymbol{\tilde y}}}_{\boldsymbol{i}}} - {{\boldsymbol{y}}_{\boldsymbol{i}}}} \right\|_2^2. $

式中: $ {{\boldsymbol{y}}_{\boldsymbol{i}}} $为点云y中的点, $ {{\boldsymbol{\tilde y}}_{\boldsymbol{i}}} $为点云 $ \hat {\boldsymbol{y}} $中的点.

$ {L_{{\text{uni}}}} $用于度量生成点云分布的均匀程度,首先在点云所在的上表面随机选择若干个同等面积的区域,通过区域内的点云密度和整体点云密度来计算点云密度的标准差作为损失函数,计算公式为

$ {\rm{avg}} = \frac{1}{{KD}}\sum\limits_{k = 1}^K {\sum\limits_{i = 1}^D {\frac{{n_i^k}}{{{N^k} \times a}}} } , $

$ {L_{{\text{nui}}}} = \sqrt {\frac{1}{{KD}}\sum\limits_{k = 1}^K {\sum\limits_{i = 1}^D \left(\frac{{n_i^k}}{{{N^k} \times a}} - {\rm{avg}}\right)^2} } . $

式中:a为采样区域占整个二维闭曲面表面积的百分比,K为点云个数,D为区域个数, $ {N^k} $为第k个点云中的点数目, $ n_i^k $为第k个点云表面上第i个区域中点的数目. 该损失函数中所有距离均为测地距离.

3. 实验结果及分析

3.1. 实验设置

3.1.1. 实验环境及参数

实验使用的深度学习框架为Pyotrch 1.7.0和Python3.8,操作系统为Ubuntu 18.04 LTS. 在Intel i5-10400f处理器、16 GB内存、12 GB显存NVIDIA GrForce RTX3060显卡的设备上完成训练,采用Adam优化器,初始学习率设置为0.000 3、联合损失中的参数分别设置为 $ {\lambda _{{\text{cd}}}} = 1 $.0$ {\lambda _{{\text{uni}}}} = 0.001 $$ {\lambda _{\sin }} = 0.005 $,batch size设置为8、epoch设置为60.

3.1.2. 数据集

网络训练和测试采用PU-Net[7]、AR-GCN[6]及Meta-PU[27]相同的数据集,含有从Visionair repository数据库得到的60个不同模型,设置40个模型对网络进行训练,剩下20个模型对网络进行测试. 在训练时,每个模型都被分为100块,总共有4 000个几何点云块,首先随机选定上采样尺度 $ \gamma $,然后利用泊松盘采样算法对每个点云块采样得到个N点作为真实点云,随后对真实点云再进行一次泊松盘采样得到n个点作为网络的输入点云. 其中, $ n = {n_{\max }}/\gamma $$ N = \gamma \times ({n_{\max }}/\gamma ) $nN随放大倍数变化,设置 $ {n_{\max }} = 4\;096 $. 在测试时,采用同样的方法将测试集中的每个模型下采样到5 000个点. 在整体输入网络中,输出超分辨率点云与真实点云进行比较与评估.

3.1.3. 评价指标

由于网络的输入输出均为点云,为了衡量2个点云的相似程度,采用定义在欧氏距离上的倒角距离(chamfer distance, CD)[25]和移地距离(earth mover’s distance, EMD)[28]作为评价指标,CD计算生成点云中的每个点到真实点云中最近点的平均距离. EMD衡量通过移动 生成点云中的每个点与真实点云完全重合的最小代价. 这2个指标越小,表示2个点云越相似. 由于CD和EMD受奇异点的影响很大,可以将点云超分辨率任务看作分类任务,引入分类任务里常用到的F-score[29]作为评价指标. 对于点云超分辨率任务,精确率指的是在距离 $ \tau $$ {\boldsymbol{y}} $中的点能在 $ \hat {\boldsymbol{y}} $中找到邻居的比例,召回率指的是在距离 $ \tau $$ \hat {\boldsymbol{y}} $中的点能在 $ {\boldsymbol{y}} $中找到邻居的比例,F-score是精确率和召回率的调和平均数. 该指标越大说明两点云越接近,生成点云质量越好. 采用标准化均匀系数(normalized uniformity coefficient, NUC)[7]来评价生成点云是否能够均匀地分布在真实点云所在的曲面上,NUC中设置a=0.8%. 同时,采用生成点云中每个点到真实点云曲面距离的均值mean与标准差std来衡量生成点和真实曲面之间的差异. 试验说明,3个指标值越小,生成质量越好.

3.2. 实验结果分析
3.2.1. 与其他超分辨率网络的对比实验

为了验证本研究提出的PSR-DRGCN网络的有效性,将其与目前表现最好的点云超分辨率网络在 $ \gamma \in \left[ {2,4,6,9} \right] $ 4个尺度上进行对比研究. 为使实验更有说服力,采用与AR-GCN、PU-GAN、Meta-PU相同的优化器和初始实验参数. 在5个网络中,AR-GCN、PU-GAN和PC-SR[15]是单一尺度超分辨率网络,对于每个放大尺度都要重新进行训练. 此外,由于网络的固有限制,AR-GCN只能对上采样尺度为完全平方数 $ \gamma \in \left[ {4,9} \right] $进行训练,对其余2个放大尺度,先用AR-GCN进行16倍超分辨率,再对所得点云进行最远距离下采样到需要的放大尺度,实验结果见表1.

表 1   点云超分辨率对比

Tab.1  Performance comparison in point cloud super-resolution

方法 CD EMD F-score NUC mean std CD EMD F-score NUC mean std
注:CD、EMD、NUC、mean、std指标均为10−3数量级
AR-GCN 8.6 18.0 70.09% 339.0 2.9 3.3
PU-GAN 16.0 9.0 32.17% 249.0 12.0 15.0 9.7 16.0 69.75% 202.0 3.0 3.1
AR-GCN x16sample 15.0 13.0 36.98% 273.0 6.7 8.2 13.0 13.0 54.05% 288.0 6.6 8.0
PC-SR 15.0 12.0 52.82% 188.0 2.8 3.3 14.0 19.0 72.18% 211.0 2.8 3.1
Meta-PU 10.0 6.3 53.20% 163.0 2.6 2.9 8.7 7.8 74.05% 192.0 2.6 2.7
PSR-DRGCN 9.0 6.0 70.06% 154.0 2.4 2.3 8.8 7.6 70.12% 183.0 2.4 2.2
方法 CD EMD F-score NUC mean std CD EMD F-score NUC mean std
AR-GCN 8.1 22.0 74.63% 344.0 3.4 4.4
PU-GAN 12.0 13.0 58.56% 287.0 11.0 18.0 9.1 8.5 70.61% 212.0 4.7 5.7
AR-GCN x16sample 12.0 14.0 59.41% 293.0 6.5 7.9 11 14.0 62.70% 298.0 6.5 7.8
PC-SR 14.0 22.0 70.02% 225.0 2.7 2.9 9.3 25.0 72.92% 232.0 2.6 2.8
Meta-PU 8.5 14.0 72.98% 267.0 2.5 3.0 8.3 16.0 73.74% 274.0 3.0 3.4
PSR-DRGCN 8.3 8.4 73.56% 243.0 2.3 2.1 7.9 9.8 74.23% 210.0 2.2 2.0

新窗口打开| 下载CSV


表1可以看出,本研究网络在绝大部分情况下的评价指标优于其他网络,在放大尺度为2倍时,结果指标CD, EMD, F-score比表1中性能第2的网络分别优化了10.00%,4.76%,16.84%;在放大尺度为6倍时,结果指标相对性能第2的网络分别优化了2.35%,40.00%,0.58%. 在所有情况下本研究的mean与std指标都优于其他网络,表明本研究方法生成的超分辨率点云最接近真实点云所在的曲面. 以4倍放大尺度为例对比当前主流点云超分辨网络的计算成本,结果如表2所示,其中D为偏差. 所提出的网络生成的点云在点到真实曲面的评价指标下达到质量最优,对比其他网络的参数量较大但生成点云耗时较少,这表明网络的计算复杂度较低. 对比采用传统图卷积的DGCNN网络,本研究采用共享参数的1×1卷积在显著减少网络计算成本的同时,平衡网络生成点云的质量. 在对比PU-net为代表的一类网络中,本研究方法在使用更多参数的情况下,获得质量更高的生成点云,但计算时间并未显著增加,综合来看,本研究的网络取得较好结果.

表 2   参数与推理时间对比结果

Tab.2  Performance comparison in parameters and inference time

网络 D/(10−2) k t/ms
mean std
Pointnet++ 3.13 3.74 1 480 25.30
PU-net 0.46 0.55 777 10.40
AR-GCN 0.29 0.33 785 15.60
PU-GAN 0.30 0.31 684 14.30
DGCNN 2.90 3.20 1 842 41.60
PC-SR 2.64 2.90 844 21.30
Meta-PU 0.29 0.27 2 756 90.20
PSR-DRGCN 0.24 0.22 1 282 12.30

新窗口打开| 下载CSV


3.2.2. 不同尺度下的网络表现

分析本研究网络在2倍~16倍的不同上采样尺度上,生成点云的CD与F-score这2个评价指标变化情况。在16倍的大跨度上采样尺度面前,本研究网络生成点云的CD指标变化范围为0.009 0~0.007 7,最大波动为16.67%,F-score指标变化范围为70.12%~76.35%,波动为6.23%. 生成的点云整体质量虽在降低但速率较慢,这表明网络对不同上采样尺度具有较好鲁棒性.

3.2.3. 消融实验

为了分析使用的动态调整近邻空间(dynamic neighbor, DN)与残差连接(residual connection, RC)对网络进行点云超分辨率的有效性,在同样的数据集上设置采样尺度为2倍对DRGCN模块进行消融实验,对比改进前后的网络性能,实验结果见表3.

表 3   2倍动态调整近邻空间与残差连接消融对比

Tab.3  Performance comparison in 2× dynamic neighbor and residual connection

方法 CD EMD F-score NUC mean std
注:CD、EMD、NUC、mean、std指标均为10−3数量级
RGCN 11.0 15.0 63.36% 224.0 55.0 57.0
DRGCN 9.0 6.0 70.06% 154.0 2.4 2.3

新窗口打开| 下载CSV


无残差连接网络(GCN, DGCN)的退化现象[30]十分严重,输出很快收敛到秩为1的矩阵,所有新生成点在3D空间位置重合,网络输出结果没有意义. 对比1、2这2行的结果,动态近邻空间调整的加入使网络评价指标分别优化了18.18%、60.00%、6.64%、31.25%、56.36%与59.65%. 动态近邻空间调整应用到该网络扩大了每一层的感受野,更好地对局部几何特征信息进行提取. 残差连接允许网络堆叠更深以提取高级语义信息,这使得生成点云与输入点云形状更相似,提高生成点云质量的同时避免网络退化问题.

3.3. 可视化分析
3.3.1. 不同尺度的上采样可视化

可视化结果如图6所示,在所有尺度上的上采样点云都含有若干空洞区域,较好地继承输入点云的空间分布,这既是优点也是缺点. 对比不同上采样尺度的可视化图像,上采样尺度越高,点云越稠密,但视觉感官越差,高分辨率点云边界与细节处较为模糊,这主要是不同区域的点云密度差值造成. 表1中EMD与NUC指标随尺度的增大而增大也印证了这一点. 在上采样尺度 $ \gamma \in \left[ {2,4,6} \right] $上,EMD随尺度增大分别恶化了26.67%、10.53%;NUC随尺度增大分别恶化了19.48%,32.78%. 但在上采样尺度增大到9倍时,NUC指标反而变得更好,而其他网络的NUC值随上采样尺度增大而增大,这表明本研究网络在大尺度上采样情况下的性能更佳.

图 6

图 6   2×、4×、6×、9×、16×上采样尺度可视化对比图

Fig.6   Visual performance compression in 2×, 4×, 6×, 9×, 16× scale


3.3.2. 其他网络的上采样可视化对比

以4倍上采样尺度为例,如图7所示。对比结果图7(c)和7(d),结果图7(g)明显从视觉上来看更为均匀,出现空洞区域和高密度点云区域的个数较少,原因是引入了动态邻域空间调整,网络能够考虑到更大的范围,这使得高密度聚集点变少,有利于点云的均匀分布. 对比结果图7(e)和7(f)来看,结果图7(g)更好地保留输入点的局部几何特征,这得益于残差连接与相对坐标变换. 残差连接能更好地对多尺度语义信息进行融合,同时缓解图卷积网络容易出现的网络退化缺点,使得深层图卷积网络成为可能,而深层网络对特征的表示能力更强;相对坐标变换也使得局部几何特征更加容易捕获,如图7的局部放大所示,猪的2只足部较为突出,易于辨认.

图 7

图 7   不同网络超分辨率可视化对比图(猪)

Fig.7   visual performance compression in different SR networks(pig)


以4倍上采样尺度为例,如图8的误差色谱图所示,红色与蓝色的深浅表示生成点云到真实曲面偏差e的大小. 通过对比可以发现本研究方法生成的高分辨率点云平均误差较小,特别是在物体边缘处更贴近真实3D物体模型,同时极值点数目较少,可保证后续建模的效果.

图 8

图 8   不同网络超分辨率误差图

Fig.8   error visual performance compression in different SR networks


4. 结 语

经过一系列的对比试验表明,本研究的网络在所有上采样尺度上的点云生成评价指标上均取得显著提升,性能优于其它网络,更适合进行点云超分辨率的应用,其中提出PSR-DRGCN是为高效利用局部几何特征进行点云超分辨率. PSR-DRGCN具有3个关键点:首先,摆脱只在3D空间对邻居点进行搜索的传统,且邻居点一经固定就不再改变的限制,在每次图卷积前都在特征空间中对每个点的邻域进行动态调整,这使得每一层的感受野范围增加,从而更好地提取局部几何信息. 其次,对邻居点进行相对位置的转换,而非直接采用绝对位置作为DRGCN模块的输入,这克服了局部几何特征对绝对位置敏感的问题,从而对不同位置的几何特征更具鲁棒性. 最后,通过网络设计将残差连接与图卷积有机结合,在对特征进行多层次融合的同时缓解网络退化的问题,提高生成点云的质量. 在未来的研究中,可以从很多方面对该网络改进和优化,如增加额外的T-net[9]预测网络对旋转矩阵进行预测,可进一步增强网络对点云的旋转稳定性.

参考文献

YANG J, WRIGHT J, HUANG T S, et al

Image super-resolution via sparse representation

[J]. IEEE Transactions on Image Processing, 2010, 19 (11): 2861- 2873

DOI:10.1109/TIP.2010.2050625      [本文引用: 1]

QIAO C, LI D, GUO Y, et al

Evaluation and development of deep neural networks for image super-resolution in optical microscopy

[J]. Nature Methods, 2021, 18 (2): 194- 202

DOI:10.1038/s41592-020-01048-5     

段然, 周登文, 赵丽娟, 等

基于多尺度特征映射网络的图像超分辨率重建

[J]. 浙江大学学报: 工学版, 2019, 53 (7): 1331- 1339

DUAN Ran, ZHOU Deng-Wen, ZHAO Li-Juan, et al

Image super-resolution reconstruction based on multi-scale feature mapping network

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (7): 1331- 1339

DONG C, LOY C C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38 (2): 295- 307

CHEN Y, LIU L, PHONEVILAY V, et al

Image super-resolution reconstruction based on feature map attention mechanism

[J]. Applied Intelligence, 2021, (8): 1- 14

[本文引用: 1]

WU H, ZHANG J, HUANG K. Point cloud super resolution with adversarial residual graph networks [EB/OL]. [2019-08-06]. https://arxiv.org/pdf/1908.0211.pdf .

[本文引用: 3]

YU L, LI X, FU C W, et al. Pu-net: point cloud upsampling network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2790-2799.

[本文引用: 4]

LI R, LI X, FU C W, et al. Pu-gan: a point cloud upsampling adversarial network [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 7203-7212.

[本文引用: 1]

QI C R, SU H, MO K, et al. Pointnet: deep learning on point sets for 3d classification and segmentation [C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Hawaii: IEEE, 2017: 652-660.

[本文引用: 2]

LI R, LI X, HENG P A, et al. Point cloud upsampling via Disentangled Refinement [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Online: IEEE, 2021: 344-353.

QI C R, YI L, SU H, et al. Pointnet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of Neural Information Processing Systems. Long Beach: NIPS, 2017: 5099-5108.

[本文引用: 1]

彭秀平, 仝其胜, 林洪彬, 等

一种面向散乱点云语义分割的深度残差特征金字塔网络框架

[J]. 自动化学报, 2021, 47 (12): 2831- 2840

[本文引用: 1]

PENG Xiu-Ping, TONG Qi-Sheng, LIN Hong-Bin, et al

A deep residual-feature pyramid network for scattered point cloud semantic segmentation

[J]. Acta Automatica Sinica, 2021, 47 (12): 2831- 2840

[本文引用: 1]

MATURANA D, SCHERER S. Voxnet: a 3d convolutional neural network for real-time object recognition [C]// Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg: IEEE, 2015: 922-928.

[本文引用: 1]

MAO J, XUE Y, NIU M, et al. Voxel transformer for 3d object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Online: IEEE, 2021: 3164-3173.

WANG G, XU G, WU Q, et al

Two-stage point cloud super resolution with local interpolation and readjustment via outer-product neural network

[J]. Journal of Systems Science and Complexity, 2021, 34 (1): 68- 82

DOI:10.1007/s11424-020-9266-x      [本文引用: 2]

SIMONOYSKY M, KOMODAKIS N. Dynamic edge-conditioned flters in convolutional neural networks on graphs [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 3693-3702.

[本文引用: 1]

TE G, HU W, ZHENG A, et al. Rgcnn: regularized graph cnn for point cloud segmentation [C]// Proceedings of the 26th ACM International Conference on Multimedia. Lisboa: ACM, 2018: 746-754.

QIAN G, ABUALSHOUR A, LI G, et al. Pu-gcn: point cloud upsampling using graph convolutional networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Online: IEEE, 2021: 11683-11692.

[本文引用: 1]

GUO M H, CAI J X, LIU Z N, et al

Pct: point cloud transformer

[J]. Computational Visual Media, 2021, 7 (2): 187- 199

DOI:10.1007/s41095-021-0229-5      [本文引用: 1]

YU X, RAO Y, WANG Z, et al. Pointr: diverse point cloud completion with geometry-aware transformers [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Online: IEEE, 2021: 12498-12507.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. [2016-09-09]. https://arxiv.org/pdf/1609.02907.pdf.

[本文引用: 1]

LUO C, CHEN Y, WANG N, et al. Spectral feature transformation for person re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4976-4985.

[本文引用: 1]

HU X, MU H, ZHANG X, et al. Meta-SR: a magnification-arbitrary network for super-resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1575-1584.

[本文引用: 1]

BUTT M A, MARAGOS P

Optimum design of chamfer distance transforms

[J]. IEEE Transactions on Image Processing, 1998, 7 (10): 1477- 1484

DOI:10.1109/83.718487      [本文引用: 2]

CUTURI M. Sinkhorn distances: lightspeed computation of optimal transport [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: NIPS, 2013: 2292-2300.

[本文引用: 1]

YE S, CHEN D, HAN S, et al

Meta-PU: an arbitrary-scale upsampling network for point cloud

[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28 (9): 3206- 3218

DOI:10.1109/TVCG.2021.3058311      [本文引用: 1]

BOLTZ S, NIELSEN F, SOATTO S. Earth mover distance on superpixels [C]// IEEE International Conference on Image Processing. Hong Kong: IEEE, 2010: 4597-4600.

[本文引用: 1]

SOKOLOVA M, JAPKOWICZ N, SZPAKOWICZ S. Beyond accuracy, F-score and ROC: a family of discriminant measures for performance evaluation [C]// Australasian Joint Conference on Artificial Intelligence. Berlin: Springer, 2006: 1015-1021.

[本文引用: 1]

DONG Y, CORDONNIER J B, LOUKAS A. Attention is not all you need: Pure attention loses rank doubly exponentially with depth[EB/OL]. [2021-05-05]. https://arxiv.org/pdf/2103.03404.pdf.

[本文引用: 1]

/