浙江大学学报(理学版), 2023, 50(6): 770-780 doi: 10.3785/j.issn.1008-9497.2023.06.012

第15届全国几何设计与计算学术会议专题

局部信息和全局信息相结合的点云处理网络

刘玉杰,, 原亚夫,,, 孙晓瑞, 李宗民

中国石油大学(华东) 计算机科学与技术学院,山东 青岛 266580

A point cloud processing network combining global and local information

LIU Yujie,, YUAN Yafu,,, SUN Xiaorui, LI Zongmin

College of Computer Science and Technology,China University of Petroleum,Qingdao 266580,Shandong Province,China

通讯作者: ORCID:https//orcid.org/0009-0006-6509-680X,E-mail:yuanyafu@s.upc.edu.cn.

收稿日期: 2023-06-21   修回日期: 2023-07-15   接受日期: 2023-07-22  

基金资助: 国家重点研发计划项目.  2019YFF0301800
国家自然科学基金资助项目.  61379106
山东省自然科学基金资助项目.  ZR2013FM036.  ZR2015FM011

Received: 2023-06-21   Revised: 2023-07-15   Accepted: 2023-07-22  

作者简介 About authors

刘玉杰(1971—),ORCID:https://orcid.org/0000-0003-1001-963X,男,博士,副教授,主要从事计算机图形图像处理、行人重识别等研究. 。

摘要

针对当前主流点云处理网络仅依靠局部邻域进行特征聚合导致特征提取能力不足,以及使用最大值池化造成信息损失的问题,提出了一种基于注意力的局部信息和全局信息相结合的点云处理网络。首先提出了基于通道自注意力进行局部特征聚合的方法,减少了信息的损失;然后为捕获点的远程依赖信息,设计了一种动态学习关键点的方法获取全局信息; 最后构建了一种基于空间注意力的特征融合模块,使每个点均能学习全局上下文信息。在几个常用点云数据集上对方法进行了实验验证,在ModelNet40分类任务上实现了94.0%的总体分类精度、91.7%的平均分类精度;在ScanObjectNN分类任务上实现了81.5%的总体分类精度、78.1%的平均分类精度;在ShapeNet 分割任务上实现了86.5%的平均交并比。表明提出的点云处理网络在分类、分割等任务中的精度均较PointNet、PointNet++、DGCNN等经典网络有显著提升,较其他点云处理网络也有不同程度的提高。

关键词: 点云分类 ; 点云分割 ; 注意力机制 ; 全局信息 ; 局部信息

Abstract

To address the limitations of current mainstream networks, which rely solely on local neighborhoods for feature aggregation and suffering from insufficient feature extraction capabilities and information loss due to max-pooling, we propose an attention-based point cloud processing network that combines both local and global information. First, we introduce channel attention for local feature aggregation to minimize information loss. Next, we design a dynamic key point learning method to capture the remote dependency information of points and obtain global information. Finally, we develop a spatial attention fusion module to allow each point to learn the global con-textual information. Our proposed method has been benchmarked on several point cloud analysis tasks. It achieved an overall classification accuracy of 94.0% and an average classification accuracy of 91.7% on the ModelNet40 classification task. On the ScanObjectNN classification task, our method reached an overall class fication accuracy of 81.5% and an average classification accuracy of 78.1%. In the ShapeNet segmentation task, we obtained a mean intersection over union of 86.5%. The experimental results show that the proposed network has significantly improved accuracy compared to classical networks such as PointNet, PointNet++, and DGCNN in classification and segmentation tasks, and has also achieved improvement in deferent degree compared to other point cloud processing networks.

Keywords: point cloud classification ; point cloud segmentation ; attention mechanism ; global information ; local information

PDF (2182KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘玉杰, 原亚夫, 孙晓瑞, 李宗民. 局部信息和全局信息相结合的点云处理网络. 浙江大学学报(理学版)[J], 2023, 50(6): 770-780 doi:10.3785/j.issn.1008-9497.2023.06.012

LIU Yujie, YUAN Yafu, SUN Xiaorui, LI Zongmin. A point cloud processing network combining global and local information. Journal of Zhejiang University(Science Edition)[J], 2023, 50(6): 770-780 doi:10.3785/j.issn.1008-9497.2023.06.012

点云数据是由三维传感器、激光雷达等设备扫描得到的一种三维空间数据的表现形式,由大量分布在空间的散乱点组成,包括每个点在空间的坐标信息。点云是对现实世界物体的数字化采集,能高精度和高密度表现物体的形状信息。这些数据特性使其在自动驾驶31、位置识别33和机器人视觉32等领域有广泛应用。然而点云数据是不规则的和无序的,没有固定的拓扑结构,使得在二维视觉任务中常用的卷积等方法难以直接应用于点云数据。因此,针对点云数据分析设计有效的特征聚合方法以及信息传递方法仍具有挑战性。

解决点云数据的非结构化问题主要有两种思路: 一种是将点云数据结构化,用二维视觉任务中的常用方法对点云进行处理;另一种是为点云的非结构化数据提出专用的神经网络模块。将点云数据结构化常用的方法有点云体素化34-36和多视图投影13-16,但易损失大量局部细节信息,不利于点云的分割、配准等任务。在深度学习领域,作为直接处理点云数据的先驱者——PointNet1,通过网络学习每个点的空间编码,采用多层感知机将所有的点聚合为全局特征,但未考虑点与点之间隐藏的几何关系,不能捕获局部上下文信息,在处理点云分割等精细任务时存在不足。为获得更加丰富的局部特征,相继出现了许多局部特征提取的神经网络模块,可分为基于邻域点特征池化的方法49、基于图卷积的方法1738和基于三维卷积的方法12,这些方法只考虑了邻域中的局部信息交互,忽略了邻域之间的特征交互。基于邻域点特征池化和基于图卷积的方法在特征聚合过程中均使用了最大值池化聚合特征,只有一小部分点对中心点特征有贡献,导致特征对局部几何信息描述不准确。

为解决上述问题,本文提出基于注意力的局部信息和全局信息相结合的特征聚合策略,同时,在局部信息提取时引入通道自注意力,以减少信息的损失。

首先,回顾一般的局部特征聚合方法,并深入探讨局部信息和全局信息相结合的特征聚合方法的必要性(2.1节)。然后,为减少信息的损失,在局部信息聚合模块中引入空间几何信息,提出基于通道自注意力的局部信息聚合模块(2.2节)。为扩大感受野,捕获远程依赖信息,提出用动态学习关键点获取全局信息(2.3节)以及基于空间注意力的全局信息和局部信息融合模块(2.4节)。最后,引入瓶颈结构构建局部和全局信息注意力模块,采用分层框架搭建基于注意力的局部信息和全局信息相结合的点云处理网络(local and global information attention network,LGANet)。

1 相关工作

点云的非结构化数据形式一直是点云处理领域的难点。由于PointNet1使用共享MLPs3学习每个点的特征,无法获得局部结构特征。为解决此问题,相继出现通过设计算法获取邻域并聚合邻域信息、学习局部上下文信息的工作。根据是否通过欧式距离获取邻域,将相关研究划分为局部特征聚合、非局部特征聚合以及局部和全局相结合的特征聚合3种方法,如图1所示。

图1

图1   特征聚合的3种方法

Fig.1   Three feature aggregation methods


1.1 局部特征聚合

PointNet++[2]采用球查询分组、共享MLPs3编码和最大值池化方法提取局部特征,并通过最远点采样进行下采样,以实现多尺度学习获取目标物体的特征,但仍存在信息损失问题,不能很好地表示局部几何结构。文献[4-9]关注局部点之间和多尺度不同层之间的关系,以改善局部特征提取效果。例如,A-CNN4基于局部点到中心点的距离进行特征编码;PointWeb5则考虑每对局部点,使用自适应特征调整模块改进点的特征,获得更具代表性的局部特征;DensePoint9则根据多尺度不同层之间的关系,密集地学习上下文信息。这些方法从不同角度改进了对局部特征的提取,但在深度网络的浅层,物体不同部件的特征存在相似性。为此,本文提出引入全局特征的方法,以进一步丰富局部特征,并使用注意力机制将全局特征和局部特征相融合,以增大物体不同部件的类间差异,更好地描述局部几何结构。

另外,文献[10-12]关注于学习三维卷积提取局部特征。例如,PointCNN10利用点云数据的空间局部相关性,学习χ变换并将其作为卷积核,但仍无法解决点云排列不变性问题。SpiderCNN11将卷积定义为k 个最近邻阶跃函数和泰勒展开的乘积,在一定程度上解决了点云排列不变性问题,但学习过程需要消耗大量计算和内存资源。PAConv12通过计算中心点和邻域点之间的相似性,用获得的注意力权重调整卷积核权重,从而更高效地获取局部信息。

在聚合局部特征时,最大值池化操作会导致信息损失,而学习三维卷积核需要消耗大量计算资源。为减少信息损失和降低计算复杂度,本文提出通过通道自注意力进行局部特征聚合,并在特征聚合时引入空间信息的方法。

1.2 非局部特征聚合

经典的非局部特征聚合基于多视图的方法13-16,即将三维物体投影到不同视图,使用二维卷积提取视图特征,并将不同视图的特征聚合为全局特征,但忽略了三维物体的几何特征,直接对其进行视图投影会丢失大量信息。以DGCNN17为代表的动态图卷积,在特征空间对点进行分组,构建图聚合特征。在基于Transformer20的方法18-1924中,Transformer的核心自注意力模块本质上是对集合的处理,点云是一个无序的点集,使得Transformer非常适合处理点云的无序性和排列不变性等问题。

1.3 局部和全局相结合的特征聚合

GS-Net21采用通过欧氏距离分组和在特征空间通过在全局范围内寻找与中心点特征相似的点分组2种分组算法,丰富了局部特征,尽管能在一定程度上提高局部特征的丰富度,但仍未解决网络浅层处于物体不同部位的点具有特征相似性的问题。为克服此问题,PointASNL22通过自适应采样获得关键点,并将其提取为全局特征以丰富局部特征。GDANet23使用谱域滤波将物体分为尖锐部分和平滑部分,获得全局上下文信息,并通过构图学习局部上下文信息。CurveNet25通过构造曲线描述全局特征,通过注意力机制融合局部和全局信息。然而,采用自适应采样的方法22无法充分表示全局信息,而GDANet23和CurveNet25需要通过复杂计算获得全局信息,耗费的计算资源巨大。为此,本文提出一种动态学习关键点的方法,能兼顾效率和精度获取全局特征。

2 本文方法

2.1 局部特征聚合分析

在三维点云表征学习过程中,主要对点云PN*3={p1,p2,,pN}进行分组,点pi获得邻域K={pi1,pi2,,pik},其中pik表示第i中心点的第k个邻域点,再将这k个点的特征fK*C={fi1,fi2,,fik}进行聚合,得到中心点特征Fi,最终得到整个物体的特征FN*C={F1,F2,,FN},其中,N表示点的数量,C表示特征通道维度。点云表征学习中最常用的特征聚合方法是最大值池化操作,其过程可定义为

F=maxpooling(MLP(Θ(f)))

其中,F表示特征聚合后点的特征,f表示邻域内点的特征,Θ(f)表示边缘函数17,常见的形式有(fik-fi)2-25(fik-fi,fi)17,其中,fi表示中心点i的特征,fik表示中心点i邻域内第k个点的特征。这些特征聚合方式一定程度能描述局部几何信息,但不能充分描述深层的语义信息25。如图2所示,AB两点位于椅子不同的部位,两点的邻域分布却具有很高的相似性。因此在网络浅层,通过特征聚合方式能够描述平面的几何信息,但无法区分椅背和椅座的语义信息。受文献[26-27]启发,本文用全局信息丰富局部特征,使局部特征更好地描述深层语义信息。

图2

图2   AB两点空间示意以及邻域平面示意

Fig.2   A and B two-point spatial diagram and neighborhood plane schematic


2.2 基于通道自注意力的局部信息聚合

当前大多数三维点云模型均用最大值池化解决置换不变性问题,但在此过程中只有一小部分点参与特征聚合,大部分点的信息都会被遗弃28。为减少信息损失,提出了基于通道自注意力的局部信息聚合(local information aggregation based on channel self-attention,LIACA)模块。

对于给定的点云P和特征F,为描述局部几何信息,需将邻域点特征聚合至中心点。当前局部特征聚合的主流方法2-17图3所示,点Pi通过分组得到邻域点的特征,在特征聚合过程中只保留含有通道最大值的邻域点特征,将筛选后的特征进行最大值池化,聚合得到中心点的特征。如此,不含有通道最大值的邻域点特征都会被丢弃,造成大量信息损失。为减少信息损失,提出了LIACA模块,具体如图4所示。计算邻域内同一通道点的特征Ci={ci1,ci2,,cik},得到注意力分数Si={si1,si2,,sik}(其中i表示邻域点特征的第i个通道,k表示邻域内第k个点)。

图3

图3   主流方法的特征聚合过程

Fig.3   The feature aggregation process of mainstream methods


S=softmax(hϑ(C))

其中,hϑ(C)为具有一组可学习参数ϑ的非线性函数,S表示当前通道特征值的重要程度。最后,按照分数权重进行特征聚合:

Fim=k=1KCimk×Simk

其中,Fim表示点云中第i个中心点的第m个通道的特征值,k表示第i个中心点Fi的第k个邻域点。用通道自注意力进行特征聚合可减少信息丢失,充分利用邻域点特征,更好地表现局部几何信息。

图4

图4   基于通道自注意力的局部信息聚合模块

Fig.4   Local information aggregation module based on channel self-attention


在当前主流的点云表征学习网络中,边缘函数Θ(f)只考虑了特征F,没有考虑空间信息。为进一步增加特征多样性,本文在构造边缘函数时引入了邻域点坐标信息Γ

Γ=pipik(pik-pi)(-||pik-pi||)

其中,为连接运算符,pi=(xi,yi,zi)表示中心点坐标信息,pik=(xik,yik,zik)表示邻域点坐标信息,||||表示邻域点和中心点之间的欧式距离。邻域点距离中心点越近,对中心点的贡献越大,因此在聚合距离时取相反数。在引入邻域点坐标信息后,新的边缘函数为

Ε=(fi-f)MLP(Γ)

自注意力局部特征聚合可表示为

Fl=CA(MLP(E))

其中,CA表示通道自注意力。

综上所述,在引入位置信息和使用通道自注意力后,网络能更好地学习局部上下文信息。

局部信息聚合算法步骤:

输入 点云位置信息PN*3={p1,p2,,pN}和特征FN*C={F1,F2,,FN}

输出 聚合邻域特征的点云特征FN*C'={F1',F2',,FN'}

Step1 获取邻域点。对于点pi,基于欧几里得距离使用K近邻(K-nearest neighbors,KNN)算法获得邻域K

Step2 计算边缘函数。用式(4)和式(5)计算边缘信息E

Step3 特征聚合。用式(2)、式(3)、式(6)计算聚合邻域特征后的点云特征FN*C'={F1',F2',,FN'}

2.3 动态学习关键点

全局信息主要通过对目标点云下采样提取,从而获取关键点描述物体整体的几何信息,用提取的全局信息补充局部特征,增加特征多样性,从而解决网络浅层物体不同部位特征相似性的问题。最远点采样(farthest point sampling,FPS)是点云表征学习2中常用的下采样方法之一,由于其初始点的随机性和仅依靠欧式距离选取关键点,获得的关键点无法充分代表整体上下文信息。CurveNet25含复杂的构造曲线算法,通过曲线算法实现下采样得到关键点,并将得到的关键点通过线间聚合和线内聚合得到全局特征,取得了很好的效果,但构造曲线算法需要消耗大量时间资源。受文献[29]启发,本文设计了动态模块学习关键点(dynamic learning key points,DLK)用其提取全局特征。DLK模块在点云物体的分类任务中展现了出色的性能,且计算效率较高。

首先,根据点云特征FN*C={F1,F2,,FN}计算每个点的相对重要程度:

RI=sigmoid(MLP(Fi))

其中,RI表示每个点的相对重要程度,Fi表示每个点的特征。然后,通过实验确定下采样率的超参数β,以此确定关键点数量。最后,根据每个点的相对重要程度用top-k算法确定关键点,通过点的索引得到全局特征:

Fg=select(top-k(RI,β))

其中,Fg是以关键点为代表的全局特征,select是根据top-k算法求得由点索引选出的关键点的特征。随着网络的加深,感受野也不断扩大,每个点的相对重要程度也会发生相应变化。DLK模块可根据高级语义信息在网络不同层动态学习更具代表性的关键点,从而更好地学习上下文信息。

2.4 基于空间注意力的特征融合

为进一步增加特征的多样性,使得每个点特征能够表示更深层的语义信息,将由DKL模块得到的全局特征Fg与由LIACA模块得到的局部特征Fl聚合,设计了基于空间注意力的特征融合(spatial attention feature aggregation,SAFA)模块,如图5所示。

图5

图5   基于空间注意力的特征融合模块

Fig.5   Feature fusion module based on spatial attention


首先对全局特征Fg和局部特征Fl进行特征编码,并计算注意力分数:

α=softmax(Q(Fl)K(Fg))

其中,Q()K()为两组不同的非线性函数,Softmax对Q()K()点乘得到的矩阵归一化。分数矩阵α代表每个原始点特征和关键点特征之间的注意力权重,即每个原始点与关键点之间的相互关系。然后每个点根据注意力权重学习全局信息,得到特征F

F=Fl+αV(Fg)

其中,V()为一组非线性函数。每个点在学习局部特征Fl后,通过空间注意力机制引入全局信息,使每个点特征可表示更深层的语义信息,从而解决了网络浅层不同部位点的特征具有相似性的问题。

2.5 局部和全局信息注意力网络

用LIACA模块、DLK模块和SAFA模块搭建的局部和全局注意力(local and global attention,LGA)模块见图6。通过LIACA模块学习局部上下文信息,利用DLK模块提取关键点表示全局信息,并用SAFA模块将局部信息和全局信息融合形成局部特征。受文献[26]启发,为扩大点的感受野,对每层LGA模块进行2次局部特征聚合。另外,在LGA模块中引入瓶颈结构30,以提高模型的训练和推理速度以及模型的泛化能力和鲁棒性。本文通过堆叠4个LGA模块形成LGANet(图7),在分类任务中,前2个LGA模块使用了LIACA模块、DLK模块和SAFA模块(如图6虚线框所示),后2个LGA模块仅使用图卷积进行特征聚合。在分割任务中,将LGA模块嵌入标准编码器-解码器架构,搭建LGANet。

图6

图6   LGA模块

Fig. 6   LGA module


图7

图7   LGANet

Fig. 7   LGANet


3 实 验

3.1 数据集与实验环境

在点云分类实验中使用ModelNet40数据集39和 ScanObjectNN数据集40,在点云部件分割实验中使用ShapeNetPart数据集。ModelNet40数据集由人工合成,是点云分析广泛使用的基准测试数据集之一,包含40个类别,共有12 311个由CAD生成的对象,其中9 843个用于训练,其余2 468个用于测试。ScanObjectNN是最近发布的点云基准测试数据集,包含15个类别,共15 000个对象,在现实世界有2 902个唯一对象实例,由于存在背景,遮挡等,是一个具有挑战性的点云数据集。ShapeNetPart数据集41用于3D形状分割测试,包含16个不同类别的17 000个对象,每个对象被分为2~6个部分。

实验运行环境为CentOS系统,显卡为Tesla P100,采用的Python版本为3.6.5,CUDA版本为10.0,Pytorch版本为1.2.0。采用动量系数为0.9和初始学习率为0.1的随机梯度下降(stochastic gradient de-scent,SGD)优化器,通过余弦退火调整学习率,其中Tmax设置为200,训练批量设置为32,测试批量设置为16。在分类任务中,将KNN的邻居数设置为20,在分割任务中,将KNN的邻居数设置为32。

3.2 实验结果与分析

3.2.1 分类结果分析

为验证模型的有效性,用公开数据集ModelNet40对GLANet进行训练与评估。为进一步验证模型的鲁棒性,用真实场景扫描的数据集ScanObjectNN对GLANet进行训练与评估。用总体分类精度(overall classification accuracy,OA)和平均分类精度(mean classification accuracy,MA)衡量分类任务的精准度:

OA=NcNt
MA=1Ni=1NOAi

其中,Nc为预测正确样本的数量,Nt为样本总数量,OAi为每个类别的总体精度。

表1表2分别为在ModelNet40数据集和ScanObjectNN数据集上LGANet方法与当前主流方法之间的结果比较。LGANet方法在ModelNet40数据集上的OA达94.0%,MA达91.7%,高于当前主流网络,证明了LGANet的有效性。同时,在真实场景ScanObjectNN数据集上,OA为81.5%,MA为78.1%,OA高于当前主流网络,证明了LGANet具有不错的鲁棒性。由于ScanObjectNN数据集相较于ModelNet40数据集存在背景、遮挡等因素,因此在ScanObjectNN数据集上测试得到的分类精度较低。

表1   不同方法在ModelNet40数据集上的准确率

Table 1  The accuracy of different methods on ModelNet40 dataset

方法MA/%OA/%
PointNet186.089.2
PointNet++2-90.7
PointCNN[1088.192.3
A-CNN490.392.6
DGCNN1790.292.9
PAConv12-93.6
PointASNL22-92.9
GDANet23-93.4
CurveNet25-93.8
Point Trans1890.693.7
PointMLP4491.394.1
PointNeXt45-94.0
LGANet91.794.0

粗体为最优值。

新窗口打开| 下载CSV


表2   不同方法在ScanObjectNN数据集上的准确率

Table 2  The accuracy of different methods on ScanObjectNN dataset

方法MA/%OA/%
PointNet163.268.2
PointNet++275.477.9
DGCNN1773.678.1
SpiderCNN1169.873.7
PointCNN1075.178.5
DRNet4278.080.3
GBNet4377.880.5
LGANet78.181.5

粗体为最优值。

新窗口打开| 下载CSV


3.2.2 分割结果分析

采用LGANet方法在ShapeNetPart数据集上测试了三维点云分割任务。用平均交并比(mIoU)衡量点云的分割性能:

mIoU=1Ni=1NPiGiPiGi,

其中,N为分割部件的数量,Pi为第i个部件的预测结果,Gi为第i个部件的真值。表3为在ShapeNetPart数据集上LGANet与当前主流方法之间的结果比较。整体上LGANet的mIoU达86.5%,高于其他主流方法,并在飞机、帽子、椅子和灯等类别上mIoU最高。图8为飞机、帽子、椅子、台灯和桌子等物体的可视化分割结果,可见,在这些类别分割任务中LGANet有非常好的表现。

表3   用ShapeNet 部件分割各类别及整体的平均交并比(mIoU)比较

Table 3  Comparison of mIoU by category and overall ShapeNet part

类别mIoU/%
PointNet1PointNet++2DGCNN17SpiderCNN11PointASNL22GS-Net21PointCNN10LGANet
飞机83.482.484.083.584.182.984.185.1
书包78.779.083.481.084.784.386.585.1
帽子82.587.786.787.287.988.686.090.1
汽车74.977.377.877.579.778.480.880.0
椅子89.690.390.690.792.289.790.691.6
耳机73.076.874.776.873.778.379.777.6
吉他91.591.091.291.191.091.792.392.0
85.985.987.587.387.286.788.487.8
80.883.782.883.384.281.285.385.3
电脑95.395.395.795.895.895.696.196.1
摩托65.271.666.370.274.472.877.273.2
杯子93.094.194.993.595.294.795.295.5
手枪81.281.381.182.781.093.184.281.6
火箭57.958.763.559.763.062.364.259.0
滑板72.876.474.575.876.381.580.077.0
桌子80.682.682.682.883.283.883.083.9
整体83.785.185.285.386.185.386.186.5

粗体为最优值。

新窗口打开| 下载CSV


图8

图8   ShapeNet数据集分割部分结果可视化

Fig.8   Visualization of the segmented results of the ShapeNet dataset


3.2.3 消融实验

LGANet分类模型主要有LIACA、DLK、SAFA 3个模块,其中LIACA模块有2个关键部分:使用通道注意力进行局部特征聚合和在局部特征聚合时引入空间坐标信息。在ModelNet40数据集上通过减少模块来验证各模块对点云分类任务的有效性的实验设置如表4所示,其中LIACA-1使用通道自注意力进行特征聚合,LIACA-2在局部特征聚合时引入了空间坐标信息。

表4   消融实验

Table 4  Ablation experiments

模型模块OA/%
LIACA-1LIACA-2DLKSAFA
A92.5
B🗸93.0
C🗸🗸93.3
D🗸🗸🗸93.7
E🗸🗸92.9
F🗸🗸🗸🗸94.0

粗体为最优值,🗸表示使用该模块。

新窗口打开| 下载CSV


表4可知,模型A在不使用任何模块的情况下,局部特征聚合使用最大值池化会损失大量信息,模型总体分类精度仅为92.5%。模型B在局部特征聚合时使用了通道注意力模块,减少了信息损失,总体分类精度提升了0.5%。模型C在局部特征聚合时同时引入了空间坐标信息模块,总体分类精度较模型A提升了0.8%。模型D在局部特征聚合时没有引入空间坐标信息模块,总体分类精度为93.7%。模型E主要验证局部信息和全局信息相结合的效果,总体分类精度较模型A提升了0.4%。在每个模块都使用的情况下,模型F的总体分类精度达94.0%,较模型A提升了1.5%。实验结果表明,局部信息和全局信息相结合的特征聚合策略是最有效的。

3.2.4 关键点选择策略

对在DLK模块中选取关键点的策略进行了实验,用ModelNet40数据集测试了关键点获取策略对总体分类精度的影响,结果如表5所示。

表5   关键点获取策略的总体分类精度

Table 5  OA of key selection strategies

策略OA/%
FPS93.1
Random92.7
DLK94.0

粗体为最优值。

新窗口打开| 下载CSV


表5可知,采取动态学习关键点的策略能更好地描述全局信息。

3.2.5 超参数实验

用ModelNet40数据集测试关键点数对分类精度的影响,结果如表6所示。

表6   不同关键点数的总体分类精度

Table 6  OA of different number of key points

关键点数OA/%
093.3
25692.9
50094.0
1 02493.4

粗体为最优值。

新窗口打开| 下载CSV


表6可知,当获取的关键点数为0时,即在提取全局信息时,局部特征聚合只使用局部信息;当获取的关键点数为256时,提取的全局信息不足,关键点数不足以表示物体的整体轮廓,某些点学习到的无效信息,降低了总体分类精度;当将输入的1 024个点全部作为关键点提取全局信息时,总体分类精度虽略有提高,但也捕获了大量的冗余信息。当关键点数为500时,既恰当地捕获了全局信息,又避免了冗余信息,得到了最高的总体分类精度,达94.0%。

3.2.6 模型复杂度

用ModelNet40数据集对模型进行复杂性比较,实验结果如表7所示。用参数量表示模型的复杂度,GBNet的参数量为8.39,本模型的参数量为2.2,模型复杂度下降了7.38%,总体分类精度提高了0.2%。

表7   分类模型复杂性的比较

Table 7  Comparison of complexity of classification models

方法参数量/MOA/%
PointNet13.5089.2
PointNet++21.4890.7
GS-Net211.5192.9
GBNet438.3993.8
LGANet2.2094.0

粗体为最优值。

新窗口打开| 下载CSV


4 结 论

为解决当前主流网络仅依靠局部邻域进行特征聚合导致特征提取能力不足以及使用最大值池化造成信息损失的问题,提出了一种局部信息和全局信息相结合的局部特征提取优化策略,减少了信息的损失。提出的LGANet算法在分类数据集ModelNet40和ScanObjectNN上均取得了较高的分类精度,在分割数据集ShapeNetPart上也取得了较高的分割精度。实验证明了本文各模块的有效性。当然,LGANet算法还有很大提升空间,当前仅依靠高级语义信息获取关键点,下一步将探讨更加合理提取全局信息的方法。

http://dx.doi.org/10.3785/j.issn.1008-9497.2023.06.012

参考文献

QI C RSU HMO Ket al.

PointNet: Deep learning on point sets for 3D classification and segmentation

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. HonoluluIEEE2017652-660. DOI:10.1109/CVPR.2017.16

[本文引用: 6]

QI C RYI LSU Het al.

PointNet++: Deep hierarchical feature learning on point sets in a metric space

[J]. Advances in Neural Information Processing Systems, 20175099-5108.

[本文引用: 7]

HORNIK K.

Approximation capabilities of multilayer feedforward networks

[J]. Neural Networks, 199142): 251-257. DOI:10.1016/0893-6080(91)90009-T

[本文引用: 2]

KOMARICHEV AZHONG Z CHUA J.

A-CNN: Annularly convolutional neural networks on point clouds

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE20197421-7430. DOI:10.1109/CVPR.2019.00760

[本文引用: 4]

ZHAO H SJIANG LFU C Wet al.

Pointweb: Enhancing local neighborhood features for point cloud processing

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE20195565-5573. DOI:10.1109/CVPR.2019.00571

[本文引用: 1]

SIMONOVSKY MKOMODAKIS N.

Dynamic edge-conditioned filters in convolutional neural networks on graphs

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. HonoluluIEEE20173693-3702. DOI:10.1109/CVPR.2017.11

LIU Y CFAN BXIANG S Met al.

Relation-shape convolutional neural network for point cloud analysis

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE20198895-8904. DOI:10.1109/CVPR.2019.00910

JIANG LZHAO H SLIU Set al.

Hierarchical point-edge interaction network for point cloud semantic segmentation

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. SeoulIEEE201910433-10441. DOI:10. 1109/ICCV.2019.01053

LIU Y CFAN BMENG G Fet al.

Densepoint: Learning densely contextual representation for efficient point cloud processing

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. SeoulIEEE20195239-5248. DOI:10. 1109/ICCV.2019.00534

[本文引用: 3]

LI Y YBU RSUN M Cet al.

PointCNN: Convolution on x-transformed points

[J]. Advances in Neural Information Processing Systems, 201831.

[本文引用: 4]

XU Y FFAN T QXU M Yet al.

SpiderCNN: Deep learning on point sets with parameterized convolutional filters

[C]// Proceedings of the European Conference on Computer Vision (ECCV). 201887-102. doi:10.1007/978-3-030-01237-3_6

[本文引用: 3]

XU M TDING R YZHAO H Set al.

PAConv: Position adaptive convolution with dynamic kernel assembling on point clouds

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. NashvilleIEEE20213173-3182. DOI:10.1109/CVPR46437.2021.00319

[本文引用: 4]

SU HMAJI SKALOGERAKIS Eet al.

Multi-view convolutional neural networks for 3D shape recognition

[C]// Proceedings of the IEEE international Conference on Computer Vision. SantiagoIEEE2015945-953. DOI:10.1109/ICCV.2015.114

[本文引用: 2]

QI C RSU HNIESSNER Met al.

Volumetric and multi-view CNNs for object classification on 3D data

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las VegasIEEE20165648-5656. DOI:10.1109/CVPR.2016.609

WANG CPELILLO MSIDDIQI K.

Dominant set clustering and pooling for multi-view 3D object recognition

[Z]. (2019-06-04). https://arxiv.org/abs/1906.01592. doi:10.5244/c.31.64

MA CGUO Y LYANG J Get al.

Learning multi-view representation with LSTM for 3D shape recognition and retrieval

[J]. IEEE Transactions on Multimedia, 2018215): 1169-1182. DOI:10. 1109/TMM.2018.2875512

[本文引用: 2]

WANG YSUN Y BLIU Z Wet al.

Dynamic graph cnn for learning on point clouds

[J]. ACM Transactions on Graphics, 2019385): 1-12. DOI:10.1145/3326362

[本文引用: 8]

ZHAO H SJIANG LJIA J Yet al.

Point transformer

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. MontrealIEEE202116259-16268. DOI:10.1109/ICCV48922. 2021.01595

[本文引用: 2]

GUO M HCAI J XLIU Z Net al.

PCT: Point cloud transformer

[J]. Computational Visual Media, 20217187-199. DOI:10.1007/s41095-021-0229-5

[本文引用: 1]

VASWANI ASHAZEER NPARMAR Net al.

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 201730.

[本文引用: 1]

XU M YZHOU Z PQIAO Y.

Geometry sharing network for 3D point cloud classification and segmentation

[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Palo AltoAAAI Press2020347): 12500-12507. DOI:10. 1609/aaai.v34i07.6938

[本文引用: 3]

YAN XZHENG C DLI Zet al.

PointASNL: Robust point clouds processing using nonlocal neural networks with adaptive sampling

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. SeattleIEEE20205589-5598. DOI:10.1109/CVPR42600.2020.00563

[本文引用: 4]

XU M TZHANG J HZHOU Z Pet al.

Learning geometry-disentangled representation for complementary understanding of 3D object point cloud

[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Palo AltoAAAI Press2021354): 3056-3064. DOI:10.1609/aaai.v35i4.16414

[本文引用: 3]

YANG J CZHANG QNI B Bet al.

Modeling point clouds with self-attention and gumbel subset sampling

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE20193323-3332. DOI:10.1109/CVPR.2019.00344

[本文引用: 1]

XIANG TZHANG C YSONG Yet al.

Walk in the cloud: Learning curves for point clouds shape analysis

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. MontrealIEEE2021915-924. DOI:10.1109/ICCV48922. 2021.00095

[本文引用: 6]

FAN S QDONG Q LZHU F Het al.

SCF-Net: Learning spatial contextual features for large-scale point cloud segmentation

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. NashvilleIEEE202114504-14513. DOI:10.1109/CVPR46437.2021.01427

[本文引用: 2]

HU Q YYANG BXIE L Het al.

RandLA-Net: Efficient semantic segmentation of large-scale point clouds

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. SeattleIEEE202011108-11117. DOI:10.1109/CVPR42600.2020.01112

[本文引用: 1]

CHEN J TKAKILLIOGLU BREN H Tet al.

Why discard if you can recycle? A recycling max pooling module for 3D point cloud analysis

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New OrleansIEEE2022559-567. DOI:10.1109/CVPR52688.2022. 00064

[本文引用: 1]

GAO H YJI S W.

Graph U-nets

[C]// Proceedings of the 36th International Conference on Machine Learningin Proceedings of Machine Learning Research. CaliforniaIEEE2019972083-2092. DOI:10. 1109/TPAMI.2021.3081010

[本文引用: 1]

SZEGEDY CLIU WJIA Y Qet al.

Going deeper with convolutions

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. BostonIEEE20151-9. DOI:10. 1109/CVPR.2015.7298594

[本文引用: 1]

SHI SWANG XLI H.

PointrCNN: 3D object proposal generation and detection from point cloud

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE2019770-779. DOI:10.1109/CVPR.2019.00086

[本文引用: 1]

WANG D ZPOSNER I.

Voting for voting in online point cloud object detection

[J]. Robotics: Science and Systems. 201513): 10-15. DOI:10.15607/RSS.2015.XI.035

[本文引用: 1]

LIU ZZHOU S BSUO C Zet al.

LPD-Net: 3D point cloud learning for large-scale place recognition and environment analysis

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. SeoulIEEE20192831-2840. DOI:10.1109/ICCV.2019.00292

[本文引用: 1]

MATURANA DSCHERER S.

VoxNet: A 3D convolutional neural network for real-time object recognition

[C]// 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). HamburgIEEE2015922-928. DOI:10. 1109/IROS.2015.7353481

[本文引用: 1]

WU Z RSONG S RKHOSLA Aet al.

3D ShapeNets: A deep representation for volumetric shapes

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. BostonIEEE20151912-1920. DOI:10.1109/CVPR. 2015.7298801

RIEGLER GOSMAN ULUSOY AGEIGER A.

OctNet: Learning deep 3D representations at high resolutions

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. HonoluluIEEE20173577-3586. DOI:10.1109/CVPR.2017.701

[本文引用: 1]

SHEN Y RFENG CYANG Y Qet al.

Mining point cloud local structures by kernel correlation and graph pooling

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake CityIEEE20184548-4557. DOI:10.1109/CVPR.2018.00478

LIU J XNI B BLI C Yet al.

Dynamic points agglomeration for hierarchical point sets learning

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. SeoulIEEE20197546-7555. DOI:10.1109/ICCV.2019.00764

[本文引用: 1]

WU Z RSONG S RKHOSLA Aet al.

3D ShapeNets: A deep representation for volumetric shapes

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. BostonIEEE20151912-1920. DOI:10.1109/CVPR. 2015.7298801

[本文引用: 1]

UY M APHAM Q HHUA B Set al.

Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data

[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. SeoulIEEE20191588-1597. DOI:10.1109/ICCV.2019.00167

[本文引用: 1]

YI LKIM V GCEYLAN Det al.

A scalable active framework for region annotation in 3D shape collections

[J]. ACM Transactions on Graphics (ToG), 2016356): 1-12. DOI:10.1145/2980179. 2980238

[本文引用: 1]

QIU SANWAR SBARNES N.

Dense-resolution network for point cloud classification and segmentation

[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. WaikoloaIEEE20213813-3822. DOI:10. 1109/WACV48630.2021.00386

[本文引用: 1]

QIU SANWAR SBARNES N.

Geometric back-projection network for point cloud classification

[J]. IEEE Transactions on Multimedia, 2021241943-1955. DOI:10.1109/TMM.2021.3074240

[本文引用: 2]

MA XQIN CYOU H Xet al.

Rethinking network design and local geometry in point cloud: A simple residual MLP framework

[Z]. (2022-02-15). .

URL     [本文引用: 1]

QIAN G CLI Y CPENG H Wet al.

PointNeXt: Revisiting pointnet++ with improved training and scaling strategies

[J]. Advances in Neural Information Processing Systems, 20223523192-23204.

[本文引用: 1]

/