浙江大学学报(工学版), 2025, 59(5): 879-889 doi: 10.3785/j.issn.1008-973X.2025.05.001

计算机技术、信息工程

面向点云理解的双邻域图卷积方法

李宗民,, 徐畅, 白云, 鲜世洋, 戎光彩

1. 中国石油大学(华东) 青岛软件学院 计算机科学与技术学院,山东 青岛 266580

2. 青岛滨海学院 信息工程学院,山东 青岛 266580

Dual-neighborhood graph convolution method for point cloud understanding

LI Zongmin,, XU Chang, BAI Yun, XIAN Shiyang, RONG Guangcai

1. College of Computer Science and Technology, Qingdao Institute of Software, China University of Petroleum (East China), Qingdao 266580, China

2. Information Engineering College, Qingdao Binhai University, Qingdao 266580, China

收稿日期: 2024-07-3  

基金资助: 国家重点研发计划资助项目(2019YFF0301800); 国家自然科学基金资助项目(61379106); 山东省自然科学基金资助项目(ZR2013FM036, ZR2015FM011).

Received: 2024-07-3  

Fund supported: 国家重点研发计划资助项目(2019YFF0301800);国家自然科学基金资助项目(61379106);山东省自然科学基金资助项目(ZR2013FM036,ZR2015FM011).

作者简介 About authors

李宗民(1965—),男,教授,博导,从事计算机图形学、模式识别的研究.orcid.org/0000-0003-4785-791X.E-mail:lizongmin@upc.edu.cn , E-mail:lizongmin@upc.edu.cn

摘要

针对现有方法对局部点云结构建模时空间跨度有限以及传统特征聚合方法造成一定信息损失的问题,提出双邻域图卷积网络(DNGCN). 在原始点云中增加角度先验,以增强对点云局部几何结构的理解,捕捉局部细节. 对原始邻域进行扩展,在局域内设计双邻域图卷积,通过集成高斯自适应聚合,在提取较大感受野范围内显著特征的同时,充分保留原始邻域信息. 通过局部-全局信息交互来增大局部点的空间跨度,捕获远距离依赖关系. 本文方法在分类数据集ModelNet40和ScanObjectNN上分别取得了94.1%、89.6%的总体精度,与其他先进算法相比有显著提升,较DGCNN分别提升了1.2%、11.5%. 在部件分割数据集ShapeNetPart和语义分割数据集ScanNetv2、S3DIS上均获得优秀的性能,平均交并比分别为86.7%、74.9%和69.8%. 通过大量的实验,证明了该模型的有效性.

关键词: 点云特征 ; 图卷积网络 ; 几何增强 ; 局部全局交互 ; 注意力机制

Abstract

A dual-neighborhood graph convolutional network (DNGCN) was proposed in order to address the limitations of existing methods in modeling local point cloud structures with restricted spatial spans and the information loss caused by conventional feature aggregation strategies. Angular priors were incorporated into raw point coordinates in order to enhance geometric awareness for capturing fine-grained local structures. A dual-neighborhood graph convolution operator that integrated Gaussian adaptive aggregation was designed by extending the original neighborhood, enabling simultaneous extraction of salient features from enlarged receptive fields and preservation of intricate local details. A local-global cross-scale interaction mechanism was introduced to expand spatial perception spans and model long-range dependencies. The proposed method achieved an overall classification accuracy of 94.1% on ModelNet40 and 89.6% on ScanObjectNN, significantly outperforming other advanced algorithms. The increases were 1.2% and 11.5% respectively compared with DGCNN. Excellent performance was obtained on the ShapeNetPart dataset for part segmentation, as well as the ScanNetv2 and S3DIS datasets for semantic segmentation, with mean IoU scores of 86.7%, 74.9% and 69.8%, respectively. Experiments proved the effectiveness of the model.

Keywords: point cloud feature ; graph convolution network ; geometric enhancement ; local-global interaction ; attention mechanism

PDF (2494KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李宗民, 徐畅, 白云, 鲜世洋, 戎光彩. 面向点云理解的双邻域图卷积方法. 浙江大学学报(工学版)[J], 2025, 59(5): 879-889 doi:10.3785/j.issn.1008-973X.2025.05.001

LI Zongmin, XU Chang, BAI Yun, XIAN Shiyang, RONG Guangcai. Dual-neighborhood graph convolution method for point cloud understanding. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 879-889 doi:10.3785/j.issn.1008-973X.2025.05.001

点云是描述三维物体的重要表示形式,它主要通过激光雷达[1]、深度相机、结构光等设备采集而得. 这种数据能够包含物体丰富的几何、形状和空间信息,为复杂场景的理解提供了更多的可能性. 目前,点云数据已被广泛应用到机器人[2]、虚拟和增强现实[3]、三维重建[4]等多个领域. 由于点云具有无序、不规则性,难以直接应用传统二维卷积方法. 点云的稀疏性和噪声问题进一步制约了传统二维卷积方法应用于点云数据处理时的性能表现.

近年来,深度学习方法在处理点云数据方面[5-7]取得了显著进展,基于点直接进行处理,以简单、高效的方式应对点云的无序性. PointNet[7]为该类方法的开创性工作,通过多层感知机逐点进行特征提取,但忽略了局部结构信息. Qi等[8]对此进行改进,引入层次结构和多尺度特征提取,但损失了过多的局部细节. 此后,一系列方法[9-12]针对局部特征进行研究,在欧氏或特征空间中构建点间的相互关系. 目前,利用图状结构进行特征提取[13-15],成为点云理解中的流行范式. 利用图结构,能够自然地捕获点云的局部几何结构,以DGCNN[13]为代表的图卷积通过边缘向量构建有向图,捕获局部特征.

该类图卷积方法虽然有效,但在局部嵌入点对间关系的过程中存在一定的偏差:局部图缺乏来自初始三维空间的几何拓扑表示;最大池化只保留显著特征,而在嵌入空间中丢弃局部细节,特征表示不够完整.

此外,现有方法大多利用局部特征的逐层传播和信息聚合来扩大节点的感受野,这种方式的效用是边际递减的. 随着网络层数的加深,节点特征逐渐被稀释,仅依靠局部特征学习无法充分捕捉到远距离依赖关系,对于点云整体结构的感知不足. StratifiedFormer通过体素化将点云分割为不同分辨率的窗口,在每个窗口中利用局部注意力操作进行扩展,但感受野很局限,难以覆盖全局范围[16].

本文构建新的双邻域图卷积网络. 提出局部几何增强模块,嵌入几何先验特征,以增强对点云局部拓扑结构的理解. 从局部感知范围和聚合方式上进行探究,构建双邻域图卷积算子,在原始邻域的基础上扩展,增大局部感受野,使得模型感知到更广泛的局部特征. 为了减少局部细节丢失,将非参数的高斯聚合集成至卷积算子中,在聚合过程中考虑节点间的空间关系和特征差异,尽可能多地保留原始邻域的细节信息. 此外,为了增大局部点的空间跨度,提出局部-全局信息交互模块. 结合注意力机制筛选代表全局的关键点信息,通过与局部特征进行交互,提高网络对点云整体形态的感知能力,获取较完整的特征表示.

1. 相关工作

由于点云固有的无序性、不规则性及稀疏性, 难以直接应用传统二维卷积方法. 近年来,深度学习方法在处理点云数据方面[5-7]进展显著,部分工作间接地对点云进行处理,将点云转换为规则的体素[6]或多视图图像[5]. 尽管如此,这些方法通常存在计算复杂度高或几何信息丢失的情况. 相比而言,直接将原始点云作为输入是目前最简单高效的手段. PointNet是直接处理点云的开创性工作,逐点采用多层感知机,通过最大池化聚合高维特征,但忽略了点间关系[7]. 为此,PointNet++通过层次结构和局部分组进行改进,但对于局部特征的表示不足[8]. 此后,更多方法关注于局部特征学习的研究[12,17-19],PointConv[17]、KPConv[18]和 PAConv[19]等方法设计适合点云形状的卷积算子来获取相关特征. GBNet在局域内构建几何描述符,为网络提供低级的几何线索[20]. RepSurf通过重建三角形和伞面特征,显式地描述拓扑结构[21]. 此外,PointNN[22]、DeLA[23]均从轻量化角度进行改进,旨在降低计算复杂度,提升网络效率.

图结构是用来建模点云局部几何结构的自然表示,将点云当作图的节点,依据点之间的空间邻近性和特征相似性来构建边缘向量. GCN的概念源自文献[24],为了降低计算复杂度,采用Chebyshev多项式来近似特征分解的过程. 最近关于点云上的图卷积的研究验证了GCN[13,15,25-28]的有效性. DGCNN提出EdgeConv,采用动态图编码中心点与其特征空间邻居之间的关系,对后续的工作产生了深远的影响[13]. DeepGCN通过堆叠多个图卷积层,采用残差连接,增加了模型深度,解决了图节点过平滑的问题[25]. 3D-GCN开发可变形的3D核,在训练期间更新核的形状和权重[26]. GSNet[27]扩展了DGCNN[13]的工作,在欧几里德空间和特征值空间中进行邻域聚合.LPD-Net[15]在空间邻居和特征邻居上扩展DGCNN[13],进行聚合. AdaptConv根据动态学习的特征,为点生成自适应核[28].

Attention机制[29]作为Transformer中的核心操作,具有捕获远程依赖关系的能力,目前被广泛应用到自然语言处理和二维图像任务中. 由于Attention机制本身不受输入顺序的影响,具有置换不变性,在本质上适用于点云分析. 近年来,Lai等[16,20,30-34]在点云分析中采用了注意力操作. Zhao等[31]将注意力机制引入点云,提出向量自注意算子,构建减法关系生成注意权值,但缺乏直接捕获远程依赖的能力,对各种扰动的鲁棒性不足. GBNet提出通道亲和注意力,改进上下文信息建模[20]. SPoTr采用解纠缠注意力聚集自定位点特征,提高了模型的可扩展性[32]. PTv3采用序列化点云的特定模式替代了普通邻域搜寻操作,显著提高了效率[34]. StratifiedFormer通过体素化将点云分割为不同分辨率的窗口,在每个窗口中利用局部注意力操作进行扩展,但感受野很局限[16]. 本文利用注意力采样得到更具代表性的全局关键点,借鉴交叉注意力的思想,将全局关键点信息与局部特征进行充分交互. 这种交互使得短程和远程依赖相互融合,显著增大了局部点的空间跨度,提升了特征的表示能力,使特征更有判别性.

2. 本文方法

2.1. 局部特征算子的相关定义

为了更简洁、方便地描述方法,先对相关符号进行简单定义. 给定一个点云,对应的坐标信息可以表示为${\boldsymbol{P}} = [ {{\boldsymbol{x}}_1},{{\boldsymbol{x}}_2},\cdots ,{{\boldsymbol{x}}_N}]^{\mathrm{T}} \in {{\bf{R}}^{N \times {\text{3}}}}$,特征向量为${\boldsymbol{F}} = [{{\boldsymbol{f}}_1},{{\boldsymbol{f}}_2},\cdots ,{{\boldsymbol{f}}_N}]^{\mathrm{T}} \in {{\bf{R}}^{N \times {{d}}}}$. 局部特征算子通常采用球查询或KNN(K-nearest neighbor)算法确定每个点的邻域,进行局部特征提取:

$ {{\boldsymbol{Z}}_i} = A(R({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j},{{\boldsymbol{f}}_i},{{\boldsymbol{f}}_j})|{{\boldsymbol{x}}_j} \in {{N}}({{\boldsymbol{x}}_i}),{{\boldsymbol{f}}_j} \in {{N}}({{\boldsymbol{f}}_i})). $

式中:$ {{\boldsymbol{Z}}_i} $为所学习到的局部特征向量, $ A $为聚合函数,$R( \cdot )$为用于编码坐标、特征之间关系的函数,N(xi)为xi的邻域.

大多数工作都是针对关系函数$R( \cdot )$进行研究的. Wang等[13]提出边卷积算子EdgeConv, 通过动态构建包含自环连接的有向图结构,实现局部特征聚合. 对于每个中心点, 在特征空间中选取其K近邻(包括自身), 建立具有方向性的边连接, 形成局部感知域. 关系函数的形式如下:

$ R({{\boldsymbol{f}}_i},{{\boldsymbol{f}}_j}) = \alpha [{{\boldsymbol{f}}_i},{{\boldsymbol{f}}_j} - {{\boldsymbol{f}}_i}]. $

式中:$ \alpha $为多层感知机,$[ \cdot ]$为拼接操作.

该卷积算子虽然能够捕获单一邻域内点间的显著特征,但会造成一定的信息损失.

2.2. 局部几何增强

特征提取算子对于实际应用中的刚性变换、噪声具有抗干扰性,对于相同类内与不同类间的几何形态具备强区分性. 有效的几何增强不仅有利于提升网络对几何变换的鲁棒性,还能够增强模型对复杂局部结构的学习和鉴别能力. 为此, 提出局部几何增强模块(local geometric enhancement, LGE),在低级空间对局部几何拓扑结构进行显式建模.

具体来说,将整体点云的xyz坐标嵌入,随后将邻域转换到中心点的相对坐标系下. 邻域内的初始几何特征可以建模为${{\boldsymbol{G}}}_{\mathrm{b}} = [{{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i}]$. 其中,${{{\boldsymbol{a}}_{ij}}} = {{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i}$为中心点到对应邻居点的方向向量. 通过求取所有方向向量的平均值,可以得到局部趋势向量$ {{{\boldsymbol{b}}_i}} = {\mathrm{mean}}\;( {{{\boldsymbol{a}}_{ij}}} )$. 这一向量有效地描述了邻域内的整体趋势.

为了有效利用向量间的角度先验知识,引入三维球坐标系中常用的方向位置参数方位角$ \delta $和俯仰角$ \theta $,显式地表示方向向量$[{ a _x},{ a _y},{ a _z}]$和局部趋势向量$[{ b _x},{ b _y},{ b _z}]$,以捕获旋转不变的几何线索.

$ {\delta _{ {\boldsymbol{a}} }} = \arctan \frac{{{{ a }_y}}}{{{{ a }_x}}}, $

$ {\varphi _{ {\boldsymbol{a }}}} = \arctan \frac{{{{ a }_z}}}{{\sqrt {{{({{ a }_x})}^2}+{{({{ a }_y})}^2}} }}. $

采用相同的计算方法,得到局部趋势向量所对应的角度${\delta _{{\boldsymbol{b}} }}$${\varphi _{ {\boldsymbol{b }}}}$. 使用减法建立相对关系,以角度差的形式表示邻域点相对于局部趋势的偏移程度和差异性(见图1). 这种构造方式对z轴旋转不变,能够更好地适应复杂场景的应用需求. 最终的几何特征可以表示为:${\boldsymbol{G}}{'_{\mathrm{b}}} = [{{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i},{\delta _{ {\boldsymbol{a}} }} - {\delta _{ {\boldsymbol{b}} }},{\varphi _{{\boldsymbol{ a }}}} - {\varphi _{ {\boldsymbol{b}} }}]$ .

图 1

图 1   局域内角度表示的示例图

Fig.1   Sample diagram of local angle representation


2.3. 双邻域图卷积

受DGCNN[13]的启发,提出新的图卷积算子(dual-neighborhood graph convolution,DNConv). 具体如图2所示,该算子采用双邻域互补的机制,在扩大感受野的同时,有效提取大尺度局部图的边缘显著特征,尽可能多地保留原始邻域内的细节信息.

图 2

图 2   双邻域图卷积模块

Fig.2   Dual-neighborhood graph convolution module


在三维空间中,利用KNN算法构建每个点的2个局域:$ {S_1} $$ {S_2} $,其中邻居点个数分别为$ {k_{\text{s}}} $$ {k_{\text{b}}} $,$ {k_{\text{s}}} < {k_{\text{b}}} $. 关系函数主要对高维特征向量进行编码:$R({{\boldsymbol{f}}_i},{{\boldsymbol{f}}_j}) = \alpha ({{\boldsymbol{f}}_j} - {{\boldsymbol{f}}_i})$. 局域内的图卷积可以表示为:${{\boldsymbol{Z}}_i} = A(R({{\boldsymbol{f}}_i},{{\boldsymbol{f}}_j}))$,其中$ A $为聚合方式.

2.3.1. 高斯加权的自适应融合

使用最大池化操作进行特征聚合,可以有效地保留显著的边缘特征,但会丢失某些关键的空间信息和局部细节,在密度稀疏部分更易受到干扰. 为此,引入高斯核进行加权处理,考虑局部邻域点与中心点的空间关系. 通过这种方法,能够自适应地估计边缘特征不同的贡献程度,在邻域内提取到更全面的特征. 这有助于减少因信息丢失而导致的分类分割错误. 关于特征向量$ {\boldsymbol{x}} $$ {\boldsymbol{x}}' $的高斯核可以定义为

$ K({\boldsymbol{x}},{\boldsymbol{x}}') = \exp \,\,( - \gamma ||{\boldsymbol{x}} - {\boldsymbol{x}}'|{|^2}). $

式中:$\gamma = 1/(2{\sigma ^2})$,其中$ \sigma $为自由参数,用于灵活地调节权重分布;$||{\boldsymbol{x}} - {\boldsymbol{x}}'||$为特征向量之间的$ {{L}}_2 $距离.

通过高斯加权所聚合后的特征应表示为

$ {{\boldsymbol{Z}}_i} = \sum\limits_{j = 1}^{k_{\mathrm{s}}} {\mu ({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j}) \cdot {\boldsymbol{f}}'_j} . $

权重$\mu ({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j})$是通过中心点与邻域点间的空间关系建模得出的. 由此,将高斯核代入其中,可得

${{\boldsymbol{Z}}_i} = \sum\limits_{j = 1}^{k_{\mathrm{s}}} {\frac{{K({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j})}}{{\displaystyle \sum\limits_{j = 1}^{k_{\mathrm{s}}} {K({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j})} }}} \cdot {\boldsymbol{f}}'_j =\displaystyle\sum\limits_{j = 1}^{k_{\mathrm{s}}} {\frac{{\exp\,\, ( - \gamma ||{{\boldsymbol{x}}_i} - {{\boldsymbol{x}}_j}|{|^2})}}{{\displaystyle\sum\limits_{j = 1}^{k_{\mathrm{s}}} {\exp \,\,( - \gamma ||{{\boldsymbol{x}}_i} - {{\boldsymbol{x}}_j}|{|^2})} }}} \cdot {\boldsymbol{f}}'_j.$

式中:$i = 1,2,\cdots ,N;j = 1,2,\cdots ,k_{\mathrm{s}}$.权重与两点间的距离成反比关系, 权重之和为1.

2.3.2. 双邻域图卷积

为了捕获较大感受野的显著特征,在局域$ {S_2} $内应用最大池化聚合操作,所聚合的特征可以表示为${\boldsymbol{f}}'_{{{S}}_2} = {\mathrm{max}}\;\alpha ({{\boldsymbol{f}}_j} - {{\boldsymbol{f}}_i})|j \in 1,2,\cdots ,{k_{\mathrm{b}}}$.${\boldsymbol{f}}'_{{{S}}_2}$补充至感受野较小的局域$ {S_1} $中,最终所得到的特征为

$ {{\boldsymbol{Z}}_i} = {\mathrm{GAA}}\;((\beta ({{\boldsymbol{f}}_m} - {{\boldsymbol{f}}_i})) \oplus r({\boldsymbol{f}}'_{S_2})). $

式中:$m = 1,2,\cdots ,k_{\mathrm{s}},{\boldsymbol{f}}'_{{{S}}_2} \in {{\bf{R}}^{N \times C\times k_{\mathrm{s}}}}$$ \oplus $为相加,$ r $为复制.

通过上述步骤,将非参数的高斯加权聚合模块集成至双邻域图卷积内,以互补机制保留了大尺度局部图的边缘显著特征,尽可能多地保留小尺度内的细节特征,隐式地学习详细的局部上下文.

2.4. 局部-全局信息交互

随着网络的加深,局域中的逐层传播和信息聚合虽然能够扩大节点的感受野,但有效感受野的效用是边际递减的. 网络难以充分捕捉到较远距离上的依赖关系,对于整体形态的感知不足. 受PointASNL[11]的启发,设计基于内容的局部-全局信息交互模块(local-global interaction, LGI). 该模块主要由提取关键点和特征交互2部分组成.

利用注意力机制在点云中采样得到具有代表性的关键点,这些关键点能够反映点云的整体结构特征. 通过注意力采样,能够有效地过滤掉相对冗余的信息,公式如下.

$ ({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\boldsymbol{f}} \cdot ({{\boldsymbol{W}}_{\mathrm{q}}},{{\boldsymbol{W}}_{\mathrm{k}}},{{\boldsymbol{W}}_{\mathrm{v}}}). $

$ {\boldsymbol{w}} = {\mathrm{soft}}\max \;({\boldsymbol{Q}}{{\boldsymbol{K}}^{\mathrm{T}}}/\sqrt {C'} ); \,\,{\boldsymbol{w}} \in {{\bf{R}}^{N \times N}}. $

$ {\boldsymbol{F}}' = {\mathrm{Top}} \text{-} {\mathrm{k}}({\boldsymbol{w}},m) \cdot {\boldsymbol{V}};\,\,{\boldsymbol{F}}' \in {{\bf{R}}^{N_{\mathrm{s}} \times C}}. $

式中:$N_{\mathrm{s}} = N/m$,其中$ m $为采样率,始终大于0.

将上层点云特征${\boldsymbol{F}} \in {{\bf{R}}^{N \times C}}$作为输入,利用${{\boldsymbol{W}}_{\text{q}}}$${{\boldsymbol{W}}_{\text{k}}}$${{\boldsymbol{W}}_{\mathrm{v}}}$矩阵进行线性变换,得到${\boldsymbol{Q}}\text{、}{\boldsymbol{K}} \in {{\bf{R}}^{N \times C}}, {\boldsymbol{V}} \in {{\bf{R}}^{N \times C'}}$,因此每个点的相对重要程度可以表示为$ {\boldsymbol{w}} $. 利用Top-k算法,只保留权重最大的前$ N_{\mathrm{s}} $个点,通过与值矩阵$ {\boldsymbol{V}} $进行加权求和,采样得到具有代表性的关键点特征$ {\boldsymbol{F}}' $.

借用交叉注意力的思想,将局部分支中的中间特征${{\boldsymbol{f}}_{{\text{mid}}}}$与全局关键点$ {\boldsymbol{F}}' $进行特征交互(见图3的LGI模块). 将中间特征作为查询矩阵, 全局关键点特征作为键矩阵,通过矩阵点积计算特征间的相关性分数. 值矩阵是由全局关键点特征$ {\boldsymbol{F}}' $通过$ \eta $可学习变换得到,本质上$ \eta $包含2个MLP层. 通过这种特征交互的方式,得到显著性全局特征,增大了局部点的空间跨度,使得每个局部点都能够感知到更广泛的全局上下文信息,有助于提升模型对点云空间结构的理解能力.

图 3

图 3   DNG模块

Fig.3   DNG module


具体公式如下:

$ {{\boldsymbol{f}}_{{\mathrm{global}}}} = {\mathrm{soft}}\max \;({{\boldsymbol{f}}_{{\mathrm{mid}}}} \cdot {\boldsymbol{F}}{'^{\mathrm{T}}}) \cdot \eta ({\boldsymbol{F}}'). $

为了获取更完整的特征表示,采用自适应融合的方式,将局部特征与显著性全局特征相结合.

$ {{\boldsymbol{f}}_{{\text{total}}}} = \alpha {{\boldsymbol{f}}_{{\text{local}}}}+(1 - \alpha ){{\boldsymbol{f}}_{{\text{global}}}} . $

式中:$\alpha $为可学习参数,它能够自适应地对显著性全局特征和局部特征调整比例,使得模型能够灵活利用这2种特征的互补性.

2.5. 模型架构

将提出的局部几何增强(LGE)、双邻域图卷积(DNConv)及局部-全局信息交互(LGI)组合成核心的DNG模块(见图3),在网络架构中加入残差连接,能够在一定程度上缓解特征过平滑,提高网络性能.

通过堆叠DNG模块,构建编码器. 对于形状分类任务(见图4),编码器有以下3个阶段. 在第1阶段中,仅嵌入局部分支的下半部分对点云特征进行学习(见图3的实线数据流),初始特征嵌入为3维原始点云坐标信息,$\alpha $在该阶段为1. 在后2个阶段,将网络输入切换至虚线数据流,使用带有局部和全局分支的DNG模块,建模短程和远程的依赖关系. 其中,最远点采样和关键点提取的采样率$ m $均为144. 将通道维度设置为96、192、384. 特征通过最大池化聚合,经过线性投影层得到分类分数.

图 4

图 4   DNG-Net整体网络框架

Fig.4   Overall network framework of DNG-Net


对于部件分割任务(见图4),编码器有4个阶段,将通道维度设置为96、192、384、512. 解码器部分由编码器所获取的多尺度特征进行独立上采样,采样至输入点云的2 048个点,通过特征拼接及堆叠的线性投影层,预测最终部件标签的分数.

3. 实验部分

实验环境为Ubuntu 16.04 LTS, GPU 配置为TSLA P100,网络使用初始学习率为0.002的AdamW优化器,采用余弦退火策略,将动量衰减设置为0.05. 在分类实验中,双邻域邻居点数为15、20;在分割实验中,双邻域邻居点数为15、24.

3.1. 数据集说明

通过多个基准测试,全面评估所提出的DNG-Net.

ModelNet40[35]:由12 311个CAD模型组成,共分为40个类别,其中含有9 843个训练样本和2 468个测试样本.

ScanObjectNN[36]:由从真实世界室内扫描中提取的遮挡对象组成,具有挑战性,包括15个类别的2902个三维物体.

ShapeNetPart[37]:由来自16个类别的16 881个CAD模型组成,部件共有50种,每个类别分别用2~5个部分标签进行注释.

ScanNetv2[38]:该数据集相对较大,包含1 513个场景、20个语义类别,用于训练和评估.

S3DIS[39]:室内场景的大型数据集,包含13个类别. 点云数据采集自6个大尺度区域,271个房间,超过2.15亿个点.

3.2. 形状分类任务

在ModelNet40[35]数据集上进行实验,从每个样本中随机采样1024个点作为实验输入. 对于评估指标,使用类平均精度mAcc和总体精度OA.

将本文方法与ModelNet40数据集上之前的模型进行比较,如表1所示. 可知,总体精度达到94.1%,类平均精度达到91.3%. 与PointNet相比,总体精度和类平均精度分别提高了4.9%和5.1%,其中总体精度相比于最先进的工作高0.1%~0.3%,这证明了本文方法的有效性,能够获取更鲁棒、完整的特征表示. 尽管在mAcc这一指标上,本文方法略低于PointMixer 0.1%,但在后续的复杂度分析中,可以看出本文方法在效率上具有显著的优势.

表 1   在ModelNet40基准上测试的分类结果

Tab.1  Classification result on ModelNet40 benchmark

方法年份mAcc/%OA/%
PointNet[7]201786.289.2
PointNet++[8]201791.9
KPConv[18]201992.9
DGCNN[13]201990.292.9
PointASNL[11]202092.9
PointTransformer[31]202090.693.7
PointMixer[40]202191.493.6
CurveNet[41]202193.8
PointNeXT[42]202291.194.0
DGCNN+HyCoRe[43]202291.093.7
PointConT[44]202393.5
MKConv[45]202393.7
DNG-Net(本文方法)202491.394.1

新窗口打开| 下载CSV


ModelNet40被视为点云分析的经典基准,但它不足以应对实际场景中的复杂情况. 在具有挑战性的ScanObjectNN基准测试上进行实验.

表2可以看出,本文方法明显优于其他方法, OA、mAcc分别比最先进的SPoTr方法高1.0%、1.5%,说明本文方法具有实用性和泛化性. DNG-Net能够应对缺失、干扰、数据不平衡等实际困难案例,实现更具有鉴别力的特征提取. 本文结果在类平均精度和总体精度之间的差距小,表明模型没有偏向某个特定类别,显示良好的稳健性.

表 2   在ScanObjectNN基准上测试的分类结果

Tab.2  Classification result on ScanObjectNN benchmark

方法年份mAcc/%OA/%
PointNet[7]201763.468.2
PointNet++[8]201775.477.9
DGCNN[13]201973.678.1
GBNet[20]202177.880.5
PointMLP[46]202284.485.7
RepSurf-U[21]202283.186.0
PointMLP+HyCoRe[43]202285.987.2
PointNeXT[42]202286.888.2
PointConT[44]202386.088.0
SPoTr[32]202386.888.6
DNG-Net(本文方法)202488.389.6

新窗口打开| 下载CSV


3.3. 部件分割任务

在ShapeNetPart上进行部件分割实验,遵循文献[7]的设置,随机选择2 048个点作为输入,进行公平的比较. 对于评估指标,采用类别平均交并比mIoUcls和实例平均交并比mIoUins.

实验结果见表3, 实例平均交并比达到最优. 相比于基于图卷积的DGCNN,类别平均交并比和实例平均交并比分别提升了2.4%和1.5%,

表 3   在ShapeNetPart基准上测试的分割结果

Tab.3  Segmentation result on ShapeNetPart benchmark

方法年份mIoUcls/%mIoUins/%
PointNet[7]201780.483.7
PointNet++[8]201781.985.1
KPConv[18]201985.086.2
DGCNN[13]201982.385.2
PointASNL[11]202086.1
PAConv[19]202184.686.1
CurveNet[41]202186.6
PointTransformer[31]202083.786.6
StratifiedFormer[16]202285.186.6
PointMLP[46]202284.686.1
Point2vec[47]202384.686.3
MKConv[45]202386.5
DNG-Net(本文方法)202484.786.7

新窗口打开| 下载CSV


图5所示为DNG-Net在部件分割上预测值与真值的可视化对比. 可以看出,本文方法非常接近于真值,即使在部件边界部分也分割得较清晰.

图 5

图 5   ShapeNetPart数据集部件分割结果的可视化

Fig.5   Visualization of part segmentation result of ShapeNetPart dataset


3.4. 语义分割任务

在大型语义分割数据集上,DNG-Net展现出了不错的性能. 表4中,P为参数量,mIOUval、mIOUtest分别为在验证集和测试集上得到的平均交并比. 从表4可知,在ScanNetv2数据集上,DNG-Net在mIOUval和mIOUtest上超越了大多数先进方法,比StratifiedFormer高1.3%、1.2%,这表明DNG-Net在处理复杂场景和大规模数据时能够保持较高的准确性. 与PTv3相比,DNG-Net在指标上略有不足. 尽管如此,DNG-Net的参数量仅为PTv3的1/5,较小的参数量意味着DNG-Net在训练和推理过程中需要更少的计算资源,提高了其在实际应用中的可行性.

表 4   在ScanNetV2基准上测试的分割结果

Tab.4  Segmentation result on ScanNetV2 benchmark

方法年份P/106mIOUval/%mIOUtest/%
PointNet++[8]201753.555.7
KPConv[18]201969.268.6
PointTransformer[31]20217.870.6
StratifiedFormer[16]202218.874.373.7
PTv3[34]202346.277.577.9
DNG-Net(本文方法)20249.275.674.9

新窗口打开| 下载CSV


表5所示为S3DIS Area5数据集上DNG-Net的分割性能. 使用类似文献[21]的方法,通过网格采样对数据进行预处理.

表 5   在S3DIS Area5基准上测试的分割结果

Tab.5  Segmentation result on S3DIS Area5 benchmark

方法年份mAcc/%OA/%mIOU/%
KPConv[18]201972.867.1
MKConv[45]202375.189.667.7
RepSurf-U[21]202276.090.268.9
SPoTr[32]202376.490.770.8
DNG-Net(本文方法)202476.491.069.8

新窗口打开| 下载CSV


DNG-Net在OA、mAcc和mIoU 3个评价指标上表现出了优秀的结果, 该方法在保持与SPoTr相当的mAcc(76.4%)的同时,实现了最高的OA(91.0%). 如图6所示为对语义分割的部分结果进行的可视化,在一些实例,如椅子、书柜上有着良好的分割效果.

图 6

图 6   S3DIS数据集语义分割结果的可视化

Fig.6   Visualization of semantic segmentation result of S3DIS dataset


通过以上实验展现出本文方法较强的泛化能力和适应性,在处理不同规模和复杂度的数据时都能够保持稳定的性能表现.

3.5. 消融实验

3.5.1. 成分消融

DNG模块主要由局部几何增强LGE、双邻域图卷积DNConv、局部-全局信息交互LGI 3个部分组成. 其中双邻域图卷积DNConv包含2个关键组件:DNGCN表示双邻域图结构,用于构建尺度不同的邻域图;GAA表示高斯加权的自适应聚合模块. 为了验证不同组件的功能和有效性,在ModelNet40数据集上进行消融实验,结果见表6.

表 6   在ModelNet40上不同组件的消融研究

Tab.6  Ablation of different components on ModelNet40

模型LGEDNConvLGIOA/%
DNGCNGAA
A92.8
B93.7
C93.8
D93.5
E93.7
F94.1

新窗口打开| 下载CSV


模型A只采用普通图卷积进行学习. 从模型B、F可以看出,使用几何指导模块能够有效地对局部拓扑结构进行建模,增强网络对几何变换的鲁棒性, 模型性能提升了0.4%. 模型C、F可以说明局部-全局信息交互的有效性. 模型E表示在单一邻域内进行图卷积,仅使用高斯加权的自适应融合方式完成特征聚合. 虽然单独使用高斯自适应聚合不能带来非常显著的性能改善(提高0.2%) ,但以双邻域互补的形式进行干预,高斯聚合的存在能够在分类结果方面产生更有力的作用,说明以双邻域互补的形式能够更好地捕获局域内的细节特征. 相比于模型D,本文方法的总体精度提升了0.6%,最终实现了94.1%的优秀性能.

3.5.2. 局部几何增强模块的形式

表7所示为几何增强模块的有效表达. 表中,$ {{{{\boldsymbol{x}}}}_i} $$ {{{{\boldsymbol{x}}}}_j} $表示中心点、邻居点的全局位置信息,$ {{{{\boldsymbol{x}}}}_j} - {{\boldsymbol{x}}_i} $为相对坐标,$l$表示两点间的${{L}}_2$距离. 此外,引入坐标系常用的方向位置参数:方位角$ \delta $和俯仰角$ \theta $.

表 7   局部几何增强模块形式的研究

Tab.7  Research on form of local geometric enhancement module

模型局部几何增强LGE维度OA/%
A${{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i}$393.1
B${{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i}$693.3
C${{{{\boldsymbol{x}}}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i},{\delta _{{\boldsymbol{a}} }} - {\delta _{{\boldsymbol{b}} }},{\varphi _{{\boldsymbol{ a }}}} - {\varphi _{{\boldsymbol{b}} }}$894.1
D${{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i},{\delta _{{\boldsymbol{a}} }} - {\delta _{ {\boldsymbol{b}} }},{\varphi _{ {\boldsymbol{a}} }} - {\varphi _{{\boldsymbol{b}} }},l$993.5
E${{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i},{\delta _{{\boldsymbol{a}} }},{\delta _{{\boldsymbol{b}} }},{\varphi _{ {\boldsymbol{a}} }},{\varphi _{ {\boldsymbol{b}} }}$1093.7
F${{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j},{{\boldsymbol{x}}_j} - {{\boldsymbol{x}}_i},{\delta _{ {\boldsymbol{a}} }} - {\delta _{ {\boldsymbol{b}} }},{\varphi _{ {\boldsymbol{a}} }} - {\varphi _{ {\boldsymbol{b}} }},l$1292.6
GSPT手工标注特征493.4

新窗口打开| 下载CSV


通过实验发现,仅使用位置信息,实验性能不是很好(见模型A、B),模型D加入了点间距离$ l $,效果虽然有所提升,但不显著. 模型F将全部特征都进行拼接,造成特征冗余,严重影响了模型性能. 为了捕获旋转不变的几何线索,以角度差异的形式建模(见模型C)获取94.1%的总体精度,显示了该模块的重要影响. 若只通过简单的拼接相关角度(模型E),不能带来明显的性能改善,精度相比模型C降低了0.4%. 模型C以相对紧凑的形式,显式建模了低级空间下的局部拓扑结构. 此外,在模型G中,将SPT[48]在局部采用的线性、平面性、散射等特征进行替换,但总体精度不理想. 这种局部几何特征无法与本文现有的网络层或其他组件良好地集成,导致特征表示可能不准确.

3.5.3. 双邻域K值的探究

针对局域内2个不同尺度的K值进行对比实验,结果见表8. A类模型表示在单一邻域内采用图卷积,使用高斯加权的自适应融合进行特征聚合. 通过不断增大局域$S_1$内的邻居点个数,设置B、C、D多组对比实验.

表 8   双邻域不同K值的对比研究

Tab.8  Comparison of result for different value of K in dual neighborhood

模型KOA/%
$N_{{S}_1} $$N_{{S}_2} $
A101293.4
A202093.7
A303093.3
B151293.2
B252093.5
B353093.0
C1101293.6
C2102093.8
C3103093.5
D11512
D2152094.1
D3153093.6

新窗口打开| 下载CSV


通过组内对比可以发现,当邻居点较少时容易受到噪声点的干扰,而邻域点过多会给网络带来冗余信息,当K = 20时取值较适中,准确率较高. 通过组间对比可知,当邻域点个数分别为15、20时,双邻域互补的效果达到最佳状态,网络能够更好地捕获不同尺度间的细节特征,提高网络学习特征的区分性.

3.5.4. 特征融合方式的探究

探究局部特征与显著性全局特征之间不同的融合方式,包含拼接、直接求和、自适应融合3种方法. 如表9所示为3种方法的OA对比.

表 9   特征融合方式的OA对比

Tab.9  Comparison of OA for feature fusion method

模型特征融合方式OA/%
A拼接93.3
B求和93.5
C自适应融合94.1

新窗口打开| 下载CSV


实验证明,采用自适应融合的方式,效果最优. 随着网络不断加深,模型以动态的方式自适应地调节权重比例,综合全局和局部信息.

3.5.5. 关键点提取中采样率m的探究

在全局-局部交互LGI模块中,选择合适的采样率m对于网络性能和效率至关重要,结果见表10. 表中,FLOPs为每秒浮点运算次数.

表 10   关键点提取采样率m的效率研究

Tab.10  Research on efficiency of extracting sample rate m

m对应点数FLOPs/109OA/%
1, 2, 21024, 512, 2562.0793.3
1, 4, 41024, 256, 641.9294.1
1, 8, 81024, 128, 161.8693.7

新窗口打开| 下载CSV


通过结果表明,当m = 2时,关键点过多,带来了额外的浮点运算负担和冗余信息,导致总体精度不高. 当m = 8时,虽然效率提升,但可能牺牲了关键点的特征提取完整性,影响了精度. 相比而言,本文选取m=4,既保证了模型能够捕获到足够的全局特征,又避免了不必要的计算冗余,实现了高效且准确的性能表现.

3.6. 复杂度分析

网络的复杂度对于点云的实际应用至关重要. 表11中,以ModelNet40数据集为例,比较了DNG-Net和其他模型的FLOPs和P.

表 11   在ModelNet40上的复杂度分析

Tab.11  Complexity analysis on ModelNet40

模型FLOPs/109P/106OA/%
PointNet[7]0.53.589.2
PointNet++[8]4.11.891.9
DGCNN[13]3.02.692.9
PointTransformer[31]18.49.693.7
CurveNet[41]0.32.193.8
PointMixer[40]6.593.6
PointNeXT[42]6.54.594.0
PointMLP[46]15.713.294.1
DNG-Net(本文方法)1.924.994.1

新窗口打开| 下载CSV


实验结果表明,DNG-Net在可接受的计算成本内显著优于其他方法. 另外,PointMLP和DNG-Net在总体精度上表现均为最优,但DNG-Net在FLOPs和参数量方面均显著优于PointMLP,FLOPs降低了约8.3倍,参数量降低了约2.7倍. 可见,本文所提出的方法在精度和复杂度之间取得了更好的平衡.

4. 结 语

本文探讨现有局部特征算子存在的局限性,构建双邻域图卷积网络DNG-Net. 提出集成高斯加权自适应聚合的双邻域图卷积算子,利用方位角、俯仰角、位置坐标等先验知识辅助感知局部几何结构. 为了增大点的空间跨度,以注意力的形式实现局部与全局信息的交互,从而有效地表达点云的几何拓扑结构. DNG-Net在点云分类、部件分割、语义分割任务上均展示了出色的性能. 本文网络显著提高了点云数据的处理速度,尤其是在处理大规模点云时,在计算效率和泛化能力方面的优势使其在多个场景中都具有独特的竞争力. 大量实验证明了该网络的有效性.

当前研究存在需要进一步完善的地方. 在实际应用中,不同点云数据的密度稀疏性存在差异,因此在局部固定邻居点个数可能无法适应所有情况. 未来,将深入研究密度导向的分组方法,根据点云数据的实际密度动态调整邻居点个数,提高DNG-Net的性能. 探索更简洁的特征表示,以更轻量级的形式实现更鲁棒的结果.

参考文献

JABOVEDOFF M, OPPIKOFER T, ABELLÁN A, et al

Use of LIDAR in landslide investigations: a review

[J]. Natural Hazards, 2012, 61 (1): 5- 28

DOI:10.1007/s11069-010-9634-2      [本文引用: 2]

RUSU R B, MARTON Z C, BLODOW N, et al

Towards 3D point cloud based object maps for household environments

[J]. Robotics and Autonomous Systems, 2008, 56 (11): 927- 941

DOI:10.1016/j.robot.2008.08.005      [本文引用: 1]

QI C R, LIU W, WU C, et al. Frustum pointnets for 3d object detection from rgb-d data [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 918-927.

[本文引用: 1]

FAN H, SU H, GUIBAS L J. A point set generation network for 3d object reconstruction from a single image [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 605-613.

[本文引用: 3]

SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3d shape recognition [C]// Proceedings of the IEEE International Conference on Computer Vision . Santiago: IEEE, 2015: 945-953.

[本文引用: 3]

LI Y, PIRK S, SU H, et al

Fpnn: field probing neural networks for 3d data

[J]. Advances in Neural Information Processing Systems, 2016, 29: 307- 315

[本文引用: 1]

QI C R, SU H, MO K, et al. Pointnet: deep learning on point sets for 3d classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 652-660.

[本文引用: 9]

QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C] // Proceedings of the 30th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2017: 5099-5108.

[本文引用: 7]

LIU Y C, FAN B, XIANG S M, et al. Relation-shape convolutional neural network for point cloud analysis [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 8895–8904.

[本文引用: 1]

HU Q Y, YANG B, XIE L H, et al. Randla-net: efficient semantic segmentation of large-scale point clouds [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11108–11117.

YAN X, ZHENG C, LI Z, et al. Pointasnl: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 5589-5598.

[本文引用: 3]

ZHAO H, JIANG L, FU C W, et al. Pointweb: enhancing local neighborhood features for point cloud processing [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5565-5573.

[本文引用: 2]

WANG Y, SUN Y, LIU Z, et al

Dynamic graph CNN for learning on point clouds

[J]. ACM Transactions on Graphics, 2019, 38 (5): 1- 12

[本文引用: 12]

SIMONOVSKY M, KOMODAKIS N. Dynamic edge-conditioned filters in convolutional neural networks on graphs [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 3693-3702.

LIU Z, ZHOU S, SUO C, et al. Lpd-net: 3d point cloud learning for large-scale place recognition and environment analysis [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 2831-2840.

[本文引用: 3]

LAI X, LIU J, JIANG L, et al. Stratified transformer for 3d point cloud segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8500-8509.

[本文引用: 5]

WU W, QI Z, FUXIN L. Pointconv: deep convolutional networks on 3d point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 9621-9630.

[本文引用: 2]

THOMAS H, QI C R, DESCHAUD J E, et al. Kpconv: flexible and deformable convolution for point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6411-6420.

[本文引用: 5]

XU M, DING R, ZHAO H, et al. Paconv: position adaptive convolution with dynamic kernel assembling on point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 3173-3182.

[本文引用: 3]

QIU S, ANWAR S, BARNES N

Geometric back-projection network for point cloud classification

[J]. IEEE Transactions on Multimedia, 2021, 24: 1943- 1955

[本文引用: 4]

RAN H, LIU J, WANG C. Surface representation for point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 18942-18952.

[本文引用: 4]

ZHANG R, WANG L, WANG Y, et al. Starting from non-parametric networks for 3D point cloud analysis [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 5344-5353.

[本文引用: 1]

CHEN B, XIA Y, ZANG Y, et al. Decoupled local aggregation for point cloud learning [EB/OL]. (2023-08-31). https://doi.org/10.48550/arXiv.2308.16532.

[本文引用: 1]

DEFFERRARD M, BRESSON X, VANDERGHEYNST P

Convolutional neural networks on graphs with fast localized spectral filtering

[J]. Advances in Neural Information Processing Systems, 2016, 29: 3844- 3852

[本文引用: 1]

LI G, MULLER M, THABET A, et al. Deepgcns: can gcns go as deep as cnns? [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE 2019: 9267-9276.

[本文引用: 2]

LIN Z H, HUANG S Y, WANG Y C F. Convolution in the cloud: learning deformable kernels in 3d graph convolution networks for point cloud analysis [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 1800-1809.

[本文引用: 1]

XU M, ZHOU Z, QIAO Y. Geometry sharing network for 3d point cloud classification and segmentation [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2020, 34(7): 12500-12507.

[本文引用: 1]

ZHOU H, FENG Y, FANG M, et al. Adaptive graph convolution for point cloud analysis [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 4965-4974.

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . Long Beach: Curran Associates Inc., 2017: 6000-6010.

[本文引用: 1]

GUO M H, CAI J X, LIU Z N, et al

Pct: Point cloud transformer

[J]. Computational Visual Media, 2021, 7 (2): 187- 199

DOI:10.1007/s41095-021-0229-5      [本文引用: 1]

ZHAO H, JIANG L, JIA J, et al. Point transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 16259-16268.

[本文引用: 5]

PARK J, LEE S, KIM S, et al. Self-positioning point-based transformer for point cloud understanding [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 21814-21823.

[本文引用: 3]

RAN H, ZHUO W, LIU J, et al. Learning inner-group relations on point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 15477-15487.

WU X Y, JIANG L, WANG P S, et al. Point Transformer V3: simpler, faster, stronger [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 4840-4851.

[本文引用: 3]

WU Z, SONG S, KHOSLA A, et al. 3d shapenets: a deep representation for volumetric shapes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2015: 1912-1920.

[本文引用: 2]

UY M A, PHAM Q H, HUA B S, et al. Revisiting point cloud classification: a new benchmark dataset and classification model on real-world data [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 1588-1597.

[本文引用: 1]

YI L, KIM V G, CEYLAN D, et al

A scalable active framework for region annotation in 3d shape collections

[J]. ACM Transactions on Graphics, 2016, 35 (6): 1- 12

[本文引用: 1]

DAI A, CHANG A X, SAVVA M, et al. ScanNet: richly-annotated 3D reconstructions of indoor scenes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2432-2443.

[本文引用: 1]

ARMENI I, SENER O, ZAMIR A R, et al. 3d semantic parsing of large-scale indoor spaces [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1534-1543.

[本文引用: 1]

CHOE J, PARK C, RAMEAU F, et al. Pointmixer: Mlp-mixer for point cloud understanding [C]// European Conference on Computer Vision. Cham: Springer, 2022: 620-640.

[本文引用: 2]

MUZAHID A A M, WAN W, SOHEL F, et al

CurveNet: curvature-based multitask learning deep networks for 3D object recognition

[J]. IEEE/CAA Journal of Automatica Sinica, 2020, 8 (6): 1177- 1187

[本文引用: 3]

QIAN G, LI Y, PENG H, et al. Pointnext: revisiting pointnet++ with improved training and scaling strategies [J]. Advances in Neural Information Processing Systems , 2022: 23192-23204.

[本文引用: 3]

MONTANARO A, VALSESIA D, MAGLI E

Rethinking the compositionality of point clouds through regularization in the hyperbolic space

[J]. Advances in Neural Information Processing Systems, 2022, 35: 33741- 33753

[本文引用: 2]

LIU Y, TIAN B, LV Y, et al

Point cloud classification using content-based transformer via clustering in feature space

[J]. IEEE/CAA Journal of Automatica Sinica, 2023, 11: 231- 239

[本文引用: 2]

WOO S, LEE D, HWANG S, et al

MKConv: multidimensional feature representation for point cloud analysis

[J]. Pattern Recognition, 2023, 143: 109800

DOI:10.1016/j.patcog.2023.109800      [本文引用: 3]

MA X, QIN C, YOU H X, et al. Rethinking network design and local geometry in point cloud: a simple residual MLP framework [EB/OL]. (2022-02-15). https://doi.org/10.48550/arXiv.2202.07123.

[本文引用: 3]

ZEID K A, SCHULT J, HERMANS A, et al. Point2Vec for self-supervised representation learning on point clouds [C]// DAGM German Conference on Pattern Recognition . Cham: Springer, 2023: 131-146.

[本文引用: 1]

ROBERT D, RAGUET H, LANDRIEU L. Efficient 3D semantic segmentation with superpoint Transformer [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 17149-17158.

[本文引用: 1]

/