浙江大学学报(工学版), 2021, 55(12): 2342-2351 doi: 10.3785/j.issn.1008-973X.2021.12.014

计算机技术

基于竞争注意力融合的深度三维点云分类网络

陈涵娟,, 达飞鹏,, 盖绍彦

1. 东南大学 自动化学院,江苏 南京 210096

2. 东南大学 复杂工程系统测量与控制教育部重点实验室,江苏 南京 210096

3. 东南大学 深圳研究院,广东 深圳 518063

Deep 3D point cloud classification network based on competitive attention fusion

CHEN Han-juan,, DA Fei-peng,, GAI Shao-yan

1. School of Automation, Southeast University, Nanjing 210096, China

2. Key Laboratory of Measurement and Control of Complex Systems of Engineering, Ministry of Education, Southeast University, Nanjing 210096, China

3. Shenzhen Research Institute, Southeast University, Shenzhen 518063, China

通讯作者: 达飞鹏,男,教授.orcid.org/0000-0001-5475-3145. E-mail: dafp@seu.edu.cn

收稿日期: 2021-01-4  

基金资助: 国家自然科学基金资助项目(51475092);江苏省前沿引领技术基础研究专项资助项目(BK20192004C);江苏省自然基金资助项目(BK20181269);深圳市科技创新委员会资助项目(JCYJ20180306174455080)

Received: 2021-01-4  

Fund supported: 国家自然科学基金资助项目(51475092);江苏省前沿引领技术基础研究专项资助项目(BK20192004C);江苏省自然基金资助项目(BK20181269);深圳市科技创新委员会资助项目(JCYJ20180306174455080)

作者简介 About authors

陈涵娟(1996—),女,硕士生,从事计算机视觉三维点云处理研究.orcid.org/0000-0001-7262-8065.E-mail:220181486@seu.edu.cn , E-mail:220181486@seu.edu.cn

摘要

为了提高三维点云深度网络分类模型对全局特征的提取与表达能力,增强模型对噪声干扰的鲁棒性,提出可迁移应用于不同分类网络的竞争性注意力融合模块,学习多层级特征的全局表征和中间特征内在相似度,对中间特征通道权值重分配. 在基准网络Pointnet++和PointASNL中嵌入所提模块并进行实验,结果显示:所提模块具有独立性和可迁移性,聚焦更利于三维点云形状分类的核心骨干特征. 与基准网络相比,所提模块在保持分类精度稳定不下降的情况下,模型对点云扰动噪声、离群点噪声和随机噪声的抗干扰能力增强,在随机噪声数分别为0、10、50、100、200的情况下,准确度分别达到93.2%、92.9%、85.7%、78.2%、63.5%. 与传统滤波方法相比,端到端的学习减少预处理步骤和人工干预过程,同时具有更优的抗噪性能.

关键词: 点云物体分类 ; 三维点云 ; 深度学习 ; 神经网络 ; 注意力机制 ; 竞争性融合

Abstract

A competitive attention fusion block that can be transferred to different classification networks was proposed, in order to improve the 3D point cloud deep network classification model’s ability to extract and express global features, and enhance the model’s robustness to noise interference. The global representation of multi-hierarchical features and the internal similarity of intermediate features were learned. The weights of the intermediate feature channels were re-allocated. The proposed block was embedded in the benchmark networks Pointnet++ and PointASNL for experiments. Results show that the proposed block is independent and transferable, focusing on the core and backbone features that are more conducive to 3D point cloud shape classification. Compared with the benchmark network, the proposed block enhances the model’s anti-interference ability to point cloud disturbance noise, outlier noise and random noise without decreasing the classification accuracy. The proposed method achieves the accuracy was 93.2%, 92.9%, 85.7%, 78.2%, 63.5% in the case of the number of random noises was 0, 10, 50, 100, 200, respectively. Compared with the traditional filtering method, end-to-end learning reduces the pre-processing steps and manual intervention process, and has better anti-noise performance.

Keywords: point cloud object classification ; 3D point cloud ; deep learning ; neural network ; attention mechanism ; competitive fusion

PDF (1181KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈涵娟, 达飞鹏, 盖绍彦. 基于竞争注意力融合的深度三维点云分类网络. 浙江大学学报(工学版)[J], 2021, 55(12): 2342-2351 doi:10.3785/j.issn.1008-973X.2021.12.014

CHEN Han-juan, DA Fei-peng, GAI Shao-yan. Deep 3D point cloud classification network based on competitive attention fusion. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(12): 2342-2351 doi:10.3785/j.issn.1008-973X.2021.12.014

在计算机视觉应用中,三维点云数据极大程度上弥补了二维图像对空间结构信息的缺失. 许多研究者采用的基于深度神经网络的学习方法,依据不同的三维数据表达方式可以分为基于手工特征预处理[1]、多视图[2]、体素[3]和原始点云数据[4-5]的方法.

原始三维数据能展现物体的立体表征,将三维点云作为输入避免了在卷积网络中输入多视图、体素这类规则化数据造成不必要的体积划分和对点云数据不变性的影响. 受采集设备及坐标系影响,三维点云数据的排列顺序差别很大. 针对无序点云数据的分类和分割问题,Qi等[4]提出PointNet网络,直接处理稀疏的非结构化点云. Qi等[5]以PointNet为基础,对点云下采样和分组,提出PointNet++. PCPNet[6]是基于PointNet体系的一种新颖的多尺度变体,采用基于补丁的学习方法. Shen等[7]更有效地利用局部结构改进PointNet,在最近邻图上进行递归特征聚合获得局部高维特征. SO-Net[8]通过自组织映射(self-organizing map,SOM)算法获得关键特征点,通过PointNet模块获取包含空间信息的模型描述子. Qi等[9]利用二维目标检测算法将三维模型检测范围缩小到视锥中,用PointNet获得高维特征. Li等[10]提出PointCNN,引入 X-Conv 转换方式实现无序点云的潜在规则化. DensePoint[11]通过泛化卷积算子将规则网格CNN扩展到不规则点配置. Point2Sequence[12]使用注意力机制聚合不同局部区域的信息. A-CNN[13]根据特征与局部中心点的不同距离信息,通过环形卷积分别编码. PointWeb[14]关联局部区域中的每组点对得到更有表达力的局部特征. 其他一些工作介绍了用图卷积网络学习局部图[15-16]或几何元素[17],提取点云局部特征. 注意力机制[18]计算特征之间的相关程度. 二维图像处理常用的注意力机制有SE模块[19]. 三维点云网络中,PVNet[20]嵌入注意力融合模块将中间特征与全局特征融合. PointASNL[21]使用通用自注意力机制在自适应采样模块中进行组内特征更新. 在对深度三维点云分类网络的研究中,优化特征提取能力和提高对点云扰动、离群值、随机噪声等干扰因素的抵抗能力是研究热点,对三维点云分类任务及其应用具有十分重要的影响.

本研究提出竞争性注意力融合(competitive attention fusion,CAF)模块,是可迁移的中间特征通道优化结构,引入残差连接和通道竞争力,以2种注意力为核心通过学习重新分配特征通道权值. CAF模块包含2个子模块:1)多层级特征挤压激励子模块,关注不同层级全局特征的提取与融合;2)特征内在关联自注意力子模块,度量中间特征内在相似度. CAF模块可以嵌入式应用于不同点云分类网络中,具有可迁移性和可拓展性,提高了点云全局特征的表达能力,加强了模型对点云噪声的鲁棒性.

1. 竞争性注意力融合模块

点云特征提取网络采用2层或更多的中间特征抽象层,中间特征往往是全局特征和局部特征的集合,很大程度上影响分类结果的准确性. CAF模块通过2层中间输出特征学习得到融合权值,该权值能表征当前层中间特征通道的重要性和表现力,通过该权值重新分配通道特征得到优化的新中间特征. 简单来说,CAF模块利用注意力机制的中心思想,聚合显著特征,激励更重要、对结果影响更大的通道特征,并抑制无效或低效的通道特征,减少噪声干扰,提高模型鲁棒性.

CAF模块整体思路如图1所示. 图中B为批处理数据大小(batch_size), ${N_i}$为当前样本在该层下采样后的点云数, ${C_i}$为当前样本在该层的特征通道数. 模块聚合多层通道特征,设计2个专门子模块并行独立训练,目的是分别得到关注不同层级的全局注意力权值和关注中间特征内在关联的注意力权值,将其融合得到新的权值系数,对中间通道权值重分配,实现中间特征优化. 其中专门设计模块为2块:1)多层级特征挤压激励(multi-layer feature squeeze and excitation,MFSE)子模块;2)特征内在关联自注意力(feature inner connection self-attention,FICSA)子模块.

图 1

图 1   竞争性注意力融合模块的示意图

Fig.1   Diagram of competitive attention fusion block


1.1. MFSE子模块

在二维图像分类任务中,挤压激励网络 (squeeze-excitation net,SE-Net)[19]表现卓越,二维注意力机制SE模块基于通道之间的关联自适应地调整通道特征,将SE模块作为独立结构加入多种二维分类网络中能提高网络分类精度.竞争性挤压激励模块 (competitive squeeze-excitation, CMPE-SE)[22]为了实现更好的映射结构,在SE模块基础上通过合并残差映射和恒等映射的竞争关系,实现二维图像内部特征的重成像,根据具体任务要求,可并列合并或是卷积合并中间融合特征通道,如图2(a)所示. 图中,hw${C_i}$分别为二维特征图的高度、宽度、通道数.

图 2

图 2   二维和三维挤压激励子模块结构图

Fig.2   Structure of 2D and 3D squeeze-excitation block


CAF模块中的MFSE子模块从二维的CMPE-SE模块中获得启发.无序的三维点云特征表达与规则的二维图像特征图有本质区别,MFSE子模块并非简单使用二维的CMPE-SE模块,根据点云数据结构和三维分类网络的特点,对池化层、特征维度、全连接层、特征融合方式、通道加权等相应进行独立设计与调整.

MFSE子模块的网络结构和具体实现过程如图2(b)所示.

1)并行输入.2个并行的输入特征分别为前一层的中间特征 ${{\boldsymbol{f}}_{\text{1}}} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {C_{\text{1}}}}}$和经过特征提取层后的当前层中间特征 ${{\boldsymbol{f}}_{\text{2}}} \in {{{\bf{R}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$.

2)特征升维. 池化聚合不同通道上的显著特征,分别由全连接层和激活函数得到2组输入的高维特征.特征升维的公式为

$ {\varphi _i}({{\boldsymbol{f}}_i}) = {\phi _i}({P_i}({{\boldsymbol{f}}_i}))/{r_i};\;i = 1,2. $

式中: ${P_i}$为全局特征聚合,如最大池化函数Max pooling; ${\phi _i}$为全连接层(fully connected layer,FC)和Relu激活函数,考虑参数量过大带来的训练困难,设置通道缩放比例 ${r_i}$调节中间通道数,输出特征 ${\varphi _i}$的通道数 ${C_i} \to {C_i}/{r_i}$.

3)特征融合.对2组高维特征融合的公式为

$ F({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) = {\varphi _{\text{1}}}({{\boldsymbol{f}}_1}) \oplus {\varphi _{\text{2}}}({{\boldsymbol{f}}_2}). $

其中 $ \oplus $通过扩展列数按比例连接通道, $F \in {{\rm{{\bf{R}}}}^{{\text{1}} \times C'}}$学习得到不同层级特征的全局高维特征,如图2(b)所示, $C' = {C_1}/{r_1} + {C_2}/{r_2}$.进一步计算得到当前层特征通道的全局注意力权值为

$ {{W}_{{\text{se}}}}({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) = \phi (F({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}})). $

式中: $\phi $为含有归一化函数Sigmoid的全连接层, ${W_{{\text{se}}}}({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) \in {{{{{\bf{R}}}}}^{1 \times {C_{\text{2}}}}}$为最终获得的全局注意力权值.

4)权值扩展. MFSE模块得到的全局注意力权值代表当前层中间特征每个通道对应的得分,得分高的特征通道对下一层训练更有影响力,得分低的代表该通道的特征对网络分类结果作用轻微.为了适配点云数据结构,对全局注意力权值扩展维度,使得维度为样本在当前层的采样点数 $ {N_2} $.

MFSE子模块关注不同层级中间特征的全局影响力,通过竞争性融合2层特征的显著高维特征,计算出全局特征对通道权值的贡献. 该模块有利于提高模型分类结果的稳定性.

1.2. FICSA子模块

为了进一步提高中间特征的表达能力,增强中间特征内在关联对分类结果的影响力,进一步研究使用注意力机制学习中间特征.

CAF模块中的FICSA子模块引入自注意力机制学习中间特征的内部相似度,判断中间特征对分类结果的影响力,获得内在注意力权值. 自注意力机制中通常使用同一个输入计算权值,以此为主要特征区分通用注意力机制. FICSA子模块的不同在于并非在特征抽象层或是自适应采样中使用注意力,而是并行于网络主干,独立学习中间特征的内部关系,参与通道权值重分配. FICSA子模块的网络结构和具体实现过程如图3所示.

图 3

图 3   特征内在关联自注意力子模块结构图

Fig.3   Structure of feature inner connection self-attention block


1)并行卷积. 输入当前层中间特征 ${{\boldsymbol{f}}_{\text{2}}} \in {{{{{\bf{R}}}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$,经过1×1点卷积,将每个点所有通道的特征线性映射至3个并行的高维特征,公式为

$ \left. \begin{gathered} V({{\boldsymbol{f}}_2}) = {w_v} * {{\boldsymbol{f}}_2}, \hfill \\ Q({{\boldsymbol{f}}_2}) = {w_q} * {{\boldsymbol{f}}_2}, \hfill \\ K({{\boldsymbol{f}}_2}) = {w_k} * {{\boldsymbol{f}}_2}. \hfill \\ \end{gathered} \right\} $

式中: $ V $$ Q $$ K $分别为3个独立的特征映射函数; $ {w_i} $为不同的线性转换系数,含义为在特征通道 ${C_{\text{2}}}$维度上作1×1点卷积,卷积核个数为 ${C_{\text{2}}}$,获得3个对应的高级特征,维度均为 ${N_{\text{2}}} \times {C_{\text{2}}}$.

2)相似度计算. 通过点积运算获得 $ Q $$ K $之间的关联,公式为

$ A({{\boldsymbol{f}}_2}) = \gamma [Q({{\boldsymbol{f}}_2}){K^{\rm{T}}}({{\boldsymbol{f}}_2})/\sqrt C ] . $

式中: $ A $为中间特征内部高维度关系; $ \gamma $为聚合功能,如Softmax归一化函数; $ \sqrt C $为可选通道缩放比例系数,设置目的是减少训练参数量. 获得表征点与点之间特征内在关联的全局注意力权值 ${W_{{\text{sa}}}}({{\boldsymbol{f}}_2}) \in {{{\bf{R}}}^{{N_2} \times {C_{\text{2}}}}}$,公式为

$ {{{W}}_{{\text{sa}}}}({{\boldsymbol{f}}_2}) = \gamma (A({{\boldsymbol{f}}_2})V({{\boldsymbol{f}}_2})). $

式中: $ V $用于调节 $ A $的特征通道维度. 如图3所示,经由式(5)运算后,输出特征维度为 ${N_{\text{2}}} \times {N_{\text{2}}}$$ V $将输出特征维度调整为 ${N_{\text{2}}} \times {C_{\text{2}}}$.

FICSA子模块关注中间特征内在相似度,通过该模块提高网络对全局特征的提取能力,从另一角度获得全局特征对通道权值的贡献. 该模块有利于提高模型抵抗噪声的鲁棒性.

1.3. CAF模块

CAF模块主要由MFSE子模块和FICSA子模块构成,2个子模块并行独立学习,竞争性特征融合,引入残差学习,对特征通道权值重分配:

$ {{\boldsymbol{W}}_{{\rm{CAF}}}} = \alpha {{{W}}_{{\text{se}}}}({{\boldsymbol{f}}_1},{{\boldsymbol{f}}_2}){\text{ + }}\beta {W_{{\text{sa}}}}({{\boldsymbol{f}}_2}) . $

式中: $ \alpha 、\beta $分别为全局注意力权值 ${W_{{\text{se}}}}$${W_{{\text{sa}}}}$的比例系数,取值根据不同数据集样本的特点,通过实验进行调整,通常情况下可设置为1∶1. MFSE子模块用于维持分类精度稳定不下降,FICSA子模块增强模型鲁棒性,若点云噪声干扰较多可调整 $ \alpha < \beta $,反之可调整为 $ \alpha > \beta $.

通过矩阵加法,将2种全局注意力权值按不同比例系数 $ \alpha 、\beta $融合后,获得最终权值分配系数 ${{\boldsymbol{W}}_{{\rm{CAF}}}} \in {{{\bf{R}}}^{{N_2} \times {C_{\text{2}}}}}$,该系数包含对多层级特征的全局学习和内在特征相似性度量,两组权值竞争性地提供对特征通道的优化方案.通过权值重分配和残差连接得到新的中间特征 ${\boldsymbol{f}}_2^* \in {{{\bf{R}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$

$ {\boldsymbol{f}}_2^* = {{\boldsymbol{f}}_2} + {{\boldsymbol{W}}_{{\rm{CAF}}}}{{\boldsymbol{f}}_2} . $

2. 基于CAF模块的点云分类网络结构

三维点云分类网络一般通过2层或多层的特征提取层获得样本的高维特征,通过池化层获得全局特征,通过全连接层学习得到点云的分类得分. 其中前半部分的高维特征提取是分类网络的核心,决定模型的信息分析能力、分类准确度、鲁棒性等评价指标.

实际点云中的噪声干扰包括扰动和离群点,常表现为样本部分点集的位置偏移,存在背景噪声. 在测试模型时噪声点集同样被视为样本的一部分,影响样本的分类结果. CAF模块在网络中的作用是通过调节中间特征通道的权值,使模型更关注决定样本类型的核心特征. 2个子模块从多层级的全局特征和中间特征的内部关联2个不同角度学习,得到更有助于聚焦核心通道的权值,提高网络对全局特征学习能力,加强模型的抗干扰能力,对解决点云深度网络中的难点问题提供帮助.

CAF模块可作为独立优化模块迁移应用于相似的三维点云分类网络框架中,如图4所示的方式嵌入网络. 点云样本初始特征通常为法线向量 ${{\boldsymbol{F}}_0} \in {{{\bf{R}}}^{{N_{\text{0}}} \times {\text{3}}}}$,经过特征提取层后输出中间特征 ${{\boldsymbol{F}}_1} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {{\text{C}}_{\text{1}}}}}$. 取消原网络特征提取层的输出连接. 通过CAF模块对 ${{\boldsymbol{F}}_1}$特征通道权值重分配后,得到新的中间特征 ${\boldsymbol{F}}_1^{\text{*}} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {{\text{C}}_{\text{1}}}}}$,并作为下个特征提取层和第2个CAF模块的输入. 经过2层特征提取与通道权值重分配后,由池化层获得全局特征并经过全连接层计算分类得分. 在不同的网络中应用时,对具体分类网络理论分析其特征提取层的实现方式,根据任务目标对应调整CAF模块中2个子模块的权值分配比例,以此获得性能更佳的网络结构.

图 4

图 4   基于CAF模块的三维点云分类网络框架

Fig.4   3D point cloud classification network framework based on CAF block


3. 实验及结果分析

在三维点云数据集ModelNet40[3]上进行分类实验、鲁棒性分析与对比,其中包括9 843个训练样本和2 468个测试样本,所有样本共分为40个类别. 此外,实验分析子模块的必要性,并进行语义分割实验. 所有实验都以Tensorflow为平台,应用1个GTX 2080Ti GPU.

实验分别在经典基准网络Pointnet++和基准网络PointASNL上验证CAF模块的有效性和可迁移性. 结果显示加入CAF模块后,能在保持分类结果的平均精确度不降低的情况下,增强网络对点云扰动、离群点、随机噪声的抗干扰能力. 通过调整训练样本输入点数可以在保持分类精度稳定的同时,进一步提高模型的鲁棒性.

经过多次实验,训练参数设置如下:式(1)中通道缩放比例 ${r_i}$均设为4,式(7)中权值融合比例 $ \alpha 、\beta $均设为1. 除非特别说明,当本研究中的基准网络为Pointnet++时,输入点数1 024个,批处理大小为16,结果应用12次测试平均值;当基准网络为PointASNL时,输入点数1 024个,批处理大小为24,结果应用5次测试平均值.

3.1. 形状分类

在Pointnet++中加入CAF模块,训练和测试中均加入法线向量,测试时随机旋转点云以模拟真实场景. 由于文献[5]中没有提供最优训练模型(输入点数为5 000,最优精度为91. 9%)详细的训练参数,本研究复现文献[5]的最优分类精度为90. 7%,加入CAF模块后平均分类精度为91. 0%,分类精度的提高证明了CAF模块的有效性和可行性.

在PointASNL中加入CAF模块,只输入坐标点时,分类精度为92.9%(92.88%),不低于文献[21]中的92.9%(实际测试最优分类精度为92.85%);训练和测试中加入法线向量时,分类精度为93.2%(93.19%),不低于文献[21]中的93.2%(实际测试最优分类精度为93.15%),如表1所示.表中,Nin为输入点数,Acc为分类精度,Pnt为输入三维点云坐标数据,Noml为输入三维点云法线向量. 实验结果证明CAF模块具有独立性和可迁移性,并对保持分类精度有一定帮助.

表 1   在ModelNet40数据集上的平均分类精度

Tab.1  Average classification accuracy on ModelNet40 dataset

方法 输入 Nin/103 Acc/%
PointNet[4] Pnt 1 89.2
SO-Net[8] Pnt,Noml 2 90.9
PointNet++[5] Pnt,Noml 5 91.9
PointCNN[10] Pnt 1 92.2
Point2Sequence[12] Pnt 1 92.6
A-CNN[13] Pnt,Noml 1 92.6
PointASNL[21] Pnt 1 92.9(92.85)
PointASNL[21] Pnt,Noml 1 93.2(93.15)
本研究 Pnt 1 92.9(92.88)
本研究 Pnt,Noml 1 93.2(93.19)

新窗口打开| 下载CSV


3.2. 鲁棒性分析

CAF模块对分类网络最大的贡献在于提高模型对噪声干扰的抵抗力,增强模型的鲁棒性.许多分类模型仅考虑完整点云数据集上的性能,未考虑实际情况中极大可能存在随机背景噪声和扰动,因此一些具有优秀分类性能的模型并不一定具备较强的抗干扰能力.

3.2.1. 点云噪声:扰动和离群点

在实际点云数据采集中,受限于采集场景、传感器精度的问题,采集的点云往往是无序且嘈杂的,点云噪声通常包括扰动和离群点.扰动表示在采样平面上下一定范围内波动的数据点,离群点表示随机出现在空间任意位置的异常值.

实验中,在点云上加入高斯噪声模拟扰动,采用标准正态分布;在点云上加入随机噪声模拟离群点,噪声点的 ${x、y、z \in}{[-1.0,1.0]}$.以PointASNL为基准网络,实验CAF模块对扰动和离群点的抵抗能力,使用训练好的模型进行测试,结果如图5所示. 图中,n为噪声点数. 加入CAF模块后,模型对点云扰动和离群点2种噪声类型的抗干扰性能有明显提高.

图 5

图 5   CAF模块对不同噪声类型的抗干扰性能

Fig.5   Anti-jamming performance of CAF block against different noise types


3.2.2. 模型鲁棒性

为了进一步实验CAF模块对模型鲁棒性的影响,参照PointASNL[21]和KCNet[7]中测试模型鲁棒性的方法,将一定数量的原始点集替换为 ${x、y、z \in}{[-1.0,1.0]} $的随机噪声,模拟同时存在数据丢失和噪声干扰的情况,随机噪声数量n分别为0、1、10、50、100.

图6(a)所示为加入CAF模块的Pointnet++网络与原网络在存在随机噪声测试集上的分类精度. 结果显示随着噪声数量的增加,加入CAF模块的网络分类精度下降趋势更缓,模型鲁棒性有明显提高.

图 6

图 6   CAF模块对模型鲁棒性的影响

Fig.6   Influence of CAF block on model robustness


在PointASNL网络中加入CAF模块进行鲁棒性实验,为了测试不同数量输入点数对CAF模块抗干扰性能的影响,输入点云数分别设置为1 024(1 k)、2 048(2 k)、3 000(3 k),实验结果如图6(b)所示. 可以看出,对输入1 024个点训练的模型,在同等条件下,加入CAF模块后,网络抗干扰能力在不同数量的随机噪声下均有提升. 若考虑将模型应用于丢失点集与随机噪声多的实况点云中,适当增加输入点数可以在保持分类性能稳定的情况下获得更好的抗干扰能力. 随着干扰点数量的增加,CAF使用2 048和3 000个输入点进行训练时,相较于1 024个输入点,CAF模块表现出更强的分类性能和鲁棒性.

为了进一步验证CAF模块对模型鲁棒性的贡献,在含CAF模块的PointASNL网络上对极限抗干扰能力和分类性能进行实验,如图6(c)所示.对比图6(a)、(c),若以分类精度50%为含噪点云能接受的极限情况,当训练点数1 024个时,Pointnet++只容许含有(50±5)个干扰点,加入CAF模块后容许含有(90±5)个干扰点,PointASNL容许240±5个,加入CAF模块后容许280±5个,增加训练点数可以提高干扰点容忍数为300±5个.

3.2.3. 对比实验

传统点云滤波方法有以下几种. 1)直通滤波. 根据坐标轴滤除范围外的点,依据点云具体情况设置参数. 2)半径滤波. 以某点为中心计算一定半径内的点密度,根据密度决定是否剔除该点. 3)双边滤波. 将点之间的距离和空间结构相结合,只适用于有序点云. 4)体素滤波. 使用AABB包围盒将点云体素化,根据体素网格去除噪声. 5)统计滤波. 计算每个点到k个近邻点的距离分布,常用于剔除明显离群点或是测量误差导致的扰动点.

采用无序点云作为输入,在传统预处理过程中,对此类点云常用以统计滤波为主的方法进行滤波. 为了对比CAF模块与传统滤波方法在抗噪性能上的表现,以PointASNL为基准网络,分别加入体素滤波、统计滤波、综合滤波方法、CAF模块, 进行对比实验. 综合滤波方法设计为先通过半径滤波粗剪除离群点,再通过统计滤波滤除扰动点. 通过点云处理库(point cloud library,PCL)进行预处理.

1)抗噪性能. 如图7所示,体素滤波在滤除噪声的同时滤除密集点云处的少量关键点,影响模型的分类精度. 统计滤波一定程度上减少了噪声干扰,但对提高模型鲁棒性作用较小. 综合滤波相较于统计滤波更进一步提高了模型鲁棒性. CAF模块与传统滤波相比对提高模型鲁棒性的作用更明显. 应用综合滤波和CAF模块的模型与只加入CAF模块的模型抗噪性能相近,CAF模块起主导作用. 从分类精度上看,同一噪声点数情况下,CAF模块>综合滤波>统计滤波>体素滤波,因此CAF模块的引入能够较大地提高网络抗噪性能. 从噪声点数上看,在保持同样分类精度的情况下,CAF能够抵抗更多的噪声点干扰,因而网络的鲁棒性更强.

图 7

图 7   CAF模块与传统滤波的抗干扰性能对比

Fig.7   Comparison of anti-jamming performance between CAF block and traditional filtering


2)时间复杂度. 传统滤波是对全体原始数据进行单独预处理,计算量耗费较大,且脱离网络,是独立的处理部分,在处理任意新输入数据时,都要进行独立滤波处理. CAF模块嵌入在网络中,实现端到端的训练与测试,以极少的计算量与较低的时间复杂度,获得比传统滤波更好的抗噪性能. 以ModelNet40中标准飞机模型为例,该模型共拥有10 000个数据点,引入标准正态分布的高斯噪声. 使用基准模型PointASNL对单个飞机模型测试时,耗费时间为51. 60 ms. 分别利用体素滤波、统计滤波、综合滤波(半径滤波+统计滤波)对加入噪声的点云数据进行预处理,并输入网络进行特征提取与分类,单个含噪飞机模型的测试时间增量分别为54. 30、60. 71、84. 24 ms. 最后,将无预处理的飞机模型噪声数据输入带CAF模块的基准网络中进行测试,测试时间增量为15. 50 ms. 四者相比,带有CAF模块的网络运行时间相较于传统滤波大大缩短. 在实际使用中,CAF模块既兼顾了分类准确率,又保证了一定的实时性.

3.3. 子模块必要性

为了验证CAF模块2个独立子模块设计的必要性,单独应用MFSE子模块和FICSA子模块于基准网络PointASNL中,使用完成训练的模型进行对比实验. 实验结果如图8表2所示. 虽然应用MFSE子模块的网络维持了无噪声情况下的分类精度不下降,但是抵抗干扰的能力随着噪声点数的增多而迅速下降.由表可知,应用FICSA子模块的网络对较多数量噪声干扰的抵抗能力比基准网络的强,但在无噪声或少量噪声时分类精度有所降低.同时应用2个子模块即CAF模块的网络可以在保持平均分类精度不下降的情况下,增强模型抵抗噪声干扰的能力.

图 8

图 8   独立子模块对模型鲁棒性的影响

Fig.8   Influence of independent sub blocks on model robustness


表 2   独立子模块对模型抗干扰性能的影响

Tab.2  Influence of independent sub blocks on anti-jamming performance of model

n Acc
Base Base+MFSE Base+FICSA Base+CAF
%
0 93.2 93.2 92.6 93.2
1 92.1 91.7 91.8 92.3
10 88.3 86.5 89.8 89.1
50 78.1 74.0 80.1 81.9
100 71.1 60.6 72.5 74.8

新窗口打开| 下载CSV


设计MFSE子模块是为了维持分类精度稳定不下降,设计FICSA子模块是为了增强模型鲁棒性,两者独立应用时各有优缺点,CAF模块保留2个子模块的优秀性能,避免各自缺陷带来的不良影响.

3.4. 语义分割

将CAF模块应用于三维点云分割网络中,以PointASNL为基准网络,将CAF模块嵌入在特征提取层中间,进行语义分割实验.

在数据集ShapeNet Part[23]上进行语义零件分割,包括16个类别,50个零件,共计16 881个样本. 随机采样2 048个点作为输入,批处理大小为16,实验结果如表3所示. 结果显示本实验平均交并比mIoU接近基准网络水平,在部分类别上的分割性能(交并比IoU)优于基准模型(areo、earphone、guitar、lamp、mug、pistol).

表 3   在ShapeNetPart数据集上的零件分割性能

Tab.3  Part segmentation performance on ShapeNetPart dataset %

方法 mIoU IoU
areo bag cap car chair ear phone guitar knife lamp laptop motor mug pistol rocket skate board table
PointNet[4] 83.7 83.4 78.7 82.5 74.9 89.6 73.0 91.5 85.9 80.8 95.3 65.2 93.0 81.2 57.9 72.8 80.6
SO-Net[8] 84.9 82.8 77.8 88.0 77.3 90.6 73.5 90.7 83.9 82.8 94.8 69.1 94.2 80.9 53.1 72.9 83.0
PointNet++[5] 85.1 82.4 79.0 87.7 77.3 90.8 71.8 91.0 85.9 83.7 95.3 71.6 94.1 81.3 58.7 76.4 82.6
P2Sequence[12] 85.2 82.6 81.8 87.5 77.3 90.8 77.1 91.1 86.9 83.9 95.7 70.8 94.6 79.3 58.1 75.2 82.8
PointCNN[10] 86.1 84.1 86.5 86.0 80.8 90.6 79.7 92.3 88.4 85.3 96.1 77.2 95.2 84.2 64.2 80.0 83.0
PointASNL[21] 86.1 84.1 84.7 87.9 79.7 92.2 73.7 91.0 87.2 84.2 95.8 74.4 95.2 81.0 63.0 76.3 83.2
本研究 85.9 84.2 83.2 87.4 79.2 91.9 74.3 91.5 86.4 84.3 95.7 73.7 95.4 82.6 62.4 75.0 82.7

新窗口打开| 下载CSV


在室内场景数据集S3DIS[24]上进行语义场景分割,包括从3个建筑的6个区域中获得的271个房间,每个点都有一个语义标签将其划分为13类物体之一. 实验在6个区域上采用6折交叉验证比较平均交并比,实验结果如表4所示. 结果显示本实验场景分割性能略低于基准模型,部分类别的交并比优于基准模型(beam、table、bookcase),其中OA为总体分类精度,mAcc为平均分类精度.

表 4   在S3DIS数据集上6折交叉验证的语义分割性能

Tab.4  Semantic segmentation performance on S3DIS dataset with 6-fold cross validation %

方法 OA mAcc mIoU IoU
ceiling floor wall beam column window door table chair sofa bookcase board clutter
PointNet[4] 78.5 66.2 47.6 88.0 88.7 69.3 42.4 23.1 47.5 51.6 42.0 54.1 38.2 9.6 29.4 35.2
A-CNN[13] 87.3 62.9 92.4 96.4 79.2 59.5 34.2 56.3 65.0 66.5 78.0 28.5 56.9 48.0 56.8
PointCNN[10] 88.1 75.6 65.4 94.8 97.3 75.8 63.3 51.7 58.4 57.2 71.6 69.1 39.1 61.2 52.2 58.6
PointWeb[14] 87.3 76.2 66.7 93.5 94.2 80.8 52.4 41.3 64.9 68.1 71.4 67.1 50.3 62.7 62.2 58.5
PointASNL[21] 88.8 79.0 68.7 95.3 97.9 81.9 47.0 48.0 67.3 70.5 71.3 77.8 50.7 60.4 63.0 62.8
本研究 88.2 78.7 68.3 95.1 97.3 81.2 47.4 45.8 67.0 69.1 72.1 77.5 50.6 60.8 62.4 61.6

新窗口打开| 下载CSV


将CAF模型用于中间特征通道权值重分配时,在语义分割任务中的表现不及分类任务.语义分割任务更艰巨,数据集更复杂,针对语义分割的研究也是三维点云深度网络的重要研究方向,如何应用CAF模型提高语义分割性能有待进一步研究.

4. 结 语

本研究提出竞争性注意力融合模块,可以迁移嵌入在不同三维点云分类网络中,通过多层级特征挤压激励子模块和特征内在关联自注意力子模块自适应地对中间特征通道权值重分配,提高网络全局特征提取与表达能力,增强模型对噪声干扰的鲁棒性.实验应用2个基准网络在ModelNet40数据集上进行训练与测试,结果显示竞争性注意力融合模块的加入有助于保持和提高点云分类精度,与基准网络相比可以明显增强模型鲁棒性,对不同数量的点云扰动、离群点、随机噪声都有较强的抗干扰能力.与传统滤波相比,通过端到端的学习减少了训练复杂度,且抗噪性能更优.所提出的模块在语义分割中的表现不及分类任务,如何提高其对语义分割性能的影响有待进一步研究.

参考文献

BU S, LIU Z, HAN J, et al

Learning high-level feature by deep belief networks for 3-D model retrieval and recognition

[J]. IEEE Transactions on Multimedia, 2014, 16 (8): 2154- 2167

DOI:10.1109/TMM.2014.2351788      [本文引用: 1]

SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 945-953.

[本文引用: 1]

WU Z, SONG S, KHOSLA A, et al. 3D shapeNets: a deep representation for volumetric shapes [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1912-1920.

[本文引用: 2]

QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 77-85.

[本文引用: 5]

QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5099-5108.

[本文引用: 6]

GUERRERO P, KLEIMAN Y, OVSJANIKOV M, et al

PCPNET learning local shape properties from raw point clouds

[J]. Computer Graphics Forum, 2018, 37 (2): 75- 85

DOI:10.1111/cgf.13343      [本文引用: 1]

SHEN Y, FENG C, YANG Y, et al. Mining point cloud local structures by kernel correlation and graph pooling [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4548-4557.

[本文引用: 2]

LI J, CHEN B M, LEE G H. SO-Net: self-organizing network for point cloud analysis [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 9397-9406.

[本文引用: 3]

QI C R, LIU W, WU C, et al. Frustum PointNets for 3D object detection from RGB-D data [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 918-927.

[本文引用: 1]

LI Y, BU R, SUN M, et al. PointCNN: convolution on Χ-transformed points [C]// Advances in Neural Information Processing Systems. Montreal: MIT Press, 2018: 828-838.

[本文引用: 3]

LIU Y, FAN B, MENG G, et al. DensePoint: learning densely contextual representation for efficient point cloud processing [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 5238-5247.

[本文引用: 1]

LIU X, HAN Z, LIU Y S, et al. Point2Sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network [C]// Proceedings of the AAAI conference on Artificial Intelligence. Honolulu: AAAI, 2019: 8778-8785.

[本文引用: 3]

KOMARICHEV A, ZHONG Z, HUA J. A-CNN: annularly convolutional neural networks on point clouds [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7413-7422.

[本文引用: 3]

ZHAO H, JIANG L, FU C W, et al. PointWeb: enhancing local neighborhood features for point cloud processing [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5560-5568.

[本文引用: 2]

WANG C, SAMARI B, SIDDIQI K. Local spectral graph convolution for point set feature learning [C]// 15th European Conference on Computer Vision. Munich: Springer, 2018: 56-71.

[本文引用: 1]

TE G, HU W, GUO Z, et al. RGCNN: regularized graph CNN for point cloud segmentation [C]// Proceedings of the 26th ACM international conference on Multimedia. Seoul: ACM, 2018: 746-754.

[本文引用: 1]

LANDRIEU L, SIMONOVSKY M. Large-scale point cloud semantic segmentation with superpoint graphs [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4558-4567.

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998-6008.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 2]

YOU H, FENG Y, JI R, et al. PVNet: a joint convolutional network of point cloud and multi-view for 3D shape recognition [C]// Proceedings of the 26th ACM international conference on Multimedia. Seoul: ACM, 2018: 1310-1318.

[本文引用: 1]

YAN X, ZHENG C, LI Z, et al. PointASNL: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 5588-5597.

[本文引用: 8]

HU Y, WEN G, LUO M, et al. Competitive inner-imaging squeeze and excitation for residual network [EB/OL]. (2018-12-23)[2020-12-29]. https://arxiv.org/abs/1807.08920.

[本文引用: 1]

YI L, KIM V G, CEYLAN D, et al

A scalable active framework for region annotation in 3D shape collections

[J]. ACM Transactions on Graphics, 2016, 35 (6): 210

URL     [本文引用: 1]

ARMENI I, SENER O, ZAMIR A R, et al. 3D semantic parsing of large-scale indoor spaces [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1534-1543.

[本文引用: 1]

/