<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 竞争性注意力融合模块的示意图

Fig.1 Diagram of competitive attention fusion block

1.1. MFSE子模块

在二维图像分类任务中，挤压激励网络 (squeeze-excitation net，SE-Net)^[19]表现卓越，二维注意力机制SE模块基于通道之间的关联自适应地调整通道特征，将SE模块作为独立结构加入多种二维分类网络中能提高网络分类精度.竞争性挤压激励模块 (competitive squeeze-excitation， CMPE-SE)^[22]为了实现更好的映射结构，在SE模块基础上通过合并残差映射和恒等映射的竞争关系，实现二维图像内部特征的重成像，根据具体任务要求，可并列合并或是卷积合并中间融合特征通道,如图2(a)所示. 图中，h、w、 ${C_i}$分别为二维特征图的高度、宽度、通道数.

图 2

图 2 二维和三维挤压激励子模块结构图

Fig.2 Structure of 2D and 3D squeeze-excitation block

CAF模块中的MFSE子模块从二维的CMPE-SE模块中获得启发.无序的三维点云特征表达与规则的二维图像特征图有本质区别，MFSE子模块并非简单使用二维的CMPE-SE模块，根据点云数据结构和三维分类网络的特点，对池化层、特征维度、全连接层、特征融合方式、通道加权等相应进行独立设计与调整.

MFSE子模块的网络结构和具体实现过程如图2(b)所示.

1）并行输入.2个并行的输入特征分别为前一层的中间特征 ${{\boldsymbol{f}}_{\text{1}}} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {C_{\text{1}}}}}$和经过特征提取层后的当前层中间特征 ${{\boldsymbol{f}}_{\text{2}}} \in {{{\bf{R}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$.

2）特征升维. 池化聚合不同通道上的显著特征，分别由全连接层和激活函数得到2组输入的高维特征.特征升维的公式为

(1) $ {\varphi _i}({{\boldsymbol{f}}_i}) = {\phi _i}({P_i}({{\boldsymbol{f}}_i}))/{r_i};\;i = 1,2. $

式中： ${P_i}$为全局特征聚合，如最大池化函数Max pooling； ${\phi _i}$为全连接层（fully connected layer，FC）和Relu激活函数，考虑参数量过大带来的训练困难，设置通道缩放比例 ${r_i}$调节中间通道数，输出特征 ${\varphi _i}$的通道数 ${C_i} \to {C_i}/{r_i}$.

3）特征融合.对2组高维特征融合的公式为

(2) $ F({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) = {\varphi _{\text{1}}}({{\boldsymbol{f}}_1}) \oplus {\varphi _{\text{2}}}({{\boldsymbol{f}}_2}). $

其中 $ \oplus $通过扩展列数按比例连接通道， $F \in {{\rm{{\bf{R}}}}^{{\text{1}} \times C'}}$学习得到不同层级特征的全局高维特征，如图2(b)所示， $C' = {C_1}/{r_1} + {C_2}/{r_2}$.进一步计算得到当前层特征通道的全局注意力权值为

(3) $ {{W}_{{\text{se}}}}({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) = \phi (F({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}})). $

式中： $\phi $为含有归一化函数Sigmoid的全连接层， ${W_{{\text{se}}}}({{\boldsymbol{f}}_{\text{1}}},{{\boldsymbol{f}}_{\text{2}}}) \in {{{{{\bf{R}}}}}^{1 \times {C_{\text{2}}}}}$为最终获得的全局注意力权值.

4）权值扩展. MFSE模块得到的全局注意力权值代表当前层中间特征每个通道对应的得分，得分高的特征通道对下一层训练更有影响力，得分低的代表该通道的特征对网络分类结果作用轻微.为了适配点云数据结构，对全局注意力权值扩展维度，使得维度为样本在当前层的采样点数 $ {N_2} $.

MFSE子模块关注不同层级中间特征的全局影响力，通过竞争性融合2层特征的显著高维特征，计算出全局特征对通道权值的贡献. 该模块有利于提高模型分类结果的稳定性.

1.2. FICSA子模块

为了进一步提高中间特征的表达能力，增强中间特征内在关联对分类结果的影响力，进一步研究使用注意力机制学习中间特征.

CAF模块中的FICSA子模块引入自注意力机制学习中间特征的内部相似度，判断中间特征对分类结果的影响力，获得内在注意力权值. 自注意力机制中通常使用同一个输入计算权值，以此为主要特征区分通用注意力机制. FICSA子模块的不同在于并非在特征抽象层或是自适应采样中使用注意力，而是并行于网络主干，独立学习中间特征的内部关系，参与通道权值重分配. FICSA子模块的网络结构和具体实现过程如图3所示.

图 3

图 3 特征内在关联自注意力子模块结构图

Fig.3 Structure of feature inner connection self-attention block

1）并行卷积. 输入当前层中间特征 ${{\boldsymbol{f}}_{\text{2}}} \in {{{{{\bf{R}}}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$，经过1×1点卷积，将每个点所有通道的特征线性映射至3个并行的高维特征，公式为

(4) $ \left. \begin{gathered} V({{\boldsymbol{f}}_2}) = {w_v} * {{\boldsymbol{f}}_2}, \hfill \\ Q({{\boldsymbol{f}}_2}) = {w_q} * {{\boldsymbol{f}}_2}, \hfill \\ K({{\boldsymbol{f}}_2}) = {w_k} * {{\boldsymbol{f}}_2}. \hfill \\ \end{gathered} \right\} $

式中： $ V $、 $ Q $、 $ K $分别为3个独立的特征映射函数； $ {w_i} $为不同的线性转换系数，含义为在特征通道 ${C_{\text{2}}}$维度上作1×1点卷积，卷积核个数为 ${C_{\text{2}}}$，获得3个对应的高级特征，维度均为 ${N_{\text{2}}} \times {C_{\text{2}}}$.

2）相似度计算. 通过点积运算获得 $ Q $、 $ K $之间的关联，公式为

(5) $ A({{\boldsymbol{f}}_2}) = \gamma [Q({{\boldsymbol{f}}_2}){K^{\rm{T}}}({{\boldsymbol{f}}_2})/\sqrt C ] . $

式中： $ A $为中间特征内部高维度关系； $ \gamma $为聚合功能，如Softmax归一化函数； $ \sqrt C $为可选通道缩放比例系数，设置目的是减少训练参数量. 获得表征点与点之间特征内在关联的全局注意力权值 ${W_{{\text{sa}}}}({{\boldsymbol{f}}_2}) \in {{{\bf{R}}}^{{N_2} \times {C_{\text{2}}}}}$，公式为

(6) $ {{{W}}_{{\text{sa}}}}({{\boldsymbol{f}}_2}) = \gamma (A({{\boldsymbol{f}}_2})V({{\boldsymbol{f}}_2})). $

式中： $ V $用于调节 $ A $的特征通道维度. 如图3所示，经由式（5）运算后，输出特征维度为 ${N_{\text{2}}} \times {N_{\text{2}}}$， $ V $将输出特征维度调整为 ${N_{\text{2}}} \times {C_{\text{2}}}$.

FICSA子模块关注中间特征内在相似度，通过该模块提高网络对全局特征的提取能力，从另一角度获得全局特征对通道权值的贡献. 该模块有利于提高模型抵抗噪声的鲁棒性.

1.3. CAF模块

CAF模块主要由MFSE子模块和FICSA子模块构成，2个子模块并行独立学习，竞争性特征融合，引入残差学习，对特征通道权值重分配：

(7) $ {{\boldsymbol{W}}_{{\rm{CAF}}}} = \alpha {{{W}}_{{\text{se}}}}({{\boldsymbol{f}}_1},{{\boldsymbol{f}}_2}){\text{ + }}\beta {W_{{\text{sa}}}}({{\boldsymbol{f}}_2}) . $

式中： $ \alpha 、\beta $分别为全局注意力权值 ${W_{{\text{se}}}}$、 ${W_{{\text{sa}}}}$的比例系数，取值根据不同数据集样本的特点，通过实验进行调整，通常情况下可设置为1∶1. MFSE子模块用于维持分类精度稳定不下降，FICSA子模块增强模型鲁棒性，若点云噪声干扰较多可调整 $ \alpha < \beta $，反之可调整为 $ \alpha > \beta $.

通过矩阵加法，将2种全局注意力权值按不同比例系数 $ \alpha 、\beta $融合后，获得最终权值分配系数 ${{\boldsymbol{W}}_{{\rm{CAF}}}} \in {{{\bf{R}}}^{{N_2} \times {C_{\text{2}}}}}$，该系数包含对多层级特征的全局学习和内在特征相似性度量，两组权值竞争性地提供对特征通道的优化方案.通过权值重分配和残差连接得到新的中间特征 ${\boldsymbol{f}}_2^* \in {{{\bf{R}}}^{{N_{\text{2}}} \times {C_{\text{2}}}}}$：

(8) $ {\boldsymbol{f}}_2^* = {{\boldsymbol{f}}_2} + {{\boldsymbol{W}}_{{\rm{CAF}}}}{{\boldsymbol{f}}_2} . $

2. 基于CAF模块的点云分类网络结构

三维点云分类网络一般通过2层或多层的特征提取层获得样本的高维特征，通过池化层获得全局特征，通过全连接层学习得到点云的分类得分. 其中前半部分的高维特征提取是分类网络的核心，决定模型的信息分析能力、分类准确度、鲁棒性等评价指标.

实际点云中的噪声干扰包括扰动和离群点，常表现为样本部分点集的位置偏移，存在背景噪声. 在测试模型时噪声点集同样被视为样本的一部分，影响样本的分类结果. CAF模块在网络中的作用是通过调节中间特征通道的权值，使模型更关注决定样本类型的核心特征. 2个子模块从多层级的全局特征和中间特征的内部关联2个不同角度学习，得到更有助于聚焦核心通道的权值，提高网络对全局特征学习能力，加强模型的抗干扰能力，对解决点云深度网络中的难点问题提供帮助.

CAF模块可作为独立优化模块迁移应用于相似的三维点云分类网络框架中，如图4所示的方式嵌入网络. 点云样本初始特征通常为法线向量 ${{\boldsymbol{F}}_0} \in {{{\bf{R}}}^{{N_{\text{0}}} \times {\text{3}}}}$，经过特征提取层后输出中间特征 ${{\boldsymbol{F}}_1} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {{\text{C}}_{\text{1}}}}}$. 取消原网络特征提取层的输出连接. 通过CAF模块对 ${{\boldsymbol{F}}_1}$特征通道权值重分配后，得到新的中间特征 ${\boldsymbol{F}}_1^{\text{*}} \in {{{\bf{R}}}^{{N_{\text{1}}} \times {{\text{C}}_{\text{1}}}}}$，并作为下个特征提取层和第2个CAF模块的输入. 经过2层特征提取与通道权值重分配后，由池化层获得全局特征并经过全连接层计算分类得分. 在不同的网络中应用时，对具体分类网络理论分析其特征提取层的实现方式，根据任务目标对应调整CAF模块中2个子模块的权值分配比例，以此获得性能更佳的网络结构.

图 4

图 4 基于CAF模块的三维点云分类网络框架

Fig.4 3D point cloud classification network framework based on CAF block

3. 实验及结果分析

在三维点云数据集ModelNet40^[3]上进行分类实验、鲁棒性分析与对比，其中包括9 843个训练样本和2 468个测试样本，所有样本共分为40个类别. 此外，实验分析子模块的必要性，并进行语义分割实验. 所有实验都以Tensorflow为平台，应用1个GTX 2080Ti GPU.

实验分别在经典基准网络Pointnet++和基准网络PointASNL上验证CAF模块的有效性和可迁移性. 结果显示加入CAF模块后，能在保持分类结果的平均精确度不降低的情况下，增强网络对点云扰动、离群点、随机噪声的抗干扰能力. 通过调整训练样本输入点数可以在保持分类精度稳定的同时，进一步提高模型的鲁棒性.

经过多次实验，训练参数设置如下：式（1）中通道缩放比例 ${r_i}$均设为4，式（7）中权值融合比例 $ \alpha 、\beta $均设为1. 除非特别说明，当本研究中的基准网络为Pointnet++时，输入点数1 024个，批处理大小为16，结果应用12次测试平均值；当基准网络为PointASNL时，输入点数1 024个，批处理大小为24，结果应用5次测试平均值.

3.1. 形状分类

在Pointnet++中加入CAF模块，训练和测试中均加入法线向量，测试时随机旋转点云以模拟真实场景. 由于文献[5]中没有提供最优训练模型（输入点数为5 000，最优精度为91. 9%）详细的训练参数，本研究复现文献[5]的最优分类精度为90. 7%，加入CAF模块后平均分类精度为91. 0%，分类精度的提高证明了CAF模块的有效性和可行性.

在PointASNL中加入CAF模块，只输入坐标点时，分类精度为92.9%（92.88%），不低于文献[21]中的92.9%（实际测试最优分类精度为92.85%）；训练和测试中加入法线向量时，分类精度为93.2%（93.19%），不低于文献[21]中的93.2%（实际测试最优分类精度为93.15%），如表1所示.表中，N_in为输入点数，Acc为分类精度，Pnt为输入三维点云坐标数据，Noml为输入三维点云法线向量. 实验结果证明CAF模块具有独立性和可迁移性，并对保持分类精度有一定帮助.

表 1 在ModelNet40数据集上的平均分类精度

Tab.1 Average classification accuracy on ModelNet40 dataset

方法	输入	N_in/10³	Acc/%
PointNet^[4]	Pnt	1	89.2
SO-Net^[8]	Pnt,Noml	2	90.9
PointNet++^[5]	Pnt,Noml	5	91.9
PointCNN^[10]	Pnt	1	92.2
Point2Sequence^[12]	Pnt	1	92.6
A-CNN^[13]	Pnt,Noml	1	92.6
PointASNL^[21]	Pnt	1	92.9(92.85)
PointASNL^[21]	Pnt,Noml	1	93.2(93.15)
本研究	Pnt	1	92.9(92.88)
本研究	Pnt,Noml	1	93.2(93.19)

3.2. 鲁棒性分析

CAF模块对分类网络最大的贡献在于提高模型对噪声干扰的抵抗力，增强模型的鲁棒性.许多分类模型仅考虑完整点云数据集上的性能，未考虑实际情况中极大可能存在随机背景噪声和扰动，因此一些具有优秀分类性能的模型并不一定具备较强的抗干扰能力.

3.2.1. 点云噪声：扰动和离群点

在实际点云数据采集中，受限于采集场景、传感器精度的问题，采集的点云往往是无序且嘈杂的，点云噪声通常包括扰动和离群点.扰动表示在采样平面上下一定范围内波动的数据点，离群点表示随机出现在空间任意位置的异常值.

实验中，在点云上加入高斯噪声模拟扰动，采用标准正态分布；在点云上加入随机噪声模拟离群点，噪声点的 ${x、y、z \in}{[-1.0,1.0]}$.以PointASNL为基准网络，实验CAF模块对扰动和离群点的抵抗能力，使用训练好的模型进行测试，结果如图5所示. 图中，n为噪声点数. 加入CAF模块后，模型对点云扰动和离群点2种噪声类型的抗干扰性能有明显提高.

图 5

图 5 CAF模块对不同噪声类型的抗干扰性能

Fig.5 Anti-jamming performance of CAF block against different noise types

3.2.2. 模型鲁棒性

为了进一步实验CAF模块对模型鲁棒性的影响，参照PointASNL^[21]和KCNet^[7]中测试模型鲁棒性的方法，将一定数量的原始点集替换为 ${x、y、z \in}{[-1.0,1.0]} $的随机噪声，模拟同时存在数据丢失和噪声干扰的情况，随机噪声数量n分别为0、1、10、50、100.

图6(a)所示为加入CAF模块的Pointnet++网络与原网络在存在随机噪声测试集上的分类精度. 结果显示随着噪声数量的增加，加入CAF模块的网络分类精度下降趋势更缓，模型鲁棒性有明显提高.

图 6

图 6 CAF模块对模型鲁棒性的影响

Fig.6 Influence of CAF block on model robustness

在PointASNL网络中加入CAF模块进行鲁棒性实验，为了测试不同数量输入点数对CAF模块抗干扰性能的影响，输入点云数分别设置为1 024（1 k）、2 048（2 k）、3 000（3 k），实验结果如图6(b)所示. 可以看出，对输入1 024个点训练的模型，在同等条件下，加入CAF模块后，网络抗干扰能力在不同数量的随机噪声下均有提升. 若考虑将模型应用于丢失点集与随机噪声多的实况点云中，适当增加输入点数可以在保持分类性能稳定的情况下获得更好的抗干扰能力. 随着干扰点数量的增加，CAF使用2 048和3 000个输入点进行训练时，相较于1 024个输入点，CAF模块表现出更强的分类性能和鲁棒性.

为了进一步验证CAF模块对模型鲁棒性的贡献，在含CAF模块的PointASNL网络上对极限抗干扰能力和分类性能进行实验，如图6(c)所示.对比图6(a)、(c)，若以分类精度50%为含噪点云能接受的极限情况，当训练点数1 024个时，Pointnet++只容许含有（50±5）个干扰点，加入CAF模块后容许含有（90±5）个干扰点，PointASNL容许240±5个，加入CAF模块后容许280±5个，增加训练点数可以提高干扰点容忍数为300±5个.

3.2.3. 对比实验

传统点云滤波方法有以下几种. 1）直通滤波. 根据坐标轴滤除范围外的点，依据点云具体情况设置参数. 2)半径滤波. 以某点为中心计算一定半径内的点密度，根据密度决定是否剔除该点. 3）双边滤波. 将点之间的距离和空间结构相结合，只适用于有序点云. 4）体素滤波. 使用AABB包围盒将点云体素化，根据体素网格去除噪声. 5）统计滤波. 计算每个点到k个近邻点的距离分布，常用于剔除明显离群点或是测量误差导致的扰动点.

采用无序点云作为输入，在传统预处理过程中，对此类点云常用以统计滤波为主的方法进行滤波. 为了对比CAF模块与传统滤波方法在抗噪性能上的表现，以PointASNL为基准网络，分别加入体素滤波、统计滤波、综合滤波方法、CAF模块, 进行对比实验. 综合滤波方法设计为先通过半径滤波粗剪除离群点，再通过统计滤波滤除扰动点. 通过点云处理库（point cloud library，PCL）进行预处理.

1）抗噪性能. 如图7所示，体素滤波在滤除噪声的同时滤除密集点云处的少量关键点，影响模型的分类精度. 统计滤波一定程度上减少了噪声干扰，但对提高模型鲁棒性作用较小. 综合滤波相较于统计滤波更进一步提高了模型鲁棒性. CAF模块与传统滤波相比对提高模型鲁棒性的作用更明显. 应用综合滤波和CAF模块的模型与只加入CAF模块的模型抗噪性能相近，CAF模块起主导作用. 从分类精度上看，同一噪声点数情况下，CAF模块>综合滤波>统计滤波>体素滤波，因此CAF模块的引入能够较大地提高网络抗噪性能. 从噪声点数上看，在保持同样分类精度的情况下，CAF能够抵抗更多的噪声点干扰，因而网络的鲁棒性更强.

图 7

图 7 CAF模块与传统滤波的抗干扰性能对比

Fig.7 Comparison of anti-jamming performance between CAF block and traditional filtering

2）时间复杂度. 传统滤波是对全体原始数据进行单独预处理，计算量耗费较大，且脱离网络，是独立的处理部分，在处理任意新输入数据时，都要进行独立滤波处理. CAF模块嵌入在网络中，实现端到端的训练与测试，以极少的计算量与较低的时间复杂度，获得比传统滤波更好的抗噪性能. 以ModelNet40中标准飞机模型为例，该模型共拥有10 000个数据点，引入标准正态分布的高斯噪声. 使用基准模型PointASNL对单个飞机模型测试时，耗费时间为51. 60 ms. 分别利用体素滤波、统计滤波、综合滤波（半径滤波+统计滤波）对加入噪声的点云数据进行预处理，并输入网络进行特征提取与分类，单个含噪飞机模型的测试时间增量分别为54. 30、60. 71、84. 24 ms. 最后，将无预处理的飞机模型噪声数据输入带CAF模块的基准网络中进行测试，测试时间增量为15. 50 ms. 四者相比，带有CAF模块的网络运行时间相较于传统滤波大大缩短. 在实际使用中，CAF模块既兼顾了分类准确率，又保证了一定的实时性.

3.3. 子模块必要性

为了验证CAF模块2个独立子模块设计的必要性，单独应用MFSE子模块和FICSA子模块于基准网络PointASNL中，使用完成训练的模型进行对比实验. 实验结果如图8、表2所示. 虽然应用MFSE子模块的网络维持了无噪声情况下的分类精度不下降，但是抵抗干扰的能力随着噪声点数的增多而迅速下降.由表可知，应用FICSA子模块的网络对较多数量噪声干扰的抵抗能力比基准网络的强，但在无噪声或少量噪声时分类精度有所降低.同时应用2个子模块即CAF模块的网络可以在保持平均分类精度不下降的情况下，增强模型抵抗噪声干扰的能力.

图 8

图 8 独立子模块对模型鲁棒性的影响

Fig.8 Influence of independent sub blocks on model robustness

表 2 独立子模块对模型抗干扰性能的影响

Tab.2 Influence of independent sub blocks on anti-jamming performance of model

n	Acc
n	Base	Base+MFSE	Base+FICSA	Base+CAF
%
0	93.2	93.2	92.6	93.2
1	92.1	91.7	91.8	92.3
10	88.3	86.5	89.8	89.1
50	78.1	74.0	80.1	81.9
100	71.1	60.6	72.5	74.8

设计MFSE子模块是为了维持分类精度稳定不下降，设计FICSA子模块是为了增强模型鲁棒性，两者独立应用时各有优缺点，CAF模块保留2个子模块的优秀性能，避免各自缺陷带来的不良影响.

3.4. 语义分割

将CAF模块应用于三维点云分割网络中，以PointASNL为基准网络，将CAF模块嵌入在特征提取层中间，进行语义分割实验.

在数据集ShapeNet Part^[23]上进行语义零件分割，包括16个类别，50个零件，共计16 881个样本. 随机采样2 048个点作为输入，批处理大小为16，实验结果如表3所示. 结果显示本实验平均交并比mIoU接近基准网络水平，在部分类别上的分割性能（交并比IoU）优于基准模型（areo、earphone、guitar、lamp、mug、pistol）.

表 3 在ShapeNetPart数据集上的零件分割性能

Tab.3 Part segmentation performance on ShapeNetPart dataset %

方法	mIoU	IoU
方法	mIoU	areo	bag	cap	car	chair	ear phone	guitar	knife	lamp	laptop	motor	mug	pistol	rocket	skate board	table
PointNet^[4]	83.7	83.4	78.7	82.5	74.9	89.6	73.0	91.5	85.9	80.8	95.3	65.2	93.0	81.2	57.9	72.8	80.6
SO-Net^[8]	84.9	82.8	77.8	88.0	77.3	90.6	73.5	90.7	83.9	82.8	94.8	69.1	94.2	80.9	53.1	72.9	83.0
PointNet++^[5]	85.1	82.4	79.0	87.7	77.3	90.8	71.8	91.0	85.9	83.7	95.3	71.6	94.1	81.3	58.7	76.4	82.6
P2Sequence^[12]	85.2	82.6	81.8	87.5	77.3	90.8	77.1	91.1	86.9	83.9	95.7	70.8	94.6	79.3	58.1	75.2	82.8
PointCNN^[10]	86.1	84.1	86.5	86.0	80.8	90.6	79.7	92.3	88.4	85.3	96.1	77.2	95.2	84.2	64.2	80.0	83.0
PointASNL^[21]	86.1	84.1	84.7	87.9	79.7	92.2	73.7	91.0	87.2	84.2	95.8	74.4	95.2	81.0	63.0	76.3	83.2
本研究	85.9	84.2	83.2	87.4	79.2	91.9	74.3	91.5	86.4	84.3	95.7	73.7	95.4	82.6	62.4	75.0	82.7

在室内场景数据集S3DIS^[24]上进行语义场景分割，包括从3个建筑的6个区域中获得的271个房间，每个点都有一个语义标签将其划分为13类物体之一. 实验在6个区域上采用6折交叉验证比较平均交并比，实验结果如表4所示. 结果显示本实验场景分割性能略低于基准模型，部分类别的交并比优于基准模型（beam、table、bookcase），其中OA为总体分类精度，mAcc为平均分类精度.

表 4 在S3DIS数据集上6折交叉验证的语义分割性能

Tab.4 Semantic segmentation performance on S3DIS dataset with 6-fold cross validation %

方法	OA	mAcc	mIoU	IoU
方法	OA	mAcc	mIoU	ceiling	floor	wall	beam	column	window	door	table	chair	sofa	bookcase	board	clutter
PointNet^[4]	78.5	66.2	47.6	88.0	88.7	69.3	42.4	23.1	47.5	51.6	42.0	54.1	38.2	9.6	29.4	35.2
A-CNN^[13]	87.3	−	62.9	92.4	96.4	79.2	59.5	34.2	56.3	65.0	66.5	78.0	28.5	56.9	48.0	56.8
PointCNN^[10]	88.1	75.6	65.4	94.8	97.3	75.8	63.3	51.7	58.4	57.2	71.6	69.1	39.1	61.2	52.2	58.6
PointWeb^[14]	87.3	76.2	66.7	93.5	94.2	80.8	52.4	41.3	64.9	68.1	71.4	67.1	50.3	62.7	62.2	58.5
PointASNL^[21]	88.8	79.0	68.7	95.3	97.9	81.9	47.0	48.0	67.3	70.5	71.3	77.8	50.7	60.4	63.0	62.8
本研究	88.2	78.7	68.3	95.1	97.3	81.2	47.4	45.8	67.0	69.1	72.1	77.5	50.6	60.8	62.4	61.6

将CAF模型用于中间特征通道权值重分配时，在语义分割任务中的表现不及分类任务.语义分割任务更艰巨，数据集更复杂，针对语义分割的研究也是三维点云深度网络的重要研究方向，如何应用CAF模型提高语义分割性能有待进一步研究.

4. 结　语

本研究提出竞争性注意力融合模块，可以迁移嵌入在不同三维点云分类网络中，通过多层级特征挤压激励子模块和特征内在关联自注意力子模块自适应地对中间特征通道权值重分配，提高网络全局特征提取与表达能力，增强模型对噪声干扰的鲁棒性.实验应用2个基准网络在ModelNet40数据集上进行训练与测试，结果显示竞争性注意力融合模块的加入有助于保持和提高点云分类精度，与基准网络相比可以明显增强模型鲁棒性，对不同数量的点云扰动、离群点、随机噪声都有较强的抗干扰能力.与传统滤波相比，通过端到端的学习减少了训练复杂度，且抗噪性能更优.所提出的模块在语义分割中的表现不及分类任务，如何提高其对语义分割性能的影响有待进一步研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BU S, LIU Z, HAN J, et al

Learning high-level feature by deep belief networks for 3-D model retrieval and recognition

[J]. IEEE Transactions on Multimedia, 2014, 16 (8): 2154- 2167

DOI:10.1109/TMM.2014.2351788 [本文引用: 1]

[2]

SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 945-953.

[3]

WU Z, SONG S, KHOSLA A, et al. 3D shapeNets: a deep representation for volumetric shapes [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1912-1920.

[4]

QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 77-85.

[本文引用: 5]

[5]

QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5099-5108.

[本文引用: 6]

[6]

GUERRERO P, KLEIMAN Y, OVSJANIKOV M, et al

PCPNET learning local shape properties from raw point clouds

[J]. Computer Graphics Forum, 2018, 37 (2): 75- 85

DOI:10.1111/cgf.13343 [本文引用: 1]

[7]

SHEN Y, FENG C, YANG Y, et al. Mining point cloud local structures by kernel correlation and graph pooling [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4548-4557.

[8]

LI J, CHEN B M, LEE G H. SO-Net: self-organizing network for point cloud analysis [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 9397-9406.

[9]

QI C R, LIU W, WU C, et al. Frustum PointNets for 3D object detection from RGB-D data [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 918-927.

[10]

LI Y, BU R, SUN M, et al. PointCNN: convolution on Χ-transformed points [C]// Advances in Neural Information Processing Systems. Montreal: MIT Press, 2018: 828-838.

[11]

LIU Y, FAN B, MENG G, et al. DensePoint: learning densely contextual representation for efficient point cloud processing [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 5238-5247.

[12]

LIU X, HAN Z, LIU Y S, et al. Point2Sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network [C]// Proceedings of the AAAI conference on Artificial Intelligence. Honolulu: AAAI, 2019: 8778-8785.

[13]

KOMARICHEV A, ZHONG Z, HUA J. A-CNN: annularly convolutional neural networks on point clouds [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7413-7422.

[14]

ZHAO H, JIANG L, FU C W, et al. PointWeb: enhancing local neighborhood features for point cloud processing [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5560-5568.

[15]

WANG C, SAMARI B, SIDDIQI K. Local spectral graph convolution for point set feature learning [C]// 15th European Conference on Computer Vision. Munich: Springer, 2018: 56-71.

[16]

TE G, HU W, GUO Z, et al. RGCNN: regularized graph CNN for point cloud segmentation [C]// Proceedings of the 26th ACM international conference on Multimedia. Seoul: ACM, 2018: 746-754.

[17]

LANDRIEU L, SIMONOVSKY M. Large-scale point cloud semantic segmentation with superpoint graphs [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4558-4567.

[18]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998-6008.

[19]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[20]

YOU H, FENG Y, JI R, et al. PVNet: a joint convolutional network of point cloud and multi-view for 3D shape recognition [C]// Proceedings of the 26th ACM international conference on Multimedia. Seoul: ACM, 2018: 1310-1318.

[21]

YAN X, ZHENG C, LI Z, et al. PointASNL: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 5588-5597.

[本文引用: 8]

[22]

HU Y, WEN G, LUO M, et al. Competitive inner-imaging squeeze and excitation for residual network [EB/OL]. (2018-12-23)[2020-12-29]. https://arxiv.org/abs/1807.08920.

[23]

YI L, KIM V G, CEYLAN D, et al

A scalable active framework for region annotation in 3D shape collections

[J]. ACM Transactions on Graphics, 2016, 35 (6): 210

URL [本文引用: 1]

[24]

ARMENI I, SENER O, ZAMIR A R, et al. 3D semantic parsing of large-scale indoor spaces [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1534-1543.