浙江大学学报(工学版), 2023, 57(5): 875-882 doi: 10.3785/j.issn.1008-973X.2023.05.003

计算机技术与控制工程

ASIS模块支持下融合注意力机制KNN的点云实例分割算法

项学泳,, 王力, 宗文鹏, 李广云,

1. 信息工程大学 地理空间信息学院,河南 郑州 450001

2. 地理信息工程国家重点实验室,陕西 西安 710054

Point cloud instance segmentation based on attention mechanism KNN and ASIS module

XIANG Xue-yong,, WANG Li, ZONG Wen-peng, LI Guang-yun,

1. Institute of Geospatial Information, Information Engeering University, Zhengzhou 450001, China

2. State Key Laboratory of Geo-Information Engineering, Xi’an 710054, China

通讯作者: 李广云,男,教授. orcid.org/0000-0003-4068-8834. E-mail: guangyunli_chxy@163.com

收稿日期: 2022-05-5  

基金资助: 国家自然科学基金资助项目(42071454);地理信息工程国家重点实验室自主研究课题资助项目(SKLGIE2021-ZZ-5)

Received: 2022-05-5  

Fund supported: 国家自然科学基金资助项目(42071454);地理信息工程国家重点实验室自主研究课题资助项目(SKLGIE2021-ZZ-5)

作者简介 About authors

项学泳(1994—),男,博士生,从事三维场景识别研究.orcid.org/0000-0001-9314-5732.E-mail:ahhsxxy@163.com , E-mail:ahhsxxy@163.com

摘要

针对基于3D卷积的点云实例分割算法的分割结果离散化、特征利用不充分的问题,提出具有注意力机制(KNN)模块和改进的实例语义关联(ASIS)模块的点云实例分割模型. 模型以体素作为输入,通过3D子流形稀疏卷积提取点特征. 利用具有注意力机制的KNN算法,对语义、实例特征空间的特征进行重组,以缓解提取到的特征离散化问题. 通过改进的ASIS模块,对重组后的语义、实例特征相互关联以增强点特征间的区分度. 对于语义特征与实例嵌入,分别应用Softmax模块、MeanShift算法获得语义与实例分割结果,采用S3DIS公开数据集对所提模型进行验证. 实验结果表明,所提模型的实例分割结果在平均实例覆盖率(mCov)、平均加权实例覆盖率(mWCov)、平均精确率(mPrec)、平均召回率(mRec)衡量指标上分别达到了53.1%、57.1%、65.2%与52.8%;语义分割结果在平均交并比和总体精度上分别达到了61.7%、88.1%. 消融实验结果验证了所提模块的有效性.

关键词: 点云 ; 体素 ; 实例分割 ; 注意力机制 ; 子流形

Abstract

A point cloud instance segmentation model with a k-nearest neighbors (KNN) module featuring attention mechanism and an improved associatively segmenting instances and semantics (ASIS) module was proposed to address the problems of discrete segmentation and insufficient feature utilization in traditional 3D convolution-based algorithms. The model took voxels as input and extracted point features through sparse convolution of 3D submanifolds. The KNN algorithm with attention mechanism was used for reorganizing the features in the semantic and instance feature space to alleviate the problem caused by the quantization error of extracted features. The reorganized semantic and instance features were correlated through the improved ASIS module to enhance the discrimination between point features. For semantic features and instance embedding, the softmax module and the meanshift algorithm were applied to obtain semantic and instance segmentation results respectively. The public S3DIS dataset was employed to validate the proposed model. The experimental results showed that the instance segmentation results of the proposed model achieved 53.1%, 57.1%, 65.2% and 52.8% in terms of mean coverage (mCoV), mean weighted coverage (mWCov), mean precision (mPrec) and mean recall (mRec) for the instance segmentation. The semantic segmentation achieved 61.7% and 88.1% respectively in terms of mean intersection over union (mIoU) and Over-all accuracy (Oacc) for the semantic segmentation. The ablation experiment verified the effectiveness of the proposed modules.

Keywords: point cloud ; voxel ; instance segmentation ; attention mechanism ; submanifold

PDF (2097KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

项学泳, 王力, 宗文鹏, 李广云. ASIS模块支持下融合注意力机制KNN的点云实例分割算法. 浙江大学学报(工学版)[J], 2023, 57(5): 875-882 doi:10.3785/j.issn.1008-973X.2023.05.003

XIANG Xue-yong, WANG Li, ZONG Wen-peng, LI Guang-yun. Point cloud instance segmentation based on attention mechanism KNN and ASIS module. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(5): 875-882 doi:10.3785/j.issn.1008-973X.2023.05.003

点云实例分割是一种比点云语义分割[1]和点云目标检测[2]更复杂的任务,它能在点级别上切分出场景中的每一个目标物以及它们所属的语义类别[3],而语义分割对同一类别的物体不可再分,目标检测仅仅输出目标框的参数,对于目标框内的点无法区分类别. 对于点云实例分割结果简单分析可以获得目标物的位置、尺寸、表面形态等信息,在智慧城市、遥感信息提取与无人系统智能驾驶等科学与工程研究中发挥着重要的作用[4-5].

在深度学习领域,点云实例分割算法可分为区域提议算法[6-7]和无区域提议算法[8-13] 2大类. 区域提议算法通过目标检测网络获取实例候选区域,再通过掩码分割去除背景点[3]得到实例标签. 这类算法通常具有较高的精度,由于融合了提案生成网络与掩码分割网络,往往需要通过多阶段训练,实现过程较为复杂. 相比而言,无区域提议算法将实例分割问题转换为嵌入空间的聚类问题,实现过程相对简单,并且不存在因候选区域重叠带来分类模糊的问题,因此具有较好的应用前景.

相关学者对无区域提议的实例分割算法开展了广泛研究. Wang等[8]通过学习点特征,并依据特征计算点间相似度,将相似度接近的点进行合并,获得实例分割结果;Wang等[9]提出点云语义与实例空间的关联模块,将语义、实例特征空间加以关联实现二者的联合分割;Pham等[10]以改进的PointNet[14]作为主干网络提取语义特征与实例嵌入,通过多值条件随机场与变分推断法优化模型以获得语义与实例分割结果. 不同于语义分割关注于局部几何特征的提取,点云实例分割更加注重全局特征的提取[12],而以上述文献为代表的算法均以块状点云作为输入,在一定程度上“割裂”场景中的全局特征. 此外,跨越不同块的实例需要额外的后处理算法[8]进行合并,影响模型的运算效率. Lahoud等[11]以整个场景的体素作为输入,通过3D稀疏卷积[15-16]提取点的语义特征、实例嵌入与方向特征并加以组合实现实例分割;Du等[12]基于3D 语义分割网络建立多尺度结构实现实例分割;Pan等[13]将语义类别的体素分割结果投影为图像并输入2D实例分割网络,再将实例分割结果投影至点云空间. 上述方法未对体素深入处理,导致分割结果离散化. 相关研究表明,点云的语义与实例特征空间有一定相关性,对语义特征与实例特征进行关联具有重要意义[9-10].

基于上述分析,本研究采用子流形稀疏卷积网络作为主干网络,在提取点特征的同时保留场景的全局信息,为了克服提取到的特征离散化问题,提出具有注意力机制的KNN(k-nearest neighbors)模块[17-18]. 对于Wang等[9]提出的ASIS(associatively segmenting instances and semantics)模块加以改进,实现语义与实例特征空间相互关联与优势互补,以增强点之间的区分度,进一步改善模型分割结果.

1. 研究方法

1.1. 模型架构

提出的ASIS模块支持下融合注意力机制的点云实例分割模型由图1所示. 可以看出,网络整体结构由1个主干网络和2个分支网络构成. 将维度为 $ N \times 6 $点云输入至主干网络, $ N $为点个数. 主干网络用于提取逐点特征,输出的点特征维度为F. 一个分支网络进行语义标签预测,另一个分支网络生成实例分割结果. 主干网络采用3D子流形稀疏卷积网络,该网络可在提取点云场景全局特征的前提下,有效克服传统3D卷积的高计算量问题,之后将提取到的逐点特征输入至语义分割与实例分割2个分支网络,并通过提出具有注意力机制的KNN模块对特征进行聚合操作,分别得到维度为 $ {F_1} $的语义特征和维度为 $ {F_2} $的实例特征. 并利用改进的ASIS模块做进一步的处理,最终语义分支网络输出 $ N \times C $的特征向量,其中 $ C $为点云语义类别数,实例分支网络输出 $ N \times E $的实例嵌入. 其中E为实例嵌入的维度.

图 1

图 1   所提模型整体结构

Fig.1   Overall architecture of proposed network


在训练过程中,语义分割通过传统的交叉熵损失函数获取损失值进行监督训练,实例分割基于度量学习的原理进行训练. 度量学习理论最早出现在图像实例分割[19-20]算法中,基本思想是对于同一个实例内的点,默认属性相近,点特征向量之间的差异应当尽量小;属于不同实例的点,默认属性不同,点特征向量之间的差异应较大. 制定基于度量学习损失函数为

$ L_{\text{ins}} = {L_{\text{A}}}{\text+}{L_{\text{B}}} . $

式中: $ {L_{\text{A}}} $为实例内损失函数,表示同一实例的点应相互靠近; $ {L_{\text{B}}} $为实例间的损失函数,表示不同实例的几何中心应当保持一定的距离.

在测试过程中,实例分支网络输出预测的实例嵌入值,通过mean-shift算法[21]对实例嵌入进行聚类获取每个实例. 实例的语义类别由该实例内点数占主导的语义标签所决定.

1.2. 具有注意力机制的KNN模块

主干网络为3D子流形稀疏卷积网络,虽然可以提取全局特征、缓解传统3D-CNN的高计算量的问题,与其他3D-CNN相同,输出的仍是体素特征,即每个体素内的点的特征向量相同. 在现实场景中,地物的分布是连续的,因此包括3D子流形稀疏卷积网络在内的所有3D-CNN普遍会存在特征分布不连续的问题.

解决该问题的核心在于体素内部的点特征要有区分度,为了达到这一目的须从2个方面考虑:1)算法需要在点级别进行操作才可以改善这一问题,通过一般KNN算法直接以邻居点的特征求均值并与原中心点特征合并,作为新的中心点特征;2)在上一条件的基础上,中心点与邻居点的语义、实例类别可能不同,直接聚合会给中心点特征带来负面影响. 从文献[17]、[18]引入具有注意力机制的KNN模型,该模型依据中心点特征与邻居点特征的相关度计算关联度值,再将每个中心点-邻域点点对的关联度值和邻域点特征值做加权求和,最后将加权求和的特征与原中心点特征合并作为新的中心点特征:

$ {\boldsymbol{f}}' = \sum\limits_{i = 1}^k {{{\hat w}_i}{{\boldsymbol{f}}_i}} +{\boldsymbol{f}} . $

式中: $ {\boldsymbol{f}}' $为新的中心点特征; $ {\boldsymbol{f}} $为原中心点特征; $ {{\boldsymbol{f}}_i} $为邻居点特征; $ {\hat w_i} $为权重,表述了中心点与邻域点之间的关联度.

$ \left.\begin{array}{l}{w}_{i}=\text{FC}({\boldsymbol{f}},{{\boldsymbol{f}}}_{i})\text{,}\\ {\hat{w}}_{i}=\text{softmax (}{w}_{i}\text{)}\text{.}\end{array}\right\} $

式中: $ {\text{FC}} $采用全连接神经网络[22],并利用softmax函数[23]对计算的权值做归一化处理,以使聚合后的中心点特征统计分布更加合理.

在实验过程中,仅仅以中心点和邻域点的特征向量作为输入计算式(3)中权值仍不能得到准确的关联度. 通过观察,物体在体素中的分布存在4种情况:1)同一物体处在同一体素内;2)同一物体处在不同体素内;3)不同物体处在不同体素内;4)不同物体处在同一体素内. 对应的分布状态分别如图2的所标注数字1、2、3、4所示. 在情况4中,当中心点与邻域点处同一体素内,由主干网络计算出2个点特征相同. 通过式(3)计算,可得两点之间具有强相互关系,但两点属于不同物体,情况2同理. 针对该问题,在点特征的基础上,额外加入原始点坐标、颜色信息作为全连接网络的输入. 在现实环境中,任一物体都有特定的空间位置、几何结构与颜色,以此获取更为合理的中心点与邻域点的相联关系.

图 2

图 2   具有注意力机制的KNN模型

Fig.2   KNN model with attention mechanism


1.3. 改进后的ASIS模块

从语义分割与实例分割概念出发不难得出,属于不同语义类别的点必然不属于同一实例,而属于同一实例的点则必然属于同一语义类别,说明语义分割与实例分割2种任务间存在一定关联性. 为了利用这种关联性,文献[9]提出ASIS模块,该模块分为2个部分:第1部分利用全连接神经网络将语义特征的维度转换至与实例特征维度一致,并将转换后的语义特征嵌入至实例特征;第2部分首先对实例空间每个点建立邻域,然后选定一个实例半径阈值,对邻域点与中心点间距小于阈值的邻域点做最大池化,最后将池化后的特征嵌入至语义特征中,从而完成语义分割与实例分割的任务交互.

本研究对ASIS进行改进,首先将ASIS模块第1部分的全连接神经网络改为1×1卷积操作[24],以实现参数共享从而降低网络参数的数量. 网络参数的减少降低了网络的复杂度,使得网络更加容易训练,并且减少了模型欠拟合和过拟合的风险. 针对ASIS模块的第2部分,利用空间注意力模块进行替换,对邻域内的所有点分别执行最大池化与平均池化操作[25]. 平均池化可以有效保留点云细节信息的同时,最大池化能够增强点间区分度,从而改善分割效果;将2个池化操作后的特征进行组合,再利用卷积神经网络处理;将得到的特征并入语义空间. 空间注意力机制在训练过程中,通过调节模型参数,有效剔除实例外的点,这种处理方式规避了原ASIS模块中判断邻域点是否为实例内的点时间过长的问题,流程如图3所示.

图 3

图 3   ASIS模块和改进后的ASIS模块

Fig.3   ASIS module and improved ASIS module


2. 实验结果与分析

2.1. 实验环境与细节

实验的运行环境为Intel Core i9 10980xe,主频为3.0 GHz,18cores;缓存为RAM 128GB;GPU显卡为单张NVIDIA GeForce RTX 2080ti. 操作系统为Linux下Ubuntu16.04;深度学习框架为Pytorch1.5. 与现有主流模型相同,体素尺寸设置为2 cm;主干网络的框架采用ResNet,并且使用与文献[18]相同的稀疏卷积及对应的池化、批量归一化操作,分支网络中具有注意力机制的KNN邻域点数目设置为16;网络整体采用随机梯度下降法(stochastic gradient descent,SGD)函数进行优化,学习率设置为0.001,动量值设置为0.9,权值衰减设置为0.000 2;mean-shift算法中核函数的带宽设置为1.0.

2.2. 实验数据与评价标准

S3DIS数据集[26]由斯坦福大学发布,该数据集采集自3个建筑物6个大区域(area 1~area 6),面积共6 020 m2,点数约为6.9亿,包含桌子、窗户、门等常见室内物体在内的13个语义类别. 每个点包含xyz坐标、rgb颜色、语义标签以及实例标签信息. 为了增强模型的抵抗场景变化的能力,本研究对场景进行了旋转与尺度缩放处理.

为了全面定量地评价所提模型的有效性,针对实例分割,引入平均实例覆盖率(mean coverage, mCov)、平均加权实例覆盖率(mean weighted coverage, mWCov)、平均精确率(mean precision, mPrec)、平均召回率(mean recall, mRec)作为评价指标[27-29]. 其中,mCov为所有实例IoU的均值,mWCov为每个实例IOU乘以与其对应真值点数在总实例真值点数的比重,计算式为

$ {\text{mCov}}(G,P) = \frac{1}{{\left| G \right|}}\sum\limits_{{\text{g}} \in G} {\mathop {\max }\limits_{p \in P} }\; ({\text{IoU }}\;(g,p)) . $

$ \begin{gathered} \left. \begin{gathered} {\text{mwCov}}(G,P) = \sum\limits_{g \in G} {{w_g}\mathop {\max }\limits_{p \in P} } \;({\text{IoU}}\;(g,p)), \\ {\text{ }}{w_{\boldsymbol{g}}} = \left| g \right|/\sum {_{{g'} \in G}} \left| {{g'}} \right|. \\ \end{gathered} \right\} \\ {\text{ }} \\ \end{gathered} $

式中: $ G $$ P $分别为所有实例预测值与真值的集合, $ g $$ p $分别为某一实例真值与预测值的点集合, $ \left|\text{ }\cdot\text{ }\right| $为集合中元素的数量, $ \mathrm{max}\;(\cdot) $为最大值函数, $ \text{IoU}\;(\cdot) $为某一实例预测值与真值的交并比.

mPrec、mRec分别为精确率和召回率的平均值,对于某一个实例,精确率(PR)和召回率(RE)的计算式为

$ {\text{PR}} = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}} , $

$ {\text{RE}} = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}} . $

式中:TP、TN、FP、FN分别为场景中某一实例的真阳例、真阴例、假阳例、假阴例中所包含的点个数,真阳例交并比的阈值为0.5.

针对语义分割,引入总体精度(over-all accuracy, OAcc)、平均交并比(mean intersection over union, mIoU)作为评价指标:

$ {\text{OAcc}} = \frac{{{\rm{TP}}+{\rm{TN}}}}{{{\rm{TP}}+{\rm{TN}}+{\rm{FP}}+{\rm{FN}}}} , $

$ {\text{mIoU}} = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{{\rm{T}}{{\rm{P}}_i}}}{{{\rm{T}}{{\rm{P}}_i}+{\rm{F}}{{\rm{P}}_i}+{\rm{F}}{{\rm{N}}_i}}}} . $

式中: $ {\rm{T}}{{\rm{P}}_i} $$ {\rm{F}}{{\rm{P}}_i} $$ {\rm{F}}{{\rm{N}}_i} $分别为第i语义类别的真阳例、假阳例、假阴例中所包含的点个数,n为场景中总的语义类别数.

2.3. 消融实验

以S3DIS数据集下的area 1~4、area 6作为训练集,由于area 5点云数据采集自单独的建筑物,建筑样式以及内部布局与其他区域均有明显差异,因此以area 5作为验证集,这样划分可以进一步检验模型的泛化能力.

2.3.1. 具有注意力机制的KNN模块有效性及效率

为了验证具有注意力机制的KNN模块的有效性以及效率,在基准模型中加入具有注意力机制的KNN模块. 基准模型表示该模型既不加入注意力机制的KNN,也不加入ASIS模块. 将3D子流形稀疏卷积网络输出结果,再输入至3层卷积网络和1层全连接网络进行处理. 对2个模型进行充分训练并在测试集上进行测试,记录2个模型在验证集上的整体分割效果,结果如表1所示. 从表1看出,加入具有注意力机制的KNN模块的网络在4个标准均有显著提升,mCoV、mWCoV、mPrec、mRec分别提升了1.5%、1.2%、1.4%、1.3%,说明具有注意力机制的KNN模块在一定程度上改善了3D卷积网络输出结果离散化的问题. 记录基准模型和具有注意力机制的KNN模型在数据集中,每个场景的平均处理耗时分别为142.5和146.7 ms. 相比于基准模型,具有注意力机制的KNN模块单个场景的处理时间增加了4.2 ms. 在S3DIS数据集中,每个场景的点数均在十万级别,处理时间对于大多数实际应用仍处于可接受范围之内,因此具有注意力机制的KNN模块在提升分割效果的同时,并未带来过多的时间消耗.

表 1   具有注意力机制的KNN对实例分割结果的影响

Tab.1  Effect of KNN with attention mechanism on instance segmentation results %

模型 mCoV mWCov mPrec mRec
基准模型 42.1 39.3 53.1 41.3
具有注意力机制的KNN 43.6 40.5 54.5 42.6

新窗口打开| 下载CSV


对具有注意力机制的KNN模块中邻域点数量对分割结果的影响进行分析,结果如图4所示. 在进行6组实验中,从整体变化趋势不难看出,当邻域点数目为16时,模型在4个衡量标准(MI)上取得了最佳结果.

图 4

图 4   邻域点数量对模型实例分割结果的影响

Fig.4   Influence of number of neighborhood points on segmentation results of proposed model


2.3.2. 改进后ASIS模块的有效性及效率

对于改进后ASIS模块的有效性进行验证,并记录2组实验在验证集单场景分割效果,结果如表2所示. 由表2可知,将ASIS模块加入所提模型,模型分割有着较为明显改善,在4个衡量标准上相较于基准模型提升了0.7% ~1.2%. 在基准模型的基础上,加入改进后的ASIS模块后,改善效果相较于ASIS模块进一步提升. 在4个衡量指标上,比ASIS模块高出1.0%~1.6%. 改进后的ASIS模块中 $ 1*1 $卷积网络相较于原ASIS模块中的全连接网络具有更少的参数,因此模型也更容易优化. 此外,平均池化的应用也保留了实例分割所需的细节信息. 记录基准模型、ASIS模型以及改进后的ASIS模型在数据集中每个场景的平均处理耗时分别为142.5、158.7和146.3 ms. 基于改进后ASIS模块的模型单场景处理耗时比基于ASIS模块的模型减少了12.4 ms. 综上,加入改进后的ASIS模块的模型相比于基于ASIS模块的模型分割效果有一定改善,但是处理时间并没有增加,从而验证了改进后的ASIS模块中 $ 1*1 $卷积以及空间注意力模块的有效性和效率.

表 2   改进后ASIS模块对实例分割结果的影响

Tab.2  Impact of improved ASIS module on segmentation results %

模型 mCoV mWCov mPrec mRec
基准模型 42.1 39.3 53.1 41.3
ASIS 43.1 40.5 54.0 42.0
改进后的ASIS 44.7 41.5 55.3 43.2

新窗口打开| 下载CSV


2.4. 所提模型与其他算法分割结果对比

为了直观体现所提模型的实例与语义分割结果,采用6-fold交叉验证方式[14]、S3DIS数据集包含area1-area 6共6个区域,每次选择其中的5个区域作为训练集,另一个作为测试集,共进行6次实验. 图5对输入值、分割结果以及真值(ground truth,GT)进行展示. 由于S3DIS数据集多为封闭式场景,为了更好地展示房间内部的分割细节,图5展示的场景去掉了部分墙壁和天花板.

图 5

图 5   所提模型在S3DIS数据集上实验结果

Fig.5   Qualitative results of proposed module on S3DIS dataset


图5可以看出,当室内环境较为简单时,物体分割边界较为清晰,在视觉感受上较为良好. 当室内环境复杂时,部分物体出现明显的错分现象,物体内部同时出现一定量的杂点. 为了进一步定量地评价所提模型,采用6-fold交叉验证方式,实例分割结果与语义分割结果分别如表34所示.

表 3   所提模型与现有模型在S3DIS数据集上实例分割结果

Tab.3  Instance segmentation results of proposed model and some existing models on S3DIS dataset %

模型 mCoV mWCov mPrec mRec
SGPN[8] 37.9 40.8 38.2 31.2
MT-PNet[10] 24.9
MV-CRF[10] 36.3
PartNet[30] 56.4 43.4
ASIS[9] 51.2 55.1 63.6 47.5
BoNet[31] 65.6 47.6
Ours 53.1 57.1 65.2 52.8

新窗口打开| 下载CSV


表3可知,在实例分割上,SGPN算法构造相似矩阵消耗了过多内存. 在训练过程中,只能以小批量块状点云作为输入,在一定程度上丢失了全局特征. SGPN算法主干网络采用PointNet. 由于PointNet自身特征提取能力有限,在几种对比算法中,SGPN算法在4个衡量指标上最低. ASIS主干网络采用PointNet++. 在分割结果上,相对于SGPN算法有较大的改善,这从侧面反映出,选择合适的主干网络较为重要. 所提模型在整体表现上相较于ASIS有一定的提升,在各指标上提升了1.6% ~5.3%. BoNet作为一种区域提议算法,通常比非区域提议算法有着更高的精度. 本研究结果在平均召回率上仍分别高于BoNet 5.2%. 由表4可知,在语义分割上,所提模型相较于PointNet、PointNet++等主流网络,在平均交并比以及总体精度上明显提升. 在mIoU和OAcc上,所提模型分别高于PointNet++ 7.2%和7.1%,并且同时优于SGPN、3D-Bevis、ASIS主流实例分割算法下的语义分割结果.

表 4   所提模型与现有模型在S3DIS数据集上语义分割结果

Tab.4  Semantic segmentation results of proposed model and some existing models on S3DIS dataset %

模型 mIoU OAcc
PointNet[14] 47.6 78.6
SGPN[8] 50.4 80.8
PointNet++[32] 54.5 81.0
DGCNN[23] 56.1
3D-Bevis[33] 58.4 83.7
ASIS[9] 59.3 86.2
Ours 61.7 88.1

新窗口打开| 下载CSV


3. 结 论

对室内点云数据的实例分割技术进行研究,以子流形稀疏卷积为基础,建立主干网络提取点特征,通过具有注意力机制KNN模块和改进后的ASIS模块的进一步处理最终输出语义与实例分割结果. 主要得出结论如下. 1)具有注意力机制的KNN算法能够缓解子流形稀疏卷积给分割结果带来的量化误差,但是在处理时间上有所增加. 2)改进后的ASIS模块在效果与效率上,均取得了比ASIS更好的结果,说明改进后的ASIS模块能够更好地利用语义分割任务与实例分割任务的互补性.3)点云实例分割尚属比较新的研究课题,在未来仍有较大的探索空间. 本研究在训练过程中所基于的度量学习思想仍继承于图像处理领域,而如何充分利用点云所固有几何信息对损失函数重新设计是未来的研究工作之一.

参考文献

ZHAO N, CHUA T S, LEE G H. Few-shot 3d point cloud semantic segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8873-8882.

[本文引用: 1]

WU K L, XU G D, LIU Z L, et al

PointCSE: context-sensitive encoders for efficient 3d object detection from point cloud

[J]. International Journal of Machine Learning and Cybernetics, 2021, 28 (7): 1- 9

[本文引用: 1]

HE K M, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn [C]// IEEE International Conference on Computer Vision Workshops. Venice: IEEE, 2017: 2961-2969.

[本文引用: 2]

姚培军, 尹燕运. 基于三维激光扫描仪和全站仪技术的外立面测量方法[J]. 岩土工程技术, 2022, 36(2): 156-159.

[本文引用: 1]

YAO Pei-jun, YIN Yan-yun, Facade measurement method based on three-dimensional laser scanner and total station technology [J]. Geotechnical Engineering Technique, 2022, 36(2): 156-159.

[本文引用: 1]

王朝莹, 邢帅, 戴莫凡

遥感影像与LiDAR点云多尺度深度特征融合的地物分类方法

[J]. 测绘科学技术学报, 2021, 38 (6): 604- 610

DOI:10.3969/j.issn.1673-6338.2021.06.009      [本文引用: 1]

WANG Chao-ying, XING Shuai, DAI Mo-fan, et al

A method of ground object classification based on multi-scale deep feature fusion of remote sensing image and LiDAR point cloud

[J]. Journal of Geomatics Science and Technology, 2021, 38 (6): 604- 610

DOI:10.3969/j.issn.1673-6338.2021.06.009      [本文引用: 1]

HOU J, DAI A, NIEßNER M. 3D-SIS: 3d semantic instance segmentation of RGB-d scans [C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4421-4430.

[本文引用: 1]

YI L, ZHAO W, WANG H, et al. GSPN: generative shape proposal network for 3d instance segmentation in point cloud [C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3947-3956.

[本文引用: 1]

WANG W Y, YU R, HUANG Q, et al. SGPN: similarity group proposal network for 3d point cloud instance segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2569-2578.

[本文引用: 5]

WANG X L, LIU S, SHEN X Y, et al. Associatively segmenting instances and semantics in point clouds [C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4096-4105.

[本文引用: 6]

PHAM Q H, NGUYEN T, HUA B S, et al. Jsis3d: joint semantic-instance segmentation of 3d point clouds with multi-task pointwise networks and multi-value conditional random fields [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8827-8836.

[本文引用: 4]

LAHOUD J, GHANEM B, POLLEFEYS M, et al. 3D instance segmentation via multi-task metric learning [C]// IEEE International Conference on Computer Vision Workshops. Seoul: IEEE, 2019: 9256-9266.

[本文引用: 1]

DU J, CAI G R, WANG Z Y, et al. Convertible sparse convolution for point cloud instace segmentation [C]// IEEE International Geoscience and Remote Sensing Symposium. Brussels: IEEE, 2021: 4111-4114.

[本文引用: 2]

PAN R Y, HUANG C M. Accuracy improvement of deep learning 3d point cloud instance segmentation [C]// IEEE International Conference on Consumer Electronics Taiwan. Taiwan: IEEE, 2021: 1-12.

[本文引用: 2]

QI R, SU H, MO K, et al. PointNet: deep learning on point sets for 3d classification and segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 652-660.

[本文引用: 3]

GRAHAM B, ENGELCKE M, VAN DER MAATEN L. 3D semantic segmentation with submanifold sparse convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 9224-9232.

[本文引用: 1]

CHOY C, GWAK J Y, SAVARESE S. 4D spatio-temporal convnets: minkowski convolutional neural networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 998-1008.

[本文引用: 1]

LIANG Z, YANG M, LI H, et al

3D instance embedding learning with a structure-aware loss function for point cloud segmentation

[J]. IEEE Robotics and Automation Letters, 2020, 5 (3): 4915- 4922

[本文引用: 2]

HE K M, ZHANG X, REN S Q, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 3]

WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515.

[本文引用: 1]

DE BRABANDERE B, NEVEN D, VAN GOOL L. Semantic instance segmentation with a discriminative loss function [EB/OL]. [2017-08-08]. https://arxiv.org/abs/1708.02551.

[本文引用: 1]

COMANICIU D, MEER P

Mean shift: a robust approach toward feature space analysis

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (5): 603- 619

[本文引用: 1]

WANG Y, SUN Y B, LIU Z W, et al

Dynamic graph CNN for learning on point clouds

[J]. Acm Transactions on Graphics, 2019, 38 (5): 1- 12

[本文引用: 1]

LIU W Y, WEN Y, YU Z, et al. Large-margin softmax loss for convolutional neural networks [C]// International Conference on Machine Learning. New York City: IMLS, 2016: 7-18.

[本文引用: 2]

LIN M, CHEN Q, YAN S. Network in network [EB/OL]. [2013-12-16]. https://arxiv.org/abs/1312.4400.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module [C]// European Conference on Computer Vision. Munich: Springer, 2018: 3-19.

[本文引用: 1]

ARMENI I, SENER O, ZAMIR A, et al. 3D semantic parsing of large-scale indoor spaces [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1534-1543.

[本文引用: 1]

MENGYE R, RICHARD Z. End-to-end instance segmentation with recurrent attention [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6656-6664.

[本文引用: 1]

LIU S R, JIA J, FIDLER S, et al. SGN: sequential grouping networks for instance segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6656-6664.

ZHUO W, SALZMANN M, HE X, et al. Indoor scene parsing with instance segmentation, semantic labeling and support relationship inference [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6656-6664.

[本文引用: 1]

MO K, ZHU S, CHANG A X, et al. PartNet: a large-scale benchmark for fine-grained and hierarchical part-level 3d object understanding [C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 998-1008.

[本文引用: 1]

YANG B, WANG J, CLARK R, ET AL. Learning object bounding boxes for 3d instance segmentation on point clouds [C]// Proceedings of the Advances in Neural Information Processing Systems. Vancouver: NIPS, 2019: 563-575.   

[本文引用: 1]

QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of the Advances in Neural Information Processing Systems. Long Beach: NIPS, 2017: 5099-5108.

[本文引用: 1]

CATHRIN E, FRANCIS E, THEODORA K, et al. 3D bird’s-eye-view instance segmentation [C]// German Conference on Pattern Recognition. Bonn: DAGM, 2019: 48-61.

[本文引用: 1]

/