浙江大学学报(工学版), 2025, 59(5): 920-928 doi: 10.3785/j.issn.1008-973X.2025.05.005

计算机技术、信息工程

面向密集预测任务的点云Transformer适配器

张德军,, 白燕子, 曹锋, 吴亦奇, 徐战亚,

1. 中国地质大学(武汉) 智能地学信息处理湖北省重点实验室,湖北 武汉 430074

2. 中国地质大学(武汉) 地理与信息工程学院,湖北 武汉 430074

Point cloud Transformer adapter for dense prediction task

ZHANG Dejun,, BAI Yanzi, CAO Feng, WU Yiqi, XU Zhanya,

1. Hubei Key Laboratory of Intelligent Geo-Information Processing, China University of Geosciences, Wuhan 430074, China

2. School of Geography and Information Engineering, China University of Geosciences, Wuhan 430074, China

通讯作者: 徐战亚,男,副教授. orcid.org/0000-0002-5167-6356. E-mail: xuzhanya@cug.edu.cn

收稿日期: 2024-07-8  

基金资助: 智能地学信息处理湖北省重点实验室开放研究课题(KLIGIP-2023-B12).

Received: 2024-07-8  

Fund supported: 智能地学信息处理湖北省重点实验室开放研究课题(KLIGIP-2023-B12).

作者简介 About authors

张德军(1982—),男,副教授,硕导,从事三维场景感知与数据融合的研究.orcid.org/0000-0001-9129-534X.E-mail:zhangdejun@cug.edu.cn , E-mail:zhangdejun@cug.edu.cn

摘要

提出点云Transformer适配器(PCT-Adapter)框架,以增强标准Transformer在点云密集预测任务中的处理能力. 设计灵活的层次化点云多尺度先验特征提取模块,该模块不仅增强了标准Transformer对不同尺度物体的感知能力,而且提升了对多样数据集和下游任务的适应性. 在Adapter与标准Transformer之间设计双向特征交互模块. 该模块实现了点云先验特征向标准Transformer的有效注入及多尺度点云特征金字塔的更新,在保持标准Transformer架构的同时,通过多次交互显著提高了特征的表达能力. PCT-Adapter以标准Transformer为主干,支持加载多种点云Transformer预训练参数,增强了迁移学习的能力. 在ShapeNetPart、S3DIS和SemanticKITTI数据集上的实验结果证明,利用PCT-Adapter框架,显著提升了标准Transformer在密集预测任务中的适应性.

关键词: 标准Transformer ; 密集预测任务 ; 适配器 ; 特征交互 ; 任务迁移

Abstract

The point cloud Transformer adapter (PCT-Adapter) framework was proposed to enhance the performance of standard Transformers in point cloud dense prediction tasks. A hierarchical multi-scale prior feature extraction module was designed to improve the Transformer's ability to perceive objects at different scales and enhance its adaptability to diverse datasets and tasks. A bidirectional feature interaction module was introduced between the Adapter and the Transformer, enabling the effective injection of prior features and updating the multi-scale feature pyramid. Then the standard Transformer architecture was maintained, and feature representation was improved through iterative interactions. The PCT-Adapter framework, with the standard Transformer as its backbone, supported various pre-trained point cloud Transformer parameters, enhancing transfer learning capabilities. The experimental results on the ShapeNetPart, S3DIS, and SemanticKITTI datasets showed significant improvements in the adaptability of standard Transformers for dense prediction tasks.

Keywords: standard Transformer ; dense prediction task ; adapter ; feature interaction ; task transfer

PDF (1268KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张德军, 白燕子, 曹锋, 吴亦奇, 徐战亚. 面向密集预测任务的点云Transformer适配器. 浙江大学学报(工学版)[J], 2025, 59(5): 920-928 doi:10.3785/j.issn.1008-973X.2025.05.005

ZHANG Dejun, BAI Yanzi, CAO Feng, WU Yiqi, XU Zhanya. Point cloud Transformer adapter for dense prediction task. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 920-928 doi:10.3785/j.issn.1008-973X.2025.05.005

点云密集预测任务通过为每个点预测相应的语义标签或属性,帮助自动驾驶和机器人完成对复杂场景的理解,是点云数据处理的关键前置任务. 相较于点云深度学习网络[1-2],Transformer凭借其优秀的集合处理能力和点云数据适应性,在捕捉点云数据的局部特征和全局关系方面表现出色,在点云分类[3]、语义分割[4]任务中展现了卓越的性能.

点云Transformer研究的普遍思路是引入任务特定的归纳偏置结构,提升模型对几何结构的感知能力. 本文将引入归纳偏置的Transformer称为变体Transformer,具有代表性的模型有point Transformer[5]、point cloud Transformer[6]. 虽然变体Transformer在密集预测任务中取得了优异的性能,但损失了通用性和多模态特征表达能力. 相比之下,标准 Transformer[7-10]具有易于部署、架构通用、训练方法丰富和支持多模态等优势.

标准Transformer存在以下明显的缺陷. 1)缺乏归纳偏置,对输入数据没有结构假设,需要大量数据才能学习通用特征表示,而基于ShapeNetPart数据集[11]的预训练模型[8-10]泛化能力有限. 2)单一尺度设计难以捕获多尺度局部上下文信息,在包含不同尺度目标的密集预测任务中表现不佳. 3)原始的自注意力机制限制了标准Transformer在密集预测任务上的性能,尽管微调方法[12]在点云分类和部件分割任务中表现良好,但在复杂三维场景分割方面的性能有待提升.

本文提出PCT-Adapter,结合标准Transformer与适配器(Adapter),深度挖掘通用点云Transformer的特征表达潜力. 标准Transformer支持加载多种预训练参数. Adapter由先验特征提取(prior feature extraction,PFE)模块和双向特征交互(bidirectional feature interaction,BFI)模块组成. PFE模块层次化提取细粒度几何特征,构建多尺度点云特征金字塔. BFI模块在Adapter与Transformer之间进行多次双向特征交互. 具体来说,从Adapter到Transformer(A-to-T)的特征交互将点云先验特征注入主干网络,从Transformer到Adapter(T-to-A)的特征交互用于更新多尺度点云特征金字塔.

1. 相关工作

1.1. 点云Transformer

将点云Transformer的研究概括为以下2个主要方向. 1)针对点云任务特性添加特定归纳偏置的变体Transformer[4-6, 13]. 2)保持归纳偏置最小化初衷的标准Transformer[7-10].

1.1.1. 变体Transformer

Guo等[6]在注意力机制的基础上增加邻域编码和偏移注意力归纳偏置结构,增强了网络的几何感知能力. Zhao等[5]设计矢量自注意力模块,为Transformer模块引入位置编码. Yang等[4,13]将注意力机制限制在局部区域,以降低计算复杂度. 这些方法为特定任务设计了独特的归纳偏置,因而在各自的任务中取得了较好的效果. 这些模型的通用性不及标准Transformer,且这种设计偏离了Transformer归纳偏置最小化的初衷.

1.1.2. 标准Transformer

相比于变体Transformer[4, 6, 14],标准点云Transformer能够通过多样的预训练策略,充分挖掘通用模型的特征表达能力. Yu等[10]将Bert[15]自监督模型迁移至点云领域,通过重建被随机遮蔽的局部区域,对比原始点云与输出点云之间的特征表示进行预训练,在分类与部件分割任务上表现了良好的性能. Liu等[8]通过构建间接任务预训练标准Transformer模型,将模糊的掩码点重建任务转化为判别任务,学习到丰富的点云特征. Pang等[9]对输入的点云块进行随机遮掩,从未被遮掩的点云块中学习高级的潜在特征,在掩码点重建任务中自监督预训练标准Transformer. Dong等[7]使用来自图像或自然语言处理领域的 Transformer辅助点云Transformer预训练,展示了标准点云Transformer跨模态特征学习的能力.

标准Transformer以较弱的归纳偏置特性,成为研究通用性和多模态潜力的重要对象. 本文的研究动机是将通用的标准Transformer适配到变体Transformer擅长的密集预测任务,深度挖掘点云标准Transformer的潜力.

1.2. 适配器 (Adapter)

Adapter的概念源于工程中的模块化设计思想,通过对已有知识进行微调,适应特定的下游任务. 自然语言处理领域首次引入Adapter[16],用于将预训练模型快速迁移到下游任务. 在计算机视觉领域,Chen等[17]结合Adapter与ViT[18],提出ViT-Adapter[17]模型. ViT-Adapter在多项任务中超越了许多专门设计的视觉Transformer[19].

Adapter也逐步应用于点云领域. Tang等[12]设计点先验提示与几何感知适配器模块微调标准Transformer预训练模型,以较少的参数量在分类任务上取得了显著效果. 该方法在处理复杂场景的密集预测任务时表现不佳. Wu等[20]将提示词适配器作为网络的关键模块,以提取数据集间的通用表示,实现多数据集的协同预训练,在下游任务中取得了优异的性能,但未深入探索将已有知识适配至特定任务的适配器思想.

在点云处理领域,将标准Transformer模型拓展至密集预测任务的研究面临诸多的挑战. 本文将标准Transformer与Adapter相结合,探索将标准Transformer模型向下游密集预测任务适配的方法.

2. PCT-Adapter

PCT-Adapter包括2个主要部分:标准点云Transformer与Adapter. 如图1所示,标准 Transformer使输入序列编码器初步提取点云特征,构建输入序列,使用由$ N $个相同尺度的Transformer模块组成的通用主干网络提取输入序列的深层特征. Adapter包括PFE模块与BFI模块. PFE模块采用层次化的结构,从点云中提取细粒度的几何信息,将特征组织为点云特征金字塔. 与Transformer主干结构相似,BFI模块包含$ N $个特征交互块,与Transformer实现一一对应的双向交互,A-to-T用于注入点云先验知识,T-to-A用于更新面向下游任务的点云特征金字塔.

图 1

图 1   PCT-Adapter网络的结构图

Fig.1   Structure diagram of PCT-Adapter network


2.1. 标准点云Transformer

目前,主流的标准点云Transformer预训练模型,如Point-Bert[10]、Point-MAE[9]、ACT[7]、ReCon[3]等,虽然使用了不同的预训练策略来增强点云特征学习能力,但它们具有相同的点云Transformer主干网络和统一的预训练参数结构. PCT-Adapter中的Transformer主干属于通用结构,可以直接使用多种预训练策略的权重. 接下来阐述PCT-Adapter使用的标准Transformer模块.

2.1.1. 输入序列编码模块

给定输入的点云数据$ {\boldsymbol{P}} \in {{\bf{R}}^{n \times 3}} $,输入序列编码使用最远点采样(farthest point sample,FPS) ,提取$ S $个具有代表性的中心点$ {{\boldsymbol{P}}_S} \in {{\bf{R}}^{S \times 3}} $. 以每个采样点为中心,使用$ K $最近邻算法(K-nearest neighborhood,KNN) 聚合$ K $个邻近点,得到$ S $个局部点云块$ {\boldsymbol{G}} \in {{\bf{R}}^{S \times K \times 3}} $. $ S $个局部点云与对应的中心相减,消除全局坐标属性. 通过多层感知机(multi-layer perceptron,MLP)和最大池化层聚合局部点云信息,编码为特征$ {\boldsymbol{T}} \in {{\bf{R}}^{S \times D}} $.

位置编码在Transformer结构中具有关键作用. 本文遵循视觉和点云领域中标准Transformer[18]的设计架构,为序列特征添加了位置编码. 利用由2个线性层和1个GELU激活函数组成的MLP,将$ S $个中心点坐标编码为$ D $维向量,形成位置嵌入$ {{\boldsymbol{E}}_{{\text{pos}}}} \in {{\bf{R}}^{S \times D}} $. 将点云编码$ {\boldsymbol{T}} $与位置编码$ {{\boldsymbol{E}}_{{\text{pos}}}} $相加,得到特征序列$ {{\boldsymbol{X}}_{{\text{patch}}}} $.

除此之外,还要向输入序列中添加由可学习参数与随机位置编码组成的类标记$ {\boldsymbol{X}}_{{\text{cls}}}^{} \in {{\bf{R}}^{1 \times D}} $,用于无偏差地学习数据集的整体特征. 标准Transformer的输入序列$ {\boldsymbol{F}}_{{\text{st}}}^0 $可以表示为

$ {\boldsymbol{F}}_{{\text{st}}}^0 = {{\boldsymbol{X}}_{{\text{patch}}}} \oplus {{\boldsymbol{X}}_{{\text{cls}}}}. $

式中:$ \oplus $为特征拼接操作,$ {\boldsymbol{F}}_{{\text{st}}}^0 \in {{\bf{R}}^{(1+S) \times {{D}}}} $.

2.1.2. Transformer主干

为了提升特征融合能力,在标准点云Transformer与Adapter之间设计双向特征交互模块,并重复$ N $次. 根据双向交互次数,将具有$ L $个统一尺度Transformer 层的网络主干划分为$ N $个块. 假设标准Transformer主干使用FPS算法采样$ S $个中心点,即把点云划分为$ S $块,则第$ i $个Transformer块的输入可以表示为$ {\boldsymbol{F}}_{{\text{st}}}^{i - 1} \in {{\bf{R}}^{(1+S) \times D}} $.

在第$ i $个BFI模块中,首先完成从Adapter到Transformer的特征交互(A-to-T),将先验知识$ {\boldsymbol{F}}_{{\text{prior}}}^{i - 1} $注入到第$ i $个Transformer 块的输入特征$ {\boldsymbol{F}}_{{\text{st}}}^{i - 1} $,实现特征的补充,得到特征$ \hat {\boldsymbol{F}}_{{\text{st}}}^{i - 1} \in {{\bf{R}}^{(1+S) \times D}} $.$ i $个Transformer 块输出可以表示为

$ {\boldsymbol{F}}_{{\text{st}}}^i = {{\mathrm{Block}}} (\hat {\boldsymbol{F}}_{{\text{st}}}^{i - 1}+{\boldsymbol{F}}_{{\text{st}}}^{i - 1}). $

式中:$ \mathrm{Block}(·) $为Transformer主干中的第$ i $个块.

随后,从Transformer到Adapter的特征交互(T-to-A) 将输出特征$ {\boldsymbol{F}}_{{\text{st}}}^i $从Transformer映射至适配器,完成对先验知识$ {\boldsymbol{F}}_{{\text{prior}}}^{i - 1} $的更新与优化.

遵循标准Transformer预训练模型的结构,PCT-Adapter设置L为12,S与KNN参数K根据密集预测任务灵活调整. 根据融合次数对模型性能的影响,设置N为6.

2.2. 先验特征提取(PFE)模块

相比于图像,点云具有无序、稀疏、不规则的特性,传统的卷积难以完全概括点云的几何先验特征. 为此,设计先验特征提取(PFE)模块,灵活地提取点云先验特征. 如图2所示,PFE模块层次化地使用多个几何抽象(geometric set abstraction,GSA)模块,提高对不同尺度目标的感知能力. GSA模块结合相对位置编码[21]与几何变换[22]模块,增强对局部几何特征的捕捉能力.

图 2

图 2   先验特征提取模块的结构

Fig.2   Structure of prior feature extraction module


具体而言,对于输入点云$ {{\boldsymbol{P}}^0} \in {{\bf{R}}^{n \times 3}} $,PFE模块使用MLP将其编码为特征$ {{\boldsymbol{F}}^0} \in {{\bf{R}}^{n \times C}} $,分层部署多个GSA模块,提取多尺度几何细粒度特征.

以第$ j $个GSA模块为例,使用FPS和KNN算法,对输入点$ {{\boldsymbol{P}}^{j - 1}} \in {{\bf{R}}^{{C^{j - 1}} \times 3}} $及其特征$ {{\boldsymbol{F}}^{j - 1}} \in {{\bf{R}}^{{C^{j - 1}} \times {D^{j - 1}}}} $进行尺度为$ {C^j} $的局部聚合. 该过程挑选出中心点$ {\boldsymbol{P}}_{{\text{fps}}}^j \in {{\bf{R}}^{{C^j} \times 3}} $、邻域点$ {\boldsymbol{P}}_{{\text{knn}}}^j \in {{\bf{R}}^{{C^j} \times K \times 3}} $以及它们对应的特征$ {\boldsymbol{F}}_{{\text{fps}}}^j \in {{\bf{R}}^{{C^j} \times {D^{j - 1}}}} $$ {\boldsymbol{F}}_{{\text{knn}}}^j \in {{\bf{R}}^{{C^j} \times K \times {D^{j - 1}}}} $.

GSA模块结合相对位置编码,增强了几何感知能力. 具体来说,计算每个点云区域内的邻域点与对应的采样中心的相对坐标,使用平均值和标准差对几何信息进行细化,得到$ \Delta {\boldsymbol{P}}_{{\text{knn}}}^j $. 更新邻域特征的步骤表示如下:

$ {\boldsymbol{F}}_{{\text{pos}}}^j = {\psi _{{\text{pos}}}}({\boldsymbol{F}}_{{\text{knn}}}^j,{{\mathrm{PosE}}} (\Delta {\boldsymbol{P}}_{{\text{knn}}}^j)). $

式中:$ \text{PosE}(\cdot ) $表示使用三角函数将$ \Delta {\boldsymbol{P}}_{{\text{knn}}}^j $映射为$ {D^{j - 1}} $维向量,$ {\psi }_{\text{pos}}(\cdot ) $为相对位置编码.

为了应对真实世界数据集[23-24]中某些区域的稀疏性和不规则几何结构所带来的挑战,引入可学习的几何仿射变换(geometric affine)[22]模块,增强GSA模块的几何结构提取能力. 该模块使用$ {\boldsymbol{F}}_{{\text{fps}}}^j $$ {\boldsymbol{F}}_{{\text{pos}}}^j $及它们对应的坐标$ {\boldsymbol{P}}_{{\text{fps}}}^j $$ {\boldsymbol{P}}_{{\text{knn}}}^j $作为输入,得到$ {C^j} $尺度下的点云局部区域几何特征$ {{\boldsymbol{G}}^j} \in {{\bf{R}}^{{C^j} \times K \times {D^{j - 1}}}} $

$ {{\boldsymbol{G}}^j} = {\varPhi _{{\text{affine}}}}({\boldsymbol{F}}_{{\text{fps}}}^j,{\boldsymbol{F}}_{{\text{pos}}}^j,{\boldsymbol{P}}_{{\text{knn}}}^j,{\boldsymbol{P}}_{{\text{fps}}}^j). $

式中:$ {\varPhi }_{\text{affine}}(\cdot ) $为几何仿射变换模块. 将采样的中心特征与$ {{\boldsymbol{G}}^j} $进行融合,第$ j $个GSA模块的输出可以表示为

$ {\boldsymbol{F}}_{}^j{\text{ = }}{{\boldsymbol{P}}_{{\text{max}}}}{\text{(MLP(}}{{\boldsymbol{G}}^j} \oplus {\boldsymbol{F}}_{f{\text{ps}}}^j{\text{)}}). $

式中:$ {{\boldsymbol{P}}_{{\text{max}}}} $为最大池化层,$ \oplus $为特征拼接操作.

使用线性层将GSA模块的输出特征与Transformer的输入特征进行对齐,以便于Adapter与Transformer的交互. 将GSA模块中不同尺度的特征进行拼接,得到多尺度特征金字塔.

2.3. 双向特征交互(BFI)模块

BFI模块由N个交互块组成,与Transformer块进行一一对应的特征交互. 如图3所示,每个特征交互模块包括2个方向相反的交互操作,分别是Adapter到Transformer (A-to-T)和Transformer到Adapter (T-to-A).

图 3

图 3   双向特征交互模块的结构

Fig.3   Structure of bidirectional feature interaction module


2.3.1. A-to-T模块

A-to-T模块能够在不破坏标准Transformer块的情况下,为Transformer注入多尺度先验特征,增强标准Transformer的特征学习能力. A-to-T模块使用交叉注意力[25] ,为Transformer注入多尺度几何信息. 在不同的密集预测任务中,不同的尺度先验特征在多尺度特征金字塔中具有不同的重要性. 针对多尺度特征金字塔,在A-to-T模块中引入一组可学习参数,能够在不同尺度下对特征的融合比例进行自适应调整,增强模型在各种任务和场景中的适应性和分割性能.

以S3DIS[24]为例,若PFE模块的采样率设置为$ C = \left\{ {n/4,n/16,n/64,n/256} \right\} $,则第$ i $个A-to-T模块使用多尺度先验知识$ {\boldsymbol{F}}_{{\text{Prior}}}^{i - 1} \in {{\bf{R}}^{\left( {n/4+n/16+n/64+n/256} \right) \times D}} $作为交叉注意力的键与值,Transformer 块的输入特征$ {\boldsymbol{F}}_{{\text{st}}}^{i - 1} \in {{\bf{R}}^{(1+S) \times D}} $作为查询. 由此,先验知识注入过程表示如下:

$ \hat {\boldsymbol{F}}_{{\text{st}}}^{i - 1} = {{\boldsymbol{\gamma}} ^i} \odot {{\mathrm{MCA}}} ({{\mathrm{LN}}} ({\boldsymbol{F}}_{{\text{st}}}^{i - 1}),{{\mathrm{LN}}} ({\boldsymbol{F}}_{{\text{Prior}}}^{i - 1}))+{\boldsymbol{F}}_{{\text{st}}}^{i - 1}. $

式中:$ \text{MCA}(\cdot ) $为交叉注意力,其中包含与特征金字塔层次对应的多个原始交叉注意力,输出融合不同尺度的主干特征;$ {{\boldsymbol{\gamma}} ^i} \in {{\bf{R}}^{4 \times D}} $为4个可学习参数的组合;$ \odot $为点乘;$ \mathrm{LN}(\cdot ) $为层级归一化操作;融合先验知识的特征$ \hat {\boldsymbol{F}}_{{\text{st}}}^{i - 1} \in {{\bf{R}}^{(1+S) \times D}} $为第$ i $个Transformer块的输入.

2.3.2. T-to-A模块

T-to-A模块接收Transformer 块的输出特征,用于更新多尺度点云金字塔特征,为关注局部几何信息的金字塔补充全局特征,从而提取到更全面的点云信息.

T-to-A模块使用交叉注意力,更新特征金字塔中的各尺度特征. 此外,该模块采用结构简单、空间占用小的共享参数MLP来学习通用特征,促进了不同尺度间的信息传播.

交叉注意力模块以$ {\boldsymbol{F}}_{{\mathrm{st}}}^i $作为键与值,$ {\boldsymbol{F}}_{{\text{Prior}}}^{i - 1} $作为查询,为多尺度先验知识补充全局特征的过程表示如下:

$ \hat {\boldsymbol{F}}_{{\text{Prior}}}^{i - 1} = {{\mathrm{MCA}}} ({{\mathrm{LN}}} ({\boldsymbol{F}}_{{\text{st}}}^i),{{\mathrm{LN}}} ({\boldsymbol{F}}_{{\text{Prior}}}^{i - 1}))+{\boldsymbol{F}}_{{\text{Prior}}}^{i - 1}. $

式中:$ \text{MCA}(\cdot ) $为交叉注意力,其中包含与特征金字塔层次对应的多个原始交叉注意力,为多个尺度的先验特征注入全局特征;$ \mathrm{LN}(\cdot ) $为层级归一化操作.

使用共享权重的MLP,对不同尺度的先验特征进行跨尺度的信息交互与融合:

$ {\boldsymbol{F}}_{{\text{Prior}}}^i = {{{\mathrm{MLP}}} _{{\text{share}}}}(\hat {\boldsymbol{F}}_{{\text{Prior}}}^i). $

式中:$ {\mathrm{MLP}}_{\text{share}}(\cdot ) $为共享权重的多层感知机,由2个线性层与1个RELU激活函数组成. MLP被重复用于各个尺度特征的更新,每个更新过程共享权重参数. 更新后的多尺度特征金字塔具备更稳健的特征表示,为标准Transformer提供了更准确的点云结构信息.

3. 实验与结果分析

3.1. 数据集与实验设置

3.1.1. ShapeNetPart

ShapeNetPart[11]数据集包含16 881个对象、16个类别,且拥有50个部分标签. 每个对象由2~6个部分组成.

在模型设置上,严格遵循Point-Bert[10],随机选择2 048个点作为每个对象的输入,标准Transformer采样数目$ S $设置为128,KNN参数$ K $设置为32,GSA模块的数量设置为3,下采样率为$ C = \left\{ n{\text{/}}8, n{\text{/}}16, n{\text{/32}} \right\} $,KNN参数与主干网络一致.

在训练设置上,由于ShapeNetPart标签分布较均衡,使用交叉熵损失训练PCT-Adapter,在显存为24 GB的NVIDIA 4090服务器上使用AdamW优化器,当学习率为0.000 5,批处理大小为6时,训练300个轮次.

在结果评价指标上,使用类别平均交并比mIoUcls(class-wise intersection over union)和实例平均交并比mIoUins(instance-wise intersection over union). mIoUcls体现模型在所有类别中的平均分割性能,反映了模型对不同类别的泛化能力. mIoUins侧重于评估模型对每个具体实例的分割效果,特别是在处理个体差异和复杂部件结构时的表现.

3.1.2. S3DIS

S3DIS[24]数据集涵盖了来自3个不同建筑的6个大型室内区域,共2.73亿个点,标注有13个类别(天花板、地板、桌子等) . 使用区域5进行测试,其他区域用于训练.

在模型设置上,由于每个点云场景的数据量较大,随机剪裁12 000个点作为每个场景的输入,设置标准Transformer 主干采样数目$ S $为256,$ K $为32. GSA模块数为4,下采样率$ C = \left\{ n{\text{/4}},n{\text{/}}16,n{\text{/64}}, n{\text{/256}} \right\} $$ K $为32.

在训练设置上,采用加权交叉熵损失,以处理类别不平衡问题. 通过统计输入点云中的类别分布,计算每个类别的权重. 训练在显存为24 GB的NVIDIA 4090上进行,使用AdamW优化器,学习率设为0.000 5,批次大小为6,训练总轮次为250.

在结果评价指标上,使用的实验指标包括整体准确率(overall accuracy, OA)、平均类别准确率(mean accuracy, mAcc)和平均交并比(mean intersection over union, mIoU). OA用于评估模型在所有数据点上的表现. 计算每个类别的准确率,然后取平均值得到mAcc,mAcc反映模型在所有类别上的平均表现. 计算每个类别的预测结果与真实标签的交集与并集的比例,对所有类别进行平均得到mIoU. mIoU直接反映了模型在空间精度上的表现,是S3DIS分割任务中最主要的评价指标.

3.1.3. SemanticKITTI

SemanticKITTI[23]是真实世界路况的数据集,包含21个序列和43 552帧点云. 使用序列00~07以及09、10共19 130 423帧作为训练集,序列08(4 071帧)作为验证集.

在模型设置上,随机剪切每个场景中的20 000个点作为输入. Transformer主干与GSA模块的KNN参数$ K $为64,其他PCT-Adapter网络参数与S3DIS一致. 在训练设置方面,采用权重交叉熵损失,并使用AdamW优化器. 训练在NVIDIA 4090上进行,学习率设为0.000 5,批次大小为2,训练总轮次为100.

在结果评价指标上,由于SemanticKITTI 数据集中存在显著的类别不平衡,如车辆和建筑数量远大于行人和自行车的样本,遵循以往论文实验设置和自动驾驶数据集对于空间位置的精确预测需求,使用mIoU作为评价指标. 通过对每个类别进行单独评估并求平均,减少大类别对结果的支配性影响.

3.2. ShapeNetPart数据集的实验结果

表1所示,Point-Bert和PCT-Adapter均加载Point-Bert预训练参数,并在ShapeNetPart数据集上进行部件分割测试. 通过加入Adapter结构,PCT-Adapter将部件分割的mIoUcls和mIoUins均提高了0.4%. 本文的PFE模块利用相对位置编码与几何仿射模块,增强了对复杂局部区域的特征学习能力. ShapeNetPart数据集的规模相对较小,样本结构相对简单且部件间的差异性不大,PFE模块未取得理想的效果,导致PCT-Adapter在该数据集上的性能提升有限.

表 1   ShapeNetPart数据集的部件分割结果

Tab.1  Part segmentation result of ShapeNetPart dataset

模型mIoUcls/%mIoUins/%
PointNet++[26]81.985.1
PointASNL[27]86.1
PCT[6]86.4
PointTransformer[5]83.786.6
PointCAT[28]84.486.0
Point-Bert[10]84.185.6
PCT-Adapter84.586.0

新窗口打开| 下载CSV


PCT-Adapter有效缩小了标准Transformer与变体Transformer[6, 28]之间的性能差距. 这一结果表明,PCT-Adapter有助于解决标准Transformer的结构局限性问题. 随着点云预训练方法与数据集的发展,当标准Transformer预训练模型的特征提取能力被进一步开发时,PCT-Adapter的性能将优于变体Transformer.

3.3. S3DIS数据集的实验结果

表2所示,Point-Bert和PCT-Adapter均加载Point-Bert预训练权重,在真实室内数据集S3DIS上进行语义分割测试. 相较于标准Transformer,PCT-Adapter分别提高了4.8% 的mAcc与和5.5% 的mIoU. PCT-Adapter超过部分变体Transformer[6, 13-14, 28]的性能.

表 2   S3DIS数据集(区域5)的语义分割结果

Tab.2  Semantic segmentation result of S3DIS dataset (area 5)

方法mAcc/
%
mIoU/
%
mIoUcls/%
天花板地板墙壁横梁柱子窗户桌子椅子沙发书柜黑板杂物
SPG[27]66.558.089.496.978.10.042.848.961.684.775.469.852.62.152.2
PointWeb[2]66.660.392.098.579.40.021.159.734.876.388.346.969.364.952.5
PAT[29]70.860.193.098.572.31.041.585.138.257.783.648.167.061.333.6
PT[5]76.570.494.098.586.30.038.063.474.389.182.474.380.276.059.3
PCT[6]67.761.392.598.480.60.019.361.648.076.685.246.267.767.952.3
PatchF[13]67.391.898.786.20.034.148.962.481.689.847.274.974.458.6
PointCAT[28]71.064.094.298.380.50.018.655.558.977.288.064.872.268.955.4
SPFormer[14]77.368.991.598.281.40.023.365.340.075.587.759.567.865.649.4
Point-Bert[10]75.763.591.392.373.10.033.965.660.476.582.786.864.041.743.0
PCT-Adapter80.569.091.996.081.60.052.466.567.082.990.170.872.869.554.7

新窗口打开| 下载CSV


图4所示为PCT-Adapter与Point-Bert在区域5上的分割结果. PCT-Adapter在维持总体分割质量的同时,增强了细节的分割效果. 这些结果表明,PCT-Adapter有效地将标准Transformer扩展到下游任务,证明了设计的合理性.

图 4

图 4   在S3DIS数据集(区域5)上的分割可视化效果

Fig.4   Segmentation visualization result on S3DIS (area 5)


3.4. SemanticKITTI数据集的实验结果

表3所示, Point-Bert和PCT-Adapter模型均加载Point-Bert预训练参数,在真实室外数据集SemanticKITTI上进行语义分割测试.

表 3   在SemanticKITTI上采用不同方法的定量结果

Tab.3  Quantitative result of different methods on SemanticKITTI

方法输入mIoU/%
PointNet++[26]50 000个点20.1
SPG[27]17.4
SPLATNet[30]18.4
TangentConv[31]40.9
SqueezeSegV2[32]64×2 048像素39.7
DarkNet21Seg[23]47.4
DarkNet53Seg[23]49.9
Point-Bert[10]20 000个点44.5
PCT-Adapter53.4

新窗口打开| 下载CSV


实验结果表明,相较于标准Transformer,PCT-Adapter的mIoU提高了8.9%. PCT-Adapter 在更复杂、多样化的真实室外场景中对室外Transformer性能的提升归因于Adapter对标准Transformer 结构的有益补充和高质量的特征交互, 这证明了PCT-Adapter的细粒度特征捕获能力和有效的辅助作用.

3.5. 消融实验

对Adapter各个部分的有效性进行验证. 将PCT-Adapter拆分为Adapter与标准Transformer,用于验证PCT-Adapter设计的合理性. 针对双向交互频率,对PCT-Adapter的影响进行定量分析. 针对多样的预训练方法,检验了Adapter的跨模型通用性. 所有消融实验均在S3DIS数据集上开展,使用相同的硬件条件、优化器、迭代次数及批处理大小.

3.5.1. Adapter部件消融实验

为了证明Adapter各模块的有效性,将PCT-Adapter划分为Transformer模块、PFE模块与BFI模块,将BFI模块划分为A-to-T模块与T-to-A模块. 当仅使用PFE模块时,利用向量加法,将先验知识融合至标准Transformer的输出特征.

表4可知,与点云标准Transformer相比,仅添加PFE模块即可实现2.0%的mIoU性能提升. 引入BFI模块后,性能得到更显著的提高. 完整的PCT-Adapter模型效果提升最明显. 单独使用Adapter模块在语义分割上的表现不具有竞争性. 在结合Adapter与Transformer结构后,多尺度先验知识提取作用得到充分的应用,增强了Point-Bert的任务适配性与整体分割性能. 这些实验结果证明了Adapter各个模块的有效性.

表 4   PCT-Adapter在S3DIS数据集上的消融实验

Tab.4  Ablation experiment of PCT-Adapter on S3DIS dataset

TransformerPFEBFImIoU/%mAcc/%
A-to-TT-to-A
55.665.7
63.575.7
65.575.8
66.576.6
69.080.5

新窗口打开| 下载CSV


3.5.2. 双向特征交互次数的定量分析

图1所示,为了实现Adapter与Transformer的深度融合,将它们分别划分为$ N $个块,并进行$ N $次双向特征交互. 将$ N $设置为0、1、2、4、6和8,在相同的训练设置下,评估$ N $对本文方法的影响.

在S3DIS数据集上不同N的语义分割效果如表5所示. 当Adapter与Transformer交互次数为0时,PCT-Adapter等价于标准Transformer,分割指标mIoU为63.5%. 随着特征交互次数的增加,模型性能得到提升,当交互次数为6时性能最佳. 实验结果证明,多次特征交互对提升PCT-Adapter的性能起到了重要作用.

表 5   S3DIS数据集上交互次数的定量比较

Tab.5  Quantitative comparison of number of interactions on S3DIS dataset

NmIoU/%mAcc/%
063.575.7
165.976.1
266.476.0
467.076.8
669.080.5
868.977.6

新窗口打开| 下载CSV


3.5.3. 不同预训练权重的效果

为了证明PCT-Adapter在密集预测任务上具有跨模型通用性,比较多种预训练权重对PCT-Adapter适配效果的影响. 预训练模型包括Point-Bert[10]、ReCon[3]、ACT[7]、Point-MAE[9]和MaskPoint[8].

表6的实验结果可得如下结论. 1)本文提出的Adapter提升了标准Transformer的性能. 2)不同的预训练权重均能够增强PCT-Adapter在密集预测任务上的性能. 3)Point-Bert预训练参数使得PCT-Adapter达到最佳的性能.

表 6   加载各种预训练模型权重的定量比较

Tab.6  Quantitative comparison of loaded weights from various pretrained models

方法预训练模型权重mIoU/%mAcc/%
标准Transformer62.972.1
ACT[7]63.173.2
Point-MAE[9]63.172.1
MaskPoint[8]64.472.7
Point-Bert[10]63.575.7
ReCon[3]64.873.3
PCT-Adapter66.273.7
ACT[7]66.975.5
Point-MAE[9]68.976.5
MaskPoint[8]68.275.9
Point-Bert[10]69.080.5
ReCon[3]67.474.7

新窗口打开| 下载CSV


4. 结 语

本文提出将点云通用标准 Transform-er主干适配至密集预测任务的PCT-Adapter框架. 在不改变标准Transformer架构的情况下,通过免预训练的特征提取模块和双向特征交互模块,增强了标准Transformer的特征表达能力. 此外,提出的PCT-Adapter具有跨模型通用性,能够加载各种预训练方法的权重. 在以分割为代表的密集预测任务上,PCT-Adapter的任务适配性能得到验证,有效缩小了标准Transformer与变体Transformer的性能差异,为标准Transformer作为点云领域的统一架构提供了可行性.

尽管如此,PCT-Adapter存在一些局限性. 虽然PCT-Adapter在较复杂的数据集上表现出强大的密集预测性能和通用性,但对于ShapeNetPart这类部件结构较简单的数据集,未取得理想的效果. 此外,双向特征交互模块引入的交叉注意力机制虽然提升了PCT-Adapter的性能,但增加了模型的计算复杂度和算力成本. 这些问题为PCT-Adapter的后续改进指明了方向.

参考文献

CHOE J, PARK C, RAMEAU F, et al. Pointmixer: Mlp-mixer for point cloud understanding [C]// European Conference on Computer Vision . Israel: Springer, 2022: 620-640.

[本文引用: 1]

ZHAO H, JIANG L, FU C W, et al. Pointweb: enhancing local neighborhood features for point cloud processing [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5565-5573.

[本文引用: 2]

QI Z, DONG R, FAN G, et al. Contrast with reconstruct: contrastive 3d representation learning guided by generative pretraining [C]// International Conference on Machine Learning . Honolulu: PMLR, 2023: 28223-28243.

[本文引用: 5]

YANG Y Q, GUO Y X, XIONG J Y, et al. Swin3D: a pretrained Transformer backbone for 3D indoor scene understanding [EB/OL]. (2023-08-26) [2024-05-25]. https://arxiv.org/abs/2304.06906.

[本文引用: 4]

ZHAO H, JIANG L, JIA J, et al. Point transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 16259-16268.

[本文引用: 4]

GUO M H, CAI J X, LIU Z N, et al

Pct: point cloud transformer

[J]. Computational Visual Media, 2021, 7: 187- 199

DOI:10.1007/s41095-021-0229-5      [本文引用: 8]

DONG R, QI Z, ZHANG L, et al. Autoencoders as cross-modal teachers: can pretrained 2D image Transformers help 3D representation learning? [EB/OL]. (2023-02-02) [2024-05-25]. https://arxiv.org/abs/2212.08320.

[本文引用: 7]

LIU H, CAI M, LEE Y J. Masked discrimination for self-supervised learning on point clouds [C]// European Conference on Computer Vision . Tel Aviv: Springer, 2022: 657-675.

[本文引用: 5]

PANG Y, WANG W, TAY F E H, et al. Masked autoencoders for point cloud self-supervised learning [C]// European Conference on Computer Vision . Tel Aviv: Springer, 2022: 604-621.

[本文引用: 5]

YU X, TANG L, RAO Y, et al. Point-bert: pre-training 3d point cloud transformers with masked point modeling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Oreans: IEEE, 2022: 19313-19322.

[本文引用: 12]

CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3d model repository [EB/OL]. (2015-12-09) [2024-05-25]. http://arxiv.org/abs/1512.03012.

[本文引用: 2]

TANG Y, ZHANG R, GUO Z, et al. Point-PEFT: parameter-efficient fine-tuning for 3D pre-trained models [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI, 2024: 5171-5179.

[本文引用: 2]

ZHANG C, WAN H, SHEN X, et al. Patchformer: an efficient point transformer with patch attention [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 11799-11808.

[本文引用: 4]

SUN J, QING C, TAN J, et al. Superpoint transformer for 3d scene instance segmentation [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington DC: AAAI, 2023: 2393-2401.

[本文引用: 3]

DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . Minneapolis: [s. n.], 2019: 4171–4186.

[本文引用: 1]

STICKLAND A C, MURRAY I. Bert and pals: projected attention layers for efficient adaptation in multi-task learning [C]// International Conference on Machine Learning . Long Beach: ACM, 2019: 5986-5995.

[本文引用: 1]

CHEN Z, DUAN Y, WANG W, et al. Vision transformer adapter for dense predictions [EB/OL]. (2023-02-13) [2024-05-25]. https://arxiv.org/abs/2205.08534.

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . Red Hook: Curran Associates Inc. , 2017: 6000–6010.

[本文引用: 2]

WANG W, XIE E, LI X, et al

Pvt v2: improved baselines with pyramid vision transformer

[J]. Computational Visual Media, 2022, 8 (3): 415- 424

DOI:10.1007/s41095-022-0274-8      [本文引用: 1]

WU X, TIAN Z, WEN X, et al. Towards large-scale 3d representation learning with multi-dataset point prompt training [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2024: 19551-19562.

[本文引用: 1]

ZHANG R, WANG L, WANG Y, et al. Starting from non-parametric networks for 3d point cloud analysis [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 5344-5353.

[本文引用: 1]

MA X, QIN C, YOU H, et al. Rethinking network design and local geometry in point cloud: a simple residual MLP framework [EB/OL]. (2022-11-29) [2024-05-25]. https://arxiv.org/abs/2202.07123.

[本文引用: 2]

BEHLEY J, GARBADE M, MILIOTO A, et al. Semantickitti: a dataset for semantic scene understanding of lidar sequences [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9297-9307.

[本文引用: 4]

ARMENI I, SENER O, ZAMIR A R, et al. 3d semantic parsing of large-scale indoor spaces [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 1534-1543.

[本文引用: 3]

HAN X F, HE Z Y, CHEN J, et al

3CROSSNet: cross-level cross-scale cross-attention network for point cloud representation

[J]. IEEE Robotics and Automation Letters, 2022, 7 (2): 3718- 3725

DOI:10.1109/LRA.2022.3147907      [本文引用: 1]

QI C R, YI L, SU H, et al. Pointnet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . Red Hook: Curran Associates Inc. , 2017: 5105–5114.

[本文引用: 2]

YAN X, ZHENG C, LI Z, et al. Pointasnl: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 5589-5598.

[本文引用: 3]

YANG X, JIN M, HE W, et al. PointCAT: cross-attention Transformer for point cloud [EB/OL]. (2023-04-06) [2024-05-25]. https://arxiv.org/abs/2304.03012.

[本文引用: 4]

YANG J, ZHANG Q, NI B, et al. Modeling point clouds with self-attention and gumbel subset sampling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 3323-3332.

[本文引用: 1]

SU H, JAMPANI V, SUN D, et al. Splatnet: sparse lattice networks for point cloud processing [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake: IEEE, 2018: 2530-2539.

[本文引用: 1]

TATARCHENKO M, PARK J, KOLTUN V, et al. Tangent convolutions for dense prediction in 3d [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake: IEEE, 2018: 3887-3896.

[本文引用: 1]

WU B, ZHOU X, ZHAO S, et al. Squeezesegv2: improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud [C]// IEEE International Conference on Robotics and Automation . Montreal: IEEE, 2019: 4376-4382.

[本文引用: 1]

/