浙江大学学报(工学版), 2024, 58(11): 2219-2229 doi: 10.3785/j.issn.1008-973X.2024.11.003

计算机技术、控制工程

基于局部信息融合的点云3D目标检测算法

张林杰,, 柴志雷,, 王宁

1. 江南大学 人工智能与计算机学院,江苏 无锡 214122

2. 江苏省模式识别与计算智能工程实验室,江苏 无锡 214122

Point cloud 3D object detection algorithm based on local information fusion

ZHANG Linjie,, CHAI Zhilei,, WANG Ning

1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

2. Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computational Intelligence, Wuxi 214122, China

通讯作者: 柴志雷,男,教授,博导. orcid.org/0000-0003-3822-1653. E-mail: zlchai@jiangnan.edu.cn

收稿日期: 2023-07-3  

基金资助: 国家自然科学基金资助项目(61972180);江苏省模式识别与计算智能工程实验室资助项目.

Received: 2023-07-3  

Fund supported: 国家自然科学基金资助项目(61972180);江苏省模式识别与计算智能工程实验室资助项目.

作者简介 About authors

张林杰(1998—),男,硕士生,从事自动驾驶感知系统的研究.orcid.org/0009-0003-3179-4165.E-mail:sanmu_mu@163.com , E-mail:sanmu_mu@163.com

摘要

针对当前基于点云的三维目标检测算法缺乏目标准确的空间位置信息,提出局部信息编码模块和后期交叉融合模块的三维目标检测算法. 在特征提取阶段,模型通过三维稀疏卷积高效地编码全局特征. 局部信息编码模块利用目标内部的原始点云信息,构建目标的细粒度语义信息,通过自注意力机制对这些信息进行重新加权,增强局部特征的表达能力. 提出交叉融合模块,用于局部特征与全局特征的信息交互,产生表达能力更强的目标检测特征. 使用KITTI和Waymo公开数据集,验证所提出的方法. 在KITTI数据集的简单、中等和困难任务上,本文方法的平均准确率AP0.7分别达到了91.60%、82.53%和77.83%,在Waymo数据集上的平均准确率AP0.7达到74.92%.

关键词: 点云 ; 稀疏卷积 ; 局部信息 ; 注意力机制 ; 交叉融合

Abstract

A three-dimensional object detection algorithm with a local information encoding module and a subsequent cross-fusion module was proposed aiming at the current lack of accurate spatial position information for three-dimensional object detection algorithms based on point clouds. Global features were efficiently encoded using 3D sparse convolution during the feature extraction phase. The local information encoding module leveraged the intrinsic information within the object’s point cloud, constructing fine-grained semantic details. The information was reweighted to enhance the representation of local features through a self-attention mechanism. A cross-fusion module was introduced to facilitate interaction between local and global features, resulting in enhanced object detection features. The proposed method was validated using the KITTI and Waymo datasets. The average precision at IoU 0.7 for easy, moderate and hard tasks achieved 91.60%, 82.53%, and 77.83%, respectively on the KITTI dataset. The average precision at IoU 0.7 reached 74.92% on the Waymo dataset.

Keywords: point cloud ; sparse convolution ; local information ; attention mechanism ; cross fusion

PDF (2318KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张林杰, 柴志雷, 王宁. 基于局部信息融合的点云3D目标检测算法. 浙江大学学报(工学版)[J], 2024, 58(11): 2219-2229 doi:10.3785/j.issn.1008-973X.2024.11.003

ZHANG Linjie, CHAI Zhilei, WANG Ning. Point cloud 3D object detection algorithm based on local information fusion. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(11): 2219-2229 doi:10.3785/j.issn.1008-973X.2024.11.003

三维目标检测旨在对空间中的目标实例进行精确定位和分类,是实现环境感知的一项重要任务,在自动驾驶、工业制造和智能机器人[1]等智能应用中起到关键作用. 模型的性能与智能系统的安全性有着最直接的关联,精准的目标检测为后续的场景理解[2-3]、运动预测[4-5]、规划与控制[6-7]等任务提供了可靠的环境观察. 点云和图像是在三维目标检测领域中广泛采用的数据结构. 相较于图像,点云受光照环境的影响较小,能够提供更精确的深度和几何信息. 基于点云的方法受到了工业界和学术界的广泛关注.

当前基于点云的模型存在以下3个问题. 1)基于点的方法直接处理无序的点云,导致计算资源占用高,且难以提取有效特征. 这类方法通过迭代采样和分组来抽象一组点,利用堆叠的多层感知器和最大池化层学习特征表示. 基于点的方法依赖于抽象的上下文点的数量和半径范围,难以建模上下文点之间的关联特征. 2)基于体素的方法将点云转换为规则的体素表示,可以利用稀疏卷积神经网络来学习点云的深度体素特征. 这种量化的表示方式损失了点云数据中的目标细节信息,降低了最终的检测性能. 3)目前最先进的模型在利用区域提议网络(region proposal network, RPN)进行检测时可以取得很高的召回率,但是在平均精度上表现一般[8]. 这主要是因为难以从三维提议中有效编码目标信息和提取鲁棒特征.

为了解决上述问题,本文在文献[9]的研究基础上,提出基于局部信息融合的三维目标检测模型. 模型利用体素表示和点表示的优点实现高精度的检测效果,其核心组件为局部信息编码(local information encoding, LIE)模块和交叉注意力融合(cross-attention fusion, CAF)模块. 对点云进行体素化表示,通过稀疏卷积编码多尺度体素特征和生成3D候选框. LIE模块通过建立候选框内部点云与候选框的相对位置关系来编码得到更细粒度的点特征信息. CAF模块将多尺度体素特征与点特征自适应地融合,以弥补体素化过程中目标位置信息的损失. 由于LIE模块和CAF模块既保留了体素表示的空间整体性,又包含了关键局部细节信息,在KITTI数据集[10]和Waymo数据集[11]上的大量实验结果表明,所提出的算法在检测精度性能上具有明显的优势.

1. 相关工作

1.1. 基于点的方法

点云是一组无序点的集合,具有排列不变性和旋转不变性,这些特性使得研究者难以用处理规则序列的方式去处理点云[12]. Qi等[13]提出PointNet系列,利用排列不变性操作,如多层感知器和最大池化层,进行点云特征学习. PointNet系列在点云上的成功应用促使研究者提出各种架构从原始点云中检测目标. Shi等[14]提出基于点的两阶段检测网络:第一阶段使用特征学习网络直接学习点云信息并生成3D候选框;第二阶段将候选框进行坐标变换以细化候选框的细节,实现高精度的目标检测结果. Qi等[15]提出投票策略,利用学习得到的深度特征,将投票空间量化为具体的检测框候选. Shi等[16]使用固定半径的最近邻图对原始点云进行编码,学习点云的局部和全局特征,通过在图上迭代传播,增强点云特征的表达能力. Yang等[17]提出将稀疏点特征转换为稠密体素特征,提升特征的区分能力,从而提升检测精度. Yang等[18]基于特征的距离提出最远点采样策略,用于点云采样和分组,直接在原始点云上进行检测.

目前,基于点的方法主要是将PointNet作为主干网络学习特征,为点云特征学习提供了灵活的感受野. 对点云局部结构信息的建模和利用不足,容易损失目标细节,点云数据量的庞大会导致计算和内存成本较大,实时性能较差.

1.2. 基于体素的方法

基于体素的方法将点云进行规则化处理,这种规则的表示方便应用卷积神经网络对其进行特征提取. Zhou等[19]提出点云到体素的编码层,设计稠密的三维卷积网络,在体素上直接学习特征,验证了利用体素的方法可以有效地解析点云并实现目标检测. 由于点云数据本身分布稀疏,在转换到体素表示后,会出现大量空的体素没有点信息. 三维稠密卷积操作会对所有的体素均进行卷积计算,包括未包含点云的体素,导致大量的无效计算和计算资源浪费. 之后的研究中,Yan等[20]使用稀疏卷积代替密集卷积,可以跳过空体素的计算,有针对性和高效地提取和学习体素数据的特征. Deng等[9]提出体素查询方法,在目标候选框内聚合相邻体素的特征到中心体素上,扩大了体素的感受野,取得了较好的效果. Mao等[21]提出新的体素特征增强模块,通过残差学习来增强体素特征,将体素的坐标信息整合到主干网络,增强对局部结构的建模能力. Xu等[22]提出语义点集生成模块,用于生成前景体素的语义点集,填补前景物体缺失的部分. Koo等[23]引入感兴趣区域点生成模块,用于估计前景对象的完整形状和位移,为每个候选框创建语义曲面点云. Yang等[24]通过从虚拟距离图像中获取参考点,引入点体素变换模块,自适应地将参考点周围的上下文信息和局部集合信息融合到内容查询中. Mahmoud等[25]提出密集体素融合的方法,用于生成多尺度的密集体素特征,以提升对稀疏区域的特征表达能力.

利用基于体素的方法,可以高效地提取点云的空间特征,本文采用当前最广泛和普及的稀疏卷积神经网络作为主干网络来提取特征. 为了弥补体素表示过程中丢失的目标细节信息,LIE模块被用于编码候选框内的关键局部点,提取包含细节的鲁棒特征.

1.3. 基于注意力的方法

Transformer[26]模型在二维图像识别和检测任务中展现出强大的特征表示能力. 这启发了一些研究尝试将注意力机制应用到点云理解任务中,利用其建模全局上下文依赖关系的优势来增强点云的特征表达能力. Yang等[18]使用基于注意力机制的编码器-解码器结构对点云进行多尺度学习,捕获全局上下文信息,实现端到端的目标检测. Sheng等[8]提出通道注意力模块,可以有效增强特征在通道层面的相关性,在候选框细化中使用该模块,提升特征表达能力. He等[27]提出基于体素集合的自注意力骨干网络,该方法侧重于利用集合到集合的学习方式,捕捉局部点集与对应的体素集之间的关系,实现更准确的目标检测. Mao等[28]基于金字塔结构的特征表示方法,通过在不同尺度上对输入点云进行特征提取,捕捉不同尺度的目标信息. 这种结构使得网络能够对目标的多个尺度进行建模,提高特征提取的鲁棒性.

这些方法应用注意力机制来自适应地学习稀疏点特征,但忽略了原始点所携带的目标精确细节信息. 本文提出使用基于多头注意力机制[26]提出CAF模块,旨在有效地将原始点云中丰富的细节信息融合到全局体素特征中. 该融合模块的设计使得网络能够同时关注局部细节和整体特征的不同方面,从而更全面地捕捉目标的特征信息.

2. 研究方法

2.1. 模型架构

提出的局部信息融合方法为两阶段目标检测器,整体框架如图1所示. 整个网络的第一阶段由主干网络和区域提议网络组成,分别用于特征学习和初始化提议框. 在细化阶段,采用当前的先进方法[9]中提出的体素感兴趣区域池化操作来聚合多尺度体素特征,以用于编码候选框的全局特征${{\boldsymbol{F}}_{\text{v}}}$. 本文提出2个新模块:局部信息编码(LIE)模块和交叉注意力融合(CAF)模块,以改善体素化过程中可能丢失目标细节信息的问题. LIE模块通过编码局部信息,有助于保留目标的细微特征. CAF模块引入交叉注意力机制,将全局体素特征${{\boldsymbol{F}}_{\text{v}}}$和经过LIE模块增强的局部信息融合,提高特征表达的准确性. 经过特征融合后的特征被输入到检测头部,用于目标分类和回归任务. 利用提出的方法,能够在特征提取和细化2个阶段中充分考虑局部和全局信息,实现更准确的目标检测. 该方法的核心是对体素化方法的扩展,旨在保留目标细节和高效提取特征.

图 1

图 1   所提模型的整体架构

Fig.1   Overall architecture of proposed network


2.2. 局部信息编码模块

为了捕捉目标的细节特征,对于区域提议网络生成的提议框Bi,对候选框进行划分,将其分隔为大小相等的$U \times U \times U$个子体素. 这种划分的目的是利用子体素内部的原始点云数据直接表达候选框目标的细节,避免稀疏卷积带来的量化误差. 设${{{G}}^{{B_i}}} = \{ {{\boldsymbol{g}}_1},\cdots ,{{\boldsymbol{g}}_{{U^3}}}\} $为提议框${B_i}$的所有子体素的集合,其中${{\boldsymbol{g}}_i}$为子体素的索引. 点云中的每个点${\boldsymbol{p}}$,根据其空间坐标与候选框子体素的空间位置和尺寸的计算,确定该点所属的子体素索引${{\boldsymbol{g}}_i}$,基于这些索引将点组合到集合${N}({{\boldsymbol{g}}_i})$中. 为了准确描述子体素特征,通过计算子体素内部点的形心坐标来描述该子体素位置信息的特征,该方法避免了离群点对特征表达的干扰. 计算如下:

$ {{\boldsymbol{c}}_{{g_i}}} = \frac{1}{{|{N}({{\boldsymbol{g}}_i})|}}\sum\limits_{{{\boldsymbol{p}}_i} \in {N}({{\boldsymbol{g}}_i})} {{{\boldsymbol{p}}_i}} . $

式中:$|{N}({{\boldsymbol{g}}_i})|$为子体素${{\boldsymbol{g}}_i}$内原始点的数量,${{\boldsymbol{p}}_{{i}}}$为子体素内第i个点的空间坐标.

在计算每个子体素内部点之后,将获得一组子体素点(${C} = \{ {{\boldsymbol{c}}_1},\cdots ,{{\boldsymbol{c}}_{{U^3}}}\} $)用于进一步处理. 为了统一输入的距离特征,计算每个子体素点${{\boldsymbol{c}}_i}$与候选框的中心点${\boldsymbol{p}}_{{B_i}}^{\mathrm{c}}$之间的相对坐标,表示为

$ \Delta {\boldsymbol{p}}_i^{\mathrm{c}} = {{\boldsymbol{c}}_i} - {\boldsymbol{p}}_{{B_i}}^{\mathrm{c}}; {{\boldsymbol{c}}_i} \in {C}. $

候选框内的子体素点集共同表现目标的细节特征,包括纹理、形状和结构等信息. 为了更好地突显这些细节特征,提出一种策略,用以凸显候选框内部点与周围环境之间的差异性,保留目标独特的细节信息. 受CT3D[8]的启发,计算每个子体素点与提议的8个顶点之间的相对坐标关系. 相对坐标表示为

$ \Delta {\boldsymbol{p}}_i^j = {{\boldsymbol{c}}_i} - {\boldsymbol{p}}_B^j;\;j = 1,2, \cdots ,8. $

式中:$ {{\boldsymbol{c}}_i} $为子体素点的空间坐标,${\boldsymbol{p}}_B^j$为候选框B的第j个顶点坐标.

在点云领域,经常会将坐标系转换为球形坐标系,以更加灵活地应对点云数据的分布和特征. 这种转换旨在克服点云数据的稀疏性可能带来的问题,比如候选框内点云数据分布不均匀导致某些子体素为空. 通过将坐标系转换为球坐标系,可以在一定程度上平衡子体素点的分布,从而有助于模型更好地捕捉候选目标的空间细节. 子体素点${{\boldsymbol{c}}_i}$特征的表达式为

$ {\boldsymbol{f}}_i^{\mathrm{s}} = \varPsi ([\varLambda ([\Delta {{{\boldsymbol{p}}}}_{{i}}^{\mathrm{c}},\Delta {\boldsymbol{p}}_{{i}}^{\text{1}},\cdots ,\Delta {\boldsymbol{p}}_{{i}}^{\text{8}}]),{\boldsymbol{f}}_{{i}}^{\text{r}}]) \in {{\bf{R}} ^D}. $

式中:$\varLambda $为球面坐标映射函数;${\boldsymbol{f}}_i^{\mathrm{r}}$为子体素点的额外特征,如反射率或伸缩率;$\varPsi $为多层感知器.

对候选框内的空间信息进行编码,帮助模型理解每个子体素点在目标内部的位置,对目标的形状、大小和姿态做出更准确的判断. 为了集中关注于重要的局部特征,引入自注意力机制,将候选框内的每个子体素特征与其他子体素特征进行加权交互. 这使得模型能够更好地集中注意力于关键的局部特征,提升模型对目标的表示能力和准确性. 如图2所示,考虑到子体素内原始点分布密度的影响,将每个子体素内点的数量信息作为位置编码的一部分. 每个子体素点${{\boldsymbol{c}}_i}$的位置编码计算如下:

图 2

图 2   局部信息编码模块的内部结构

Fig.2   Internal structure of local information encoding module


$ {{\boldsymbol{f}}}_{{{\boldsymbol{g}}}_{i}}=\text{FFN}([\Delta{{\boldsymbol{p}}}_{i}^{{\mathrm{c}}},\mathrm{lg}\;(|{N}({{\boldsymbol{g}}}_{i})|+\varepsilon )]). $

式中:$ \varepsilon $为固定的常量. 对于每个候选框中的每个子体素,将子体素特征和位置信息相加,以捕获其空间属性特征${{\boldsymbol{f}}_i}$. 每个候选框${B_i}$的局部特征表示为${\boldsymbol{X}} = [{{\boldsymbol{f}}_1}, \cdots ,{{\boldsymbol{f}}_{{U^3}}}]$,通过投影计算:

$ {\boldsymbol{Q}} = {{\boldsymbol{W}}_{\mathrm{q}}}{\boldsymbol{X}},\;{\boldsymbol{K}} = {{\boldsymbol{W}}_{\mathrm{k}}}{\boldsymbol{X}},\;{\boldsymbol{V}} = {{\boldsymbol{W}}_{\mathrm{v}}}{\boldsymbol{X}}. $

式中:${{\boldsymbol{W}}_{\mathrm{q}}}、{{\boldsymbol{W}}_{\mathrm{k}}}、{{\boldsymbol{W}}_{\mathrm{v}}}$为线性映射函数,QKV分别为自注意力机制中的查询、键和值. 通过自注意机制,对局部子体素特征进行重新加权,获得更精确的局部细节特征:

$ {{\boldsymbol{F}}_{\mathrm{p}}} = {Z}({S}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}})). $

式中:${S}$表示自注意力操作,${Z}$表示前馈神经网络和残差运算符.

2.3. 交叉融合模块

关注${{\boldsymbol{F}}_{\mathrm{p}}}$${{\boldsymbol{F}}_{\mathrm{v}}}$的融合方法. 一个直接的方法是直接拼接这2种特征,然而这种方法得到的融合特征无法区分局部信息和全局体素特征之间的重要性. 为了充分利用局部细节信息,采用多头自注意力机制[26],实现特征之间的有效交互学习. 如图3所示,将${{\boldsymbol{F}}_{\mathrm{p}}}$${{\boldsymbol{F}}_{\mathrm{v}}}$的连接特征表示为${{\boldsymbol{F}}_{\mathrm{B}}} = [{{\boldsymbol{F}}_{\mathrm{p}}},{{\boldsymbol{F}}_{\mathrm{v}}}]$,并通过下式计算:

图 3

图 3   交叉注意力融合模块的内部结构

Fig.3   Internal structure of cross-fusion module


$ {\boldsymbol{Q}} = {{\boldsymbol{W}}_{\mathrm{q}}}{{\boldsymbol{F}}_{\mathrm{v}}},{\boldsymbol{K}} = {{\boldsymbol{W}}_{\mathrm{k}}}{{\boldsymbol{F}}_{\mathrm{B}}},{\boldsymbol{V}} = {{\boldsymbol{W}}_{\mathrm{v}}}{{\boldsymbol{F}}_{\mathrm{B}}}. $

$ {{\boldsymbol{F}}_{\mathrm{v}}} $被用于生成查询向量,成为注意力模型关注的信息. ${{\boldsymbol{F}}_{\mathrm{B}}}$包含了丰富的全局和局部特征,用于计算键向量和值向量. 这些向量与$ {{\boldsymbol{F}}_{\mathrm{v}}} $相乘,确定连接特征中每个元素的重要性. 通过交叉计算查询、键和值,旨在实现局部信息与全局信息的交互学习,利用多头注意力机制[26]获得有效的融合特征:

$ {{\boldsymbol{F}}_{{\mathrm{att}}}} = \left[\sigma \left(\frac{{{{\boldsymbol{Q}}_h}{{({{\boldsymbol{K}}_h})}^{\mathrm{T}}}}}{{\sqrt {{C^ * }} }}\right) \cdot {{\boldsymbol{V}}_h}\right]; \;h = 1, \cdots ,H. $

式中:${C^*}$为多头注意力特征中的维度,$\sigma ( \cdot )$为softmax函数. 连接多头自注意力的输出和全局体素特征${{\boldsymbol{F}}_{\mathrm{v}}}$,以提供更全面、更丰富的融合特征${{\boldsymbol{F}}_{{\text{pv}}}}$. 将融合特征送到检测头中,获得最终的预测结果.

2.4. 损失函数

本文的损失函数由第1阶段区域提议网络损失和第2阶段的检测头损失组成:

$ {L_{{\text{total}}}} = {L_{{\text{rpn}}}}+{L_{{\text{head}}}}. $

式中:${L_{{\text{rpn}}}}$遵循区域提议网络损失中的设置[9]${L_{{\text{head}}}}$由分类损失函数和回归损失函数组成,

$ {L_{{\text{head}}}} = {L_{{\text{cls}}}}+{L_{{\text{reg}}}}({p_{\text{b}}},p_{\text{b}}^ * ). $

其中${p_{\text{b}}}$$p_{\text{b}}^{\text{*}}$分别为检测头细化分支的预测值和相应的真实值,${L_{{\text{reg}}}}$采用smooth-L1损失函数使得预测值${p_{\text{b}}}$接近真实值$p_{\text{b}}^{\text{*}}$. 对于检测头分类损失${L_{{\text{cls}}}}$,使用二分类交叉熵损失:

$ {L_{{\text{cls}}}} = - \frac{1}{N}\sum\limits_{i = 1}^N {({y_i}\lg\; {{\hat y}_i}+(} 1 - {y_i})\lg\; (1 - {\hat y_i})). $

式中:${y_i}$为检测头目标分类的真实值,${\hat y_i}$为目标预测概率,N为目标个数. 在检测头的特征细化损失函数中,分类的标签设置需要根据候选框与真实值的交并比进行设置,定义如下:

$ {y_i} = \left\{ {\begin{array}{*{20}{l}} 0,&{{\text{Io}}{{\text{U}}_{{i}}} < {\theta _{\text{L}}}} ;\\ {\dfrac{{{\text{Io}}{{\text{U}}_{{i}}}{{ - }}{\theta _{\text{L}}}}}{{{\theta _{\text{H}}}{{ - }}{\theta _{\text{L}}}}}},&{{\theta _{\text{L}}} \leqslant {\text{Io}}{{\text{U}}_{{i}}} < {\theta _{\text{H}}}}; \\ 1,&{{\text{Io}}{{\text{U}}_{{i}}} \geqslant {\theta _{\text{H}}}} .\end{array}} \right. $

式中:${\text{Io}}{{\text{U}}_{{i}}}$为第i个候选框与对应真实框之间的交并比,${\theta _{\text{H}}}$${\theta _{\text{L}}}$分别为前景和背景的交并比阈值.

3. 数据集及评价指标

3.1. 数据集

KITTI数据集[10]目前是评估计算机视觉任务最流行的城市街景数据集,也是三维目标检测最常用的数据集之一. 该数据集包含了7 481个训练样本和7 518个测试样本,适用于自动驾驶场景. 由于测试集不提供真值,遵循传统的样本划分方式,将训练集划分为3 712个用于训练和3769个用于验证. 在验证集上记录结果,与在线测试排行榜进行比较.

Waymo数据集[11]目前是自动驾驶领域最大、最多样化的三维目标检测数据集之一,包含798个训练序列(约158 000个点云样本)和202个验证序列(约40 000个点云样本). 鉴于Waymo数据集的巨大规模,需要大量的计算资源. 本文选择使用训练集的1/10进行训练,将验证集的1/10用于测试.

3.2. 评价指标

在KITTI数据集中,根据目标的属性(如尺寸、遮挡、拦截程度)将目标分为3个级别:简单、中等和困难,采用平均准确率(average precision,AP)作为三维目标检测任务的主要评估指标. 有关KITTI数据集的检测结果均使用AP进行评估,其中交并比阈值设置为0.7. 当计算平均准确率时,通常需要指定一系列召回位置,在测试集中常用的数量为40个召回位置.

采用Waymo官方发布的评估工具来评估所提出的方法,其中使用AP和按朝向加权的平均精度(average precision weighted by heading,APH)进行评估. 对测试数据集评价有2种划分方式. 第1种方式根据目标与传感器的距离d分为3个范围:0~30 m、30~50 m和大于50 m. 第2种方式是将数据拆分成2个难度级别,其中等级1表示目标内含有5个以上的点,等级2表示目标内只包含1~4个点.

4. 实验设计及结果

4.1. 实现细节

在作为输入之前,原始点云被划分成规则的体素. 对于KITTI数据集,将点云的范围裁剪为X轴[0, 70.4] m,Y轴[−40, 40] m,Z轴[−3, 1] m. 输入体素大小设置为(0.05, 0.05, 0.01) m. 对于Waymo公开数据集,点云的范围被裁剪为X轴和Y轴[−75.2, 75.2] m,Z轴[−2, 4] m. 输入体素大小设置为(0.1, 0.1, 0.15) m. 提出方法的检测头模块遵循Pointformer[29]中前馈神经网络的大小,进行最终的目标框回归和置信度预测.

提出的模型基于PyTorch深度学习框架实现,在64位Linux服务器上开展实验,该设备配备64 GB的内存(RAM). 显卡为2个Nvidia RTX 2080Ti,显存为22 GB. 对于KITTI数据集,网络训练了80个轮次,批次大小为4. 对于Waymo数据集,开展30个轮次的训练,批次大小为4. 2个数据集的学习率初始化为0.01,采用余弦退火策略动态调整学习率.

4.2. KITTI数据集上不同算法的检测结果对比

在测试集上与最先进的模型对比时,采用一致的训练策略,用全部的训练样本作为训练集. 如表1所示为本文方法与最新方法在KITTI官方测试服务器上的性能比较,采用40个召回位置记录车辆类别的检测结果. 图中,AP3D为三维AP,APBEV为鸟瞰(BEV)视角下的平均精度. 记录方法遵循官方协议,分别记录了三维场景和俯视图(bird-eye-view, BEV)场景下简单、中等和困难任务的平均准确度. 结果表明,本文方法在激光雷达(LiDAR, L)和多模态(LiDAR+ Image, L+I)2种数据模式下,在车辆检测的简单和中等难度级别上都获得了最佳性能. 与基线模型Voxel-RCNN[9]相比,在最重要的中等难度级别上将三维AP提高了0.91%. 在3种任务的三维和俯视图平均准确率方面,均展现出了模型的卓越性能,显示了提出方法的高度鲁棒性.

表 1   KITTI测试数据集上不同算法的检测结果对比

Tab.1  Comparison of detection result from different algorithm on KITTI test dataset

方法模态AP3D/%APBEV/%
简单中等困难mAP简单中等困难mAP
Point-GNN[16]L88.3379.4772.2980.0393.1189.1783.9088.73
3DSSD[18]L88.3679.5774.5580.8392.6689.0285.8689.18
PV-RCNN[30]L90.2581.4376.8282.8394.9890.6586.1490.60
Voxel-RCNN[9]L90.9081.6277.0683.1994.8588.8386.1389.94
CT3D[8]L87.8381.7777.1682.2592.3688.8384.0788.42
Pyramid-PV[28]L88.3982.0877.4982.6592.1988.8486.2189.08
VoTr[21]L89.9082.0979.1483.7194.0390.3486.1490.17
SPG[22]L90.5082.1378.9083.8494.3388.7085.9889.67
VoxSet[27]L88.5382.0677.4682.68
PDV[31]L90.4381.8677.3683.2294.5690.4886.2390.42
VFF[32]L+I89.5082.0979.2983.62
PG-RCNN[23]I89.3882.1377.3382.8893.3989.4686.5489.80
PVT-SSD[24]I90.6582.2976.8583.2695.2391.6386.4391.10
DVF-PV[25]L+I90.9982.4077.3783.58
本文方法L91.6082.5377.8383.9995.5991.3786.7291.23

新窗口打开| 下载CSV


在实验过程中,采用共同的划分方法将训练样本划分成训练集和验证集. 如表2所示为本文方法在KITTI验证集上的结果,采用40个召回位置记录平均准确率. 利用本文方法取得了最先进的结果,相比于基线模型Voxel-RCNN[9],在简单、中等、困难的难度级别上分别将三维AP提高了0.89%、0.71%、0.71%,俯视图AP提高了1.14%、0.86%、0.76%.

表 2   KITTI验证数据集上不同算法的检测结果对比

Tab.2  Comparison of detection result from different algorithm on KITTI validation dataset

方法AP3D/%APBEV/%
简单中等困难简单中等困难
PV-RCNN[30]92.5784.4382.6995.7691.1188.93
Voxel-RCNN[9]92.3885.2982.8695.5291.2588.99
PDV[31]92.5685.2983.05
VFF[32]92.4785.6583.3895.6291.7591.39
CT3D[8]92.8585.8283.4696.1491.8889.63
本文方法93.2786.0083.5796.6692.1189.75

新窗口打开| 下载CSV


4.3. Waymo数据集上不同算法的检测结果对比

表3所示为本文方法与先进方法的性能比较. 参与对比的模型有SECOND[20]、PV-RCNN[30]和Voxel-RCNN[9],所有模型都基于PyTorch实现,本文使用训练集的1/10进行训练,使用验证集的1/10进行测试. 与基线模型Voxel-RCNN[9]相比,本文模型在等级1上的AP提升了1.02%,在等级2上提升了1.09%. 本文方法在所有期望的距离范围上都获得了良好的结果,其中在50 m以上的长距离范围内获得了最大的性能提升,在等级1和等级2上的AP分别提升了2.03%和1.72%. 从表3可以看出,本文方法在2个难度级别上取得了较高的APH性能,验证了本文在捕获目标细节和空间关系方面具有优势,能够有效地处理各种目标难度.

表 3   Waymo验证数据集不同算法的检测结果对比

Tab.3  Comparison of detection results from different algorithms on Waymo validation dataset

方法AP/APH (LEVEL_1)AP/APH (LEVEL_2)
d = 0~30 md = 30~50 md > 50 m均值d = 0~30 md = 30~50 md > 50 m均值
SECOND[20]88.66/88.1867.35/66.7042.89/42.0970.07/69.5287.33/86.8660.92/60.2332.39/31.7761.63/61.14
PV-RCNN[30]91.30/90.5673.00/72.3151.35/50.3474.70/74.0989.75/89.2966.32/65.6839.27/38.4666.05/65.50
Voxel-RCNN[9]90.81/90.3672.43/71.7850.37/49.4773.90/73.3289.50/89.0565.68/65.0838.32/37.6165.10/64.58
本文方法91.20/90.7773.28/72.6852.40/51.4574.92/74.3889.91/89.4866.58/66.0240.04/39.2966.19/65.69

新窗口打开| 下载CSV


4.4. KITTI数据集上的消融实验结果展示与分析

为了分析本文所提出LIE模块和CAF模块的有效性,对2个模块进行消融实验. 可知,LIE模块可以分为2个部分:局部空间位置编码(local position encoding, LPE)和自注意力信息捕获(self-attention information capture, SIC). 如表4所示,对整体架构进行全面的消融实验,验证每个组件的有效性.

表 4   所提出模型的消融实验结果(KITTI)

Tab.4  Results of ablation experiments conducted on proposed model(KITTI)

实验LPESICCAFAP3D/%
简单中等困难
92.3885.2982.86
实验(a)92.8085.4883.21
实验(b)93.0485.8383.50
实验(c)93.2786.0083.57

新窗口打开| 下载CSV


本文在KITTI数据集的训练集上训练模型,采用40个召回位置计算平均准确率. 在汽车类别的验证集上进行评估. 在实验(a)中,在基线模型的基础上对候选框内部的原始点云信息进行重新编码,提取点特征,将其与多尺度体素特征进行拼接融合. 这一改进在简单任务的精度上实现了0.43%的提升. 由于引入了原始点云的额外信息,有效地弥补了体素量化过程中可能产生的信息损失. 在实验(b)中,引入自注意力机制,旨在捕获点特征之间的相关性,对候选框内点特征的重要性进行重新加权. 通过细化点特征之间的关系,突显关键的局部特征,该机制用于帮助模型更深入地理解数据,提高模型的检测精度. 在实验(c)中,本文放弃了简单的拼接方式,使用交叉融合的方式,促进体素特征与点特征之间的相互融合. 通过综合利用体素表示和点表示的特征,模型减少了对单一数据表示的依赖,使模型更具有鲁棒性. 实验结果表示,交叉融合的方式在3种任务指标上取得了最高的检测精度.

为了验证本文方法的有效性,对KITTI和Waymo数据集的验证集进行可视化结果的定性分析. 实验结果如图4所示,包含3组点云可视化图,每组图片包含标签值、基线模型和本文方法的预测值. 图中,第1列和第2列为KITII数据集,第3列为Waymo数据集. 在第1列和第3列的结果展示中,基线模型错误地预测出车辆,而本文方法得益于对细节信息的编码,有效地将错误的候选框排除. 在第2列的可视化展示中,基线模型未检测出远处的车辆,本文方法在体素的基础上引入原始点的信息,使用注意力机制聚焦于点的信息,提升了对远处车辆的检测性能.

图 4

图 4   KITTI和Waymo数据集的可视化结果对比展示

Fig.4   Comparison of visualization results between KITTI and Waymo datasets


4.5. 不同融合方法的消融实验结果展示与分析

CAF模块采用交叉融合的方式对局部信息和全局特征进行聚合. 为了验证CAF的有效性,采用一些常用的融合方法进行对比,比如拼接(concat, CON)、门控循环单元(gate recurrent unit, GRU)和自注意力机制(self-attention fusion, SAF). 采用KITTI数据集进行训练,在验证集上记录11个召回位置的中等难度平均准确率.

实验结果如表5所示. 表中,最后一列为中等任务的AP3D. 方法1采用直接拼接局部点特征和全局体素特征的方式. 这种融合方式未能使模型有效区分体素特征和点特征的重要性,导致效果不佳. 方法2采用GRU迭代的方式将点特征和体素特征进行交互,然而这种方式可能无法保持足够的记忆来有效地捕捉长时依赖关系,因而带来的性能提升是有限的. 方法3使用自注意力机制来解决长距离依赖问题,实现了显著的精度提升. 自注意机制对不同数据表示的特征十分敏感,可能导致模型过度关注无关紧要的部分. 方法4采用提出的CAF模块,该机制通过交叉的方式计算自注意力机制中的查询、键和值,能够在长距离的情况下将局部信息与体素特征信息进行有效的交互和特征融合. 实验结果显示,CAF取得了最佳的检测效果.

表 5   不同融合方法对局部信息融合的性能对比(KITTI)

Tab.5  Performance comparison of various fusion methods for local information fusion(KITTI)

方法CONGRUSEACAFAP3D/%
84.52
方法184.92
方法285.33
方法385.50
方法485.77

新窗口打开| 下载CSV


4.6. 模型性能分析

为了分析模型性能,在4.1节的实验环境下,通过比较KITTI数据集上的推理时间和计算量,评估本文方法的运行效率.

表6中,v为推理速度,C为计算量. 如表6所示,相对于基线模型Voxel-RCNN[9],本文方法在提升检测性能0.79%的同时,增大了推理时间和计算量. 与基于点方法Point-RCNN[14]相比,本文方法不仅使推理时间减少近56.21%,而且检测效果显著提升. 与点体素方法PV-RCNN[30]相比,本文方法在推理时间和计算量方面均具有显著优势. 这得益于本文在体素方法的基础上,高效率编码多尺度体素特征和快速生成候选框,在细化阶段利用原始点云编码局部特征,避免了对全场景信息进行点特征提取,降低了时间和计算上的成本.

表 6   提出方法与其他模型的性能和效率对比

Tab.6  Comparison of performance and efficiency of proposed method and other model

模型v/(帧·s−1)C/GBAP3D/%
Voxel-RCNN[9]0.04122.7885.29
PV-RCNN[30]0.12889.2784.43
Point-RCNN[14]0.15327.7178.63
本文方法0.06726.6486.00

新窗口打开| 下载CSV


本文方法通过局部信息的重编码,在性能和效率方面取得了具有竞争力的效果. 局部信息的获取取决于RPN阶段生成的候选框质量. 由于RPN阶段采用普通卷积,相较于稀疏卷积,耗时较大. 普通卷积会对细化阶段的信息融合效果及整体的模型性能产生影响. 在接下来的工作中,将改进生成候选框的方式,利用稀疏卷积的高性能来提高候选框生成的速度.

5. 结 语

本文提出新颖的两阶段检测框架,用于从点云中进行3D目标检测. 本文方法在候选框细化阶段考虑了原始点提供的精确空间信息的重要性. 通过点云和候选框之间的空间关系获得原始点,对这部分原始点设计的局部信息编码模块有效地编码候选框目标的局部细节特征. 提出交叉融合的方式,使得多尺度全局体素特征和局部特征有效交互,获取更丰富的细粒度优化信息. 在KITTI和Waymo数据集上的大量实验验证了本文方法的有效性,与目前的最新方法相比,本文方法取得了显著的性能提升. 下一步将研究解决3D目标检测中网络阶段生成候选框的耗时较长的问题,提升候选框生成质量.

参考文献

MAO J, SHI S, WANG X, et al

3D object detection for autonomous driving: a comprehensive survey

[J]. International Journal of Computer Vision, 2023, 131: 1909- 1963

DOI:10.1007/s11263-023-01790-1      [本文引用: 1]

MUHAMMAD K, HUSSAIN T, ULLAH H, et al

Vision-based semantic segmentation in scene understanding for autonomous driving: recent achievements, challenges, and outlooks

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (12): 22694- 22715

DOI:10.1109/TITS.2022.3207665      [本文引用: 1]

BEHLEY J, GARBADE M, MILIOTO A, et al. Semantickitti: a dataset for semantic scene understanding of lidar sequences [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9297-9307.

[本文引用: 1]

LIU Z, WU S, JIN S, et al

Investigating pose representations and motion contexts modeling for 3D motion prediction

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45 (1): 681- 697

[本文引用: 1]

AKSAN E, KAUFMANN M, CAO P, et al. A spatio-temporal transformer for 3d human motion prediction [C]// International Conference on 3D Vision . [S. l. ]: IEEE, 2021: 567-574.

[本文引用: 1]

CUI A, CASAS S, SADAT A, et al. Lookout: diverse multi-future prediction and planning for self-driving [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 16107-16116.

[本文引用: 1]

DERUYTTERE T, VANDENHENDE S, GRUJICIC D, et al. Talk2car: taking control of your self-driving car [C]//. Processing and the 9th International Joint Conference on Natural Language Processing , Hong Kong: ACL, 2019: 2088-2098.

[本文引用: 1]

SHENG H, CAI S, LIU Y, et al. Improving 3d object detection with channel-wise transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 2743-2752.

[本文引用: 5]

DENG J, SHI S, LI P, et al. Voxel R-CNN: towards high performance voxel-based 3d object detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI, 2021: 1201-1209.

[本文引用: 13]

GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the kitti vision benchmark suite [C]// IEEE Conference on Computer Vision and Pattern Recognition . Providence: IEEE, 2012: 3354-3361.

[本文引用: 2]

SUN P, KRETZSCHMAR H, DOTIWALLA X, et al. Scalability in perception for autonomous driving: Waymo open dataset [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 2446-2454.

[本文引用: 2]

HUO Weile, JING Tao, REN Shuang

Review of 3D object detection for autonomous driving

[J]. Computer Science, 2023, 50 (7): 107- 118

[本文引用: 1]

QI C R, SU H, MO K, et al. Pointnet: deep learning on point sets for 3D classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 652-660.

[本文引用: 1]

SHI S, WANG X, LI H. Pointrcnn: 3d object proposal generation and detection from point cloud [C]// Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 770-779.

[本文引用: 3]

QI C R, LITANY O, HE K, et al. Deep hough voting for 3d object detection in point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9277-9286.

[本文引用: 1]

SHI W, RAJKUMAR R. Point-gnn: graph neural network for 3d object detection in a point cloud [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 1711-1719.

[本文引用: 2]

YANG Z, SUN Y, LIU S, et al. Std: sparse-to-dense 3d object detector for point cloud [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 1951-1960.

[本文引用: 1]

YANG Z, SUN Y, LIU S, et al. 3dssd: point-based 3d single stage object detector [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11040-11048.

[本文引用: 3]

ZHOU Y, TUZEL O. Voxelnet: end-to-end learning for point cloud based 3d object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 4490-4499.

[本文引用: 1]

YAN Y, MAO Y, LI B

Second: sparsely embedded convolutional detection

[J]. Sensors, 2018, 18 (10): 3337- 3353

DOI:10.3390/s18103337      [本文引用: 3]

MAO J, XUE Y, NIU M, et al. Voxel transformer for 3d object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 3164-3173.

[本文引用: 2]

XU Q, ZHOU Y, WANG W, et al. Spg: unsupervised domain adaptation for 3d object detection via semantic point generation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 15446-15456.

[本文引用: 2]

KOO I, LEE I, KIM S H, et al. PG-RCNN: semantic surface point generation for 3D object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Vancouver: IEEE, 2023: 18142-18151.

[本文引用: 2]

YANG H, WANG W, CHEN M, et al. PVT-SSD: single-stage 3D object detector with point-voxel Transformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 13476-13487.

[本文引用: 2]

MAHMOUD A, HU J S, WASLANDER S L. Dense voxel fusion for 3D object detection [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2023: 663-672.

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017, 30 (2): 6000- 6010

[本文引用: 4]

HE C, LI R, LI S, et al. Voxel set transformer: a set-to-set approach to 3d object detection from point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8417-8427.

[本文引用: 2]

MAO J, NIU M, BAI H, et al. Pyramid R-CNN: towards better performance and adaptability for 3d object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . [S. l. ]: IEEE, 2021: 2723-2732.

[本文引用: 2]

PAN X, XIA Z, SONG S, et al. 3d object detection with pointformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2021: 7463-7472.

[本文引用: 1]

SHI S, GUO C, JIANG L, et al. Pv-rcnn: point-voxel feature set abstraction for 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2020: 10529-10538.

[本文引用: 6]

HU J S, KUAI T, WASLANDER S L. Point density-aware voxels for lidar 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8469-8478.

[本文引用: 2]

LI Y, QI X, CHEN Y, et al. Voxel field fusion for 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 1120-1129.

[本文引用: 2]

/