<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 所提模型的整体架构

Fig.1 Overall architecture of proposed network

2.2. 局部信息编码模块

为了捕捉目标的细节特征，对于区域提议网络生成的提议框B_i，对候选框进行划分，将其分隔为大小相等的$U \times U \times U$个子体素. 这种划分的目的是利用子体素内部的原始点云数据直接表达候选框目标的细节，避免稀疏卷积带来的量化误差. 设${{{G}}^{{B_i}}} = \{ {{\boldsymbol{g}}_1},\cdots ,{{\boldsymbol{g}}_{{U^3}}}\} $为提议框${B_i}$的所有子体素的集合，其中${{\boldsymbol{g}}_i}$为子体素的索引. 点云中的每个点${\boldsymbol{p}}$，根据其空间坐标与候选框子体素的空间位置和尺寸的计算，确定该点所属的子体素索引${{\boldsymbol{g}}_i}$，基于这些索引将点组合到集合${N}({{\boldsymbol{g}}_i})$中. 为了准确描述子体素特征，通过计算子体素内部点的形心坐标来描述该子体素位置信息的特征，该方法避免了离群点对特征表达的干扰. 计算如下：

(1)$ {{\boldsymbol{c}}_{{g_i}}} = \frac{1}{{|{N}({{\boldsymbol{g}}_i})|}}\sum\limits_{{{\boldsymbol{p}}_i} \in {N}({{\boldsymbol{g}}_i})} {{{\boldsymbol{p}}_i}} . $

式中：$|{N}({{\boldsymbol{g}}_i})|$为子体素${{\boldsymbol{g}}_i}$内原始点的数量，${{\boldsymbol{p}}_{{i}}}$为子体素内第i个点的空间坐标.

在计算每个子体素内部点之后,将获得一组子体素点（${C} = \{ {{\boldsymbol{c}}_1},\cdots ,{{\boldsymbol{c}}_{{U^3}}}\} $）用于进一步处理. 为了统一输入的距离特征,计算每个子体素点${{\boldsymbol{c}}_i}$与候选框的中心点${\boldsymbol{p}}_{{B_i}}^{\mathrm{c}}$之间的相对坐标,表示为

(2)$ \Delta {\boldsymbol{p}}_i^{\mathrm{c}} = {{\boldsymbol{c}}_i} - {\boldsymbol{p}}_{{B_i}}^{\mathrm{c}}; {{\boldsymbol{c}}_i} \in {C}. $

候选框内的子体素点集共同表现目标的细节特征，包括纹理、形状和结构等信息. 为了更好地突显这些细节特征，提出一种策略，用以凸显候选框内部点与周围环境之间的差异性，保留目标独特的细节信息. 受CT3D^[8]的启发,计算每个子体素点与提议的8个顶点之间的相对坐标关系. 相对坐标表示为

(3)$ \Delta {\boldsymbol{p}}_i^j = {{\boldsymbol{c}}_i} - {\boldsymbol{p}}_B^j;\;j = 1,2, \cdots ,8. $

式中：$ {{\boldsymbol{c}}_i} $为子体素点的空间坐标，${\boldsymbol{p}}_B^j$为候选框B的第j个顶点坐标.

在点云领域，经常会将坐标系转换为球形坐标系，以更加灵活地应对点云数据的分布和特征. 这种转换旨在克服点云数据的稀疏性可能带来的问题，比如候选框内点云数据分布不均匀导致某些子体素为空. 通过将坐标系转换为球坐标系，可以在一定程度上平衡子体素点的分布，从而有助于模型更好地捕捉候选目标的空间细节. 子体素点${{\boldsymbol{c}}_i}$特征的表达式为

(4)$ {\boldsymbol{f}}_i^{\mathrm{s}} = \varPsi ([\varLambda ([\Delta {{{\boldsymbol{p}}}}_{{i}}^{\mathrm{c}},\Delta {\boldsymbol{p}}_{{i}}^{\text{1}},\cdots ,\Delta {\boldsymbol{p}}_{{i}}^{\text{8}}]),{\boldsymbol{f}}_{{i}}^{\text{r}}]) \in {{\bf{R}} ^D}. $

式中：$\varLambda $为球面坐标映射函数；${\boldsymbol{f}}_i^{\mathrm{r}}$为子体素点的额外特征，如反射率或伸缩率；$\varPsi $为多层感知器.

对候选框内的空间信息进行编码，帮助模型理解每个子体素点在目标内部的位置，对目标的形状、大小和姿态做出更准确的判断. 为了集中关注于重要的局部特征，引入自注意力机制，将候选框内的每个子体素特征与其他子体素特征进行加权交互. 这使得模型能够更好地集中注意力于关键的局部特征，提升模型对目标的表示能力和准确性. 如图2所示,考虑到子体素内原始点分布密度的影响,将每个子体素内点的数量信息作为位置编码的一部分. 每个子体素点${{\boldsymbol{c}}_i}$的位置编码计算如下:

图 2

图 2 局部信息编码模块的内部结构

Fig.2 Internal structure of local information encoding module

(5)$ {{\boldsymbol{f}}}_{{{\boldsymbol{g}}}_{i}}=\text{FFN}([\Delta{{\boldsymbol{p}}}_{i}^{{\mathrm{c}}},\mathrm{lg}\;(|{N}({{\boldsymbol{g}}}_{i})|+\varepsilon )]). $

式中：$ \varepsilon $为固定的常量. 对于每个候选框中的每个子体素，将子体素特征和位置信息相加，以捕获其空间属性特征${{\boldsymbol{f}}_i}$. 每个候选框${B_i}$的局部特征表示为${\boldsymbol{X}} = [{{\boldsymbol{f}}_1}, \cdots ,{{\boldsymbol{f}}_{{U^3}}}]$，通过投影计算：

(6)$ {\boldsymbol{Q}} = {{\boldsymbol{W}}_{\mathrm{q}}}{\boldsymbol{X}},\;{\boldsymbol{K}} = {{\boldsymbol{W}}_{\mathrm{k}}}{\boldsymbol{X}},\;{\boldsymbol{V}} = {{\boldsymbol{W}}_{\mathrm{v}}}{\boldsymbol{X}}. $

式中：${{\boldsymbol{W}}_{\mathrm{q}}}、{{\boldsymbol{W}}_{\mathrm{k}}}、{{\boldsymbol{W}}_{\mathrm{v}}}$为线性映射函数，Q、K和V分别为自注意力机制中的查询、键和值. 通过自注意机制，对局部子体素特征进行重新加权，获得更精确的局部细节特征：

(7)$ {{\boldsymbol{F}}_{\mathrm{p}}} = {Z}({S}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}})). $

式中：${S}$表示自注意力操作，${Z}$表示前馈神经网络和残差运算符.

2.3. 交叉融合模块

关注${{\boldsymbol{F}}_{\mathrm{p}}}$和${{\boldsymbol{F}}_{\mathrm{v}}}$的融合方法. 一个直接的方法是直接拼接这2种特征，然而这种方法得到的融合特征无法区分局部信息和全局体素特征之间的重要性. 为了充分利用局部细节信息，采用多头自注意力机制^[26]，实现特征之间的有效交互学习. 如图3所示，将${{\boldsymbol{F}}_{\mathrm{p}}}$和${{\boldsymbol{F}}_{\mathrm{v}}}$的连接特征表示为${{\boldsymbol{F}}_{\mathrm{B}}} = [{{\boldsymbol{F}}_{\mathrm{p}}},{{\boldsymbol{F}}_{\mathrm{v}}}]$，并通过下式计算：

图 3

图 3 交叉注意力融合模块的内部结构

Fig.3 Internal structure of cross-fusion module

(8)$ {\boldsymbol{Q}} = {{\boldsymbol{W}}_{\mathrm{q}}}{{\boldsymbol{F}}_{\mathrm{v}}},{\boldsymbol{K}} = {{\boldsymbol{W}}_{\mathrm{k}}}{{\boldsymbol{F}}_{\mathrm{B}}},{\boldsymbol{V}} = {{\boldsymbol{W}}_{\mathrm{v}}}{{\boldsymbol{F}}_{\mathrm{B}}}. $

$ {{\boldsymbol{F}}_{\mathrm{v}}} $被用于生成查询向量，成为注意力模型关注的信息. ${{\boldsymbol{F}}_{\mathrm{B}}}$包含了丰富的全局和局部特征，用于计算键向量和值向量. 这些向量与$ {{\boldsymbol{F}}_{\mathrm{v}}} $相乘，确定连接特征中每个元素的重要性. 通过交叉计算查询、键和值，旨在实现局部信息与全局信息的交互学习，利用多头注意力机制^[26]获得有效的融合特征：

(9)$ {{\boldsymbol{F}}_{{\mathrm{att}}}} = \left[\sigma \left(\frac{{{{\boldsymbol{Q}}_h}{{({{\boldsymbol{K}}_h})}^{\mathrm{T}}}}}{{\sqrt {{C^ * }} }}\right) \cdot {{\boldsymbol{V}}_h}\right]; \;h = 1, \cdots ,H. $

式中：${C^*}$为多头注意力特征中的维度，$\sigma ( \cdot )$为softmax函数. 连接多头自注意力的输出和全局体素特征${{\boldsymbol{F}}_{\mathrm{v}}}$，以提供更全面、更丰富的融合特征${{\boldsymbol{F}}_{{\text{pv}}}}$. 将融合特征送到检测头中，获得最终的预测结果.

2.4. 损失函数

本文的损失函数由第1阶段区域提议网络损失和第2阶段的检测头损失组成:

(10)$ {L_{{\text{total}}}} = {L_{{\text{rpn}}}}+{L_{{\text{head}}}}. $

式中：${L_{{\text{rpn}}}}$遵循区域提议网络损失中的设置^[9]；${L_{{\text{head}}}}$由分类损失函数和回归损失函数组成，

(11)$ {L_{{\text{head}}}} = {L_{{\text{cls}}}}+{L_{{\text{reg}}}}({p_{\text{b}}},p_{\text{b}}^ * ). $

其中${p_{\text{b}}}$和$p_{\text{b}}^{\text{*}}$分别为检测头细化分支的预测值和相应的真实值，${L_{{\text{reg}}}}$采用smooth-L1损失函数使得预测值${p_{\text{b}}}$接近真实值$p_{\text{b}}^{\text{*}}$. 对于检测头分类损失${L_{{\text{cls}}}}$，使用二分类交叉熵损失：

(12)$ {L_{{\text{cls}}}} = - \frac{1}{N}\sum\limits_{i = 1}^N {({y_i}\lg\; {{\hat y}_i}+(} 1 - {y_i})\lg\; (1 - {\hat y_i})). $

式中：${y_i}$为检测头目标分类的真实值，${\hat y_i}$为目标预测概率，N为目标个数. 在检测头的特征细化损失函数中，分类的标签设置需要根据候选框与真实值的交并比进行设置，定义如下：

(13)$ {y_i} = \left\{ {\begin{array}{*{20}{l}} 0,&{{\text{Io}}{{\text{U}}_{{i}}} < {\theta _{\text{L}}}} ;\\ {\dfrac{{{\text{Io}}{{\text{U}}_{{i}}}{{ - }}{\theta _{\text{L}}}}}{{{\theta _{\text{H}}}{{ - }}{\theta _{\text{L}}}}}},&{{\theta _{\text{L}}} \leqslant {\text{Io}}{{\text{U}}_{{i}}} < {\theta _{\text{H}}}}; \\ 1,&{{\text{Io}}{{\text{U}}_{{i}}} \geqslant {\theta _{\text{H}}}} .\end{array}} \right. $

式中：${\text{Io}}{{\text{U}}_{{i}}}$为第i个候选框与对应真实框之间的交并比，${\theta _{\text{H}}}$和${\theta _{\text{L}}}$分别为前景和背景的交并比阈值.

3. 数据集及评价指标

3.1. 数据集

KITTI数据集^[10]目前是评估计算机视觉任务最流行的城市街景数据集，也是三维目标检测最常用的数据集之一. 该数据集包含了7 481个训练样本和7 518个测试样本，适用于自动驾驶场景. 由于测试集不提供真值，遵循传统的样本划分方式，将训练集划分为3 712个用于训练和3769个用于验证. 在验证集上记录结果，与在线测试排行榜进行比较.

Waymo数据集^[11]目前是自动驾驶领域最大、最多样化的三维目标检测数据集之一，包含798个训练序列（约158 000个点云样本）和202个验证序列(约40 000个点云样本). 鉴于Waymo数据集的巨大规模，需要大量的计算资源. 本文选择使用训练集的1/10进行训练，将验证集的1/10用于测试.

3.2. 评价指标

在KITTI数据集中，根据目标的属性（如尺寸、遮挡、拦截程度）将目标分为3个级别：简单、中等和困难，采用平均准确率(average precision，AP)作为三维目标检测任务的主要评估指标. 有关KITTI数据集的检测结果均使用AP进行评估，其中交并比阈值设置为0.7. 当计算平均准确率时，通常需要指定一系列召回位置，在测试集中常用的数量为40个召回位置.

采用Waymo官方发布的评估工具来评估所提出的方法，其中使用AP和按朝向加权的平均精度(average precision weighted by heading，APH)进行评估. 对测试数据集评价有2种划分方式. 第1种方式根据目标与传感器的距离d分为3个范围：0~30 m、30~50 m和大于50 m. 第2种方式是将数据拆分成2个难度级别，其中等级1表示目标内含有5个以上的点，等级2表示目标内只包含1~4个点.

4. 实验设计及结果

4.1. 实现细节

在作为输入之前，原始点云被划分成规则的体素. 对于KITTI数据集，将点云的范围裁剪为X轴[0, 70.4] m，Y轴[−40, 40] m，Z轴[−3, 1] m. 输入体素大小设置为(0.05, 0.05, 0.01) m. 对于Waymo公开数据集，点云的范围被裁剪为X轴和Y轴[−75.2, 75.2] m，Z轴[−2, 4] m. 输入体素大小设置为(0.1, 0.1, 0.15) m. 提出方法的检测头模块遵循Pointformer^[29]中前馈神经网络的大小，进行最终的目标框回归和置信度预测.

提出的模型基于PyTorch深度学习框架实现，在64位Linux服务器上开展实验，该设备配备64 GB的内存（RAM）. 显卡为2个Nvidia RTX 2080Ti，显存为22 GB. 对于KITTI数据集，网络训练了80个轮次，批次大小为4. 对于Waymo数据集，开展30个轮次的训练，批次大小为4. 2个数据集的学习率初始化为0.01，采用余弦退火策略动态调整学习率.

4.2. KITTI数据集上不同算法的检测结果对比

在测试集上与最先进的模型对比时，采用一致的训练策略，用全部的训练样本作为训练集. 如表1所示为本文方法与最新方法在KITTI官方测试服务器上的性能比较，采用40个召回位置记录车辆类别的检测结果. 图中，AP_3D为三维AP，AP_BEV为鸟瞰(BEV)视角下的平均精度. 记录方法遵循官方协议，分别记录了三维场景和俯视图(bird-eye-view, BEV)场景下简单、中等和困难任务的平均准确度. 结果表明，本文方法在激光雷达(LiDAR, L)和多模态(LiDAR+ Image, L+I)2种数据模式下，在车辆检测的简单和中等难度级别上都获得了最佳性能. 与基线模型Voxel-RCNN^[9]相比，在最重要的中等难度级别上将三维AP提高了0.91%. 在3种任务的三维和俯视图平均准确率方面，均展现出了模型的卓越性能，显示了提出方法的高度鲁棒性.

表 1 KITTI测试数据集上不同算法的检测结果对比

Tab.1 Comparison of detection result from different algorithm on KITTI test dataset

方法	模态	AP_3D/%				AP_BEV/%
方法	模态	简单	中等	困难	mAP	简单	中等	困难	mAP
Point-GNN^[16]	L	88.33	79.47	72.29	80.03	93.11	89.17	83.90	88.73
3DSSD^[18]	L	88.36	79.57	74.55	80.83	92.66	89.02	85.86	89.18
PV-RCNN^[30]	L	90.25	81.43	76.82	82.83	94.98	90.65	86.14	90.60
Voxel-RCNN^[9]	L	90.90	81.62	77.06	83.19	94.85	88.83	86.13	89.94
CT3D^[8]	L	87.83	81.77	77.16	82.25	92.36	88.83	84.07	88.42
Pyramid-PV^[28]	L	88.39	82.08	77.49	82.65	92.19	88.84	86.21	89.08
VoTr^[21]	L	89.90	82.09	79.14	83.71	94.03	90.34	86.14	90.17
SPG^[22]	L	90.50	82.13	78.90	83.84	94.33	88.70	85.98	89.67
VoxSet^[27]	L	88.53	82.06	77.46	82.68	—	—	—	—
PDV^[31]	L	90.43	81.86	77.36	83.22	94.56	90.48	86.23	90.42
VFF^[32]	L+I	89.50	82.09	79.29	83.62	—	—	—	—
PG-RCNN^[23]	I	89.38	82.13	77.33	82.88	93.39	89.46	86.54	89.80
PVT-SSD^[24]	I	90.65	82.29	76.85	83.26	95.23	91.63	86.43	91.10
DVF-PV^[25]	L+I	90.99	82.40	77.37	83.58	—	—	—	—
本文方法	L	91.60	82.53	77.83	83.99	95.59	91.37	86.72	91.23

在实验过程中，采用共同的划分方法将训练样本划分成训练集和验证集. 如表2所示为本文方法在KITTI验证集上的结果，采用40个召回位置记录平均准确率. 利用本文方法取得了最先进的结果，相比于基线模型Voxel-RCNN^[9]，在简单、中等、困难的难度级别上分别将三维AP提高了0.89%、0.71%、0.71%，俯视图AP提高了1.14%、0.86%、0.76%.

表 2 KITTI验证数据集上不同算法的检测结果对比

Tab.2 Comparison of detection result from different algorithm on KITTI validation dataset

方法	AP_3D/%			AP_BEV/%
方法	简单	中等	困难	简单	中等	困难
PV-RCNN^[30]	92.57	84.43	82.69	95.76	91.11	88.93
Voxel-RCNN^[9]	92.38	85.29	82.86	95.52	91.25	88.99
PDV^[31]	92.56	85.29	83.05	—	—	—
VFF^[32]	92.47	85.65	83.38	95.62	91.75	91.39
CT3D^[8]	92.85	85.82	83.46	96.14	91.88	89.63
本文方法	93.27	86.00	83.57	96.66	92.11	89.75

4.3. Waymo数据集上不同算法的检测结果对比

如表3所示为本文方法与先进方法的性能比较. 参与对比的模型有SECOND^[20]、PV-RCNN^[30]和Voxel-RCNN^[9]，所有模型都基于PyTorch实现，本文使用训练集的1/10进行训练，使用验证集的1/10进行测试. 与基线模型Voxel-RCNN^[9]相比，本文模型在等级1上的AP提升了1.02%，在等级2上提升了1.09%. 本文方法在所有期望的距离范围上都获得了良好的结果，其中在50 m以上的长距离范围内获得了最大的性能提升，在等级1和等级2上的AP分别提升了2.03%和1.72%. 从表3可以看出，本文方法在2个难度级别上取得了较高的APH性能，验证了本文在捕获目标细节和空间关系方面具有优势，能够有效地处理各种目标难度.

表 3 Waymo验证数据集不同算法的检测结果对比

Tab.3 Comparison of detection results from different algorithms on Waymo validation dataset

方法	AP/APH (LEVEL_1)				AP/APH (LEVEL_2)
方法	d = 0~30 m	d = 30~50 m	d > 50 m	均值	d = 0~30 m	d = 30~50 m	d > 50 m	均值
SECOND^[20]	88.66/88.18	67.35/66.70	42.89/42.09	70.07/69.52	87.33/86.86	60.92/60.23	32.39/31.77	61.63/61.14
PV-RCNN^[30]	91.30/90.56	73.00/72.31	51.35/50.34	74.70/74.09	89.75/89.29	66.32/65.68	39.27/38.46	66.05/65.50
Voxel-RCNN^[9]	90.81/90.36	72.43/71.78	50.37/49.47	73.90/73.32	89.50/89.05	65.68/65.08	38.32/37.61	65.10/64.58
本文方法	91.20/90.77	73.28/72.68	52.40/51.45	74.92/74.38	89.91/89.48	66.58/66.02	40.04/39.29	66.19/65.69

4.4. KITTI数据集上的消融实验结果展示与分析

为了分析本文所提出LIE模块和CAF模块的有效性，对2个模块进行消融实验. 可知，LIE模块可以分为2个部分：局部空间位置编码(local position encoding, LPE)和自注意力信息捕获(self-attention information capture, SIC). 如表4所示，对整体架构进行全面的消融实验，验证每个组件的有效性.

表 4 所提出模型的消融实验结果（KITTI）

Tab.4 Results of ablation experiments conducted on proposed model（KITTI）

实验	LPE	SIC	CAF	AP_3D/%
实验	LPE	SIC	CAF	简单	中等	困难
—	—	—	—	92.38	85.29	82.86
实验(a)	√	—	—	92.80	85.48	83.21
实验(b)	√	√	—	93.04	85.83	83.50
实验(c)	√	√	√	93.27	86.00	83.57

本文在KITTI数据集的训练集上训练模型，采用40个召回位置计算平均准确率. 在汽车类别的验证集上进行评估. 在实验(a)中，在基线模型的基础上对候选框内部的原始点云信息进行重新编码，提取点特征，将其与多尺度体素特征进行拼接融合. 这一改进在简单任务的精度上实现了0.43%的提升. 由于引入了原始点云的额外信息，有效地弥补了体素量化过程中可能产生的信息损失. 在实验(b)中，引入自注意力机制，旨在捕获点特征之间的相关性，对候选框内点特征的重要性进行重新加权. 通过细化点特征之间的关系，突显关键的局部特征，该机制用于帮助模型更深入地理解数据，提高模型的检测精度. 在实验(c)中，本文放弃了简单的拼接方式，使用交叉融合的方式，促进体素特征与点特征之间的相互融合. 通过综合利用体素表示和点表示的特征，模型减少了对单一数据表示的依赖，使模型更具有鲁棒性. 实验结果表示，交叉融合的方式在3种任务指标上取得了最高的检测精度.

为了验证本文方法的有效性，对KITTI和Waymo数据集的验证集进行可视化结果的定性分析. 实验结果如图4所示，包含3组点云可视化图，每组图片包含标签值、基线模型和本文方法的预测值. 图中，第1列和第2列为KITII数据集，第3列为Waymo数据集. 在第1列和第3列的结果展示中，基线模型错误地预测出车辆，而本文方法得益于对细节信息的编码，有效地将错误的候选框排除. 在第2列的可视化展示中，基线模型未检测出远处的车辆，本文方法在体素的基础上引入原始点的信息，使用注意力机制聚焦于点的信息，提升了对远处车辆的检测性能.

图 4

图 4 KITTI和Waymo数据集的可视化结果对比展示

Fig.4 Comparison of visualization results between KITTI and Waymo datasets

4.5. 不同融合方法的消融实验结果展示与分析

CAF模块采用交叉融合的方式对局部信息和全局特征进行聚合. 为了验证CAF的有效性，采用一些常用的融合方法进行对比，比如拼接(concat, CON)、门控循环单元(gate recurrent unit, GRU)和自注意力机制(self-attention fusion, SAF). 采用KITTI数据集进行训练，在验证集上记录11个召回位置的中等难度平均准确率.

实验结果如表5所示. 表中，最后一列为中等任务的AP_3D. 方法1采用直接拼接局部点特征和全局体素特征的方式. 这种融合方式未能使模型有效区分体素特征和点特征的重要性，导致效果不佳. 方法2采用GRU迭代的方式将点特征和体素特征进行交互，然而这种方式可能无法保持足够的记忆来有效地捕捉长时依赖关系，因而带来的性能提升是有限的. 方法3使用自注意力机制来解决长距离依赖问题，实现了显著的精度提升. 自注意机制对不同数据表示的特征十分敏感，可能导致模型过度关注无关紧要的部分. 方法4采用提出的CAF模块，该机制通过交叉的方式计算自注意力机制中的查询、键和值，能够在长距离的情况下将局部信息与体素特征信息进行有效的交互和特征融合. 实验结果显示，CAF取得了最佳的检测效果.

表 5 不同融合方法对局部信息融合的性能对比（KITTI）

Tab.5 Performance comparison of various fusion methods for local information fusion（KITTI）

方法	CON	GRU	SEA	CAF	AP_3D/%
—	—	—	—	—	84.52
方法1	√	—	—	—	84.92
方法2	√	√	—	—	85.33
方法3	√	—	√	—	85.50
方法4	√	—	—	√	85.77

4.6. 模型性能分析

为了分析模型性能，在4.1节的实验环境下，通过比较KITTI数据集上的推理时间和计算量，评估本文方法的运行效率.

表6中，v为推理速度，C为计算量. 如表6所示，相对于基线模型Voxel-RCNN^[9]，本文方法在提升检测性能0.79%的同时，增大了推理时间和计算量. 与基于点方法Point-RCNN^[14]相比，本文方法不仅使推理时间减少近56.21%，而且检测效果显著提升. 与点体素方法PV-RCNN^[30]相比，本文方法在推理时间和计算量方面均具有显著优势. 这得益于本文在体素方法的基础上，高效率编码多尺度体素特征和快速生成候选框，在细化阶段利用原始点云编码局部特征，避免了对全场景信息进行点特征提取，降低了时间和计算上的成本.

表 6 提出方法与其他模型的性能和效率对比

Tab.6 Comparison of performance and efficiency of proposed method and other model

模型	v/(帧·s⁻¹)	C/GB	AP_3D/%
Voxel-RCNN^[9]	0.041	22.78	85.29
PV-RCNN^[30]	0.128	89.27	84.43
Point-RCNN^[14]	0.153	27.71	78.63
本文方法	0.067	26.64	86.00

本文方法通过局部信息的重编码，在性能和效率方面取得了具有竞争力的效果. 局部信息的获取取决于RPN阶段生成的候选框质量. 由于RPN阶段采用普通卷积，相较于稀疏卷积，耗时较大. 普通卷积会对细化阶段的信息融合效果及整体的模型性能产生影响. 在接下来的工作中，将改进生成候选框的方式，利用稀疏卷积的高性能来提高候选框生成的速度.

5. 结　语

本文提出新颖的两阶段检测框架，用于从点云中进行3D目标检测. 本文方法在候选框细化阶段考虑了原始点提供的精确空间信息的重要性. 通过点云和候选框之间的空间关系获得原始点，对这部分原始点设计的局部信息编码模块有效地编码候选框目标的局部细节特征. 提出交叉融合的方式，使得多尺度全局体素特征和局部特征有效交互，获取更丰富的细粒度优化信息. 在KITTI和Waymo数据集上的大量实验验证了本文方法的有效性,与目前的最新方法相比,本文方法取得了显著的性能提升. 下一步将研究解决3D目标检测中网络阶段生成候选框的耗时较长的问题，提升候选框生成质量.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MAO J, SHI S, WANG X, et al

3D object detection for autonomous driving: a comprehensive survey

[J]. International Journal of Computer Vision, 2023, 131: 1909- 1963

DOI:10.1007/s11263-023-01790-1 [本文引用: 1]

[2]

MUHAMMAD K, HUSSAIN T, ULLAH H, et al

Vision-based semantic segmentation in scene understanding for autonomous driving: recent achievements, challenges, and outlooks

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (12): 22694- 22715

DOI:10.1109/TITS.2022.3207665 [本文引用: 1]

[3]

BEHLEY J, GARBADE M, MILIOTO A, et al. Semantickitti: a dataset for semantic scene understanding of lidar sequences [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9297-9307.

[4]

LIU Z, WU S, JIN S, et al

Investigating pose representations and motion contexts modeling for 3D motion prediction

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45 (1): 681- 697

[5]

AKSAN E, KAUFMANN M, CAO P, et al. A spatio-temporal transformer for 3d human motion prediction [C]// International Conference on 3D Vision . [S. l. ]: IEEE, 2021: 567-574.

[6]

CUI A, CASAS S, SADAT A, et al. Lookout: diverse multi-future prediction and planning for self-driving [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 16107-16116.

[7]

DERUYTTERE T, VANDENHENDE S, GRUJICIC D, et al. Talk2car: taking control of your self-driving car [C]//. Processing and the 9th International Joint Conference on Natural Language Processing , Hong Kong: ACL, 2019: 2088-2098.

[8]

SHENG H, CAI S, LIU Y, et al. Improving 3d object detection with channel-wise transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 2743-2752.

[本文引用: 5]

[9]

DENG J, SHI S, LI P, et al. Voxel R-CNN: towards high performance voxel-based 3d object detection [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI, 2021: 1201-1209.

[本文引用: 13]

[10]

GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the kitti vision benchmark suite [C]// IEEE Conference on Computer Vision and Pattern Recognition . Providence: IEEE, 2012: 3354-3361.

[11]

SUN P, KRETZSCHMAR H, DOTIWALLA X, et al. Scalability in perception for autonomous driving: Waymo open dataset [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 2446-2454.

[12]

HUO Weile, JING Tao, REN Shuang

Review of 3D object detection for autonomous driving

[J]. Computer Science, 2023, 50 (7): 107- 118

[13]

QI C R, SU H, MO K, et al. Pointnet: deep learning on point sets for 3D classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 652-660.

[14]

SHI S, WANG X, LI H. Pointrcnn: 3d object proposal generation and detection from point cloud [C]// Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 770-779.

[本文引用: 3]

[15]

QI C R, LITANY O, HE K, et al. Deep hough voting for 3d object detection in point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9277-9286.

[16]

SHI W, RAJKUMAR R. Point-gnn: graph neural network for 3d object detection in a point cloud [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 1711-1719.

[17]

YANG Z, SUN Y, LIU S, et al. Std: sparse-to-dense 3d object detector for point cloud [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 1951-1960.

[18]

YANG Z, SUN Y, LIU S, et al. 3dssd: point-based 3d single stage object detector [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11040-11048.

[本文引用: 3]

[19]

ZHOU Y, TUZEL O. Voxelnet: end-to-end learning for point cloud based 3d object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 4490-4499.

[20]

YAN Y, MAO Y, LI B

Second: sparsely embedded convolutional detection

[J]. Sensors, 2018, 18 (10): 3337- 3353

DOI:10.3390/s18103337 [本文引用: 3]

[21]

MAO J, XUE Y, NIU M, et al. Voxel transformer for 3d object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 3164-3173.

[22]

XU Q, ZHOU Y, WANG W, et al. Spg: unsupervised domain adaptation for 3d object detection via semantic point generation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 15446-15456.

[23]

KOO I, LEE I, KIM S H, et al. PG-RCNN: semantic surface point generation for 3D object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Vancouver: IEEE, 2023: 18142-18151.

[24]

YANG H, WANG W, CHEN M, et al. PVT-SSD: single-stage 3D object detector with point-voxel Transformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 13476-13487.

[25]

MAHMOUD A, HU J S, WASLANDER S L. Dense voxel fusion for 3D object detection [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision . Waikoloa: IEEE, 2023: 663-672.

[26]

VASWANI A, SHAZEER N, PARMAR N, et al

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017, 30 (2): 6000- 6010

[本文引用: 4]

[27]

HE C, LI R, LI S, et al. Voxel set transformer: a set-to-set approach to 3d object detection from point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8417-8427.

[28]

MAO J, NIU M, BAI H, et al. Pyramid R-CNN: towards better performance and adaptability for 3d object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . [S. l. ]: IEEE, 2021: 2723-2732.

[29]

PAN X, XIA Z, SONG S, et al. 3d object detection with pointformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2021: 7463-7472.

[30]

SHI S, GUO C, JIANG L, et al. Pv-rcnn: point-voxel feature set abstraction for 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2020: 10529-10538.

[本文引用: 6]

[31]

HU J S, KUAI T, WASLANDER S L. Point density-aware voxels for lidar 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 8469-8478.

[32]

LI Y, QI X, CHEN Y, et al. Voxel field fusion for 3d object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 1120-1129.