<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 融合YOLOv11n目标检测的优化ORB-SLAM3算法系统框架

Fig.1 System framework of optimized ORB-SLAM3 algorithm incorporating YOLOv11n object detection

1.1. YOLOv11n目标检测算法

采用基于YOLO系列中的YOLOv11n作为动态目标检测算法. YOLOv11n是先进的实时目标检测模型，具有比其他目标检测算法更紧凑的架构和更高效的特征提取能力，它在精度和速度方面的性能表现均衡. 为了进一步满足动态场景下的目标检测和系统实时运行的需求，本研究将YOLOv11n基于PyTorch的推理改为基于ONNX的推理. 相较于基本PyTorch推理，ONNX推理可以显著减少模型体积、内存占用且更易于部署. YOLOv11n在COCO数据集上训练后，可以同时识别80种物体，基本满足室内环境中物体类别需求. 本研究将YOLOv11n识别到的人、凳子、背包、瓶子、椅子、笔记本电脑、鼠标、键盘和书9类物体标记为动态物体，为了提高YOLOv11n检测的召回率，将非极大值抑制（non-maximum suppression, NMS）的阈值设置为0.45.

1.2. 双阶段位姿优化算法

在提取输入图像的特征点后，采用3种基于双阶段位姿优化的方法进行位姿估计，分别为恒速模型法、参考关键帧法与重定位法. 在开始跟踪后，按以下逻辑选择估计方法. 1）若上一帧跟踪成功且运动模型已完成初始化，则优先使用恒速跟踪模型法；2）若上一帧跟踪失败或模型未初始化，则启用参考关键帧法；3）当恒速模型法估计失败时，自动切换至参考关键帧法；4）若参考关键帧法也失败，则启用重定位法进行恢复. 3种位姿优化算法的触发条件如图2所示，双阶段位姿优化算法中的数值如未说明，则参考ORB-SLAM3算法原有的数值.

图 2

图 2 双阶段位姿优化算法触发流程

Fig.2 Triggering process of two-stage pose optimisation algorithm

1.2.1. 恒速跟踪模型中的双阶段位姿优化算法

在恒速跟踪模型中，ORB-SLAM3算法的位姿估计分3步进行. 1）更新上一帧位姿，目的是对齐参考关键帧或者生成虚拟地图点. 2）假设相机保持恒速运行，当前帧在世界坐标系下的位姿为

(1)$ {\boldsymbol{T}}_{{\mathrm{cw}}}={\boldsymbol{V}} \times {\boldsymbol{T}}_{{\mathrm{lw}}}. $

式中：V为前两帧到前一帧的位姿变换矩阵，T_lw为前一帧图像在世界坐标系下的位姿. 根据上一帧位姿，由式（1）估计出当前帧的初始位姿. 3）将上一帧的地图点根据初始位姿重投影至当前帧，再根据金字塔约束以及计算描述子之间的汉明距离，获取匹配点. 若成功匹配点数目大于10，则进行位姿优化，跟踪成功. 如图3所示为恒速跟踪模型的位姿更新过程，其中F_r为参考关键帧，F_k−2为前两帧，F_k−1为前一帧，F_k为当前帧，T_r,k−1为由参考关键帧到前一帧的相对位姿.

图 3

图 3 恒速跟踪模型的位姿估计更新状态过程

Fig.3 State update process of pose estimation in constant-speed tracking model

针对动态区域中的动态特征点剔除与静态特征点保留问题，在原有恒速模型中引入双阶段位姿优化算法，其执行流程如图4所示，具体步骤如下. 1）在动态区域与静态区域内进行特征点提取时，均采用ORB特征点提取技术；提取后，将动态区域提取的特征点与静态区域的特征点分开存储. 2）在利用恒速模型匹配静态区域后，进行初步位姿优化；利用现有位姿将上一帧图片中未匹配的地图点投影至动态区域中，同时缩小投影点的搜索距离，根据实验选定，将搜索距离缩小到2个单位. 当投影点与动态区域特征点的描述子距离之间的最小距离小于0.7的次小距离时，认为动态区域特征点属于静态特征点，压入静态特征点容器. 3）将步骤2）筛选出的动态区域的静态特征点存入静态特征点，根据当前的静态特征点进一步优化位姿.

图 4

图 4 恒速跟踪模型中的双阶段位姿优化算法流程

Fig.4 Workflow of two-stage pose optimisation algorithm in constant-speed tracking model

1.2.2. 跟踪参考关键帧模型中的双阶段位姿优化算法

由于无法通过恒速跟踪模型从上一帧的地图点中获得足够的匹配点，采用跟踪参考关键帧模型进行匹配. 跟踪参考关键帧模型位姿估计步骤如下：1）为了加快当前帧与参考关键帧之间的特征点匹配，将当前普通帧的描述子转化为词袋向量，如图5所示；2）利用特征匹配函数将当前帧与参考关键帧进行特征点匹配；3）将上一帧的位姿作为当前帧位姿的初始值，通过优化3D-2D的重投影误差获得准确位；4）剔除优化后的匹配错误点.

图 5

图 5 参考关键帧跟踪过程

Fig.5 Tracking process of reference keyframe

针对动态区域中的动态特征点剔除与静态特征点保留问题，在跟踪参考关键帧模型中引入双阶段位姿优化算法，其执行流程如图6所示，具体步骤如下所示. 1）在动态区域与静态区域内进行特征点提取时，均采用ORB特征点提取技术；提取后，将动态区域提取的特征点与静态区域的特征点分开存储. 2）在计算当前帧静态点词袋模型的同时计算动态区域特征点的词袋模型. 3）利用特征匹配函数将当前帧的静态特征点与动态区域特征点同时与参考关键帧进行特征点匹配，保存动态区域特征点匹配的地图点. 4）将上一帧的位姿作为当前帧位姿的初始值，通过优化3D-2D的重投影误差获得位姿. 根据获得的位姿，通过3D-2D投影将动态区域特征点匹配的地图点投影至动态区域；计算投影点与特征点的位置距离，根据实验选定，当小于阈值8时，将其视为静态特征点. 计算完成后，重新进行位姿优化.

图 6

图 6 跟踪参考关键帧模型中的双阶段位姿优化算法流程

Fig.6 Workflow of two-stage pose optimisation algorithm in tracking reference keyframe model

1.2.3. 重定位模型中的双阶段位姿优化算法

重定位是拯救式的跟踪算法，一旦应用此算法就代表恒速跟踪模型与参考关键帧模型在估计位姿时均失效. 该算法的实现步骤比前2种算法复杂，具体如下. 1）计算当前帧CF的词袋向量，并找到与当前帧相似的重定位候选关键帧KF1、KF2，如图7所示. 2）遍历所有的候选关键帧，使用词袋进行快速匹配，在匹配点数大于15时，使用EPnP迭代方法获得初始位姿. 3）对于上一步结果中的内点进行光束法平差（bundle adjustment, BA）优化，统计BA优化后内点的数量，如果数量小于50，则将关键帧中未匹配的地图点投影到当前帧. 4）如果匹配点数量足够，则再进行一次BA优化；优化后，如果成功匹配数目达到30~50，则使用更小的窗口、更严格的描述子阈值重新进行投影匹配搜索来增加匹配点数目. 5）经过上述步骤，总匹配点数达到设定阈值50，则认为重定位成功；进行最后一次BA优化.

图 7

图 7 重定位候选关键帧的搜索过程

Fig.7 Search process for relocating candidate keyframe

为了改善重定位模型在动态环境中的位姿估计效果不佳的问题，在跟踪参考关键帧模型中引入双阶段位姿优化算法，执行流程如图8所示，具体步骤如下. 1）在动态区域与静态区域内进行特征点提取时，均采用ORB特征点提取技术；提取后，将动态区域提取的特征点与静态区域的特征点分开存储. 2）在计算当前帧静态点词袋模型的同时计算动态区域特征点的词袋模型，找到与当前帧静态特征点计算的单词相似的重定位候选关键帧. 3）遍历所有的候选关键帧，使用静态特征点词袋进行匹配，当匹配点大于15时，使用EPnP迭代方法获得初始位姿. 4）对前序结果中的内点执行 BA 优化，随后统计优化后内点的数量；若该数量小于 50，则将关键帧中未匹配的地图点投影至当前帧并完成匹配. 5）如果匹配点数量足够，则再进行一次BA优化；优化后，如果成功匹配数目达到30~50，则使用更小的窗口、更严格的描述子阈值重新进行投影匹配搜索来增加匹配点数目. 6）经过上述步骤，总匹配点数达到设定阈值50，则认为重定位成功；再进行一次BA优化. 7）根据最后一次优化获得的位姿，通过3D-2D投影将动态区域特征点匹配的地图点投影至动态区域，计算投影点与动态区域特征点的位置距离，根据实验选定，当小于设定值8时，将其视为静态特征点；计算完成后，进行最后一次BA优化.

图 8

图 8 重定位模型中的双阶段位姿优化算法流程

Fig.8 Workflow of two-stage pose optimisation algorithm in relocation model

1.3. 稠密地图重建

ORB-SLAM3算法仅构建稀疏地图，不利于后续研究. 在完成机器人定位之后，处理机器人路径规划问题就要利用稠密地图. 本研究所提算法在ORB-SLAM3三大线程的基础上添加稠密地图重建线程. 1）在开始跟踪线程之前，先进行动态区域判定，标记动态区域. 2）通过跟踪线程进行位姿预测，将确定为关键帧的图像传入稠密地图重建线程，同时传入关键的位姿，像素点的深度. 3）在利用关键帧图像的像素点进行构建点云时，须判断该像素点是否属于动态区域；若是，则进行第二次判断，判断其是否属于动态区域的静态特征点；若是，保留该像素点，并获取三维地图点的坐标：

(2)$ \left.\begin{array}{l} x_i=(u-c_x)\times z/f_x,\\ y_i=(v-c_y)\times z/f_y,\\ z_i=z.\end{array}\right\} $

式中：x_i、y_i、z_i为三维空间点云的坐标，f_x、f_y、c_x、c_y为相机的内参，u、v为图像像素点的像素坐标，z为该像素点的深度值. 若不是，则剔除该像素点；处理完该关键帧后，得到局部点云. 4）随着不断添加的新关键帧，系统会持续生成局部点云图；系统会将后续生成的局部点云图与之前所生成的局部点云拼接，并进行全局优化，以保证地图的一致性和准确性. 5）系统生成稠密地图. 执行流程如图9所示.

图 9

图 9 稠密地图重建流程

Fig.9 Workflow of dense map reconstruction

2. 实验结果与分析

实验采用TUM公开数据集进行测试. TUM数据集是德国慕尼黑工业大学机器视觉组发布的用于评估视觉SLAM、视觉里程计算法的权威数据集. 选用TUM RGB中的fr3高动态数据集序列，该序列包括4个子集：xyz、halfsphere、rpy和static. 算法运行环境：Ubuntu20.04操作系统，ROS和CUDA-11.3，CPU为Intel i9-12900，显卡为NVIDIA 3080.

2.1. 动态剔除效果

单纯使用目标检测来剔除动态区域特征点，虽然可以保证获取的特征点均为静态特征点，但是会丢失一部分静态特征点. 在进行位姿优化的过程中，采用的特征点的数目越多，获取的估计位姿就越准确. 加入位姿优化的特征点须为静态的特征点，否则将导致估计的位姿出现较大的误差. 本研究所提算法的具体表现如图10所示.

图 10

图 10 不同ORB-SLAM算法的动态剔除效果

Fig.10 Dynamic elimination effects of different ORB-SLAM algorithms

2.2. 动态环境测评

使用苏黎世联邦理工学院SLAM系统评估评测工具EVO（Python package for the evaluation of odometry and SLAM）评估所提算法在定位精度方面的性能. EVO能够对所提算法的位姿估计值与数据集中提供的真实相机位姿进行比较，2个关键评估指标为绝对轨迹误差（absolute trajectory error，ATE）与相对位姿误差（relative pose error，RPE）. 绝对轨迹误差用于评价算法的整体性能，它是相机位姿的真实值与估计值之间的差，直观反应算法精度和轨迹全局一致性. 相对位姿误差用于评价算法的漂移程度，它是相同2个时间戳内的位姿变换量的差. 二者的均方根误差公式分别为

(3)$ {\mathrm{RMSE}}_{\mathrm{A}}=\sqrt{\frac{1}{n}\sum \limits_{{i}=1}^{n}||\boldsymbol{P}_{{i}}-\boldsymbol{Q}_{{i}}|{|}^{2}}, $

(4)$ {\mathrm{RMSE}}_{\mathrm{R}}=\sqrt{\frac{1}{|I|_{({i,j})\in I}}||{\left({{\Delta }}\boldsymbol{P}_{{{i,j}}}\right)}^{-1}{{\Delta }}\boldsymbol{Q}_{{i},{j}}|{|}^{2}}. $

式中：P_i、Q_i分别为第i个时刻的真实位姿和估计位姿，n为关键帧数量，I为包含所有相邻帧对的索引集，$ \Delta {\boldsymbol{P}}_{i,j} $，$ \Delta {\boldsymbol{Q}}_{i,j} $分别为第i，j时刻间的相对位姿变换.

如表1所示为在ORB-SLAM算法中仅加入目标检测算法和在目标检测处理后加入双阶段位姿优化算法所估计位姿与真实位姿的绝对轨迹误差结果，其中σ为标准差. 实验结果表明，所提算法可以显著降低绝对轨迹误差. 在xyz序列中，仅加入目标检测技术的均方根误差和标准差分别由ORB-SLAM3算法中的0.897 6 m和0.402 2 m降低至0.019 4 m和0.009 9 m，分别降低了97.8%和97.5%；与仅加入目标检测技术相比，加入双阶段位姿优化算法的均方根误差和标准差分别降低为0.015 2 m和0.007 0 m，分别降低了21.6%和29.3%.

表 1 不同ORB-SLAM算法在TUM数据集中的绝对轨迹误差对比

Tab.1 Absolute trajectory error comparison of different ORB-SLAM algorithms on TUM dataset m

序列	ORB-SLAM3		仅加入目标检测算法		本研究算法
序列	RMSE_A	σ	RMSE_A	σ	RMSE_A	σ
xyz	0.8976	0.4022	0.0194	0.0099	0.0152	0.0070
rpy	0.6133	0.2022	0.0352	0.0203	0.0294	0.0149
halfphere	0.3743	0.2179	0.0459	0.0255	0.0214	0.0112
static	0.0205	0.0138	0.0064	0.0029	0.0058	0.0027

如表2所示为在ORB-SLAM3算法中仅加入目标检测算法和在目标检测处理后加入双阶段位姿优化算法所估计位姿与真实位姿的相对位姿误差结果. 实验结果表明，所提算法可以显著降低相对位姿误差. 在xyz序列中，仅加入目标检测技术的均方根误差和标准差分别由ORB-SLAM3算法中的0.681 4 m和0.386 1 m降低至0.034 8 m和0.015 3 m，分别降低了94.8%和96.0%；与仅加入目标检测技术相比，所提算法的均方根误差和标准差分别降低为0.020 0 m和0.006 8 m，分别降低了42.5%和55.5%.

表 2 不同ORB-SLAM算法在TUM数据集中的平移相对位姿误差对比

Tab.2 Comparison of translational relative pose error of different ORB-SLAM algorithms on TUM dataset m

序列	ORB-SLAM3		仅加入目标检测算法		本研究算法
序列	RMSE_R	σ	RMSE_R	σ	RMSE_R	σ
xyz	0.681 4	0.386 1	0.034 8	0.015 3	0.020 0	0.006 8
rpy	0.610 9	0.251 3	0.045 5	0.021 2	0.035 6	0.012 5
halfphere	0.387 5	0.239 9	0.061 4	0.015 5	0.026 2	0.010 9
static	0.079 1	0.049 3	0.015 1	0.002 0	0.011 6	0.001 0

如图11所示为2种算法在4个序列中绝对轨迹误差的可视化对比. 可以看出，ORB-SLAM3算法在动态环境中极易发生漂移现象，这主要由于环境中动态物体自身的运动和其对于静态物体操作所造成的（如动态物体对于静态物体的遮挡或移动）影响，这种现象极不利于位姿的准确估计. 所提算法在动态环境下，估计位姿与真实位姿的差值比ORB-SLAM3小，在xzy和halfphere序列中，2种算法的绝对轨迹误差结果显著不同.

图 11

图 11 TUM 数据集不同序列中2种ORB-SLAM算法的绝对轨迹误差可视化对比

Fig.11 Visualized comparison of absolute trajectory error between two ORB-SLAM algorithms across TUM-dataset sequences

进一步验证所提算法的有效性，对比不同SLAM算法在4个数据集上的实验效果，结果如表3所示. 参与对比的算法均为当前改进ORB-SLAM效果较好的算法，其中DS-SLAM 采用实例分割与几何方法；SG-SLAM 结合语义与几何信息；OVD-SLAM 融合深度、语义及几何信息；CFP-SLAM通过 YOLOv5目标检测网络与几何约束区分高低动态物体，采用关键点由粗到精的两阶段静态概率计算方法. 可以看出，在绝对轨迹误差对比中，所提算法在 rpy 和 static序列的均方根误差和标准差最小、误差最优，在其他序列中与其他算法误差相近.

表 3 不同SLAM算法在TUM数据集中的绝对轨迹误差对比

Tab.3 Absolute trajectory error comparison of different SLAM algorithms on TUM dataset m

算法	RMSE_A				σ
算法	xyz	rpy	halfphere	static	xyz	rpy	halfphere	static
DS-SLAM^[18]	0.0247	0.4442	0.0303	0.0081	0.0161	0.2350	0.0159	0.0036
SG-SLAM^[19]	0.0152	0.0324	0.0268	0.0073	0.0075	0.0187	0.0134	0.0034
OVD-SLAM^[20]	0.0135	0.0349	0.0229	0.0068	0.0068	0.0211	0.0111	0.0030
CFP-SLAM^[11]	0.0141	0.0368	0.0237	0.0066	0.0072	0.0230	0.0114	0.0030
本研究	0.0152	0.0294	0.0214	0.0058	0.0070	0.0149	0.0112	0.0027

2.3. 稠密地图重建效果

如图12所示，为了验证所提稠密地图构建方法的有效性，选取 TUM 动态数据集的 static 序列作为测试数据，对比 ORB-SLAM3 原生方法构建的稀疏地图与所提算法构建的稠密地图的性能差异. ORB-SLAM3 算法仅能构建稀疏地图，该稀疏地图仅包含离散分布的无关联点云，无法完整表征场景结构与物体轮廓. 所提算法采用位姿关联与深度拼接方法构建稠密地图：通过算法估计的精准位姿关联不同帧点云，再结合深度信息完成融合拼接，最终生成稠密地图. 对比ORB-SLAM3 算法生成的稀疏地图可以看出，本研究构建的稠密地图能呈现场景物体形状、空间布局等细节，提升了地图真实感.

图 12

图 12 不同ORB-SLAM算法生成的地图对比

Fig.12 Map comparison across different ORB-SLAM algorithms

2.4. 实际场景测试

为了测试所提算法在实际场景中的有效性，采用Orbbec Astra Pro深度相机进行相关实验. 实验环境设定于室内实验室场景，场景内包含人、座椅、办公桌、实验设备等常见室内物体，以模拟真实应用场景的复杂性. 场景测试分为数据采集、场景重建与结果分析3个核心流程，相机以640×480 分辨率与 30 FPS 帧率进行数据采集，采集过程如图13 所示. 在数据采集过程中，相机采集数据，在机器人操作系统（robot operating system，ROS）中发布相应话题，由算法订阅这些话题以获取传感器数据. 在场景重建过程中，检测图像中的动态区域，运用双阶段位姿优化算法进行位姿估计. 在相同场景下对比所提算法与ORB-SLAM3的实验效果，结果如图14所示. 经分析验证可知，相较于ORB-SLAM3算法，所提算法对动态环境具有更强的鲁棒性，能够有效保留动态物体内部的静态特征点. 如图15所示，所提算法利用已获取的关键帧构建稠密地图，该稠密地图细节完整，能够清晰地还原场景的三维结构.

图 13

图 13 数据收集过程

Fig.13 Data collection process

图 14

图 14 对比不同ORB-SLAM算法在真实场景的检测效果

Fig.14 Detection performance of different ORB-SLAM algorithms in real-world scenes

图 15

图 15 所提算法在真实场景中构建的稠密地图

Fig.15 Dense map constructed by proposed algorithm in real-world scenes

2.5. 实时性分析

在SLAM系统中，除了保证位姿估计的准确外，还要保证系统的实时性能. 为了分析所提算法的实时性能，统计系统中位姿估计各模块的运行时间（仅用CPU，CPU为Intel i9-12900），具体处理时间结果如表4所示. 其中t_Y11n为当前帧在YOLOv11n检测花费的时间， t_f为当前帧特征点提取操作花费的时间，t_t为跟踪阶段花费的时间，t_a为处理每帧花费的时间. 可以看出，所提算法在4组数据集实验下有较好的实时性能.

表 4 所提算法各模块在TUM数据集不同序列中的运行时间

Tab.4 Per-module runtime of proposed algorithm across TUM-dataset sequences ms

序列	t_Y11n	t_f	t_t	t_a
xyz	35.5	16.2	26.1	77.8
rpy	37.6	15.3	23.4	76.3
halfphere	35.5	22.6	33.1	91.2
static	35.7	21.7	14.9	72.3

DOI:10.13700/j.bh.1001-5965.2022.0376 [本文引用: 1]

3. 结　语

本研究提出融合YOLOv11n目标检测的ORB-SLAM3优化算法. 对于当前ORB-SLAM3算法在动态环境中位姿估计不准确的现象，采用目标检测技术提取动态区域，利用静态特征点进行位姿的初始估计，通过计算出的初始位姿，使用双阶段位姿优化算法筛选出动态区域的静态特征点，再对位姿进行进一步优化. 对于ORB-SLAM3算法存在的只能构建稀疏地图的问题，所提算法加入稠密地图构建线程，对于传入该线程的关键帧，获取对应的点云信息，并结合所估计的位姿进行点云拼凑，生成稠密地图. 在真实场景中进行相关实验验证. 实验结果表明，所提算法在动态环境下取得良好的位姿估计效果，且与当前改进较好的算法相比，在精度上表现相当. 所提算法在动态环境中的位姿优化过程，较为依赖于静态区域中所提取的静态特征点质量. 当面对当动态目标占据视场角较大时，默认为静态语义的物体，实际可能处于运动状态时，易出现检测效果欠佳的情况. 后续的研究将不断优化与改进算法，以提高算法的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CADENA C, CARLONE L, CARRILLO H, et al

Past, present, and future of simultaneous localization and mapping: toward the robust-perception age

[J]. IEEE Transactions on Robotics, 2016, 32 (6): 1309- 1332

DOI:10.1109/TRO.2016.2624754 [本文引用: 1]

[2]

王朋, 郝伟龙, 倪翠, 等

视觉SLAM方法综述

[J]. 北京航空航天大学学报, 2024, 50 (2): 359- 367

WANG Peng, HAO Weilong, NI Cui, et al

An overview of visual SLAM methods

[J]. Journal of Beijing University of Aeronautics and Astronautics, 2024, 50 (2): 359- 367

DOI:10.13700/j.bh.1001-5965.2022.0376 [本文引用: 1]

[3]

QIN T, LI P, SHEN S

VINS-mono: a robust and versatile monocular visual-inertial state estimator

[J]. IEEE Transactions on Robotics, 2018, 34 (4): 1004- 1020

DOI:10.1109/TRO.2018.2853729 [本文引用: 1]

[4]

ENGEL J, KOLTUN V, CREMERS D

Direct sparse odometry

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (3): 611- 625

DOI:10.1109/TPAMI.2017.2658577 [本文引用: 1]

[5]

KLEIN G, MURRAY D. Parallel tracking and mapping for small AR workspaces [C]// Proceedings of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara: IEEE, 2008: 225–234.

[6]

CARUSO D, ENGEL J, CREMERS D. Large-scale direct SLAM for omnidirectional cameras [C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg: IEEE, 2015: 141–148.

[7]

MUR-ARTAL R, MONTIEL J M M, TARDÓS J D

ORB-SLAM: a versatile and accurate monocular SLAM system

[J]. IEEE Transactions on Robotics, 2015, 31 (5): 1147- 1163

DOI:10.1109/TRO.2015.2463671 [本文引用: 1]

[8]

FORSTER C, PIZZOLI M, SCARAMUZZA D. SVO: fast semi-direct monocular visual odometry [C]// Proceedings of the IEEE International Conference on Robotics and Automation. Hong Kong: IEEE, 2014: 15–22.

DOI:10.13973/j.cnki.robot.220426 [本文引用: 1]

[9]

黄泽霞, 邵春莉

深度学习下的视觉SLAM综述

[J]. 机器人, 2023, 45 (6): 756- 768

HUANG Zexia, SHAO Chunli

Survey of visual SLAM based on deep learning

[J]. Robot, 2023, 45 (6): 756- 768

DOI:10.13973/j.cnki.robot.220426 [本文引用: 1]

[10]

BESCOS B, FÁCIL J M, CIVERA J, et al

DynaSLAM: tracking, mapping, and inpainting in dynamic scenes

[J]. IEEE Robotics and Automation Letters, 2018, 3 (4): 4076- 4083

DOI:10.1109/LRA.2018.2860039 [本文引用: 1]

[11]

HU X, ZHANG Y, CAO Z, et al. CFP-SLAM: a real-time visual SLAM based on coarse-to-fine probability in dynamic environments [C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. Kyoto: IEEE, 2022: 4399–4406.

[本文引用: 2]

[12]

CHANG J, DONG N, LI D

A real-time dynamic object segmentation framework for SLAM system in dynamic scenes

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 2513709

[13]

ZHANG J, HENEIN M, MAHONY R, et al. VDO-SLAM: a visual dynamic object-aware SLAM system [EB/OL]. (2021–12–14)[2025–07–03]. https://arxiv.org/pdf/2005.11052.

DOI:10.13973/j.cnki.robot.230195 [本文引用: 1]

[14]

张玮奇, 王嘉, 张琳, 等

SUI-SLAM: 一种面向室内动态环境的融合语义和不确定度的视觉SLAM方法

[J]. 机器人, 2024, 46 (6): 732- 742

ZHANG Weiqi, WANG Jia, ZHANG Lin, et al

SUI-SLAM: a semantics and uncertainty incorporated visual SLAM algorithm towards dynamic indoor environments

[J]. Robot, 2024, 46 (6): 732- 742

DOI:10.13973/j.cnki.robot.230195 [本文引用: 1]

[15]

翟伟光, 王峰, 马星宇, 等

YSG-SLAM: 动态场景下基于YOLACT的实时语义RGB-D SLAM系统

[J]. 兵工学报, 2025, 46 (6): 167- 179

DOI:10.12382/bgxb.2024.0443 [本文引用: 1]

ZHAI Weiguang, WANG Feng, MA Xingyu, et al

YSG-SLAM: a real-time semantic RGB-D SLAM based on YOLACT in dynamic scene

[J]. Acta Armamentarii, 2025, 46 (6): 167- 179

DOI:10.12382/bgxb.2024.0443 [本文引用: 1]

[16]

刘钰嵩, 何丽, 袁亮, 等

动态场景下基于光流的语义RGBD-SLAM算法

[J]. 仪器仪表学报, 2022, 43 (12): 139- 148

DOI:10.19650/j.cnki.cjsi.J2209856 [本文引用: 1]

LIU Yusong, HE Li, YUAN Liang, et al

Semantic RGBD-SLAM in dynamic scene based on optical flow

[J]. Chinese Journal of Scientific Instrument, 2022, 43 (12): 139- 148

DOI:10.19650/j.cnki.cjsi.J2209856 [本文引用: 1]

[17]

CAMPOS C, ELVIRA R, RODRÍGUEZ J J G, et al

ORB-SLAM3: an accurate open-source library for visual, visual–inertial, and multimap SLAM

[J]. IEEE Transactions on Robotics, 2021, 37 (6): 1874- 1890

DOI:10.1109/TRO.2021.3075644 [本文引用: 1]

[18]

YU C, LIU Z, LIU X J, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments [C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid: IEEE, 2019: 1168–1174.

[19]

CHENG S, SUN C, ZHANG S, et al

SG-SLAM: a real-time RGB-D visual SLAM toward dynamic scenes with semantic and geometric information

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 7501012