面向无人驾驶的零样本记忆感知选择视觉跟踪模型

doi:10.3785/j.issn.1008-973X.2026.01.006

面向无人驾驶的零样本记忆感知选择视觉跟踪模型

李杰^,, 汪诗敏, 王长城, 崔亚峰, 汪俊杰, 周惟嘉, 胡铮, 兰海, 杜玲, 高猛

1. 北京建筑大学机电与车辆工程学院，北京 100044

2. 中国北方车辆研究所，北京 100072

3. 重庆文理学院，重庆 402160

Zero-shot memory-aware selection visual tracking model for unmanned driving

LI Jie^,, WANG Shimin, WANG Changcheng, CUI Yafeng, WANG Junjie, ZHOU Weijia, HU Zheng, LAN Hai, DU Ling, GAO Meng

1. School of Mechanical-electronic and Automobile Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China

2. China North Vehicle Research Institute, Beijing 100072, China

3. Chongqing University of Arts and Sciences, Chongqing 402160, China

收稿日期: 2025-03-12

基金资助:

国家自然科学基金资助项目（51675494）；高机动防暴车辆技术国家工程研究中心开放基金资助项目(2024NELEV001)；北京建筑大学研究生创新资助项目(PG2025154).

Received: 2025-03-12

Fund supported:

作者简介 About authors

李杰（1977—），男，博士，从事无人驾驶感知研究.orcid.org/0000-0002-1675-0004.E-mail：lijie1@bucea.edu.cn , E-mail：lijie1@bucea.edu.cn

摘要

为了保证无人驾驶车辆在遇到目标变形、被部分或完全遮挡等情况时仍然具有较高的跟踪准确性，构建零样本视觉跟踪模型. 以经典卡尔曼滤波为基础，在掩码预测阶段加入运动建模模块，考虑时间和空间的一致性并结合运动线索，对预测掩码进行循环校正. 采用混合评分系统，从预测掩码中选择最优掩码. 对于历史最优掩码，设计记忆感知选择模块，创建理想掩码候选库，并结合历史特征和信息线索，动态选择最合适的掩码. 在LaSOT、GOT-10k和OTB100数据集上对所提模型与HIPTrack-B₃₈₄等多个经典视觉跟踪模型的性能进行评估和对比，结果表明，所提模型的ROC曲线下面积（AUC）、精度、平均重叠度、交并比阈值0.50和0.75对应的重叠精度和成功率相比于对比方法中各指标的最优值分别提升了2.87%、2.73%、2.84%、3.18%、5.46%和1.62%，表明算法在多个指标上具有较好的性能.

关键词： 无人汽车 ; 视觉跟踪 ; 运动建模 ; 混合评分 ; 记忆感知选择 ; 零样本跟踪

Abstract

A zero-shot visual tracking model was proposed to ensure that the unmanned vehicles maintained high tracking accuracy even when the target was deformed or partially/fully occluded. Based on the classical Kalman filtering, a motion modeling module was introduced during the mask prediction phase and the predicted masks were iteratively refined by considering temporal-spatial consistency and integrating motion cues. A hybrid scoring system was employed to select the optimal mask from the predicted masks. For the historical optimal masks, a memory-aware selection module was designed to create an ideal mask candidate library and dynamically choose the most suitable mask by combining the historical features and information cues. The performance of the proposed method and several classical visual tracking models such as HIPTrack-B₃₈₄ was evaluated and compared on the LaSOT, GOT-10k, and OTB100 datasets. The results showed that, compared with the optimal values of the corresponding metrics in the comparison methods, the area under ROC curve (AUC), precision, average overlap, overlap precision at IoU thresholds 0.5 and 0.75, and success rate of the proposed model were improved by 2.87%, 2.73%, 2.84%, 3.18%, 5.46%, and 1.62%, respectively, indicating that the algorithm achieved good performance on multiple metrics.

Keywords： unmanned vehicle ; visual tracking ; motion modeling ; hybrid scoring ; memory-aware selection ; zero-shot tracking

PDF (4722KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李杰, 汪诗敏, 王长城, 崔亚峰, 汪俊杰, 周惟嘉, 胡铮, 兰海, 杜玲, 高猛. 面向无人驾驶的零样本记忆感知选择视觉跟踪模型. 浙江大学学报(工学版)[J], 2026, 60(1): 61-70 doi:10.3785/j.issn.1008-973X.2026.01.006

LI Jie, WANG Shimin, WANG Changcheng, CUI Yafeng, WANG Junjie, ZHOU Weijia, HU Zheng, LAN Hai, DU Ling, GAO Meng. Zero-shot memory-aware selection visual tracking model for unmanned driving. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 61-70 doi:10.3785/j.issn.1008-973X.2026.01.006

视觉目标跟踪（visual object tracking, VOT）技术在智能驾驶领域具有重要的应用价值，其核心目标是通过摄像头捕获的视频序列，基于初始目标（如车辆、行人或障碍物的边界框）实时追踪目标在后续帧中的运动轨迹^[1]. 面向汽车场景的VOT技术可以分为3类：基于判别模型的车辆运动预测、基于生成模型的动态目标特征建模，以及基于深度学习的协同跟踪^[2]. 在复杂交通场景中，例如城市道路中密集车流高速交互、隧道出入口处光照突变等，现有算法容易出现目标丢失或轨迹漂移的问题^[3-4]. 因此，需要研发面向智能驾驶场景的鲁棒视觉跟踪模型，该模型须具备抗遮挡能力和运动突变适应能力，从而确保自动驾驶系统在动态交通环境中的感知可靠性和决策实时性.

近年来，基于深度学习的视觉跟踪方法得到了快速发展. Danelljan等^[5]结合浅层卷积特征与SRDCF跟踪模型^[6]提出DeepSRDCF跟踪算法，结合深度学习和稀疏相关判别滤波器，实现了更强的特征表达能力和高效的目标匹配，但是仍然无法很好地处理长时间的目标遮挡和快速运动导致的遮挡问题. Bertinetto等^[7]提出SiamFC算法，基于孪生神经网络架构实现了高效的视觉跟踪，但是该方法在长时间的目标跟踪中容易受到背景干扰的影响. Chen等^[8]提出TransT算法，采用Transformer架构增强全局上下文建模能力，但是计算复杂度显著增加. Xu等^[9]提出AttnGAN算法，采用注意力机制优化目标特征的提取，使得模型更加关注目标的关键区域，但是在多目标跟踪任务中存在计算资源消耗过多的问题. Zhu等^[10]提出层级化互相关结构，融合多尺度特征以增强尺度鲁棒性，然而计算量随着层级数线性增长. 针对复杂遮挡场景，Yuan等^[11]引入记忆增强模块存储历史目标特征，通过注意力机制实现动态模板更新，但是长期记忆容易引入噪声干扰. Wang等^[12]提出联合跟踪与分割的算法SiamMask，提升了目标边界定位精度，然而该方法在目标快速运动时依然存在跟踪漂移现象. Li等^[13]提出SiamRPN系列算法，引入区域建议网络实现端到端检测与跟踪联合优化，能够在大量标注数据上学习到适合目标跟踪的特征表示，且能够应对目标被部分遮挡时的跟踪任务，但是在目标被完全遮挡的场景中性能下降. Ye等^[14]提出OSTrack算法，采用无解码器架构提升推理速度，结合在线学习和长短时网络，根据新的视频帧来自适应更新模型，但是当目标出现变形、与历史特征有较大差异时，算法会出现跟踪失误和目标丢失的情况. Yu等^[15]提出动态卷积核生成策略，通过目标感知的特征调制提升匹配精度，但未考虑背景干扰的影响，当背景与目标相似时容易出现漏检的问题. 现有算法对目标遮挡、变形等方面有相关研究，但是仅针对目标被部分遮挡和变形程度不大的情况，对于目标被完全遮挡和目标变形特征与历史特征不一致的情况，上述算法会出现跟踪不到的问题.

综上所述，当目标被遮挡、变形或者快速移动时，跟踪目标的特征会发生较大变化，甚至出现零样本画面，即目标被完全遮挡并短暂地从画面中消失^[16]. 现有的视觉跟踪模型倾向于优先考虑外观相似性而非空间和时间的一致性，忽略了运动线索，会使得后续帧的掩码预测不准确，从而导致跟踪错误^[17]. 为此提出零样本视觉跟踪模型，该模型考虑空间和时间的一致性，结合目标物体运动线索和历史特征信息，能够在目标被遮挡、变形等低质量场景中进行精准预测，减少预测失误. 针对其他方法运算复杂度高的问题，为了优化计算复杂度，设计轻量化记忆库，通过先进先出(first in first out, FIFO)队列限制历史帧数，显著降低存储与检索开销，并通过并行计算构建混合评分系统；在记忆交叉注意力模块中，采用稀疏注意力机制，以减少冗余计算.

1. 零样本视觉跟踪模型

无人驾驶车辆在处理视觉目标跟踪任务时，在目标快速移动或出现变形以及长短时遮挡的复杂场景中，尤其是在拥挤场景中面对快速移动或被遮挡的物体时，会出现目标丢失的情况^[18]. 考虑到下一帧图像的预测质量，将时间运动线索与运动感知记忆选择机制相结合，创建理想掩码记忆库，调节记忆特征的质量. 针对低质量场景下的预测任务，利用运动线索并结合历史线索，动态选择最合适的掩码，有效预测目标的未来运动，实现复杂跟踪场景下稳定、准确的跟踪，提高模型在动态环境中的适应性. 图1为零样本视觉跟踪模型的流程图.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 零样本视觉跟踪模型流程框架

Fig.1 Flow framework of zero-shot visual tracking model

在零样本视觉跟踪模型中，记忆注意力模块对输入图像提取高层次特征，捕捉图像中的关键信息，如边缘、纹理、形状等. 记忆注意力模块首先利用帧嵌入执行自注意力机制^[19]，然后在图像嵌入和记忆库内容之间执行交叉注意力机制，处理跨帧的上下文信息，以维持长期跟踪. 因此，无条件的图像嵌入会与之前的输出掩码、输入提示和对象指针联系起来. 在记忆解码器中，将记忆注意力层产生的记忆条件图像嵌入和原始图像的稀疏提示符（如点、边界框）作为输入，生成1组掩码、相应的掩码亲和力得分和目标出现分数. 对于第1帧$ {t}_{0} $，给定目标物体的地面真实边界框，将左上角和右下角点的位置编码作为输入，可以快速定位目标物体的区域，引导模型关注图像中的特定对象；对于序列的其余帧，使用上一帧的预测掩码$ {\boldsymbol{M}}_{t-1} $作为提示编码器的输入.

(1)$ {\boldsymbol{C}}=\left\{\left({\boldsymbol{M}}_0, s_{\text {mask }}, 0\right),\left({\boldsymbol{M}}_1, s_{\text {mask }}, 1\right), \cdots,\left({\boldsymbol{M}}_n, s_{\text {mask }}, 1\right)\right\} . $

式中：$ {\boldsymbol{C}} $为生成的掩码库；$ {\boldsymbol{M}}_{i} $($i\in \mathbf{Z} $)为生成的掩码，掩码指示每个像素是否属于某个特定的物体或类别，其中1表示该像素属于目标区域，0表示不属于目标区域；$ {s}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $为掩码亲和力得分，通过计算MAE损失得到；0、1为目标出现分数^[20]，通过交叉熵损失进行监督，判断掩码是否出现在帧中.

1.1. 运动建模模块

在零样本视觉跟踪框架中，使用基于卡尔曼滤波的方法增强边界框的位置和维度，预测目标的运动，从而在拥挤、目标快速移动或变形、被遮挡等复杂场景中提高跟踪的准确性和鲁棒性^[21]. 因此，在经典卡尔曼滤波的基础上进行改进，建立混合评分系统，包含多掩码选择的运动建模、亲和力分数、目标出现分数和KF-IoU运动分数. 对于基于卡尔曼滤波的运动建模，考虑历史运动线索，并结合该混合评分系统，从预测掩码M的n个候选者中选出置信度最高的掩码，提高模型在复杂视频场景中准确跟踪目标的能力. 将状态向量X定义为

(2)$ \boldsymbol{X}=[x, y, w, h, \dot{x}, \dot{y}, \dot{w}, \dot{h}]^{\mathrm{T}} . $

式中：x、y为边界框的中心坐标，w、h分别为边界框的宽度和高度，$ \dot{x}\mathrm{、}\dot{y}、\dot{w}\mathrm{、}\dot{h} $分别为横坐标变化率（即速度的x分量）、纵坐标变化率（即速度的y分量）、边界框宽度变化率、边界框高度变化率^[22].

对于每个掩码的状态向量，卡尔曼滤波器在预测-更新循环中运行^[23]：

(3)$ \boldsymbol{X}_{t+1 \mid t}=\boldsymbol{F} \boldsymbol{X}_{t \mid t} . $

式中：F为线性状态转换矩阵，$ {\boldsymbol{X}}_{t+1|t} $为t时刻估计的t+1时刻的状态向量，$ {\boldsymbol{X}}_{t|t} $为t时刻的状态向量.

计算预测掩码M和卡尔曼滤波器预测的状态，得出边界框之间的联合交集（IoU），计算出KF-IoU运动分数$ {s}_{\mathrm{k}\mathrm{f}} $. 对于每个掩码$ {\boldsymbol{M}}_{i} $，通过计算掩码非零像素的最小和最大的x和y坐标得出相应的边界框.

(4)$ s_{\mathrm{kf}}=\operatorname{IoU}\left(\boldsymbol{X}_{t+1 \mid t}, {\boldsymbol{M}}\right) . $

选择使KF-IoU运动分数和原始亲和力分数的加权和最大化的掩码：

(5)$ {\boldsymbol{M}}^*=\operatorname{argmax}\left(\alpha_{\mathrm{kf}} s_{\mathrm{kf}}\left({\boldsymbol{M}}_i\right)+\left(1-\alpha_{\mathrm{kf}}\right) s_{\text {mask }}\left({\boldsymbol{M}}_i\right)\right) . $

式中：$ {\alpha }_{\mathrm{k}\mathrm{f}} $为卡尔曼滤波器评分权重，初始值设置为0.5.

使用卡尔曼滤波器进行更新，结合目标候选掩码，校正预测值：

(6)$ \boldsymbol{X}_{t \mid t}=\boldsymbol{X}_{t \mid t-1}+\boldsymbol{K}_t\left(\boldsymbol{z}_t-\boldsymbol{H} \boldsymbol{X}_{t \mid t-1}\right) . $

式中：$ {\boldsymbol{z}}_{t} $为测量值，即从选择的掩码中得出的用于更新的边界框；$ {\boldsymbol{K}}_{t} $为卡尔曼滤波增益；H为观测矩阵^[24]. 此外，为了确保运动模型跟踪的准确性，只有当跟踪目标在过去的$ {N}_{\mathrm{m}\mathrm{a}\mathrm{x}} $帧中成功跟踪，才会考虑利用运动模块对目标进行预测.

1.2. 混合评分系统

在亲和力分数和目标出现分数的基础上，结合目标的运动分数，提出增强型记忆选择的混合评分系统. 根据掩码亲和力分数$ {s}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $、目标出现分数$ {s }_{\mathrm{o}\mathrm{b}\mathrm{j}} $和运动分数$ {s }_{\mathrm{k}\mathrm{f}} $这3个评分标准，从之前的时间步骤中选择帧. 当且仅当这3个评分都达到相应的阈值时，选择对应帧作为记忆的理想候选帧.

对于亲和力分数，通过计算预测掩码与真实掩码（或历史最佳掩码）的平均绝对误差损失，反映二者的相似度，以此评估掩码的预测质量.

(7)$ s_{\mathrm{mask}}=1-\frac{1}{n} \sum_{i=1}^n\left|{\boldsymbol{M}}_{\mathrm{pred}}^{(i)}-{\boldsymbol{M}}_{\mathrm{ref}}^{(i)}\right| . $

式中：$ {\boldsymbol{M}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}} $为当前帧的预测掩码，$ {\boldsymbol{M}}_{\mathrm{r}\mathrm{e}\mathrm{f}} $为参考掩码. 亲和力分数越高表示预测掩码与参考掩码越接近.

目标出现分数是判断当前帧是否存在的置信度：

(8)$ s_{\mathrm{obj}}=\sigma\left(f_{\mathrm{cls}}\left(\boldsymbol{F}_t\right)\right) . $

式中：$ {\boldsymbol{F}}_{t} $为当前帧的特征图；$ {f}_{\mathrm{c}\mathrm{l}\mathrm{s}} $为分类头（全连接层），输出未归一化的对数几率；$ \sigma $为Sigmoid函数，将对数几率映射到[0, 1.0]区间.

从当前帧开始往回迭代，重复验证. 根据上述评分函数选择N个内存，得到运动感知内存库$ {{\boldsymbol{R}}}_{t} $：

(9)$ {\boldsymbol{R}}_t=\left\{{\boldsymbol{M}}_i \mid f\left(s_{\text {mask}}, s_{\text {obj}}, s_{\mathrm{kf}}\right)=1\right\} . $

式中：$ (t-{N}_{\mathrm{m}\mathrm{a}\mathrm{x}})\leqslant i < t $，$ {N}_{\mathrm{m}\mathrm{a}\mathrm{x}} $为最大回溯帧数，t为内存库中的总帧数.

在掩码解码器生成输出掩码后，通过记忆编码器获得存储器嵌入. 每处理完1帧，就会创建1个新的存储器. 这些存储器嵌入会被添加到存储器库中，该存储器库为FIFO队列，包含了视频解码过程中生成的最新存储器. 在序列中的任何给定时间t，都可以形成内存库$ {{\boldsymbol{R}}}_{t} $. 利用混合评分系统，在每一帧的预测掩码中选择最理想的掩码，能够在一定程度上保留目标的最重要的特征；将每一帧的理想掩码构成内存库，从而保留目标的历史最佳特征.

1.3. 记忆感知选择模块

由于遮挡、目标变形以及场景变化等因素导致的低质量特征会影响后续帧的预测性能，需要创建记忆感知选择模块来选择关键和可靠的记忆信息，并有效过滤掉无关或不准确的特征. 记忆库对t时刻之前各帧的最理想掩码进行存储，构建对当前帧有用的记忆. 在低质量场景下，记忆感知选择模块会判断哪些掩码是最合适的，忽略无效信息，选择最合适的信息. 该模块负责4个关键功能，包括掩码分类、掩码优化、掩码死亡和记忆感知选择.

1）掩码分类：根据当前的预测掩码特征对掩码库中的掩码进行分类. 首先，与目标在当前帧之前的连续帧的特征进行比较，利用余弦相似度来衡量特征向量之间的相似度，计算特征一致性得分：

(10)$ S_{\text {feat }}\left(\boldsymbol{f}_t, \boldsymbol{f}_{t-i}\right)=\dfrac{\boldsymbol{f}_t \cdot \boldsymbol{f}_{t-i}}{\left\|\boldsymbol{f}_t\right\|\left\|\boldsymbol{f}_{t-i}\right\|} . $

式中：t为当前帧； $ {\boldsymbol{f}}_{t} $为当前帧的特征向量；$ {\boldsymbol{f}}_{t-i} $为历史第i帧的特征向量；$ {\boldsymbol{f}}_{t} \cdot {\boldsymbol{f}}_{t-i} $表示计算$ {\boldsymbol{f}}_{t} $和$ {\boldsymbol{f}}_{t-i} $的余弦相似度；$ \left|\right| \cdot \left|\right| $表示向量的模长，通过归一化特征向量，消除特征幅值差异对相似度的影响.

其次，结合运动模型预测目标的空间位置，通过计算边界框的IoU值对比当前位置与历史位置，得到空间位置一致性得分：

(11)$ S_{\mathrm{IoU}}\left(\boldsymbol{B}_{{\mathrm{pred}}}, \boldsymbol{B}_{t-i}\right)=\dfrac{\left|\boldsymbol{B}_{\mathrm{pred}} \cap \boldsymbol{B}_{t-i}\right|}{\left|\boldsymbol{B}_{\mathrm{pred}} \cup \boldsymbol{B}_{t-i}\right|} . $

式中：$ {\boldsymbol{B}}_{\rm{pred}} $为预测边界框，$ {\boldsymbol{B}}_{t-i} $为历史第i帧的边界框，$ {\boldsymbol{B}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}\cap {\boldsymbol{B}}_{t-i} $为2个边界框的交集区域，$ {\boldsymbol{B}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}\cup {\boldsymbol{B}}_{t-i} $为2个边界框的并集区域.

最后，根据掩码的历史运动线索，判断目标当前帧的运动状态，计算得到运动状态一致性得分：

(12)$ S_{\mathrm{mot}}=\exp \left(-\dfrac{v_t-v_{t-i}}{\sigma}\right). $

式中：$ {v}_{t} $为当前帧的目标速度，$ {v}_{t-i} $为历史第i帧的目标速度，速度标准差$ \sigma $=1.0.

如果掩码的以上3个分数均大于阈值，则被认为是最合适掩码；只满足其中任意2个分数，则被认为是次合适掩码；在其他情况下，认为该掩码是不合适掩码.

2）掩码优化：对次合适掩码进行迭代优化，根据历史帧的特征信息和位置信息更新掩码特征，动态补偿掩码特征. 将补偿后的掩码与历史信息进行对比、判断，利用反馈机制不断迭代优化掩码.

对于次合适掩码$ {\boldsymbol{M}}_{\mathrm{s}\mathrm{u}\mathrm{b}} $，通过历史特征和位置信息进行加权更新：

(13)$ {\boldsymbol{M}}_{\mathrm{ref}}^{(k)}=\sum_{i=1}^N \omega_i {\boldsymbol{M}}_{t-i}+\left(1-\sum_i \omega_i\right) {\boldsymbol{M}}_{\mathrm{sub}}. $

式中：$ {\omega }_{i} $为掩码更新权重，通过联合计算历史掩码的$ {S}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}} $和$ {S}_{\mathrm{I}\mathrm{o}\mathrm{U}} $得到；$ {\boldsymbol{M}}_{\mathrm{r}\mathrm{e}\mathrm{f}}^{\left(k\right)} $为优化更新之后的次合适掩码；$ {\boldsymbol{M}}_{t-i} $为内存库的历史掩码.

(14)$ \omega_i=\dfrac{\exp\; \left(S_{\text {feat }}+S_{\mathrm{IoU}}\right)}{\displaystyle{\sum}_{i=1}^N \exp\; \left(S_{\text {feat }}+S_{\mathrm{IoU}}\right)} . $

式中：指数函数exp表示对得分进行非线性变换，可以显著放大高得分历史掩码的权重，抑制低得分掩码的贡献.

3）掩码死亡：再次对优化后的次合适掩码进行掩码分类，如果仍然没有满足3个条件，该掩码将被丢弃，而未被丢弃的掩码被认为是最合适掩码. 根据3个条件分数对所有最合适掩码进行排序.

4）记忆感知选择：根据历史运动线索和历史特征信息动态选择记忆库中相关性最强的帧，可以跳过遮挡期间的低质量特征，提高模型对后续帧的预测性能. 为了增强记忆管理的优越性，通过对记忆库中的所有掩码计算特征一致性分数、空间位置一致性分数和运动状态一致性分数的加权和最大化数值，选择最合适的掩码来创建理想掩码候选库. 记忆感知实例级存储器通过感知机制对任务和数据进行动态管理，根据当前任务的需求，动态调整存储和更新策略.

(15)$ {\boldsymbol{M}}_{\mathrm{best}}=\operatorname{argmax}\left(\alpha S_{\mathrm{feat}}+\beta S_{\mathrm{IoU}}+\gamma S_{\mathrm{mot}}\right) . $

式中：$ \alpha 、\beta 、\gamma $为特征一致性权重、空间位置一致性权重、运动状态一致性权重，初始值分别设为0.3、0.3、0.4，且$ \alpha +\beta +\gamma = $1.0.

2. 数据集与评价指标

2.1. 数据集介绍

LaSOT数据集^[25]包含大约1 400个视频序列，总共有超过1 400 000帧的标注数据，涵盖了70多种不同的场景和目标类型. 视频中的目标包括人物、动物、车辆等，展示了多样的目标外观变化、运动模式以及遮挡情况，适合用于研究目标遮挡、变化等对跟踪算法的挑战.

GOT-10k数据集^[26]包含约10 000个视频序列，涉及大约560个不同的物体类别，从常见物体到复杂物体，种类丰富. 数据集包含广泛的场景，涵盖室内和室外环境、不同的光照条件、目标姿态以及尺度变化、遮挡、背景复杂等情况.

OTB100数据集^[27]包含100个视频序列. 这些视频具有多个不同的来源和背景，涵盖大量的现实场景和多样的目标类型，目标的运动、形态背景等特点在不同视频中均不相同. 此外，该数据集中有平稳运动、快速运动以及目标局部变形、部分遮挡、完全遮挡等情况.

2.2. 评价指标

分别使用标准化精度（$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $）、ROC曲线下面积（AUC）、精度（P）、平均重叠度（AO）、IoU阈值0.50和0.75下的重叠精度（$ {\mathrm{O}\mathrm{P}}_{0.50}{\mathrm{、}\mathrm{O}\mathrm{P}}_{0.75} $）、成功率（$ {S}_{\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}} $）、参数量（N_p）、单帧每秒浮点运算次数（FLOPs）、每秒运行帧数（FPS）作为评价指标. 其中$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $为模型在某一预测类别中正类预测的正确比例，通常用于衡量模型在不同数据集或不同目标上的表现差异. P为模型预测为正类的样本中真正为正类的比例. AO用于评估目标检测中预测框与真实框的重叠程度. $ {\mathrm{O}\mathrm{P}}_{0.50}{\mathrm{和}\mathrm{O}\mathrm{P}}_{0.75} $指标帮助衡量模型在不同重叠度要求下的准确性，IoU阈值越高，要求模型预测得越精确. $ {S}_{\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}} $衡量目标检测或分割任务中模型识别目标的成功率. N_p为模型中所有需要训练的参数数量，通常用来衡量模型的复杂度. FLOPs为模型在处理1帧图像时所需的浮点运算量，衡量模型的计算复杂度. FPS表示模型每秒能够处理多少帧数据，用于衡量模型的推理速度；FPS越高，说明模型的响应速度越快.

3. 实验验证

3.1. 实验设置

实验代码基于Pytorch框架开发，模型编程语言为Python. 用于训练和测试的实验平台搭载NVIDIA GeForce GTX 4060 Ti显卡和酷睿i5-12490F CPU. 在多个数据集上定量分析所提模型的有效性，并在背景复杂、目标被完全遮挡和部分遮挡的场景下，对其与HIPTrack算法^[28]进行可视化对比，定性分析算法的跟踪准确性.

对于各类参数，在参考各类文献并进行相关实验之后设定如下. 在混合评分系统中，${s }_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $、${s }_{\mathrm{o}\mathrm{b}\mathrm{j}} $、${s }_{\mathrm{k}\mathrm{f}} $阈值分别设定为$ {s }_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $=0.3, $ {s }_{\mathrm{o}\mathrm{b}\mathrm{j}} $= 0，$ {s }_{\mathrm{k}\mathrm{f}} $=0.15. 对于$ {s }_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $，在LaSOT验证集上进行网格搜索，将测试阈值范围设为[0.1, 0.5]，发现当$ {s }_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}}=0.3 $时，精准率和召回率达到峰值. 在零样本跟踪场景中，会出现目标完全消失的情况，因此需要放宽阈值，允许模型在目标短暂消失之后利用记忆感知选择模块恢复跟踪，设置$ {s }_{\mathrm{o}\mathrm{b}\mathrm{j}} $= 0. 通过消融实验发现当$ {s }_{\mathrm{k}\mathrm{f}} $< 0.3时，模型对快速运动物体的适应性最佳，且在该范围内，$ {s }_{\mathrm{k}\mathrm{f}} $对结果影响不大，因此取中间值$ {s }_{\mathrm{k}\mathrm{f}} $=0.15.

在理想掩码候选库中，设置$ {N}_{\mathrm{m}\mathrm{a}\mathrm{x}}=7 $，保留7帧信息（默认1当前帧+6历史帧）$ ；{S}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}} $=0.8，$ {S}_{\mathrm{I}\mathrm{o}\mathrm{U}} $=0.5，$ {S}_{\mathrm{m}\mathrm{o}\mathrm{t}} $=0.7，通过计算特征一致性分数、空间位置一致性分数和运动状态一致性分数的加权和最大化数值，选择最合适掩码. 当$ {N}_{\mathrm{m}\mathrm{a}\mathrm{x}} $>7时，推理速度显著下降（FPS从116 帧/s降至98 帧/s）. 在LaSOT验证集上测试$ {S}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}} $=[0.3, 0.9]，发现$ {S}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}} $在[0.7, 0.9]内误匹配率最低，且在此范围内取不同的值时对结果影响不大，因此取中间值$ {S}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}} $=0.8. $ {S}_{\mathrm{I}\mathrm{o}\mathrm{U}} $=0.5是目标检测与跟踪领域中的通用标准（如PASCAL VOC数据集）. 由于速度变化量服从正态分布，取σ=1，则$ {S}_{\mathrm{m}\mathrm{o}\mathrm{t}}={{\mathrm{e}}}^{-\Delta v}\geqslant 0.7 $对应于$ \Delta v\leqslant 0.36 $，符合运动学约束.

3.2. 仿真实验

采取不同的评价指标，在LaSOT、GOT-10k和OTB100数据集上对所提模型与主流跟踪算法进行对比，检测结果如表1所示. 其中，Zero-shot为提出的零样本视觉跟踪模型. 相比于对比方法中各指标的最优值，所提跟踪模型在LaSOT数据集上的AUC和P分别提升了2.87%和2.73%，在GOT-10k数据集上AO、$ {\mathrm{O}\mathrm{P}}_{0.50}{、\mathrm{O}\mathrm{P}}_{0.75} $分别提升了2.84%、3.18%和5.46%，在OTB100数据集上$ {S}_{\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}} $、AUC、P分别提升了1.62%、0.67%和2.17%.

表 1 不同数据集上各算法的视觉目标跟踪结果对比

Tab.1 Comparison of visual object tracking results of various algorithms on different datasets

算法	LaSOT			GOT-10k			OTB100
算法	$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $/%	AUC/%	P/%	AO/%	$ {\mathrm{O}\mathrm{P}}_{0.50} $/%	$ {\mathrm{O}\mathrm{P}}_{0.75} $/%	$ {S}_{\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}} $/%	AUC/%	P/%
HIPTrack-B₃₈₄^[28]	82.9	72.7	79.5	77.4	88.0	74.5	79.2	71.0	80.2
AQATrack-B₂₅₆^[29]	81.9	71.4	78.6	73.8	83.2	72.1	76.4	72.8	83.1
ODTrack-B₃₈₄^[30]	83.2	73.2	80.6	77.0	87.9	75.1	75.6	73.0	81.8
LoRAT-B₂₂₄^[31]	80.9	71.7	77.3	72.1	84.9	75.0	80.4	72.3	82.5
OSTrack₃₈₄^[15]	81.1	71.1	77.6	73.7	83.2	70.8	77.6	55.9	75.8
SiamPRN++^[32]	56.9	49.6	49.1	51.7	61.6	32.5	72.9	69.2	77.6
DiMP₂₈₈^[33]	64.1	56.3	56.0	61.1	71.7	49.2	66.4	74.3	78.4
Zero-shot	82.7	75.3	82.8	79.6	90.8	79.2	81.7	74.8	84.9

新窗口打开| 下载CSV

为了直观验证零样本视觉跟踪模型在不同场景中的适应性和跟踪稳定性，使用HIPTrack-B₃₈₄算法和所提算法，在目标背景复杂、目标被完全遮挡以及存在不同程度遮挡的拥挤场景下进行可视化对比分析，以证明零样本视觉跟踪模型的跟踪准确性和环境适应性. 结果如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 本研究算法与HIPTrack-B₃₈₄算法的跟踪结果可视化对比

Fig.2 Visual comparison of tracking results of proposed algorithm and HIPTrack-B₃₈₄ algorithm

由图2(a)可知，由于目标与背景在光线昏暗且分辨率较低的复杂场景中接近于黑色，跟踪模型容易出现预测不到的情况，导致跟踪失误. 零样本视觉跟踪算法在背景与目标相似、目标未知且快速变化的情况下能够在每一帧跟踪到目标. 即使对向出现强光，导致部分目标特征模糊，其仍然能够成功跟踪目标. HIPTrack-B₃₈₄在场景中出现强光时发生了短暂的漏跟踪现象，影响了行车安全.

从图2(b)可以看出，白色汽车在右转的过程中被采样车辆的车门框完全挡住，目标在采样画面中完全消失，但是目标车辆一旦在画面中再次出现，所提跟踪模型立即跟踪到了该目标车辆. HIPTrack-B₃₈₄算法在目标被完全遮挡之后再次出现在画面中时，不能立刻跟踪到目标.

图2(c)展示了当目标车辆在行驶过程中遇到不同程度的遮挡时，零样本视觉跟踪模型都能很好地跟踪到目标. 但是HIPTrack-B₃₈₄在目标被遮挡部分较多、关键特征无法识别的情况下，会出现跟踪不到目标的问题.

上述可视化结果证明了零样本视觉跟踪模型在拥挤场景中，当目标对象被完全遮挡、在视觉画面中完全消失时，能够再次捕捉目标并恢复跟踪. 即使在目标对象动作、坐标位置快速变化或者目标和背景复杂交织的情况下，其也能够精准捕捉到目标对象，证明了所建模型具有良好的跟踪准确性和环境适应性.

3.3. 消融实验

采取AUC、$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $、P、N_p、FLOPs和FPS指标，对运动建模和记忆感知选择模块进行消融实验，结果如表2所示. 从表2可知，当同时采用提出的2个模块时，具有最高的AUC、$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $和P值；相比于只采用记忆感知模块和只采用运动建模模块的情况，AUC分别提升了2.15%和4.83%，$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $分别提升了2.50%和4.84%，P分别提升了2.53%和4.89%. 对比结果说明零样本视觉跟踪模型具有更高的跟踪准确性. 对于模型复杂度和实时性的评价指标，在加入运动建模和记忆感知选择模块后，参数量有所增加但是增加量较小，相比于2种模块均不采用的情况，使用运动建模和记忆感知模块使参数量增加了13.16%，但是浮点运算量减少了48.40%，每秒运行帧数增加了48.72%，降低了计算复杂度.

表 2 运动建模和记忆感知选择模块定量消融实验结果

Tab.2 Quantitative ablation experiment results of motion modeling and memory perceptual selection modules

运动建模	记忆感知选择	AUC/%	$ {P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}}/ $%	P/%	N_p/M	FLOPs/(10¹²·s⁻¹)	FPS/(帧·s⁻¹)
×	×	68.32	76.16	73.59	3.8	25.0	78
√	×	70.81	78.87	76.47	4.0	16.5	94
×	√	72.67	80.67	78.23	4.2	14.7	80
√	√	74.23	82.69	80.21	4.3	12.9	116

新窗口打开| 下载CSV

实际的自动驾驶场景中通常不存在车辆变形的情况，因此对于目标变形场景的验证，选取机车人变形场景，在OTB100数据集上进行上述消融实验，以进行可视化验证，结果如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 运动建模与记忆感知选择模块定性消融实验结果

Fig.3 Qualitative ablation experiment results of motion modeling and memory perceptual selection modules

由于机车人从机器人形态转变为车辆形态，目标在物体结构形态上发生了较大的变化. 在不采用运动建模和记忆感知选择模块的情况下，由于只考虑目标的空间位置，图3(a)只能跟踪到目标尚未开始变形的部分. 运动建模跟踪模型结合了历史运动线索，能够根据目标的历史运动状态对目标未来运动状态进行预测，因此图3(b)能够跟踪到与预测目标运动状态一致的轨迹. 但是在图3(b)的第3张图片中，物体突然开始变形，运动状态发生突变，因此模型未能成功跟踪目标. 图3(c)中，记忆感知选择模块在历史记忆库中根据历史特征信息选择最合适掩码，因此该模型能够成功地跟踪与历史特征一致的目标. 但是在图3(c)的第6张图片中，由于目标完全变成了车辆，与历史形态不符，出现了漏跟踪现象. 图3(d)中，零样本视觉跟踪模型将运动建模模块与记忆感知选择模块结合，进一步提升了视觉跟踪模型的跟踪精度，成功跟踪了所有出现的目标.

为了直观展示2个模块的组合性能，选取目标变形过程，可视化分析消融实验的响应图，如图4所示. 从左至右分别为无运动建模和记忆感知选择模块、仅有运动建模模块、仅有记忆感知选择模块和兼具2个模块时的响应图. 由图4可知，当组合使用2个模块时，算法在识别目标特征区域时范围更大，且图中目标的显著特征区域及重要特征区域能够被大面积地识别，使得算法能够更好地跟踪目标，减少了漏检和误检现象，提升了跟踪准确度.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 运动建模与记忆感知选择模块的消融实验响应图

Fig.4 Ablation experiment response map of motion modeling and memory perceptual selection modules

4. 结　语

针对复杂场景下视觉跟踪容易受到目标变形、完全遮挡及快速运动影响的问题，提出零样本视觉跟踪模型，通过动态结合运动建模与记忆感知选择模块，显著提升了跟踪的鲁棒性和准确性. 主要结论如下：

（1）考虑时间和空间的一致性，对经典卡尔曼滤波算法进行改进，结合目标对象的运动线索完成掩码预测. 通过多掩码选择策略与混合评分系统，从预测掩码中选择最合适掩码. 有效预测了目标的运动状态，解决了目标突变或快速运动导致的跟踪漂移问题. 对有/无运动建模模块的情况进行对比分析，结果表明，评价指标AUC$ \mathrm{、}{P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}}、P $分别提升了2.15%、2.50%、2.53%.

（2）设计记忆感知选择模块，结合目标的历史特征与运动线索，构建动态记忆库，自适应选择最优掩码，解决了在遮挡或低质量场景下由目标短暂消失或特征退化导致的跟踪失败问题. 相比于无记忆感知选择模块的情况，使用记忆感知选择模块时AUC$ \mathrm{、}{P}_{\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}} $、P分别提升了4.83%、4.84%、4.89%.

（3）在LaSOT、GOT-10k和OTB100数据集上的实验结果表明，零样本视觉跟踪模型在多项指标上优于主流方法. 相比于对比算法中各指标的最优值，在LaSOT数据集上，所提模型的AUC与P分别提升了2.87%和2.73%；在GOT-10k数据集上，AO和OP_0.75分别提升了2.84%和5.46%；在OTB100数据集上，$ {S}_{\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}} $提升了1.62%. 消融实验证明了模块结合的有效性，运动建模与记忆感知选择模块结合后的AUC进一步提升到74.23%，较基线提升了8.65%.

针对目标相似的拥挤场景（如场景中有相同型号和颜色的车型），未来将设计残差连接，使模型能够更好地捕捉细节特征，从而区分实际目标与相似目标. 对于图像质量差（相机分辨率在480p以下）或相机出现故障的问题，未来将融合多种传感器数据，弥补单一传感器在存在噪声和特征模糊情况下的不足，进一步提升模型应对不同场景和突发情况的能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

于明鑫, 王长龙, 张玉华, 等

复杂环境下视觉目标跟踪研究现状及发展

[J]. 航空兵器, 2024, 31 (3): 40- 50

DOI:10.12132/ISSN.1673-5048.2023.0112 [本文引用: 1]

YU Mingxin, WANG Changlong, ZHANG Yuhua, et al

Survey of visual tracking algorithms in the complex scenarios

[J]. Aero Weaponry, 2024, 31 (3): 40- 50

DOI:10.12132/ISSN.1673-5048.2023.0112 [本文引用: 1]

[2]

侯志强, 赵佳鑫, 陈语, 等

用于长时视觉跟踪的级联目标漂移判定网络

[J]. 北京航空航天大学学报, 2025, 51 (7): 2240- 2252