基于对比学习的可扩展交通图像自动标注方法

doi:10.3785/j.issn.1008-973X.2025.08.010

基于对比学习的可扩展交通图像自动标注方法

侯越^,, 李前辉, 袁鹏, 张鑫, 王甜甜, 郝紫微

兰州交通大学电子与信息工程学院，甘肃兰州 730000

Scalable traffic image auto-annotation method based on contrastive learning

HOU Yue^,, LI Qianhui, YUAN Peng, ZHANG Xin, WANG Tiantian, HAO Ziwei

School of Electronics and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

收稿日期: 2024-08-19

基金资助:

国家自然科学基金资助项目(62063014, 62363020)；甘肃省自然科学基金资助项目(22JR5RA365).

Received: 2024-08-19

Fund supported:

国家自然科学基金资助项目(62063014,62363020)；甘肃省自然科学基金资助项目(22JR5RA365).

作者简介 About authors

侯越（1979—），女，教授，从事大数据智能交通的研究.orcid.org/0000-0002-8289-329X.E-mail：houyue@mail.lzjtu.cn , E-mail：houyue@mail.lzjtu.cn

摘要

针对现有交通图像自动标注方法标注类别不可扩展、精度低的问题，提出基于模态间对比学习的可扩展交通图像自动标注方法. 该方法以文本和图像双模态数据为研究对象，通过对比学习捕获模态间特征的相似关系，采用模态间特征增强策略优化跨模态数据的有效对齐. 在文本特征提取阶段，提出文本距离融合编码模块，通过构建距离感知特征融合组件，增强文本序列的局部特征表达能力. 在图像特征提取阶段，设计可变形过滤卷积结构，在增强不规则目标识别能力的同时，有效过滤噪声信息. 建立组合对比损失函数，改进原有的损失结构，提升模态间正、负样本的区分度. 实验结果表明，相较于同类规模的其他模型，所提模型在BIT车辆数据集上的mAP0.5和mAP0.5:0.95分别提升了5.3%、4.8%，在交通图像自动标注方面，表现更优.

关键词： 图像标注 ; 对比学习 ; 双模态 ; 类别可扩展 ; 交通视频图像

Abstract

An expandable automatic annotation method for traffic images based on cross-modal contrastive learning was proposed aiming at the problems of non-scalable annotation categories and low accuracy in existing automatic annotation methods for traffic images. Dual-modal data comprising text and images were adopted as the research subjects, and the similarity relationships between modalities were captured through contrastive learning. An inter-modal feature enhancement strategy was employed to optimize the effective alignment of cross-modal data. A text-distance fusion encoding module was proposed in the text feature extraction stage, which enhanced the local feature representation capability of text sequences by constructing a distance-aware feature fusion component. A deformable filtering convolution structure was designed for image feature extraction, which effectively enhanced the recognition of irregular objects while filtering out noise information. The original loss structure was improved by establishing a combined contrastive loss function to enhance the discriminative ability between positive and negative cross-modal samples. The experimental results demonstrate that the proposed model achieves an improvement of 5.3% and 4.8% in mAP0.5 and mAP0.5:0.95 respectively on the BIT vehicle dataset compared with other models of similar scale, exhibiting superior performance in the automatic annotation of traffic images.

Keywords： image annotation ; contrastive learning ; dual-modality ; category expandability ; traffic video image

PDF (2904KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

侯越, 李前辉, 袁鹏, 张鑫, 王甜甜, 郝紫微. 基于对比学习的可扩展交通图像自动标注方法. 浙江大学学报(工学版)[J], 2025, 59(8): 1634-1643 doi:10.3785/j.issn.1008-973X.2025.08.010

HOU Yue, LI Qianhui, YUAN Peng, ZHANG Xin, WANG Tiantian, HAO Ziwei. Scalable traffic image auto-annotation method based on contrastive learning. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1634-1643 doi:10.3785/j.issn.1008-973X.2025.08.010

自动图像标注（automatic image annotation，AIA）技术是利用人工智能、模式识别或计算机视觉等方法对数字图像的视觉特征进行分析，从而为图像中的物体赋予特定语义标签的过程^[1]. 交通图像自动标注作为智慧交通与自动驾驶目标识别的重要技术手段，通过自动标注交通场景中的目标物体，实现对车辆、行人及其他交通元素的快速识别分类. 这一过程是后续各类决策应用的基础，直接决定着各类应用场景下智能化决策模型分析结果的有效性，在智慧交通综合规划及自动化诱导方面具有非常重要的意义.

现有的AIA工作主要依赖预训练的多标签目标检测模型实现^[2]，根据处理流程可以分为基于候选区域^[3-7]和端到端^[8-12] 2类方法. 前者以RCNN^[3]为代表，使用区域建议网络（region proposal network，RPN）生成候选框，从而进行分类和边界回归. 在复杂背景或高噪声环境下，候选框的数量剧增，标注效率降低. 端到端方法因实时性和准确性高的特点，逐渐受到关注. 谢禹等^[13]采用SSD算法，结合半监督学习实现了AIA，但固定尺寸的候选框限制了交通场景中多目标标注的精度. 乔人杰等^[14]提出基于YOLOv8的多目标标注方案，提升了多目标分割精度，但因仅使用固定的全连接层进行分类，难以适应动态类别的变化，缺乏可扩展性.

为了解决传统AIA方法标注类别不可扩展的问题，研究者们开始关注对比学习方法. Radford等^[15]提出对比语言-图像预训练模型（contrastive language image pre-training，CLIP）. 该方法通过构建跨模态正负样本对，实现了图像级的可扩展标注，但未考虑区域级的细分类标注，且缺乏真值（ground truth，GT）对模型的直接引导，导致标注精度较低. Zhong等^[16]针对文献[15]未能实现区域级细分类标注的问题，利用RPN截取区域的图像特征，实现了区域级的语言-图像特征对齐. 该方法在训练过程中使用伪真值计算损失，影响特征匹配的准确性，导致标注精度不足. Yang等^[17]针对文献[15]标注精度低的问题，引入标签-文本-图像三元组关系，通过标签与文本间的隐式映射提升图像级分类精度，但未解决区域级多目标的细分标注问题.

针对上述问题，本文提出基于模态间特征对比学习的可扩展交通图像自动标注方法（scalable traffic image annotation method via cross-modal feature contrast learning，SIAM-CML）. 该方法通过有监督训练策略，建立跨模态数据匹配，实现标注类别的有效扩展与精确标注. 在文本编码阶段，设计文本距离融合编码模块，增强文本局部特征的表达. 在图像编码阶段，以resnet50结合特征金字塔（feature pyramid networks，FPN）为主干网络，引入可变形过滤卷积增强图像特征，借助RPN进行区域多目标标注. 通过线性层映射双模态特征至同一低维空间，构建组合对比损失函数，提升正负样本的区分度，实现高效的跨模态数据对齐与精确的交通图像自动标注.

1. SIAM-CML方法

提出基于模态间特征对比学习的可扩展交通图像自动标注方法SIAM-CML. 模型架构如图1所示. SIAM-CML方法包括文本编码、区域图像编码、对比学习3部分. 其中，文本编码部分通过扩展类别文本生成增强的标签语义描述，利用文本距离融合编码模块捕获具有丰富局部语义信息的文本特征. 区域图像编码部分利用可变形视觉编码过滤模块，对经过RPN网络后的区域图像复杂目标特征进行提取. 对比学习部分利用线性层将文本特征与区域图像特征映射至同一低维特征空间，实现语义信息和区域图像特征的精确匹配.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 SIAM-CML模型的框架图

Fig.1 Framework diagram of SIAM-CML model

1.1. 区域语义表征

当进行区域语义特征提取时，仅使用“类别”标签作为文本编码器的输入，不能全面、有效地表征“类别”标签本身所蕴含的语义信息. 为了解决该问题，考虑“类别”标签本身的功能和特征，引入“增强的标签语义描述”，如图2所示. 通过增加特定的视觉特征和功能属性描述，增强原有标签的语义特征表达，以更好地支持模型训练和标注任务.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 增强的标签语义描述

Fig.2 Enhanced label semantic description

为了更准确、快速地将“增强的标签语义描述”转换为可有效表达所代表语义信息的文本特征，须进一步增强模型的特征提取和表示能力，降低模型复杂度，因此采用4layer-312dim的TinyBERT^[18]作为模型提取语义特征的基础主干网络${L_{{\mathrm{emb}}}}$. 通过${L_{{\mathrm{emb}}}}$，可以将“增强的标签语义描述”初步编码为表示“类别”标签信息的语义特征${\{ {L_m}\} _{m = 1,2,\cdots ,C}}$，其中C为类别数量.

为了捕捉文本序列中的局部上下文信息，并建模词语间的依赖和关联关系，提出文本距离融合编码模块. 该模块的结构如图3所示. 该模块由文本距离感知特征计算组件（text distance awareness feature calculation component，TDFC）和特征融合组件（feature fusion component，FFC）2部分组成.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 文本距离融合编码模块

Fig.3 Text distance fusion encoding module

在文本距离感知特征的计算过程中，经TinyBERT提取后的文本特征图表示为${{\boldsymbol{T}}^{C \times S \times {D_{{\mathrm{text}}}}}}$，其中S为统一序列长度，${D_{{\mathrm{text}}}}$为输出通道数. 文本距离感知特征计算部分将${\boldsymbol{T}}$分割为C个独立特征图${\boldsymbol{t}}_{c}^{S \times {D_{{\mathrm{text}}}}}(c = 1,2,\cdots ,C)$，分别对每个独立特征图${{\boldsymbol{t}}_c}$计算序列内距离，对应得到C个序列内距离感知特征图${\boldsymbol{g}}_{c}^{S \times S}(c = 1,2,\cdots ,C)$. 在第k个维度第c个序列中，$i$位置词语与$j$位置词语间的特征距离计算公式如下：

(1)$ d\left( {{\boldsymbol{g}}_c^i,{\boldsymbol{g}}_c^j} \right) = \sqrt {{{\sum\nolimits_{k = 1}^d {\left( {{\boldsymbol{g}}_c^i\left[ k \right] - {\boldsymbol{g}}_c^j\left[ k \right]} \right)} }^2}} . $

通过计算词语特征间的内距离，模型引入额外的特征维度，增强了对词语间差异性和相似性的捕捉能力，有效提升了模型在处理高变异性输入时的鲁棒性和泛化能力. 将独立特征图${{\boldsymbol{g}}_c}$依据下式组合，得到文本序列内距离感知特征${{\boldsymbol{G}}^{C \times S \times {D_{{\mathrm{text}}}}}}$.

(2)$ {\boldsymbol{G}} = {\mathrm{softmax}}\left[ {{\mathrm{stack}}\left[ {\left( {{{\boldsymbol{g}}_1},{{\boldsymbol{g}}_2},\cdots ,{{\boldsymbol{g}}_C}} \right)} \right]} \right]. $

特征融合组件使用多层感知机（multilayer perceptron，MLP），实现对${\boldsymbol{G}}$与${\boldsymbol{T}}$拼接后特征图的有效融合与维度变换. 本文的特征融合组件包括2层结构相同的Layer1、Layer2及1层全连接层Layer3，如图4所示. 通过Layer1和Layer2的双层感知机，模型能够捕捉类别文本序列的全局和局部多角度特征，增强对显著语义信息的关注. Layer3作为输出层，将高维特征映射至低维目标特征空间${D_{{\mathrm{text}}}}$，通过MLP将融合后的内距离感知特征$\hat {\boldsymbol{T}}$与原特征图${\boldsymbol{T}}$保持数据结构的一致性，从而在丰富特征表示的同时，保留原始特征的空间结构和信息密度，提高模型在面对复杂文本时的标注精确度和鲁棒性.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 特征融合组件

Fig.4 Feature fusion component

1.2. 区域图像表征

1.2.1. 可变形视觉编码模块

传统卷积神经网络通过固定大小的卷积核和池化层提取特征. 卷积感受野的固定使得该类方法难以捕捉图像的局部重要信息和细节. 特别地，当图像中的目标呈现为不规则形状时，固定大小的卷积核无法适应目标的形变，导致特征提取精度下降，影响模型的检测精度和整体性能.

为了解决该问题，提出可变形视觉编码模块，如图5所示. 该模块以resnet50为基础主干网络${V_{{\mathrm{emb}}}}$，在${V_{{\mathrm{emb}}}}$后引入可变形卷积（deformable ConvNets，DCN）. 该组件通过可学习偏移量，动态调整卷积核的采样位置，以适应输入特征图的形变，从而增强模型处理复杂场景的能力. 可变形卷积采样过程的公式可以表示为

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 可变形视觉编码模块

Fig.5 Deformable visual encoding module

(3)$ {\boldsymbol{y}}\left( {{{\boldsymbol{P}}_0}} \right) = \sum\nolimits_{{{\boldsymbol{P}}_n} \in R}^{} {{\boldsymbol{\omega}} \left( {{{\boldsymbol{P}}_n}} \right) \cdot } x\left( {{{\boldsymbol{P}}_0}+{{\boldsymbol{P}}_n}+\Delta {{\boldsymbol{P}}_n}} \right). $

式中：${\boldsymbol{x}}$为输入特征图，$\omega $为权重，${{\boldsymbol{P}}_n}$为${{\boldsymbol{P}}_0}$的邻近点，$R = \left\{ {\left( { - 1,1} \right),\left( { - 1,0} \right),\cdots ,\left( {1,0} \right),\left( {1,1} \right)} \right\}$，在位置${{\boldsymbol{P}}_0}$处，输出${\boldsymbol{y}}$等于对${{\boldsymbol{P}}_0}$的邻域采样值按权重$\omega $的加权求和. 通过在${{\boldsymbol{P}}_0}$之后添加偏置量$\Delta {{\boldsymbol{P}}_n}$，实现采样点的自适应变化，从而提高网络检测形变目标的能力.

为了进一步优化特征提取过程，设计由2D卷积块结构组成的过滤池（filter pool，FP）模块. 如图5所示，FPN输出4层不同分辨率的特征图${{\boldsymbol{f}}_0}$~${{\boldsymbol{f}}_3}$，高分辨率特征图通常包含更多的细节和局部信息，低分辨率特征图涵盖更全面的上下文信息. 通道数均为${D_{{\mathrm{img}}}}$，${\lambda _0}$、${\lambda _1}$、${\lambda _2}$、${\lambda _3}$为缩放因子，N为批次大小. 过滤池模块通过多层2D卷积操作，对FPN输出的多尺度特征图进行逐层过滤，可以有效减少不同层次的噪声干扰，降低背景噪声对特征提取的影响，提升模型的检测精度. 过滤池模块中单个2D卷积块的结构设计如图6所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 单个过滤池卷积块

Fig.6 Single filter pool convolution block

1.2.2. 区域图像特征的截取

为了实现标签文本特征与图像特征的精确匹配，必须确保区域图像特征的精确提取. 传统方法通常通过在主干网络上应用RPN或密集滑动窗口实现，其中RPN方法因其具有计算复杂度低、灵活性强和易集成等优点而被广泛应用. 在模型训练初期，利用RPN方法所得的预测坐标不准确，这会导致区域图像截取误差大，进而干扰后续文本和图像特征的对齐，影响模型的收敛方向，如图7（a）所示. 在训练过程中，使用真值坐标提取区域图像特征，但在损失函数的引导下训练RPN网络，如图7（b）所示. 在验证过程中，使用训练良好的RPN预测坐标值替代真值坐标，以确保特征提取的精度与模型的有效收敛.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 训练初期利用不同方法截取的区域图像

Fig.7 Region images captured by different methods in early training

在验证过程中，经过可变形视觉编码模块提取到的图像特征集合可以表示为${\{ {{\boldsymbol{I}}_j}\} _{j = 1,2,\cdots ,N}}$，使用RPN提取的区域图像集合可以表示为${\{ {{\boldsymbol{r}}_i}\} _{i = 1,2,\cdots ,n}}$，使用特征池化方法从基础特征图集合${\{ {{\boldsymbol{I}}_j}\} _{j = 1,2,\cdots ,N}}$中截取获得区域视觉表征：

(4)$ {{\boldsymbol{v}}_i} = {\mathrm{RoiAlign}}\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{I}}_j}} \right). $

式中：${{\boldsymbol{r}}_i} = \left[ {{x_1},{y_1},{x_2},{y_2}} \right]$，4个值分别表示RPN预测的每个区域图像的左上角与右下角横、纵坐标值.

1.3. 区域图像-语义对齐的对比学习

1.3.1. 区域图像-语义匹配

在双模态对比学习框架下，正负样本对的构建成为关键步骤. 在一个batch中，由文本距离融合编码模块提取的语义特征集合为${\{ {{\boldsymbol{l}}_m}\} _{m = 1,2,\cdots ,C}}$，由可变形视觉编码模块提取的图像特征集合为${\{ {{\boldsymbol{I}}_j}\} _{j = 1,2,\cdots ,N}}$，所有的区域图像特征为${\{ {{\boldsymbol{r}}_i}\} _{i = 1,2,\cdots ,n}}$. 由于单一图像可能包含多个目标区域，无法通过简单的顺序对应关系构建正样本对. 通过真值GT建立图像与类别语义的非顺序、多对一关系，形成图像-语义正样本对${\{ {{\boldsymbol{r}}_i},{{\boldsymbol{l}}_{m(i)}}\} _{i = 1,2,\cdots ,N}}$，区域图像表征与其他类别的语义特征构成负样本对${\{ {{\boldsymbol{r}}_i},{{\boldsymbol{l}}_{m\left( i \right)}}\} _{i \ne j|i,j = 1,2,\cdots ,N}}$.

(5)$ S\left({\boldsymbol{r}},{\boldsymbol{l}}\right)=\frac{{\boldsymbol{r}}\cdot {\boldsymbol{l}}}{\parallel {\boldsymbol{r}}\parallel \cdot \parallel {\boldsymbol{l}}\parallel }. $

通过线性变换将区域图像特征${{\boldsymbol{r}}_i}$和标签语义特征${{\boldsymbol{l}}_m}$映射到同一特征空间，根据式（5）计算两者的匹配得分$S\left( {{\boldsymbol{r}},{\boldsymbol{l}}} \right)$. 在标注预测时，对于每个区域图像${{\boldsymbol{r}}_i}$，选择具有最高匹配得分的类别语义${{\boldsymbol{l}}_m}$并将其链接到区域图像${{\boldsymbol{r}}_i}$，得到区域图像的预测类别$\{ {{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}\} $，实现模态间特征的有效对齐.

1.3.2. 损失函数

为了解决多模态数据特征对齐的问题，建立组合对比损失函数，以准确衡量模型的性能并优化参数更新.

(6)$ {\mathrm{Loss}} = \alpha {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{rpn}}}}+\beta {\mathrm{Los}}{{\mathrm{s}}_{\det }}. $

(7)$ {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{rpn}}}} = {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{obj}}}}+{\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{rpn}}\_{\mathrm{bbox}}}}. $

(8)$ {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{det}}}} = {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{bbox}}}}+{\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{clr}}}}. $

式中：${\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{rpn}}}}$和${\mathrm{Los}}{{\mathrm{s}}_{\det }}$分别为用于RPN和模型分类的损失函数；$\alpha $和$\beta $为各损失函数的权重参数，用于平衡不同任务的损失；${\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{obj}}}}$和${\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{rpn}}\_{\mathrm{bbox}}}}$分别为用于RPN的目标置信度损失和边界框（bounding box, BBox）回归损失；${\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{bbox}}}}$为模型预测头部分的边界框回归损失；${\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{clr}}}}$为对比损失函数，以约束模型文本编码器与视觉编码器收敛. 对于给定的图像-文本对$\{ {r_i},{l_m}\} $，对比损失函数表示如下：

(9)$ {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{clr}}}} = \frac{1}{n}\sum\nolimits_i^{} { - \ln\; {p\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}} \right)} } . $

式中：

(10)$ p\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}} \right) = \frac{{\exp \left( {S\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}} \right)/\tau } \right)}}{{\exp \left( {S\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}} \right)/\tau } \right)+\sum\nolimits_{k \in W _{{\boldsymbol{r}}_i}}^{} {\exp \left( {S\left( {{{\boldsymbol{r}}_i},{{\boldsymbol{l}}_m}} \right)/\tau } \right)} }}. $

其中$\tau $为预定的温度超参数，用于调节相似度分布的平滑性；$ {W _{{{\boldsymbol{r}}_i}}} $表示区域图像特征${{\boldsymbol{r}}_i}$的一组负文本样本，即不与区域特征${{\boldsymbol{r}}_i}$相匹配，但与同一批次中的其他区域特征相匹配的语义特征. 通过对比损失函数，可以有效地增强对比空间内正、负样本的特征区分度，帮助模型实现更精确的模态间特征对齐.

2. 实验与结果分析

2.1. 数据集描述

在BIT车辆和UA-DETRAC车辆检测数据集上验证模型的有效性. 其中，BIT车辆数据集^[19]由北京理工大学发布，包含2台相机在不同时间和地点拍摄的分辨率尺寸分别为1600×1200和1920×1080像素的9850个车辆图像，以7∶1∶2的比例将其随机划分为训练集、验证集和测试集. 该数据集包括公共汽车、微型公共汽车、小型货车、轿车、suv和卡车6类. UA-DETRAC数据集包含使用佳能EOS-550D相机在中国北京和天津的24个不同地点拍摄的10 h视频，分辨率尺寸为960×540像素，包括超过14万帧的图像、121万已标注的对象边界框. 实验从UA-DETRAC数据集中随机选取10%，以7∶1∶2的比例随机划分为训练集、验证集和测试集. 该数据集包括汽车、公交车、面包车、其他交通工具4个类别.

2.2. 实验环境及参数设置

实验所使用的硬件配置如下：中央处理器为Intel core i5-14400F，内存为24 GB，图形处理器（GPU）为NVIDIA GeForce RTX3090，显存为24 GB. 深度学习框架使用PyTorch 2.0.1，操作系统为Ubuntu 20.04，CUDA版本为CUDA 11.7.1.

实验训练过程采用随机梯度下降算法（stochastic gradient descent, SGD）作为优化器，初始学习率为0.01，动量为0.9，权重衰减率为0.0001，输入图片大小为640×640像素，训练批次大小设置为8，迭代次数为200，第1轮训练采用预热训练.

为了评估所提算法的有效性，采用IoU阈值为0.5时所有目标类别的平均均值精度mAP_0.5、IoU阈值为0.50~0.95（步长为0.05）的10个阈值下的检测精度的平均值mAP_0.5:0.95来综合评估模型的性能，采用平均精度AP来评价模型对单个目标类别的检测性能.

2.3. 对比实验结果与分析

2.3.1. BIT交通数据集的实验结果与分析

为了验证所提SIAM-CML方法的有效性，选择8种先进方法作为对比实验模型，在BIT交通数据集上与对比实验模型进行比较，各类别AP与不同IOU阈值下的平均精度mAP如表1所示.

表 1 不同算法在BIT交通数据集上的实验结果

Tab.1 Experimental result of different algorithms on BIT traffic dataset

模型	AP_0.5/%						mAP_0.5/%	mAP_0.5:0.95/%
模型	bus	microbus	minivan	sedan	suv	truck	mAP_0.5/%	mAP_0.5:0.95/%
Yolov4^[20]	94.1	93.6	90.3	92.3	90.5	93.2	92.3	76.7
SSD^[12]	95.3	94.7	91.6	93.2	92.1	96.1	93.8	77.1
DERT^[21]	96.8	96.3	93.7	95.5	94.4	96.5	95.6	79.6
Faster RCNN^[5]	97.0	96.5	94.2	95.8	94.1	96.5	95.7	79.9
Cascade RCNN^[7]	97.8	97.2	94.3	96.7	94.9	98.1	96.5	80.4
Yolov5s^[22]	96.3	95.7	92.8	94.6	93.9	96.7	95.0	78.5
Yolov8s^[23]	98.3	97.8	95.1	97.5	95.7	98.2	97.1	81.2
SIAM-CML	99.1	98.7	94.8	98.9	95.2	98.9	97.6	81.5

新窗口打开| 下载CSV

从表1可知，SIAM-CML方法在BIT数集上的mAP_0.5及mAP_0.5:0.95分别为97.6%和81.5%，在bus、microbus、minivan、sedan、suv、truck类别上的检测精度分别为99.1%、98.7%、94.8%、98.9%、95.2%、98.9%. 相较于Yolov4模型、SSD模型、DERT模型、Faster RCNN模型、Cascade RCNN模型、Yolov5s模型与Yolov8s模型，mAP_0.5分别提高了5.3%、3.8%、2.0%、1.9%、1.1%、2.6%、0.5%，mAP_0.5:0.95分别提高了4.8%、4.4%、1.9%、1.6%、1.1%、3.0%、0.3%，实验结果最佳. 这表明SIAM-CML方法在提升文本局部信息感知能力的同时，可以有效过滤图像中的噪声信息，使得图像特征与文本语义保持较高的一致性. 此外，BIT数据集的图像分辨率高且包含的目标数量较少，这使得模型在标注和特征提取过程中能够更加准确地识别和定位目标，显著提升了边界框的精确性.

2.3.2. UA-DETRAC数据集的实验结果与分析

为了验证SIAM-CML方法的有效性，在与现实场景更接近的UA-DETRAC车辆数据集上进行对比实验，实验结果如表2所示. 为了说明图像标注的情况，对部分数据集进行可视化标注效果展示，如图8所示. 从表2可知，所提的SIAM-CML方法在UA-DETRAC数据集上的mAP_0.5及mAP_0.5:0.95分别为86.4%和66.9%，在car、van、bus和others目标类别上的检测精度分别达到92.5%、91.7%、74.8%和86.6%. 相较于Yolov4模型、SSD模型、DERT模型、Faster RCNN模型、Cascade RCNN模型与Yolov5s模型，mAP_0.5分别提高了10.5%、6.7%、3.1%、2.9%、1.8%、3.4%， mAP_0.5:0.95分别提高了12.4%、8.1%、4.4%、4.0%、3.2%、5.3%. 本文方法的实验表现与Yolov8s模型精度相近的原因是UA-DETRAC数据集图像分辨率较低且包含大量的中小型目标物体，这使得在物体定位时区域框的精确性受到影响. 如何在增强图像、文本特征表现能力的同时，进一步提升区域框的目标识别精度，是后续SIAM-CML模型持续改进的方向.

表 2 不同算法在UA-DETRAC数据集上的实验结果

Tab.2 Experimental result of different algorithms on UA-DETRAC dataset

模型	AP_0.5/%				mAP_0.5/%	mAP_0.5:0.95/%
模型	car	bus	van	others	mAP_0.5/%	mAP_0.5:0.95/%
Yolov4	82.1	80.3	71.5	69.7	75.9	54.5
SSD	85.3	84.7	73.1	75.7	79.7	58.8
DERT	88.4	87.6	74.2	82.9	83.3	62.5
Faster RCNN	88.7	87.9	74.3	83.1	83.5	62.9
Cascade RCNN	90.3	98.7	75.1	83.3	84.6	63.7
Yolov5s	88.1	87.3	74.2	82.4	83.0	61.6
Yolov8s	93.4	92.6	75.5	87.3	87.2	67.5
SIAM-CML	92.5	91.7	74.8	86.6	86.4	66.9

新窗口打开| 下载CSV

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 UA-DETRAC数据集标注结果的可视化

Fig.8 Visualization of annotation result on UA-DETRAC dataset

综上所述，SIAM-CML方法在BIT交通数据集与UA-DETRAC数据集上的实验结果表明，采用双模态对比学习结构的模型方法，通过分别提取区域图像特征和类别文本特征，利用特征相似度进行类别划分，不仅能够达到与当前主流模型相当的标注精度，甚至在某些情况下表现更优越. 此外，与传统标注方法相比，该方法还具备更强的扩展性，能够有效适应新类别的引入，展现出较高的实用价值和应用前景.

2.4. 消融实验结果与分析

为了评估本文方法中不同模型设置的有效性，在BIT交通数据集上采用消融实验，分别测试不同改进方案下的模型性能，结果如表3所示.

表 3 消融实验结果

Tab.3 Ablation experiment result

模型	文本编码模块			视觉编码模块		对比学习			指标
SIAM-CML	Tinybert	MLP	TDFC	DCN	FP	2* CLS	LL	NL	mAP_0.5/%	mAP_0.5:0.95/%
（a）	√	—	—	—	—	—	√	—	92.1	76.5
（b）	√	√	—	—	—	—	√	—	92.6(+0.5)	77.2
（c）	√	√	√	—	—	—	√	—	95.2(+3.1)	78.6
（d）	√	√	√	√	—	—	√	—	95.7(+3.6)	79.3
（e）	√	√	√	√	√	—	√	—	96.8(+4.7)	80.8
（f）	√	√	√	√	√	√	√	—	97.6(+5.5)	81.5
（g）	√	√	√	√	√	√	—	√	97.0(+4.9)	80.9

新窗口打开| 下载CSV

表3中，样例（a）表示模型仅使用Tinybert作为文本特征提取方式，样例（b）表示引入MLP组件，样例（c）表示在引入MLP的同时设计文本距离感知特征计算组件TDFC，样例（d）表示引入可变形卷积组件DCN，样例（e）表示引入过滤池组件FP，样例（f）表示采用2倍的对比学习空间，样例（g）表示采用非线性层NL. 从表3可知，MLP组件可以有效地增强特征表达能力，进一步抽取标签文本的深层次语义信息. 文本距离感知特征计算组件TDFC通过计算文本序列内部的特征距离，能够捕捉到词与词间更精细的语义交互信息，有效提高模型的标注精度. 可变形卷积组件DCN通过灵活调整感受野的位置，特别是对于具有显著形变的目标，表现出更强的适应性和鲁棒性. 过滤池组件FP不仅有效过滤掉图像中的噪声特征，减少了无关信息干扰，同时通过加强对有用特征的聚焦，显著提升了模型的整体标注性能. 更大的对比学习空间可以增加正负样本数量和特征的多元化，有助于提高模型标注精度. 将对比学习线性映射层LL改为非线性层NL后，mAP_0.5和mAP_0.5:0.95降低，原因是多数传统单模态数据对比学习在进行相似度匹配时，多采用非线性映射，该方法能够捕捉数据中隐含的高维特征和复杂关系，从而在同一模态数据间可以有效提取和增强深层次信息. 对于不同模态间的数据，线性映射能够使其在共享的特征空间中保持原有的结构与分布，这有助于减少跨模态信息的扭曲和损失，对于后续的特征对齐过程，具有更好的效果.

2.5. 增量学习扩展性验证的实验结果与分析

为了验证SIAM-CML方法在类别扩展上的灵活性，并防止模型出现灾难性遗忘的问题，构建增量扩展数据集并进行实验，具体步骤如下：从BIT数据集中选择suv和truck类别图像共2214张，占扩展数据集的40%. 从UA-DETRAC数据集中随机抽取3321张图像，占扩展数据集的60%. 将新的增量扩展数据集以7∶1∶2的比例划分为训练集、验证集和测试集，模型使用在UA-DETRAC数据集上的训练权重作为初始权重. 训练过程旨在保持模型对原有4个类别的标注能力的同时，扩展其对suv和truck类别的标注能力. 在训练过程中，使用ReduceLROnPlateau函数作为学习率调整优化器，当连续5个迭代模型的Loss都不再下降时，自动降低学习率. 在模型的训练过程中，Loss随迭代次数N_i的变化如图9所示，各类别的精度与平均类别精度结果如表4所示.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 增量学习实验的损失

Fig.9 Loss of incremental learning experiment

表 4 SIAM-CML模型的增量学习实验结果

Tab.4 Incremental learning experiment result of SIAM-CML model

类别	mAP_0.5/%
car	95.0
bus	93.6
van	86.9
others	85.4
suv	83.5
truck	87.7
整体	88.7

新窗口打开| 下载CSV

从图9可以看出，在训练的前10个迭代过程中，SIAM-CML方法的Loss下降速度相对较快，当迭代次数达到50时，SIAM-CML方法的Loss基本已趋于平缓. 相较于Faster RCNN模型、Cascade RCNN模型、Yolov5s模型与Yolov8s模型，SIAM-CML方法的训练时间大幅度减少.

从表4可知，SIAM-CML方法在增量扩展数据集的car、bus、van、others、suv、truck类别上的检测精度分别达到95.0%、93.6%、86.9%、85.4%、83.5%、87.7%，平均mAP_0.5达到88.7%. SIAM-CML方法在分别提取双模态特征后，通过使用相似度计算的对比学习结构代替回归分类层，将类别预测问题转化为跨模态特征匹配问题，从而实现标注类别的动态扩展. 实验结果表明：在充分预训练的条件下，模型能够有效地捕获双模态表征，在引入新类别时收敛速度显著加快. 该框架无须预设分类头，克服了传统模型无法识别未见类别的局限，显著提升了可扩展性.

如图10所示为增量扩展数据集中2组图像在SIAM-CML方法不同阶段文本特征与图像特征之间的相似度得分SIM可视化图. 可知，随着训练周期的增加，SIAM-CML方法在区域图像特征与文本特征相似度匹配方面的表现逐渐提升. 在训练初期，模型分类结果的分布较分散，多个类别的图像特征与对应的文本特征匹配度较低. 这说明此时模型尚未充分学习到图像与文本特征之间的有效映射关系，特征相似度较均匀，模型的类别区分能力较弱. 在训练中期，部分类别的特征相似度有了显著提升，模型逐渐学习并捕捉到图像与文本特征之间的关联，能够更准确地将图像特征与对应的文本特征进行匹配. 在训练后期，特征相似度的分布更集中、准确，显示出各类别图像与文本特征之间的高度匹配. 整体来看，随着训练的深入，模型在多个类别上的相似度匹配能力明显增强. 这一结果验证了通过采用对比学习架构和对双模态数据特征的充分挖掘，能够有效帮助模型提升类别标注精度.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 对比学习分类可视化图

Fig.10 Contrastive learning classification visualization diagram

3. 结　语

本文针对交通图像自动标注中类别精度低、扩展性差的问题，提出基于模态间对比学习的SIAM-CML方法. 该方法通过类别增强的标签语义描述、文本距离融合编码及可变形过滤卷积，有效提升了双模态特征的表达和对齐能力，增强了区域特征感受野并抑制了噪声. 实验结果表明，SIAM-CML在多个数据集上实现了与主流模型相当或更优的标注精度，具备良好的扩展性和训练效率. 未来工作将聚焦于引入更先进的编码器及多类别、细分类标注的研究，以进一步提升标注性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

马艳春, 刘永坚, 解庆, 等

自动图像标注技术综述

[J]. 计算机研究与发展, 2020, 57 (11): 2348- 2374