基于对比学习的可扩展交通图像自动标注方法
Scalable traffic image auto-annotation method based on contrastive learning
收稿日期: 2024-08-19
基金资助: |
|
Received: 2024-08-19
Fund supported: | 国家自然科学基金资助项目(62063014,62363020);甘肃省自然科学基金资助项目(22JR5RA365). |
作者简介 About authors
侯越(1979—),女,教授,从事大数据智能交通的研究.orcid.org/0000-0002-8289-329X.E-mail:
针对现有交通图像自动标注方法标注类别不可扩展、精度低的问题,提出基于模态间对比学习的可扩展交通图像自动标注方法. 该方法以文本和图像双模态数据为研究对象,通过对比学习捕获模态间特征的相似关系,采用模态间特征增强策略优化跨模态数据的有效对齐. 在文本特征提取阶段,提出文本距离融合编码模块,通过构建距离感知特征融合组件,增强文本序列的局部特征表达能力. 在图像特征提取阶段,设计可变形过滤卷积结构,在增强不规则目标识别能力的同时,有效过滤噪声信息. 建立组合对比损失函数,改进原有的损失结构,提升模态间正、负样本的区分度. 实验结果表明,相较于同类规模的其他模型,所提模型在BIT车辆数据集上的mAP0.5和mAP0.5:0.95分别提升了5.3%、4.8%,在交通图像自动标注方面,表现更优.
关键词:
An expandable automatic annotation method for traffic images based on cross-modal contrastive learning was proposed aiming at the problems of non-scalable annotation categories and low accuracy in existing automatic annotation methods for traffic images. Dual-modal data comprising text and images were adopted as the research subjects, and the similarity relationships between modalities were captured through contrastive learning. An inter-modal feature enhancement strategy was employed to optimize the effective alignment of cross-modal data. A text-distance fusion encoding module was proposed in the text feature extraction stage, which enhanced the local feature representation capability of text sequences by constructing a distance-aware feature fusion component. A deformable filtering convolution structure was designed for image feature extraction, which effectively enhanced the recognition of irregular objects while filtering out noise information. The original loss structure was improved by establishing a combined contrastive loss function to enhance the discriminative ability between positive and negative cross-modal samples. The experimental results demonstrate that the proposed model achieves an improvement of 5.3% and 4.8% in mAP0.5 and mAP0.5:0.95 respectively on the BIT vehicle dataset compared with other models of similar scale, exhibiting superior performance in the automatic annotation of traffic images.
Keywords:
本文引用格式
侯越, 李前辉, 袁鹏, 张鑫, 王甜甜, 郝紫微.
HOU Yue, LI Qianhui, YUAN Peng, ZHANG Xin, WANG Tiantian, HAO Ziwei.
自动图像标注(automatic image annotation,AIA)技术是利用人工智能、模式识别或计算机视觉等方法对数字图像的视觉特征进行分析,从而为图像中的物体赋予特定语义标签的过程[1]. 交通图像自动标注作为智慧交通与自动驾驶目标识别的重要技术手段,通过自动标注交通场景中的目标物体,实现对车辆、行人及其他交通元素的快速识别分类. 这一过程是后续各类决策应用的基础,直接决定着各类应用场景下智能化决策模型分析结果的有效性,在智慧交通综合规划及自动化诱导方面具有非常重要的意义.
现有的AIA工作主要依赖预训练的多标签目标检测模型实现[2],根据处理流程可以分为基于候选区域[3-7]和端到端[8-12] 2类方法. 前者以RCNN[3]为代表,使用区域建议网络(region proposal network,RPN)生成候选框,从而进行分类和边界回归. 在复杂背景或高噪声环境下,候选框的数量剧增,标注效率降低. 端到端方法因实时性和准确性高的特点,逐渐受到关注. 谢禹等[13]采用SSD算法,结合半监督学习实现了AIA,但固定尺寸的候选框限制了交通场景中多目标标注的精度. 乔人杰等[14]提出基于YOLOv8的多目标标注方案,提升了多目标分割精度,但因仅使用固定的全连接层进行分类,难以适应动态类别的变化,缺乏可扩展性.
为了解决传统AIA方法标注类别不可扩展的问题,研究者们开始关注对比学习方法. Radford等[15]提出对比语言-图像预训练模型(contrastive language image pre-training,CLIP). 该方法通过构建跨模态正负样本对,实现了图像级的可扩展标注,但未考虑区域级的细分类标注,且缺乏真值(ground truth,GT)对模型的直接引导,导致标注精度较低. Zhong等[16]针对文献[15]未能实现区域级细分类标注的问题,利用RPN截取区域的图像特征,实现了区域级的语言-图像特征对齐. 该方法在训练过程中使用伪真值计算损失,影响特征匹配的准确性,导致标注精度不足. Yang等[17]针对文献[15]标注精度低的问题,引入标签-文本-图像三元组关系,通过标签与文本间的隐式映射提升图像级分类精度,但未解决区域级多目标的细分标注问题.
针对上述问题,本文提出基于模态间特征对比学习的可扩展交通图像自动标注方法(scalable traffic image annotation method via cross-modal feature contrast learning,SIAM-CML). 该方法通过有监督训练策略,建立跨模态数据匹配,实现标注类别的有效扩展与精确标注. 在文本编码阶段,设计文本距离融合编码模块,增强文本局部特征的表达. 在图像编码阶段,以resnet50结合特征金字塔(feature pyramid networks,FPN)为主干网络,引入可变形过滤卷积增强图像特征,借助RPN进行区域多目标标注. 通过线性层映射双模态特征至同一低维空间,构建组合对比损失函数,提升正负样本的区分度,实现高效的跨模态数据对齐与精确的交通图像自动标注.
1. SIAM-CML方法
提出基于模态间特征对比学习的可扩展交通图像自动标注方法SIAM-CML. 模型架构如图1所示. SIAM-CML方法包括文本编码、区域图像编码、对比学习3部分. 其中,文本编码部分通过扩展类别文本生成增强的标签语义描述,利用文本距离融合编码模块捕获具有丰富局部语义信息的文本特征. 区域图像编码部分利用可变形视觉编码过滤模块,对经过RPN网络后的区域图像复杂目标特征进行提取. 对比学习部分利用线性层将文本特征与区域图像特征映射至同一低维特征空间,实现语义信息和区域图像特征的精确匹配.
图 1
1.1. 区域语义表征
当进行区域语义特征提取时,仅使用“类别”标签作为文本编码器的输入,不能全面、有效地表征“类别”标签本身所蕴含的语义信息. 为了解决该问题,考虑“类别”标签本身的功能和特征,引入“增强的标签语义描述”,如图2所示. 通过增加特定的视觉特征和功能属性描述,增强原有标签的语义特征表达,以更好地支持模型训练和标注任务.
图 2
为了更准确、快速地将“增强的标签语义描述”转换为可有效表达所代表语义信息的文本特征,须进一步增强模型的特征提取和表示能力,降低模型复杂度,因此采用4layer-312dim的TinyBERT[18]作为模型提取语义特征的基础主干网络
为了捕捉文本序列中的局部上下文信息,并建模词语间的依赖和关联关系,提出文本距离融合编码模块. 该模块的结构如图3所示. 该模块由文本距离感知特征计算组件(text distance awareness feature calculation component,TDFC)和特征融合组件(feature fusion component,FFC)2部分组成.
图 3
在文本距离感知特征的计算过程中,经TinyBERT提取后的文本特征图表示为
通过计算词语特征间的内距离,模型引入额外的特征维度,增强了对词语间差异性和相似性的捕捉能力,有效提升了模型在处理高变异性输入时的鲁棒性和泛化能力. 将独立特征图
特征融合组件使用多层感知机(multilayer perceptron,MLP),实现对
图 4
1.2. 区域图像表征
1.2.1. 可变形视觉编码模块
传统卷积神经网络通过固定大小的卷积核和池化层提取特征. 卷积感受野的固定使得该类方法难以捕捉图像的局部重要信息和细节. 特别地,当图像中的目标呈现为不规则形状时,固定大小的卷积核无法适应目标的形变,导致特征提取精度下降,影响模型的检测精度和整体性能.
为了解决该问题,提出可变形视觉编码模块,如图5所示. 该模块以resnet50为基础主干网络
图 5
式中:
为了进一步优化特征提取过程,设计由2D卷积块结构组成的过滤池(filter pool,FP)模块. 如图5所示,FPN输出4层不同分辨率的特征图
图 6
1.2.2. 区域图像特征的截取
图 7
图 7 训练初期利用不同方法截取的区域图像
Fig.7 Region images captured by different methods in early training
在验证过程中,经过可变形视觉编码模块提取到的图像特征集合可以表示为
式中:
1.3. 区域图像-语义对齐的对比学习
1.3.1. 区域图像-语义匹配
在双模态对比学习框架下,正负样本对的构建成为关键步骤. 在一个batch中,由文本距离融合编码模块提取的语义特征集合为
通过线性变换将区域图像特征
1.3.2. 损失函数
为了解决多模态数据特征对齐的问题,建立组合对比损失函数,以准确衡量模型的性能并优化参数更新.
式中:
式中:
其中
2. 实验与结果分析
2.1. 数据集描述
在BIT车辆和UA-DETRAC车辆检测数据集上验证模型的有效性. 其中,BIT车辆数据集[19]由北京理工大学发布,包含2台相机在不同时间和地点拍摄的分辨率尺寸分别为
2.2. 实验环境及参数设置
实验所使用的硬件配置如下:中央处理器为Intel core i5-14400F,内存为24 GB,图形处理器(GPU)为NVIDIA GeForce RTX3090,显存为24 GB. 深度学习框架使用PyTorch 2.0.1,操作系统为Ubuntu 20.04,CUDA版本为CUDA 11.7.1.
实验训练过程采用随机梯度下降算法(stochastic gradient descent, SGD)作为优化器,初始学习率为0.01,动量为0.9,权重衰减率为
为了评估所提算法的有效性,采用IoU阈值为0.5时所有目标类别的平均均值精度mAP0.5、IoU阈值为0.50~0.95(步长为0.05)的10个阈值下的检测精度的平均值mAP0.5:0.95来综合评估模型的性能,采用平均精度AP来评价模型对单个目标类别的检测性能.
2.3. 对比实验结果与分析
2.3.1. BIT交通数据集的实验结果与分析
为了验证所提SIAM-CML方法的有效性,选择8种先进方法作为对比实验模型,在BIT交通数据集上与对比实验模型进行比较,各类别AP与不同IOU阈值下的平均精度mAP如表1所示.
表 1 不同算法在BIT交通数据集上的实验结果
Tab.1
模型 | AP0.5/% | mAP0.5/% | mAP0.5:0.95/% | |||||
bus | microbus | minivan | sedan | suv | truck | |||
Yolov4[20] | 94.1 | 93.6 | 90.3 | 92.3 | 90.5 | 93.2 | 92.3 | 76.7 |
SSD[12] | 95.3 | 94.7 | 91.6 | 93.2 | 92.1 | 96.1 | 93.8 | 77.1 |
DERT[21] | 96.8 | 96.3 | 93.7 | 95.5 | 94.4 | 96.5 | 95.6 | 79.6 |
Faster RCNN[5] | 97.0 | 96.5 | 94.2 | 95.8 | 94.1 | 96.5 | 95.7 | 79.9 |
Cascade RCNN[7] | 97.8 | 97.2 | 94.3 | 96.7 | 94.9 | 98.1 | 96.5 | 80.4 |
Yolov5s[22] | 96.3 | 95.7 | 92.8 | 94.6 | 93.9 | 96.7 | 95.0 | 78.5 |
Yolov8s[23] | 98.3 | 97.8 | 95.1 | 97.5 | 95.7 | 98.2 | 97.1 | 81.2 |
SIAM-CML | 99.1 | 98.7 | 94.8 | 98.9 | 95.2 | 98.9 | 97.6 | 81.5 |
从表1可知,SIAM-CML方法在BIT数集上的mAP0.5及mAP0.5:0.95分别为97.6%和81.5%,在bus、microbus、minivan、sedan、suv、truck类别上的检测精度分别为99.1%、98.7%、94.8%、98.9%、95.2%、98.9%. 相较于Yolov4模型、SSD模型、DERT模型、Faster RCNN模型、Cascade RCNN模型、Yolov5s模型与Yolov8s模型,mAP0.5分别提高了5.3%、3.8%、2.0%、1.9%、1.1%、2.6%、0.5%,mAP0.5:0.95分别提高了4.8%、4.4%、1.9%、1.6%、1.1%、3.0%、0.3%,实验结果最佳. 这表明SIAM-CML方法在提升文本局部信息感知能力的同时,可以有效过滤图像中的噪声信息,使得图像特征与文本语义保持较高的一致性. 此外,BIT数据集的图像分辨率高且包含的目标数量较少,这使得模型在标注和特征提取过程中能够更加准确地识别和定位目标,显著提升了边界框的精确性.
2.3.2. UA-DETRAC数据集的实验结果与分析
为了验证SIAM-CML方法的有效性,在与现实场景更接近的UA-DETRAC车辆数据集上进行对比实验,实验结果如表2所示. 为了说明图像标注的情况,对部分数据集进行可视化标注效果展示,如图8所示. 从表2可知,所提的SIAM-CML方法在UA-DETRAC数据集上的mAP0.5及mAP0.5:0.95分别为86.4%和66.9%,在car、van、bus和others目标类别上的检测精度分别达到92.5%、91.7%、74.8%和86.6%. 相较于Yolov4模型、SSD模型、DERT模型、Faster RCNN模型、Cascade RCNN模型与Yolov5s模型,mAP0.5分别提高了10.5%、6.7%、3.1%、2.9%、1.8%、3.4%, mAP0.5:0.95分别提高了12.4%、8.1%、4.4%、4.0%、3.2%、5.3%. 本文方法的实验表现与Yolov8s模型精度相近的原因是UA-DETRAC数据集图像分辨率较低且包含大量的中小型目标物体,这使得在物体定位时区域框的精确性受到影响. 如何在增强图像、文本特征表现能力的同时,进一步提升区域框的目标识别精度,是后续SIAM-CML模型持续改进的方向.
表 2 不同算法在UA-DETRAC数据集上的实验结果
Tab.2
模型 | AP0.5/% | mAP0.5/% | mAP0.5:0.95/% | |||
car | bus | van | others | |||
Yolov4 | 82.1 | 80.3 | 71.5 | 69.7 | 75.9 | 54.5 |
SSD | 85.3 | 84.7 | 73.1 | 75.7 | 79.7 | 58.8 |
DERT | 88.4 | 87.6 | 74.2 | 82.9 | 83.3 | 62.5 |
Faster RCNN | 88.7 | 87.9 | 74.3 | 83.1 | 83.5 | 62.9 |
Cascade RCNN | 90.3 | 98.7 | 75.1 | 83.3 | 84.6 | 63.7 |
Yolov5s | 88.1 | 87.3 | 74.2 | 82.4 | 83.0 | 61.6 |
Yolov8s | 93.4 | 92.6 | 75.5 | 87.3 | 87.2 | 67.5 |
SIAM-CML | 92.5 | 91.7 | 74.8 | 86.6 | 86.4 | 66.9 |
图 8
图 8 UA-DETRAC数据集标注结果的可视化
Fig.8 Visualization of annotation result on UA-DETRAC dataset
综上所述,SIAM-CML方法在BIT交通数据集与UA-DETRAC数据集上的实验结果表明,采用双模态对比学习结构的模型方法,通过分别提取区域图像特征和类别文本特征,利用特征相似度进行类别划分,不仅能够达到与当前主流模型相当的标注精度,甚至在某些情况下表现更优越. 此外,与传统标注方法相比,该方法还具备更强的扩展性,能够有效适应新类别的引入,展现出较高的实用价值和应用前景.
2.4. 消融实验结果与分析
为了评估本文方法中不同模型设置的有效性,在BIT交通数据集上采用消融实验,分别测试不同改进方案下的模型性能,结果如表3所示.
表 3 消融实验结果
Tab.3
模型 | 文本编码模块 | 视觉编码模块 | 对比学习 | 指标 | ||||||||||
SIAM-CML | Tinybert | MLP | TDFC | DCN | FP | 2* CLS | LL | NL | mAP0.5/% | mAP0.5:0.95/% | ||||
(a) | √ | — | — | — | — | — | √ | — | 92.1 | 76.5 | ||||
(b) | √ | √ | — | — | — | — | √ | — | 92.6(+0.5) | 77.2 | ||||
(c) | √ | √ | √ | — | — | — | √ | — | 95.2(+3.1) | 78.6 | ||||
(d) | √ | √ | √ | √ | — | — | √ | — | 95.7(+3.6) | 79.3 | ||||
(e) | √ | √ | √ | √ | √ | — | √ | — | 96.8(+4.7) | 80.8 | ||||
(f) | √ | √ | √ | √ | √ | √ | √ | — | 97.6(+5.5) | 81.5 | ||||
(g) | √ | √ | √ | √ | √ | √ | — | √ | 97.0(+4.9) | 80.9 |
表3中,样例(a)表示模型仅使用Tinybert作为文本特征提取方式,样例(b)表示引入MLP组件,样例(c)表示在引入MLP的同时设计文本距离感知特征计算组件TDFC,样例(d)表示引入可变形卷积组件DCN,样例(e)表示引入过滤池组件FP,样例(f)表示采用2倍的对比学习空间,样例(g)表示采用非线性层NL. 从表3可知,MLP组件可以有效地增强特征表达能力,进一步抽取标签文本的深层次语义信息. 文本距离感知特征计算组件TDFC通过计算文本序列内部的特征距离,能够捕捉到词与词间更精细的语义交互信息,有效提高模型的标注精度. 可变形卷积组件DCN通过灵活调整感受野的位置,特别是对于具有显著形变的目标,表现出更强的适应性和鲁棒性. 过滤池组件FP不仅有效过滤掉图像中的噪声特征,减少了无关信息干扰,同时通过加强对有用特征的聚焦,显著提升了模型的整体标注性能. 更大的对比学习空间可以增加正负样本数量和特征的多元化,有助于提高模型标注精度. 将对比学习线性映射层LL改为非线性层NL后,mAP0.5和mAP0.5:0.95降低,原因是多数传统单模态数据对比学习在进行相似度匹配时,多采用非线性映射,该方法能够捕捉数据中隐含的高维特征和复杂关系,从而在同一模态数据间可以有效提取和增强深层次信息. 对于不同模态间的数据,线性映射能够使其在共享的特征空间中保持原有的结构与分布,这有助于减少跨模态信息的扭曲和损失,对于后续的特征对齐过程,具有更好的效果.
2.5. 增量学习扩展性验证的实验结果与分析
为了验证SIAM-CML方法在类别扩展上的灵活性,并防止模型出现灾难性遗忘的问题,构建增量扩展数据集并进行实验,具体步骤如下:从BIT数据集中选择suv和truck类别图像共
图 9
表 4 SIAM-CML模型的增量学习实验结果
Tab.4
类别 | mAP0.5/% |
car | 95.0 |
bus | 93.6 |
van | 86.9 |
others | 85.4 |
suv | 83.5 |
truck | 87.7 |
整体 | 88.7 |
从图9可以看出,在训练的前10个迭代过程中,SIAM-CML方法的Loss下降速度相对较快,当迭代次数达到50时,SIAM-CML方法的Loss基本已趋于平缓. 相较于Faster RCNN模型、Cascade RCNN模型、Yolov5s模型与Yolov8s模型,SIAM-CML方法的训练时间大幅度减少.
从表4可知,SIAM-CML方法在增量扩展数据集的car、bus、van、others、suv、truck类别上的检测精度分别达到95.0%、93.6%、86.9%、85.4%、83.5%、87.7%,平均mAP0.5达到88.7%. SIAM-CML方法在分别提取双模态特征后,通过使用相似度计算的对比学习结构代替回归分类层,将类别预测问题转化为跨模态特征匹配问题,从而实现标注类别的动态扩展. 实验结果表明:在充分预训练的条件下,模型能够有效地捕获双模态表征,在引入新类别时收敛速度显著加快. 该框架无须预设分类头,克服了传统模型无法识别未见类别的局限,显著提升了可扩展性.
如图10所示为增量扩展数据集中2组图像在SIAM-CML方法不同阶段文本特征与图像特征之间的相似度得分SIM可视化图. 可知,随着训练周期的增加,SIAM-CML方法在区域图像特征与文本特征相似度匹配方面的表现逐渐提升. 在训练初期,模型分类结果的分布较分散,多个类别的图像特征与对应的文本特征匹配度较低. 这说明此时模型尚未充分学习到图像与文本特征之间的有效映射关系,特征相似度较均匀,模型的类别区分能力较弱. 在训练中期,部分类别的特征相似度有了显著提升,模型逐渐学习并捕捉到图像与文本特征之间的关联,能够更准确地将图像特征与对应的文本特征进行匹配. 在训练后期,特征相似度的分布更集中、准确,显示出各类别图像与文本特征之间的高度匹配. 整体来看,随着训练的深入,模型在多个类别上的相似度匹配能力明显增强. 这一结果验证了通过采用对比学习架构和对双模态数据特征的充分挖掘,能够有效帮助模型提升类别标注精度.
图 10
图 10 对比学习分类可视化图
Fig.10 Contrastive learning classification visualization diagram
3. 结 语
本文针对交通图像自动标注中类别精度低、扩展性差的问题,提出基于模态间对比学习的SIAM-CML方法. 该方法通过类别增强的标签语义描述、文本距离融合编码及可变形过滤卷积,有效提升了双模态特征的表达和对齐能力,增强了区域特征感受野并抑制了噪声. 实验结果表明,SIAM-CML在多个数据集上实现了与主流模型相当或更优的标注精度,具备良好的扩展性和训练效率. 未来工作将聚焦于引入更先进的编码器及多类别、细分类标注的研究,以进一步提升标注性能.
参考文献
自动图像标注技术综述
[J].
Review of automatic image annotation technology
[J].
基于锚点的字符级甲骨图像自动标注算法研究
[J].
Research on automatic annotation algorithm for character-level oracle-bone images based on anchor points
[J].
Faster r-cnn: towards real-time object detection with region proposal networks
[J].
基于SSD神经网络的图像自动标注及应用研究
[J].
Automatic image annotation and applied research based on SSD deep neural network
[J].
对鱼眼图像的FastSAM多点标注算法
[J].
Research on FastSAM multi-point annotation algorithm for fisheye images
[J].
Vehicle type classification using a semisupervised convolutional neural network
[J].DOI:10.1109/TITS.2015.2402438 [本文引用: 1]
/
〈 |
|
〉 |
