浙江大学学报(工学版), 2021, 55(6): 1056-1064 doi: 10.3785/j.issn.1008.973X.2021.06.005

交通工程、土木工程

基于优化DeepSort的前方车辆多目标跟踪

金立生,, 华强, 郭柏苍, 谢宪毅,, 闫福刚, 武波涛

1. 燕山大学 车辆与能源学院,河北 秦皇岛 066004

2. 燕山大学 河北省特种运载装备重点实验室,河北 秦皇岛 066004

3. 吉林大学 交通学院,吉林 长春 130022

4. 河北机电职业技术学院 汽车工程系,河北 邢台 054000

Multi-target tracking of vehicles based on optimized DeepSort

JIN Li-sheng,, HUA Qiang, GUO Bai-cang, XIE Xian-yi,, YAN Fu-gang, WU Bo-tao

1. School of Vehicle and Energy, Yanshan University, Qinhuangdao 066004, China

2. Hebei Key Laboratory of Special Delivery Equipment, Yanshan University, Qinhuangdao 066004, China

3. Transportation College, Jilin University, Changchun 130022, China

4. Department of Automotive Engineering, Hebei Institute of Mechanical and Electrical Technology, Xingtai 054000, China

通讯作者: 谢宪毅,男,讲师. orcid.org/0000-0002-9335-3459. E-mail: xiexianyi123@126.com

收稿日期: 2020-07-24  

基金资助: 国家重点研发计划资助项目(2018YFB1600501);国家自然科学基金资助项目(52072333);国家自然科学基金区域创新发展联合基金资助项目(U19A2069);河北省省级科技计划资助项目(20310801D,E2020203092,F2021203107)

Received: 2020-07-24  

Fund supported: 国家重点研发计划资助项目(2018YFB1600501);国家自然科学基金资助项目(52072333);国家自然科学基金区域创新发展联合基金资助项目(U19A2069);河北省省级科技计划资助项目(20310801D,E2020203092,F2021203107)

作者简介 About authors

金立生(1975—),男,教授,博导,从事自动驾驶、环境感知的研究.orcid.org/0000-0002-3086-1333.E-mail:jinls@ysu.edu.cn , E-mail:jinls@ysu.edu.cn

摘要

为了提升自动驾驶汽车对周边环境的感知能力,提出优化DeepSort的前方多车辆目标跟踪算法. 采用Gaussian YOLO v3作为前端目标检测器,基于DarkNet-53骨干网络训练,获得专门针对车辆的检测器Gaussian YOLO v3-vehicle,使车辆检测准确率提升3%. 为了克服传统预训练模型没有针对车辆类别的缺点,提出采用扩增后的VeRi数据集进行重识别预训练. 提出结合中心损失函数与交叉熵损失函数的新损失函数,使网络提取的目标特征有更好的类内聚合以及类间分辨能力. 试验部分采集不同环境的实际道路视频,采用CLEAR MOT评价指标进行性能评估. 结果表明,与基准DeepSort YOLO v3相比,跟踪准确度提升1%,身份切换次数减少4%.

关键词: 自动驾驶 ; 环境感知 ; 深度学习 ; 优化DeepSort算法 ; 目标跟踪

Abstract

A front multi-vehicle target tracking algorithm optimized by DeepSort was proposed in order to improve the awareness of autonomous vehicles to the surrounding environment. Gaussian YOLO v3 model was adopted as the front-end target detector, and training was based on DarkNet-53 backbone network. Gaussian YOLO v3-Vehicle, a detector specially designed for vehicles was obtained, which improved the vehicle detection accuracy by 3%. The augmented VeRi data set was proposed to conduct the re-recognition pre-training in order to overcome the shortcomings that the traditional pre-training model doesn't target vehicles. A new loss function combining the central loss function and the cross entropy loss function was proposed, which can make the target features extracted by the network become better in-class aggregation and inter-class resolution. Actual road videos in different environments were collected in the test part, and CLEAR MOT evaluation index was used for performance evaluation. Results showed a 1% increase in tracking accuracy and a 4% reduction in identity switching times compared with the benchmark DeepSort YOLO v3.

Keywords: autonomous vehicle ; environment perception ; deep learning ; optimized DeepSort algorithm ; object tracking

PDF (1014KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

金立生, 华强, 郭柏苍, 谢宪毅, 闫福刚, 武波涛. 基于优化DeepSort的前方车辆多目标跟踪. 浙江大学学报(工学版)[J], 2021, 55(6): 1056-1064 doi:10.3785/j.issn.1008.973X.2021.06.005

JIN Li-sheng, HUA Qiang, GUO Bai-cang, XIE Xian-yi, YAN Fu-gang, WU Bo-tao. Multi-target tracking of vehicles based on optimized DeepSort. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(6): 1056-1064 doi:10.3785/j.issn.1008.973X.2021.06.005

环境感知通过相机、毫米波雷达、激光雷达以及超声波雷达等传感器实现对无人驾驶车辆周边环境信息的理解,是无人驾驶的关键技术[1]. 基于深度学习的视觉多目标跟踪是目前环境感知中的重要技术之一,可通过提取车辆周边目标的深度特征对感兴趣目标进行稳定准确的跟踪,解决目标检测中信息不连续的问题[2].

基于深度学习的视觉多目标跟踪的方法一般可分为两类,一类是联合单目标跟踪器的多目标跟踪,另一类是基于目标检测的多目标跟踪[3]. 前者为每一个被跟踪的目标单独分配一个跟踪器,充分利用单目标跟踪的先进技术特点,提高多目标跟踪的准确度,但是在驾驶视角下车辆发生遮挡时,检测容易产生飘移现象;后者通过目标检测算法结合数据关联优化算法实现,是目前基于深度学习视觉多目标跟踪的主流算法,其效果对目标检测算法的检测效果与特征区分性有一定的依赖性.

深度学习具有强大的特征提取与表达能力,可提取深度视觉特征,完成目标分类与检测. Kim等[4]首次将深度特征应用于目标跟踪,预训练卷积神经网络(convolutional neural networks,CNN),提取视觉深度特征与多假设跟踪算法进行结合,充分利用多假设跟踪(multiple hypothesis tracking,MHT)算法开发高阶信息的优点,对于每一个跟踪假设,引入在线外观训练模型,将MOT15成绩提升3%. Hu等[5]建立能够区分动静目标的算法,对动目标使用由基于VGG-16的Faster R-CNN提取的运动特征与视觉特征关联,并通过跟踪步骤微调,实现对错误中断轨迹的重新关联,降低漏检率与误检率. Leal-Taixé等[6]提出孪生网络,使用算法学习到最具代表性的特征区分目标,并使用相似性分数衡量检测结果,而后使用线性规划求解数据关联结果. Zhou等[7]提出视觉位移CNN网络,对目标下一帧的位置进行预测,以及对其他目标的影响;可从预测位置和实际检测中提取视觉信息以计算相似度得分. Ullah等[8]使用浅层Inception,利用正交匹配追踪对提取特征进行降维,构建跟踪目标特征字典. 在测试阶段,构建成本矩阵,结合卡尔曼滤波器提取的视觉和运动信息,以匈牙利算法进行数据关联. Sharma等[9]利用单目摄像头获取的目标姿势、形状、位置等3D信息构建代价函数,可解决基于检测的多目标跟踪中可能出现的关联错误. Chu等[10]提出堆叠CNN模型,采用第一个CNN模块提取场景中目标特征,对每个候选目标进行感兴趣区域(region of interest,RoI)特征提取;对于被跟踪的目标,使用第二个在线训练CNN模块进行候选目标的可见性图和空间注意力图提取,在特征细化后使用贪婪算法进行数据关联. Milan等[11]将深度网络应用于相似度计算,以循环神经网络(recurrent neural network,RNN)为主跟踪器,利用长短时记忆网络(long short term memory,LSTM)具有良好记忆状态的特点弥补了RNN因梯度下降只能记住短期数据的不足. Ma等[12]提出孪生双向门控循环单元(gated recurrent unit,GRU)网络实现多目标跟踪,利用CNN和RNN提取的对象特征创建轨迹候选,选取可信度高的候选轨迹生成轨迹. Zhu等[13]提出具有时间和空间双注意力机制的双匹配注意网络,使用高效卷积算子跟踪器,对遮挡后恢复的目标进行重识别训练.

上述研究成果充分利用目标深度特征进行多目标跟踪,关联历史轨迹信息,实现对车辆周边信息的连续感知. 但对目标在视野中短暂消失后再出现时进行重新识别的研究相对较少. 在实际行车过程中,前方车辆的视角遮挡与视野剪切是较为常见的现象,因此在跟踪算法中对车辆进行重识别,对于提高车辆跟踪准确度,实现连续跟踪具有重要的研究意义.

本文对基于目标检测的视觉多目标跟踪进行研究,对DeepSort算法进行优化,使用CNN实现对多车辆目标的跟踪. 引入中心损失函数对深度余弦度量进行优化;迁移算法中使用卷积神经网络进行训练的行人重识别模块,进行车辆重识别预训练;使用KITTI数据集对Gaussian YOLO v3进行车辆检测识别训练,连接检测器与优化后的跟踪器,使用实际的道路采集视频对本文算法进行测试,基于试验结果分析算法性能.

1. 基准DeepSort算法与优化

基准算法使用递归卡尔曼滤波逐帧处理数据关联性并使用匈牙利算法对检测器的输出进行目标筛选与跨帧匹配,是单假设多目标跟踪方法[14]. 在Sort跟踪器基础上增加卷积神经网络进行重识别,提取跟踪目标表观特征进行最近邻匹配,改善因遮挡造成的身份跳变(ID-switch)问题;在被检测目标与跟踪轨迹关联问题上使用级联匹配方法,对出现频率较为频繁的目标赋予优先匹配权,解决连续预测的概率弥散问题. 算法流程图如图1所示.

图 1

图 1   DeepSort算法流程图

Fig.1   Algorithm flow chart of DeepSort


1.1. DeepSort跟踪算法

1.1.1. 关联与级联匹配

跟踪算法数据关联采用运动信息与外观信息相结合的方式,提升关联准确度. 使用马氏距离对卡尔曼预测值与实际测量值进行匹配,对协方差矩阵归一化,计算检测与平均轨道偏差评估状态估计的不确定性,实现运动信息匹配:

$ {{{d}}^{(1)}}(i,j) = {\left( {{{{d}}_j} - {{{y}}_i}} \right)^{\rm{T}}}{{S}}_i^{ - 1}\left( {{{{d}}_j} - {{{y}}_i}} \right). $

式中: ${{{d}}^{(1)}}(i,j)$为运动信息匹配结果, ${{{d}}_j}$为第j个检测框的位置, ${{{y}}_i}$为第i个追踪器对目标位置的预测, ${{{S}}_i}$为检测位置与平均追踪位置之间的协方差矩阵.

引入余弦距离度量,通过提取跟踪目标外观特征,衡量不同个体维度间差异,实现外观信息匹配:

$ {{{d}}^{(2)}}(i,j) = \min \;\left\{ {1\left| { - {{r}}_j^{\rm{T}}{{r}}_k^{(1)}} \right|{{r}}_k^{(i)} \in {{{R}}_i}} \right\}. $

式中: ${{{d}}^{(2)}}(i,j)$为余弦距离度量结果; ${{{r}}_j}$为对 ${{{d}}_j}$个检测块提取的特征向量,限制条件为 $\left\| {{{{r}}_j}} \right\| = 1$${R_i}$为外观特征向量库,存储每个确定轨迹的100帧外观特征向量. 若 ${{{d}}^{(2)}}(i,j)$小于卷积神经网络训练阈值,则认定关联成功.

将马氏距离与余弦距离度量进行线性加权作为最终度量:

$ {{{c}}_{i,j}} = \lambda {{{d}}^{(1)}}(i,j) + (1 - \lambda ){{{d}}^{(2)}}(i,j). $

度量值落在二者阈值交叉范围内,认定实现正确关联,通过超参数 $\lambda $控制2种度量方式在轨迹关联中的影响因数大小.

跟踪目标被长期遮挡,卡尔曼滤波连续预测不更新会造成协方差矩阵方差变大,造成概率弥散,观察似然峰值降低[15]. 跟踪算法采用级联匹配,对关联可能性进行编码,为每个跟踪器设定更新后时间(time since update)参数,跟踪器完成匹配,则参数重置,否则+1,参数小的具有匹配优先级,当参数大于60时,放弃该跟踪器.

1.1.2. 深度余弦度量学习

深度余弦度量学习通过深度学习计算类间余弦距离,离线训练深度学习网络,得到深度学习权重[16]. 输入对象根据网络权重,依据决策边界方向及最近距离查找对象所属聚类[17],实现跟踪对象目标重识别(Re-ID)、度量学习与分类的统一,同时提升识别准确率[18].

使用CNN在大规模重识别数据集上进行离线训练,CNN网络结构如表1所示. 网络采用宽残差模块,所有的卷积核大小均为3×3,使用步长为2的卷积替代最大池化[19]. 在空间分辨率降低时,增加通道数来避免瓶颈问题,在整个网络中使用指数线性单元(exponential liner unit,ELU)作为激活函数.

表 1   重识别网络结构

Tab.1  Re-identify network structure

层名称 权重尺寸 输出尺寸
Conv1 3×3/1 32×128×64
Conv2 3×3/1 32×128×64
Max Pool 3 3×3/2 32×64×32
Residual 4 3×3/1 32×64×32
Residual 5 3×3/1 32×64×32
Residual 6 3×3/2 64×32×16
Residual 7 3×3/1 64×32×16
Residual 8 3×3/2 128×16×8
Residual 9 3×3/1 128×16×8
Dense 10 128
BN 128

新窗口打开| 下载CSV


1.2. 深度余弦度量学习优化

深度余弦度量学习在行人重识别数据集上取得了优异的成绩,但直接迁移应用到车辆重识别领域有局限性. 车辆外廓虽然是硬刚体,自身形状变化不大,但是车辆在行驶过程中,角度不断变化会造成车辆姿态多样,使得类内差异大于类间差异. 为了更好地提取外观特性,需要考虑增大类间与类内距离,保持类内紧凑,增强网络的判断能力. 为此,引入应用于人脸识别中的中心损失函数(center loss function),对车辆重识别数据集进行训练,提高特征分辨率.

交叉熵损失函数Lc_el的作用是衡量真实值与算法预测值之间的距离,判定二者的接近程度,是神经网络中常用的分类目标函数.

$ \begin{array}{l} {L_{{\rm{c\_el}}}} = {L_{{\rm{sl }}}} - \dfrac{1}{N}\displaystyle\mathop \sum \limits_{i = 1}^N \ln\; \left( {{{{{\rm{exp}}\;({{h_{{{{y}}_i}}}})}}}\Bigg /{{\displaystyle\mathop \sum \limits_{j = 1}^C {{\rm{exp}}\;{{(h_j)}}}}}} \right). \end{array} $

式中:Lsl为Softmax损失函数,h为网络特征输出,C为分类类别,N为样本个数. 该函数在AlexNet、ResNet以及一些二分类网络上应用效果较好,但对特征相近的目标进行分类时的作用并不显著.

中心损失函数Lcl在计算时,不仅包括类间的距离,还考虑了减小类内差异

$ {L_{{\rm{cl}}}} = \frac{1}{2}\sum\limits_{i = 1}^{N_{\rm{b}}} {\left\| {{{{x}}_i} - {{{c}}_{{{{y}}_i}}}} \right\|_2^2} . $

式中: ${{{c}}_{{{{y}}_i}}}$为第 ${{{y}}_i}$类所有深度特征的中心值, ${{{x}}_i}$为输入的图像特征,Nb为批大小(batch size). 在起始时刻,中心损失函数对每一个类在网络中随机生成一个中心,而后在一个批次训练中计算样本中心与类中心的距离,将这个数值加到类中心上进行参数修正. 若类内某个样本特征距离中心较远,则需进行惩罚[20]. 类中心更新计算方式为

$ \frac{{\partial {L_C}}}{{\partial {{{x}}_i}}} = {{{x}}_i} - {{{c}}_{{{{y}}_{{i}}}}}, $

$ \Delta {{{c}}_j} = \dfrac{{\displaystyle\sum\limits_{i = 1}^m \delta \left( {{{{y}}_i} = j} \right)\left( {{{{c}}_j} - {{{x}}_i}} \right)}}{{1 + \displaystyle\sum\limits_{i = 1}^m \delta \left( {{{{y}}_i} = j} \right)}}. $

其中

当类别 ${{{y}}_i}$与特征中心 ${{{c}}_j}$对应的类别不一致时不更新,当类别 ${{{y}}_i}$与特征中心 ${{{c}}_{{{{y}}_{{i}}}}}$对应的类别一致时,更新类别 ${{{y}}_i}$的特征中心 ${{{c}}_{{{{y}}_{{i}}}}}$.

LslLcl结合,提升深层特征辨别力. Lsl使不同类别的深层特征保持分离,Lcl实现层内聚类,将相同类别的深层特征紧凑化,与单一使用传统交叉熵损失函数相比,大幅减小类内差异,且提取的特征具有更好的判别能力[21]. 使用标量γ平衡2种损失函数,取值为[0,1.0]. 最终定义损失函数为

$ \begin{split} {L_{{\rm{fl}}}} =& {L_{{\rm{c\_el}}}} + \gamma {L_{{\rm{cl}}}}\left( {h,{{{y}}_i}} \right)= \\ & - \dfrac{1}{N}\displaystyle\sum\limits_{i = 1}^N {\ln }\; \left( {{{{{\rm{exp}}\;{{(h_i)}}}}}\Bigg /{{\displaystyle\sum\limits_{j = 1}^c {{{\rm{exp}}\;{{(h_j)}}}} }}} \right) + \frac{\gamma }{2}\displaystyle\sum\limits_{i = 1}^{N_{\rm{b}}} {\left\| {{{{x}}_i} - {{{c}}_{{y_i}}}} \right\|_2^2} . \end{split} $

1.3. 车辆重识别训练数据集构建

使用刘鑫辰[22]制作的大规模城市交通监控车辆再识别图像数据集−VeRi. 该数据集使用20个监控摄像机采集776辆车的图像,共收集50 000多张图片. 保证每辆车都从不同角度、照度、遮挡情况等方面被2~18个摄像机采集. 数据集图片名称中包含车辆标签编号、车辆类别与属性信息、采集摄像机编号、图片处于视频段中的帧数以及检测框是否手工标注等. 编写脚本对VeRi数据集进行图像数据质量增强,加强车辆与背景区分度,并进行随机翻转,将数据集容量增大了1/2. 前、后图片质量对比示例如图2所示.

将优化的VeRi数据集进行数据集标注格式整理,包含车辆标签编号、摄像机编号、片段编号、图片位于视频中的帧数、检测框标注等信息. 将图片与标注一一对应,组建车辆重识别训练数据集.

图 2

图 2   图片数据质量增强前、后对比

Fig.2   Comparison of image data quality before and after enhancement


1.4. 检测器更新

YOLO系列为端到端(end to end)的一阶段检测器,与Faster R-CNN等[23]二阶段系列相比,由于采用的是网格划分方法进行区域检测而非像素滑窗方法,准确率稍差,但具有速度快的优点. YOLO可以根据项目需要使用不同的训练框架,对速度与准确性进行权衡,因此YOLO系列已成为目标检测领域应用非常广泛的算法.

YOLO v3借鉴特征金字塔网络[24](feature pyramid networks, FPN)思想,采用多尺度检测不同大小的目标,输出3个不同尺度的特征图,即13×13、26×26和52×52,将不同尺度特征图进行连接,使网络融合目标位置信息与高层抽象特征. YOLO v3输出中有目标类别的概率值和目标框的位置[25]. YOLO v3网络结构如图3所示.

图 3

图 3   YOLO v3网络结构

Fig.3   YOLO v3 network structure


Gaussian YOLO v3在YOLO v3基础上,对目标框的位置起始像素点坐标与高宽度信息 $({t_x},{t_y},{t_w},{t_h})$分别建立高斯模型,预测不确定度,将每个位置信息改为均值 $\mu $与标准差,形式为 $\left( {{\mu _x},\displaystyle\sum {{t_x}} } \right)$, $\left( {{\mu _y},\displaystyle\sum {{t_y}} } \right)$, $\left( {{\mu _w},\displaystyle\sum {{t_w}} } \right)$, $\left( {{\mu _h},\displaystyle\sum {{t_h}} } \right)$${\mu _x}$${t_x}$的最大似然估计,表示原位置信息4个维度,标准差表示不确定度. 将均值与标准差使用sigmoid函数处理到[0,1],从而构建损失函数进行迭代运算,估计坐标信息可靠性. 提高目标检测准确率[26]. 试验结果表明,采用Gaussian YOLO v3总体提升了3%预测准确率平均值(mean average precision,MAP).

2. 算法训练与试验结果分析

试验平台主要由2部分构成,其中硬件平台主要配置包括:Intel(R) Core(TM) i7-7700CPU@3.60 GHZ、NVIDIA GeForce GTX 1080Ti. 软件环境为所搭建的深度学习平台,包括:Ubuntu16.04操作系统、Cuda 9.0、Cudnn v7.5、Tensorflow 1.8.0-gpu、OpenCV 3.4.0. 针对本文中研究的前方车辆多目标跟踪,进行车辆重识别预训练与车辆检测器Gaussian YOLO v3训练,并编写连接脚本,实现车辆在线跟踪.

2.1. 车辆重识别训练

基于余弦度量学习(cosine metric learning)进行训练,使用构造的车辆重识别数据集,设置批大小为32,学习率为0.001,损失函数中防止类别中心c抖动的参数 $\alpha $设为0.5,平衡参数γ设为0.085. 训练结果如图4所示.

训练结果表明,经过400 000次的迭代之后,分类精确度Ac稳定为94.5%,此时车辆重识别网络具有良好的分类能力,可以准确地对短暂消失后又重新出现在视野中的车辆进行重识别.

图 4

图 4   车辆重识别训练分类精度的变化图

Fig.4   Variation diagram of classification accuracy of vehicle re-identification training


2.2. 车辆检测器训练

检测器模型使用Darknet-53作为骨干网络进行特征提取,使用KITTI数据集训练Gaussian YOLO v3. 修改原有标注,将Pedestrian、Person(sitting)、Cyclist、Tram和Misc 5个类别的标注删除,Car、van、Truck合并成一个类别,命名为vehicle. 根据具体硬件信息,设定批大小为16,调整滤波器大小为36,其余超参数保持不变. 训练过程损失如图5所示. 图中,L为损失值.

图 5

图 5   Gaussian YOLO v3损失变化曲线

Fig.5   Gaussian YOLO v3 loss curve


与原Gaussian YOLO v3相比,本文中车辆检测器模型针对车辆的检测准确率为93.2%,提升约3%. 在算法测试中,无漏检、误检现象,目标分类准确.

2.3. 跟踪算法定量与定性试验

本文中优化后DeepSort跟踪算法,设置参数非极大值最大重叠率为1.0,最大余弦距离为0.3. 实际采集3个典型复杂交通场景对本文算法进行定性与定量分析验证,可视化结果分别如图6~8所示. 其中图片左上角数字为视频帧数,深色框为检测器检测出的车辆目标,浅色框为对车辆目标进行数据关联得到的跟踪结果.

图 6

图 6   阴影交通场景环境可视化

Fig.6   Visualization of shadow traffic scene environment


图 7

图 7   车辆外形连续变化的可视化

Fig.7   Visualization of continuous change of vehicle shape


图 8

图 8   交通场景中拥挤环境的可视化

Fig.8   Visualization of crowded environments in traffic scene


图6可以观察到,基于Gaussian YOLO v3的多车辆目标跟踪算法在实际道路上取得了比较好的跟踪效果,但是5号目标在完全进入过街天桥的阴影下之后,由于环境光线较差,亮度低,出现了目标跟丢的状况.

图7所示为对校园内单个车辆在Z字形轨迹上运动时连续跟踪的结果。可以看到,在车辆图像外形不断变化的场景中,本文算法的跟踪性能非常稳定,无目标ID切换且跟踪框可适应车辆尺度变化. 由此可知,本文算法在目标外形连续变化的环境中可实现良好的跟踪.

图8所示为车辆在拥挤环境中的多目标跟踪结果。可以看到,本文算法的跟踪鲁棒性较好,无ID跳变,无明显漏检、误检,在车辆图像剪切和不断进入、消失的情况下,仍能够正常地跟踪. 由此可知,本文算法在复杂背景环境下具有良好的性能.

对上述测试输出结果进行定量评估,结果如表2所示. 表中,所用指标为多目标跟踪准确率(multi-object tracking accuracy,MOTA)和多目标跟踪精确率(multi-object tracking precision,MOTP),数值越大表明处理效果越好. 与其他代表性多目标跟踪算法相比,本文算法在MOTA与MOTP指标均有明显提升;与基准DeepSort算法相比,MOTA有1%的效果提升.

表 2   多目标跟踪算法的MOTA与MOTP对比

Tab.2  Comparison of MOTA and MOTP for multi-objective tracking algorithms

算法 MOTA MOTP
Unsup Track[4] 61.7 78.3
Lif-T[4] 60.5 79.0
ISE-MOT17R[4] 60.1 78.2
msot[5] 59.2 78.0
EAMTT[27] 52.5 78.8
POI[27] 66.1 77.1
SORT[27] 59.8 79.6
基准DeepSort[27] 61.4 79.1
本文算法 62.5 78.9

新窗口打开| 下载CSV


3. 结 论

(1)基于Gaussian YOLO v3的前方车辆跟踪算法,充分利用检测器强大的目标检测分类能力,结合车辆Re-ID优化后的DeepSort算法,对实际交通场景下的车辆多目标进行在线跟踪,与流行多目标跟踪算法相比,具有良好的跟踪精确率与准确率.

(2)试验表明,本文算法可在拥挤交通背景下,目标形态连续变化环境下以及遮挡环境下具有良好的跟踪性能.

(3)由于场景中的光照会发生变化,特别是突然变化时,目标检测鲁棒性会下降,造成跟踪过程中发生ID-Switch现象. 后续工作将会在跟踪模型中加入时空注意力机制,重点关注感兴趣目标,提升跟踪性能.

参考文献

王世峰, 戴祥, 徐宁

无人驾驶汽车环境感知技术综述

[J]. 长春理工大学学报: 自然科学版, 2017, 40 (1): 1- 6

URL     [本文引用: 1]

WANG Shi-feng, DAI Xiang, XU Ning

Overview of driverless car environment perception technology

[J]. Journal of Changchun University of Science and Technology: Natural Science Edition, 2017, 40 (1): 1- 6

URL     [本文引用: 1]

李玺, 查宇飞, 张天柱

深度学习的目标跟踪算法综述

[J]. 中国图象图形学报, 2019, 24 (12): 2057- 2080

DOI:10.11834/jig.190372      [本文引用: 1]

LI Xi, ZHA Yu-fei, ZHANG Tian-zhu

Overview of deep learning target tracking algorithms

[J]. Chinese Journal of Image and Graphics, 2019, 24 (12): 2057- 2080

DOI:10.11834/jig.190372      [本文引用: 1]

储琪. 基于深度学习的视频多目标跟踪算法研究[D]. 合肥: 中国科学技术大学, 2019.

[本文引用: 1]

CHU Qi. Research on video multi-target tracking algorithm based on deep learning[D]. Hefei: University of Science and Technology of China, 2019.

[本文引用: 1]

KIM C, LI F, CIPTADI A, et al. Multiple hypothesis tracking revisited[C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4696–4704.

[本文引用: 4]

HU H, ZHOU L, GUAN Q, et al

An automatic tracking method for multiple cells based on multi-feature fusion

[J]. IEEE Access, 2018, 6: 69782- 69793

DOI:10.1109/ACCESS.2018.2880563      [本文引用: 2]

LEAL-TAIXÉ L, FERRER C C, SCHINDLER K. Learning by tracking: siamese CNN for robust target association[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas: IEEE, 2016: 33–40.

[本文引用: 1]

ZHOU H, OUYANG W, CHENG J, et al

Deep continuous conditional random fields with asymmetric inter-object constraints for online multi-object tracking

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 29 (4): 1011- 1022

[本文引用: 1]

ULLAH M, MOHAMMED A K, CHEIKH F A, et al. A hierarchical feature model for multi-target tracking[C]// Proceedings of the 2017 IEEE International Conference on Image Processing. Beijing: IEEE, 2017: 2612–2616.

[本文引用: 1]

SHARMA S, ANSARI J A, MURTHY J K, et al. Beyond pixels: Leveraging geometry and shape cues for online multi-object tracking[C]// Proceedings of the 2018 IEEE International Conference on Mechatronics, Robotics and Automation. Brisbane: IEEE, 2018: 3508–3515.

[本文引用: 1]

CHU Q, OUYANG W, LI H, et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[C]// 2017 IEEE International Conference on Computer Vision. Venie: IEEE, 2017: 4836–4845.

[本文引用: 1]

MILAN A, REZATOFIGHI S H, DICK A, et al. Online multi-target tracking using recurrent neural networks[C]// National Conference on Artificial Intelligence. San Francisco: AAAI Press, 2017: 4225-4232.

[本文引用: 1]

MA C, YANG C, YANG F, et al. trajectory factory: tracklet cleaving and re-connection by deep siamese bi-GRU for multiple object tracking[C]// 2018 IEEE International Conference on Multimedia and Expo. San Diego: IEEE, 2018: 1-6.

[本文引用: 1]

ZHU J, YANG H, LIU N, et al. Online multi-object tracking with dual matching attention networks[C]// 2018 European Conference on Computer Vision. Munich: [s. n.], 2018: 366–382.

[本文引用: 1]

WOJKE N, BEWLEY A, PAULUS D. Simple online and real time tracking with a deep association metric[C]// 2017 IEEE International Conference on Image Processing. [S. l.]: IEEE, 2017: 3645-3649.

[本文引用: 1]

解耘宇. 基于扩展卡尔曼滤波的单目视觉轨迹跟踪方法的研究[D]. 北京: 华北电力大学, 2017.

[本文引用: 1]

XIE Yun-yu. Research on monocular vision trajectory tracking method based on extended Kalman filter[D]. Beijing: North China Electric Power University, 2017.

[本文引用: 1]

BISHOP C M. Pattern recognition and machine learning (information science and statistics)[M]. New York: Springer, 2006.

[本文引用: 1]

WOJKE N, BEWLEY A. Deep cosine metric learning for person re-identification[C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 748-756.

[本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E

Imagenet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386      [本文引用: 1]

ZAGORUYKO S, KOMODAKIS N. Wide residual networks [C]// 2016 Proceedings of the British Machine Vision Conference. York: DBLP, 2016: 1-15.

[本文引用: 1]

WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition[C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515.

[本文引用: 1]

CHARU C A. Neural networks and deep learning[M]. Cham: Springer, 2018: 48-51.

[本文引用: 1]

刘鑫辰. 城市视频监控网络中车辆搜索关键技术研究[D]. 北京: 北京邮电大学, 2018.

[本文引用: 1]

LIU Xin-chen. Research on key technologies of vehicle search in urban video surveillance network[D]. Beijing: Beijing University of Posts and Telecommunications, 2018.

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 1]

LIN T Y, DOLLAR P, GIRSHICK R. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936-944.

[本文引用: 1]

REDMON J, FARHADI A. YOLO v3: an incremental improvement [EB/OL]. [2020-05-31]. https://arxiv.org/abs/1804.02767.

[本文引用: 1]

CHOI J, CHUN D, KIM H. Gaussian YOLO v3: an accurate and fast object detector using localization uncertainty for autonomous driving[C]// International Conference on Computer Vision. Seoul: IEEE, 2019: 502-511.

[本文引用: 1]

BEWLEY A, GE Z, OTT L, et al. Simple online and realtime tracking[C]// International Conference on Image Processing. Phoenix: IEEE, 2016: 3464-3468.

[本文引用: 4]

/