浙江大学学报(工学版), 2025, 59(2): 249-260 doi: 10.3785/j.issn.1008-973X.2025.02.003

计算机技术

交通目标YOLO检测技术的研究进展

董红召,, 林少轩, 佘翊妮

浙江工业大学 智能交通系统联合研究所,浙江 杭州 310023

Research progress of YOLO detection technology for traffic object

DONG Hongzhao,, LIN Shaoxuan, SHE Yini

ITS Joint Research Institute, Zhejiang University of Technology, Hangzhou 310023, China

收稿日期: 2024-02-6  

基金资助: 浙江省自然科学基金资助项目(LMS25F030007);浙江省“尖兵”“领雁”研发攻关计划资助项目(2024C01180).

Received: 2024-02-6  

Fund supported: 浙江省自然科学基金资助项目(LMS25F030007);浙江省“尖兵”“领雁”研发攻关计划资助项目(2024C01180).

作者简介 About authors

董红召(1969—),男,教授,从事智能交通系统的研究.orcid.org/0000-0001-5905-567X.E-mail:its@zjut.edu.cn , E-mail:its@zjut.edu.cn

摘要

为了综合分析YOLO(You Only Look Once)算法在提升交通安全性和效率方面的重要作用,从“人-车-路” 3个核心要素的角度,对YOLO算法在交通目标检测中的发展和研究现状进行系统性地总结. 概述了YOLO算法常用的评价指标,详细阐述了这些指标在交通场景中的实际意义. 对YOLO算法的核心架构进行概述,追溯了该算法的发展历程,分析各个版本迭代中的优化和改进措施. 从“人-车-路”3种交通目标的视角出发,梳理并论述了采用YOLO算法进行交通目标检测的研究现状及应用情况. 分析目前YOLO算法在交通目标检测中存在的局限性和挑战,提出相应的改进方法,展望未来的研究重点,为道路交通的智能化发展提供了研究参考.

关键词: YOLO算法 ; 目标检测 ; 计算机视觉 ; 交通目标 ; 交通安全

Abstract

The development and research status of YOLO algorithm in traffic object detection were systematically summarized from the perspective of the three core elements of 'people-vehicle-road' in order to comprehensively analyze the important role of YOLO (You Only Look Once) algorithm in improving traffic safety and efficiency. The commonly used evaluation indexes of YOLO algorithm were outlined, and the practical significance of these indexes in traffic scenarios was elaborately expounded. An overview of the core architecture of YOLO algorithm was provided, its development process was traced, and the optimization and improvement measures in each version iteration were analyzed. The research status and application scenarios of YOLO algorithm for traffic object detection were sorted out and discussed from the perspective of the three traffic objects 'people-vehicle-road'. The limitations and challenges of YOLO algorithm in traffic object detection were analyzed, and corresponding improvement methods were proposed. Future research focuses were anticipated, providing a research reference for the intelligent development of road traffic.

Keywords: YOLO algorithm ; object detection ; computer vision ; traffic object ; traffic safety

PDF (3207KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

董红召, 林少轩, 佘翊妮. 交通目标YOLO检测技术的研究进展. 浙江大学学报(工学版)[J], 2025, 59(2): 249-260 doi:10.3785/j.issn.1008-973X.2025.02.003

DONG Hongzhao, LIN Shaoxuan, SHE Yini. Research progress of YOLO detection technology for traffic object. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(2): 249-260 doi:10.3785/j.issn.1008-973X.2025.02.003

目标检测是机器视觉的核心技术之一,旨在准确识别和定位图像或视频中的目标物体. 在交通领域,目标检测算法在识别车辆、行人和道路标志等各类交通目标方面发挥着不可或缺的重要作用,为交通监控、事故预防和自动驾驶系统等提供了关键的技术支持[1]. 精准识别和实时定位交通目标有助于提升交通系统的安全性、效率和智能化水平. 目标检测技术的不断发展和优化对推动交通领域的创新和进步具有重要意义.

随着目标检测技术的持续发展,选择适用的算法对于实现高效、精准的交通场景分析至关重要. YOLO系列算法以其出色的性能表现在交通目标检测中展现出巨大的潜力. 相较于传统的Two-Stage目标检测算法(如Faster R-CNN[2]),YOLO算法将检测任务视作单一的回归问题,通过单次前向传播即可完成检测和定位;传统的Two-Stage方法需要多个网络模块来生成候选框,进行分类和回归操作. 这种单阶段检测机制使得YOLO算法能够更加快速且准确地识别图像中的交通目标. 与其他One-Stage目标检测算法(如SSD[3]、RetinaNet[4])相比,YOLO算法仅通过卷积神经网络对整个图像进行一次性预测[5],而其他算法需要多次滑动窗口扫描来完成目标检测. 这使得YOLO算法在保持检测速度的同时,具备较高的检测精度和定位准确性,尤其在小目标检测和密集目标场景下表现出色. 结合交通目标检测的需求,选择YOLO算法进行目标检测,不仅能够满足实时性和高效性的要求,还能够保证对交通目标的准确识别和定位.

目前,已有一些综述研究探讨了YOLO算法在车辆、行人、交通标识等交通目标检测方面的应用现状[6]. 仅从单一目标的视角可能限制了对各种类型交通目标的全面理解. 针对该问题,从交通系统的三大核心要素“人-车-路”出发,综合评述了YOLO算法在交通目标检测中的应用和研究进展. 通过将交通对象分为“人-车-路”3类,以这种综合性的分类视角对交通目标检测进行综述,能够更全面地理解和评估算法在实际交通场景中的表现和应用,有助于从真实交通场景的需求出发去更好地理解算法在实际应用中面临的挑战和发展的潜力.

1. YOLO系列算法

1.1. YOLO算法的评价指标

在目标检测领域,评价算法性能通常依赖于标准化的评价指标,以便研究者和开发者理解算法效果并进行客观比较. 为了方便定义这些指标,将检测目标分为正样本和负样本,预测结果分为真阳性(true positive, TP)、假阳性(false positive, FP)、真阴性(true negative, TN)和假阴性(false negative, FN). 以下是YOLO算法中常用的关键评价指标[7].

1)交并比(intersection over union, IoU):通过计算预测边界框与真实边界框的交集和并集比例得出. 在车辆定位和追踪识别中,IoU直观地显示了位置预测的准确性.

2)精确度(precision):指预测为正样本中正确预测的比例,反映检测结果的准确性. 在交通监控中,高精确度有助于降低将树影误识为其他目标(如行人、车辆)的概率.

3)召回率(recall):指实际正样本中正确预测的比例,反映检测结果的完整性. 在自动驾驶系统中,高召回率可以确保识别到所有重要交通目标.

4)平均精度(average precision, AP):指不同召回率下精确度的平均值,主要评估算法在各种交通场景下的整体性能.

5)mAP(mean average precision):指多类别平均精度的平均值,适用于评估算法对多种交通参与者(如行人、各类车辆)的整体性能.

6)识别帧率(frame rate):表示算法处理图像和目标检测的速度,直接影响交通状态的感知与响应速度.

1.2. YOLO模型的整体架构

YOLO模型的架构分为3个主要阶段:输入、特征提取和预测. 每个阶段在交通目标检测中发挥着不同的作用.

输入阶段对应模型的输入(input)层,主要任务是图像预处理,包括调整分辨率、裁剪背景、校正扭曲、消除噪声及数据增强等. 这些操作直接影响了模型在不同交通场景中的泛化能力和鲁棒性.

特征提取阶段是YOLO模型的核心部分,利用预训练的卷积神经网络作为主干网络(backbone),提取图像关键特征. 该阶段旨在准确识别和区分交通参与者的特征. 自YOLOv3起,研究者在Backbone后增加中间层(neck),通过特征金字塔技术融合Backbone中的多层级特征,捕捉图像中的大小尺度特征,增强网络的特征表达能力,提升复杂交通环境下的检测精度.

预测阶段对应模型的头部(head)层,根据特征提取阶段输出的特征图生成不同尺寸的预测框. 模型利用预定义的锚框来预测目标的位置和尺寸,运用非极大值抑制(NMS)技术去除重叠和冗余的预测框,以确保每个目标只有一个最佳边界框,从而在快速变化的交通场景中准确识别目标. Head层会对每个检测到的目标赋予类别标签,通过细粒度分类来更精准地把握交通场景中的各种元素,以实现更详细和全面的场景理解.

YOLO模型通过这3个阶段的紧密协作,能够实现快速且准确的目标检测,在需要实时响应和及时处理的交通目标检测中表现出色.

1.3. YOLO算法的发展历程

图1所示,自YOLO算法首次提出以来,该算法经历了多个版本的迭代和改进. 每个版本在性能和效率方面都有所提升,这是复杂交通场景目标检测的迫切需求. 研究者们已对YOLO系列算法的演变进行了细致的梳理[8],如图23所示为对YOLOv1至v8各版本的主要发展历程和结构变化的进一步总结和更新.

图 1

图 1   YOLOv1~v8 系列算法的发展时间线

Fig.1   Development timeline of YOLOv1-v8 series algorithm


图 2

图 2   YOLOv1~v3算法网络结构的简略图

Fig.2   Schematic diagram of YOLOv1-v3 algorithm network structure


图 3

图 3   YOLOv4~v8算法网络结构的简略图

Fig.3   Schematic diagram of YOLOv4-v8 algorithm network structure


图2(a)所示,Redmon等[9]提出YOLOv1网络,它的检测原理如下. 在输入阶段,将输入图像划分成$ S \times S $的网格. 在特征提取阶段,使用改进的GoogLeNet[10]作为Backbone来提取图像特征,通过2个全连接层来生成预测特征图,特征图中每个网格单元包含多个预测边界框(bounding boxes). 在预测阶段,通过对特征图中每个网格的特征向量应用NMS来剔除低置信度的预测框,保留置信度与类别概率乘积最高的预测框作为最终的预测结果. YOLOv1的简单架构和创新的全图像一次性回归方法使它兼具高识别准确率和实时性能,在PASCAL VOC数据集[11]中的mAP和检测速度分别为63.4%和45 帧/s.

由于YOLOv1每个网格单元最多只能检测2个同类对象,在检测多个临近小目标时导致失准. Redmon等[12]提出YOLOv2网络. 如图2(b)所示,它在YOLOv1的基础上作出了如下改进. 在输入阶段,采用多尺度训练方法,以增强模型对不同尺度对象的识别能力,在每个网格单元中划分了多个预定义的锚框(anchor box). 在特征提取阶段,YOLOv2将backbone替换为更轻量化的Darknet-19,去除全连接层以适应不同尺寸的图像输入,引入批归一化层(batch normalization)和LeakyReLu激活函数组成CBL模块. 在预测阶段,结合锚框与特征图直接预测边界框的位置坐标,显著提高了检测准确性和效率. 这些改进使得YOLOv2在PASCAL VOC数据集上达到了78.6%的AP.

尽管YOLOv2引入了多尺度训练,但它仍然只针对单一尺度的特征图进行预测,限制了其对不同尺寸和比例的物体的处理能力. Redmon等[13]提出YOLO v3网络,如图2(c)所示,主要改进如下. 在特征提取阶段,backbone采用包含ResNet (residual network)[14]残差连接结构的Darknet-53,以提升特征提取能力. 此外,YOLO v3借鉴特征金字塔网络(feature pyramid network, FPN)[15]形成Neck层,用于融合和细化backbone提取的不同尺度的空间和语义特征. 在预测阶段,采用二元交叉熵 (binary cross entropy, BCE)[16]来训练logistic多标签分类器,从3个不同的尺度预测边界框. YOLOv3将验证数据集从PASCAL VOC数据集更换为MS COCO数据集[17],这些改进使得它在MS COCO数据集上实现了36.2%的AP和20 帧/s的检测速度.

Bochkovskiy等[18]提出YOLOv4网络,如图3(a)所示,它的改进方法如下. 在输入阶段,采用Mosaic数据增强技术来增强对不同上下文中对象的检测能力,引入自我对抗训练(self-adversarial training, SAT),提高模型对扰动的鲁棒性. 在特征提取阶段,采用CSPD Darknet53作为Backbone,通过跨阶段局部网络(cross stage partial,CSP)[19]分割并融合特征图. 在neck层引入空间金字塔池化块(spatial pyramid pooling,SPP)[20]和路径聚合网络(path aggregation network,PAN)[21],提高模型对多尺度目标的感知能力. 在预测阶段,引入CIoU(complete-IoU)损失[22]来更准确地关注被测对象的位置、大小和形状的一致性. 这些改进使得YOLOv4在MS COCO数据集上达到43.5%的AP和超过50 帧/s的检测速度.

Jocher[23]发布了YOLOv5网络. 如图3(b)所示,它的改进方法如下. 在输入阶段,同时使用Mosaic、copy paste[24]、MixUp[25]等多种数据增强技术,加强对小目标和类别分布不均衡数据的检测效果. 引入自适应锚框算法(autoanchor)和图像自适应缩放技术,确保模型能够准确识别各种尺度和比例的对象. 在特征提取阶段,结合Focus模块和CSPDarknet53网络作为Backbone,以优化模型计算效率. 在Neck层引入CSP模块,加强网络特征融合的能力. YOLOv5在MS COCO数据集上实现了55.8%的AP.

Ge等[26]提出YOLOX网络,如图3(c)所示,它的改进方法如下. 在输入阶段,采用与CornerNet[27]、CenterNet[28]和FCOS[29]等检测器相似的无锚框结构来简化模型的训练与预测过程. 在特征提取阶段,Neck层被简化为由FPN模块和PAN模块组合而成的结构. 在预测阶段,使用Decoupled head解耦头结构,使分类、定位和置信度预测由不同的卷积层来处理,以提升整体的检测性能. YOLOX在MS COCO数据集上实现了50.1%的AP和68.9 帧/s的检测速度.

Li等[30]提出YOLOv6网络,如图3(d)所示,它的改进方法如下. 在特征提取阶段,基于可重参化的RepVGG[31]设计EfficientRep和Rep-PAN分别作为Backbone和Neck层,旨在高效利用GPU的计算资源. 在预测阶段,设计Efficient Decoupled head解耦头,以进一步降低计算成本. 引入VariFocal[32]分类损失和SIoU[33]/GIoU[34]回归损失,以提高检测的精度和效率. YOLOv6在MS COCO数据集上实现了57.2%的AP和29 帧/s的检测速度.

Wang等[35]提出YOLOv7网络,如图3(e)所示,它的网络结构如下. 在特征提取阶段,基于ELAN[36]提出扩展高效层聚合网络(extended efficient layer aggregation network,E-ELAN),通过结合不同群体特征来增强学习能力. Backbone改为由CBS模块、E-ELAN模块和MP模块构成. 在预测阶段,将neck层整合融入head 层中,网络结构由SPPCSPC模块、E-ELAN模块、RepConv模块和CBM模块构成. YOLOv7模型的参数量大幅减少,在MS COCO数据集上实现了55.2%的AP和50 帧/s的检测速度.

Jocher等[37]提出YOLOv8网络,如图3(f)所示,它的改进方法如下. 在输入阶段,采用与YOLOX相同的无锚框结构. 在特征提取阶段,在YOLOv5的基础上将CSPDarknet53和FPN-PAN中的C3模块替换为C2f模块,通过结合高级特征与上下文信息来提高检测精度. 在预测阶段,沿用解耦头结构,使用TAL标签分配策略、DFL[38]和CIoU损失函数,提升对小目标的检测能力. YOLOv8在MS COCO数据集上实现了53.9%的AP和280 帧/s的检测速度(在相同的硬件和输入条件下,YOLOv5的平均精度为50.7%).

2. YOLO算法在交通目标检测中的应用

2.1. 以“人”为对象的目标检测

YOLO算法以“人”为对象的交通目标检测应用分为以下2部分. 1)对道路行人的检测,包括行人检测、跟踪、行为模式识别、人群密度估计和客流计算. 2)车内驾驶员和乘客的行为与状态监测.

行人检测研究的主要创新和改进方向是提高模型的准确性和实时性. Du等[39]结合Wasserstein距离损失[40]和损失函数,提高模型对交通环境中对行人检测错误分类的关注度. 改进后的YOLOv3模型实现了高达98.57%的mAP,而改进后的YOLOv4-tiny模型的检测速度达到了22.592 8 帧/s,满足了实时检测的需求. Cao等[41]使用ViBe算法[42]初步检测所有移动目标,将获取的前景图像输入到YOLOv4网络进行精确的二次行人检测. 通过将SPP-Net结构集成到CSPDarkNet53网络的最后一个卷积层中,显著提升了YOLO模型对图像中属于小目标的行人目标的检测能力.

随着行人检测技术的发展,应用方向已扩展到行人跟踪、行为模式识别、人群密度估计和客流计算等更复杂的领域. 针对行人运动的不确定性和多变性,Chen等[43]使用YOLOv3算法在视频帧中识别和定位行人,获取边界框信息. 使用DeepSort算法[44]预测行人的运动状态,利用马氏距离和外观特征计算跟踪目标的相似度. 该方法结合YOLO算法的检测能力与DeepSort算法的跟踪能力,有效地实现了对行人的准确检测和连续跟踪. 针对城市交通环境中行人乱穿马路这一常见问题,Chavis等[45]分析巴尔的摩和华盛顿的5个街道上的行人行为. 采用YOLOv8算法获取每个行人在连续视频帧中的位置,通过分析行人的位置、方向和速度变化等运动特征,识别直接过街、停顿、变更方向等不同的行人交通行为模式. 对于公交站点这类关键交通场所,人群密度估计和客流计算对于保证运营效率和安全性至关重要. Liu等[46]结合YOLOv3和DeepSort进行人员检测与跟踪,通过分析行人的行走方向并计算通过出入口的人数,获取流量数据. 此外,使用Voronoi图[47]来计算每个人的占用区域,实现了基于个体的人群密度计算.

YOLO算法还广泛应用于识别车内驾驶员和乘客的行为与状态. Yogesh等[48]使用Dlib人脸识别库来获取驾驶员的面部特征,运用YOLOv3算法检测驾驶员的面部和眼睛. 通过计算眼睛闭合比例、嘴巴张开比例和头部倾斜角度,判断驾驶员是否疲劳驾驶. 方浩杰等[49]增加YOLOv5模型的特征采样次数,引入BiFPN网络结构以保留多尺度特征信息,提高了对眼睛、嘴巴的检测精度. 提出疲劳参数补偿机制,以准确识别视频中的眨眼、打哈欠帧数. 融合多种疲劳参数,准确识别了佩戴口罩情况下的驾驶员疲劳状态. Liu等[50]在YOLOv7的backbone和head部分加入全局注意机制(GAM)模块[51],通过通道扩展(CE)数据增强策略对全局维度的交互特征进行增强,有效地检测了喝水、使用手机、违规抓握方向盘等多种分心驾驶行为. Zhao等[52]结合YOLOv3和Cam-shift算法进行公交车上下客流检测的研究,使用YOLOv3模型从视频图像中识别乘客头部,利用Cam-shift算法持续跟踪这些头部目标的运动轨迹,根据运动轨迹的变化判断乘客的上下车行为.

表1所示,P为检测准确率,v为检测速度. YOLO算法在车外行人检测与跟踪、车内驾驶员和乘客行为监测等以“人”为对象的交通目标检测方面已取得显著进展. 该领域面临多项挑战,包括平衡检测精度与实时性、提高小目标和被遮挡目标的检测能力、增强行为模式识别的准确性、提升车内行为监测的多样性和复杂性. 未来的研究需要探索算法改进和数据融合技术,优化模型的整体性能.

表 1   交通目标中以“人”为检测对象的YOLO算法应用

Tab.1  Application of YOLO algorithm with 'Human' as detection object in traffic target

文献研究方向数据集YOLO原型改进方式P/%mAP/%v/(帧·s−1)
文献[39]车载行人检测自建数据集YOLOv3
YOLOv4
YOLOv4-tiny
结合Wasserstein
距离损失


98.57
98.19
80.39
3.858 6
3.404 9
22.592 8
文献[41]监控行人检测自建数据集YOLOv4引入SPP-Net结构84.47
文献[43]行人跟踪PD-2022YOLOv3结合DeepSort算法72.0233
文献[45]行人行为模式识别自建数据集YOLOv8结合运动特征分析
文献[46]人群密度估计和客流计算自建数据集YOLOv3结合DeepSort算法、
Voronoi图
97.87
文献[48]驾驶员疲劳检测自建数据集YOLOv394.66(眨眼)、
95.99(打哈欠)
文献[49]驾驶员疲劳检测自建数据集、NTHU-DDDYOLOv5增加特征采样次数,
结合BiFPN结构
99.40100
文献[50]驾驶员分心检测IR dataset of HNUST and HNUYOLOv7结合全局注意机制(GAM),
通道扩展(CE)数据增强
73.60156
文献[52]乘客客流检测自建数据集YOLOv3结合Cam-shift算法89.71

新窗口打开| 下载CSV


2.2. 以“车”为对象的目标检测

YOLO算法以“车”为对象的交通目标检测涉及从车辆静态特征到动态行为的全方位分析以及进一步深入的交通事件检测,展现了当前研究的多样性和深度,为智能车辆的自动驾驶技术和安全系统的发展提供了关键的技术支持.

Li等[53]将YOLOv5算法的Backbone替换为ResNet50,引入自适应比例系数来重构损失函数. 这一改进在BDDK100数据集[54]上实现了86%的mAP,有效降低了多车辆目标下的高丢失率和对外部环境的敏感性. 叶佳林等[55]提出基于YOLOv3的非机动车检测算法,通过改进特征融合结构降低非机动车的漏检率,采用GIOU损失来提高定位精度,解决了在高车流密度和易遮挡条件下非机动车的漏检和定位不准确的问题. Raj等[56]结合YOLOv5和VGGNet算法[57],从视频和音频2个维度检测救护车、消防车和警车等应急车辆的位置和状态. 通过调整交通信号灯,使得应急车辆能够迅速且安全地穿过交通拥堵区,显著提高了应急响应的安全性和效率. Simony等[58]将YOLOv2的2D目标检测能力扩展到3D空间,提出适用于点云数据目标检测的Complex-YOLO网络. 通过将3D激光雷达扫描得到的点云数据转换为RGB鸟瞰视图,使用Euler-Region-Proposal Network(E-RPN)进行3D物体检测,实现了对各种车辆类型的识别.

YOLO算法在车辆动态检测方面得到了广泛的研究和发展. Azimjonov等[59]使用YOLOv3算法检测车辆类型和位置,计算连续2帧中车辆边界框的欧式距离,通过比对不同边界框之间的相似性,实现了视频序列中的车辆位置跟踪和移动分析. 车辆计数和交通密度分析是车辆跟踪的进一步深入研究. Lin等[60]结合mYOLOv4-tiny算法和CFNN卷积模糊神经网络[61],准确地分类和定位不同类型的车辆,通过统计不同时间段内检测到的车辆数量来分析交通密度.

在车辆跟踪和计数研究的基础上,以车为对象的交通目标检测拓展到了车辆速度估计、异常行为识别和交通事故检测等更复杂的领域. Cvijetić等[62]使用YOLOv5算法检测视频中的车辆类别和位置,通过1D-CNN模型逐帧计算车辆靠近摄像机时边界框的面积来获取边界框变化区域(CBBA),根据CBBA曲线的变化来估计车辆速度. Rahman等[63]使用YOLOv3算法从视频帧中检测车辆位置,在指定区域内应用质心跟踪算法进行车辆跟踪. 通过逐帧比较车辆质心位置的变化来检测车辆行驶方向,识别逆行行为. Sabry等[64]将YOLOv3算法输出的车辆位置信息传递给MOSSE(minimum output sum of squared error)跟踪算法[65]进行车辆位置跟踪. 通过比较2辆车的实际和预测中心之间的最大距离来进行碰撞检测,利用暴力流(violent flow, ViF)描述符[66]分析可能的碰撞区域,判断是否发生了交通事故.

表2所示,YOLO算法显著提升了车辆目标检测的效率和准确性,实现了车辆交通状态的全面检测. 算法在复杂城市交通环境和多变天气条件下的适应性、高速和复杂交通流中的车辆动态行为识别精确性以及3D数据处理的实时性方面存在局限,有待技术创新和优化.

表 2   交通目标中以“车”为检测对象的YOLO算法应用

Tab.2  Application of YOLO algorithm with 'Vehicle' as detection object in traffic target

文献研究方向数据集YOLO原型改进方式P/%mAP/%v/(帧·s−1)
文献[53]机动车检测BDDK100YOLOv5将主干网络替换为ResNet50,
引入自适应比例系数
86
文献[55]非机动车检测自建数据集YOLOv3改进特征融合结构,采用GIOU损失70.8
文献[56]应急车辆检测自建数据集YOLOv5结合VGGNet算法95.7
文献[58]3D车辆检测KITTI[67]YOLOv2改为3D目标检测,引入E-RPN54.7750.4
文献[59]车辆跟踪自建数据集YOLOv3结合边界框距离计算与相似性对比95.45
文献[60]交通密度分析BIT-Vehicle Dataset[68]
GRAM-RTM[69]
YOLOv4结合CFNN卷积模糊神经网络90.459930
文献[62]车辆速度估计VS13[70]YOLOv5结合1D-CNN算法
文献[63]车辆异常行为检测自建数据集YOLOv3结合质心跟踪算法100
文献[64]交通事故检测自建数据集YOLOv3结合MOSSE跟踪算法、ViF描述符93

新窗口打开| 下载CSV


2.3. 以“路”为对象的目标检测

YOLO算法以“路”为对象的目标检测的首要任务是检测路面上的交通标志、信号灯和道路划线,这些是智能车辆判断道路使用模式的重要依据之一. 其次是检测驾驶过程中需要及时规避的路面障碍和损坏,以保障车辆的安全行驶.

Song等[71]提出TSR-YOLO算法,引入改进的轻量级BECA注意力机制和增强的密集SPP模块,使用k-means++聚类算法获取更适合交通标志检测的锚框. 该算法在CCTSDB2021数据集[72]上达到92.77%的mAP和81 帧/s的处理速度,证明利用该算法能够在复杂场景中准确检测交通标志,满足智能车辆对交通标志检测任务的实时性要求. 针对交通灯尺寸小和环境复杂导致的特征提取难题,钱伍等[73]设计ACBlock(asymmetric convolution block)、SoftPool和DSConv(depthwise separable convolution)模块以提高Backbone的特征提取能力,改进特征融合网络来增强对小目标的检测能力. 在BDD100K和Bosch数据集[74]上,分别实现了74.3%、84.4%的AP以及111、126 帧/s的检测速度,提升了交通灯检测的准确性和实时性.

Mii等[75]使用YOLOv2算法识别出含有道路划线的区域,应用模板匹配技术来精确识别道路划线. 比较图像与预设模板之间的相似度以识别道路使用模式,克服了传统基于亮度的模板匹配方法在阳光照射或道路标记模糊情况下检测失效的局限性. Chen等[76]在YOLOv5的基础上替换空间金字塔快速池化(spatial pyramid pooling-fast, SPPF)模块、引入GELU(Gaussian error linear unit)[77]激活函数和CA(coordinate attention)机制[78],在减少模型参数量的同时,提升了特征感知和表达能力. 使用旋转框获取目标的角度信息已在目标检测领域得到了广泛的应用[79],通过使用圆形平滑标签(circular smooth label)[80]进行角度分类,将角度回归问题转化为分类问题,准确识别停车位的位置和朝向.

Srivastava[81]使用包含各种垃圾和野生动物图像的数据集,对YOLOv5模型进行特定训练. 通过对这些物体进行“可驾驶”或“不可驾驶”的二元分类,评估各种路面障碍对安全驾驶的潜在影响. Wan等[82]将YOLOv5s模型的Backbone替换为由轻量级网络ShuffleNetV2[83]和ECA注意力机制[84]组成的Shuffle-ECANet,提高模型的检测速度和精度. 通过实时检测路面的各种裂缝和坑洞缺陷,辅助智能车辆规划驾驶路线,以避开这些受损道路存在的交通风险.

表3所示,YOLO算法在精确检测交通标志、信号灯和路面标记方面表现出色,在路面障碍物和损坏检测方面展现了良好的性能. 实际应用中的光线变化、背景干扰和遮挡等问题仍未得到充分的解决. 未来研究的重点是继续提高YOLO算法的环境适应性和对细微目标的识别精度,从而提高复杂交通场景下的可靠性.

表 3   交通目标中以“路”为检测对象的YOLO算法应用

Tab.3  Application of YOLO algorithm with 'Road' as detection object in traffic target %

文献研究方向数据集YOLO原型改进方式PAPmAP
文献[71]交通标志检测CCTSDB2021YOLOv4引入BECA注意力机制、密集SPP模块、k-means++聚类算法96.6292.77
文献[73]交通灯检测BDD100K、
Bosch
YOLOv5引入ACBlock、SoftPool、DSConv模块
74.3
84.4

文献[75]道路划线检测自建数据集YOLOv2结合模板匹配技术100
文献[76]停车位检测自建数据集YOLOv5引入SPPF模块、GELU激活函数、CA机制、圆形平滑标签70.72
文献[81]路面障碍检测TACO[85]YOLOv524.77
文献[82]道路损坏检测RDD2020[86](自主拓展)YOLOv5将主干网络替换为Shuffle-ECANet59.257.6

新窗口打开| 下载CSV


3. 结 语

针对YOLO算法在交通场景目标检测任务中的技术挑战和局限性,未来的研究方向如下.

(1)轻量化网络架构. 通过减少卷积层数量、降低通道数、采用轻量级激活函数等方法,降低算法复杂度和计算成本. 结合知识蒸馏技术,将大型模型的特征提取能力迁移到小型模型,同时采用模型剪枝和量化技术,减小内存占用和计算需求,提高推理速度,使YOLO算法快速响应交通变化。

(2)高效特征提取. 开发能捕获细节和全局信息的多尺度特征提取方法,结合EfficientNet、Vision Transformers网络,设计动态特征提取机制和自适应特征融合策略,增强复杂场景的理解能力,适应不同交通场景的特征需求.

(3)多模态目标检测. 融合光学相机、红外相机和激光雷达等传感器数据,弥补单一传感器的性能缺陷. 优化多源数据的融合策略,解决数据同步和信息丢失问题. 研究跨模态学习方法,使YOLO算法从多种数据中学习并统一处理.

(4)多尺度与三维目标检测. 通过多尺度训练和目标增强提升算法的多尺度检测性能,设计适配稀疏、不规则点云的三维目标检测网络架构,优化YOLO算法在智能驾驶场景中的表现.

(5)数据集的多样性与模型泛化. 利用虚拟仿真技术生成罕见或特殊的事件数据,开发多元化数据集,通过迁移学习实现跨场景和跨任务的能力提升,增强模型在复杂交通场景下的泛化能力.

参考文献

KAFFASH S, NGUYEN A T, ZHU J

Big data algorithms and applications in intelligent transportation system: a review and bibliometric analysis

[J]. International Journal of Production Economics, 2021, 231: 107868

DOI:10.1016/j.ijpe.2020.107868      [本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39 (6): 1137- 1149

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. Ssd: single shot multibox detector [C]// Computer Vision–ECCV 2016: 14th European Conference . Amsterdam: Springer, 2016: 21-37.

[本文引用: 1]

LIN T Y, GOYAL P, GIRSHICK R, et al

Focal loss for dense object detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42 (2): 2999- 3007

[本文引用: 1]

ZHAO Z Q, ZHENG P, XU S T, et al

Object detection with deep learning: a review

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30 (11): 3212- 3232

DOI:10.1109/TNNLS.2018.2876865      [本文引用: 1]

邓亚平, 李迎江

YOLO算法及其在自动驾驶场景中目标检测研究综述

[J]. 计算机应用, 2024, 44 (6): 1949- 1958

[本文引用: 1]

DENG Yaping, LI Yingjiang

Review of YOLO algorithm and its application to object detection in autonomous driving scenes

[J]. Journal of ComputerApplications, 2024, 44 (6): 1949- 1958

[本文引用: 1]

ZAIDI S S A, ANSARI M S, ASLAM A, et al

A survey of modern deep learning based object detection models

[J]. Digital Signal Processing, 2022, 126: 103514

DOI:10.1016/j.dsp.2022.103514      [本文引用: 1]

王琳毅, 白静, 李文静, 等

YOLO系列目标检测算法研究进展

[J]. 计算机工程与应用, 2023, 59 (14): 15- 29

DOI:10.3778/j.issn.1002-8331.2301-0081      [本文引用: 1]

WANG Linyi, BAI Jing, LI Wenjing, et al

Research progress of YOLO series target detection algorithms

[J]. Computer Engineering and Applications, 2023, 59 (14): 15- 29

DOI:10.3778/j.issn.1002-8331.2301-0081      [本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 779-788.

[本文引用: 1]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 1-9.

[本文引用: 1]

EVERINGHAM M, VAN GOOL L, WILLIAMS C K, et al

The pascal visual object classes (voc) challenge

[J]. International Journal of Computer Vision, 2010, 88 (2): 303- 338

DOI:10.1007/s11263-009-0275-4      [本文引用: 1]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 7263-7271.

[本文引用: 1]

REDMON J, FARHADI A. Yolov3: an incremental improvement [EB/OL]. [2023-01-20]. https://arxiv.org/abs/1804.02767.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 2117-2125.

[本文引用: 1]

RUBY U, YENDAPALLI V

Binary cross entropy with deep learning technique for image classification

[J]. Advanced Trends in Computer Science and Engineering, 2020, 9 (4): 5393- 5397

DOI:10.30534/ijatcse/2020/175942020      [本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [C]// 13th European Conference of Computer Vision . Zurich: Springer, 2014: 740-755.

[本文引用: 1]

BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: optimal speed and accuracy of object detection [EB/OL]. [2023-01-20]. https://arxiv.org/abs/2004.10934.

[本文引用: 1]

WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops . Seattle: IEEE, 2020: 390-391.

[本文引用: 1]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824      [本文引用: 1]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 8759-8768.

[本文引用: 1]

ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI Press, 2020: 12993-13000.

[本文引用: 1]

JOCHER G. YOLOv5 by ultralytics [EB/OL]. (2020-06-09) [2024-04-23]. https://github.com/ultralytics/yolov5.

[本文引用: 1]

GHIASI G, CUI Y, SRINIVAS A, et al. Simple copy-paste is a strong data augmentation method for instance segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 2918-2928.

[本文引用: 1]

ZHANG H, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization [EB/OL]. [2023-01-20]. https://arxiv.org/abs/1710.09412.

[本文引用: 1]

GE Z, LIU S, WANG F, et al. Yolox: exceeding yolo series in 2021 [EB/OL]. [2023-01-20]. https://arxiv.org/abs/2107.08430.

[本文引用: 1]

LAW H, DENG J. Cornernet: detecting objects as paired keypoints [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 734-750.

[本文引用: 1]

DUAN K, BAI S, XIE L, et al. Centernet: keypoint triplets for object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 6569-6578.

[本文引用: 1]

TIAN Z, SHEN C, CHEN H, et al. Fcos: fully convolutional one-stage object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9627-9636.

[本文引用: 1]

LI C, LI L, JIANG H, et al. YOLOv6: a single-stage object detection framework for industrial applications [EB/OL]. (2022-09-07) [2024-04-23]. https://arxiv.org/abs/2209.02976.

[本文引用: 1]

DING X, ZHANG X, MA N, et al. Repvgg: making vgg-style convnets great again [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 13733-13742.

[本文引用: 1]

ZHANG H, WANG Y, DAYOUB F, et al. Varifocalnet: an iou-aware dense object detector [C]/ /Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 8514-8523.

[本文引用: 1]

GEVORGYAN Z. SIoU loss: more powerful learning for bounding box regression [EB/OL]. (2022-05-25) [2024-04-23]. https://arxiv.org/abs/2205.12740.

[本文引用: 1]

REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]/ /Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seoul: IEEE, 2019: 658-666.

[本文引用: 1]

WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 7464-7475.

[本文引用: 1]

WANG C Y, LIAO H Y M, YEH I H. Designing network design strategies through gradient path analysis [EB/OL]. (2022-11-09) [2024-04-23]. https://arxiv.org/abs/2211.04800.

[本文引用: 1]

JOCHER G, CHAURASIA A, QIU J. YOLO by ultralytics [EB/OL]. (2023-01-01) [2024-04-23]. https://github.com/ultralytics/ultralytics.

[本文引用: 1]

LI X, WANG W, WU L, et al. Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection [EB/OL]. [2023-01-20]. https://proceedings.neurips.cc/paper_files/paper/2020/file/f0bda020d2470f2e74990a07a607ebd9-Paper.pdf.

[本文引用: 1]

DU L, CHEN X, PEI Z, et al

Improved real-time traffic obstacle detection and classification method applied in intelligent and connected vehicles in mixed traffic environment

[J]. Journal of Advanced Transportation, 2022, 2022 (1): 2259113

[本文引用: 2]

ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks [C]// International Conference on Machine Learning . Sydney: PMLR, 2017: 214-223.

[本文引用: 1]

CAO J, ZHUANG Y, WANG M, et al. Pedestrian detection algorithm based on ViBe and YOLO [C]// Proceedings of the 5th International Conference on Video and Image Processing . New York: ACM, 2021: 92-97.

[本文引用: 2]

BARNICH O, VAN DROOGENBROECK M

ViBe: a universal background subtraction algorithm for video sequences

[J]. IEEE Transactions on Image Processing, 2010, 20 (6): 1709- 1724

[本文引用: 1]

CHEN X, JIA Y, TONG X, et al

Research on pedestrian detection and deepsort tracking in front of intelligent vehicle based on deep learning

[J]. Sustainability, 2022, 14 (15): 9281

DOI:10.3390/su14159281      [本文引用: 2]

WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric [C]// IEEE International Conference on Image Processing . Beijing: IEEE, 2017: 3645-3649.

[本文引用: 1]

CHAVIS C, NYARKO K, CIRILLO C, et al. A comparative study of pedestrian crossing behavior and safety in Baltimore, MD and Washington, DC using video surveillance [R]. Baltimore: Morgan State University, 2023.

[本文引用: 2]

LIU X, ZHU Y. Passenger flow modeling and simulation in transit stations [R]. Newark: Rutgers University, 2022.

[本文引用: 2]

AURENHAMMER F, KLEIN R

Voronoi diagrams

[J]. Handbook of Computational Geometry, 2000, 5 (10): 201- 290

[本文引用: 1]

YOGESH R, RITHEESH V, REDDY S, et al. Driver drowsiness detection and alert system using YOLO [C]// International Conference on Innovative Computing, Intelligent Communication and Smart Electrical Systems . Chennai: IEEE, 2022: 1-6.

[本文引用: 2]

方浩杰, 董红召, 林少轩, 等

多特征融合的驾驶员疲劳状态检测方法

[J]. 浙江大学学报: 工学版, 2023, 57 (7): 1287- 1296

[本文引用: 2]

FANG Haojie, DONG Hongzhao, LIN Shaoxuan, et al

Driver fatigue state detection method based on multi-feature fusion

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (7): 1287- 1296

[本文引用: 2]

LIU S, WANG Y, YU Q, et al

CEAM-YOLOv7: improved YOLOv7 based on channel expansion and attention mechanism for driver distraction behavior detection

[J]. IEEE Access, 2022, 10: 129116- 129124

DOI:10.1109/ACCESS.2022.3228331      [本文引用: 2]

LIU Y, SHAO Z, HOFFMANN N. Global attention mechanism: retain information to enhance channel-spatial interactions [EB/OL]. (2021-12-10) [2024-04-23]. https://arxiv.org/abs/2112.05561.

[本文引用: 1]

ZHAO J, LI C, XU Z, et al. Detection of passenger flow on and off buses based on video images and YOLO algorithm [EB/OL]. [2023-01-20]. https://link.springer.com/article/10.1007/s11042-021-10747-w.

[本文引用: 2]

LI Y, WANG J, HUANG J, et al

Research on deep learning automatic vehicle recognition algorithm based on RES-YOLO model

[J]. Sensors, 2022, 22 (10): 3783

DOI:10.3390/s22103783      [本文引用: 2]

YU F, CHEN H, WANG X, et al. Bdd100k: a diverse driving dataset for heterogeneous multitask learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 2636-2645.

[本文引用: 1]

叶佳林, 苏子毅, 马浩炎, 等

改进YOLOv3的非机动车检测与识别方法

[J]. 计算机工程与应用, 2021, 57 (1): 194- 199

DOI:10.3778/j.issn.1002-8331.2005-0343      [本文引用: 2]

YE Jialin, SU Ziyi, MA Haoyan, et al

Improved YOLOv3 non-motor vehicles detection and recognition method

[J]. Computer Engineering and Applications, 2021, 57 (1): 194- 199

DOI:10.3778/j.issn.1002-8331.2005-0343      [本文引用: 2]

RAJ V S, SAI J V M, YOGESH N L, et al. Smart traffic control for emergency vehicles prioritization using video and audio processing [C]// 6th International Conference on Intelligent Computing and Control Systems . Madurai: IEEE, 2022: 1588-1593.

[本文引用: 2]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04) [2024-04-23]. https://arxiv.org/abs/1409.1556.

[本文引用: 1]

SIMONY M, MILZY S, AMENDEY K, et al. Complex-yolo: an euler-region-proposal for real-time 3d object detection on point clouds [C]/ /Proceedings of the European Conference on Computer Vision Workshops. Munich: Springer, 2018: 197-209.

[本文引用: 2]

AZIMJONOV J, ÖZMEN A

A real-time vehicle detection and a novel vehicle tracking systems for estimating and monitoring traffic flow on highways

[J]. Advanced Engineering Informatics, 2021, 50: 101393

DOI:10.1016/j.aei.2021.101393      [本文引用: 2]

LIN C J, JHANG J Y

Intelligent traffic-monitoring system based on YOLO and convolutional fuzzy neural networks

[J]. IEEE Access, 2022, 10: 14120- 14133

DOI:10.1109/ACCESS.2022.3147866      [本文引用: 2]

EBADZADEH M M, SALIMI-BADR A

CFNN: correlated fuzzy neural network

[J]. Neurocomputing, 2015, 148: 430- 444

DOI:10.1016/j.neucom.2014.07.021      [本文引用: 1]

CVIJETIĆ A, DJUKANOVIĆ S, PERUNIČIĆ A. Deep learning-based vehicle speed estimation using the YOLO detector and 1D-CNN [C]// 27th International Conference on Information Technology . Žabljak: IEEE, 2023: 1-4.

[本文引用: 2]

RAHMAN Z, AMI A M, ULLAH M A. A real-time wrong-way vehicle detection based on YOLO and centroid tracking [C]// 2020 IEEE Region 10 Symposium . Dhaka: IEEE, 2020: 916-920.

[本文引用: 2]

SABRY K, EMAD M. Road traffic accidents detection based on crash estimation [C]// 17th International Computer Engineering Conference . Cairo: IEEE, 2021: 63-68.

[本文引用: 2]

BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition . San Francisco: IEEE, 2010: 2544-2550.

[本文引用: 1]

ARCEDA V M, FABIÁN K F, GUTÍERREZ J C. Real time violence detection in video [C]// The Institution of Engineering and Technology Conference Proceedings. Talca: IEEE, 2016.

[本文引用: 1]

GEIGER A, LENZ P, STILLER C, et al

Vision meets robotics: the kitti dataset

[J]. The International Journal of Robotics Research, 2013, 32 (11): 1231- 1237

DOI:10.1177/0278364913491297      [本文引用: 1]

DONG Z, WU Y, PEI M, et al

Vehicle type classification using a semisupervised convolutional neural network

[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16 (4): 2247- 2256

DOI:10.1109/TITS.2015.2402438      [本文引用: 1]

GUERRERO-GÓMEZ-OLMEDO R, LÓPEZ-SASTRE R J, MALDONADO-BASCÓN S, et al. Vehicle tracking by simultaneous detection and viewpoint estimation [C]// Natural and Artificial Computation in Engineering and Medical Applications: 5th International Work-Conference on the Interplay Between Natural and Artificial Computation . Mallorca: Springer, 2013: 306-316.

[本文引用: 1]

DJUKANOVIĆ S, BULATOVIĆ N, ČAVOR I. A dataset for audio-video based vehicle speed estimation [C]// 30th Telecommunications Forum . Belgrade: IEEE, 2022: 1-4.

[本文引用: 1]

SONG W, SUANDI S A

Tsr-yolo: a Chinese traffic sign recognition algorithm for intelligent vehicles in complex scenes

[J]. Sensors, 2023, 23 (2): 749

DOI:10.3390/s23020749      [本文引用: 2]

ZHANG J, ZOU X, KUANG L D, et al. CCTSDB 2021: a more comprehensive traffic sign detection benchmark [EB/OL]. [2023-01-20]. https://centaur.reading.ac.uk/106129/1/12-23.pdf.

[本文引用: 1]

钱伍, 王国中, 李国平

改进YOLOv5的交通灯实时检测鲁棒算法

[J]. 计算机科学与探索, 2022, 16 (1): 231- 241

DOI:10.3778/j.issn.1673-9418.2105033      [本文引用: 2]

QIAN Wu, WANG Guozhong, LI Guoping

Improved YOLOv5 traffic light real-time detection robust algorithm

[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16 (1): 231- 241

DOI:10.3778/j.issn.1673-9418.2105033      [本文引用: 2]

BEHRENDT K, NOVAK L, BOTROS R. A deep learning approach to traffic lights: detection, tracking, and classification [C]// IEEE International Conference on Robotics and Automation . Singapore: IEEE, 2017: 1370-1377.

[本文引用: 1]

MII Y, MIYAZAKI R, YOSHIMOTO Y, et al

A road marking detection system using partial template matching and region estimation by deep neural network

[J]. Journal of Japan Society for Fuzzy Theory and Intelligent Informatics, 2021, 33 (1): 566- 571

DOI:10.3156/jsoft.33.1_566      [本文引用: 2]

CHEN Z, WANG X, ZHANG W, et al

Autonomous parking space detection for electric vehicles based on improved YOLOV5-OBB algorithm

[J]. World Electric Vehicle Journal, 2023, 14 (10): 276

DOI:10.3390/wevj14100276      [本文引用: 2]

HENDRYCKS D, GIMPEL K. Gaussian error linear units (gelus) [EB/OL]. (2016-06-27) [2024-04-23]. https://arxiv.org/abs/1606.08415.

[本文引用: 1]

HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 13713-13722.

[本文引用: 1]

董红召, 方浩杰, 张楠

旋转框定位的多尺度再生物品目标检测算法

[J]. 浙江大学学报: 工学版, 2022, 56: 16- 25

[本文引用: 1]

DONG Hongzhao, FANG Haojie, ZHANG Nan

Multi-scale object detection algorithm for recycled objects based on rotating block positioning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56: 16- 25

[本文引用: 1]

YANG X, YAN J. Arbitrary-oriented object detection with circular smooth label [C]// 16th European Conference of Computer Vision . Glasgow: Springer, 2020: 677-694.

[本文引用: 1]

SRIVASTAVA I. Retraining of object detectors to become suitable for trash detection in the context of autonomous driving [D]. Dresden: Technische Universität Dresden, 2022.

[本文引用: 2]

WAN F, SUN C, HE H, et al

YOLO-LRDD: a lightweight method for road damage detection based on improved YOLOv5s

[J]. EURASIP Journal on Advances in Signal Processing, 2022, 2022 (1): 98

DOI:10.1186/s13634-022-00931-x      [本文引用: 2]

MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: practical guidelines for efficient cnn architecture design [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 116-131.

[本文引用: 1]

WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11534-11542.

[本文引用: 1]

PROENÇA P F, SIMOES P. Taco: trash annotations in context for litter detection [EB/OL]. (2020-03-16) [2024-04-23]. https://arxiv.org/abs/2003.06975.

[本文引用: 1]

ARYA D, MAEDA H, GHOSH S K, et al

RDD2020: an annotated image dataset for automatic road damage detection using deep learning

[J]. Data In Brief, 2021, 36: 107133

DOI:10.1016/j.dib.2021.107133      [本文引用: 1]

/