<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 SW-YOLOv8n 车辆目标检测模型

Fig.1 SW-YOLOv8n vehicle target detection model

(1)$ \left. {\begin{gathered} {{\text{IoU}} = \dfrac{{\left| {{B^{{\text{pred}}}} \cap \left. {{B^{{\text{gt}}}}} \right|} \right.}}{{\left| {{B^{{\text{pred}}}}\left. { \cup {B^{{\text{gt}}}}} \right|} \right.}}} ， \\ {{L_{{\text{IoU}}}} = 1 - {\text{IoU}} = 1 - \dfrac{{{W_i}{H_i}}}{{{S_{\mathrm{u}}}}}}， \\ {R_{{\text{WIoU}}}} = \exp \left(\dfrac{{{{(x - {x_{{\text{gt}}}})}^2}+{{(y - {y_{{\text{gt}}}})}^2}}}{{{{(W_{\text{g}}^2+H_{\text{g}}^2)}^*}}}\right)， \\ {{L_{{\text{WIoUv1}}}} = {R_{{\text{WIoU}}}}{L_{{\text{IoU}}}}} .\\\end{gathered}} \right\} $

式中：IoU 表示真实目标边界框B^gt和预测框B^pred的重叠程度；R_WIoU表示预测框和真实框中心点之间的归一化距离；W_i、H_i表示第i个预测框与真实框相交区域的宽、高；W_g、H_g表示预测框与真实框最小外接框的宽、高；S_u表示预测框和真实框的联合区域；(x, y) 表示预测框的中心点坐标，(x_gt, y_gt) 表示真实框的中心点坐标； * 表示将W_g、H_g从计算图中分离，消除阻碍收敛的因素.

在城市道路车辆检测中，同向行驶车辆与垂直方向行驶车辆的长宽比例差异较大，且载体车辆与前车的相对距离动态变化，导致目标检测框的尺寸具有不平衡性. WIoU 损失函数能够预测更加精确的目标检测框，为前车距离与速度感知模型提供精确数据.

1.2. 车辆目标跟踪模型

基于深度学习的Bytetrack 多目标跟踪算法，结合SW-YOLOv8n 车辆目标检测模型，形成SW-YOLOv8n-Bytetrack车辆目标检测跟踪网络，原理如图2所示. 视频帧通过SW-YOLOv8n 车辆检测模型获取检测结果 (车辆检测框及置信度). 根据置信度，将检测框分为高得分集合D_high (置信度≥ 0.6) 和低得分集合D_low. D_high 中的检测框与轨迹通过匈牙利算法进行首次匹配，匹配成功则更新卡尔曼滤波状态，并将检测框加入对应轨迹集合；若未匹配成功检测框的置信度高于跟踪得分阈值，则初始化新轨迹，否则直接忽略；未匹配的轨迹与D_low 中的检测框进行第2次匹配，匹配成功则更新卡尔曼滤波并存入轨迹集合；对于未匹配的低分检测框 (置信度< 0.1)，直接剔除；未匹配轨迹若持续超过 30 帧未更新则删除，否则继续更新卡尔曼滤波状态并保留.

图 2

图 2 SW-YOLOv8n-Bytetrack 跟踪原理

Fig.2 Tracking principle of SW-YOLOv8n-Bytetrack

2. 前方车辆测距与测速模型

2.1. 单目相机成像原理

相机成像是将三维世界中的物体通过数学模型映射到二维成像平面的过程，原理如图3所示.

图 3

图 3 相机成像原理

Fig.3 Camera imaging principle

转换过程涉及世界坐标系$ {O_{\mathrm{W}}}\text{-} {X_{\mathrm{W}}}{Y_{\mathrm{W}}}{Z_{\mathrm{W}}} $、相机坐标系$ O{}_{\mathrm{C}} \text{-} {X_{\mathrm{C}}} {Y_{\mathrm{C}}} {Z_{\mathrm{C}}} $、图像坐标系$ o\text{-} xy $、像素坐标系$ {o_0}\text{-}uv $ 这4个坐标系^[23]. P (X_W, Y_W, Z_W) 为世界坐标系中目标物体上的一点，在相机坐标系中对应点 p (X_C, Y_C, Z_C)，映射在图像坐标系的成像点为p' (x, y). 像素坐标系像素点用有序的二元组 (u, v) 表示， (u₀, v₀) 为图像像素坐标系的原点坐标. dx、dy 为每个像素点在图像坐标系 x 轴、y 轴的尺寸，为相机固有参数. 通过刚体变换、透视投影、仿射变换可得图像像素坐标系点 (u, v) 到世界坐标系点 (X_W, Y_W, Z_W) 的转换如下：

(2)$ \begin{split} \left[ {\begin{array}{*{20}{c}} u \\ v \\ 1 \end{array}} \right] =& \frac{1}{{{Z_C}}}\left[ {\begin{array}{*{20}{c}} {{f_x}}&0&{{u_0}}&0 \\ 0&{{f_y}}&{{v_0}}&0 \\ 0&0&1&0 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{R}}_{3 \times 3}}}&{{{\boldsymbol{T}}_{3 \times 1}}} \\ {\bf{0}}&1 \end{array}} \right] \times \\& \left[ {\begin{array}{*{20}{c}} {{X_{\mathrm{W}}}} \\ {{Y_{\mathrm{W}}}} \\ {{Z_{\mathrm{W}}}} \\ 1 \end{array}} \right] = \frac{{{{\boldsymbol{M}}_1}{{\boldsymbol{M}}_2}}}{{{Z_C}}}\left[ {\begin{array}{*{20}{c}} {{X_{\mathrm{W}}}} \\ {{Y_{\mathrm{W}}}} \\ {{Z_{\mathrm{W}}}} \\ 1 \end{array}} \right] .\end{split} $

式中：${f_x} = \dfrac{f}{{{\mathrm{d}}x}}$，${f_y} = \dfrac{f}{{{\mathrm{d}}y}}$，f表示相机焦距，M₁表示相机的内参，包括相机的焦距、光轴与图像平面的焦点位置等内部参数；M₂表示相机的外参，由旋转矩阵$ {{\boldsymbol{R}}_{3 \times 3}} $、$ {{\boldsymbol{T}}_{3 \times 3}} $组成.

2.2. 车辆横纵距离几何算法

基于单目视觉成像原理，通过世界坐标系到像素坐标系的几何变换关系，建立三维场景与二维图像的投影映射模型. 利用相机标定获取的内参矩阵，结合相机外部参数，建立车辆横纵距离几何算法.

车辆横纵距离几何模型如图4所示，在SW-YOLOv8n 模型中输入视频帧图像，输出被检测车辆的类别、类别置信度、检测框左上角顶点坐标 $ ({u_{\min }},{v_{\min }}) $、右下角坐标 $ ({u_{\max }},{v_{\max }}) $. 通过计算可得检测框底边中心点坐标 p (u, v)、检测框的高h、宽w及面积s，表达式如下：

图 4

图 4 车辆横纵距离几何模型

Fig.4 Geometric model of vehicle transverse and longitudinal distance

(3)$ {\begin{gathered} {u = {{({u_{\min }}+{u_{\max }})}}/{2}} ， {v = {v_{\max }}}, \\\end{gathered}} $

(4)$ h = {v_{\max }} - {v_{\min }} ,$

(5)$ w = {u_{\max }} - {u_{\min }} ,$

(6)$ s = h w .$

O 为相机靶面中心 (见图3中图像坐标系O)，O_C为相机光心 (见图3中相机坐标系O_C)，焦距为f，P 为目标检测车辆测距特征点，映射在图像上为点p (u,v)，A 与 a 两点连线与光轴夹角为$\varepsilon $. 设光轴与水平坐标系的夹角 (俯仰角) 为 $\alpha $，且相机与被检测车辆之间的横向距离为 TD、纵向距离为 LD. 借鉴既有模型^[24]，相对前车横、纵距离的表达式如下：

(7)$ {\mathrm{LD}} = \frac{H}{{\tan \left(\alpha +\arctan \left(\dfrac{{v - {v_0}}}{{{f_y}}}\right)\right)}} ，$

(8)$ {\mathrm{TD}} = \dfrac{{\left[ {{H^2}+{{\left(\dfrac{H}{{\tan \left(\alpha +\arctan \left(\dfrac{{v - {v_0}}}{{{f_y}}}\right)\right)}}\right)}^2}}\right] ^{1/2}}}{{\sqrt {{m^2}+{f^2}} }}t .$

式中：H表示相机安装高度；t 表示 a 点到 p 点的水平距离，t = (u−u₀) dx；m 表示 a 点到图像中心点 O的垂直距离，m = (v−v₀) dy.

2.3. 基于车辆图像特征的前方车辆测距模型

随着计算机视觉技术的发展，深度学习算法能够识别和检测图像或视频中的车辆，并精确地计算2辆车之间的实际距离. 该技术对提升驾驶安全性、优化交通流管理及自动驾驶车辆的决策具有重要意义. 在SW-YOLOv8n 模型中输入视频帧图像，输出目标车辆的检测框信息，作为车辆图像位置特征；车辆图像经预处理后，利用车辆特征提取网络提取车辆特征向量；通过横纵距离几何算法计算相对前方车辆的横纵距离特征；最后，构建基于车辆图像特征的前方车辆测距模型，将车辆图像特征串联拼接融合，车辆测距神经网络基于融合数据进行训练推理，实现前方车辆距离感知. 测距模型流程如图5所示.

图 5

图 5 基于车辆图像特征的前方车辆测距模型流程

Fig.5 Process of front vehicle ranging model based on vehicle image features

2.3.1. 车辆特征提取网络

相机安装在车辆上的高度、角度固定，相机的内部参数保持一致. 当相对前方车辆的横、纵距离改变时，前方车辆的像素大小和呈现特征均具有差异性. 通过车辆特征提取网络获取车辆特征向量，为前车距离感知提供数据.

车辆特征提取网络为卷积神经网络，基于卷积操作和池化操作，逐层提取和组合车辆特征，形成抽象、具判别力的特征表示. 如图5所示，图像预处理后，尺寸调整为3×128×128. 经过5个卷积层进行卷积操作，提取车辆图像多层次特征. 其中，conv1、conv2、 conv3、 conv4、conv5 分别包含64、128、32、8、4个卷积核. conv1 提取图像边缘、纹理特征，帮助网络学习图像局部特征；conv2 在图像中挖掘复杂的特征，提取高级别特征；conv3、conv4 和cconv5 执行降维操作，通过降低通道数，减小网络复杂度. 卷积后应用最大池化层逐渐减小特征图的尺寸，降低计算复杂度. 采用 ReLU (Rectified Linear Unit) 激活函数引入非线性性质，对每个卷积核的输出进行非线性变换，使网络能够学习复杂特征. 最后对车辆特征图展平处理，生成16维车辆特征向量.

2.3.2. 车辆测距神经网络

车辆测距神经网络由6个全连接层组成，构造如图6所示. 将串联拼接融合后的23维车辆图像特征向量输入车辆测距神经网络，为车辆测距神经网络输入层提供原始数据. 输入层包含23个神经元，将输入数据转换为适合神经网络处理的形式. 全连接层F1、F2、F3、F4 分别包含32、48、16、8个神经元，输出层包含1个神经元，输出相机到被测车辆的实际距离. 全连接层通过权重矩阵和偏置向量对输入数据进行线性变换，每个神经元都与前一层的所有输出相连，通过对输入特征的线性组合与偏置项的叠加，实现特征的线性组合. 通过 ReLU 激活函数引入非线性性质，捕捉数据中的复杂模式，提取数据高级特征，有助于对输入数据的抽象表示.

图 6

图 6 车辆测距神经网络构造

Fig.6 Construction of vehicle ranging neural network

车辆测距神经网络为前馈神经网络，用于回归任务，分为训练和推理2个阶段. 在训练阶段，将 23维车辆图像特征向量输入车辆测距神经网络，网络学习从输入数据到输出距离的复杂映射，生成最优权重参数模型. 在推理阶段，加载训练好的模型最优权重参数模型，将前方目标车辆的23维车辆图像特征数据传递给网络，完成前向传播，以获取相机相对前方目标车辆的实际距离.

针对不同类型的车辆，调整神经网络结构的层数与每层网络的深度和宽度，适应前方车辆距离感知任务和数据集需求. 通过反向传播算法，模型参数在训练数据上不断优化，获得最佳车辆距离估计.

2.4. 车辆跟踪测速模型

车辆测速技术是车辆外部环境感知的关键，为智能交通系统提供数据支持，提高道路交通的安全和效率. 基于SW-YOLOv8n-Bytetrack车辆目标检测跟踪网络，提出车辆跟踪测速模型. 通过分析视频帧的动态特性与帧间距离，估计车辆速度，保障道路安全、优化交通流、提升交通系统的整体性能. 采用视频作为输入数据，利用SW-YOLOv8n 模型获取第 i 帧和 i+n 帧图像的车辆检测结果. 将检测结果输入前方车辆测距模型中，输出第 i 帧、第 i+n 帧相机相对车辆的距离分别为 D_i、D_i+n. 利用Bytetrack目标跟踪算法在相邻帧之间建立车辆的运动轨迹，实现前方目标车辆的实时跟踪. 根据帧间信息，计算前方目标车辆的速度，流程如图7所示.

图 7

图 7 车辆跟踪测速模型流程

Fig.7 Process of vehicle tracking speed measurement model

通过 OpenCV 获取视频帧帧率 F (单位为Hz或S⁻¹)，并设相机载体车辆的速度为 v_z (单位为km/h).

综合所述参数，推导前方目标车辆相对平均速度表达式如下：

(9)$ \bar v = \frac{{\Delta s}}{{\Delta t}} = \frac{{F({D_i}_{+n} - {D_i})}}{n} \times 3.6 .$

推导前方目标车辆实际速度表达式如下：

(10)$ v = \bar v+{v_z}. $

3. 实验及验证

实验操作系统为 Windows10 64位；实验硬件CPU 为 Intel (R) i9-10900K CPU@370 GHz，GPU 为NVIDIA GeForce RTX 3090，内存为64 G；基于 Python3.10和 PyTorch2.1.0 搭建深度学习框架，CUDA版本11.3.

车辆目标检测的输出结果为基于车辆图像特征的前车距离与速度感知模型的数据输入基础. 如图8所示，视频帧通过 SW-YOLOv8n-Bytetrack 网络，生成目标车辆的ID、车辆类别和车辆目标检测框信息. 根据第 i 帧和第 i+n 帧车辆检测框坐标位置特征，计算车辆横纵距离特征. 预处理车辆图像，输入车辆特征提取网络提取车辆特征. 将车辆图像特征串联拼接融合为23维特征向量，输入基于车辆图像特征的车辆测距模型，测定第 i 帧和第 i+n 帧的相机到前车的实际距离. 根据跟踪结果提取帧间信息，利用车辆跟踪测速模型计算前方车辆速度，实现前方车辆距离和速度感知.

图 8

图 8 基于车辆图像特征的前车距离与速度感知流程

Fig.8 Process of front vehicle distance and speed perception based on vehicle image features

3.1. 目标检测实验

3.1.1. 数据集及预处理

实验数据集由 BDD 100K图像数据集和自建数据集组成，共3800张图像，示例如图9所示. 数据集具有多样性，包含晴天、夜晚、阴雨天、雪天等天气场景，城市道路、道路交叉口、隧道等交通场景，可以提升模型在实际道路场景中的表现.

图 9

图 9 目标检测数据集

Fig.9 Target detection dataset

为了增强模型泛化能力，随机抽取部分实验数据集进行裁剪、色彩抖动、高斯噪声等数据增强操作，将实验数据集扩充至5200张. 根据车辆检测任务，设置 car、truck、van、bus 共4类车辆标签. 采用 labelImg 标注工具标注，在人工标注完成后，制成供目标检测模型读取的数据集格式.

3.1.2. 目标检测评价指标

基于车辆图像特征的前车距离与速度感知模型的输入数据依赖于车辆图像检测输出，车辆目标检测模块须同时满足高精度和实时性的技术指标. 目标检测实验选取召回率 Recall、平均精度 mAP、每秒帧数 FPS作为评价指标. Recall 表示预测为正例的样本中，预测正确的正例样本数占实际正例样本总数的比例；AP表示单个类别平均精准度，为 P-R 曲线所占面积，mAP50为所有检测类别在IoU = 0.50时的平均精度；mAP50−90为所有检测类别在IoU从0.50到0.95的平均精度. 具体表达式如下：

(11)$ {\text{Recall}} = \frac{{{\text{TP}}}}{{{\text{TP+FN}}}}， $

(12)$ {\text{AP}} = \int_0^1 {P({\mathrm{Recall}}){\text{dr}}}， $

(13)$ {\text{mAP}} = \frac{1}{K}{{\displaystyle\sum\limits_{i = 1}^K {{{\mathrm{AP}}_i}} }}, $

(14)$ {\text{mAP50}} =\frac{1}{K}{{\displaystyle\sum\limits_{i = 1}^K {{\mathrm{A}}{{\mathrm{P}}_i}} }}\,\,({\text{IoU}} = 0.5)， $

(15)$ {\text{mAP50}}- {\mathrm{95}} = \frac{1}{K}\sum\limits_{i = 1}^K {\frac{1}{{10}}\sum\limits_{t = 1}^9 {\mathrm{A}} {{\mathrm{P}}_i}} \,\,({\text{IoU}} = 0.5+0.05t)， $

(16)$ {\mathrm{FPS}} = {{{F_{\mathrm{T}}}}}/{{{T_{\mathrm{C}}}}}. $

式中：P 表示精确率，TP 表示真正例，FP表示假正例，FN表示假反例，K 表示类别数，F_T 表示总帧数，T_C 表示检测时间.

3.1.3. 实验结果及分析

为了验证SW-YOLOv8n 车辆目标检测模型性能，将消融与对比实验中的训练超参数保持一致. 采用经验值作为模型超参数的取值，训练总轮数为 200，训练批次大小为8，图像输入尺寸为 640×640，采用随机梯度下降算法 (SGD) 优化器，初始学习率设置为 0.01，动量因子设置为0.9，重衰减学习率设置为 0.000 1.

1) 消融实验. 为了验证改进策略的有效性，以 YOLOv8n 模型实验结果为基线，在相同实验环境进行消融实验，结果如表1 所示，曲线如图10所示. 实验结果表明，增加小目标检测头并采用WIoU 损失函数，Recall、mAP50、mAP50−95分别提升4.4、1.6、2.3个百分点；模型更快地收敛到更好的检测结果，优化了数据处理流程，减少了训练和推理过程中的冗余计算，FPS提升了33.63，表明模型适用于城市道路实际场景中的实时车辆目标检测. 实验结果表明，优化后的车辆目标检测模型，能够为基于车辆图像特征的前方车辆测距模型提供实时性准确数据.

表 1 SW-YOLOv8n模型的消融实验

Tab.1 Ablation experiment results of SW-YOLOv8n model

模型结构	Recall/%	mAP50/%	mAP50−95/%	FPS
YOLOv8n	83.10	91.20	84.30	226.48
YOLOv8n+WIoU	84.40	92.30	85.40	229.60
YOLOv8n+Smallobject	85.30	92.50	86.10	258.10
YOLOv8n+Smallobject+ WIoU	87.50	92.80	86.60	260.11

图 10

图 10 消融实验模型性能指标

Fig.10 Model performance index of ablation experiment

2) 对比实验. 在硬件条件、计算机环境配置、初始参数设置等实验环境相同的情况下，选取单阶段目标检测模型 YOLOv5、YOLOv7^[25]，两阶段目标检测模型 Faster-RCNN^[26]，与SW-YOLOv8n 模型进行对比实验. 实验结果如表2所示，曲线如图11所示. 可以看出，在检测精度方面，SW-YOLOv8n 模型的mAP50 分别比YOLOv5、YOLOv7、Faster-RCNN 的高1.8、1.4、2.6个百分点，mAP50−95 分别比YOLOv5、YOLOv7、Faster-RCNN的高5.6、2.0、14.0个百分点；在检测速度方面，SW-YOLOv8n 模型的 FPS 比 YOLOv5 模型的低86.67，比YOLOv7 模型的高143.8；在模型大小M方面，YOLOv5 模型最小，YOLOv7 、Faster-RCNN、SW-YOLOv8n模型的大小分别为74.8、521.0、6.3 MB. 车辆目标检测结果须为前车距离与速度感知提供重要数据，综合考虑实时性、准确性与轻量化因素，选取 SW-YOLOv8n 作为车辆目标识别检测模型.

表 2 SW-YOLOv8n模型的对比实验结果

Tab.2 Comparison experiment results of SW-YOLOv8n model

模型	Recall/%	mAP50/%	mAP50−95/%	FPS	M/MB
YOLOv5	83.80	91.00	81.00	346.78	3.9
YOLOv7	83.90	91.40	84.60	116.27	74.8
Faster-RCNN	79.78	90.20	72.60	26.67	521.0
SW-YOLOv8n	87.50	92.80	86.60	260.11	6.3

图 11

图 11 对比实验性能指标

Fig.11 Model performance index of comparison experiment

3.2. 前车距离与速度感知实验

3.2.1. 相机标定

相机标定是通过建立世界坐标系三维点与成像平面二维点的映射关系，确定相机的内部参数和外部参数，实现二维图像坐标到三维世界坐标的转换. 实验相机标定采用张氏标定法，选用索尼HDR-CX680相机 (镜头焦距为1.9 mm)，并采用规格为12×9 (单元格边长为30 mm) 的棋盘格标定板，通过提取棋盘格角点作为特征点完成标定过程.

固定相机位置，改变棋盘的方位、角度捕捉图像，共拍摄20张图像. 正向、上倾斜45°、下倾斜45°、旋转90°的部分图像样例如图12所示.

图 12

图 12 相机标定

Fig.12 Camera calibration

通过 OpenCV 标定工具箱获取内角点的坐标，并将坐标传递给 Calibrate Camera 函数，获得相机的内部参数 f_x、f_y、u₀、v₀ 分别为1429.10、1429.15、963.46、544.27像素. 将内外参数代入车辆横纵距离几何算法公式(式 (11)、(12) )求解横向与纵向距离.

3.2.2. 数据集

为了使实验过程更接近真实的交通场景, 采用静态与动态结合的方式，采集真实道路数据构建前车距离与速度感知数据集. 安装静态单目相机，高度为1.4 m，俯仰角为2°.

1) 测距数据集. 前方车辆测距实验数据来自真实道路静态采集，单目相机相对目标车辆左方横向偏移0 ~9.5 m且纵向在5 ~50 m范围内，在前车未被遮挡与有遮挡场景下分别测得80组实验数据. 其中，在前车未被遮挡场景中随机划分65组数据为训练集，15组数据为验证集. 在前车有遮挡场景中随机划分70组数据为训练集，10组数据为验证集. 每组实验数据由2部分组成：通过单目相机拍摄的车辆图像；使用激光测距仪、卷尺作为测距工具测得的相机与车辆的实际距离.

2) 测速数据集. 前方车辆测速实验场景选取真实道路动态采集，设置相机相对前车3种横向距离. 实验车辆分别以仪表盘10、20、30 km/h的速度匀速直线行驶，并在实验车辆的行驶路段进行距离标记. 实验数据由2部分组成：车辆仪表盘测得实验车辆的行驶速度；单目相机拍摄的实验车辆行驶视频. 视频帧跟踪结果示例如图13所示.

图 13

图 13 视频帧跟踪结果示例

Fig.13 Exemplary video frame tracking results

3.2.3. 实验测试及分析

为了验证基于车辆图像特征的前方车辆测距模型与车辆跟踪测速模型的有效性和可行性，在真实封闭道路开展前方车辆测距和测速实验并进行结果分析.

1) 前方车辆测距实验分析. 为了验证基于车辆图像特征的前方车辆测距模型在驾驶场景的适用性，针对前车无遮挡与前车有遮挡2种场景展开测距实验误差分析.

在前车无遮挡场景下，借鉴文献[24]的车辆测距实验结果分析，可知车辆横纵距离几何算法能够有效计算相机相对车辆的横向、纵向距离，供车辆测距神经网络训练、推理. 在前车有遮挡场景下，对车辆横纵距离几何算法进行误差分析. 训练集车辆图像经过SW-YOLOv8n模型输出车辆检测框坐标，通过式(3)~(6) 计算车辆特征点坐标 (u, v)、检测框的高 h、宽w及面积. 将特征点坐标、相机标定得到的内部参数以及外部参数代入式 (7)、(8) ，计算相机相对前方目标车辆的横向、纵向距离. 根据真实测量的横向、纵向距离计算误差. 根据实际横向距离不同，将前车有遮挡条件下的训练集分为5个实验组，相机相对车辆实际横纵距离与几何算法计算结果之间的误差如图14所示. 图中，x_tra、x_lon为实际横向、纵向距离，$\Delta x_{{\mathrm{tra}}} $、$\Delta x_{{\mathrm{lon}}} $为横向、纵向距离计算误差. 根据结果分析，在有遮挡条件下，几何算法的横向、纵向距离的平均误差分别为0.2562、0.4912 m，横向距离最小误差、最大误差分别为0.0010 、0.9124 m，纵向距离最小误差、最大误差分别为0.0362 、1.3768 m. 综上分析表明，在前车有遮挡情况下，且在横向距离为0~9.5 m、纵向距离为0~50 m的范围内，仅使用车辆横纵距离几何算法计算相机相对车辆的距离具有较大误差.

图 14

图 14 相机相对车辆实际横纵距离与几何算法计算结果的误差图

Fig.14 Error between camera measurements and geometric calculations for vehicle transverse and longitudinal distances

车辆测距神经网络训练集和测试集数据来自真实道路场景，旨在评估模型的准确性. 基于前车无遮挡和有遮挡场景采集的测距实验数据，通过图像裁剪、特征提取及多帧融合处理，构建车辆测距数据集. 将车辆图像通过 SW-YOLOv8n 模型进行检测，得到车辆检测框角点坐标 (u_min, v_min)、(u_max, v_max). 将角点坐标代入式 (3)~(6) 得到车辆图像特征信息特征点坐标 (u, v)、检测框的高 h、宽 w、面积 s. 特征点坐标与相机内外参数代入式 (7)、(8) 得到相机与车辆横纵距离特征 TD 与 LD. 进行预处理，将车辆图像输入车辆特征提取网络提取车辆16维特征向量. 采用串联拼接方法，将数据融合为23维车辆图像特征向量，分别构建无遮挡和有遮挡条件下的测距数据集. 在测距神经网络模型中，创建自定义数据集类 CustomDataset 加载训练数据，并将其组织为数据加载器 DataLoader. 数据加载器同时读取车辆图像特征向量和实际测距真值，支持批量数据处理，以实现神经网络的端到端训练.

为了提升特征学习精度，采用小批量训练策略(batch_size=1)，使用Adam优化器 (学习率为0.0001)优化网络，以均方误差为损失函数评估预测准确性. 在车辆测距神经网络的训练过程中，输入数据通过前向传播依次经过各隐藏层，最终在输出层生成预测结果. 在反向传播阶段，采用均方误差损失函数计算预测距离与实际距离的差值，将误差梯度从输出层逐层反向传播至输入层，利用梯度下降算法更新各层的权重矩阵和偏置向量. 经过3000轮次的迭代训练，得到训练损失(LOSS)，曲线如图15所示，随着迭代次数的增加，损失呈下降趋势收敛，模型不断趋近最优解. 在训练完成后，得到网络在训练过程中学习的最优权重模型weight.pth. 在推理阶段，输入数据经由最优参数化的网络前向传播，在输出端生成车辆距离预测值，通过绝对误差与相对误差指标进行测距性能评估.

图 15

图 15 车辆测距神经网络的训练损失

Fig.15 Train loss of vehicle ranging neural network

如表3表示为无遮挡场景下前车距离感知模型测定距离及误差. 表中，CD表示几何算法计算的距离；AD表示使用测距工具测得的相机与车辆的实际距离；ED表示前车距离感知模型的测定距离；AE表示前车距离感知模型的测定距离与实际测得距离的绝对误差，RE表示相对误差；RE^[24]表示文献[24]测距方法与实际测得距离的相对误差. 数据表明，在无遮挡条件下，前车距离感知模型测距最大误差为0.9665 m，最小误差为0.0135 m，平均绝对误差为0.4433 m (平均相对误差为1.8689%). 在前车未被遮挡场景的验证集上，前车距离感知模型的测距误差均控制在1 m以内. 文献[24]的几何测距方法的相对误差为1.03%，低于本研究测距模型误差.

表 3 无遮挡场景下前车距离感知模型的测定距离及误差

Tab.3 Measuring distance and error of distance perception model of front vehicle in unobstructed scene

No.	u	v	h	w	s	CD/m		AD/m	ED/m	AE/m	RE/%	RE^[24]/%
No.	u	v	h	w	s	TD	LD	AD/m	ED/m	AE/m	RE/%	RE^[24]/%
1	962.00	629.00	170.00	206.0	35020.00	0.0130	12.6591	12.1200	11.3055	0.8145	6.72	4.45
2	981.00	574.50	85.00	102.00	8670.00	0.3066	24.9489	25.1300	25.2094	0.0794	0.32	0.71
3	962.00	551.00	58.00	76.00	4408.00	0.0361	35.3211	35.1100	35.6806	0.5706	1.632	0.60
4	1323.00	660.50	162.00	269.00	43578.00	3.0317	12.0089	12.5000	12.4865	0.0135	0.11	0.91
5	1132.75	547.50	88.00	116.50	10252.00	2.9594	24.9489	25.3600	25.5288	0.1688	0.67	0.93
6	1061.25	538.50	48.00	65.50	3144.00	3.1038	45.3382	45.1700	44.2035	0.9665	2.14	0.61
7	1698.50	655.50	167.50	364.00	60970.00	6.3925	12.3831	13.7800	12.8473	0.9327	6.74	1.13
8	1281.50	561.00	74.00	114.00	8436.00	6.6861	30.0132	30.8600	31.5624	0.7024	2.27	0.36
9	1149.50	534.50	42.00	64.00	2688.00	6.4934	49.8614	50.5300	50.2477	0.2823	0.56	0.49
10	1451.25	566.00	71.50	157.50	12836.25	9.5390	27.9150	29.9200	29.6630	0.2570	0.86	1.40
11	1323.50	547.00	58.00	102.00	5916.00	9.5822	38.0089	39.4400	39.9697	0.5297	1.34	0.61
12	1233.50	534.00	47.00	72.00	3384.00	9.5441	50.4910	51.0600	50.2355	0.8245	1.61	0.64
13	1321.50	736.00	242.00	364.00	88088.00	2.0758	8.2414	8.3300	8.2931	0.0369	0.44	2.03
14	1128.00	605.00	109.00	161.00	17549.00	2.0834	18.0576	18.2000	18.6537	0.4537	2.49	0.12
15	1471.00	627.00	137.00	257.00	35209.00	5.3606	15.0544	15.9000	15.9164	0.0164	0.10	0.51
均值	—	—	—	—	—	—	—	—	—	0.4433	1.87	1.03

如表4表示有遮挡条件下前车距离感知模型测定距离及误差. 数据表明，在前车存在遮挡的条件下，测试集预测距离最大误差为 0.7428 m，最小误差为 0.0599 m，平均误差为0.3882 m，平均相对误差为2.02%. 相对而言，几何测距的适应性与容错能力较差，误差偏大，相对误差为4.28%，大于前车距离感知模型测距误差. 综上，基于车辆图像特征的前方车辆测距模型突破了几何计算依赖单一信息源的弊端，能够通过大量数据训练建立复杂环境下图像特征与前车距离的非线性映射关系，在遮挡条件下仍能具有鲁棒性和泛化能力，实现前方车辆距离感知.

表 4 有遮挡条件下前车距离感知模型测定距离及误差

Tab.4 Measuring distance and error of distance perception model of front vehicle in obstructed scene

No.	u	v	h	w	s	CD/m		AD/m	ED/m	AE/m	RE/%	RE^[24]/%
No.	u	v	h	w	s	TD	LD	AD/m	ED/m	AE/m	RE/%	RE^[24]/%
1	982.48	849.75	332.68	395.27	131495.87	0.0750	5.5879	5.1000	5.4299	0.3299	6.08	8.74
2	951.33	597.19	118.05	143.46	16935.64	0.1653	19.4333	20.0900	20.3101	0.2201	1.08	3.38
3	952.24	539.05	56.38	70.22	3958.95	0.3518	44.7846	45.0600	45.5251	0.4651	1.02	0.61
4	1477.91	712.81	239.07	395.06	94447.79	3.2991	9.1215	10.6500	10.4446	0.2054	1.97	9.80
5	1222.03	598.12	129.93	187.94	24419.36	3.4953	19.2251	25.3600	21.1628	0.7428	3.51	3.15
6	1062.70	539.32	59.12	75.40	4457.70	3.0928	44.5149	45.2000	45.7836	0.5836	1.27	1.29
7	1619.22	631.37	175.29	330.61	57951.78	6.7049	14.5721	16.5500	16.6669	0.1169	0.70	3.18
8	1280.96	562.54	85.78	134.89	11571.08	6.5240	29.3341	30.7400	30.6801	0.0599	0.20	2.29
9	1775.10	612.01	137.74	283.90	39105.05	9.6650	16.9792	20.7400	20.0467	0.6933	3.46	6.16
10	1299.34	545.34	46.98	71.44	3356.83	9.7730	48.8349	51.2200	50.7488	0.4712	0.93	2.84
均值	—	—	—	—	—	—	—	—	—	0.3882	2.02	4.28

Liu等^[14]采用轻量化YOLOv3网络结合双焦距相机检测，通过计算车辆宽度实现距离估计，在纵向距离为0~40 m范围内的平均误差为0.79 m，基于较小车牌目标的测距呈现距离-误差正相关特性. Gao等^[16]通过YOLOv4算法对车辆前方障碍物检测获取位置信息，根据相机成像原理和几何关系，建立路面三维坐标与成像平面二维坐标的转换模型，估计正前方车辆距离，在实际距离为5~50 m的范围内，平均误差为0.5356 m. 文献[14]、[16]的误差结果均大于本研究方法的平均绝对误差0.4433 m，且缺少对其他车道条件下的前车距离测定的研究.

2) 前方车辆测速实验分析. 实验采用真实道路场景下的动态车辆视频数据，测试车辆分别以10、20 、30 km/h (基于仪表盘显示速度) 的恒定速度行驶，验证和评估车辆跟踪测速模型性能. 通过OpenCV 获取目标车辆测速的视频帧率为30.0 Hz. 为了保证实验车辆为稳定行驶状态，选取视频中间区域帧区间进行实验分析. 将选取帧的图像输入SW-YOLOv8n模型，获得车辆在图像中位置特征；根据检测框提取车辆图像中的车辆特征向量，计算车辆横纵距离特征TD与LD. 串联拼接融合车辆图像特征向量，将其输入基于车辆图像特征的车辆测距模型，测定第 i 帧和第 i+n 帧的相机到前车的实际距离，将测定结果代入式 (9)、(10)，得到前车行驶速度，结果如表5所示. 表中，LDD表示相机相对前车的3种横向距离，MS表示车辆跟踪测速模型测定速度，AS表示平均速度，n表示间隔帧数, $\Delta $s表示载体车辆与前车帧间距离的变化值. 实验结果表明，在10~30 km的车速范围内，相较于仪表盘显示速度，最大误差为2.8746 km/h，最小误差为0.1812 km/h. 误差来源主要有以下3个方面：1) 在真实道路情况下，实验车辆以仪表盘显示的速度匀速直线运动，车辆的运动受到环境因素、机械因素和路面因素等多重影响，导致车辆实际速度与仪表盘显示速度之间存在差异；2) 车辆速度传感器存在误差，导致仪表盘显示速度与实际速度存在差异；3) 人为控制车速不精确，且仪表盘速度显示精确度不足.

表 5 车辆跟踪测速模型的测速结果

Tab.5 Results of vehicle tracking and speed measurement model

v_c=10 km/h					v_c=20 km/h					v_c=30 km/h
LDD/m	n	∆s/m	MS/ (km·h⁻¹)	AS/ (km·h⁻¹)	LDD/m	n	∆s/m	MS/ (km·h⁻¹)	AS/ (km·h⁻¹)	LDD/m	n	∆s/m	MS/(km·h⁻¹)	AS/ (km·h⁻¹)
0	10	1.1630	12.5604	12.2786	0	10	1.9280	20.8224	20.4331	0	10	2.7642	29.8534	30.0877
		1.1478	12.3962				1.9162	20.6950				2.7597	29.8056
		1.0997	11.8767				1.8261	19.7219				2.8337	30.6040
0	1	0.1149	12.4092	—	0	1	0.1803	19.4724	—	0	1	0.2802	30.2612	—
2.0	10	1.0654	11.5036	11.8196	3.5	10	1.9067	20.5924	20.6723	3.5	10	2.8765	31.0662	31.4204
		1.0859	11.7277				1.9572	21.1378				2.8728	31.0262
		1.1322	12.2277				1.8784	20.2867				2.9786	32.1689
2.0	1	0.1070	11.5560	—	3.5	1	0.2000	21.6000	—	3.5	1	0.2899	31.3092	—
6.5	10	0.9427	10.1812	10.7031	7.0	10	1.9445	21.0006	21.3826	7.0	10	2.8162	30.4196	29.7883
		0.9342	10.9642				1.9492	21.0514				2.7454	29.6503
		1.1052	10.9641				2.0459	22.0957				2.7125	29.2950
6.5	1	0.1027	11.0916	—	7.0	1	0.1986	21.4488	—	7.0	1	0.2733	29.5164	—

为了进一步评估模型测速的稳定性，以10帧为单位选取车辆相邻帧区间进行结果分析，并选取相邻2帧计算车辆瞬时速度. 结果表明，在v_c=10~30 km/h的车速范围内，在横向距离与车速相同的条件下，模型测得的最大与最小速度之间的最大差值为1.10 km/h，最小差值为0.69 km/h. 通过相邻2帧测得的车辆瞬时速度与区间平均速度的最大、最小差值分别为0.07、0.90 km/h. 实验结果表明，基于多场景视频数据的测试验证，车辆跟踪测速模型能够在前方目标车辆速度测量中保持稳定的性能表现.

Yang等^[19]通过使用双目立体视觉确定每帧的车辆位置，根据帧间位置和距离计算车速，误差范围为[−1.6, 1.1] km/h. Yang等^[20]使用改进的ECA-YOLOv4目标检测算法检测车牌、车标、车灯3种车辆特性，并设计车辆多特征检测速度测量系统. 实验结果表明，当车辆以46 km/h行驶时，3个特征点均未遮挡时的误差范围为[−0.77, 1.65] km/h. 但3个特征点都位于车辆偏下位置，特征点被遮挡时该测速方法准确性不足. 由于本研究未使用精确测速仪器测定车辆速度，不能说明其准确性，仅可从稳定性角度分析，且实验数据最小与最大速度之差的最大值为1.1 km/h，在文献[19]、[20]的误差范围内.

4. 结　论

基于几何算法的前车距离测定方法与基于深度学习的特征点距离测定方法，均受到遮挡因素的干扰. 为了弱化遮挡条件下单一信息源产生的误差，本研究基于优化的车辆目标检测算法，融合多维车辆图像特征，提出基于车辆图像特征的前车距离与速度感知方法.

(1) 串联融合车辆在图像中的位置特征、车辆横纵距离几何特征、提取的车辆特征作为车辆图像特征，设计车辆测距神经网络，构建基于车辆图像特征的前车测距模型，实现前车距离感知.

(2) 根据前车测距模型测定的车辆距离变化与SW-YOLOv8n-Bytetrack 车辆目标检测跟踪网络提供的帧间信息，提出基于车辆距离变化的车辆跟踪测速模型，实现前车速度感知.

(3) 选取封闭道路场景，设计动态静态结合实验，验证基于车辆图像特征的前车测距模型的准确性与车辆跟踪测速模型的稳定性.

(4) 在多元复杂环境下(如恶劣天气、拥堵路段及路口)，前车距离的数据采集工作面临挑战，限制了测距模型在多元化复杂场景中的泛化效能与环境适应能力的验证. 后续工作须继续完善数据缺口，增强数据多样性与质量，提升基于车辆图像特征的前车测距模型的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WANG Z, ZHAN J, DUAN C, et al

A review of vehicle detection techniques for intelligent vehicles

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34 (8): 3811- 3831

DOI:10.1109/TNNLS.2021.3128968 [本文引用: 1]

[2]

JIN M, SUN C, HU Y

An intelligent traffic detection approach for vehicles on highway using pattern recognition and deep learning

[J]. Soft Computing, 2023, 27 (8): 5041- 5052

DOI:10.1007/s00500-022-07375-3 [本文引用: 1]

[3]

WANG F, WANG H, QIN Z, et al

UAV target detection algorithm based on improved YOLOv8

[J]. IEEE Access, 2023, 11: 116534- 116544

DOI:10.1109/ACCESS.2023.3325677 [本文引用: 1]

[4]

ZHANG L J, FANG J J, LIU Y X, et al

CR-YOLOv8: multiscale object detection in traffic sign images

[J]. IEEE Access, 2023, 12: 219- 228

[5]

MA S, LU H, LIU J, et al

LAYN: lightweight multi-scale attention YOLOv8 network for small object detection

[J]. IEEE Access, 2024, 12: 29294- 29307

DOI:10.1109/ACCESS.2024.3368848 [本文引用: 1]

[6]

张长弓, 杨海涛, 王晋宇, 等

基于深度学习的视觉单目标跟踪综述

[J]. 计算机应用研究, 2021, 38 (10): 2888- 2895

ZHANG Changgong, YANG Haitao, WANG Jinyu, et al

Survey on visual single object tracking based on deep learning

[J]. Application Research of Computers, 2021, 38 (10): 2888- 2895

[7]

BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking [C]// Computer Vision-ECCV 2016 Workshops. Amsterdam: Springer International Publishing, 2016: 850–865.

DOI:10.3778/j.issn.1002-8331.2311-0372 [本文引用: 1]

[8]

聂源, 赖惠成, 高古学

改进YOLOv7+Bytetrack的小目标检测与追踪

[J]. 计算机工程与应用, 2024, 60 (12): 189- 202

NIE Yuan, LAI Huicheng, GAO Guxue

Improved small target detection and tracking with YOLOv7+Bytetrack

[J]. Computer Engineering and Applications, 2024, 60 (12): 189- 202

DOI:10.3778/j.issn.1002-8331.2311-0372 [本文引用: 1]

[9]

ZHENG Z, LI J, QIN L

YOLO-BYTE: an efficient multi-object tracking algorithm for automatic monitoring of dairy cows

[J]. Computers and Electronics in Agriculture, 2023, 209: 107857

DOI:10.1016/j.compag.2023.107857 [本文引用: 1]

[10]

PANDHARIPANDE A, CHENG C H, DAUWELS J, et al

Sensing and machine learning for automotive perception: a review

[J]. IEEE Sensors Journal, 2023, 23 (11): 11097- 11115

DOI:10.1109/JSEN.2023.3262134 [本文引用: 1]

[11]

《中国公路学报》编辑部

中国汽车工程学术研究综述·2023

[J]. 中国公路学报, 2023, 36 (11): 1- 192

Editorial Department of China Journal of Highway and Transport

Review on China’s automotive engineering research progress: 2023

[J]. China Journal of Highway and Transport, 2023, 36 (11): 1- 192

[12]

DIRGANTARA F M, ROHMAN A S, YULIANTI L. Object distance measurement system using monocular camera on vehicle [C]// 6th International Conference on Electrical Engineering, Computer Science and Informatics. Bandung: IEEE, 2019: 122–127.

[13]

SONG Z, LU J, ZHANG T, et al. End-to-end learning for inter-vehicle distance and relative velocity estimation in ADAS with a monocular camera [C]// IEEE International Conference on Robotics and Automation. Paris: IEEE, 2020: 11081–11087.

[14]

LIU J, ZHANG R

Vehicle detection and ranging using two different focal length cameras

[J]. Journal of Sensors, 2020, 2020 (1): 4372847

[本文引用: 3]

[15]

LIU Q, CHEN B, WANG F, et al. Vehicle distance estimation based on monocular vision and CNN [C]// International Conference on Computer Information Science and Artificial Intelligence. Kunming: IEEE, 2021: 638–641.

DOI:10.1088/1742-6596/1815/1/012019 [本文引用: 3]

[16]

GAO W, CHEN Y, LIU Y, et al

Distance measurement method for obstacles in front of vehicles based on monocular vision

[J]. Journal of Physics: Conference Series, 2021, 1815 (1): 012019

[17]

CZAJEWSKI W, IWANOWSKI M. Vision-based vehicle speed measurement method [C]// Computer Vision and Graphics. Berlin, Heidelberg: Springer, 2010: 308–315.

[18]

ARENADO M I, ORIA J M P, TORRE-FERRERO C, et al

Monovision-based vehicle detection, distance and relative speed measurement in urban traffic

[J]. IET Intelligent Transport Systems, 2014, 8 (8): 655- 664

DOI:10.1049/iet-its.2013.0098 [本文引用: 1]

[19]

YANG L, LI M, SONG X, et al

Vehicle speed measurement based on binocular stereovision system

[J]. IEEE Access, 2019, 7: 106628- 106641

DOI:10.1109/ACCESS.2019.2932120 [本文引用: 3]

[20]

YANG L, LUO J, SONG X, et al

Robust vehicle speed measurement based on feature information fusion for vehicle multi-characteristic detection

[J]. Entropy, 2021, 23 (7): 910

DOI:10.3390/e23070910 [本文引用: 3]

[21]

TONG Z, CHEN Y, XU Z, et al. Wise-IoU: bounding box regression loss with dynamic focusing mechanism [EB/OL]. [2023-12-16]. https://doi.org/10.48550/arXiv.2301.10051.

[22]

ZHANG Y, SUN P, JIANG Y, et al. ByteTrack: multi-object tracking by associating every detection box [C]// European Conference on Computer Vision. Cham: Springer, 2022: 1–21.

[23]

ZHANG Z

A flexible new technique for camera calibration

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22 (11): 1330- 1334

DOI:10.1109/34.888718 [本文引用: 1]

[24]

徐慧智, 蒋时森, 王秀青, 等

基于深度学习的车载图像车辆目标检测和测距

[J]. 吉林大学学报: 工学版, 2025, 55 (1): 185- 197

[本文引用: 7]

XU Huizhi, JIANG Shisen, WANG Xiuqing, et al

Vehicle target detection and ranging in vehicle image based on deep learning

[J]. Journal of Jilin University: Engineering and Technology Edition, 2025, 55 (1): 185- 197

[本文引用: 7]

[25]

WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464–7475.