<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 AOD-Net去雾算法流程

Fig.1 AOD-Net dehazing algorithm process

为了解决AOD-Net的局限性，提出基于三重优化策略的网络去雾算法ABMD-Net，结构如图2所示. 首先重构网络连接，建立跨层特征复用机制，利用参数共享实现轻量化设计. 其次构建包含多级下采样与上采样的特征金字塔结构，以扩展网络感受野并有效捕获非均匀雾分布特征. 最后引入边界增强模块（boundary enhancement module，BEM），采用自适应特征融合策略以平衡全局亮度校正与局部纹理增强. BEM结构如图3所示，采用双分支架构：1）自适应上下文金字塔模块（adaptive context pyramid module，ACP）利用多膨胀率空洞卷积提取多尺度边界特征；2）通道注意力模块（channel attention module，CA）通过双路池化与共享MLP生成注意力图，对特征进行重校准. 该模块最终通过残差连接输出优化后的边界特征，有效提升雾天复杂场景下的边界辨识能力. 此外，模型还采用深度可分离卷积替代标准卷积，进一步降低计算复杂度.改进后的模型通过层次化特征增强设计，兼顾实时性和去雾图像的细节还原度及整体质量，主客观评价均达到预期.

图 2

图 2 ABMD-Net去雾网络模型

Fig.2 ABMD-Net dehazing network model

图 3

图 3 边界增强模块

Fig.3 Boundary enhancement module

1.2. 改进遮挡目标检测算法

如图4所示，传统SSD目标检测网络作为单阶段多尺度检测的经典代表，其架构基于VGG-16骨干网络，采用300×300输入分辨率并辅以数据增强策略. 然而，VGG-16网络层级深、参数量大，在处理224×224的标准输入分辨率时须进行图像裁剪或缩放，导致边缘信息损失.

图 4

图 4 SSD目标检测网络图

Fig.4 SSD target detection network diagram

为了解决SSD网络参数量大、图像处理能力不足的问题，提出如图5所示的MsF-SSD-Net检测框架，采用多维度协同优化策略. 首先，输入图像经ABMD-Net进行去雾预处理，以提升图像质量. 在特征提取阶段采用集成注意力机制的轻量化MobileNetV3_small主干网络，结合深度可分离卷积与h-swish激活函数，降低计算复杂度和保持特征提取性能. 网络主体构建多层级特征融合模块（Fused feature 1~3），融合空间金字塔、可变形卷积与自适应池化，构建多尺度感知特征图，并通过门控单元动态调节融合权重，实现浅层细节与深层语义的有效互补. 在检测后处理阶段引入自适应超参数Soft-NMS算法，精准抑制冗余边界框以提升召回率与检测精度，同时采用改进的自适应Focal Loss重构置信度损失函数，缓解正负样本不平衡及噪声标签敏感性问题.

图 5

图 5 MsF-SSD-Net网络结构图

Fig.5 MsF-SSD-Net network structure

最终，通过图像增强、特征提取、多尺度融合与自适应检测优化，构建出适应复杂环境且兼顾准确性与效率的视觉检测算法.

1.2.1. 特征提取及改进注意力机制

如图6（a）所示， MobileNetV3_small的核心Block采用深度可分离卷积与SE（Squeeze-and-Excitation）注意力机制，减少了参数并实现了通道自适应加权，但是高压缩比策略过度削减通道维度，削弱了通道间依赖关系的建模，导致自适应校准能力下降与重要信息丢失，且在遮挡场景中难以捕捉关键空间结构.

图 6

图 6 特征提取网络结构图

Fig.6 Feature extraction network architecture diagram

针对上述问题，提出如图6（b）所示的融合全局通道注意力与空间注意力（efficient channel-spatial attention module，ECSAM）模块. 该模块通过跨维度互补增强网络对局部特征的捕捉能力，提升模型在遮挡目标场景下的响应性能. 其中，空间感知模块结合通道统计与极值响应，经卷积生成空间权重图. 该设计在增强深层特征表达能力的同时，保持计算轻量化的特性.

1）通道注意力模块保留全局平均池化层，将输入特征图在空间维度上压缩成形状为（1，1，C）的特征向量，表达式如下：

(1)$ {k}=\varphi({C})={\left\lceil \dfrac{{\log }_{2}\;{C}}{\gamma }+\dfrac{b}{\gamma }\right\rceil }_{\text{odd}}. $

式中： $ {k} $为卷积核大小，经公式计算为奇数；$ \gamma $和b为超参数; $\left\lceil \;\;\right\rceil_{{\mathrm{odd}}} $为强制奇数约束的操作符. 特征图经过全局平均池化得到特征向量，再经一维卷积、sigmoid激活函数、权重向量与原始输入特征图逐通道相乘，得到加权特征图$ {\boldsymbol{F}}_{\text{eca}} $，形状为（N，C，H，W）.

2）空间注意力模块沿通道轴对输入特征图进行最大池化和平均池化，生成2个形状为（N，1，H，W）的2D特征图$ \boldsymbol{F}_{\text{avg}}^{\text{8}} $和$ \boldsymbol{F}_{\max }^{8} $，拼接后经7×7卷积层与sigmoid 激活生成空间注意力图$ {\boldsymbol{M}}_{8} $，该权重图与原始输入特征图逐元素相乘，得到加权特征图$ {\boldsymbol{F}}_{\text{cbam}} $，形状为（N，C，H，W）. M₈形状为（N，1，H，W），表达式如下：

(2)$ {\boldsymbol{M}}_{8}=\chi ({f}^{7\times 7}([\boldsymbol{F}_{\text{avg}}^{\text{8}};\boldsymbol{F}_{\max }^{8}])). $

式中：$ \chi $为sigmoid激活函数，$ {f}^{7\times 7} $为7×7的卷积层. 最后，将$ {\boldsymbol{F}}_{\text{eca}} $和$ {\boldsymbol{F}}_{\text{cbam}} $元素相加，得到综合后的特征图层，表达式如下：

(3)$ {\boldsymbol{F}}_{\text{ECSAM}}=\text{Norm}({\boldsymbol{F}}_{\text{eca}})+\gamma \text{Norm}({\boldsymbol{F}}_{\text{cbam}}) .$

式中：$ \text{Norm} $为归一化，$\gamma $为可学习权重. 该改进机制增强了深层特征表达能力，同时保持计算轻量化，可提升目标检测置信度，尤其在遮挡和小目标场景下表现更优. 如图7所示为特征提取网络检测对比图结果. 可以看出，改进特征提取网络提高了目标检测的置信度，对于遮挡和小目标的检测性能也有改善.

图 7

图 7 特征提取网络检测对比图

Fig.7 Comparison of detection results by feature extraction networks

1.2.2. 特征融合机制

SSD采用多尺度独立预测机制，其浅层特征分辨率高但语义信息不足，深层特征语义丰富但分辨率低、细节丢失严重，导致不同层级特征之间存在语义鸿沟.

针对检测中的遮挡问题，提出双路径异构卷积特征融合机制（fused feature）. 该结构采用并行分支：一路通过3×3深度可分离卷积提取空间细节（160通道），另一路借助3×3标准卷积捕获全局语义（1024通道）. 2分支分别经批量归一化、ReLU激活与平均池化处理后，沿通道维度拼接，再通过1×1卷积实现跨通道交互，最终输出19×19×1024的特征图. 该设计融合了局部定位信息与全局语义特征，有效提升了对遮挡车辆与行人的检测能力. 如图8所示，该结构在多个尺度上具有一致性，改进后的MsF-SSD-Net通过多层级特征融合进一步增强了多尺度语义表达与检测性能.

图 8

图 8 普通-深度可分离卷积双分支池化拼接融合模块

Fig.8 Ordinary-deep separable convolutional double branch pooling splicing fusion module

1.2.3. 改进损失函数

为了兼顾去雾与检测任务的端到端协同优化，将ABMD-Net与MsF-SSD-Net的损失函数相结合. 针对检测中小目标提取困难、背景噪声干扰和正负样本不平衡等问题，须构建多尺度敏感的损失函数. 原SSD损失由定位损失（L_loc，smooth L1 loss）与分类置信损失（L_conf，softmax loss）构成，但背景类锚框数量过多导致训练中正负样本严重失衡，易引发训练震荡与收敛缓慢. 为此，采用经AdaXod算法改进的Focal Loss重构置信度损失，能有效抑制负样本主导作用，缓解样本失衡与噪声敏感问题.

将ABMD-Net与MsF-SSD-Net的损失函数相结合是端到端训练的关键，可同时引导去雾与检测任务协同优化.

改进分类Focal Loss的表达式如下：

(4)$ \begin{split} F_{\mathrm{GSS}}\left(p_m\right)=& -\exp\; \left(-\zeta\left|\delta(z)-y_{\mathrm{true}}\right|\right) \cdot \\& \alpha_m \left(1-p_m\right)^v \ln \;p_m.\end{split} $

式中：$ \delta (z) $为模型预测概率；$ {y}_{\text{true}} $为标注的标签；$ \zeta $为抑制强度参数（当噪声率小于5%时，取值为0.5^[19]；当噪声率为10%~20%时，取值为1.0~1.5^[20]；当噪声率大于30%时，取值为2.0~3.0^[21]）；$ {\alpha }_{m} $为权重平衡因子，$ {\alpha }_{m} $∈[0,1.0]，正类权重大，负类权重小；$ {p}_{m} $为模型预测该样本属于正类的概率；$ \nu $为可调节的专注参数，$ \nu \geq 0 $.

改进的SSD总损失函数表达式如下：

(5)$ {L}_{\text{total}}=\frac{1}{N}({L}_{\text{loc}}+\lambda \cdot {F}_{\text{GSS}}({{p}}_{{m}}))+\varphi {L}_{\text{ABMD}} .$

式中：$ \lambda $和$ \varphi $为平衡超参系数，用于平衡损失数量级；$ {L}_{\text{ABMD}} $为去雾网络的损失函数. $ {L}_{\text{total}} $损失函数融合检测框回归与分类优化，以改进Focal Loss抑制背景干扰；引入AdaXod算法自适应限制学习率上限，并采用指数平均策略提升训练稳定性与泛化能力.

1.2.4. 改进的Soft-NMS算法

Soft-NMS算法是对经典NMS算法的有效改进，其核心是避免直接删除与高分检测框重叠的候选框，转而采用柔性抑制策略，通过降低高度重叠框的置信度实现目标保留，但其高斯衰减函数中的超参数$ \sigma $为固定值，适应性较差.

为此，提出超参数$ \sigma $动态调整策略：在高密度目标区域使用较小$ \sigma $增强抑制，在目标遮挡严重或定位不确定性高的区域则使用较大$ \sigma $以保留更多检测框.

Soft-NMS算法使用的高斯衰减函数与改进超参数调整策略表达式如下：

(6)$ S_i=S_i \cdot \exp \left(\dfrac{-{\mathrm{i o u}}\left(M, b_i\right)^2}{\sigma}\right), $

(7)$ {\sigma }_{\text{adap}}={\sigma }_{\min }+\dfrac{{\sigma }_{\max }-{\sigma }_{\min }}{1+\exp \;(\rho ({N}_{\text{dense}}-o ))}. $

式中：$ \sigma $为固定的超参数，$ {S}_{i} $为边界框$ {b}_{i} $的原始置信度得分，$ {\mathrm{iou}}(M,{b}_{i}) $为边界框$ M $与$ {b}_{i} $之间的交并比，$ {N}_{\text{dense}} $为框$ M $邻域内置信度高于阈值的检测框数量，$ {\sigma }_{\min } $和$ {\sigma }_{\max } $为$ \sigma $的极值，$ \rho $为控制函数陡峭程度的参数，$ o $为密度中心点. 目标密度越高（$ {N}_{\text{dense}} $越大），则$ \sigma $取值越小：当$ {N}_{\text{dense}} $远小于$ o $时弱抑制（$ {\sigma }_{\text{adap}} $≈$ {\sigma }_{\max } $）；当$ {N}_{\text{dense}} $远大于$ o $时强抑制（$ {\sigma }_{\text{adap}} $≈$ {\sigma }_{\min } $）；在$ {N}_{\text{dense}} $≈$ o $附近平滑过渡.

2. 实验配置

2.1. 数据集和训练配置

为了验证改进网络模型的有效性，在SOTS数据集^[22]、CityPersons数据集^[23]和Foggy Cityscapes数据集^[24]上对去雾模型和遮挡模型进行测试训练.

SOTS作为RESIDE的标准子集，提供有雾图像与对应无雾真实图像，支持PSNR、SSIM之类的客观量化评估；CityPersons基于Cityscapes构建，包含2975张训练图像与500张验证图像，提供行人“可见框”（BB-vis）与“全身框”（BB-full）标注，适用于复杂场景行人检测；Foggy Cityscapes依据大气散射模型对Cityscapes清晰图像进行物理真实的雾效合成，用于雾天检测算法验证，能确保雾天场景的真实性与科学性.

参照世界气象组织（WMO）与中国气象局（CMA）标准，将能见度低于1 km的气象条件划分为薄雾、中雾与重雾3个等级，作为后续雾浓度分级的依据. 通过设置不同的$ \beta $来模拟不同浓度的雾，如表1所示. 其中，V为可视距离.

表 1 去雾评价指标

Tab.1 Defogging evaluation index

不同场景	$ \beta $	V/km
薄雾	0.005	0.6≤V<1.0
中雾	0.010	0.3≤V<0.6
重雾	0.020	V<0.3

对于遮挡情况，在CityPersons和Foggy Cityscapes数据集中将目标的遮挡程度分为3个等级，定义遮挡指标为t，标准如下：轻微遮挡（slight occlusion，So， 0%<t≤35%）、部分遮挡（partial occlusion，Po，35%<t≤75%）、严重遮挡（severe occlusion，Se，75%<t≤100%）.

在训练过程中，学习率为0.0001，权重衰减系数为0.0002，以维持训练的稳定性并促进模型收敛. 批量大小设置为4，训练周期为500，使网络能够充分学习并泛化数据集的特征.

2.2. 评估指标

为了对图像去雾处理的效果进行精确的定量评估，选用的图像质量评价指标为峰值信噪比（peak signal-to-noise ratio, PSNR）和结构性相似指数（structural similarity index measure, SSIM），计算公式如下：

(8)$ \operatorname{PSNR}=10 \times \lg \left(\dfrac{\mathrm{MAX}^2}{\mathrm{MSE}}\right), $

(9)$ \operatorname{SSIM}(x, y)=1(x, y)^{{f}} \times {c}(x, y)^{\varsigma } \times {S}(x, y)^\tau .$

式中：MAX表示单通道像素可能的最大值，对于8位深度的RGB图像，各颜色通道的最大值均为255；MSE为均方误差，须分别计算R/G/B通道后取平均值; x为参考图像，即无雾的原始图像；y为待评估图像，即去雾算法输出的结果图像；f为亮度分量的权重系数，用于调节亮度在整体SSIM中的贡献度，默认取1；$\varsigma $为对比度分量的权重系数；$ \tau $为结构分量的权重系数.

在遮挡目标检测阶段，采用多元化的评估指标体系，包括精度Pr、召回率Re、F1分数、平均像素准确率mPA和检测速度FPS. 各指标计算公式如下：

(10)$ \text{Pr}=\dfrac{\text{TP}}{\text{TP+FP}}, $

(11)$ \text{Re}=\dfrac{\text{TP}}{\text{TP+FN}} ,$

(12)$ \text{F1}=\dfrac{2\times \text{Pr}\times \text{Re}}{\text{Pr}+\text{Re}}, $

(13)$ \text{mAP}=\dfrac{\text{TP+FN}}{\text{TP+TN+FP+FN}} ,$

(14)$ \text{FPS}=\dfrac{\text{1}}{\text{Time}}. $

式中：TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性样本数量，Time表示模型单帧图像前向推理与后处理的总耗时.

3. 结果分析

3.1. 去雾实验结果分析

在SOTS数据集上的实验表明，ABMD-Net在图像去雾方面具有优势. 如表2所示，在薄雾、中雾和重雾场景下的PSNR与SSIM指标均优于对比模型，能更准确地还原图像亮度与结构细节，有助于后续检测任务的特征提取. 在不同雾浓度下，ABMD-Net性能下降幅度最小，表现出良好的鲁棒性. 同时，其FPS达86.96 帧/s，保证了高质量去雾效果和实时处理，优于侧重推理速度的Improve AOD-Net模型，能够为雾天车辆与行人检测提供清晰、及时的图像输入.

表 2 有雾图像上的PSNR和SSIM

Tab.2 PSNR and SSIM values on foggy images

模型	薄雾		中雾		重雾		FPS/(帧·s⁻¹)
模型	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	FPS/(帧·s⁻¹)
AOD-Net	19.49	0.8828	18.15	0.8032	17.79	0.7664	38.46
MSCNN^[25]	19.80	0.7834	18.15	0.8219	16.92	0.7939	27.78
GCANet^[25]	22.43	0.9282	18.11	0.7575	16.94	0.7655	7.46
GFN^[25]	21.15	0.9239	17.33	0.7609	16.93	0.7387	14.70
DehazeNet^[25]	20.46	0.8753	19.18	0.8365	18.89	0.8275	23.81
ABMD-Net	24.02	0.9391	20.32	0.8461	20.03	0.8351	86.96
Improve AOD-Net^[25]	21.80	0.9228	17.79	0.8510	14.14	0.8024	113.64

如图9所示对比了各算法的去雾效果. 其中，图9（a）、（b）分别为清晰图像、原始雾图，图9（c）~（h）为不同方法的去雾结果. 可以看出， AOD-Net、DehazeNet、GFN和GCANet虽然能去除雾气，但图像偏暗且细节丢失；MSCNN因亮度增强过度，产生了色彩偏移与纹理模糊. 相比之下， ABMD-Net在多尺度融合机制优化下，在色彩还原、亮度自然性及纹理保留方面表现更优，整体去雾效果最佳，尤其适用于复杂交通场景. 综上所述，在多样化雾气浓度的复杂交通场景测试中，ABMD-Net展现出较强的去雾能力，输出图像清晰度高、细节丰富且结构完整.

图 9

图 9 网络模型去雾效果对比

Fig.9 Defogging effect comparison of network models

3.2. 目标检测结果分析

如表3所示，为了评估目标检测系统在遮挡场景下的性能，基于CityPersons数据集进行不同遮挡环境下的检测实验. 结果表明，在实时性方面，其FPS达74.07 帧/s，优于SSD（FPS为15.38 帧/s）和Faster R-CNN（FPS为8.13 帧/s）；与FPS更高但精度较低的improved YOLOv7相比，MsF-SSD-Net在保持高帧率的同时具备更均衡的准确率，满足雾天场景下对实时性与准确率的综合需求；在检测精度方面，MsF-SSD-Net的F1值为0.8545，精确率（Pr）与召回率（Re）分别为0.8901和0.8189，误检比例较低，并且能有效识别部分遮挡目标；综合检测精度优于SSD、Faster R-CNN之类的传统模型，也高于improved YOLOv7.

表 3 基于CityPersons数据集的各目标检测模型在遮挡场景下的性能对比

Tab.3 Performance comparison of various object detection models based on CityPersons dataset under occlusion scenarios

模型	FPS/ (帧·s⁻¹)	F1	Pr	Re	mAP
模型	FPS/ (帧·s⁻¹)	F1	Pr	Re	So	Po	Se
SSD	15.38	0.8135	0.8305	0.7563	0.7757	0.5325	0.3883
Faster R-CNN	8.13	0.8413	0.8728	0.7823	0.8049	0.6926	0.5264
YOLOv10	55.56	0.8768	0.9102	0.8226	0.8336	0.7554	0.5727
MsF-SSD-Net	74.07	0.8545	0.8901	0.8189	0.9241	0.8136	0.5812
DCT- YOLO^[26]	—	0.8400	0.9160	0.7750	0.8870	—	—
improved YOLOv7^[27]	252.00	0.7700	0.7820	0.7690	0.8220	—	—

训练过程如图10所示，F1分数、Pr、Re和Loss函数这4项指标均随训练轮次的增加而稳步收敛. F1值最终达到并保持在较高水平，精确率与召回率曲线亦快速上升后维持高位，模型拥有对正样本的高识别精度与强检出能力. 损失函数迅速下降至较低水平并趋于稳定，表明模型收敛速度快、训练稳定性好. 整体性能优于Faster R-CNN、SSD和YOLOv10等对比网络.

图 10

图 10 不同模型基于CityPersons 数据集的训练评价指标对比

Fig.10 Comparison of training evaluation metrics for different models based on CityPersons dataset

综上，MsF-SSD-Net在实时性、检测精度与遮挡鲁棒性三者间取得了良好平衡，能够为雾天与遮挡共存的复杂场景下的车辆与行人检测任务提供可靠技术支持.

如表4所示，针对Foggy Cityscapes数据集的复杂多变场景，MsF-SSD-Net在各类雾浓度与遮挡条件下均保持了稳定的性能优势，场景适应性与鲁棒性优于其他对比模型. 在检测精度方面，该模型在清晰、薄雾、中雾及重雾环境下的mAP分别为88.76%、84.01%、79.34%和66.78%，优于SSD、Faster R-CNN和YOLOv10等对比模型，在全雾浓度范围内展现出良好的适应性与特征保持能力. 在实时性方面，MsF-SSD-Net的FPS达71.43 帧/s，高于多数对比模型，且与FPS更高但精度较低的lightweight YOLOv8相比，在检测精度与推理速度上更为平衡，能够有效满足智能交通监控与辅助驾驶系统对实时可靠检测的需求.

表 4 各目标检测模型在Foggy Cityscapes有雾数据集上的量化性能对比

Tab.4 Quantitative performance comparison of various object detection models on Foggy Cityscapes dataset with fog data

模型	mAP							FPS/(帧·s⁻¹)
模型	清晰图像	薄雾	中雾	重雾	So	Po	Se	FPS/(帧·s⁻¹)
SSD	0.7819	0.7123	0.6556	0.5345	0.7285	0.4784	0.3454	14.92
Faster R-CNN	0.8147	0.7487	0.6890	0.5789	0.7531	0.6132	0.4823	8.04
YOLOv10	0.8338	0.7634	0.7012	0.6056	0.7792	0.6573	0.4956	52.62
MsF-SSD-Net	0.8876	0.8401	0.7934	0.6678	0.8052	0.7149	0.5034	71.43
lightweight YOLOv8^[28]	—	0.8100	—	—	—	—	—	166.00

如图11和表5所示为经ABMD-Net去雾处理后的各模型在Foggy Cityscapes数据集上的检测性能对比结果，其中ABMD-Net+MsF-SSD-Net表示将去雾和检测模型进行简单级联形式，ABMD-Net-MsF-SSD-Net表示将去雾检测的特征结果直接输入到改进的目标检测中形成的联合优化网络. ABMD-Net与MsF-SSD-Net的组合在Foggy Cityscapes数据集上展现出优越的综合性能. 在检测精度方面，联合优化网络在薄雾、中雾和重雾环境下的mAP分别达到93.85%、86.83%和78.24%，优于其他对比模型且略高于简单级联结构. 在实时性方面，联合网络的FPS为47.61帧/s，高于ABMD-Net与其他模型的结合方案，也优于Defog YOLO、YOLOv5-Transformer和AO YOLO等网络.

图 11

图 11 经ABMD-Net去雾后的图像检测结果可视化对比图

Fig.11 Visual comparison chart of image detection results after defogging by ABMD-Net

表 5 经ABMD-Net去雾处理后的各模型检测性能量化对比表

Tab.5 Quantitative comparison of detection performance of each model after ABMD-Net defogging treatment

模型	mAP						FPS/(帧·s⁻¹)
模型	薄雾	中雾	重雾	So	Po	Se	FPS/(帧·s⁻¹)
ABMD-Net+SSD	0.7527	0.6956	0.5967	0.7645	0.5284	0.3763	9.74
ABMD-Net+Faster R-CNN	0.8075	0.7390	0.6258	0.7984	0.6842	0.5166	5.38
ABMD-Net+YOLOv10	0.8234	0.7812	0.6734	0.8026	0.7144	0.5428	32.79
AOD-Net+MsF-SSD-Net	0.8837	0.8365	0.7149	0.8332	0.7483	0.5556	25.03
ABMD-Net+MsF-SSD-Net	0.9192	0.8534	0.7378	0.8778	0.7634	0.5633	45.21
Defog YOLO^[29]	0.8670	—	—	—	—	—	—
YOLOv5-Transformer^[30]	0.8280	—	—	—	—	—	—
AO YOLO^[31]	0.8910	—	—	—	—	—	—
ABMD-Net-MsF-SSD-Net	0.9385	0.8683	0.7824	0.8952	0.7893	0.5748	47.61

表4、5遮挡实验的数据表明，图像去雾提升了整体质量，缓解了雾气对车辆和行人特征的遮蔽，使SSD、Faster R-CNN、YOLOv10和MsF-SSD-Net等模型在轻微、部分和严重遮挡下的mAP均得到提高. 所有模型在去雾后均呈现检测精度随遮挡加重而递减的趋势，表明严重遮挡破坏目标特征与结构，增加检测难度.

此外，ABMD-Net-MsF-SSD-Net组合在全雾浓度范围内表现出良好的适应性与鲁棒性，检测精度随雾浓度的增加下降较为平缓，能有效应对晨雾、浓雾之类的复杂场景. 研究表明，ABMD-Net与MsF-SSD-Net的联合优化实现了去雾质量与检测性能的高效统一，为雾天环境下的车辆与行人检测提供了可靠解决方案.

如图12所示展示了不同网络组合的训练损失变化. 所有模型均表现出持续优化趋势，其中MsF-SSD-Net相比原始SSD收敛更快、损失更低，训练过程更稳定；SSD收敛较慢，性能相对较弱. 将MsF-SSD-Net分别与AOD-Net和ABMD-Net级联，由于采用相同损失函数，两者损失曲线未见明显差异. 将ABMD-Net与MsF-SSD-Net检测网络联合优化后，损失迅速下降后趋于平稳.

图 12

图 12 Foggy Cityscapes 数据集下不同网络模型的训练损失对比

Fig.12 Comparison of training losses of different network models on Foggy Cityscapes dataset

3.3. 消融实验

3.3.1. 改进去雾网络算法消融实验

为了验证ABMD-Net去雾网络算法的有效性及其性能提升效果，在公开的SOTS数据集上开展消融实验，结果如表6所示. 基于AOD-Net依次进行以下改进：首先重构原始网络连接拓扑形成AOD-Net1，该模型的PSNR和SSIM均实现小幅提升，细节保留略有改善，但FPS下降0.29 帧/s；随后引入深度可分离卷积得到AOD-Net1(DW)，FPS提升至117.65 帧/s，在保障图像质量的同时提高了处理效率；进一步构建多级下采样与上采样的特征金字塔结构形成AOD-Net1(DW)(Pyramid)，该模型在不同浓度雾图上的PSNR与SSIM均有提高，图像质量得到改善且处理速度较快.

表 6 AOD-Net算法消融实验结果

Tab.6 Ablation experimental results of AOD-Net algorithm

算法改动	薄雾		中雾		重雾		FPS/(帧·s⁻¹)
算法改动	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	FPS/(帧·s⁻¹)
AOD-Net	20.31	0.8521	18.15	0.8032	17.79	0.7664	38.17
AOD-Net1	20.82	0.8659	18.87	0.8053	17.92	0.7984	37.88
AOD-Net1(DW)	20.73	0.8558	18.78	0.7913	17.86	0.7965	117.65
AOD-Net1(DW)(Pyramid)	22.43	0.8974	19.44	0.8246	18.84	0.8147	107.53
ABMD-Net	24.02	0.9391	20.32	0.8461	20.03	0.8351	86.96

在AOD-Net1(DW)(Pyramid)架构中集成边界增强模块构建出ABMD-Net，模型性能达到最优. 在薄雾场景下，PSNR提升3.71，SSIM提高0.0870，图像清晰度接近无雾水平，FPS稳定维持在86.96 帧/s. 实验结果显示，ABMD-Net在所有测试环境中均取得最高的PSNR与SSIM，输出图像细节丰富、结构完整、视觉效果清晰，并保持较快处理速度，算法逐步改进的效果如图13所示.

图 13

图 13 AOD-Net消融实验效果对比图

Fig.13 Comparison of AOD-Net ablation experimental results

3.3.2. 改进遮挡目标检测消融实验

为了验证改进SSD算法在有雾场景下对遮挡目标的检测效果，基于CityPersons数据集进行消融实验. 如表7所示，通过逐步改进策略提升目标检测性能：首先将SSD的主干特征提取网络替换为MobileNetV3_small，检测速度FPS提升至117.65 帧/s，同时精度产生0.4%的损失；MobileNetV3-EC+SSD表示通过引入ECSAM注意力机制， mAP提升至85.45%，FPS为75.76 帧/s；其次，叠加多层级特征融合（MobileNetV3-EC+SSD1），mAP增长至87.32%；随后，应用Soft-NMS（MobileNetV3-EC+SSD1+Soft-NMS）将召回率提升至0.7924，准确率达88.27%；最后，采用AdaXod优化与自适应Focal Loss，准确率进一步提升至88.75%，FPS回升至74.07 帧/s. 相比之下，L-SSD的FPS虽然达106.00 帧/s，但准确率仅为73.80%，性能欠佳.

表 7 SSD算法消融实验结果表

Tab.7 Ablation experiment results of SSD algorithm

算法改动	mAP	F1	Time/ms	FPS/(帧·s⁻¹)	Pr	Re	Params/10⁶
SSD	0.7814	0.8135	65.1	15.36	0.8305	0.7563	138.36
MobileNetV3+SSD	0.7783	0.7974	8.5	117.65	0.8227	0.7394	25.54
MobileNetV3-EC+SSD	0.8545	0.8302	13.2	75.76	0.8579	0.7628	26.73
MobileNetV3-EC+SSD1	0.8732	0.8417	14.8	67.57	0.8671	0.7793	28.47
MobileNetV3-EC+SSD1+Soft-NMS	0.8827	0.8543	15.3	65.36	0.8828	0.7924	28.47
MsF-SSD-Net	0.8875	0.8554	13.5	74.07	0.8901	0.8089	28.47
L-SSD^[32]	0.7380	—	—	106.00	—	—	—

DOI:10.1016/j.imavis.2019.10.001 [本文引用: 1]

综上所述，MsF-SSD-Net网络融合了主干轻量化、特征增强与训练优化等优点，最终模型的mAP值提升至88.75%，参数量减少至原模型的1/3.85，在检测速度与精度间取得了良好平衡.

4. 结　语

为了解决雾天与目标遮挡导致的检测准确率下降问题，提出融合ABMD-Net去雾模块与MsF-SSD-Net检测算法的联合模型. ABMD-Net在SOTS数据集上对不同浓度雾况均表现优异，能有效提升图像细节与结构完整性，在薄雾场景中，其PSNR与SSIM分别提高3.71与0.0870. MsF-SSD-Net在CityPersons数据集上检测性能优越，精度与速度均优于Faster R-CNN、YOLOv10之类的主流网络，对遮挡目标检测效率较好，FPS为71.43 帧/s. 经联合优化后，在低能见度与目标遮挡场景下检测准确率达到93.85%，检测速度FPS为47.61 帧/s，性能优于Faster R-CNN、Defog YOLO之类的对比模型.

本方案能有效提高雾天遮挡下的车辆与行人的检测精度，为智能驾驶系统提供支持. 不过，联合模型的检测速度由71.43帧/s降至47.61帧/s，可见去雾模块影响了实时性. 未来可从2方面优化：一是采用更高效和处理速度更快的去雾方法；二是增强模型在复杂真实环境中的准确率与泛化能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

TAHIR N U A, ZHANG Z, ASIM M, et al

Object detection in autonomous vehicles under adverse weather: a review of traditional and deep learning approaches

[J]. Algorithms, 2024, 17 (3): 103

DOI:10.3390/a17030103 [本文引用: 1]

[2]

ABDEL-ATY M, CAI Q, WU Y, et al

Evaluation of automated emergency braking system’s avoidance of pedestrian crashes at intersections under occluded conditions within a virtual simulator

[J]. Accident Analysis and Prevention, 2022, 176: 106797

DOI:10.1016/j.aap.2022.106797 [本文引用: 1]

[3]

SHETTY A, YU M, KURZHANSKIY A, et al

Safety challenges for autonomous vehicles in the absence of connectivity

[J]. Transportation Research Part C: Emerging Technologies, 2021, 128: 103133

DOI:10.1016/j.trc.2021.103133 [本文引用: 1]

[4]

MO Y, VIJAY R, RUFUS R, et al

Enhanced perception for autonomous vehicles at obstructed intersections: an implementation of vehicle to infrastructure (V2I) collaboration

[J]. Sensors, 2024, 24 (3): 936

DOI:10.3390/s24030936 [本文引用: 1]

[5]

ZHOU J, ZHANG D, ZOU P, et al

Retinex-based Laplacian pyramid method for image defogging

[J]. IEEE Access, 2019, 7: 122459- 122472

DOI:10.1109/ACCESS.2019.2934981 [本文引用: 1]

[6]

HE K, SUN J, TANG X

Single image haze removal using dark channel prior

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33 (12): 2341- 2353

DOI:10.18535/ijecs/v5i1.12 [本文引用: 1]

[7]

CAI B, XU X, JIA K, et al

DehazeNet: an end-to-end system for single image haze removal

[J]. IEEE Transactions on Image Processing, 2016, 25 (11): 5187- 5198

DOI:10.1109/TIP.2016.2598681 [本文引用: 1]

[8]

LIU W, YAO R, QIU G

A physics based generative adversarial network for single image defogging

[J]. Image and Vision Computing, 2019, 92: 103815

[9]

CAI D, BAMISILE O, ZHANG W, et al

Anti-occlusion multi-object surveillance based on improved deep learning approach and multi-feature enhancement for unmanned smart grid safety

[J]. Energy Reports, 2023, 9: 594- 603

DOI:10.1016/j.egyr.2023.01.074 [本文引用: 1]

[10]

TANG T, ZHOU S, DENG Z, et al

Vehicle detection in aerial images based on region convolutional neural networks and hard negative example mining

[J]. Sensors, 2017, 17 (2): 336

DOI:10.3390/s17020336 [本文引用: 1]

[11]

SU J, WANG F, ZHUANG W

An improved YOLOv7 tiny algorithm for vehicle and pedestrian detection with occlusion in autonomous driving

[J]. Chinese Journal of Electronics, 2025, 34 (1): 282- 294

DOI:10.23919/cje.2023.00.256 [本文引用: 1]

[12]

AGHAEE F, FAZL-ERSI E, NOORI H

MDSSD-MobV2: an embedded deconvolutional multispectral pedestrian detection based on SSD-MobileNetV2

[J]. Multimedia Tools and Applications, 2024, 83 (15): 43801- 43829

DOI:10.1007/s11042-023-17188-7 [本文引用: 1]

[13]

ZHANG C, WANG H, CAI Y, et al

TransFusion: multi-modal robust fusion for 3D object detection in foggy weather based on spatial vision transformer

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (9): 10652- 10666

DOI:10.1109/TITS.2024.3420432 [本文引用: 1]

[14]

LI B, PENG X, WANG Z, et al. AOD-net: all-in-one dehazing network [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 4780–4788.

[15]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]// Computer Vision – ECCV 2016. Cham: Springer, 2016: 21–37.

DOI:10.1080/19392699.2024.2353128 [本文引用: 1]

[16]

CAO Z, LI J, FANG L, et al

Research on efficient classification algorithm for coal and gangue based on improved MobilenetV3-small

[J]. International Journal of Coal Preparation and Utilization, 2025, 45 (2): 437- 462

[17]

HE H, LI Z, TIAN G, et al

Towards accurate dense pedestrian detection via occlusion-prediction aware label assignment and hierarchical-NMS

[J]. Pattern Recognition Letters, 2023, 174: 78- 84

DOI:10.1016/j.patrec.2023.08.019 [本文引用: 1]

[18]

LIU Y, LI D

AdaXod: a new adaptive and momental bound algorithm for training deep neural networks

[J]. The Journal of Supercomputing, 2023, 79 (15): 17691- 17715

DOI:10.1007/s11227-023-05338-5 [本文引用: 1]

[19]

ROLNICK D, VEIT A, BELONGIE S, et al. Deep learning is robust to massive label noise [EB/OL]. (2017−05−30) [2025−08−05]. https://doi.org/10.48550/arXiv.1705.10694.

[20]

ARAZO E, ORTEDO D, ALBERT P, et al. Unsupervised label noise modeling and loss cor-rection [C]// International Conference on Machine Learning. Long Beach: Curran Associates, Inc. 2019: 312–321.

[21]

ZHANG Z, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels [EB/OL]. (2018−12−03) [2025−08−05]. https://proceedings.neurips.cc/paper/2018/hash/f2925f97bc13ad2852a7a551802feea0-Abstract.html.

[22]

LI B, REN W, FU D, et al. REalistic single image dehazing (RESIDE): a benchmark for single image dehazing [DS/OL]. (2017−12−01) [2025−08−05]. https://github.com/Boyiliee/RESIDE-dataset-link.

[23]

ZHANG S, BENENSON R, SCHIELE B. CityPersons: a diverse dataset for pedestrian detection [DS/OL]. (2017−08−09) [2025−08−05]. https://www.cityscapes-dataset.com/citypersonsdownload/.

[24]

CORDTS M, OMRAN M, RAMOS S. The cityscapes dataset for semantic urban scene understanding [DS/OL]. (2016−06−01) [2025−08−05]. https://www.cityscapes-dataset.com/.