浙江大学学报(工学版), 2026, 60(7): 1464-1474 doi: 10.3785/j.issn.1008-973X.2026.07.009

计算机与控制工程

基于多尺度特征相似性匹配的低照度目标检测

于鑫淼,, 夏楠,, 江佳鸿, 郝子莹, 把云胜

大连工业大学 信息科学与工程学院,辽宁 大连 116034

Low-light target detection based on multi-scale feature similarity matching

YU Xinmiao,, XIA Nan,, JIANG Jiahong, HAO Ziying, BA Yunsheng

School of Information Science and Engineering, Dalian Polytechnic University, Dalian 116034, China

通讯作者: 夏楠,男,副教授. orcid.org/0009-0000-6591-0572. E-mail:xianan@dlpu.edu.cn

收稿日期: 2025-05-28  

基金资助: 辽宁省科技计划联合计划资助项目(2025-MSLH-049).

Received: 2025-05-28  

Fund supported: 辽宁省科技计划联合计划资助项目(2025-MSLH-049).

作者简介 About authors

于鑫淼(2000—),男,硕士生,从事深度学习目标检测研究.orcid.org/0009-0009-7617-1045.E-mail:13065369922@163.com , E-mail:13065369922@163.com

摘要

针对低照度场景下图像细节不明显而造成对比度下降的问题,提出先增强后检测的技术方法. 提出细节增强模块,用于捕获图像中的目标细节并增强图像对比度;构建多尺度特征提取网络,通过低级特征提取模块与特征融合策略,充分捕获图像在网络浅层的细节信息;设计相似性匹配网络,对原特征图和增强特征图进行多尺度分割和特征相似性匹配,对关键信息进行重要性加权,强化有效特征的表达并抑制冗余噪声. 结合YOLOv12目标检测器,所提算法在夜间目标检测数据集ExDark和自建数据集上的平均精度均值分别达到了83.4%和80.4%,显著优于PE-YOLO等现有主流算法. 在COCO和DarkFace数据集上的对比实验结果验证了算法的泛化性. 所提算法通过增强图像的细节特征和对比度,提升了低照度场景下目标检测模型的性能.

关键词: 自动驾驶 ; 低照度目标检测 ; 多尺度特征提取 ; 相似性匹配 ; 重要性加权

Abstract

An enhancement-first, detection-later technical method was proposed to tackle the problem of reduced contrast caused by indistinct image details in low-light scenarios. A detail enhancement module was put forward to capture the target details in images and improve the image contrast. A multi-scale feature extraction network was constructed to fully capture the detailed information of images in the shallow layers of the network through the low-level feature extraction module and the feature fusion strategy. A similarity matching network was designed, which performed multi-scale segmentation and feature similarity matching on the original and enhanced feature maps, weighted the importance of key information, enhanced the representation of effective features and suppressed the redundant noise. When combined with the YOLOv12 target detector, the proposed method achieved the mean average precision of 83.4% and 80.4% on the nighttime target detection dataset ExDark and the self-built dataset, respectively, which significantly outperformed the existing mainstream algorithms such as PE-YOLO. The generalizability of the proposed method was validated by the results of comparative experiments conducted on the COCO and the DarkFace datasets. By enhancing the detailed features and contrast of images, the proposed algorithm improves the performance of target detection models in low-light scenarios.

Keywords: autonomous driving ; low-light target detection ; multi-scale feature extraction ; similarity matching ; importance weighting

PDF (3657KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

于鑫淼, 夏楠, 江佳鸿, 郝子莹, 把云胜. 基于多尺度特征相似性匹配的低照度目标检测. 浙江大学学报(工学版)[J], 2026, 60(7): 1464-1474 doi:10.3785/j.issn.1008-973X.2026.07.009

YU Xinmiao, XIA Nan, JIANG Jiahong, HAO Ziying, BA Yunsheng. Low-light target detection based on multi-scale feature similarity matching. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1464-1474 doi:10.3785/j.issn.1008-973X.2026.07.009

低照度场景下的目标检测是计算机视觉领域中的重要任务,其目的是在低光照环境下的图像或视频中准确定位并识别出感兴趣的目标,相关技术在人脸检测[1]、自动驾驶[2]、监控视频分析[3]等诸多领域得到了广泛应用. 低照度图像中目标细节丢失严重,且目标和黑暗背景之间的对比度较低,使得检测器出现漏检或误检的情况,从而导致目标检测精度严重下降[4]. 特别是在自动驾驶领域,对夜间车辆行驶过程中目标的检测能力直接关系到道路交通和人民生命与财产安全.

低照度目标检测方法一般分为传统方法、深度学习方法2大类. 传统的低照度图像处理方法包括直方图均衡化[5]、伽马校正[6]等,在复杂任务中效果有限. 目前,主流方法依托深度学习技术,主要分为基于Transformer的方法和双阶段、单阶段目标检测方法3种. 在基于Transformer的算法中,RT-DETR [7]虽然兼具实时性和准确性,但是在弱光环境下的检测能力不足. 双阶段算法的代表有Faster R-CNN[8]和Mask R-CNN[9]等,单阶段算法的代表有RetinaNet[10]、SSD[11]、YOLO[12]. 相较于双阶段算法,单阶段算法虽然精度略低,但是检测速度快,适用于实时检测设备. 由于低照度下目标细节隐藏于黑暗背景,难以被常规检测器捕捉,为了兼顾检测精度和速度,学者们针对YOLO目标检测器进行改进. 改进方法主要分为2类,其中一种是优化现有网络以增强其对低照度图像的适应性,通常通过调整网络结构(如增加特征提取模块[13])、优化层次结构或引入注意力机制来提升对目标区域的关注度并抑制背景干扰[14-15]. 这些方法尽管有效,但是存在局限性:修改网络结构可能会降低模型的泛化能力,增加过拟合风险. 此外,改进网络需要大量低照度数据的支持,而数据的获取和标注成本较高,且分布可能存在偏差,从而限制了此类方法的实际应用. 另一种方法是通过前馈网络来增强低照度图像. Qin等[16]提出用于目标检测的检测驱动增强网络,从低频、高频2个角度捕获暗图像中的潜在信息. Hui等[17]为了减小低光照和正常光图像在低级语义上的差异,将图像分解为反射率图和光照图并分别进行增强,有效利用弱光和正常光的特征相关性,增强了图像亮度并抑制了噪声. Yin等[18]提出金字塔暗图像增强网络,通过拉普拉斯金字塔将图像分解为不同分辨率的4个分量,分别从低频和细节信息2个角度对4个分量结果进行处理,实现了对暗图像的细节增强. 江泽涛等[19]提出空间感知注意力机制,增强目标特征并抑制黑暗背景,通过多感受野增强模块扩展特征感受野,再对不同感受野特征进行分组加权. Zhou等[20]结合交叉混合注意力和接受域扩展机制,从多尺度照明和感受野扩展2个方向,在通道、空间2个维度上过滤信息,以增强图像亮度,减少弱光图像增强过程的负面影响,并通过增强感受野来强化细节信息. 为了增强低照度图像中的特征,许多学者在网络模型中采用多尺度特征融合策略. Zhou等[21]提出空间金字塔池化和特征金字塔网络来优化图像质量. Guo等[22]基于生成对抗网络提出特征金字塔双分支多尺度结构,重建失真图像中目标的边缘纹理. Liu等[23]提出新型的多尺度特征交互网络,将原图像分割为聚焦区域和散焦区域,同时设计多尺度特征融合、注意力上采样模块,解决多焦点图像融合质量低的问题. Zhang等[24]提出加强连接金字塔网络,更改深层和浅层的横向连接结构,并应用跳跃连接操作,以丰富特征语义信息. Zhao等[25]在YOLOX中引入多尺度注意力特征融合网络,扩展感知场并聚合上下文信息,以生成富含语义的特征图. 尽管上述研究都使用先增强后检测的方法和多尺度特征融合策略来弥补部分信息缺失的问题,但是未对目标的关键信息进行重要性加权,限制了网络对关键特征的学习.

为了解决上述问题,提出基于多尺度特征相似性匹配的低照度目标检测方法,在保持原检测器结构的基础上设计增强网络,以恢复暗图像细节并对目标特征进行重要性加权. 首先,提出细节增强模块(detail enhancement module, DEM),提升目标与背景之间的对比度,增强细节并削弱背景噪声的影响. 其次,提出多尺度特征提取(multi-scale feature extraction, MSFE)网络及其内部的多尺度低级特征提取(multi-scale low-level feature extraction, MLFE)模块,对生成的增强特征图和原图像进行低级特征信息提取,以增强低级特征表达能力. 最后,设计多尺度特征相似性匹配(multi-scale feature similarity matching, MFSM)网络,进行特征图分割、余弦相似度计算、重要性加权及特征图拼接、融合等操作,将增强后的图像输入检测器,从而提升目标检测性能.

1. 本研究方法

所提算法的整体结构如图1所示,由细节增强模块、多尺度特征提取网络、多尺度特征相似性匹配网络构成. 其中,DEM由细节捕获分支和对比度强化分支构成,用于捕获图像中的目标细节并增强图像对比度;MSFE网络实现了低级特征提取和多尺度特征融合,能够充分捕获图像在网络浅层的细节信息;MFSM网络实现了对原图和增强图像中关键目标的重要性加权.

图 1

图 1   基于多尺度特征相似性匹配的低照度目标检测方法

Fig.1   Low-light target detection method based on multi-scale feature similarity matching


1.1. 细节增强模块

提出的低照度目标检测方法通过对两阶段特征图的相似性匹配来强化目标特征. 如图2所示,其中BCHW分别为图像的批次、通道数、高度和宽度;细节增强模块由细节捕获分支(detail capture branch, DCB)和对比度强化分支(contrast enhancement branch, CEB)组成. 受Inception结构[26]的启发,设计的DCB由核大小为3、5、9的平均池化(average pooling, AP)函数和最大池化(maximum pooling, MP)函数组成,其中不同大小的池化核用于多尺度地捕捉局部信息. 核大小为3和5的池化操作用于捕捉较小的局部纹理细节和边缘信息, 而核大小为9的池化操作能够捕捉更大范围的全局信息,如目标整体轮廓和背景信息. 大小为9的池化核的感受野显著更大,能够提供更多互补的特征信息,使特征表达更丰富. 平均池化用于捕捉特征的整体趋势,在保留背景信息的同时去除了冗余信息;最大池化用于突出边缘、纹理和其他重要的细节信息. 对核大小相同的最大池化和平均池化的输出结果进行矩阵相加操作以整合特征信息,使模型的特征表达更完整. 然后,在生成的每个尺度的特征图末尾使用上采样操作,使其恢复到统一尺寸. 最后,通过拼接3种具有丰富低频信息的特征图,再由$ \operatorname{Conv}_{1,1}(\cdot) $调整通道数,得到细节捕获分支的输出$ {\boldsymbol{x}_{{\rm{DCB}}}} \in {{\bf{R}}^{C \times H \times W}} $. 对于输入图像$ {\boldsymbol{x}}_{0}\in {\mathbf{R}}^{C\times H\times W} $,DCB的处理过程表示为

图 2

图 2   细节增强模块结构

Fig.2   Structure of detail enhancement module


$ \left.\begin{array}{l}{\boldsymbol{y}}_{k}={\mathrm{Up}}\left({\mathrm{A}\mathrm{v}\mathrm{g}}_{k}\left({\boldsymbol{x}}_{0}\right)+{\mathrm{M}\mathrm{a}\mathrm{x}}_{k}\left({\boldsymbol{x}}_{0}\right)\right),\\ {\boldsymbol{x}}_{\mathrm{D}\mathrm{C}\mathrm{B}}={\gamma \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[{\boldsymbol{y}}_{3},{\boldsymbol{y}}_{5},{\boldsymbol{y}}_{9}\right]\right).\end{array} \right\} $

式中: $ {\boldsymbol{y}}_{k} $为池化核为k$ k=\mathrm{3、5}、9 $)的分支的输出特征,$ \gamma $为Sigmoid激活函数,$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\cdot \right) $表示卷积核为1、步距为1的卷积操作,$ {\mathrm{A}\mathrm{v}\mathrm{g}}_{k}\left(\cdot \right)\mathrm{、}{\mathrm{M}\mathrm{a}\mathrm{x}}_{k}\left(\cdot \right) $为池化核为$ k $的平均池化函数和最大池化函数,$ \mathrm{U}\mathrm{p}\left(\cdot \right) $为上采样操作,$ \left[\cdot \right] $为通道拼接操作.

对比度强化分支(CEB)旨在强化目标特征信息,提升目标和背景之间的对比度,从而减少背景信息带来的影响. CEB由通道注意力分支和空间注意力分支构成,其中通道注意力分支自适应地选择对当前任务最有用的通道信息,空间注意力分支自适应地关注图像中目标的空间位置信息,以突出关键区域特征;将二者结合,从而更全面地捕获特征. 通道注意力分支由自适应平均池化函数、卷积函数和激活函数构成. 输入图像经过通道注意力分支后,输出特征$ {\boldsymbol{x}}_{\mathrm{c}}\in {\mathbf{R}}^{C\times 1\times 1} $,并得到各输出通道的注意力权重,该权重反映了每个通道信息的重要程度. 空间注意力分支由自适应平均池化函数和自适应最大池化函数并行构成. 输入图像经过空间注意力分支后输出特征$ {\boldsymbol{x}}_{\mathrm{s}}\in {\mathbf{R}}^{1\times H\times W} $;该分支根据每个通道内特征的平均性和显著性,有效捕捉和强化不同空间域的信息,以实现对空间信息的精细关注. 同时,为了进一步捕获长距离依赖关系以获取上下文信息,并增强目标与黑暗背景间的对比度,使用跳跃连接和逐像素相乘操作,得到CEB的输出$ {\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}\in {\mathbf{R}}^{C\times H\times W} $. CEB的处理过程表示为

$ \left.\begin{array}{l}{\boldsymbol{x}}_{\mathrm{s}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[\mathrm{A}\mathrm{A}\mathrm{P}\left({\boldsymbol{x}}_{0}\right),\mathrm{A}\mathrm{M}\mathrm{P}\left({\boldsymbol{x}}_{0}\right)\right]\right),\\{\boldsymbol{x}}_{\mathrm{c}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\sigma \left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\mathrm{A}{\mathrm{A}\mathrm{P}}_{1}\left({\boldsymbol{x}}_{0}\right)\right)\right)\right),\\{\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}=\gamma \left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left({\boldsymbol{x}}_{\mathrm{c}} \odot {\boldsymbol{x}}_{0}+{\boldsymbol{x}}_{\mathrm{s}} \odot {\boldsymbol{x}}_{0}\right)\right){\cdot \boldsymbol{x}}_{0}.\end{array} \right\} $

式中:$ \mathrm{A}\mathrm{A}\mathrm{P}\left(\cdot \right) $$ \mathrm{A}\mathrm{M}\mathrm{P}\left(\cdot \right) $分别为自适应平均池化和自适应最大池化函数,用于将图像尺寸调整为H×W$ \sigma $为ReLU激活函数;☉为逐像素相乘操作;$ \mathrm{A}{\mathrm{A}\mathrm{P}}_{1}\left(\cdot \right) $表示将图像调整为1×1尺寸的自适应平均池化函数.

输入图像通过细节增强模块的整体过程表示为

$ {\boldsymbol{x}}_{\mathrm{e}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[{\boldsymbol{x}}_{\mathrm{D}\mathrm{C}\mathrm{B}},{\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}\right]\right). $

输入图像经过DEM得到的增强特征图$ {\boldsymbol{x}}_{\mathrm{e}}\in {\mathbf{R}}^{C\times H\times W} $具有丰富的细节特征,且目标特征与黑暗背景的对比度明显提升.

1.2. 多尺度特征提取网络

将输入图像$ {\boldsymbol{x}}_{0} $和增强图像$ {\boldsymbol{x}}_{\mathrm{e}} $输入MSFE网络中进行特征提取. 如图3所示,MSFE网络包括特征提取模块、MLFE模块、上采样和通道拼接操作. 其中,特征提取模块由CBS模块与通道拼接操作组成. 为了充分捕获图像的边缘纹理信息以及整体形状语义特征,特征提取模块包含4个阶段,每个阶段的CBS模块由卷积层(Conv)、批归一化层(BN),激活函数(SiLU)组成. 特征提取模块的处理过程表示为

图 3

图 3   多尺度特征提取网络

Fig.3   Multi-scale feature extraction network


$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{i}\left({\boldsymbol{x}}_{0}\right)=\mathrm{S}\mathrm{i}\mathrm{L}\mathrm{U}\left(\mathrm{B}\mathrm{N}\left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{3,i}\left({\boldsymbol{x}}_{0}\right)\right)\right); \; i=\mathrm{1,2}. $

式中:$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left(\cdot \right) $中的$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{3,1}}\left(\cdot \right) $卷积核大小为3,步距为1;$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{2}\left(\cdot \right) $中的$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{3,2}}\left(\cdot \right) $卷积核大小为3,步距为2,起到了下采样的作用. 为了缓解网络深层下采样过程中的梯度问题并减少由下采样产生的信息丢失,使用残差连接. 特征提取模块中每个阶段的输出特征图$ {\boldsymbol{x}}_{j} $可以表示为

$ {\boldsymbol{x}}_{j}={\mathrm{C}\mathrm{B}\mathrm{S}}_{2}\left(\left[{\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\boldsymbol{x}}_{j-1}\right)\right),{\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\boldsymbol{x}}_{j-1}\right)\right]\right). $

式中:$ j\in \left\{\mathrm{1,2},\mathrm{3,4}\right\} $表示不同的阶段,$ \;\;{\boldsymbol{x}}_{1}\in {\mathbf{R}}^{32\times \left(H/2\right)\times \left(W/2\right)} $, $ {\boldsymbol{x}}_{2}\in {\mathbf{R}}^{64\times \left(H/4\right)\times \left(W/4\right)} $, $ {\boldsymbol{x}}_{3}\in {\mathbf{R}}^{128\times \left(H/8\right)\times \left(W/8\right)}, $$ {\boldsymbol{x}}_{4}\in {\mathbf{R}}^{256\times \left(H/16\right)\times \left(W/16\right)}. $ 当提取到第4个阶段时,对特征图进行上采样,将其恢复到原图大小.

由于输入图像质量较差、照度不均,且目标的细节纹理、边缘轮廓等信息难以被充分提取,受文献[27]的启发,提出多尺度低级特征提取(MLFE)模块,通过多级卷积、多尺度特征融合和层次化特征提取,增强低级特征的表达能力. 其中,不同大小的卷积核用于捕捉局部细节,结合浅层特征提取和矩阵相加操作,能够强化边缘和纹理信息. 多尺度特征融合确保低级特征在深层网络中被保留并被有效利用,以解决低照度场景下目标细节丢失的问题;浅层特征提取保留了更多原图细节,为后续处理提供了丰富信息. 将MLFE模块应用于特征提取模块的前3个阶段,多尺度地提取特征图的低级细节信息. 然后,将MLFE模块的输出特征图与上采样后尺寸相同的特征图进行拼接,以补偿丢失的细节信息. 由于前3层特征图的感受野依次减小,MLFE模块应用3种尺度的卷积核(3、5、7),以实现多尺度特征提取. $ {\boldsymbol{x}}_{j} $通过MLFE模块后输出特征图$ {\boldsymbol{z}}_{j} $的过程表示为

$ {\boldsymbol{z}}_{j}=\mathrm{M}\mathrm{L}\mathrm{F}\mathrm{E}\left({\boldsymbol{x}}_{j}\right); \; j=1, 2, 3. $

式中:MLFE$ \left(\cdot \right) $表示MLFE模块对特征的处理,$ {\boldsymbol{z}}_{1}、 {\boldsymbol{z}}_{2}、{\boldsymbol{z}}_{3} $分别为MLFE模块应用卷积核(7, 5)、(7, 3)、(5, 3)后输出的特征图. 生成的$ {\boldsymbol{z}}_{1}、{\boldsymbol{z}}_{2}、{\boldsymbol{z}}_{3} $通过卷积核大小为1、步距为1的二维卷积$ {S}\left(\cdot \right) $调整至对应通道数,保证输出通道数与输入通道数一致,最终将其和上采样阶段的特征图拼接. MSFE模块的整体流程表示为

$ {\boldsymbol{x}}_{0}^{\prime}=\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left({\boldsymbol{x}}_{4}\right),{\boldsymbol{z}}_{3}\right]\right),{\boldsymbol{z}}_{2}\right]\right),{\boldsymbol{z}}_{1}\right]\right). $

式中:$ {\boldsymbol{x}}_{0}^{\prime} $为原图$ {\boldsymbol{x}}_{0} $经过MSFE模块后的输出特征图. 同理,$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $为增强特征图$ {\boldsymbol{x}}_{\mathrm{e}} $经过MSFE模块后的输出特征图. 特征图$ {\boldsymbol{x}}_{0}^{\prime}\in {\mathbf{R}}^{C\times H\times W}、{\boldsymbol{x}}_{\mathrm{e}}^{\prime}\in {\mathbf{R}}^{C\times H\times W} $具有丰富的低级语义信息,用于下一阶段的特征匹配.

1.3. 多尺度特征相似性匹配网络

输入图像$ {\boldsymbol{x}}_{0} $和增强图像$ {\boldsymbol{x}}_{\mathrm{e}} $经过MSFE模块的处理后,生成了具有丰富的全局高、低阶信息的特征图$ {\boldsymbol{x}}_{0}^{\prime} $和聚焦目标重要细节的特征图$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime}. $$ {\boldsymbol{x}}_{0}^{\prime} $$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $进行特征相似性匹配,目的是对原特征图中目标的关键信息进行重要性加权,从而获得具有更全面、丰富的信息流的图像,使得网络在训练时可以学习到图像的全面特征,同时也对目标的重要特征信息赋予更高的权重,以实现更好的特征表达. 首先,对$ {\boldsymbol{x}}_{0}^{\prime} $$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $进行特征图分割,旨在精确捕获图像的局部细节特征,以避免全局特征不匹配带来的干扰. 将图像分割为3种尺寸的块:2×2、4×4和8×8,每个块都包含具有不同位置信息的子特征图. 如图4所示,分割过程表示为

图 4

图 4   多尺度特征相似性匹配网络

Fig.4   Multi-scale feature similarity matching network


$ {\boldsymbol{x}}_{0,s}^{\prime}=\mathrm{s}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left({\boldsymbol{x}}_{0}^{\prime},{\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}}_{s}\right);\; s=2, 4, 8. $

式中:当$ s=2、4、8 $时,$ \mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}_s $分别为原图尺寸的$ 1/2、1/4、1/8 $$ \mathrm{s}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left(\cdot \right) $为图像分割函数. 同理,将$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $分割成与$ {\boldsymbol{x}}_{0,s}^{\prime} $尺寸相同的子特征图$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $. 二者包含的子特征图可以表示为$ {\boldsymbol{x}}_{0,s}^{\prime}=\left\{{\boldsymbol{x}}_{0,s}^{\prime}\left(1\right), \right. \left.{\boldsymbol{x}}_{0,s}^{\prime}\left(2\right),\cdots ,{\boldsymbol{x}}_{0,s}^{\prime} \left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(H/s\right)\times \left(W/s\right)} $$ \;\;\;\;{\boldsymbol{x}}_{\mathrm{e},s}^{\prime}=\left\{{\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left(1\right), \right. \left. {\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left(2\right),\cdots , {\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(H/s\right)\times \left(W/s\right)} $;当$ s=2 $$ {P}_{2}=4 $,当$ s=4 $$ {P}_{4}=16 $,当$ s=8 $$ {P}_{8}=64 $. 将特征图$ {\boldsymbol{x}}_{0}^{\prime} $$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $分割为子特征图$ {\boldsymbol{x}}_{0,s}^{\prime}、{\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $之后,对与$ {\boldsymbol{x}}_{0,s}^{\prime}、{\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $中位置相同的子特征图进行余弦相似度计算,即通过计算2个向量夹角的余弦值来衡量相似度. 对于每个子特征图,通过$ \mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left(\cdot \right) $函数将张量转换为向量,作为余弦相似度函数计算时的输入. 子特征图转换为向量的过程可以表示为

$ {\boldsymbol{v}}_{0,s}^{\prime}=\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left({\boldsymbol{x}}_{0,s}^{\prime}\right). $

式中:$ \mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left(\cdot \right) $为张量重塑函数. $ {\boldsymbol{v}}_{0,s}^{\prime} $$ {\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $包含的特征向量可以表示为$ {\boldsymbol{v}}_{0,s}^{\prime}=\left\{{\boldsymbol{v}}_{0,s}^{\prime}\left(1\right),{\boldsymbol{v}}_{0,s}^{\prime}\left(2\right),\cdots , {\boldsymbol{v}}_{0,s}^{\prime} \left({P}_{s}\right)\right\} \in {\mathbf{R}}^{C\times \left(N/{s}^{2}\right)} $$\;\;\;\;{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}=\left\{{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(1\right),{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(2\right),\cdots , {\boldsymbol{v}}_{\mathrm{e},s}^{\prime} \left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(N/{s}^{2}\right)} $,其中,$ N=H\times W $为张量长度,表示维度从$ C\times H\times W $ 转换为$ C\times N $. 得到2幅子特征图的向量$ {\boldsymbol{v}}_{0,s}^{\prime}、{\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $以后,分别对$ {\boldsymbol{v}}_{0,s}^{\prime}、{\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $中位置相同的特征向量进行余弦相似度计算. 计算过程为

$ {\bf{coslist}}_{s}\left(p\right)=\mathrm{c}\mathrm{o}\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}\left({\boldsymbol{v}}_{0,s}^{\prime}\left(p\right),{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(p\right)\right). $

式中:$ p=\left\{\mathrm{1,2},\cdots ,{P}_{s}\right\} $为子特征图的索引,$ {\bf{coslist}}_{s}\left(p\right) $为计算相似度后的余弦值列表,$ \mathrm{c}\mathrm{o}\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}(\cdot ) $为余弦相似度计算函数. 根据式(10),可以计算出$ {\boldsymbol{x}}_{0,s}^{\prime} $$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $子特征图的余弦相似度,其值分布在$ \left(-1, 1\right) $内. 得到的余弦值越大,说明2个特征向量方向夹角越小,二者越相似;反之,余弦值越小,2个向量的夹角越大,特征越相异. 通过$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}$函数对得到的余弦值列表${\bf{coslist}}_{s}\left(p\right) $进行归一化处理,使其值分布在$ \left(0, 1.0\right) $内;列表内的余弦值加和为1,数值越大则相似性越高. 用1减去余弦值列表,将得到的权值和子特征图$ {\boldsymbol{x}}_{0,s}^{\prime}\left(p\right) $逐像素相乘,从而起到重要性加权的作用. 加权过程表示为

$ {\boldsymbol{w}}_{0,s}\left(p\right)=\left({\bf{1}}-\varphi \left({\bf{coslist}}_{s}\left(p\right)\right)\right){\boldsymbol{x}}_{0,s}^{\prime}\left(p\right). $

式中:$ {\boldsymbol{w}}_{0,s}\left(p\right)\in {\mathbf{R}}^{C\times H\times W} $为融合后s尺寸的加权特征图;$ \varphi \left(\cdot \right)$$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数,表示对计算得到的余弦值列表进行归一化操作. 得到的$ {\boldsymbol{w}}_{0,s}\left(p\right) $是对目标重要信息加权后的特征图,具有丰富的信息流,更有益于图像特征的整体表达. 而$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $是经过细节增强模块和多尺度特征提取网络处理的细节增强特征图,其在目标细节部分的信息相对丰富,而对目标细节以外的整体特征的表达不完全. 因此,对2个阶段的特征图进行融合操作,增强输出图像对整体特征的表达能力. 将加权特征图$ {\boldsymbol{w}}_{0,s} $和分割后的增强特征图$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $中对应位置的子特征图矩阵相加,生成3组子特征图$ {\boldsymbol{x}}_{\mathrm{f},s}(s=\mathrm{2,4},8) $,再将3组子特征图$ {\boldsymbol{x}}_{\mathrm{f},s} $各自拼接为整体,得到3组$ {\boldsymbol{x}}_{\mathrm{t},s} $,最后进行通道拼接. 融合操作和子特征图的拼接过程表示为

$ \left.\begin{array}{c}{\boldsymbol{x}}_{\mathrm{f},s}={\boldsymbol{w}}_{0,s}+{\boldsymbol{x}}_{\mathrm{e},s}^{\prime},\\ {\boldsymbol{x}}_{\mathrm{t},s}= \mathrm{concat}\left({{\boldsymbol{x}}_{{{\mathrm{f}}},2}},\; {{\boldsymbol{x}}_{{{\mathrm{f}}},4}}, \;{{\boldsymbol{x}}_{{{\mathrm{f}}},8}}\right).\end{array} \right\} $

式中:$ \mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}(\cdot ) $为子特征图拼接函数,$ {\boldsymbol{x}}_{\mathrm{f},s}\in {\mathbf{R}}^{C\times H\times W} $$ s $尺寸的子特征图融合后的特征图,$ {\boldsymbol{x}}_{\mathrm{t},s}\in {\mathbf{R}}^{C\times H\times W} $$ s $尺寸的子特征图拼接后生成的3组输出特征图. 对$ {\boldsymbol{x}}_{\mathrm{t},s} $进行通道拼接和像素值归一化处理后,得到最终的输出特征图$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}} $

$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}\mathrm{i}\mathrm{z}\mathrm{e}\mathrm{d}\left(\left[{\boldsymbol{x}}_{\mathrm{t},2},\;{\boldsymbol{x}}_{\mathrm{t},4},\;{\boldsymbol{x}}_{\mathrm{t},8}\right]\right)\right). $

式中:$ \mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}\mathrm{i}\mathrm{z}\mathrm{e}\mathrm{d}\left(\cdot \right) $表示像素值归一化处理. 将像素值从(0, 255)映射到(0, 1.0),使输入数据符合模型训练分布,从而提高模型训练和计算的稳定性.

综上所述,生成的$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}}\in {\mathbf{R}}^{C\times H\times W} $具有更丰富的细节信息和全局信息,使特征表达更完整;同时,特征相似性匹配使得后续的目标检测器在训练时更加关注目标信息,从而显著提升了模型对有用信息的关注度.

2. 实 验

2.1. 数据集及评估指标

为了验证所提方法的有效性,使其能够应用于实际道路场景下的目标检测,使用公开的低照度目标检测数据集ExDark[28]和自建数据集进行评估. ExDark数据集包含从弱光到黄昏条件的低照度图像,图像中因光照不足导致目标细节丢失且对比度较低. 该数据集共有7 356张图像,涵盖12类目标,包括自行车652张、船679张、瓶子547张、公交车527张、汽车636张、猫735张、椅子648张、杯子519张、狗801张、摩托车501张、行人606张和桌子505张.

自建数据集源自2个自动驾驶数据集,通过抽取样本构建而成. 一是BDD100K数据集[29],包含总时长超过105 h的高清视频,涵盖各种天气、道路类型和交通情况,并提供了10万张目标边界框图像. 从中抽取1万张背景光照条件为昏暗至黑暗的图像,选取汽车、公交车、自行车、摩托车、行人、货车6类目标. 二是多目标检测与跟踪基准数据集UA-DETRAC[30],包含训练集83 791张和测试集56 340张图像. 从中抽取1 000张夜间图像,包含汽车、公交车、货车3类目标;将这些图像与BDD100K的1万张图像组合,按8∶1∶1的比例划分为训练集、验证集和测试集. 选择平均精度(AP)来评估模型性能,并对低照度数据集中的所有种类的平均精度加和求平均,作为最终的平均精度均值(mAP);使用每秒帧数(FPS)指标来衡量检测时间成本;分别使用每秒浮点运算次数(FLOPs)和参数量(Np)来衡量计算复杂度和模型大小.

2.2. 实验设置

基于Linux操作系统进行实验,采用Python 3.9编程语言、PyTorch 1.11.0深度学习框架和CUDA11.3计算平台,硬件设备为NVIDIA GeForce RTX 2080 Ti显卡. 将数据集统一调整为640×640分辨率大小,批大小设置为8. 使用SGD优化器,初始学习率为0.01,最终学习率为10−4,动量设置为0.937,权重衰减设置为5×10−4. 对输入图像采用数据增强方法,包括随机旋转±45°和缩放±35%. 在ExDark和自建数据集上训练时,共迭代50个周期.

2.3. 对比实验

在真实低照度数据集ExDark和自建数据集上,对提出的低照度目标检测算法与该领域中的经典算法、最新优化算法进行对比实验. 其中双阶段目标检测网络的代表包括Faster R-CNN、Mask R-CNN,单阶段目标检测网络包括RetinaNet、YOLOv10[31]、YOLOv11[32]、YOLOv12[33];基于Transformer的目标检测算法有RT-DETR;在最新优化算法中,选择DENet、PE-YOLO、IAT[34]以及WSA-YOLO. 对于上述所有算法,首先在ExDark数据集上进行对比试验,采用mAP指标衡量模型精度,并采用FPS检测和衡量时间成本,实验结果如表1所示. 所提算法结合了YOLOv12目标检测器,取得了最高mAP值83.4%. 其次,在更有挑战性的自建数据集上,选取表1中目标检测性能较好的单阶段、双阶段算法以及YOLO系列和最新优化算法进行测试,如表2所示. 由于自建数据集中目标形状相对复杂,部分目标存在遮挡、模糊等情况,精度有所下降,但是所提算法依然取得了最高精度80.4%,从而验证了其有效性. 性能提升的原因包括:1)所提方法中的细节增强模块捕捉图像中物体的细节,增强了目标与黑暗背景间的对比度;2)多尺度特征提取网络依据图像感受野大小的不同,采用不同尺度的卷积核进行特征提取,并实现了多尺度特征融合;3)多尺度特征相似性匹配网络通过对比原特征图和增强特征图的相似性来对图像中的关键目标进行重要性加权. 因此,所提方法的性能比对比算法有所提升. 但是相应地,此方法的复杂度相对较高,模型的检测速度有所减慢;其FPS在ExDark数据集上为85.0帧/s,在自建数据集上为77.6帧/s. 相比于实时性最好的优化算法DENet,FPS下降了6.0~9.1帧/s;相较于精度次优的算法WSA-YOLO,FPS下降了0.8~2.2帧/s. 虽然检测速度有所下降,但是仍然满足实时性要求.

表 1   所提方法与经典算法、最新优化算法在ExDark数据集上的检测精度与速度对比

Tab.1  Comparison of detection accuracy and speed of proposed method, classical algorithms and latest optimized algorithms on ExDark dataset

方法AP/%mAP/%FPS/
(帧·s−1)
自行车瓶子公交车汽车椅子杯子摩托车行人桌子
Faster R-CNN[8]83.072.374.685.082.678.677.281.681.082.781.372.079.371.1
Mask R-CNN[9]87.474.478.187.983.180.280.681.078.376.683.270.680.268.5
RetinaNet [10]84.573.272.786.580.876.876.875.973.478.376.667.176.974.6
YOLOv10[31]85.276.482.787.480.975.975.379.282.582.380.674.679.893.7
YOLOv11[32]87.676.982.487.581.276.377.080.981.979.681.074.480.592.7
YOLOv12[33]88.776.882.088.181.976.077.381.282.482.981.474.781.191.5
RT-DETR[7]85.176.681.487.081.275.681.381.882.282.883.770.980.884.0
DENet[16]85.675.277.884.483.577.978.779.580.683.582.374.080.394.1
IAT[34]86.575.677.488.783.279.681.180.577.683.180.376.480.988.8
PE-YOLO[18]88.775.479.890.683.977.882.582.478.782.580.873.481.491.2
WSA-YOLO[17]88.078.881.392.684.678.580.380.980.784.381.977.182.487.2
本研究方法89.381.582.694.286.177.679.682.082.984.583.174.283.485.0

新窗口打开| 下载CSV


表 2   所提方法与最新优化算法在自建数据集上的检测精度与速度对比

Tab.2  Comparison of detection accuracy and speed of proposed method and latest optimized algorithms on self-built dataset

方法AP/%mAP/%FPS/
(帧·s−1)
自行车公交车汽车货车摩托车行人
RetinaNet [10]76.177.666.564.268.868.270.266.0
YOLOv10[31]76.679.269.168.973.772.973.482.6
YOLOv11[32]77.381.469.769.373.673.074.081.5
YOLOv12[33]79.083.176.375.772.077.477.180.3
RT-DETR[7]78.980.371.972.671.269.974.176.2
DENet[16]78.780.774.974.372.774.876.083.6
IAT[34]81.282.677.876.673.974.977.879.4
PE-YOLO[18]80.782.477.979.276.479.579.379.9
WSA-YOLO[17]81.683.479.279.376.578.979.878.4
本研究方法82.384.079.477.978.680.280.477.6

新窗口打开| 下载CSV


为了验证所提网络的泛化能力,开展交叉数据集验证实验. 除了真实低照度数据集ExDark和自建夜间数据集外,采用常规目标检测数据集COCO[35]和低照度检测数据集DarkFace[36]进行对比实验. 选用经典单阶段目标检测网络YOLOv11、YOLOv12、基于Transformer的实时检测网络RT-DETR及最新优化算法作为对比算法,结果如表3所示. 所提网络在2个低照度数据集上均取得了良好的检测精度,略高于对比算法. 然而,在COCO数据集上精度提升幅度较小,仅在YOLOv12的基础上提升了1.9个百分点,而在DarkFace数据集上提升了2.8个百分点. 原因在于设计的细节增强模块和多尺度特征提取网络主要优化了夜间低对比度图像,对正常照度的白天图像提升效果有限. 这些结果验证了算法在低照度目标检测上的泛化能力.

表 3   不同算法在COCO和DarkFace数据集上的检测精度对比

Tab.3  Detection accuracy comparison of different algorithms on COCO and DarkFace datasets

方法COCO数据集DarkFace数据集
mAP/%FPS/(帧·s−1)mAP/%FPS/(帧·s−1)
YOLOv11[32]54.0102.669.879.6
YOLOv12[33]54.499.071.289.3
RT-DETR[7]54.790.870.775.2
IAT[34]54.994.870.886.3
PE-YOLO[18]55.898.171.878.2
WSA-YOLO[17]56.196.772.476.6
本研究方法56.394.174.075.9

新窗口打开| 下载CSV


2.4. 消融实验

为了验证各模块的作用,进行消融实验,结果如表4所示. 首先,将输入图像经过DEM处理后与原图像拼接,并调整通道数,将其输入检测器. 结果显示,加入DEM后模型精度提升了0.8个百分点,证明DEM增强了目标细节特征. 其次,将DEM增强后的图像与原图同时输入MSFE网络,对网络输出的特征图进行拼接并调整通道数后输入检测器. 结果显示,加入MSFE网络后,检测精度在DEM的基础上提升了0.3个百分点,表明MSFE网络有效提取了更多的低级特征. 最后,加入MFSM网络,通过相似度计算对目标特征进行重要性加权和融合处理,将融合后的特征输入检测器. 结果显示,加入MFSM网络后精度进一步提升了1.2个百分点,验证了特征相似性匹配和关键信息加权显著提高了低照度目标检测的准确性. 实验表明,DEM和MSFE、MFSM网络均对模型性能产生了积极作用,但是同时增加了模型大小和复杂度.

表 4   不同改进措施对网络性能的影响

Tab.4  Impact of different improvement measures on network performance

DEMMSFEMFSMmAP/%FLOPs/GNp/M
×××81.121.69.3
××81.938.715.1
×82.276.928.3
83.4121.534.5

新窗口打开| 下载CSV


为了验证不同尺度特征的相似性匹配对模型整体性能的影响,将相似性匹配分为3种尺度,分别为2、4、8;将3种尺度两两组合后分别应用于网络,消融实验结果如表5所示. 改变相似性匹配的尺度使精度发生了相应的变化. 由表4可知,当不采用MFSM网络、只加入DEM和MSFE时,mAP值为82.2%,FLOPs为76.9 G. 而根据表5,当采用2、4的尺度划分特征图并进行特征相似性匹配时,mAP值为82.5%,提升了0.3个百分点;FLOPs为88.3 G,增加了11.4 G. 当采用2、8的尺度时,mAP值为82.8%,提升了0.6个百分点;FLOPs为103.6 G,增加了26.7 G. 当采用4、8的尺度时,mAP值为82.9%,提升了0.7个百分点;FLOPs为115.9 G,增加了39.0 G. 原因可能是分割后的子特征图尺寸不同,而更小尺寸的子特征图包含的特征信息更细节化,因此在进行相似性匹配时更精确. 综上所述,虽然MFSM网络可以为模型性能带来精度上的提升,但是由于其存在一定量的相似度计算,算法复杂度也会随之增加,需要综合考虑计算资源和精度带来的效益.

表 5   不同尺度对特征相似性匹配网络性能的影响

Tab.5  Impact of different scales on performance of feature similarity matching network

s = 2s = 4s = 8mAP/%FLOPs/GFPS/(帧·s−1)
×82.588.391.8
×82.8103.690.5
×82.9115.989.5
83.1121.589.0

新窗口打开| 下载CSV


为了进一步验证所提前馈网络的有效性以及泛化性,基于ExDark数据集设计2种实验方案. 在第1种方案中,保持前馈网络不变,结合多个检测器,评估其适配性和性能;在第2种方案中,保持检测器不变,使用多种主流前馈网络对比验证其优势. 实验结果如表67所示,所提前馈网络在相同检测器上精度最优,并在不同YOLO检测器中均表现出良好的效果,证明了其在目标检测任务中的优势和泛化能力.

表 6   所提网络在不同检测器上的检测性能

Tab.6  Detection performance of proposed network with different detectors

方法mAP/%FPS/(帧·s−1)
所提网络+YOLOv576.380.7
所提网络+YOLOv879.682.6
所提网络+YOLOv1082.186.0
所提网络+YOLOv1182.786.2
所提网络+YOLOv1283.485.1

新窗口打开| 下载CSV


表 7   不同网络在相同检测器上的检测性能

Tab.7  Detection performance of different networks with same detector

方法mAP/%FPS/(帧·s−1)
DENet[16]+YOLOv1280.791.3
IAT[34]+YOLOv1281.587.5
PE[18]+YOLOv1282.689.4
WSA[17]+YOLOv1283.185.6
本研究方法+YOLOv1283.485.1

新窗口打开| 下载CSV


2.5. 可视化成果展示

为了验证所提DEM和MSFE网络的有效性,根据不同网络模型的权重生成热力图,如图5所示. 原始图像亮度不足,目标细节被阴影淹没,目标与背景之间的对比度较低,难以分辨. DEM通过细节增强,提升了全局亮度,并放大了目标与背景间的差异. MSFE网络进一步增强了对低级特征的提取能力,使特征图包含更丰富的目标信息,关注到了更远、更暗的物体,从而显著提升了图像的特征表达能力.

图 5

图 5   采用DEM和MSFE时模型对低照度场景下目标的关注程度

Fig.5   Attention levels of model to targets in low-light scenarios when using DEM and MSFE


分析如图6所示的热力图,可以进一步验证提出的前馈网络对目标检测精度的影响.由图6可知,所提方法的热力图展现了显著的优势,红色高亮区域集中分布于目标物体所在位置,表明所提方法几乎能够精准聚焦于目标区域,证明了其能够更好地关注目标物体的细节,并有效减少了背景和其他干扰因素的影响. 这得益于所提方法在增强细节和提高对比度的同时,着重于对低级特征的提取和对相似性匹配后目标信息的重要性加权,使得网络在训练时更关注目标区域而非背景特征. 这种设计不仅提升了网络对目标区域的关注度,而且显著提高了目标检测精度.

图 6

图 6   不同算法对低照度场景下目标的关注程度

Fig.6   Attention level of different algorithms to targets in low-light scenarios


图7为所提算法和主流算法在目标检测任务中置信度分布的可视化对比结果. 所提方法在多目标和单目标场景中均体现出良好的检测效果. 在第1、2组中,虽然所有算法检测出了相同数量的类别,但是所提方法的置信度优于其他算法;在第3组图像中,所提方法在检测出更多目标数量的同时,精度依然高于其他算法.

图 7

图 7   目标检测任务中不同算法的置信度分布可视化对比

Fig.7   Visual comparison of confidence distributions of different algorithms in target detection tasks


3. 结 语

为了提升黑暗场景下的目标检测精度,提出基于多尺度特征相似性匹配的低照度目标检测方法. 在ExDark和自建数据集上,其mAP值分别达到了83.4%和80.4%. 在COCO和DarkFace数据集上开展泛化性验证,并针对性地进行消融实验,验证了所提方法的有效性. 提出的DEM在捕获局部和全局信息时显著地强化了目标本身的边缘、纹理特征,削弱了背景的影响. MSFE网络在提取特征的同时,有效补偿了低照度图像的低级语义信息在提取过程中的损失. MFSM网络对原特征图和增强特征图进行相似性匹配,对图像中的目标实现了重要性加权,提高了特征图的整体表达能力. 在ExDark和自建数据集上的实验结果表明,相比于经典主流算法和最新优化算法,所提方法具有更高的检测精度,但是在复杂度和运行速度方面仍然有待提升. 未来将进一步开展模型轻量化研究,使其更容易在移动设备上部署.

参考文献

WANG W, WANG X, YANG W, et al

Unsupervised face detection in the dark

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (1): 1250- 1266

DOI:10.1109/TPAMI.2022.3152562      [本文引用: 1]

TENG S, HU X, DENG P, et al

Motion planning for autonomous driving: the state of the art and future perspectives

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (6): 3692- 3711

DOI:10.1109/TIV.2023.3274536      [本文引用: 1]

WANG S, CHEN M

A LiDAR multi-object detection algorithm for autonomous driving

[J]. Applied Sciences, 2023, 13 (23): 12747

DOI:10.3390/app132312747      [本文引用: 1]

YI A, ANANTRASIRICHAI N

A comprehensive study of object tracking in low-light environments

[J]. Sensors, 2024, 24 (13): 4359

DOI:10.3390/s24134359      [本文引用: 1]

PIZER S M, AMBURN E P, AUSTIN J D, et al

Adaptive histogram equalization and its variations

[J]. Computer Vision, Graphics, and Image Processing, 1987, 39 (3): 355- 368

DOI:10.1016/S0734-189X(87)80186-X      [本文引用: 1]

RAHMAN S, RAHMAN M M, ABDULLAH-AL-WADUD M, et al

An adaptive gamma correction for image enhancement

[J]. EURASIP Journal on Image and Video Processing, 2016, (1): 35

[本文引用: 1]

LV W, ZHAO Y, CHANG Q, et al. RT-DETRv2: improved baseline with bag-of-freebies for real-time detection Transformer [EB/OL]. (2024-07-24) [2025-07-16]. https://arxiv.org/abs/2407.17140.

[本文引用: 4]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 2]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980–2988.

[本文引用: 2]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999–3007.

[本文引用: 3]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 21–37.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

江泽涛, 施道权, 雷晓春, 等

一种基于Night-YOLOX的低照度目标检测方法

[J]. 电子学报, 2023, 51 (10): 2821- 2830

DOI:10.12263/DZXB.20221396      [本文引用: 1]

JIANG Zetao, SHI Daoquan, LEI Xiaochun, et al

A low-illumination object detection method based on night-YOLOX

[J]. Acta Electronica Sinica, 2023, 51 (10): 2821- 2830

DOI:10.12263/DZXB.20221396      [本文引用: 1]

LIU Y, LI S, ZHOU L, et al

Dark-YOLO: a low-light object detection algorithm integrating multiple attention mechanisms

[J]. Applied Sciences, 2025, 15 (9): 5170

DOI:10.3390/app15095170      [本文引用: 1]

PENG D, DING W, ZHEN T

A novel low light object detection method based on the YOLOv5 fusion feature enhancement

[J]. Scientific Reports, 2024, 14: 4486

DOI:10.1038/s41598-024-54428-8      [本文引用: 1]

QIN Q, CHANG K, HUANG M, et al. DENet: detection-driven enhancement network for object detection under adverse weather conditions [C]// Proceedings of the Asian Conference on Computer Vision. Macao: Springer, 2023: 491–507.

[本文引用: 4]

HUI Y, WANG J, LI B

WSA-YOLO: weak-supervised and adaptive object detection in the low-light environment for YOLOv7

[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73: 2507012

[本文引用: 5]

YIN X, YU Z, FEI Z, et al. PE-YOLO: pyramid enhancement network for dark object detection [C]// Proceedings of the 32nd International Conference on Artificial Neural Networks. Heraklion: Springer, 2023: 163–174.

[本文引用: 5]

江泽涛, 李慧, 雷晓春, 等

一种基于SAM-MSFF网络的低照度目标检测方法

[J]. 电子学报, 2024, 52 (1): 81- 93

DOI:10.12263/DZXB.20220666      [本文引用: 1]

JIANG Zetao, LI Hui, LEI Xiaochun, et al

A low-light object detection method based on SAM-MSFF network

[J]. Acta Electronica Sinica, 2024, 52 (1): 81- 93

DOI:10.12263/DZXB.20220666      [本文引用: 1]

ZHOU R, LI P, ZHANG M, et al

A low-light image enhancement algorithm incorporating cross-mixed attention and receptive field expansion mechanism

[J]. IEEE Access, 2024, 12: 45773- 45784

DOI:10.1109/ACCESS.2024.3381514      [本文引用: 1]

ZHOU W, CHEN Z. Deep multi-scale features learning for distorted image quality assessment [C]// Proceedings of the IEEE International Symposium on Circuits and Systems. Daegu: IEEE, 2021: 1–5.

[本文引用: 1]

GUO H, BIN Y, HOU Y, et al. IQMA network: image quality multi-scale assessment network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Nashville: IEEE, 2021: 443–452.

[本文引用: 1]

LIU Y, WANG L, CHENG J, et al

Multiscale feature interactive network for multifocus image fusion

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5019316

[本文引用: 1]

ZHANG Y, GUO W, WU C, et al

FANet: an arbitrary direction remote sensing object detection network based on feature fusion and angle classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5608811

[本文引用: 1]

ZHAO W, KANG Y, CHEN H, et al

Adaptively attentional feature fusion oriented to multiscale object detection in remote sensing images

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 5008111

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 6000–6010.

[本文引用: 1]

JIANG J, XIA N, YU X

A feature matching and compensation method based on importance weighting for occluded human pose estimation

[J]. Journal of King Saud University-Computer and Information Sciences, 2024, 36 (5): 102061

DOI:10.1016/j.jksuci.2024.102061      [本文引用: 1]

LOH Y P, CHAN C S

Getting to know low-light images with the Exclusively Dark dataset

[J]. Computer Vision and Image Understanding, 2019, 178: 30- 42

DOI:10.1016/j.cviu.2018.10.010      [本文引用: 1]

YU F, CHEN H, WANG X, et al. BDD100K: a diverse driving dataset for heterogeneous multitask learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2633–2642.

[本文引用: 1]

WEN L, DU D, CAI Z, et al

UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking

[J]. Computer Vision and Image Understanding, 2020, 193: 102907

DOI:10.1016/j.cviu.2020.102907      [本文引用: 1]

CHEN H, CHEN K, DING G, et al. YOLOv10: real-time end-to-end object detection [C]// Proceedings of the 38th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc, 2024: 107984–108011.

[本文引用: 3]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. (2024-10-14) [2025-07-16]. https://arxiv.org/abs/1911.11907.

[本文引用: 4]

TIAN Y, YE Q, DOERMANN D. YOLOv12: attention-centric real-time object detectors [EB/OL]. (2025-02-18) [2025-07-16]. https://arxiv.org/abs/2407.17140.

[本文引用: 4]

CUI Z, LI K, GU L, et al. You only need 90K parameters to adapt light: a light weight transformer for image enhancement and exposure correction [C]// Proceedings of the British Machine Vision Conference. London: BMVA Press, 2022: 21–24.

[本文引用: 5]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 740–755.

[本文引用: 1]

YANG W, YUAN Y, REN W, et al

Advancing image understanding in poor visibility environments: a collective benchmark study

[J]. IEEE Transactions on Image Processing, 2020, 29: 5737- 5752

DOI:10.1109/TIP.2020.2981922      [本文引用: 1]

/