<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于多尺度特征相似性匹配的低照度目标检测方法

Fig.1 Low-light target detection method based on multi-scale feature similarity matching

1.1. 细节增强模块

提出的低照度目标检测方法通过对两阶段特征图的相似性匹配来强化目标特征. 如图2所示，其中B、C、H、W分别为图像的批次、通道数、高度和宽度；细节增强模块由细节捕获分支(detail capture branch, DCB)和对比度强化分支(contrast enhancement branch, CEB)组成. 受Inception结构^[26]的启发，设计的DCB由核大小为3、5、9的平均池化（average pooling, AP）函数和最大池化（maximum pooling, MP）函数组成，其中不同大小的池化核用于多尺度地捕捉局部信息. 核大小为3和5的池化操作用于捕捉较小的局部纹理细节和边缘信息，而核大小为9的池化操作能够捕捉更大范围的全局信息，如目标整体轮廓和背景信息. 大小为9的池化核的感受野显著更大，能够提供更多互补的特征信息，使特征表达更丰富. 平均池化用于捕捉特征的整体趋势，在保留背景信息的同时去除了冗余信息；最大池化用于突出边缘、纹理和其他重要的细节信息. 对核大小相同的最大池化和平均池化的输出结果进行矩阵相加操作以整合特征信息，使模型的特征表达更完整. 然后，在生成的每个尺度的特征图末尾使用上采样操作，使其恢复到统一尺寸. 最后，通过拼接3种具有丰富低频信息的特征图，再由$ \operatorname{Conv}_{1,1}(\cdot) $调整通道数，得到细节捕获分支的输出$ {\boldsymbol{x}_{{\rm{DCB}}}} \in {{\bf{R}}^{C \times H \times W}} $. 对于输入图像$ {\boldsymbol{x}}_{0}\in {\mathbf{R}}^{C\times H\times W} $，DCB的处理过程表示为

图 2

图 2 细节增强模块结构

Fig.2 Structure of detail enhancement module

(1)$ \left.\begin{array}{l}{\boldsymbol{y}}_{k}={\mathrm{Up}}\left({\mathrm{A}\mathrm{v}\mathrm{g}}_{k}\left({\boldsymbol{x}}_{0}\right)+{\mathrm{M}\mathrm{a}\mathrm{x}}_{k}\left({\boldsymbol{x}}_{0}\right)\right),\\ {\boldsymbol{x}}_{\mathrm{D}\mathrm{C}\mathrm{B}}={\gamma \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[{\boldsymbol{y}}_{3},{\boldsymbol{y}}_{5},{\boldsymbol{y}}_{9}\right]\right).\end{array} \right\} $

式中: $ {\boldsymbol{y}}_{k} $为池化核为k（$ k=\mathrm{3、5}、9 $）的分支的输出特征，$ \gamma $为Sigmoid激活函数，$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\cdot \right) $表示卷积核为1、步距为1的卷积操作，$ {\mathrm{A}\mathrm{v}\mathrm{g}}_{k}\left(\cdot \right)\mathrm{、}{\mathrm{M}\mathrm{a}\mathrm{x}}_{k}\left(\cdot \right) $为池化核为$ k $的平均池化函数和最大池化函数，$ \mathrm{U}\mathrm{p}\left(\cdot \right) $为上采样操作，$ \left[\cdot \right] $为通道拼接操作.

对比度强化分支(CEB)旨在强化目标特征信息，提升目标和背景之间的对比度，从而减少背景信息带来的影响. CEB由通道注意力分支和空间注意力分支构成，其中通道注意力分支自适应地选择对当前任务最有用的通道信息，空间注意力分支自适应地关注图像中目标的空间位置信息，以突出关键区域特征；将二者结合，从而更全面地捕获特征. 通道注意力分支由自适应平均池化函数、卷积函数和激活函数构成. 输入图像经过通道注意力分支后，输出特征$ {\boldsymbol{x}}_{\mathrm{c}}\in {\mathbf{R}}^{C\times 1\times 1} $，并得到各输出通道的注意力权重，该权重反映了每个通道信息的重要程度. 空间注意力分支由自适应平均池化函数和自适应最大池化函数并行构成. 输入图像经过空间注意力分支后输出特征$ {\boldsymbol{x}}_{\mathrm{s}}\in {\mathbf{R}}^{1\times H\times W} $；该分支根据每个通道内特征的平均性和显著性，有效捕捉和强化不同空间域的信息，以实现对空间信息的精细关注. 同时，为了进一步捕获长距离依赖关系以获取上下文信息，并增强目标与黑暗背景间的对比度，使用跳跃连接和逐像素相乘操作，得到CEB的输出$ {\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}\in {\mathbf{R}}^{C\times H\times W} $. CEB的处理过程表示为

(2)$ \left.\begin{array}{l}{\boldsymbol{x}}_{\mathrm{s}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[\mathrm{A}\mathrm{A}\mathrm{P}\left({\boldsymbol{x}}_{0}\right),\mathrm{A}\mathrm{M}\mathrm{P}\left({\boldsymbol{x}}_{0}\right)\right]\right),\\{\boldsymbol{x}}_{\mathrm{c}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\sigma \left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\mathrm{A}{\mathrm{A}\mathrm{P}}_{1}\left({\boldsymbol{x}}_{0}\right)\right)\right)\right),\\{\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}=\gamma \left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left({\boldsymbol{x}}_{\mathrm{c}} \odot {\boldsymbol{x}}_{0}+{\boldsymbol{x}}_{\mathrm{s}} \odot {\boldsymbol{x}}_{0}\right)\right){\cdot \boldsymbol{x}}_{0}.\end{array} \right\} $

式中：$ \mathrm{A}\mathrm{A}\mathrm{P}\left(\cdot \right) $和$ \mathrm{A}\mathrm{M}\mathrm{P}\left(\cdot \right) $分别为自适应平均池化和自适应最大池化函数，用于将图像尺寸调整为H×W；$ \sigma $为ReLU激活函数；☉为逐像素相乘操作；$ \mathrm{A}{\mathrm{A}\mathrm{P}}_{1}\left(\cdot \right) $表示将图像调整为1×1尺寸的自适应平均池化函数.

输入图像通过细节增强模块的整体过程表示为

(3)$ {\boldsymbol{x}}_{\mathrm{e}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\left[{\boldsymbol{x}}_{\mathrm{D}\mathrm{C}\mathrm{B}},{\boldsymbol{x}}_{\mathrm{C}\mathrm{E}\mathrm{B}}\right]\right). $

输入图像经过DEM得到的增强特征图$ {\boldsymbol{x}}_{\mathrm{e}}\in {\mathbf{R}}^{C\times H\times W} $具有丰富的细节特征，且目标特征与黑暗背景的对比度明显提升.

1.2. 多尺度特征提取网络

将输入图像$ {\boldsymbol{x}}_{0} $和增强图像$ {\boldsymbol{x}}_{\mathrm{e}} $输入MSFE网络中进行特征提取. 如图3所示，MSFE网络包括特征提取模块、MLFE模块、上采样和通道拼接操作. 其中，特征提取模块由CBS模块与通道拼接操作组成. 为了充分捕获图像的边缘纹理信息以及整体形状语义特征，特征提取模块包含4个阶段，每个阶段的CBS模块由卷积层（Conv）、批归一化层（BN），激活函数（SiLU）组成. 特征提取模块的处理过程表示为

图 3

图 3 多尺度特征提取网络

Fig.3 Multi-scale feature extraction network

(4)$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{i}\left({\boldsymbol{x}}_{0}\right)=\mathrm{S}\mathrm{i}\mathrm{L}\mathrm{U}\left(\mathrm{B}\mathrm{N}\left({\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{3,i}\left({\boldsymbol{x}}_{0}\right)\right)\right); \; i=\mathrm{1,2}. $

式中：$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left(\cdot \right) $中的$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{3,1}}\left(\cdot \right) $卷积核大小为3，步距为1；$ {\mathrm{C}\mathrm{B}\mathrm{S}}_{2}\left(\cdot \right) $中的$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{3,2}}\left(\cdot \right) $卷积核大小为3，步距为2，起到了下采样的作用. 为了缓解网络深层下采样过程中的梯度问题并减少由下采样产生的信息丢失，使用残差连接. 特征提取模块中每个阶段的输出特征图$ {\boldsymbol{x}}_{j} $可以表示为

(5)$ {\boldsymbol{x}}_{j}={\mathrm{C}\mathrm{B}\mathrm{S}}_{2}\left(\left[{\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\boldsymbol{x}}_{j-1}\right)\right),{\mathrm{C}\mathrm{B}\mathrm{S}}_{1}\left({\boldsymbol{x}}_{j-1}\right)\right]\right). $

式中：$ j\in \left\{\mathrm{1,2},\mathrm{3,4}\right\} $表示不同的阶段，$ \;\;{\boldsymbol{x}}_{1}\in {\mathbf{R}}^{32\times \left(H/2\right)\times \left(W/2\right)} $, $ {\boldsymbol{x}}_{2}\in {\mathbf{R}}^{64\times \left(H/4\right)\times \left(W/4\right)} $, $ {\boldsymbol{x}}_{3}\in {\mathbf{R}}^{128\times \left(H/8\right)\times \left(W/8\right)}, $$ {\boldsymbol{x}}_{4}\in {\mathbf{R}}^{256\times \left(H/16\right)\times \left(W/16\right)}. $ 当提取到第4个阶段时，对特征图进行上采样，将其恢复到原图大小.

由于输入图像质量较差、照度不均，且目标的细节纹理、边缘轮廓等信息难以被充分提取，受文献[27]的启发，提出多尺度低级特征提取(MLFE)模块，通过多级卷积、多尺度特征融合和层次化特征提取，增强低级特征的表达能力. 其中，不同大小的卷积核用于捕捉局部细节，结合浅层特征提取和矩阵相加操作，能够强化边缘和纹理信息. 多尺度特征融合确保低级特征在深层网络中被保留并被有效利用，以解决低照度场景下目标细节丢失的问题；浅层特征提取保留了更多原图细节，为后续处理提供了丰富信息. 将MLFE模块应用于特征提取模块的前3个阶段，多尺度地提取特征图的低级细节信息. 然后，将MLFE模块的输出特征图与上采样后尺寸相同的特征图进行拼接，以补偿丢失的细节信息. 由于前3层特征图的感受野依次减小，MLFE模块应用3种尺度的卷积核(3、5、7)，以实现多尺度特征提取. $ {\boldsymbol{x}}_{j} $通过MLFE模块后输出特征图$ {\boldsymbol{z}}_{j} $的过程表示为

(6)$ {\boldsymbol{z}}_{j}=\mathrm{M}\mathrm{L}\mathrm{F}\mathrm{E}\left({\boldsymbol{x}}_{j}\right); \; j=1, 2, 3. $

式中：MLFE$ \left(\cdot \right) $表示MLFE模块对特征的处理，$ {\boldsymbol{z}}_{1}、 {\boldsymbol{z}}_{2}、{\boldsymbol{z}}_{3} $分别为MLFE模块应用卷积核(7, 5)、(7, 3)、(5, 3)后输出的特征图. 生成的$ {\boldsymbol{z}}_{1}、{\boldsymbol{z}}_{2}、{\boldsymbol{z}}_{3} $通过卷积核大小为1、步距为1的二维卷积$ {S}\left(\cdot \right) $调整至对应通道数，保证输出通道数与输入通道数一致，最终将其和上采样阶段的特征图拼接. MSFE模块的整体流程表示为

(7)$ {\boldsymbol{x}}_{0}^{\prime}=\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left(\left[\mathrm{U}\mathrm{p}\left({\boldsymbol{x}}_{4}\right),{\boldsymbol{z}}_{3}\right]\right),{\boldsymbol{z}}_{2}\right]\right),{\boldsymbol{z}}_{1}\right]\right). $

式中：$ {\boldsymbol{x}}_{0}^{\prime} $为原图$ {\boldsymbol{x}}_{0} $经过MSFE模块后的输出特征图. 同理，$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $为增强特征图$ {\boldsymbol{x}}_{\mathrm{e}} $经过MSFE模块后的输出特征图. 特征图$ {\boldsymbol{x}}_{0}^{\prime}\in {\mathbf{R}}^{C\times H\times W}、{\boldsymbol{x}}_{\mathrm{e}}^{\prime}\in {\mathbf{R}}^{C\times H\times W} $具有丰富的低级语义信息，用于下一阶段的特征匹配.

1.3. 多尺度特征相似性匹配网络

输入图像$ {\boldsymbol{x}}_{0} $和增强图像$ {\boldsymbol{x}}_{\mathrm{e}} $经过MSFE模块的处理后，生成了具有丰富的全局高、低阶信息的特征图$ {\boldsymbol{x}}_{0}^{\prime} $和聚焦目标重要细节的特征图$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime}. $ 对$ {\boldsymbol{x}}_{0}^{\prime} $和$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $进行特征相似性匹配，目的是对原特征图中目标的关键信息进行重要性加权，从而获得具有更全面、丰富的信息流的图像，使得网络在训练时可以学习到图像的全面特征，同时也对目标的重要特征信息赋予更高的权重，以实现更好的特征表达. 首先，对$ {\boldsymbol{x}}_{0}^{\prime} $和$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $进行特征图分割，旨在精确捕获图像的局部细节特征，以避免全局特征不匹配带来的干扰. 将图像分割为3种尺寸的块：2×2、4×4和8×8，每个块都包含具有不同位置信息的子特征图. 如图4所示，分割过程表示为

图 4

图 4 多尺度特征相似性匹配网络

Fig.4 Multi-scale feature similarity matching network

(8)$ {\boldsymbol{x}}_{0,s}^{\prime}=\mathrm{s}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left({\boldsymbol{x}}_{0}^{\prime},{\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}}_{s}\right);\; s=2, 4, 8. $

式中：当$ s=2、4、8 $时，$ \mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}_s $分别为原图尺寸的$ 1/2、1/4、1/8 $；$ \mathrm{s}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left(\cdot \right) $为图像分割函数. 同理，将$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $分割成与$ {\boldsymbol{x}}_{0,s}^{\prime} $尺寸相同的子特征图$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $. 二者包含的子特征图可以表示为$ {\boldsymbol{x}}_{0,s}^{\prime}=\left\{{\boldsymbol{x}}_{0,s}^{\prime}\left(1\right), \right. \left.{\boldsymbol{x}}_{0,s}^{\prime}\left(2\right),\cdots ,{\boldsymbol{x}}_{0,s}^{\prime} \left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(H/s\right)\times \left(W/s\right)} $和$ \;\;\;\;{\boldsymbol{x}}_{\mathrm{e},s}^{\prime}=\left\{{\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left(1\right), \right. \left. {\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left(2\right),\cdots , {\boldsymbol{x}}_{\mathrm{e},s}^{\prime}\left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(H/s\right)\times \left(W/s\right)} $；当$ s=2 $时$ {P}_{2}=4 $，当$ s=4 $时$ {P}_{4}=16 $，当$ s=8 $时$ {P}_{8}=64 $. 将特征图$ {\boldsymbol{x}}_{0}^{\prime} $和$ {\boldsymbol{x}}_{\mathrm{e}}^{\prime} $分割为子特征图$ {\boldsymbol{x}}_{0,s}^{\prime}、{\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $之后，对与$ {\boldsymbol{x}}_{0,s}^{\prime}、{\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $中位置相同的子特征图进行余弦相似度计算，即通过计算2个向量夹角的余弦值来衡量相似度. 对于每个子特征图，通过$ \mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left(\cdot \right) $函数将张量转换为向量，作为余弦相似度函数计算时的输入. 子特征图转换为向量的过程可以表示为

(9)$ {\boldsymbol{v}}_{0,s}^{\prime}=\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left({\boldsymbol{x}}_{0,s}^{\prime}\right). $

式中：$ \mathrm{R}\mathrm{e}\mathrm{s}\mathrm{h}\mathrm{a}\mathrm{p}\mathrm{e}\left(\cdot \right) $为张量重塑函数. $ {\boldsymbol{v}}_{0,s}^{\prime} $和$ {\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $包含的特征向量可以表示为$ {\boldsymbol{v}}_{0,s}^{\prime}=\left\{{\boldsymbol{v}}_{0,s}^{\prime}\left(1\right),{\boldsymbol{v}}_{0,s}^{\prime}\left(2\right),\cdots , {\boldsymbol{v}}_{0,s}^{\prime} \left({P}_{s}\right)\right\} \in {\mathbf{R}}^{C\times \left(N/{s}^{2}\right)} $和$\;\;\;\;{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}=\left\{{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(1\right),{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(2\right),\cdots , {\boldsymbol{v}}_{\mathrm{e},s}^{\prime} \left({P}_{s}\right)\right\}\in {\mathbf{R}}^{C\times \left(N/{s}^{2}\right)} $，其中，$ N=H\times W $为张量长度，表示维度从$ C\times H\times W $ 转换为$ C\times N $. 得到2幅子特征图的向量$ {\boldsymbol{v}}_{0,s}^{\prime}、{\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $以后，分别对$ {\boldsymbol{v}}_{0,s}^{\prime}、{\boldsymbol{v}}_{\mathrm{e},s}^{\prime} $中位置相同的特征向量进行余弦相似度计算. 计算过程为

(10)$ {\bf{coslist}}_{s}\left(p\right)=\mathrm{c}\mathrm{o}\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}\left({\boldsymbol{v}}_{0,s}^{\prime}\left(p\right),{\boldsymbol{v}}_{\mathrm{e},s}^{\prime}\left(p\right)\right). $

式中：$ p=\left\{\mathrm{1,2},\cdots ,{P}_{s}\right\} $为子特征图的索引，$ {\bf{coslist}}_{s}\left(p\right) $为计算相似度后的余弦值列表，$ \mathrm{c}\mathrm{o}\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}(\cdot ) $为余弦相似度计算函数. 根据式(10)，可以计算出$ {\boldsymbol{x}}_{0,s}^{\prime} $和$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $子特征图的余弦相似度，其值分布在$ \left(-1, 1\right) $内. 得到的余弦值越大，说明2个特征向量方向夹角越小，二者越相似；反之，余弦值越小，2个向量的夹角越大，特征越相异. 通过$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}$函数对得到的余弦值列表${\bf{coslist}}_{s}\left(p\right) $进行归一化处理，使其值分布在$ \left(0, 1.0\right) $内；列表内的余弦值加和为1，数值越大则相似性越高. 用1减去余弦值列表，将得到的权值和子特征图$ {\boldsymbol{x}}_{0,s}^{\prime}\left(p\right) $逐像素相乘，从而起到重要性加权的作用. 加权过程表示为

(11)$ {\boldsymbol{w}}_{0,s}\left(p\right)=\left({\bf{1}}-\varphi \left({\bf{coslist}}_{s}\left(p\right)\right)\right){\boldsymbol{x}}_{0,s}^{\prime}\left(p\right). $

式中：$ {\boldsymbol{w}}_{0,s}\left(p\right)\in {\mathbf{R}}^{C\times H\times W} $为融合后s尺寸的加权特征图；$ \varphi \left(\cdot \right)$为$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数，表示对计算得到的余弦值列表进行归一化操作. 得到的$ {\boldsymbol{w}}_{0,s}\left(p\right) $是对目标重要信息加权后的特征图，具有丰富的信息流，更有益于图像特征的整体表达. 而$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $是经过细节增强模块和多尺度特征提取网络处理的细节增强特征图，其在目标细节部分的信息相对丰富，而对目标细节以外的整体特征的表达不完全. 因此，对2个阶段的特征图进行融合操作，增强输出图像对整体特征的表达能力. 将加权特征图$ {\boldsymbol{w}}_{0,s} $和分割后的增强特征图$ {\boldsymbol{x}}_{\mathrm{e},s}^{\prime} $中对应位置的子特征图矩阵相加，生成3组子特征图$ {\boldsymbol{x}}_{\mathrm{f},s}(s=\mathrm{2,4},8) $，再将3组子特征图$ {\boldsymbol{x}}_{\mathrm{f},s} $各自拼接为整体，得到3组$ {\boldsymbol{x}}_{\mathrm{t},s} $，最后进行通道拼接. 融合操作和子特征图的拼接过程表示为

(12)$ \left.\begin{array}{c}{\boldsymbol{x}}_{\mathrm{f},s}={\boldsymbol{w}}_{0,s}+{\boldsymbol{x}}_{\mathrm{e},s}^{\prime},\\ {\boldsymbol{x}}_{\mathrm{t},s}= \mathrm{concat}\left({{\boldsymbol{x}}_{{{\mathrm{f}}},2}},\; {{\boldsymbol{x}}_{{{\mathrm{f}}},4}}, \;{{\boldsymbol{x}}_{{{\mathrm{f}}},8}}\right).\end{array} \right\} $

式中：$ \mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}(\cdot ) $为子特征图拼接函数，$ {\boldsymbol{x}}_{\mathrm{f},s}\in {\mathbf{R}}^{C\times H\times W} $为$ s $尺寸的子特征图融合后的特征图，$ {\boldsymbol{x}}_{\mathrm{t},s}\in {\mathbf{R}}^{C\times H\times W} $为$ s $尺寸的子特征图拼接后生成的3组输出特征图. 对$ {\boldsymbol{x}}_{\mathrm{t},s} $进行通道拼接和像素值归一化处理后，得到最终的输出特征图$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}} $：

(13)$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}}={\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{\mathrm{1,1}}\left(\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}\mathrm{i}\mathrm{z}\mathrm{e}\mathrm{d}\left(\left[{\boldsymbol{x}}_{\mathrm{t},2},\;{\boldsymbol{x}}_{\mathrm{t},4},\;{\boldsymbol{x}}_{\mathrm{t},8}\right]\right)\right). $

式中：$ \mathrm{n}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{a}\mathrm{l}\mathrm{i}\mathrm{z}\mathrm{e}\mathrm{d}\left(\cdot \right) $表示像素值归一化处理. 将像素值从(0, 255)映射到(0, 1.0)，使输入数据符合模型训练分布，从而提高模型训练和计算的稳定性.

综上所述，生成的$ {\boldsymbol{x}}_{\mathrm{o}\mathrm{u}\mathrm{t}}\in {\mathbf{R}}^{C\times H\times W} $具有更丰富的细节信息和全局信息，使特征表达更完整；同时，特征相似性匹配使得后续的目标检测器在训练时更加关注目标信息，从而显著提升了模型对有用信息的关注度.

2. 实　验

2.1. 数据集及评估指标

为了验证所提方法的有效性，使其能够应用于实际道路场景下的目标检测，使用公开的低照度目标检测数据集ExDark^[28]和自建数据集进行评估. ExDark数据集包含从弱光到黄昏条件的低照度图像，图像中因光照不足导致目标细节丢失且对比度较低. 该数据集共有7 356张图像，涵盖12类目标，包括自行车652张、船679张、瓶子547张、公交车527张、汽车636张、猫735张、椅子648张、杯子519张、狗801张、摩托车501张、行人606张和桌子505张.

自建数据集源自2个自动驾驶数据集，通过抽取样本构建而成. 一是BDD100K数据集^[29]，包含总时长超过10⁵ h的高清视频，涵盖各种天气、道路类型和交通情况，并提供了10万张目标边界框图像. 从中抽取1万张背景光照条件为昏暗至黑暗的图像，选取汽车、公交车、自行车、摩托车、行人、货车6类目标. 二是多目标检测与跟踪基准数据集UA-DETRAC^[30]，包含训练集83 791张和测试集56 340张图像. 从中抽取1 000张夜间图像，包含汽车、公交车、货车3类目标；将这些图像与BDD100K的1万张图像组合，按8∶1∶1的比例划分为训练集、验证集和测试集. 选择平均精度(AP)来评估模型性能，并对低照度数据集中的所有种类的平均精度加和求平均，作为最终的平均精度均值(mAP)；使用每秒帧数(FPS)指标来衡量检测时间成本；分别使用每秒浮点运算次数(FLOPs)和参数量(N_p)来衡量计算复杂度和模型大小.

2.2. 实验设置

基于Linux操作系统进行实验，采用Python 3.9编程语言、PyTorch 1.11.0深度学习框架和CUDA11.3计算平台，硬件设备为NVIDIA GeForce RTX 2080 Ti显卡. 将数据集统一调整为640×640分辨率大小，批大小设置为8. 使用SGD优化器，初始学习率为0.01，最终学习率为10⁻⁴，动量设置为0.937，权重衰减设置为5×10⁻⁴. 对输入图像采用数据增强方法，包括随机旋转±45°和缩放±35%. 在ExDark和自建数据集上训练时，共迭代50个周期.

2.3. 对比实验

在真实低照度数据集ExDark和自建数据集上，对提出的低照度目标检测算法与该领域中的经典算法、最新优化算法进行对比实验. 其中双阶段目标检测网络的代表包括Faster R-CNN、Mask R-CNN，单阶段目标检测网络包括RetinaNet、YOLOv10^[31]、YOLOv11^[32]、YOLOv12^[33]；基于Transformer的目标检测算法有RT-DETR；在最新优化算法中，选择DENet、PE-YOLO、IAT^[34]以及WSA-YOLO. 对于上述所有算法，首先在ExDark数据集上进行对比试验，采用mAP指标衡量模型精度，并采用FPS检测和衡量时间成本，实验结果如表1所示. 所提算法结合了YOLOv12目标检测器，取得了最高mAP值83.4％. 其次，在更有挑战性的自建数据集上，选取表1中目标检测性能较好的单阶段、双阶段算法以及YOLO系列和最新优化算法进行测试，如表2所示. 由于自建数据集中目标形状相对复杂，部分目标存在遮挡、模糊等情况，精度有所下降，但是所提算法依然取得了最高精度80.4％，从而验证了其有效性. 性能提升的原因包括：1）所提方法中的细节增强模块捕捉图像中物体的细节，增强了目标与黑暗背景间的对比度；2）多尺度特征提取网络依据图像感受野大小的不同，采用不同尺度的卷积核进行特征提取，并实现了多尺度特征融合；3）多尺度特征相似性匹配网络通过对比原特征图和增强特征图的相似性来对图像中的关键目标进行重要性加权. 因此，所提方法的性能比对比算法有所提升. 但是相应地，此方法的复杂度相对较高，模型的检测速度有所减慢；其FPS在ExDark数据集上为85.0帧/s，在自建数据集上为77.6帧/s. 相比于实时性最好的优化算法DENet，FPS下降了6.0~9.1帧/s；相较于精度次优的算法WSA-YOLO，FPS下降了0.8~2.2帧/s. 虽然检测速度有所下降，但是仍然满足实时性要求.

表 1 所提方法与经典算法、最新优化算法在ExDark数据集上的检测精度与速度对比

Tab.1 Comparison of detection accuracy and speed of proposed method, classical algorithms and latest optimized algorithms on ExDark dataset

方法	AP/%												mAP/%	FPS/ (帧·s⁻¹)
方法	自行车	船	瓶子	公交车	汽车	猫	椅子	杯子	狗	摩托车	行人	桌子	mAP/%	FPS/ (帧·s⁻¹)
Faster R-CNN^[8]	83.0	72.3	74.6	85.0	82.6	78.6	77.2	81.6	81.0	82.7	81.3	72.0	79.3	71.1
Mask R-CNN^[9]	87.4	74.4	78.1	87.9	83.1	80.2	80.6	81.0	78.3	76.6	83.2	70.6	80.2	68.5
RetinaNet^[10]	84.5	73.2	72.7	86.5	80.8	76.8	76.8	75.9	73.4	78.3	76.6	67.1	76.9	74.6
YOLOv10^[31]	85.2	76.4	82.7	87.4	80.9	75.9	75.3	79.2	82.5	82.3	80.6	74.6	79.8	93.7
YOLOv11^[32]	87.6	76.9	82.4	87.5	81.2	76.3	77.0	80.9	81.9	79.6	81.0	74.4	80.5	92.7
YOLOv12^[33]	88.7	76.8	82.0	88.1	81.9	76.0	77.3	81.2	82.4	82.9	81.4	74.7	81.1	91.5
RT-DETR^[7]	85.1	76.6	81.4	87.0	81.2	75.6	81.3	81.8	82.2	82.8	83.7	70.9	80.8	84.0
DENet^[16]	85.6	75.2	77.8	84.4	83.5	77.9	78.7	79.5	80.6	83.5	82.3	74.0	80.3	94.1
IAT^[34]	86.5	75.6	77.4	88.7	83.2	79.6	81.1	80.5	77.6	83.1	80.3	76.4	80.9	88.8
PE-YOLO^[18]	88.7	75.4	79.8	90.6	83.9	77.8	82.5	82.4	78.7	82.5	80.8	73.4	81.4	91.2
WSA-YOLO^[17]	88.0	78.8	81.3	92.6	84.6	78.5	80.3	80.9	80.7	84.3	81.9	77.1	82.4	87.2
本研究方法	89.3	81.5	82.6	94.2	86.1	77.6	79.6	82.0	82.9	84.5	83.1	74.2	83.4	85.0

表 2 所提方法与最新优化算法在自建数据集上的检测精度与速度对比

Tab.2 Comparison of detection accuracy and speed of proposed method and latest optimized algorithms on self-built dataset

方法	AP/%						mAP/%	FPS/ (帧·s⁻¹)
方法	自行车	公交车	汽车	货车	摩托车	行人	mAP/%	FPS/ (帧·s⁻¹)
RetinaNet^[10]	76.1	77.6	66.5	64.2	68.8	68.2	70.2	66.0
YOLOv10^[31]	76.6	79.2	69.1	68.9	73.7	72.9	73.4	82.6
YOLOv11^[32]	77.3	81.4	69.7	69.3	73.6	73.0	74.0	81.5
YOLOv12^[33]	79.0	83.1	76.3	75.7	72.0	77.4	77.1	80.3
RT-DETR^[7]	78.9	80.3	71.9	72.6	71.2	69.9	74.1	76.2
DENet^[16]	78.7	80.7	74.9	74.3	72.7	74.8	76.0	83.6
IAT^[34]	81.2	82.6	77.8	76.6	73.9	74.9	77.8	79.4
PE-YOLO^[18]	80.7	82.4	77.9	79.2	76.4	79.5	79.3	79.9
WSA-YOLO^[17]	81.6	83.4	79.2	79.3	76.5	78.9	79.8	78.4
本研究方法	82.3	84.0	79.4	77.9	78.6	80.2	80.4	77.6

为了验证所提网络的泛化能力，开展交叉数据集验证实验. 除了真实低照度数据集ExDark和自建夜间数据集外，采用常规目标检测数据集COCO^[35]和低照度检测数据集DarkFace^[36]进行对比实验. 选用经典单阶段目标检测网络YOLOv11、YOLOv12、基于Transformer的实时检测网络RT-DETR及最新优化算法作为对比算法，结果如表3所示. 所提网络在2个低照度数据集上均取得了良好的检测精度，略高于对比算法. 然而，在COCO数据集上精度提升幅度较小，仅在YOLOv12的基础上提升了1.9个百分点，而在DarkFace数据集上提升了2.8个百分点. 原因在于设计的细节增强模块和多尺度特征提取网络主要优化了夜间低对比度图像，对正常照度的白天图像提升效果有限. 这些结果验证了算法在低照度目标检测上的泛化能力.

表 3 不同算法在COCO和DarkFace数据集上的检测精度对比

Tab.3 Detection accuracy comparison of different algorithms on COCO and DarkFace datasets

方法	COCO数据集		DarkFace数据集
方法	mAP/%	FPS/(帧·s⁻¹)	mAP/%	FPS/(帧·s⁻¹)
YOLOv11^[32]	54.0	102.6	69.8	79.6
YOLOv12^[33]	54.4	99.0	71.2	89.3
RT-DETR^[7]	54.7	90.8	70.7	75.2
IAT^[34]	54.9	94.8	70.8	86.3
PE-YOLO^[18]	55.8	98.1	71.8	78.2
WSA-YOLO^[17]	56.1	96.7	72.4	76.6
本研究方法	56.3	94.1	74.0	75.9

2.4. 消融实验

为了验证各模块的作用，进行消融实验，结果如表4所示. 首先，将输入图像经过DEM处理后与原图像拼接，并调整通道数，将其输入检测器. 结果显示，加入DEM后模型精度提升了0.8个百分点，证明DEM增强了目标细节特征. 其次，将DEM增强后的图像与原图同时输入MSFE网络，对网络输出的特征图进行拼接并调整通道数后输入检测器. 结果显示，加入MSFE网络后，检测精度在DEM的基础上提升了0.3个百分点，表明MSFE网络有效提取了更多的低级特征. 最后，加入MFSM网络，通过相似度计算对目标特征进行重要性加权和融合处理，将融合后的特征输入检测器. 结果显示，加入MFSM网络后精度进一步提升了1.2个百分点，验证了特征相似性匹配和关键信息加权显著提高了低照度目标检测的准确性. 实验表明，DEM和MSFE、MFSM网络均对模型性能产生了积极作用，但是同时增加了模型大小和复杂度.

表 4 不同改进措施对网络性能的影响

Tab.4 Impact of different improvement measures on network performance

DEM	MSFE	MFSM	mAP/%	FLOPs/G	N_p/M
×	×	×	81.1	21.6	9.3
√	×	×	81.9	38.7	15.1
√	√	×	82.2	76.9	28.3
√	√	√	83.4	121.5	34.5

为了验证不同尺度特征的相似性匹配对模型整体性能的影响，将相似性匹配分为3种尺度，分别为2、4、8；将3种尺度两两组合后分别应用于网络，消融实验结果如表5所示. 改变相似性匹配的尺度使精度发生了相应的变化. 由表4可知，当不采用MFSM网络、只加入DEM和MSFE时，mAP值为82.2%，FLOPs为76.9 G. 而根据表5，当采用2、4的尺度划分特征图并进行特征相似性匹配时，mAP值为82.5%，提升了0.3个百分点；FLOPs为88.3 G，增加了11.4 G. 当采用2、8的尺度时，mAP值为82.8%，提升了0.6个百分点；FLOPs为103.6 G，增加了26.7 G. 当采用4、8的尺度时，mAP值为82.9%，提升了0.7个百分点；FLOPs为115.9 G，增加了39.0 G. 原因可能是分割后的子特征图尺寸不同，而更小尺寸的子特征图包含的特征信息更细节化，因此在进行相似性匹配时更精确. 综上所述，虽然MFSM网络可以为模型性能带来精度上的提升，但是由于其存在一定量的相似度计算，算法复杂度也会随之增加，需要综合考虑计算资源和精度带来的效益.

表 5 不同尺度对特征相似性匹配网络性能的影响

Tab.5 Impact of different scales on performance of feature similarity matching network

s = 2	s = 4	s = 8	mAP/%	FLOPs/G	FPS/(帧·s⁻¹)
√	√	×	82.5	88.3	91.8
√	×	√	82.8	103.6	90.5
×	√	√	82.9	115.9	89.5
√	√	√	83.1	121.5	89.0

为了进一步验证所提前馈网络的有效性以及泛化性，基于ExDark数据集设计2种实验方案. 在第1种方案中，保持前馈网络不变，结合多个检测器，评估其适配性和性能；在第2种方案中，保持检测器不变，使用多种主流前馈网络对比验证其优势. 实验结果如表6、7所示，所提前馈网络在相同检测器上精度最优，并在不同YOLO检测器中均表现出良好的效果，证明了其在目标检测任务中的优势和泛化能力.

表 6 所提网络在不同检测器上的检测性能

Tab.6 Detection performance of proposed network with different detectors

方法	mAP/%	FPS/(帧·s⁻¹)
所提网络+YOLOv5	76.3	80.7
所提网络+YOLOv8	79.6	82.6
所提网络+YOLOv10	82.1	86.0
所提网络+YOLOv11	82.7	86.2
所提网络+YOLOv12	83.4	85.1

表 7 不同网络在相同检测器上的检测性能

Tab.7 Detection performance of different networks with same detector

方法	mAP/%	FPS/(帧·s⁻¹)
DENet^[16]+YOLOv12	80.7	91.3
IAT^[34]+YOLOv12	81.5	87.5
PE^[18]+YOLOv12	82.6	89.4
WSA^[17]+YOLOv12	83.1	85.6
本研究方法+YOLOv12	83.4	85.1

2.5. 可视化成果展示

为了验证所提DEM和MSFE网络的有效性，根据不同网络模型的权重生成热力图，如图5所示. 原始图像亮度不足，目标细节被阴影淹没，目标与背景之间的对比度较低，难以分辨. DEM通过细节增强，提升了全局亮度，并放大了目标与背景间的差异. MSFE网络进一步增强了对低级特征的提取能力，使特征图包含更丰富的目标信息，关注到了更远、更暗的物体，从而显著提升了图像的特征表达能力.

图 5

图 5 采用DEM和MSFE时模型对低照度场景下目标的关注程度

Fig.5 Attention levels of model to targets in low-light scenarios when using DEM and MSFE

分析如图6所示的热力图，可以进一步验证提出的前馈网络对目标检测精度的影响.由图6可知，所提方法的热力图展现了显著的优势，红色高亮区域集中分布于目标物体所在位置，表明所提方法几乎能够精准聚焦于目标区域，证明了其能够更好地关注目标物体的细节，并有效减少了背景和其他干扰因素的影响. 这得益于所提方法在增强细节和提高对比度的同时，着重于对低级特征的提取和对相似性匹配后目标信息的重要性加权，使得网络在训练时更关注目标区域而非背景特征. 这种设计不仅提升了网络对目标区域的关注度，而且显著提高了目标检测精度.

图 6

图 6 不同算法对低照度场景下目标的关注程度

Fig.6 Attention level of different algorithms to targets in low-light scenarios

图7为所提算法和主流算法在目标检测任务中置信度分布的可视化对比结果. 所提方法在多目标和单目标场景中均体现出良好的检测效果. 在第1、2组中，虽然所有算法检测出了相同数量的类别，但是所提方法的置信度优于其他算法；在第3组图像中，所提方法在检测出更多目标数量的同时，精度依然高于其他算法.

图 7

DOI:10.1016/S0734-189X(87)80186-X [本文引用: 1]

图 7 目标检测任务中不同算法的置信度分布可视化对比

Fig.7 Visual comparison of confidence distributions of different algorithms in target detection tasks

3. 结　语

为了提升黑暗场景下的目标检测精度，提出基于多尺度特征相似性匹配的低照度目标检测方法. 在ExDark和自建数据集上，其mAP值分别达到了83.4%和80.4%. 在COCO和DarkFace数据集上开展泛化性验证，并针对性地进行消融实验，验证了所提方法的有效性. 提出的DEM在捕获局部和全局信息时显著地强化了目标本身的边缘、纹理特征，削弱了背景的影响. MSFE网络在提取特征的同时，有效补偿了低照度图像的低级语义信息在提取过程中的损失. MFSM网络对原特征图和增强特征图进行相似性匹配，对图像中的目标实现了重要性加权，提高了特征图的整体表达能力. 在ExDark和自建数据集上的实验结果表明，相比于经典主流算法和最新优化算法，所提方法具有更高的检测精度，但是在复杂度和运行速度方面仍然有待提升. 未来将进一步开展模型轻量化研究，使其更容易在移动设备上部署.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WANG W, WANG X, YANG W, et al

Unsupervised face detection in the dark

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (1): 1250- 1266

DOI:10.1109/TPAMI.2022.3152562 [本文引用: 1]

[2]

TENG S, HU X, DENG P, et al

Motion planning for autonomous driving: the state of the art and future perspectives

[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8 (6): 3692- 3711

DOI:10.1109/TIV.2023.3274536 [本文引用: 1]

[3]

WANG S, CHEN M

A LiDAR multi-object detection algorithm for autonomous driving

[J]. Applied Sciences, 2023, 13 (23): 12747

DOI:10.3390/app132312747 [本文引用: 1]

[4]

YI A, ANANTRASIRICHAI N

A comprehensive study of object tracking in low-light environments

[J]. Sensors, 2024, 24 (13): 4359

DOI:10.3390/s24134359 [本文引用: 1]

[5]

PIZER S M, AMBURN E P, AUSTIN J D, et al

Adaptive histogram equalization and its variations

[J]. Computer Vision, Graphics, and Image Processing, 1987, 39 (3): 355- 368

[6]

RAHMAN S, RAHMAN M M, ABDULLAH-AL-WADUD M, et al

An adaptive gamma correction for image enhancement

[J]. EURASIP Journal on Image and Video Processing, 2016, (1): 35

[7]

LV W, ZHAO Y, CHANG Q, et al. RT-DETRv2: improved baseline with bag-of-freebies for real-time detection Transformer [EB/OL]. (2024-07-24) [2025-07-16]. https://arxiv.org/abs/2407.17140.

[8]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031 [本文引用: 2]

[9]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980–2988.

[本文引用: 2]

[10]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999–3007.

[本文引用: 3]

[11]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 21–37.

[12]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[13]

江泽涛, 施道权, 雷晓春, 等

一种基于Night-YOLOX的低照度目标检测方法

[J]. 电子学报, 2023, 51 (10): 2821- 2830

DOI:10.12263/DZXB.20221396 [本文引用: 1]

JIANG Zetao, SHI Daoquan, LEI Xiaochun, et al

A low-illumination object detection method based on night-YOLOX

[J]. Acta Electronica Sinica, 2023, 51 (10): 2821- 2830

DOI:10.12263/DZXB.20221396 [本文引用: 1]

[14]

LIU Y, LI S, ZHOU L, et al

Dark-YOLO: a low-light object detection algorithm integrating multiple attention mechanisms

[J]. Applied Sciences, 2025, 15 (9): 5170

DOI:10.3390/app15095170 [本文引用: 1]

[15]

PENG D, DING W, ZHEN T

A novel low light object detection method based on the YOLOv5 fusion feature enhancement

[J]. Scientific Reports, 2024, 14: 4486

DOI:10.1038/s41598-024-54428-8 [本文引用: 1]

[16]

QIN Q, CHANG K, HUANG M, et al. DENet: detection-driven enhancement network for object detection under adverse weather conditions [C]// Proceedings of the Asian Conference on Computer Vision. Macao: Springer, 2023: 491–507.

[17]

HUI Y, WANG J, LI B

WSA-YOLO: weak-supervised and adaptive object detection in the low-light environment for YOLOv7

[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73: 2507012

[本文引用: 5]

[18]

YIN X, YU Z, FEI Z, et al. PE-YOLO: pyramid enhancement network for dark object detection [C]// Proceedings of the 32nd International Conference on Artificial Neural Networks. Heraklion: Springer, 2023: 163–174.

[本文引用: 5]

[19]

江泽涛, 李慧, 雷晓春, 等

一种基于SAM-MSFF网络的低照度目标检测方法

[J]. 电子学报, 2024, 52 (1): 81- 93

DOI:10.12263/DZXB.20220666 [本文引用: 1]

JIANG Zetao, LI Hui, LEI Xiaochun, et al

A low-light object detection method based on SAM-MSFF network

[J]. Acta Electronica Sinica, 2024, 52 (1): 81- 93

DOI:10.12263/DZXB.20220666 [本文引用: 1]

[20]

ZHOU R, LI P, ZHANG M, et al

A low-light image enhancement algorithm incorporating cross-mixed attention and receptive field expansion mechanism

[J]. IEEE Access, 2024, 12: 45773- 45784

DOI:10.1109/ACCESS.2024.3381514 [本文引用: 1]

[21]

ZHOU W, CHEN Z. Deep multi-scale features learning for distorted image quality assessment [C]// Proceedings of the IEEE International Symposium on Circuits and Systems. Daegu: IEEE, 2021: 1–5.

[22]

GUO H, BIN Y, HOU Y, et al. IQMA network: image quality multi-scale assessment network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Nashville: IEEE, 2021: 443–452.

[23]

LIU Y, WANG L, CHENG J, et al

Multiscale feature interactive network for multifocus image fusion

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5019316

[24]

ZHANG Y, GUO W, WU C, et al

FANet: an arbitrary direction remote sensing object detection network based on feature fusion and angle classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5608811

[25]

ZHAO W, KANG Y, CHEN H, et al

Adaptively attentional feature fusion oriented to multiscale object detection in remote sensing images

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 5008111

[26]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 6000–6010.

DOI:10.1016/j.jksuci.2024.102061 [本文引用: 1]

[27]

JIANG J, XIA N, YU X

A feature matching and compensation method based on importance weighting for occluded human pose estimation

[J]. Journal of King Saud University-Computer and Information Sciences, 2024, 36 (5): 102061

[28]

LOH Y P, CHAN C S

Getting to know low-light images with the Exclusively Dark dataset

[J]. Computer Vision and Image Understanding, 2019, 178: 30- 42

DOI:10.1016/j.cviu.2018.10.010 [本文引用: 1]

[29]

YU F, CHEN H, WANG X, et al. BDD100K: a diverse driving dataset for heterogeneous multitask learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2633–2642.

[30]

WEN L, DU D, CAI Z, et al

UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking

[J]. Computer Vision and Image Understanding, 2020, 193: 102907

DOI:10.1016/j.cviu.2020.102907 [本文引用: 1]

[31]

CHEN H, CHEN K, DING G, et al. YOLOv10: real-time end-to-end object detection [C]// Proceedings of the 38th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc, 2024: 107984–108011.

[本文引用: 3]

[32]

KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements [EB/OL]. (2024-10-14) [2025-07-16]. https://arxiv.org/abs/1911.11907.

[33]

TIAN Y, YE Q, DOERMANN D. YOLOv12: attention-centric real-time object detectors [EB/OL]. (2025-02-18) [2025-07-16]. https://arxiv.org/abs/2407.17140.

[34]

CUI Z, LI K, GU L, et al. You only need 90K parameters to adapt light: a light weight transformer for image enhancement and exposure correction [C]// Proceedings of the British Machine Vision Conference. London: BMVA Press, 2022: 21–24.

[本文引用: 5]

[35]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 740–755.