基于动态频域调制的交互式图像去雾网络

doi:10.3785/j.issn.1008-973X.2026.06.009

基于动态频域调制的交互式图像去雾网络

杨燕^,, 宋鑫钰

兰州交通大学电子与信息工程学院，甘肃兰州 730070

Interactive image dehazing network based on dynamic frequency-domain modulation

YANG Yan^,, SONG Xinyu

School of Electronic and Information Engineering, Lanzhou Jiao Tong University, Lanzhou 730070, China

收稿日期: 2025-07-29

基金资助:

国家自然科学基金资助项目（62063014）；甘肃省高等学校产业支撑计划资助项目（2021CYZC-04）；甘肃省优秀研究生“创新之星”项目（2025CXZX-681）.

Received: 2025-07-29

Fund supported:

国家自然科学基金资助项目（62063014）；甘肃省高等学校产业支撑计划资助项目（2021CYZC-04）；甘肃省优秀研究生“创新之星”项目（2025CXZX-681）.

作者简介 About authors

杨燕（1972—），女，教授，博士，从事计算机视觉、数字图像处理研究.orcid.org/0000-0001-5338-0762.E-mail：yangyantd@mail.lzjtu.cn , E-mail：yangyantd@mail.lzjtu.cn

摘要

针对现有图像去雾方法在多样性复杂雾气场景中的不足，提出基于动态频域调制的交互式双分支图像去雾网络. 构建由全局语义建模分支与残差细节建模分支组成的并行编码器，分别捕捉图像的全局语义信息与局部纹理特征，提出自适应交叉融合模块，实现跨分支特征的动态交互，提升特征协同能力. 设计动态频域增强模块，强化模型对高频细节与复杂雾气区域的响应能力. 在解码器中引入边缘辅助监督，与频域增强形成互补约束，引导网络关注图像轮廓，提升细节恢复能力及视觉清晰度. 在RESIDE、NH-HAZE、O-HAZE和I-HAZE数据集上的实验结果表明，所提方法具备更强的结构还原能力与视觉一致性，在I-HAZE数据集上，PSNR和SSIM分别达到24.93 dB和0.812 6，较次优方法分别提升了2.02 dB和0.049 6.

关键词： 图像去雾 ; 双分支结构 ; 特征交互 ; 频域调制 ; 边缘引导

Abstract

An interactive dual-branch image dehazing network based on dynamic frequency-domain modulation was proposed in order to address the limitation of existing image dehazing method in diverse and complex haze scene. A parallel encoder composed of a global semantic modeling branch and a residual detail modeling branch was constructed to capture global semantic information and local texture feature, respectively. An adaptive cross fusion module was introduced to enable dynamic interaction between cross-branch feature and enhance cross-feature collaboration capability. A dynamic frequency-domain enhancement module was designed to strengthen the response of the model to high-frequency detail and complex haze region. An edge-guided auxiliary supervision mechanism was introduced in the decoder, which formed complementary constraint with frequency-domain enhancement to guide the network to focus on the image contour. Then detail restoration and visual clarity were improved. The experimental results on the RESIDE, NH-HAZE, O-HAZE and I-HAZE datasets demonstrate that the proposed method achieves stronger structure restoration capability and better visual consistency. PSNR and SSIM reached 24.93 dB and 0.812 6 on the I-HAZE dataset, respectively, which were improved by 2.02 dB and 0.0496 compared with the second-best method.

Keywords： image dehazing ; dual-branch architecture ; feature interaction ; frequency-domain modulation ; edge guidance

PDF (7783KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

杨燕, 宋鑫钰. 基于动态频域调制的交互式图像去雾网络. 浙江大学学报(工学版)[J], 2026, 60(6): 1221-1230 doi:10.3785/j.issn.1008-973X.2026.06.009

YANG Yan, SONG Xinyu. Interactive image dehazing network based on dynamic frequency-domain modulation. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1221-1230 doi:10.3785/j.issn.1008-973X.2026.06.009

图像成像时，雾和霾引起的大气散射效应会导致成像模糊、对比度下降及颜色失真等问题^[1]. 单幅图像去雾作为计算机视觉中的经典图像处理问题，常用于目标检测^[2]、自动驾驶^[3]和视觉监测^[4]等高级视觉任务的预处理步骤，旨在恢复清晰图像.

早期的图像去雾方法主要依赖先验知识估计透射率和大气光. 这一过程通常需要对大气散射模型^[5]进行反演，例如暗通道先验^[6]、饱和线先验^[7]. 这类方法在简单场景中效果较好，但在天空区域、高亮背景及浓雾条件下易出现边缘模糊和颜色失真的问题.

近年来，深度学习在图像去雾任务中取得了显著进展，研究者开始从数据驱动角度建模图像退化过程. 根据是否依赖物理模型，相关方法可以分为间接去雾和直接去雾2类. 间接去雾方法如DehazeNet^[8]、MSCNN^[9]、AOD-Net^[10]等，通过估计未知参数并结合物理模型恢复图像，但物理假设通常在实际场景中失效，影响复原效果. 直接去雾方法通过学习雾图与清晰图像间的映射关系，避免物理模型干预，包括基于CNN的GridDehazeNet^[11]、SCANet^[12]、FFA-Net^[13]以及基于Transformer的Dehazeformer^[14]等. Transformer或CNN网络存在明显的偏差，前者易忽视高频纹理，后者难以理解长距离语义关系.

近期的研究方向逐渐倾向于采用多机制融合的混合架构. Mou等^[15]提出DGUNet，通过双分支结构解耦特征，增强多尺度建模能力. Fu等^[16]提出DW-GAN，引入知识先验提升泛化性能. Wang等^[17]提出Uformer，通过注意力与卷积融合增强空间适应性. Xu等^[18]提出TCFDN，通过模块化设计集成全局与局部特征. 这些方法多采用静态拼接或加权融合的方式，缺乏动态交互机制，难以充分发挥异构特征之间的协同优势.

针对现有方法难以同时兼顾全局感知与局部细节建模，且在真实浓雾或复杂场景下结构恢复效果较差的问题，本文提出基于动态频域调制的交互式图像去雾网络. 该方法通过端到端结构直接恢复清晰图像，无须显式估计大气光或透射率参数. 构建交互引导的双分支架构，实现全局语义与局部细节协同建模. 提出自适应交叉融合模块，构建双向引导机制，提升分支间特征交互与结构一致性. 设计动态频域增强模块与边缘辅助监督机制，从频率与结构层面提高纹理与轮廓的感知能力. 在多个公开数据集上的实验结果表明，所提方法具有较好的去雾性能且优于现有的主流去雾方法.

1. 网络结构

基于动态频域调制的交互式图像去雾网络结构如图1所示. 网络整体采用编码器-解码器架构，其中编码器部分由全局语义建模分支与残差细节建模分支组成，分别侧重于全局信息建模与局部细节提取. 为了提升特征表达的一致性与补偿能力，在两分支之间设计自适应交叉融合模块，实现跨分支的特征交互与引导. 在特征增强方面，在编码器中的残差细节建模分支中设计动态频域增强模块. 该模块基于雾气在频域中抑制图像高频成分的特性，通过可学习参数动态调制频率响应，保留关键的高频信息，提升细节纹理的恢复能力. 在解码器阶段，采用残差结构，结合注意力机制对多尺度特征逐步还原，设计边缘引导模块对浅层特征进行边缘引导监督，辅助重建过程中边缘轮廓与局部纹理的恢复，通过一层残差块可得去雾图像.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于动态频域调制的交互式图像去雾网络整体结构

Fig.1 Overall architecture of interactive image dehazing network based on dynamic frequency-domain modulation

1.1. 编码器结构

传统的双分支结构多采用串联或简单融合策略，缺乏细粒度的交互机制，导致全局与局部特征难以高效协同，限制了图像结构的恢复质量. 提出跨分支交互引导的双分支编码结构，由全局语义建模分支和残差细节建模分支组成. 两分支并行接收相同的输入，并在多尺度下同步编码，通过自适应交叉融合模块实现双向信息引导与动态特征融合，提升不同感受野特征的协同建模能力.

全局语义建模分支用于捕获图像长距离依赖和雾气整体分布特征. 该分支以有雾图像为输入，通过4个不同尺度的去雾Transformer模块（Dehazeformer Group）逐级提取特征，并在每个模块前引入下采样扩大感受野. 每个Dehazeformer Group由图像块嵌入层（Patch Embedding）、基本单元（Dehazeformer Block）和图像块合并层（Patch Merging）构成，结构示意图如图1所示. 其中，Patch Embedding将输入图像映射为特征序列；Dehazeformer Block利用多头自注意力机制（multi-head self-attention mechanism, MSA）^[19]，与前馈增强网络（feedforward enhancement network, FFN）实现跨区域语义信息建模；Patch Merging通过下采样构建金字塔式层级结构，提升多尺度建模能力.

残差细节建模分支由4层多尺度特征增强编码块构成，用于重建边缘与纹理的高频细节. 输入图像经过高频补偿模块提取高频信息，并与原始雾图进行拼接形成增强特征，先后经过动态频域增强模块和多尺度特征增强编码块进行编码，通过跨层连接向解码器传递多尺度细节特征，以强化局部结构表达并提升细节恢复能力.

1.1.1. 动态频域增强模块

在有雾图像中，雾气会显著削弱图像的高频信息，导致边缘模糊与纹理丢失. 利用基于频域分析的细节增强方法，可以有效地保留高频信息，强化编码器局部分支的细节特征提取. 设计动态频域增强模块（dynamic frequency domain enhancement module, DFDEM）. 该模块基于傅里叶频谱分析，采用频域选择性增强与相位矫正机制，能够动态保留关键频率信息并恢复结构特征，结构如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 动态频域增强模块

Fig.2 Dynamic frequency domain enhancement module

该模块以输入特征图$ {\boldsymbol{U}}_{\text{in}}\in {\mathbf{R}}^{B\times C\times H\times W} $为起点，在每个通道的空间维度上执行二维快速傅里叶变换，将特征信息从空间域转换到频域，得到复数形式的频谱如下：

(1)$ {\boldsymbol{U}}^{\mathbf{*}}={F}({\boldsymbol{U}}_{\text{in}})=\boldsymbol{A}\cdot {\mathrm{e}}^{\mathrm{j}\boldsymbol{\phi }}. $

式中：$ {\boldsymbol{U}}^{\mathbf{*}}\in {\bf{R}}^{B\times C\times H\times W} $为频域表示，$ \boldsymbol{A}=|{{\boldsymbol{U}}}^{*}| $为频谱幅值，$ \boldsymbol{\phi } $为频谱相位.

在获得频域特征后，利用Top-k MASK构建频率掩码. 具体而言，将每张图片的幅度谱展平，并在每个通道中选取幅值最大的前$ {k}\text{% } $的频率分量，以该集合中的最小幅值作为阈值$ T $. 根据该阈值生成二值频率掩码$ \boldsymbol{M}\in {\{0,1\}}^{B\times C\times H\times W} $，幅值大于或等于$ T $的频率分量的位置标记为1，反之标记为0，实现对重要频率分量的保留. 二值频率掩码的定义如下：

(2)$ {M}(u,v)=\begin{cases} 1,\;A(u,v)\geqslant {T};\\0,\;\text{其他}.\end{cases}$

式中：$ A(u,v) $为特定通道下频谱图中位置$ (u,v) $的幅值. 在构建频域掩码后，将频率掩码$ \boldsymbol{M} $与原始幅度谱逐元素相乘，保留显著的频率响应，降低幅值噪声分量，增强频率选择性.

(3)$ \hat{A}(u,v)=A(u,v)\cdot {M}(u,v). $

直接使用滤波后的频率分量进行逆变换会忽略对应的相位信息，引发重构误差或结构扭曲的问题. 在该模块中引入由多个卷积层构成的相位校正层（PC Layer），以预测相位修正量$ {f}_{\text{phase}}(\boldsymbol{\phi }) $，得到校正后的相位.

(4)$ \hat{\boldsymbol{\phi }}=\boldsymbol{\phi }+{f}_{\text{phase}}(\boldsymbol{\phi }). $

结合幅度谱和校正后的相位谱得到频域，通过逆快速傅里叶变换回到空间域：

(5)$ {\hat{\boldsymbol{U}}}^{\mathbf{*}}=\hat{\boldsymbol{A}}\cdot {\mathrm{e}}^{\mathrm{j}\hat{\boldsymbol{\phi }}}=\hat{\boldsymbol{A}}\cdot \left(\cos \;\hat{\boldsymbol{\phi }}+{\mathrm{j}}\sin\; \hat{\boldsymbol{\phi }}\right). $

(6)$ \hat{\boldsymbol{U}}={{F}}^{-1}({\hat{\boldsymbol{U}}}^{\mathbf{*}}). $

为了提升网络对频域增强效果的自适应能力，提升特征的残差表达能力，在DFDEM模块的末端使用残差结构，引入可学习缩放因子$ \alpha $与偏置项$ \beta $. 输出$ {\boldsymbol{U}}_{\text{out}} $为

(7)$ {\boldsymbol{U}}_{\text{out}}=\alpha \cdot \hat{\boldsymbol{U}}+\beta\cdot {\boldsymbol{1}} +{\boldsymbol{U}}_{\text{in}}. $

式中: $ \alpha 、\beta \in \mathbf{R} $为可学习标量参数. 在训练中，Adam优化器通过反向传播更新$ \alpha $和$ \beta $，实现对频域增强的强度和偏移量的自适应调节.

1.1.2. 多尺度特征增强编码块

多尺度增强编码块的结构如图3所示. 为了增强多尺度上下文感知的能力，将传统ASPP模块^[20]改进为级联式空洞卷积结构（C-ASPP）. 通过不同膨胀率（d = 1、3、6）的空洞卷积逐级提取多尺度语义信息，引入全局平均池化分支获取全局上下文特征，与主干特征融合以扩大感受野. 加入残差块以增强非线性建模能力与特征传递的稳定性，提升网络对不同尺度和深度雾气区域的适应能力.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 多尺度特征增强编码块

Fig.3 Multi-scale feature enhanced encoding block

1.1.3. 自适应交叉融合模块

在双分支去雾网络中，全局语义建模分支侧重捕获上下文语义信息，残差细节建模分支聚焦局部边缘与纹理特征. 由于两分支在语义层级与感受野范围上存在显著的差异，直接叠加或拼接，易导致结构信息丢失与特征冗余. 在去雾任务中，高质量图像恢复依赖全局与局部特征的协同建模与互补融合. 提出自适应交叉融合模块（adaptive cross fusion module, ACFM），通过多头交叉注意力机制和可学习缩放因子，实现在异质特征图之间的自适应引导与动态融合.

自适应交叉融合模块的结构如图4所示. 该模块由归一化层、交叉注意力层与非线性增强层顺序连接组成，用于实现不同分支特征图在相同尺度下的深度融合. 设来自局部分支的特征图为$ {\boldsymbol{X}}_{\text{in}} $，来自全局分支的特征图为$ {\boldsymbol{Y}}_{\text{in}} $，$ B $为批大小，$ C $为特征通道数，$ H、W $为空间分辨率. 采用自定义的LayerNorm模块，对特征进行归一化处理，如下所示：

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 自适应交叉融合模块

Fig.4 Adaptive cross fusion module

(8)$ {\boldsymbol{X}}_{\text{out}}=\gamma \cdot \dfrac{\boldsymbol{X}-\dfrac{1}{C} \displaystyle \sum\limits_{c=1}^{C}{\boldsymbol{X}}_{\text{in,}c}}{\sqrt{\dfrac{1}{C} \displaystyle \sum\limits_{c=1}^{C}{\left({{\boldsymbol{X}}_{\text{in,}c}}-\dfrac{1}{C}{ \displaystyle \sum\limits_{c=1}^{C}}{{\boldsymbol{X}}_{\text{in,}c}}\right)}^{2}+\epsilon }}+\mu \cdot {\boldsymbol{1}}, $

(9)$ {\boldsymbol{Y}}_{\text{out}}=\gamma \cdot \dfrac{\boldsymbol{Y}-\dfrac{1}{C} \displaystyle \sum\limits_{c=1}^{C}{\boldsymbol{Y}}_{\text{in,}c}}{\sqrt{\dfrac{1}{C} \displaystyle\sum\limits_{c=1}^{C}{\left({{\boldsymbol{Y}}_{\text{in,}c}}-\dfrac{1}{C}{ \displaystyle \sum\limits_{c=1}^{C}}{{\boldsymbol{Y}}_{\text{in,}c}}\right)}^{2}+\epsilon }}+\mu\cdot {\boldsymbol{1}} . $

式中：$ \gamma $和$ \mu $为学习参数，$ \epsilon $为数值稳定性项，$ {\boldsymbol{X}}_{\text{in}}、 {\boldsymbol{Y}}_{\text{in}}、{\boldsymbol{X}}_{\text{out}}、{\boldsymbol{Y}}_{\text{out}}\in {\mathbf{R}}^{B\times C\times H\times W} $.

通过交叉注意力层，捕获2个特征图之间的相互关系. 在该模块中，以特征图$ {{\boldsymbol{X}}}_{\text{out}} $为查询(Query)，特征图$ {{\boldsymbol{Y}}}_{\text{out}} $为键(Key)和值(Value)，构建交叉注意力. 映射过程如下所示：

(10)$ \left.\begin{array}{l} \boldsymbol{q}=\text{DWConv}({\text{Conv}}_{1\times 1}({\boldsymbol{X}}_{\text{out}})),\\\boldsymbol{k},\boldsymbol{v}=\text{DWConv}({\text{Conv}}_{1\times 1}({\boldsymbol{Y}}_{\text{out}}))\cdot {\mathrm{split}}(C). \end{array}\right\}$

式中：${\boldsymbol{q}}、{\boldsymbol{k}}、{\boldsymbol{v}} $分别为查询向量、键向量和值向量；$ 1\times 1 $卷积用于调整通道数；$ \text{DWConv} $为深度可分离卷积，用于增强局部感受野；$ {\mathrm{split}}(\cdot ) $操作在通道维度$ C $上划分得到$ \boldsymbol{k}、\boldsymbol{v} $. 利用维度重排操作，对$ \boldsymbol{q} $、$ \boldsymbol{k} $和$ \boldsymbol{v} $的形状进行重排，得到$ \boldsymbol{Q} $、$ \boldsymbol{K} $和$ \boldsymbol{V} $，其中$ h $为注意力头数量，本文中$ h=4 $. 对$ \boldsymbol{Q} $和$ \boldsymbol{K} $进行归一化处理，如下所示：

(11)$ {\boldsymbol{Q}}_{\text{norm}}=\frac{\boldsymbol{Q}}{\parallel \boldsymbol{Q}\parallel },\;{\boldsymbol{K}}_{\text{norm}}=\frac{\boldsymbol{K}}{\parallel \boldsymbol{K}\parallel }. $

注意力分数矩阵通过点积运算获得，对于第$ i $个头，注意力权重矩阵的计算过程如下：

(12)$ {{\mathrm{attn}}}_{i}=\text{softmax}\left({\boldsymbol{Q}}_{\text{norm},i}\cdot \boldsymbol{K}_{\text{norm},i}^{{\mathrm{T}}}\cdot {\tau }_{i}\right). $

式中：$ \boldsymbol{K}_{\text{norm},i}^{{\mathrm{T}}} $为注意力矩阵$ {\boldsymbol{K}}_{\text{norm},i} $的转置；$ {\tau }_{i} $为第$ i $个注意力头对应的可学习缩放参数，调节注意力的聚焦程度. 利用注意力权重矩阵，对$ {{\boldsymbol{V}}}_{i} $在通道维度进行加权求和，输出如下：

(13)$ {\boldsymbol{Z}}_{i}={{\mathrm{attn}}}_{i}\cdot {\boldsymbol{V}}_{i}. $

所有头的输出通过$ \text{Rearrange}(\cdot ) $操作，完成通道合并与二维空间维度恢复. 将其与输入特征图$ {\boldsymbol{X}}_{\text{in}} $作残差连接，得到交叉引导注意力层输出的基础融合特征$ {\boldsymbol{F}}_{\text{attn}} $：

(14)$ {\boldsymbol{F}}_{\text{attn}}={\boldsymbol{X}}_{\text{in}}+\text{Rearrange}\;({{\boldsymbol{Z}}}_{1},\cdots ,{{\boldsymbol{Z}}}_{h}). $

为了进一步提升融合特征的非线性建模能力与通道建模精度，在ACFM模块的尾部引入非线性增强层，对融合后特征进行通道内增强与映射压缩. 输入特征通过$ 3\times 3 $卷积层将通道升维至$ {C}^{\prime}=r C $，其中通道扩展因子r设置为2.66，该值源于Restormer模型的设计经验，能够在增强特征非线性建模能力的同时控制参数量与计算开销^[21]. 使用深度可分离卷积捕捉局部空间信息，采用$ \text{S}\,\text{ilu} $激活函数增强特征非线性建模能力，利用卷积层将特征映射回原通道数，与残差连接结构共同输出最终的融合特征. 整个过程如下：

(15)$ \boldsymbol{F}_{\text{attn}}^{*}=\text{Con}{\text{v}}_{3\times 3}\text{}(\text{S}\,\text{ilu(DWConv}(\text{Conv}{\text{}}_{3\times 3}\text{}(\text{}{\boldsymbol{F}}_{\text{attn}}\text{})\text{})\text{})\text{}), $

(16)$ {\boldsymbol{F}}_{\text{c}}=\boldsymbol{F}_{\text{attn}}^{*}+{\boldsymbol{X}}_{\text{out}}. $

1.2. 解码器结构

为了逐步恢复编码特征并重建清晰图像，设计由4层多尺度通道注意力解码块和边缘引导模块构成的解码器. 其中，解码块结构如图5所示，该块采用多层级结构恢复空间分辨率，每级解码单元均由残差块和通道注意力模块（SE Block）^[12]构成. 边缘引导模块作为辅助监督路径，强化边缘结构的建模能力，解决恢复过程中的结构模糊和细节丢失问题.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 多尺度通道注意力解码块

Fig.5 Multi-scale channel attention decoder block

1.2.1. 多尺度通道注意力解码块

每一级解码块的输入由对应层级编码层的特征与上一解码块的输出融合得到. 特征图$ {\boldsymbol{F}}_{\text{in}} $经过包含2层卷积和ReLU激活的残差卷积块进行特征增强，通过残差连接保留原始信息. 利用转置卷积，在空间维度上实现上采样，如下所示：

(17)$ {\boldsymbol{F}}_{\text{res}}={\text{Conv}}_{3\times 3}(\text{Relu}({\text{Conv}}_{3\times 3}({\boldsymbol{F}}_{\text{in}})))+{\boldsymbol{F}}_{\text{in}}, $

(18)$ {\boldsymbol{F}}_{\text{up}}=\text{ConvTranspose}2\text{d}({\boldsymbol{F}}_{\text{res}})\in {\bf{R}}^{B\times C\times 2H\times 2W}. $

转置卷积的卷积核大小为4，步长为2，padding为1，保证输出尺寸为原始的2倍，且具备可学习参数，提升上采样阶段的结构建模能力.

为了强化语义特征表达能力，在解码块中引入SE Block，通过全局平均池化提取统计信息，并经2层全连接生成通道权重向量$ \boldsymbol{w} $，用于动态调整不同通道的特征响应强度，如下所示：

(19)$ \boldsymbol{w}=\text{Sigmoid}\left({\boldsymbol{W}}_{2}\cdot \text{Relu}({\boldsymbol{W}}_{1}\cdot \text{GAP}({{\boldsymbol{F}}}_{\text{up}}))\right), $

(20)$ {\boldsymbol{F}}_{\text{out}}={\boldsymbol{F}}_{\text{up}}\cdot \boldsymbol{w}. $

式中：$ \text{GAP}(\cdot ) $表示全局平均池化，$ {\boldsymbol{W}}_{1} $和$ {\boldsymbol{W}}_{2} $分别为SE Block中2个全连接层的权重矩阵，$ {\boldsymbol{W}}_{1} $实现通道压缩，$ {\boldsymbol{W}}_{2} $实现通道扩张，$ {\boldsymbol{F}}_{\text{out}} $为各解码块的最终输出. 该结构通过非线性映射生成通道注意力权重$ \boldsymbol{w} $，用于动态调节各通道特征的重要性.

1.2.2. 边缘引导模块

为了提升解码器对边缘细节纹理的恢复能力，设计边缘引导模块（edge guidance module, EGM）作为辅助监督路径，引导网络关注结构信息. 该模块结合中间尺度特征与编码器残差分支跨层传递的高频细节进行边缘约束，并在训练阶段提供边缘感知监督，而不直接参与图像重建，减少结构模糊与细节丢失.

在训练阶段，边缘预测图将与由清晰图像生成的边缘标签进行监督对齐. 具体地，对清晰图像进行灰度转换与高斯去噪，得到降噪图像$ {\boldsymbol{I}}_{\text{blur}} $. 采用Canny算子提取边缘图，得到高质量边缘标签$ \boldsymbol{E}\in {\{0,1\}}^{H\times W} $. 其中，Canny算子通过双阈值策略保留与强边缘连通的弱边缘，在抑制噪声的同时保证边缘连续性，如下所示：

(21)$ {\boldsymbol{E}}_{\text{canny}}=\text{Canny}\;({\boldsymbol{I}}_{\text{blur}};{{T}}_{1},{{T}}_{2}). $

式中：高阈值T₂用于筛选可靠的强边缘，低阈值T₁用于保留与强边缘连通的弱边缘.

EMG模块以解码器倒数第2层的中间尺度特征为输入. 该特征具备更高的空间分辨率，融合多尺度语义信息，保留了丰富的结构响应，有效避免最终高分辨率阶段信息稀疏导致的边缘不连续问题.

1.3. 损失函数

1.3.1. 平滑L₁损失

利用平滑L₁损失$L_{\mathrm{Smooth}} $，能够直观计算去雾图像与清晰图像之间的差距，在避免梯度爆炸的同时对异常值更加鲁棒. $L_{\mathrm{Smooth}} $的数学表达式为

(22)$ L_{\mathrm{Smooth}}=\frac{1}{N}\sum\limits_{i=1}^{N}S({I}_{\text{pred}}^{(i)}-{I}_{\text{gt}}^{(i)}). $

(23)$ S(e)=\begin{cases} 0.5{e}^{2},\;|e| \lt 1;\\|e|-0.5,\;\text{其他}.\end{cases} $

式中：$ N $为图像总像素数量，${I}_{\text{pred}}^{(i)} $和${I}_{\text{gt}}^{(i)} $分别为去雾图像和清晰图像第$ i $个像素点的值.

1.3.2. MS-SSIM损失

多尺度结构相似性损失综合不同尺度下的亮度、对比度与结构信息，通过约束去雾图像与清晰图像的结构一致性，引导网络恢复真实结构. MS-SSIM损失的定义为

(24)$\begin{split} &L_{{\text{MS-SSIM}}}=1-\\&\prod\limits_{m = 1}^M {\left( {\dfrac{{2{\mu _{{\text{pred}}}}{\mu _{{\text{gt}}}} + {C_1}}}{{\mu _{{\text{pred}}}^2 + \mu _{{\text{gt}}}^2 + {C_1}}}} \right)^{{\alpha _{\mathrm{m}}}}}{\left( {\dfrac{{2{\sigma _{{\text{pred}},{\text{gt}}}} + {C_2}}}{{\sigma _{{\text{pred}}}^2 + \sigma _{{\text{gt}}}^2 + {C_2}}}} \right)^{{\beta _{\mathrm{m}}}}}.\end{split}$

式中：$ {\mu }_{\text{pred}}、{\mu }_{\text{gt}} $分别为去雾图像和清晰图像的均值；$ \sigma _{\text{pred}} 、\sigma _{\text{gt}} $分别为两者的标准差；$ {\sigma }_{\text{pred},\text{gt}} $为两者的协方差；$ {\alpha }_{{\mathrm{m}}}、{\beta }_{{\mathrm{m}}} $为两项之间的相对重要性；$ {C}_{1}、{C}_{2} $为常数项，防止分母为0.

1.3.3. 感知损失

感知损失可以保证语义保真度，使用预训练的VGG16网络作为损失网络，计算网络输出与真实数据间的高级语义差异：

(25)$ {L}_{\text{per}}=\sum\limits_{j=1}^{3}\frac{1}{{C}_{j}{H}_{j}{W}_{j}}\left|\left|{\phi }_{j}({\boldsymbol{I}}_{\text{pred}})-{\phi }_{j}({\boldsymbol{I}}_{\text{gt}})\right|\right|_{2}^{2}. $

式中：$ {\phi }_{j}(\cdot ) $为VGG16第$ j $层输出的特征图，$ {C}_{j} $、$ {H}_{j} $和$ {W}_{j} $分别为特征图的通道数、高度和宽度，$ {{\boldsymbol{I}}}_{\text{gt}} $和$ {{\boldsymbol{I}}}_{\text{pred}} $分别为清晰图像和去雾图像.

1.3.4. 边缘监督损失

采用边缘监督损失，旨在提升图像边缘与纹理的还原能力. 在解码器末端设计边缘引导模块，引导网络关注结构轮廓，对预测边缘图与边缘真值图像计算边缘监督损失，并将其作为监督项：

(26)$ {L}_{{{\text{edge}}}}=\frac{1}{N}\sum\limits_{i=1}^{N}S({E}_{\text{pred}}^{(i)}-{E}_{\text{gt}}^{(i)}). $

式中：$ {{E}}_{\text{pred}}^{(i)} $、${E}_{\text{gt}}^{(i)} $分别为输出边缘预测图和Canny算子生成的边缘真值图第i个像素点的值.

1.3.5. 总损失函数

为了提升图像去雾质量，在网络训练阶段设计多项损失函数，综合考虑像素还原、结构相似性、高层语义感知和边缘结构准确性. 总损失函数为

(27)$ {L}_{\text{total}}={L}_{{{\text{Smooth}}}}+{\lambda }_{\text{s}} {L}_{\text{MS-SSIM}}+{\lambda }_{\text{p}} {L}_{\text{per}}+{\lambda }_{\text{e}} {L}_{{{\text{edge}}}}. $

式中：$ {\lambda }_{\text{s}} $、$ {\lambda }_{\text{p}} $和$ {\lambda }_{\text{e}} $均为超参数. 为了保证各损失项在同一数量级下对网络优化的影响，参考图像复原与超分辨率的相关研究^[22-23]，结合去雾任务的结构恢复需求进行调优，将$ {\lambda }_{\text{s}} $、$ {\lambda }_{\text{p}} $和$ {\lambda }_{\text{e}} $分别设定为0.5、0.1和0.2. 其中，$ {\lambda }_{\text{s}} $和$ {\lambda }_{\text{p}} $的取值平衡了像素还原与感知特征保持，$ {\lambda }_{\text{e}} $用于约束边缘结构. 实验表明，该设置能够在保证像素与结构还原的同时兼顾感知质量与边缘细节，取得较平衡的去雾效果.

2. 实验结果与分析

2.1. 实验设置与数据集

基于Pytorch环境，使用RTX 4090 GPU训练网络，利用衰减指数为$ {\beta }_{1}=0.9 $、$ {\beta }_{2}=0.99 $的Adam优化器优化网络. 初始学习率为0.000 1，采用基于验证损失的动态调整策略^[24]，当验证损失在一定轮数内没有显著改善时，学习率将减少为原来的1/2. 在训练前，对图像进行统一预处理，包括随机裁剪至$ 512\times 512 $尺寸，随机水平翻转，90°、180°、270°旋转及归一化操作，将训练迭代次数设置为500轮.

在合成雾霾数据集RESIDE^[25]、真实世界数据集NH-HAZE^[26]、O-HAZE^[27]和I-HAZE^[28]上开展实验. 合成数据使用RESIDE的室外训练集（outdoor training set, OTS）作为训练集，室外测试集（SOTS-outdoor）作为测试集. 其中OTS包含72 135张有雾图像和2 061张清晰图像，SOTS-outdoor包含500对测试图像. 训练阶段从 OTS 中随机选取1 500对图像用于训练，500对用于验证，其余测试集全部用于测试. 真实数据集中NH-HAZE、I-HAZE和O-HAZE分别包含55、30和45对图像，每个数据集选取5对用于验证，5对用于测试，其余用于训练.

2.2. 评价指标

采用峰值信噪比（peak signal-to-noise ratio, PSNR）和结构相似度指数（structural similarity index, SSIM），评价去雾性能. PSNR基于均方误差（mean square error, MSE）计算，用于衡量重建图像与参考清晰图像间的像素差异，数值越大则失真越小，图像质量越高.

(28)$\left. \begin{array}{l} \text{MSE}=\dfrac{1}{HW} \displaystyle \sum\limits_{i=0}^{m-1} \displaystyle \sum\limits_{j=0}^{n-1}{\left| {{I}}_{\text{pred}}\left(i,j\right)-{{I}}_{\text{gt}}\left(i,j\right)\right| }^{2},\\\text{PSNR=10}\text{lg}\left(\dfrac{{\text{255}}^{\text{2}}}{\text{MSE}}\right).\end{array} \right\} $

式中：$ H $和$ W $分别为图像的高度和宽度.

SSIM从亮度、对比度和结构3个方面评价图像相似性，取值为[0, 1.0]，数值越大则结构一致性越好.

(29)$ \text{SSIM}(x,y)=\frac{(2{\mu }_{x}{\mu }_{y}+{C}_{1})(2{\sigma }_{xy}+{C}_{2})}{(\mu _{x}^{2}+\mu _{y}^{2}+{C}_{1})(\sigma _{x}^{2}+\sigma _{y}^{2}+{C}_{2})}. $

式中：$ {\mu }_{x} $和$ {\mu }_{y} $为均值，$ {\sigma }_{x} $和$ {\sigma }_{y} $为方差，$ {\sigma }_{xy} $为协方差.

2.3. 定性分析

为了验证本文方法的有效性，将其与GCA-Net^[29]、Dehazeformer^[14]、C²PNet^[30]、DEA-Net^[31]和DehazeXL^[32]在合成与真实数据集上进行对比，结果如图6~10所示. 为了突出边缘结构、纹理细节和色彩恢复差异，在每组对比结果中均附加局部放大图，以突出细节差异. 所有方法均采用相同的训练策略，以确保公平性. 从可视化结果可见，本文方法在各类复杂退化场景中均展现出更优的去雾能力与图像恢复能力，特别是在浓雾和细节密集区域优势明显.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同方法在SOTS-outdoor数据集上的去雾结果

Fig.6 Defogging result of different method on SOTS-outdoor dataset

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同方法在NH-HAZE数据集上的去雾结果

Fig.7 Defogging result of different method on NH-HAZE dataset

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 不同方法在O-HAZE数据集上的去雾结果

Fig.8 Defogging result of different method on O-HAZE dataset

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 不同方法在I-HAZE数据集上的去雾结果

Fig.9 Defogging result of different method on I-HAZE dataset

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同方法在真实图像上的去雾结果

Fig.10 Defogging result of different method on real image

如图6所示为SOTS-outdoor数据集的去雾结果对比，该场景的结构复杂且色彩丰富. 第1张图像中包含大量的细节与颜色变化. GCA-Net、Dehazeformer和DehazeXL整体色调偏暗且存在细节模糊，C²PNet和DEA-Net对比度不足. 本文方法在该区域实现了更准确的色彩还原和边缘轮廓清晰化，视觉效果更接近无雾图. 在第2张图像的远景区域，多数方法存在明显模糊. 利用本文方法，能够实现更优的清晰度与景深感.

如图7所示为NH-HAZE真实浓雾场景的去雾结果对比. 该数据集的雾气分布不均，局部遮挡严重. GCA-Net、C²PNet和DehazeXL残雾明显且细节模糊；DEA-Net存在颜色失真；Dehazeformer色彩还原较好，但纹理与边缘过渡略显不足，如树叶区域有残雾. 利用本文方法，能够在边缘细节和调色盘区域恢复出更清晰的结构和颜色分布. 对于第2张图像中雾气最浓、纹理最复杂的区域，利用本文方法仍能保留清晰的结构纹理，体现出对真实退化场景的强鲁棒性和细节建模能力.

如图8所示为O-HAZE数据集的去雾结果对比，该数据集具有显著的光照与结构纹理变化. GCA-Net去雾不足，树干严重模糊；C²PNet与DEA-Net在高亮区域存在残雾和伪影；Dehazeformer细节丢失明显；DehazeXL存在纹理缺失与偏色的问题. 本文方法在结构与色彩上均表现突出，树干纹理清晰，天空区域的色调与亮度更接近无雾图像，具有良好的全局一致性和区域自适应能力.

如图9所示为I-HAZE数据集的去雾结果对比，该数据集包含较多高频纹理和复杂光照反射. GCA-Net存在明显的伪影，整体视觉模糊；C²PNet细节处理不足且暗区偏暗；DEA-Net整体偏暗，色彩不佳；DehazeXL在亮度与纹理间有所平衡，但边界模糊. 相比之下，本文方法能够在复杂光照下恢复完整纹理与边缘结构，颜色还原真实，调色盘区域色块边界清晰，与无雾图的高度一致.

如图10所示为真实图像的去雾结果对比，所有方法均使用在RESIDE数据集上训练的模型进行去雾处理. Dehazeformer、C²PNet和DehazeXL均存在不同程度的残雾，发丝边缘与景深区域纹理缺失，边缘模糊. GCA-Net和DEA-Net虽然色彩恢复较自然，但结构模糊明显. 利用本文方法，能够清晰地恢复发丝边缘及周围背景细节，增强景深区域果实的纹理层次与边缘对比度，整体视觉效果更加清晰、自然，验证了本文方法在真实复杂场景下的强鲁棒性与细节建模能力.

2.4. 定量分析

如表1所示为各方法在4个数据集上的定量结果. 其中，加粗值为最优结果，下划线为次优结果.

表 1 不同去雾方法在各数据集上的PSNR和SSIM结果

Tab.1 PSNR and SSIM result of different dehazing algorithm on different dataset

方法	SOTS-outdoor		NH-HAZE		O-HAZE		I-HAZE
方法	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM
GCA-Net^[29]	31.98	0.9145	19.68	0.7017	21.63	0.7742	19.19	0.6529
Dehazeformer^[14]	33.37	0.8928	22.07	0.8196	25.31	0.7837	20.67	0.6792
C²PNet^[30]	32.27	0.8073	18.51	0.7416	20.45	0.7062	21.79	0.7285
DEA-Net^[31]	33.53	0.9854	20.20	0.7615	22.73	0.7537	20.35	0.6944
DehazeXL^[32]	28.56	0.8577	17.32	0.7060	24.95	0.8053	22.91	0.7630
本文方法	33.91	0.9631	23.71	0.8297	26.54	0.8211	24.93	0.8126

新窗口打开| 下载CSV

结果表明，除DEA-Net在SOTS-outdoor数据集上取得略高的SSIM指标外，本文方法在其余数据集上的PSNR和SSIM均最优. 在NH-HAZE数据集上PSNR和SSIM分别高于次优值1.64 dB、0.0101，在O-HAZE数据集上分别高于次优值1.23 dB、0.0158，在I-HAZE数据集上分别高于次优值2.02 dB、0.0496，整体性能显著优于对比方法. 尽管DEA-Net在SOTS-outdoor上的SSIM略高0.0223，但该数据集的雾气分布较规则且边缘结构清晰，使得基于注意力机制的网络更易获得较高的SSIM. 本文的PSNR指标表现优异，说明整体图像的复原质量更高.

2.5. 消融实验

为了验证本文方法各部分在去雾任务中的有效性，设计消融实验，从编码器结构、模块引入及监督机制进行逐步分析. 具体的实验设置如下. 1) Model A(基础模型)：将编码器拆分为上、下两分支提取特征，未加入多尺度增强与交互融合机制，仅采用基础损失项训练. 2) Model B(主干融合结构)：在编码器中每一级将上下分支特征相加，传递至下一层，建立基础信息融合路径. 3) Model C(主干+ACFM)：在Model B的基础上引入ACFM模块，用于连接每一级上下分支特征. 4) Model D(主干+DFDEM)：在Model B的残差细节建模分支中引入DFDEM模块. 5) Model E(主干+ACFM+DFDEM)：在Model B中同时引入ACFM模块和DFDEM模块，完成编码器结构的整体构建. 6) Model F(本文方法)：在Model E的基础上引入边缘引导模块，并在损失函数中引入边缘监督项，即本文的去雾方法.

如表2所示为上述各模型在NH-HAZE、O-HAZE和I-HAZE数据集上的定量评估指标. 为了展示本文去雾方法的有效性，在O-HAZE数据集上开展如图11所示的主观消融实验对比.

表 2 消融实验的客观指标对比

Tab.2 Objective index comparison of ablation experiment

方法	NH-HAZE		O-HAZE		I-HAZE
方法	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM
Model A	16.31	0.6948	19.13	0.6767	19.93	0.6739
Model B	17.86	0.7143	21.89	0.6818	20.77	0.6943
Model C	19.88	0.7614	24.26	0.7156	21.23	0.7725
Model D	20.27	0.7729	24.07	0.7391	22.64	0.7683
Model E	21.93	0.7955	25.56	0.7563	23.73	0.7935
本文方法	23.71	0.8297	26.54	0.8211	24.93	0.8126

新窗口打开| 下载CSV

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 在O-HAZE数据集上的消融实验主观可视化对比

Fig.11 Subjective visualization comparison of ablation experiment on O-HAZE dataset

通过在不同数据集上的主客观对比实验，对各模型的性能进行验证. 以O-HAZE数据集上的实验结果为例，基础模型Model A仅具备浅层特征提取与融合能力，PSNR和SSIM分别为19.13 dB和0.676 7，缺乏跨尺度信息引导机制，雾气残留明显. 引入主干特征融合路径的Model B虽然在图像结构上有所改善，但特征融合不充分，整体色调不匹配，PSNR和SSIM分别为21.89 dB和0.681 8. Model C在各层嵌入ACFM模块，增强分支间的信息交互，显著提升纹理与边缘细节的还原能力，PSNR和SSIM提升至24.26 dB和0.715 6. 引入DFDEM模块的Model D对中高频区域的恢复能力更强，边缘轮廓更清晰，在远景结构的还原上表现优越，PSNR和SSIM分别为24.07 dB和0.739 1. Model E同时集成ACFM与DFDEM模块，在细节增强与结构感知间形成互补，整体的视觉效果更自然，PSNR和SSIM分别提升至25.56 dB和0.756 3. 本文方法引入边缘引导模块与固定权重($ {\lambda }_{\text{e}}=0.2 $)的边缘监督损失，构建辅助监督机制，以增强结构感知能力. 消融实验结果表明，移除边缘引导模块及对应的监督损失会导致多个真实数据集的2项指标显著下降，尤其是在边缘清晰度与结构还原方面退化明显. 这一结果验证了边缘监督机制的有效性，表明以$ {\lambda }_{\text{e}}=0.2 $引入边缘监督项，能够在整体复原质量与结构细节表达间取得较好的平衡，提升去雾效果的结构保真度与视觉质量. 实验结果验证了各模块设计的有效性与最终模型的优越性能.

3. 结　语

针对现有图像去雾方法在多样化的复杂雾气场景中存在的全局语义建模不足、局部细节还原模糊以及分支融合机制单一的问题，提出基于动态频域调制的交互式图像去雾网络. 该网络由双分支编码器捕捉全局雾气分布与局部结构特征，通过自适应交叉融合模块实现跨分支动态语义引导与特征匹配. 设计的动态频域增强模块通过挖掘图像频率特征，增强网络对浓雾区域的响应能力. 边缘监督机制的引入进一步提升了结构保真度与细节表达.

在多个合成与真实数据集上的实验结果表明，本文方法的表现优异. 在SOTS-outdoor数据集上，本文方法的复原效果最接近清晰图像，在NH-HAZE、O-HAZE和I-HAZE等真实数据集上，相较于次优方法，PSNR和SSIM指标平均提升约1.63 dB和0.025 1，在结构清晰度、颜色还原与雾气去除方面表现出更强的稳定性与鲁棒性. 作为直接去雾的方法，所提网络无须显式估计物理参数即可实现高质量图像的恢复. 未来将进一步研究轻量化结构设计与跨域泛化能力，提升所提网络在复杂实际场景中的应用性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

孟小哲, 冯钰新, 苏卓, 等

基于不变学习的真实雾霾去除方法

[J]. 浙江大学学报: 工学版, 2024, 58 (2): 268- 278