基于动态频域调制的交互式图像去雾网络
Interactive image dehazing network based on dynamic frequency-domain modulation
收稿日期: 2025-07-29
| 基金资助: |
|
Received: 2025-07-29
| Fund supported: | 国家自然科学基金资助项目(62063014);甘肃省高等学校产业支撑计划资助项目(2021CYZC-04);甘肃省优秀研究生“创新之星”项目(2025CXZX-681). |
作者简介 About authors
杨燕(1972—),女,教授,博士,从事计算机视觉、数字图像处理研究.orcid.org/0000-0001-5338-0762.E-mail:
针对现有图像去雾方法在多样性复杂雾气场景中的不足,提出基于动态频域调制的交互式双分支图像去雾网络. 构建由全局语义建模分支与残差细节建模分支组成的并行编码器,分别捕捉图像的全局语义信息与局部纹理特征,提出自适应交叉融合模块,实现跨分支特征的动态交互,提升特征协同能力. 设计动态频域增强模块,强化模型对高频细节与复杂雾气区域的响应能力. 在解码器中引入边缘辅助监督,与频域增强形成互补约束,引导网络关注图像轮廓,提升细节恢复能力及视觉清晰度. 在RESIDE、NH-HAZE、O-HAZE和I-HAZE数据集上的实验结果表明,所提方法具备更强的结构还原能力与视觉一致性,在I-HAZE数据集上,PSNR和SSIM分别达到24.93 dB和0.812 6,较次优方法分别提升了2.02 dB和0.049 6.
关键词:
An interactive dual-branch image dehazing network based on dynamic frequency-domain modulation was proposed in order to address the limitation of existing image dehazing method in diverse and complex haze scene. A parallel encoder composed of a global semantic modeling branch and a residual detail modeling branch was constructed to capture global semantic information and local texture feature, respectively. An adaptive cross fusion module was introduced to enable dynamic interaction between cross-branch feature and enhance cross-feature collaboration capability. A dynamic frequency-domain enhancement module was designed to strengthen the response of the model to high-frequency detail and complex haze region. An edge-guided auxiliary supervision mechanism was introduced in the decoder, which formed complementary constraint with frequency-domain enhancement to guide the network to focus on the image contour. Then detail restoration and visual clarity were improved. The experimental results on the RESIDE, NH-HAZE, O-HAZE and I-HAZE datasets demonstrate that the proposed method achieves stronger structure restoration capability and better visual consistency. PSNR and SSIM reached 24.93 dB and 0.812 6 on the I-HAZE dataset, respectively, which were improved by 2.02 dB and
Keywords:
本文引用格式
杨燕, 宋鑫钰.
YANG Yan, SONG Xinyu.
近年来,深度学习在图像去雾任务中取得了显著进展,研究者开始从数据驱动角度建模图像退化过程. 根据是否依赖物理模型,相关方法可以分为间接去雾和直接去雾2类. 间接去雾方法如DehazeNet[8]、MSCNN[9]、AOD-Net[10]等,通过估计未知参数并结合物理模型恢复图像,但物理假设通常在实际场景中失效,影响复原效果. 直接去雾方法通过学习雾图与清晰图像间的映射关系,避免物理模型干预,包括基于CNN的GridDehazeNet[11]、SCANet[12]、FFA-Net[13]以及基于Transformer的Dehazeformer[14]等. Transformer或CNN网络存在明显的偏差,前者易忽视高频纹理,后者难以理解长距离语义关系.
针对现有方法难以同时兼顾全局感知与局部细节建模,且在真实浓雾或复杂场景下结构恢复效果较差的问题,本文提出基于动态频域调制的交互式图像去雾网络. 该方法通过端到端结构直接恢复清晰图像,无须显式估计大气光或透射率参数. 构建交互引导的双分支架构,实现全局语义与局部细节协同建模. 提出自适应交叉融合模块,构建双向引导机制,提升分支间特征交互与结构一致性. 设计动态频域增强模块与边缘辅助监督机制,从频率与结构层面提高纹理与轮廓的感知能力. 在多个公开数据集上的实验结果表明,所提方法具有较好的去雾性能且优于现有的主流去雾方法.
1. 网络结构
基于动态频域调制的交互式图像去雾网络结构如图1所示. 网络整体采用编码器-解码器架构,其中编码器部分由全局语义建模分支与残差细节建模分支组成,分别侧重于全局信息建模与局部细节提取. 为了提升特征表达的一致性与补偿能力,在两分支之间设计自适应交叉融合模块,实现跨分支的特征交互与引导. 在特征增强方面,在编码器中的残差细节建模分支中设计动态频域增强模块. 该模块基于雾气在频域中抑制图像高频成分的特性,通过可学习参数动态调制频率响应,保留关键的高频信息,提升细节纹理的恢复能力. 在解码器阶段,采用残差结构,结合注意力机制对多尺度特征逐步还原,设计边缘引导模块对浅层特征进行边缘引导监督,辅助重建过程中边缘轮廓与局部纹理的恢复,通过一层残差块可得去雾图像.
图 1
图 1 基于动态频域调制的交互式图像去雾网络整体结构
Fig.1 Overall architecture of interactive image dehazing network based on dynamic frequency-domain modulation
1.1. 编码器结构
传统的双分支结构多采用串联或简单融合策略,缺乏细粒度的交互机制,导致全局与局部特征难以高效协同,限制了图像结构的恢复质量. 提出跨分支交互引导的双分支编码结构,由全局语义建模分支和残差细节建模分支组成. 两分支并行接收相同的输入,并在多尺度下同步编码,通过自适应交叉融合模块实现双向信息引导与动态特征融合,提升不同感受野特征的协同建模能力.
全局语义建模分支用于捕获图像长距离依赖和雾气整体分布特征. 该分支以有雾图像为输入,通过4个不同尺度的去雾Transformer模块(Dehazeformer Group)逐级提取特征,并在每个模块前引入下采样扩大感受野. 每个Dehazeformer Group由图像块嵌入层(Patch Embedding)、基本单元(Dehazeformer Block)和图像块合并层(Patch Merging)构成,结构示意图如图1所示. 其中,Patch Embedding将输入图像映射为特征序列;Dehazeformer Block利用多头自注意力机制(multi-head self-attention mechanism, MSA)[19],与前馈增强网络(feedforward enhancement network, FFN)实现跨区域语义信息建模;Patch Merging通过下采样构建金字塔式层级结构,提升多尺度建模能力.
残差细节建模分支由4层多尺度特征增强编码块构成,用于重建边缘与纹理的高频细节. 输入图像经过高频补偿模块提取高频信息,并与原始雾图进行拼接形成增强特征,先后经过动态频域增强模块和多尺度特征增强编码块进行编码,通过跨层连接向解码器传递多尺度细节特征,以强化局部结构表达并提升细节恢复能力.
1.1.1. 动态频域增强模块
在有雾图像中,雾气会显著削弱图像的高频信息,导致边缘模糊与纹理丢失. 利用基于频域分析的细节增强方法,可以有效地保留高频信息,强化编码器局部分支的细节特征提取. 设计动态频域增强模块(dynamic frequency domain enhancement module, DFDEM). 该模块基于傅里叶频谱分析,采用频域选择性增强与相位矫正机制,能够动态保留关键频率信息并恢复结构特征,结构如图2所示.
图 2
该模块以输入特征图
式中:
在获得频域特征后,利用Top-k MASK构建频率掩码. 具体而言,将每张图片的幅度谱展平,并在每个通道中选取幅值最大的前
式中:
直接使用滤波后的频率分量进行逆变换会忽略对应的相位信息,引发重构误差或结构扭曲的问题. 在该模块中引入由多个卷积层构成的相位校正层(PC Layer),以预测相位修正量
结合幅度谱和校正后的相位谱得到频域,通过逆快速傅里叶变换回到空间域:
为了提升网络对频域增强效果的自适应能力,提升特征的残差表达能力,在DFDEM模块的末端使用残差结构,引入可学习缩放因子
式中:
1.1.2. 多尺度特征增强编码块
图 3
1.1.3. 自适应交叉融合模块
在双分支去雾网络中,全局语义建模分支侧重捕获上下文语义信息,残差细节建模分支聚焦局部边缘与纹理特征. 由于两分支在语义层级与感受野范围上存在显著的差异,直接叠加或拼接,易导致结构信息丢失与特征冗余. 在去雾任务中,高质量图像恢复依赖全局与局部特征的协同建模与互补融合. 提出自适应交叉融合模块(adaptive cross fusion module, ACFM),通过多头交叉注意力机制和可学习缩放因子,实现在异质特征图之间的自适应引导与动态融合.
自适应交叉融合模块的结构如图4所示. 该模块由归一化层、交叉注意力层与非线性增强层顺序连接组成,用于实现不同分支特征图在相同尺度下的深度融合. 设来自局部分支的特征图为
图 4
式中:
通过交叉注意力层,捕获2个特征图之间的相互关系. 在该模块中,以特征图
式中:
注意力分数矩阵通过点积运算获得,对于第
式中:
所有头的输出通过
为了进一步提升融合特征的非线性建模能力与通道建模精度,在ACFM模块的尾部引入非线性增强层,对融合后特征进行通道内增强与映射压缩. 输入特征通过
1.2. 解码器结构
图 5
1.2.1. 多尺度通道注意力解码块
每一级解码块的输入由对应层级编码层的特征与上一解码块的输出融合得到. 特征图
转置卷积的卷积核大小为4,步长为2,padding为1,保证输出尺寸为原始的2倍,且具备可学习参数,提升上采样阶段的结构建模能力.
为了强化语义特征表达能力,在解码块中引入SE Block,通过全局平均池化提取统计信息,并经2层全连接生成通道权重向量
式中:
1.2.2. 边缘引导模块
为了提升解码器对边缘细节纹理的恢复能力,设计边缘引导模块(edge guidance module, EGM)作为辅助监督路径,引导网络关注结构信息. 该模块结合中间尺度特征与编码器残差分支跨层传递的高频细节进行边缘约束,并在训练阶段提供边缘感知监督,而不直接参与图像重建,减少结构模糊与细节丢失.
在训练阶段,边缘预测图将与由清晰图像生成的边缘标签进行监督对齐. 具体地,对清晰图像进行灰度转换与高斯去噪,得到降噪图像
式中:高阈值T2用于筛选可靠的强边缘,低阈值T1用于保留与强边缘连通的弱边缘.
EMG模块以解码器倒数第2层的中间尺度特征为输入. 该特征具备更高的空间分辨率,融合多尺度语义信息,保留了丰富的结构响应,有效避免最终高分辨率阶段信息稀疏导致的边缘不连续问题.
1.3. 损失函数
1.3.1. 平滑L1损失
利用平滑L1损失
式中:
1.3.2. MS-SSIM损失
多尺度结构相似性损失综合不同尺度下的亮度、对比度与结构信息,通过约束去雾图像与清晰图像的结构一致性,引导网络恢复真实结构. MS-SSIM损失的定义为
式中:
1.3.3. 感知损失
感知损失可以保证语义保真度,使用预训练的VGG16网络作为损失网络,计算网络输出与真实数据间的高级语义差异:
式中:
1.3.4. 边缘监督损失
采用边缘监督损失,旨在提升图像边缘与纹理的还原能力. 在解码器末端设计边缘引导模块,引导网络关注结构轮廓,对预测边缘图与边缘真值图像计算边缘监督损失,并将其作为监督项:
式中:
1.3.5. 总损失函数
为了提升图像去雾质量,在网络训练阶段设计多项损失函数,综合考虑像素还原、结构相似性、高层语义感知和边缘结构准确性. 总损失函数为
式中:
2. 实验结果与分析
2.1. 实验设置与数据集
基于Pytorch环境,使用RTX
在合成雾霾数据集RESIDE[25]、真实世界数据集NH-HAZE[26]、O-HAZE[27]和I-HAZE[28]上开展实验. 合成数据使用RESIDE的室外训练集(outdoor training set, OTS)作为训练集,室外测试集(SOTS-outdoor)作为测试集. 其中OTS包含72 135张有雾图像和2 061张清晰图像,SOTS-outdoor包含500对测试图像. 训练阶段从 OTS 中随机选取1 500对图像用于训练,500对用于验证,其余测试集全部用于测试. 真实数据集中NH-HAZE、I-HAZE和O-HAZE分别包含55、30和45对图像,每个数据集选取5对用于验证,5对用于测试,其余用于训练.
2.2. 评价指标
采用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似度指数(structural similarity index, SSIM),评价去雾性能. PSNR基于均方误差(mean square error, MSE)计算,用于衡量重建图像与参考清晰图像间的像素差异,数值越大则失真越小,图像质量越高.
式中:
SSIM从亮度、对比度和结构3个方面评价图像相似性,取值为[0, 1.0],数值越大则结构一致性越好.
式中:
2.3. 定性分析
图 6
图 6 不同方法在SOTS-outdoor数据集上的去雾结果
Fig.6 Defogging result of different method on SOTS-outdoor dataset
图 7
图 7 不同方法在NH-HAZE数据集上的去雾结果
Fig.7 Defogging result of different method on NH-HAZE dataset
图 8
图 8 不同方法在O-HAZE数据集上的去雾结果
Fig.8 Defogging result of different method on O-HAZE dataset
图 9
图 9 不同方法在I-HAZE数据集上的去雾结果
Fig.9 Defogging result of different method on I-HAZE dataset
图 10
图 10 不同方法在真实图像上的去雾结果
Fig.10 Defogging result of different method on real image
如图6所示为SOTS-outdoor数据集的去雾结果对比,该场景的结构复杂且色彩丰富. 第1张图像中包含大量的细节与颜色变化. GCA-Net、Dehazeformer和DehazeXL整体色调偏暗且存在细节模糊,C2PNet和DEA-Net对比度不足. 本文方法在该区域实现了更准确的色彩还原和边缘轮廓清晰化,视觉效果更接近无雾图. 在第2张图像的远景区域,多数方法存在明显模糊. 利用本文方法,能够实现更优的清晰度与景深感.
如图7所示为NH-HAZE真实浓雾场景的去雾结果对比. 该数据集的雾气分布不均,局部遮挡严重. GCA-Net、C2PNet和DehazeXL残雾明显且细节模糊;DEA-Net存在颜色失真;Dehazeformer色彩还原较好,但纹理与边缘过渡略显不足,如树叶区域有残雾. 利用本文方法,能够在边缘细节和调色盘区域恢复出更清晰的结构和颜色分布. 对于第2张图像中雾气最浓、纹理最复杂的区域,利用本文方法仍能保留清晰的结构纹理,体现出对真实退化场景的强鲁棒性和细节建模能力.
如图8所示为O-HAZE数据集的去雾结果对比,该数据集具有显著的光照与结构纹理变化. GCA-Net去雾不足,树干严重模糊;C2PNet与DEA-Net在高亮区域存在残雾和伪影;Dehazeformer细节丢失明显;DehazeXL存在纹理缺失与偏色的问题. 本文方法在结构与色彩上均表现突出,树干纹理清晰,天空区域的色调与亮度更接近无雾图像,具有良好的全局一致性和区域自适应能力.
如图9所示为I-HAZE数据集的去雾结果对比,该数据集包含较多高频纹理和复杂光照反射. GCA-Net存在明显的伪影,整体视觉模糊;C2PNet细节处理不足且暗区偏暗;DEA-Net整体偏暗,色彩不佳;DehazeXL在亮度与纹理间有所平衡,但边界模糊. 相比之下,本文方法能够在复杂光照下恢复完整纹理与边缘结构,颜色还原真实,调色盘区域色块边界清晰,与无雾图的高度一致.
如图10所示为真实图像的去雾结果对比,所有方法均使用在RESIDE数据集上训练的模型进行去雾处理. Dehazeformer、C2PNet和DehazeXL均存在不同程度的残雾,发丝边缘与景深区域纹理缺失,边缘模糊. GCA-Net和DEA-Net虽然色彩恢复较自然,但结构模糊明显. 利用本文方法,能够清晰地恢复发丝边缘及周围背景细节,增强景深区域果实的纹理层次与边缘对比度,整体视觉效果更加清晰、自然,验证了本文方法在真实复杂场景下的强鲁棒性与细节建模能力.
2.4. 定量分析
如表1所示为各方法在4个数据集上的定量结果. 其中,加粗值为最优结果,下划线为次优结果.
表 1 不同去雾方法在各数据集上的PSNR和SSIM结果
Tab.1
| 方法 | SOTS-outdoor | NH-HAZE | O-HAZE | I-HAZE | |||||||
| PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | ||||
| GCA-Net[29] | 31.98 | 19.68 | 21.63 | 19.19 | |||||||
| Dehazeformer[14] | 33.37 | 22.07 | 25.31 | 20.67 | |||||||
| C2PNet[30] | 32.27 | 18.51 | 20.45 | 21.79 | |||||||
| DEA-Net[31] | 33.53 | 20.20 | 22.73 | 20.35 | |||||||
| DehazeXL[32] | 28.56 | 17.32 | 24.95 | 22.91 | |||||||
| 本文方法 | 33.91 | 23.71 | 26.54 | 24.93 | |||||||
结果表明,除DEA-Net在SOTS-outdoor数据集上取得略高的SSIM指标外,本文方法在其余数据集上的PSNR和SSIM均最优. 在NH-HAZE数据集上PSNR和SSIM分别高于次优值1.64 dB、
2.5. 消融实验
为了验证本文方法各部分在去雾任务中的有效性,设计消融实验,从编码器结构、模块引入及监督机制进行逐步分析. 具体的实验设置如下. 1) Model A(基础模型):将编码器拆分为上、下两分支提取特征,未加入多尺度增强与交互融合机制,仅采用基础损失项训练. 2) Model B(主干融合结构):在编码器中每一级将上下分支特征相加,传递至下一层,建立基础信息融合路径. 3) Model C(主干+ACFM):在Model B的基础上引入ACFM模块,用于连接每一级上下分支特征. 4) Model D(主干+DFDEM):在Model B的残差细节建模分支中引入DFDEM模块. 5) Model E(主干+ACFM+DFDEM):在Model B中同时引入ACFM模块和DFDEM模块,完成编码器结构的整体构建. 6) Model F(本文方法):在Model E的基础上引入边缘引导模块,并在损失函数中引入边缘监督项,即本文的去雾方法.
表 2 消融实验的客观指标对比
Tab.2
| 方法 | NH-HAZE | O-HAZE | I-HAZE | |||||
| PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | |||
| Model A | 16.31 | 19.13 | 19.93 | |||||
| Model B | 17.86 | 21.89 | 20.77 | |||||
| Model C | 19.88 | 24.26 | 21.23 | |||||
| Model D | 20.27 | 24.07 | 22.64 | |||||
| Model E | 21.93 | 25.56 | 23.73 | |||||
| 本文方法 | 23.71 | 26.54 | 24.93 | |||||
图 11
图 11 在O-HAZE数据集上的消融实验主观可视化对比
Fig.11 Subjective visualization comparison of ablation experiment on O-HAZE dataset
通过在不同数据集上的主客观对比实验,对各模型的性能进行验证. 以O-HAZE数据集上的实验结果为例,基础模型Model A仅具备浅层特征提取与融合能力,PSNR和SSIM分别为19.13 dB和0.676 7,缺乏跨尺度信息引导机制,雾气残留明显. 引入主干特征融合路径的Model B虽然在图像结构上有所改善,但特征融合不充分,整体色调不匹配,PSNR和SSIM分别为21.89 dB和0.681 8. Model C在各层嵌入ACFM模块,增强分支间的信息交互,显著提升纹理与边缘细节的还原能力,PSNR和SSIM提升至24.26 dB和0.715 6. 引入DFDEM模块的Model D对中高频区域的恢复能力更强,边缘轮廓更清晰,在远景结构的还原上表现优越,PSNR和SSIM分别为24.07 dB和0.739 1. Model E同时集成ACFM与DFDEM模块,在细节增强与结构感知间形成互补,整体的视觉效果更自然,PSNR和SSIM分别提升至25.56 dB和0.756 3. 本文方法引入边缘引导模块与固定权重(
3. 结 语
针对现有图像去雾方法在多样化的复杂雾气场景中存在的全局语义建模不足、局部细节还原模糊以及分支融合机制单一的问题,提出基于动态频域调制的交互式图像去雾网络. 该网络由双分支编码器捕捉全局雾气分布与局部结构特征,通过自适应交叉融合模块实现跨分支动态语义引导与特征匹配. 设计的动态频域增强模块通过挖掘图像频率特征,增强网络对浓雾区域的响应能力. 边缘监督机制的引入进一步提升了结构保真度与细节表达.
在多个合成与真实数据集上的实验结果表明,本文方法的表现优异. 在SOTS-outdoor数据集上,本文方法的复原效果最接近清晰图像,在NH-HAZE、O-HAZE和I-HAZE等真实数据集上,相较于次优方法,PSNR和SSIM指标平均提升约1.63 dB和0.025 1,在结构清晰度、颜色还原与雾气去除方面表现出更强的稳定性与鲁棒性. 作为直接去雾的方法,所提网络无须显式估计物理参数即可实现高质量图像的恢复. 未来将进一步研究轻量化结构设计与跨域泛化能力,提升所提网络在复杂实际场景中的应用性能.
参考文献
基于不变学习的真实雾霾去除方法
[J].
Real-world dehazing method with invariant learning
[J].
DHC-net: a remote sensing object detection under haze and class imbalance
[J].
A novel algorithm of haze identification based on FY3D/MERSI-II remote sensing data
[J].DOI:10.3390/rs15020438 [本文引用: 1]
Scattering phenomena: optics of the atmosphere. scattering by molecules and particles
[J].
Single image haze removal using dark channel prior
[J].DOI:10.1109/TPAMI.2010.168 [本文引用: 1]
DehazeNet: an end-to-end system for single image haze removal
[J].DOI:10.1109/TIP.2016.2598681 [本文引用: 1]
Vision transformers for single image dehazing
[J].DOI:10.1109/TIP.2023.3256763 [本文引用: 3]
An efficient dehazing algorithm based on the fusion of transformer and convolutional neural network
[J].DOI:10.3390/s23010043 [本文引用: 1]
DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs
[J].
Benchmarking single-image dehazing and beyond
[J].
DEA-Net: single image dehazing based on detail-enhanced convolution and content-guided attention
[J].DOI:10.1109/TIP.2024.3354108 [本文引用: 2]
/
| 〈 |
|
〉 |

