浙江大学学报(工学版), 2025, 59(6): 1119-1129 doi: 10.3785/j.issn.1008-973X.2025.06.003

计算机技术

基于多维协同注意力的双支特征联合去雾网络

杨燕,, 晁丽鹏

兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

A two-branch feature joint dehazing network based on multidimensional collaborative attention

YANG Yan,, CHAO Lipeng

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

收稿日期: 2024-04-2  

基金资助: 国家自然科学基金资助项目(61561030,62063014);甘肃省高等学校产业支撑计划资助项目(2021CYZC-04);兰州交通大学研究生教改项目(JG201928).

Received: 2024-04-2  

Fund supported: 国家自然科学基金资助项目(61561030,62063014);甘肃省高等学校产业支撑计划资助项目(2021CYZC-04);兰州交通大学研究生教改项目(JG201928).

作者简介 About authors

杨燕(1972—)女,教授,博士,研究数字图像处理、语音信号处理和智能信息处理.orcid.org/0000-0001-5338-0762.E-mail:yangyantd@mail.lzjtu.cn , E-mail:yangyantd@mail.lzjtu.cn

摘要

针对雾天图像复原中单一特征提取网络难以协同增强内容与边缘特征的问题,将去雾任务分为内容信息提取和边缘特征恢复2个子任务,提出基于多维协同注意力的双支特征联合去雾网络. 在第1个分支构建密集连接的卷积块提取有雾图像中的多层次内容信息;在第2个分支采用级联的多尺度残差卷积块对图像的纹理细节进行恢复;通过图像重构模块对2种特征进行多尺度重构,实现不同特征信息的交换和增强,提升去雾效果. 在网络中引入注意力机制,同时在空间和像素上进行注意力交互建模,使网络能够高效率地学习有雾图像的主要特征. 实验结果表明,所提网络在多个数据集上的客观指标均优于大多数现有算法的;在去雾视觉效果上,所提网络能够实现高内容还原度,并完整保留纹理细节.

关键词: 图像去雾 ; 图像恢复 ; 神经网络 ; 多维协同注意力 ; 特征重建

Abstract

The dehazing task was divided into two subtasks, content information extraction and edge feature restoration, and a two-branch feature joint dehazing network based on multidimensional collaborative attention was proposed, aiming at the problems that the single-feature extraction network had difficulty in collaboratively enhancing content and edge features in hazy image restoration. In the first branch of the network, densely connected convolutional blocks were constructed to extract multi-level content information from hazy images. In the second branch, cascaded multi-scale residual convolutional blocks were used to restore the texture details. Then the image reconstruction module was used to perform the multi-scale reconstruction on the two types of features, achieving the exchange and enhancement of different feature information, and improving the dehazing effect. Attention mechanism was introduced into the network and attention interactions were modeled in space and pixels to efficiently learn the main features of hazy images. The experimental results show that the proposed network outperforms most existing algorithms in objective metrics on multiple datasets, with high content restoration and complete texture details in dehazing visual effects.

Keywords: image dehazing ; image restoration ; neural network ; multidimensional collaborative attention ; feature reconstruction

PDF (4406KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

杨燕, 晁丽鹏. 基于多维协同注意力的双支特征联合去雾网络. 浙江大学学报(工学版)[J], 2025, 59(6): 1119-1129 doi:10.3785/j.issn.1008-973X.2025.06.003

YANG Yan, CHAO Lipeng. A two-branch feature joint dehazing network based on multidimensional collaborative attention. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(6): 1119-1129 doi:10.3785/j.issn.1008-973X.2025.06.003

雾是一种常见的天气现象,它会导致相机所拍摄的图像模糊、对比度下降,边缘信息丢失,从而影响后续的高级视觉任务(如目标检测和分割、自动驾驶、地图测绘等[1]). 因此,单幅图像去雾是重要的研究课题.

在深度学习兴起之前,大部分有雾图像恢复算法[2-4]基于物理模型−大气散射模型[5-6]. 多数去雾算法[7-9]以先验知识为基础,结合大气散射模型取得了良好的性能,但在复杂环境中,透射率和大气光值估计不准确会导致去雾结果不理想. 随着深度学习兴起,研究者们用神经网络学习透射率和大气光值[10-11],再结合大气散射模型恢复清晰图像. 这类方法须利用有雾图像和对应的透射率图像作为样本对训练网络,但是实际有雾图像的透射率和透射率标签图像存在偏差,影响去雾算法的效果. 为了将图像去雾从物理模型中分离出来,研究者们设计去雾网络模型,直接学习有雾图像与清晰图像之间的映射关系,实现端到端去雾. 但是,现有去雾算法忽略了模糊图像的内容细节和边缘信息是不同特征,影响有雾图像恢复的最终效果.

为了得到内容信息完整、边缘细节清晰和色彩自然的清晰图像,本研究提出基于多维协同注意力的双支特征联合去雾网络. 为了获取有雾图像色彩、纹理、场景语义等重要特征的权重,引入注意力机制,同时在通道和空间维度上获取权重. 所提网络用内容信息提取分支在多个感受野下提取和增强有雾图像中的场景语义、色彩内容信息,用边缘特征恢复分支恢复图像的边缘细节,最后通过图像重构模块多尺度重构门控融合后的2部分特征信息,输出清晰图像,实现有雾图像到无雾图像的端到端映射.

本研究主要贡献包括以下几个方面:1)将单幅有雾图像恢复问题分解为2个子任务,一个是提取图像的内容信息,捕获有雾图像中的原始特征和场景语义,一个是恢复图像的边缘信息,保证复原图像保持原有的纹理细节. 从2个独立子任务出发,既保证图像的边缘信息完整,又能提升复原效果. 2)设计内容信息提取分支、边缘细节恢复分支和图像重构模块. 内容信息提取分支利用平滑空洞卷积构建的密集残差块作为基本单元,提取初级图像内容信息特征;边缘细节恢复分支由级联的多尺度卷积层构成,恢复图像的边缘细节特征;图像重构模块在多个感受野下对内容信息和边缘细节联合重构,进一步增强复原图像质量. 3)引入多维协同注意力机制,使网络同时在空间维度和通道维度获取注意力权重,实现权重交互策略,恢复无色彩失真和细节生动的清晰图像.

1. 相关工作

1.1. 基于先验的去雾

基于先验的去雾算法主要通过各种先验估计大气光值和透射率,再通过大气散射模型恢复清晰图像. 大气散射模型数学表达式如下:

$ {\boldsymbol{I}}(x) = {\boldsymbol{J}}(x){\boldsymbol{t}}(x)+{\boldsymbol{A}}({\boldsymbol{1}}-{\boldsymbol{ t}}(x)), $

$ {\boldsymbol{t}}(x) = {{\text{e}}^{ - \beta {\boldsymbol{d}}(x)}}. $

式中:$ {\boldsymbol{I}}(x) $为相机采集到的有雾图像,$ {\boldsymbol{J}}(x) $为有雾图像对应的无雾图像,$ {\boldsymbol{A}} $为大气光值,$ {\boldsymbol{t}}(x) $为透射率,$ \beta $为大气散射系数,$ {\boldsymbol{d}}(x) $为场景深度.

He等[12]通过对大量无雾图像的观察,提出暗通道先验理论(dark channel prior, DCP)估计透射率,再通过大气散射模型恢复清晰图像. 为了减少暗通道算法的处理时间,张登银等[13]用“边缘替代法”替换“软抠图”,在解决天空区域暗通道先验失效的同时,大幅降低单幅图像的去雾时间. Zhu等[9]对大量有雾图像的远近景进行分析,建立颜色衰减先验模型(color attenuation prior, CAP)来估计透射率,提出依场景深度变化估计雾浓度的去雾方法,改善近景颜色失真的情况. Ju等[14]提出伽马校正先验(gamma correction prior,GCP)来估计有雾图像的均匀虚拟变换和深度信息,再通过大气散射理论恢复清晰图像. 上述基于先验的去雾方法能在特定场景下取得良好的去雾效果,但当先验条件不合适时,其结果往往较差.

1.2. 基于深度学习的去雾

基于深度学习的单幅图像去雾算法主要分为2类:结合模型的方法和非结合模型的方法. 早期的方法[10-11,15]主要通过神经网络估计透射率和大气光值,再结合大气散射模型实现图像去雾. Cai等[10]结合现有的先验理论提出DehazeNet来估计有雾图像的透射率. Li等[11]改写大气散射模型,构建级联的轻型去雾网络估计联合参数,最后借助大气散射模型输出清晰图像. 上述早期基于深度学习的方法依旧须依靠大气散射模型,存在一定的局限性,并且容易造成误差累积导致去雾不彻底. 非结合模型的方法[16-19]通过神经网络学习有雾图像与清晰图像的映射关系,实现图像去雾. Liu等[17]提出由预处理模块、主干模块和后处理模块组成的网格去雾网络GridDehazeNet. Das等[18]针对非均匀有雾图像,提出快速深度分层网络,该网络能够快速恢复浓度分布不均匀的有雾图像. Qin等[20]提出特征融合注意力图像去雾网络FFA-Net(feature fusion attention network),该网络通过注意力机制在通道维度和像素维度实现不同特征层的权重标定以实现图像去雾. Shao等[21]通过1个图像迁移模块和2个图像去雾模块的组合提出域适应模型,实现有雾图像与清晰图像的映射. Song等[22]将视觉Transformer机制用于图像去雾任务,以多头自注意力机制为基础,对雾特征的全局依赖关系建模,最终实现复杂有雾场景的复原. 上述端到端的方法能在一定程度上去除雾气,但是会对图像中的边缘细节一同去除,不能够保持原有的纹理细节. 针对以上问题,提出基于多维协同注意力的双支特征联合去雾网络,从内容特征提取和边缘细节恢复2个角度出发,实现恢复纹理细节更完整的清晰图像.

2. 所提网络

所提方法的网络结构如图1所示,由内容信息提取分支、边缘细节恢复分支和图像重构模块3部分组成. 内容信息提取分支的核心是空洞卷积残差密集块(dilated residual dense block,DRDB),使用不同的膨胀率实现多种感受野,对有雾图像内容特征信息进行多尺度提取;边缘细节恢复分支用清晰图像的边缘图作为网络约束,恢复出细节完整的边缘图. 图像重构模块将门控融合后的特征图通过多尺寸的卷积核,实现多尺度特征重建和降维,输出清晰图像. 具体的流程如下:将一张有雾图像$ {\boldsymbol{I}} $和其边缘图$ {{\boldsymbol{I}}_{{\text{e}}}} $分别输入内容信息提取分支和边缘细节恢复分支,获得内容特征图和边缘恢复图. 再通过门控融合将2种特征图进行线性组合. 然后将融合后的特征图输入到图像重构模块,同时也将有雾图像作为残差输入该模块,输出纹理细节完整的清晰图像. 此外,本研究也输出复原图像的边缘图.

图 1

图 1   基于多维协同注意力的双支特征联合去雾网络的框架图

Fig.1   Framework of two-branch feature joint dehazing network based on multidimensional collaborative attention


2.1. 内容信息提取分支

场景中的雾弱化了图像中颜色和场景语义深层的内容信息,为了深层次提取有雾图像的内容信息,设计以空洞卷积残差密集块(DRDB)和多维协同注意力(multidimensional collaborative attention,MCA)[23]的串联组合为核心的内容信息提取模块. 首先用1×1卷积对有雾图像进行通道变换,然后通过3个连续的DRDB-MCA块,得到含有初级内容信息的特征图.

2.1.1. 空洞卷积残差密集块

密集残差块[24]通过密集连接的卷积层,充分利用所有层的层次特征,以提取有雾图像中丰富的局部特征. 图像去雾任务须从图像整个场景中获得足够的位置和方向信息,需要更大的感受野来提取有雾图像的特征,但是通过较大的卷积核来扩大感受野会降低模型的运行效率. 本研究用空洞卷积[25]替代普通卷积,在卷积核中的相邻元素间插入不同数量的“0”来实现不同的感受野,如图2所示. 每个空洞卷积密集残差块的结构相同,均包含4个卷积层,在每个卷积层后使用ReLu激活函数. 其中,前3个卷积层是3×3的空洞卷积,膨胀率分别设置为1、2、3,第4个卷积层的卷积核大小为1×1. 每个卷积层都将来自前一层的所有特征作为输入,以整体的方式自适应地学习图像的全局层次特征. 同时,这种残差结构有益于网络的收敛.

图 2

图 2   空洞卷积密集块(DRDB)的结构图

Fig.2   Structure of dilated residual dense block (DRDB)


2.1.2. 多维协同注意力

与文献[20]中的通道注意力和像素注意力不同,多维协同注意力(MCA)能够在空间和通道维度上同时建模,实现特征信息交互,使网络模型对有雾图像中的重要特征进行权重标定. 如图3所示,多维协同注意力由并行的3个分支组成,其中最上面2个分支负责空间维度上的特征相互依赖关系,最后1个分支用于捕获通道间的重要程度. 具体过程如下:将上一层的输出特征图$ {\boldsymbol{F}} \in {{\bf{R}}^{{{C}} \times {{H}} \times {{W}}}} $作为多维协同注意力的输入,$ {{C}} $$ {{H}} $$ {{W}} $分别为特征图的通道数、高和宽. 在输入3个分支之前,先将$ {\boldsymbol{F}} $的维度变换为$ {{W}} \times {{H}} \times {{C}} $$ {{H}} \times {{C}} \times {{W}} $$ {{C}} \times H \times W $,然后经过平均池化和标准池化后,将特征图变为高像素描述符($ {{H}} \times 1 \times 1 $)、宽像素描述符($ {{W}} \times 1 \times 1 $)和通道描述符($ {{C}} \times 1 \times 1 $),数学表达式如下:

图 3

图 3   多维协同注意力(MCA)的结构图

Fig.3   Structure of multidimensional collaborative attention(MCA)


$ \left. \begin{gathered} {\boldsymbol{F}}_{}^{{\text{avg}}} = \frac{1}{{{{H}} {{W}}}}\sum\limits_{i = 1}^{{H}} {\sum\limits_{j = 1}^{{W}} {{\boldsymbol{F}}(i,j)} }, \\ {\boldsymbol{F}}_{}^{{\text{std}}} = \left[{\frac{1}{{{{H}} {{W}}}}\sum\limits_{i = 1}^{{H}} {\sum\limits_{j = 1}^{{W}} {{{({\boldsymbol{F}}(i,j) - {\boldsymbol{F}}_{}^{{\text{avg}}})}^2}} } }\right]^{{1}/{2}}, \\ {{{\hat{\boldsymbol{F} }}}_{}} = \frac{1}{2} ({\boldsymbol{F}}_{}^{{\text{avg}}} \oplus {\boldsymbol{F}}_{}^{{\text{std}}}) \oplus \alpha {\boldsymbol{F}}_{}^{{\text{avg}}} \oplus \beta {\boldsymbol{F}}_{}^{{\text{avg}}}. \\ \end{gathered} \right\}$

式中:$ {\boldsymbol{F}}(i,j) $表示多维协同注意力的输入特征图;$ {\boldsymbol{F}}_{}^{{\text{avg}}} $$ {\boldsymbol{F}}_{}^{{\text{std}}} $分别表示平均池化和标准差池化后的特征图;$ {\hat{\boldsymbol{ F}}} $${\boldsymbol{ F}} $的聚合特征映射;$ \alpha $$ \beta $为可训练的参数,取值为0~1.0;

再将3种描述符与自适应的卷积核$ (1,{{K}}) $运算,捕获局部特征交互,生成注意力权重,得到带有权重的通道描述符,数学表达式如下:

$ \left.\begin{array}{l}\tilde{\boldsymbol{F}}=T_{{\mathrm{ex}}}(\hat{\boldsymbol{F}}), \\ T_{{\mathrm{ex}}}: \hat{\boldsymbol{f}}_m=\displaystyle \sum_{\xi=1}^{K_{\rm{C}}} \boldsymbol{w}^{\xi} \hat{\boldsymbol{f}}_m^{\xi}, \hat{\boldsymbol{f}}_m^{\xi} \in \varTheta_m^{K_{\rm{C}}}, \\\boldsymbol{F}^{\prime}=\sigma(\tilde{\boldsymbol{F}}) \otimes \boldsymbol{F}.\end{array}\right\} $

式中:$\hat{{\boldsymbol{F}}} $为输入图像${\boldsymbol{F}} $的聚合特征映射, $\boldsymbol{\tilde{F}} $${\boldsymbol{F}} $的通道注意力权重,${{T}_{{\mathrm{ex}}}} $表示激励变换,${{\boldsymbol{\hat{f}}}_{m}} $$\boldsymbol{\tilde{F}} $的第m个通道,${{K}_{\rm{C}}} $为与第m个通道自适应交互的卷积核的尺寸,$\varTheta _{m}^{{{K}_{\rm{C}}}} $为第m个通道相邻通道特征图的集合,$ {\boldsymbol{w}} $为共享可学习参数,$ \sigma $表示Sigmoid激活函数.

最后,将3种描述符进行简单的平均求和,得到带有权重标定的特征图.

2.2. 边缘细节恢复分支

边缘细节信息属于图像的局部特征[26],主要是图像中结构的轮廓细节,所含语义较低,较容易恢复. 因此,设计轻便、多尺度特征提取模块−级联卷积块(cascaded convolutional block,CCB)用于恢复图像的边缘细节,如图4所示. 级联卷积块是由3个尺寸分别为3、5、7的卷积层构成,在每层卷积之后连接一个ReLU激活函数,下一层的输入特征图由前置所有网络的特征输出融合而生成,既能在最大尺度上保留每一层提取的边缘特征,又能通过级联连接捕获上下文融合边缘信息.

图 4

图 4   级联卷积块(CCB)结构图

Fig.4   Structure of cascaded convolutional block(CCB)


将使用Sobel边缘检测算子计算的有雾图像边缘图输入边缘细节恢复分支,然后对其进行1×1卷积操作,以通过维度变换增加特征图的数量. 然后将其输入至级联卷积块和多维协同注意力模块,最终实现轮廓细节完整的边缘图恢复. 边缘细节恢复分支的数学表达式如下:

$ {\boldsymbol{F}}_{{\text{edge}}}^{'} = {\mathrm{MCA}}{\text{(conv(conv((conv(}}{{\boldsymbol{F}}_{{\text{edge}}}}{\text{)}},3{\text{)}},5{\text{)}},7{\text{)}}). $

式中:$ {{\boldsymbol{F}} _{{\text{edge}}}} $为有雾图像的边缘图,$ {\boldsymbol{F}}_{{\text{edge}}}^{'} $为最终恢复的边缘图,$ {\text{conv}} $为卷积操作,3、5、7为卷积核大小.

2.3. 门控融合模块

门控融合是对2个分支的信息在通道维度上进行特征拼接,核心是通过门控融合子网学习通道维度的权重,将权重和特征图加权融合得到门控融合后的特征图,其数学描述如下:

$ ({{\boldsymbol{w}}_{\text{1}}},{{\boldsymbol{w}}_{\text{2}}}) = \vartheta ({{\boldsymbol{F}}_{\text{1}}},{{\boldsymbol{F}}_{\text{2}}}), $

$ {\boldsymbol{F'}} = {{\boldsymbol{w}}_{\text{1}}} \times {{\boldsymbol{F}}_{\text{1}}}+{{\boldsymbol{w}}_{\text{2}}} \times {{\boldsymbol{F}}_{\text{2}}}. $

式中:$\vartheta $表示门控融合子网,是卷积核大小为$3 \times 3$的卷积层;${{\boldsymbol{w}}_{\text{1}}}$${{\boldsymbol{w}}_{\text{2}}}$分别为对应权重. 融合后${\boldsymbol{F'}}$即为门控融合后的特征图,即图像重构模块的输入.

2.4. 图像重构模块

图像重构模块是将内容信息特征图和边缘细节图进行特征重构和恢复. 1)特征重构:通过多尺度重构模块(multi-scale feature extraction block,MFEB),同时在多个尺度上提取图像中不同尺度的语义信息,并在通道维度上进行拼接,如图5所示;2)恢复:通过1×1卷积将特征图的维度降为3,输出最终的去雾图像. 特征重构的表达式如下:

图 5

图 5   多尺度特征重构模块(MFEB)的结构图

Fig.5   Structure of multi-scale feature extraction block (MFEB)


$ \left. \begin{gathered} {\boldsymbol{F}}_{\text{g}}^{\text{1}} = {\text{conv(relu(conv(}}{{\boldsymbol{F}}_{\text{g}}},1{\text{))}},1{\text{)}}, \\ {\boldsymbol{F}}_{\text{g}}^{\text{3}} = {\text{conv(relu(conv(}}{{\boldsymbol{F}}_{\text{g}}},3{\text{))}},3{\text{)}}, \\ {\boldsymbol{F}}_{\text{g}}^{\text{5}} = {\text{conv(relu(conv(}}{{\boldsymbol{F}}_{\text{g}}},5{\text{))}},5{\text{)}}, \\ {\boldsymbol{F}}'_{\text{g}} = {\text{cat(}}{\boldsymbol{F}}_{\text{g}}^{\text{1}},{\boldsymbol{F}}_{\text{g}}^3,{\boldsymbol{F}}_{\text{g}}^5{\text{)}}. \\ \end{gathered} \right\} $

式中:$ {{\boldsymbol{F}}_{\text{g}}} $$ {\boldsymbol{F}}'_{\text{g}} $分别为门控融合后的特征图和多尺度重构后的特征图,$ {\boldsymbol{F}}_{\text{g}}^{\text{1}} $$ {\boldsymbol{F}}_{\text{g}}^3 $$ {\boldsymbol{F}}_{\text{g}}^5 $分别为多尺度重构网络中尺度为1、3、5的特征图,$ {\text{relu}} $为ReLU激活函数,$ {\mathrm{cat}}( \cdot ) $为拼接操作.

2.5. 损失函数

为了使本研究所设计网络达到更好的去雾效果,设置均方误差损失和结构相似性损失的组合损失函数.

均方误差损失函数(mean-square error,MSE)也称为L2损失,其梯度会随着预测值接近真实值而不断减小,常被用于回归任务的模型训练,表达式如下:

$ {{{L}}_{\text{2}}} = \frac{1}{n}{\sum\limits_{i = 1}^n {\left| {{\boldsymbol{I}}_{{\text{gt}}}^{{i}}{\text{(}}x{\text{)}} - {{\boldsymbol{I}}^{{i}}}{\text{(}}x{\text{)}}} \right|} ^2}. $

式中:$\boldsymbol{I}_{{\mathrm{gt}}}^{i}(x) $$\boldsymbol{I}_{{}}^{i}(x) $分别表示标签图像(清晰图和清晰图像的边缘图)和预测图像(去雾图像和去雾图像边缘图)的第i个样本,n为样本总数.

结构相似性(structural similarity,SSIM)[27]是衡量2幅图像相似程度的指标,SSIM越大,表明2幅图像的相似度越高,其表达式如下:

$ {\text{SSIM}} = \frac{{(2{\mu _x}{\mu _y}+{c_1})({\sigma _{xy}}+{c_2})}}{{(\mu _x^2+\mu _y^2+{c_1})(\sigma _x^2+\sigma _y^2+{c_2})}}. $

式中:$ \mu $表示平均值,$ \sigma $表示标准差,$ {c_1} $$ {c_2} $为防止分母为0的常数.

结构相似性损失函数的定义如下:

$ {{{L}}_{{\text{SSIM}}}} = 1 - {\mathrm{SSIM}}({\boldsymbol{I}},{{\boldsymbol{I}}_{{\text{gt}}}}). $

将2种损失函数进行组合,组合函数的表达式为

$ {{L}} = {{{L}}_{\text{2}}}+{{{L}}_{{\text{SSIM}}}}. $

3. 实验结果对比与分析

3.1. 实验设置及数据集预处理

使用Pytorch框架实现网络模型,实验硬件环境为Intel(R) Core(TM) i7-10750H CPU 2.60 GHz,显卡型号NVIDIA GeForce GTX 1650,内存为4 GB,操作系统为Windows11. 初始学习率为10−4,并采用余弦退火策略[28]调整学习率. 使用Adam优化器[29]$ {\beta _1} $=0.9,$ {\beta _2} $=0.999)优化网络,批处理个数设置为8. 训练时将图像尺寸裁剪为200×200.

本研究所提网络将有雾图像和对应的边缘图像作为网络的输入,用清晰图像和清晰图像的边缘图作为标签进行反向传播. 从公共数据集RESIDE的室外训练集(outdoor training set,OTS)和室内训练集(indoor training set,ITS)[30]中选取30000幅合成图像,按9∶1的比例进行划分,分别作为网络模型训练阶段和测试阶段的数据集. 首先对数据集进行预处理,用Sobel算子得到有雾图像数据集对应的边缘图像,然后将有雾图像和对应边缘图像作为网络训练的输入.

3.2. 消融分析

通过消融实验证明本研究所用边缘提取方法和所提网络各成分的有效性. 由于空洞卷积密集残差块组成的内容信息提取分支具有一定的去雾能力,将DRDB数量为3的内容信息提取分支作为base网络. 首先对DRDB的数量进行消融分析,接着在base网络的基础上,依次加入边缘细节恢复分支和内容重构模块,最后对比有无多维协同注意力机制的网络性能. 各消融模型如下. 1)base-5:DRDB的数量为5;2)base-7:DRDB数量为7;3)base-e:在base网络的基础上,加入边缘细节恢复分支,然后通过门控融合恢复图像;4)base-r:在base-e的基础上,添加图像重构模块;5)本研究算法:在base-r的基础上引入多维协同注意力机制,即本研究所提网络;6)base-s:与base-r相比,不把有雾图像的边缘图作为边缘细节恢复分支的输入,而是在2个分支中都输入有雾图像,用清晰原图作为标签.

对不同模型在RESIDE SOTS-outdoor测试集[30]的峰值信噪比(peak signal-to-noise ratio,PSNR)[31]、结构相似度SSIM和参数量M进行比较. 其中,SSIM是衡量2幅图像相似度的指标,其值越大表明去雾结果越接近真实的清晰图像;PSNR是衡量图像失真或噪声水平的指标,其值越高说明去雾结果效果越好;参数量越大,表明模型越复杂. 如表1所示,当DRDB的数量为3、5和7时,PSNR和SSIM指标接近,但是参数量却成倍增加. 在加入边缘细节恢复分支和多维协同注意力机制后,客观指标和去雾效果均明显提升. 当边缘细节恢复分支输入仅为有雾图像时,客观指标明显降低,主观效果上色彩偏暗纹理较模糊,如图6表1所示.

表 1   本研究方法不同模块消融实验的结果

Tab.1  Results of ablation experiments on different modules of proposed method

模型PSNRSSIMM/106
base23.2510.9320.0202
base-523.3840.9310.0335
base-723.279.0.9290.0469
base-e26.9870.9440.0271
base-r27.9200.9560.1021
base-s24.5870.9430.1022
本研究算法28.3690.9610.1022

新窗口打开| 下载CSV


图 6

图 6   消融实验去雾效果局部放大对比

Fig.6   Comparison of local magnification of dehazing effect of ablation experiments


本研究网络采用Sobel算子获取图像的边缘图,对比分析不同边缘提取算子获取的边缘图对网络模型的影响. 在RESIDE SOTS-outdoor测试集上的客观指标如表2所示. 表中,Model-R使用Roberts边缘提取算子,Model-P和Model-C分别使用Prewitt算子和Canny算子. 选取边缘纹理细节较多的真实场景进行去雾效果对比,去雾效果如图7所示. 可以看出,采用Sobel算子获取图像边缘图作为网络的输入和训练标签,能有效恢复图像的纹理细节,对模型性能的提升也有促进作用.

表 2   不同边缘提取算子消融实验的结果

Tab.2  Results of ablation experiments with different edge extraction operators

模型PSNRSSIM
Model-R22.2510.958
Model-P24.3840.910
Model-C26.7450.934
本研究算法28.3690.961

新窗口打开| 下载CSV


图 7

图 7   不同边缘特征算子下的去雾效果

Fig.7   Dehazing effect with different edge feature operators


3.3. 去雾质量定性分析

为了验证所提算法的有效性,在测试集SOTS-outdoor、SOTS-indoor和HazeRD[32]上与经典的去雾算法进行去雾效果比较. 经典算法包括DCP[12]、DehazeNet[10]、AOD-Net[11]、GCA-Net[33]、UHD[34]、SGID[35]、DehazeFormer[22]和DEA-Net[36].

图8所示为不同算法在SOTS-outdoor上的去雾效果对比,最后一行是第4个场景的局部区域放大图. 可以看出,DCP的去雾效果最彻底,但部分区域存在过度去雾的现象. 这是因为暗通道先验理论在天空区域具有局限性,导致天空区域色彩失真严重;同样基于物理模型的AOD-Net导致天空区域的色彩过于鲜艳;GCA-Net和UHD导致部分区域过暗或过亮,天空区域存在色彩失真,如图8(e)的天空区域和图8(f)的湖面区域;SGID在第2个场景的人物服饰恢复上出现了色彩偏移;DEA-Net对于黑色区域的恢复结果均存在严重色偏,并且部分区域存在伪影,如图8(i)第2、3、4场景的湖面和行人;其他3个算法和本研究算法的整体去雾效果较为接近,但是在局部放大图中可以看出,本研究方法的去雾效果更彻底,塔区域的色彩和亮度最接近清晰原图,场景的整体色调也最接近原图,同时边缘细节清晰完整.

图 8

图 8   不同算法在SOTS-outdoor上的去雾效果对比

Fig.8   Comparison of dehazing effect of different algorithms on SOTS-outdoor


图9所示为不同算法在SOTS-indoor上的去雾效果对比. 可以看出,DCP的去雾图像边缘存在光晕现象,且白色物体容易出现颜色失真;DehazeNet、AOD-Net和UHD的网络深度较浅,因此去雾结果不彻底,还残留少量的薄雾;由增强卷积构成的DEA-Net去雾结果不彻底,还存在少量薄雾,如图9(i)的第3、4个场景;DehazeFormer在多数场景下的去雾效果较好,与本研究结果一样,均接近清晰原图,不过DehazeFormer对第1、2个场景的窗帘纹理的恢复效果不佳,而本研究方法对边缘细节的恢复更加清晰,不存在色偏、光晕现象.

图 9

图 9   不同算法在SOTS-indoor上的去雾效果对比

Fig.9   Comparison of dehazing effect of different algorithms on SOTS-indoor


图10所示为不同算法在Haze-RD上的去雾效果对比. 图中,各个算法在该数据集上对天空区域的恢复均不理想,其中,DCP和UHD算法在天空和树梢区域存在严重的颜色失真;DehazeNet和GCA-Net在屋顶区域色彩偏暗;AOD-Net整体上还残留一层薄雾;DehazeFormer色彩整体偏黑,且深色区域的细节较模糊,如图9(h)所有场景的屋顶区域;DEA-Net还残留一层薄雾未去除干净,且部分场景存在失真. 除了天空区域外,本研究方法在其他区域的去雾效果彻底,色彩均衡,细节保存完整.

图 10

图 10   不同算法在Haze-RD上的去雾效果对比

Fig.10   Comparison of dehazing effect of different algorithms on Haze-RD


图11所示为不同算法在真实图像上的去雾效果对比. 可以看出,AOD-Net和GCA-Net整体色彩偏暗;DCP和UHD部分区域存在伪影和色彩失真,如天空和地面交界处;DehazeNet在天空与远处地面的交界区域色彩偏暗、纹理较模糊;DehazeFormer不存在色彩失真问题,但部分区域的恢复色彩过于鲜艳,如图11(h)第3个场景中间的房屋;DEA-Net存在色彩失真,如图11(i)第3个场景远处的山脉. SGID和本研究均取得了良好的去雾效果,但是本研究对远处树林的细节恢复更清晰.

图 11

图 11   不同算法在真实有雾图像上的去雾效果对比

Fig.11   Comparison of dehazing effect of different algorithms on real hazy images


图12所示为本研究算法去雾前、后细节对比图. 图12(a)从左到右依次为有雾图像、有雾图像边缘图、去雾图像边缘图和去雾图像,图12(b)、(c)是对应红框区域的放大图. 可以看出,本研究既保留了图像的整体轮廓,又加强了因雾导致退化的边缘细节. 因此,本研究能够有效改善细节丢失的问题.

图 12

图 12   本研究算法去雾效果的边缘细节对比图

Fig.12   Comparison of edge details of dehazing effect of proposed model


3.4. 去雾质量定量分析

在3个数据集上对不同方法进行客观评价,采用峰值信噪比和结构相似性来对比不同算法的去雾质量,结果如表3所示. 表中,加粗字体表示最优值,加下划线字体表示次优值. 可以看出,在SOTS-indoor数据集上,本研究方法的PSNR次于GCA-Net和DEA-Net的,排在第3位,SSIM排在第2位,这2个算法指标高是因为其训练样本和测试样本的数据分布一致. 在SOTS-outdoor数据集上,本研究方法取得最优值. HazeRD数据集是通过物理模型生成的有雾图像集,数据分布更接近真实情况,因此各个方法在该数据集上的PSNR和SSIM均较低,但本研究方法的指标依然优于大部分方法的,可见本研究方法具有一定的可行性和优越性.

表 3   不同方法的客观评价指标对比

Tab.3  Comparison of objective evaluations of different methods

方法SOTS-indoorSOTS-outdoorHaze-RD
PSNRSSIMPSNRSSIMPSNRSSIM
DCP15.7450.79115.2410.74511.3730.741
DehazeNet19.5700.86122.0780.88314.3600.763
AOD-Net16.1830.82318.7210.85415.2220.744
GCA-Net25.6520.95627.3070.90212.2860.602
UHD16.2400.78316.1540.80714.0430.778
SGID18.3600.90721.7430.66814.4730.782
DehazeFormer22.7580.89922.5720.94214.2420.780
DEA-Net27.2940.90719.2950.80613.2180.750
本研究算法23.4290.91028.3690.96116.0230.791

新窗口打开| 下载CSV


为了充分比较各个去雾方法的优异性,与几个典型去雾算法进行去雾时间和模型复杂度比较. 去雾时间t是指在500幅尺寸为620×460的有雾图像上的平均去雾时间. 除了DCP和DehazeNet外,在同一实验平台(PyTorch GPU)上运行各典型算法提供的源代码,对比结果如表4所示. 可以看出,本研究所提方法去雾时间为0.103 s,在对比方法中排第2位,模型参数量为0.102×106,在对比方法中排第3位. 因此综合去雾效果与去雾时间,本研究方法较优.

表 4   不同方法的去雾时间及模型复杂度对比

Tab.4  Comparison of dehazing time and model complexity of different methods

方法t/sM/106
DCP2.132(Matlab)
DehazeNet1.532(Matlab)0.008
AOD-Net0.0170.002
GCA-Net0.1630.703
SGID0.81413.867
DehazeFormer0.4622.514
本研究算法0.1030.102

新窗口打开| 下载CSV


4. 结 语

提出基于多维协同注意力的双支特征联合去雾网络,将去雾任务分为内容信息提取和边缘细节恢复. 在网络中引入多维协同注意力机制,高效关注图像特征信息,改善网络退化问题. 实验结果表明,在公开数据集和真实场景中,所提网络的去雾结果能够保持图像的场景信息和纹理细节,并且有较高的色彩还原度. 不过,本研究所提网络也具有一定局限性,在雾浓度较大时,同样会出现去雾不彻底的问题,这将是今后工作的重点.

参考文献

吴迪, 朱青松

图像去雾的最新研究进展

[J]. 自动化学报, 2015, 41 (2): 221- 239

[本文引用: 1]

WU Di, ZHU Qingsong

The latest research progress of image dehazing

[J]. Acta Automatica Sinica, 2015, 41 (2): 221- 239

[本文引用: 1]

TAREL J P, HAUTIÈRE N. Fast visibility restoration from a single color or gray level image [C]// IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 2201–2208.

[本文引用: 1]

MENG G, WANG Y, DUAN J, et al. Efficient image dehazing with boundary constraint and contextual regularization [C]// IEEE International Conference on Computer Vision. Sydney: IEEE, 2013: 617–624.

覃宏超, 李炎炎, 龙伟, 等

基于引导滤波和暗原色先验理论透射率估值的视频去雾算法

[J]. 浙江大学学报: 工学版, 2018, 52 (7): 1302- 1309

[本文引用: 1]

QIN Hongchao, LI Yanyan, LONG Wei, et al

Real-time video dehazing using guided filtering and transmissivity estimated based on dark channel prior theory

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (7): 1302- 1309

[本文引用: 1]

NAYAR S K, NARASIMHAN S G. Vision in bad weather [C]// 7th IEEE International Conference on Computer Vision. Kerkyra: IEEE, 1999: 820–827.

[本文引用: 1]

NARASIMHAN S G, NAYAR S K. Removing weather effects from monochrome images [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai: IEEE, 2001: II.

[本文引用: 1]

LIHE Z, HE J, YUAN Q, et al

PhDnet: a novel physic-aware dehazing network for remote sensing images

[J]. Information Fusion, 2024, 106: 102277

DOI:10.1016/j.inffus.2024.102277      [本文引用: 1]

HE K, SUN J, TANG X. Single image haze removal using dark channel prior [C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 1956–1963.

ZHU Q, MAI J, SHAO L

A fast single image haze removal algorithm using color attenuation prior

[J]. IEEE Transactions on Image Processing, 2015, 24 (11): 3522- 3533

DOI:10.1109/TIP.2015.2446191      [本文引用: 2]

CAI B, XU X, JIA K, et al

DehazeNet: an end-to-end system for single image haze removal

[J]. IEEE Transactions on Image Processing, 2016, 25 (11): 5187- 5198

[本文引用: 4]

LI B, PENG X, WANG Z, et al. AOD-net: all-in-one dehazing network [C]// IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 4780–4788.

[本文引用: 4]

HE K, SUN J, TANG X

Guided image filtering

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35 (6): 1397- 1409

DOI:10.1109/TPAMI.2012.213      [本文引用: 2]

张登银, 鞠铭烨, 王雪梅

一种基于暗通道先验的快速图像去雾算法

[J]. 电子学报, 2015, 43 (7): 1437- 1443

DOI:10.3969/j.issn.0372-2112.2015.07.029      [本文引用: 1]

ZHANG Dengyin, JU Mingye, WANG Xuemei

A fast image daze removal algorithm using dark channel prior

[J]. Acta Electronica Sinica, 2015, 43 (7): 1437- 1443

DOI:10.3969/j.issn.0372-2112.2015.07.029      [本文引用: 1]

JU M, DING C, GUO Y J, et al

IDGCP: image dehazing based on gamma correction prior

[J]. IEEE Transactions on Image Processing, 2019, 29: 3104- 3118

[本文引用: 1]

ZHANG J, TAO D

FAMED-net: a fast and accurate multi-scale end-to-end dehazing network

[J]. IEEE Transactions on Image Processing, 2020, 29: 72- 84

DOI:10.1109/TIP.2019.2922837      [本文引用: 1]

REN W, MA L, ZHANG J, et al. Gated fusion network for single image dehazing [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3253–3261.

[本文引用: 1]

LIU X, MA Y, SHI Z, et al. GridDehazeNet: attention-based multi-scale network for image dehazing [C]// IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 7313–7322.

[本文引用: 1]

DAS S D, DUTTA S. Fast deep multi-patch hierarchical network for nonhomogeneous image dehazing [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle: IEEE, 2020: 1994–2001.

[本文引用: 1]

BALLA P K, KUMAR A, PANDEY R

A 4-channelled hazy image input generation and deep learning-based single image dehazing

[J]. Journal of Visual Communication and Image Representation, 2024, 100: 104099

DOI:10.1016/j.jvcir.2024.104099      [本文引用: 1]

QIN X, WANG Z, BAI Y, et al

FFA-net: feature fusion attention network for single image dehazing

[J]. AAAI Conference on Artificial Intelligence, 2020, 34 (7): 11908- 11915

DOI:10.1609/aaai.v34i07.6865      [本文引用: 2]

SHAO Y, LI L, REN W, et al. Domain adaptation for image dehazing [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2805–2814.

[本文引用: 1]

SONG Y, HE Z, QIAN H, et al

Vision transformers for single image dehazing

[J]. IEEE Transactions on Image Processing, 2023, 32: 1927- 1941

DOI:10.1109/TIP.2023.3256763      [本文引用: 2]

YU Y, ZHANG Y, CHENG Z, et al

MCA: multidimensional collaborative attention in deep convolutional neural networks for image recognition

[J]. Engineering Applications of Artificial Intelligence, 2023, 126: 107079

DOI:10.1016/j.engappai.2023.107079      [本文引用: 1]

ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2472–2481.

[本文引用: 1]

YAN Q, GONG D, SHI Q, et al. Attention-guided network for ghost-free high dynamic range imaging [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1751–1760.

[本文引用: 1]

杨爱萍, 刘瑾, 邢金娜, 等

基于内容特征和风格特征融合的单幅图像去雾网络

[J]. 自动化学报, 2023, 49 (4): 769- 777

[本文引用: 1]

YANG Aiping, LIU Jin, XING Jinna, et al

Content feature and style feature fusion network for single image dehazing

[J]. Acta Automatica Sinica, 2023, 49 (4): 769- 777

[本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 558–567.

[本文引用: 1]

KINGMA D P, BA J, HAMMAD M M. Adam: a method for stochastic optimization [EB/OL]. (2014−12−22)[2024−02−03]. https://arxiv.org/abs/1412.6980v9.

[本文引用: 1]

LI B, REN W, FU D, et al

Benchmarking single image dehazing and beyond

[J]. IEEE Transactions on Image Processing, 2018, 1: 492- 505

[本文引用: 2]

MANNOS J, SAKRISON D

The effects of a visual fidelity criterion of the encoding of images

[J]. IEEE Transactions on Information Theory, 1974, 20 (4): 525- 536

DOI:10.1109/TIT.1974.1055250      [本文引用: 1]

ZHANG Y, DING L, SHARMA G. HazeRD: an outdoor scene dataset and benchmark for single image dehazing [C]// IEEE International Conference on Image Processing. Beijing: IEEE, 2017: 3205–3209.

[本文引用: 1]

CHEN D, HE M, FAN Q, et al. Gated context aggregation network for image dehazing and deraining [C]// IEEE Winter Conference on Applications of Computer Vision. Waikoloa Village: IEEE, 2019: 1375–1383.

[本文引用: 1]

ZHENG Z, REN W, CAO X, et al. Ultra-high-definition image dehazing via multi-guided bilateral learning [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 16180–16189.

[本文引用: 1]

BAI H, PAN J, XIANG X, et al

Self-guided image dehazing using progressive feature fusion

[J]. IEEE Transactions on Image Processing, 2022, 31: 1217- 1229

DOI:10.1109/TIP.2022.3140609      [本文引用: 1]

CHEN Z, HE Z, LU Z M

DEA-net: single image dehazing based on detail-enhanced convolution and content-guided attention

[J]. IEEE Transactions on Image Processing, 2024, 33: 1002- 1015

DOI:10.1109/TIP.2024.3354108      [本文引用: 1]

/