浙江大学学报(工学版), 2026, 60(4): 791-799 doi: 10.3785/j.issn.1008-973X.2026.04.011

计算机技术

基于掩模和非局部注意力的双阶段去雨网络

侯玉珍,, 沈晓红,, 李莉, 杨明源, 张彩明

1. 山东财经大学 计算机与人工智能学院,山东 济南 250014

2. 山东大学 软件学院,山东 济南 250101

3. 山东工商学院 山东省未来智能金融工程实验室,山东 烟台 264003

Dual-stage deraining network based on mask and non-local attention

HOU Yuzhen,, SHEN Xiaohong,, LI Li, YANG Mingyuan, ZHANG Caiming

1. School of Computing and Artificial Intelligence, Shandong University of Finance and Economics, Jinan 250014, China

2. School of Software, Shandong University, Jinan 250101, China

3. Shandong Future Intelligent Finance Engineering Laboratory, Shandong Technology and Business University, Yantai 264003, China

通讯作者: 沈晓红, 女, 教授. orcid.org/0000-0001-7048-9751. E-mail:xhshen@sdufe.edu.cn

收稿日期: 2025-07-14  

基金资助: 国家自然科学基金资助项目(62202268); 中央引导地方科技发展资金资助项目(YDZX2023079); 教育部人文社科资助项目(22YJA630086); 山东省重点研发计划资助项目(2024TSGC0118).

Received: 2025-07-14  

Fund supported: 国家自然科学基金资助项目(62202268);中央引导地方科技发展资金资助项目(YDZX2023079);教育部人文社科资助项目(22YJA630086);山东省重点研发计划资助项目(2024TSGC0118).

作者简介 About authors

侯玉珍(2001—),女,硕士生,从事图像处理研究.orcid.org/0009-0004-1967-7668.E-mail:houyuzhen921@163.com , E-mail:houyuzhen921@163.com

摘要

针对单图像去雨网络中雨纹噪声干扰严重与现有注意力机制空间全局建模能力不足的问题,提出基于雨纹掩模抑制和非局部重建协同的双阶段图像去雨网络. 第1阶段构建雨纹掩模注意力机制,通过形态学操作生成雨纹掩模,在特征提取时选择性遮蔽有雨区域,提高模型抑制雨纹干扰的能力;第2阶段设计非局部注意力机制,利用基于特征聚类的非局部相似性度量方法引导像素重排,打破空间约束,增强滑动窗口注意力的远距离建模能力,提升去雨效果. 双阶段设计采用“雨纹抑制-细节重建”的递进优化,实现无雨图像的高质量重建. 在多个公开数据集上的实验表明,与其他网络相比,所提网络的峰值信噪比与结构相似性指标显著提升,在有效去除雨纹的同时更好地保留了图像细节信息,能获得视觉效果更自然、细节纹理更丰富的高质量复原图像.

关键词: 图像去雨 ; Transformer ; 雨纹掩模 ; 非局部注意力 ; 特征聚类

Abstract

A dual-stage image deraining network based on rain streak mask suppression and non-local reconstruction collaboration was proposed to address severe rain streak noise interference and insufficient spatial global modeling capability of existing attention mechanisms in single-image deraining networks. In the first stage of the network, a rain streak mask attention mechanism was designed, in which rain streak masks were generated through morphological operations, to enhance the model’s ability to suppress rain streak interference by selectively masking rain-affected regions during feature extraction. In the second stage, a non-local attention mechanism was devised by employing a feature clustering-based non-local similarity measurement method to guide pixel rearrangement, which broke spatial constraints, thereby augmenting the long-range modeling capability of the sliding window attention mechanism and improving the deraining performance. Through progressive optimization based on the dual-stage “rain streak suppression-detail reconstruction” process, high-quality reconstruction of rain-free images was achieved. Experimental results on multiple public datasets demonstrate that the proposed network achieves significant improvements in both PSNR and SSIM metrics compared to other networks, effectively removing rain streaks while better preserving image details and producing high-quality restored results with natural-looking appearance and fine-grained texture representations.

Keywords: image deraining ; Transformer ; rain streak mask ; non-local attention ; feature clustering

PDF (4767KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

侯玉珍, 沈晓红, 李莉, 杨明源, 张彩明. 基于掩模和非局部注意力的双阶段去雨网络. 浙江大学学报(工学版)[J], 2026, 60(4): 791-799 doi:10.3785/j.issn.1008-973X.2026.04.011

HOU Yuzhen, SHEN Xiaohong, LI Li, YANG Mingyuan, ZHANG Caiming. Dual-stage deraining network based on mask and non-local attention. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 791-799 doi:10.3785/j.issn.1008-973X.2026.04.011

雨天采集的图像/视频常会由于雨痕的积累而出现图像质量退化,严重影响户外监控、自动驾驶、目标检测等高级视觉系统的可靠性[1]. 作为计算机视觉领域的重要研究方向,图像去雨技术旨在从受降雨干扰的退化图像中重建出原始视觉信息. 然而,相较于视频去雨可利用时序冗余和雨纹动态特性进行建模,单图像去雨任务因背景信息与雨纹信息的双重未知而更具挑战,这对算法设计提出了更高要求.

为了解决这个病态问题,早期研究工作基于先验知识构建去雨模型[2]. 然而此类方法严重依赖于经验观察,当遇到复杂多变的真实场景时往往表现出有限的适应性. 随着深度学习技术的发展,基于卷积神经网络(convolutional neural network,CNN)的图像去雨方法展现出显著优势[3]. 尽管在定量指标上超越了传统方法,但受限于其局部感受野的特性,CNN在捕获全局空间依赖关系方面仍存在瓶颈.

值得关注的是,源于自然语言处理的Transformer模型为计算机视觉任务带来了新的突破,其强大的建模全局上下文的能力被成功应用于目标检测[4]、图像分类[5]及语义分割[6]等核心视觉任务,有效弥补了CNN远距离建模的缺陷. 在此基础上,研究人员相继提出窗口注意力和通道注意力,进一步解决了在高分辨率图像恢复任务中点积注意力计算导致的计算复杂度呈平方级增长的问题.

尽管以上工作取得了优异的成绩,但是当前基于注意力机制的去雨方法仍面临2个关键性局限:1) 由于雨纹污染区域特征失真,在计算注意力权重时会引入干扰信号,从而导致雨纹去除不彻底. Li等[7]选择将受雨影响和未受雨影响区域分别进行不同的处理,提出基于区域信息的Transformer模型(regional information Transformer,Regformer),但是该方法削弱了无雨区域对有雨区域恢复过程的贡献. 2) 现有注意力机制在建模远距离空间依赖关系上仍有局限性,窗口注意力虽通过滑动窗口扩大处理范围,但要求捕捉全局依赖的多个滑动窗口注意力(shifted windows Transformer,Swin Transformer)层组成的信息传输链是连续的,否则无法获取距离较远的相似特征之间的关系[8];而通道注意力因弱化空间位置关系,难以构建远距离像素关联,从而影响去雨图像的最终恢复效果.

针对以上问题,本研究提出掩模抑制与非局部重建协同的窗口注意力方法(non-local and masked Swin Transformer,NMSFormer),该方法通过分阶段递进优化实现“雨纹抑制-细节重建”的针对性处理. 创新点如下:1) 在编码阶段提取特征时,设计雨纹掩模注意力机制,通过选择性遮蔽有雨区域,降低雨纹噪声干扰. 2) 在解码阶段,考虑到窗口注意力在建模全局依赖关系时的局限性,提出非局部注意力机制,通过像素重排使相似特征在空间上邻接,提高去雨网络的细节恢复能力.

1. 相关工作

1.1. 图像去雨工作

传统图像去雨方法建立在一定物理先验知识的基础上. 早期研究将图像去雨视为滤波问题,设计各种滤波器去除图像中的雨纹,例如Zheng等[9]利用多导滤波器对高频分量进行选择性滤波实现雨纹分离,再将高低频信息合并恢复图像;Kim等[10]则采用非局部均值滤波去除雨纹. 然而,这类方法在去除雨纹时容易破坏背景图像的细节,导致图像纹理损失. 为了克服上述限制,后续研究转向将雨纹与背景分离的方式. 主流方法是建立图像退化模型,假设雨纹层与背景层在特定特征空间具有可分离性. Chen等[11]将图像分解为低频/高频分量,通过字典学习和稀疏编码对高频分量再次分解以实现雨纹分离;Luo等[12]利用具备强互斥约束的字典学习框架,对雨纹层和背景层分别进行稀疏逼近以实现分离;Li等[13]提出高斯混合模型,通过学习雨纹层和背景层的先验信息来分解图像.

近年来,随着数据驱动的深度学习方法在计算机视觉领域取得广泛的成功,基于CNN的去雨方法逐渐取代了传统方法. Fu等[14-15]提出端到端的CNN模型对高频信息图进行雨纹去除;Ren 等[16-17]将循环神经网络架构融入到图像去雨模型中,通过递归计算逐步去除雨纹;Wang等[18]提出模型驱动的深度神经网络,结合模型驱动方法与数据驱动方法的优势,为深度网络模型提供了可解释性;Fu等[19]提出双图卷积网络,能够同时探索局部和全局信息;Yi等[20]提出结构保持去雨网络(structure-preserving de-raining network,SPDNet),无须依赖任何降雨假设,直接生成结构清晰、准确的高质量无雨图像. 然而,CNN通过卷积操作来提取局部特征,在利用层级结构捕捉图像全局信息时暴露出全局上下文建模能力不足的缺陷.

1.2. Transformer模型

ViT模型[21]凭借自注意力机制捕捉全局信息,突破了CNN模型的局部感知局限,在图像分类、 图像分割、目标检测等计算机视觉任务中取得了显著成效. 随后,为了降低处理高分辨率图像的计算复杂度,研究人员相继提出一系列以Transformer为基础的自注意力变体模型. Liu等[22]提出Swin Transformer:将图像划分为非重叠局部窗口,在每个窗口内部计算自注意力,并通过循环移位策略实现跨窗口信息交互,在保证模型性能的基础上,显著降低了计算复杂度. Zamir等[23]设计基于通道注意力的图像恢复模型(restoration Transformer,Restormer),在不依赖局部窗口划分的条件下建立全局依赖关系.

近年来,Chen等[24]构建了稀疏Transformer模型,采用top-k注意力机制替代传统自注意力,实现关键特征权重的自适应保留. 在该模型的基础上,Regformer独立处理了受雨影响和未受雨影响区域,捕获了更多的局部细节,集成了区域掩蔽注意力机制. 为了有效探索雨纹的多尺度信息,Chen等[25]结合隐式神经表示,提出双向多尺度Transformer模型(bidirectional multi-scale Transformer with implicit neural representations,NeRD-Rain),在不同特征尺度上构建不等的Transformer分支,并嵌入双向反馈传播机制实现不同尺度特征之间的交互. Ouyang等[26]提出MMamba模型(Morton-based Mamba),该模型通过基于Morton曲线的状态空间模型增强图像局部信息的保持能力,同时引入动态通道注意机制提高图像细节恢复的性能.

雨纹遮挡下细节纹理的恢复主要依赖于非局部的相似特征,然而上述方法虽然在一定程度上提高了模型的全局建模能力,但在捕捉雨纹干扰下非局部相似结构时存在局限性. 为了弥补雨纹遮挡造成的信息缺失,进一步增强模型的远距离建模能力,本研究引入雨纹抑制和非局部协同的注意力机制,旨在通过捕捉远距离的非局部相似信息,提高被遮挡细节纹理特征的恢复能力.

2. NMSFormer网络

2.1. 整体架构

本研究所提NMSFormer模型采用双阶段设计的编码器-解码器架构,逐步实现“雨纹抑制-细节重建”的递进优化,如图1所示. 第1阶段由多个级联的雨纹掩模注意力模块(masked attention block,MAB)构成,利用雨纹掩模定位雨纹,在注意力计算时对有雨区域选择性遮蔽,增强特征提取时抑制雨纹干扰的能力. 第2阶段由多个级联的非局部注意力模块(non-local attention block,NAB)组成,通过对非局部相似像素重排,构建非局部注意力机制,捕捉长距离依赖关系,实现细粒度纹理的高质量重建.

图 1

图 1   基于掩模和非局部注意力的双阶段去雨网络框架图

Fig.1   Framework of dual-stage deraining network based on mask and non-local attention


给定大小为$ {{\bf{R}}^{H \times W \times 3}} $的有雨图像,其中$H \times W$表示图像的大小,去雨网络模型工作流程如下:1)利用$ {\text{3}} \times {\text{3}} $卷积提取图像浅层特征,同时对有雨图像应用形态学运算生成雨纹掩模,将浅层特征和雨纹掩模送入编码器. 2)编码器执行多个MAB模块操作,每个MAB模块基于雨纹掩模识别雨纹像素,进行掩模注意力计算,降低雨纹对特征提取的干扰,保证后续解码过程的准确性. 3)解码器阶段执行多个级联的NAB模块操作,每个NAB模块在利用非局部相似性对像素重排后进行注意力计算,通过在更大空间范围内捕捉和利用信息,提高图像细节恢复能力,最后将像素逆映射回其原始位置以保持一致性. 同时在编码器-解码器同一级别特征之间建立跳跃连接[27]以保持模型训练的稳定性. 4)为了提取更加丰富的多尺度特征,编码器和解码器各层均配置了特定的空间分辨率和通道数,并引入像素混洗操作[28]执行采样操作. 最后,解码器的输出通过$ {\text{3}} \times {\text{3}} $卷积进行通道维度调整,同时构建全局残差连接得到输出图像. 上述过程可以表示为

$ \boldsymbol{I}_{\mathrm{c}}=\boldsymbol{I}_{\mathrm{r}}+\left(F_{\text {decoder }}\left(F_{\text {encoder }}\left(\boldsymbol{I}_{\mathrm{r}}, \boldsymbol{M}_{\text {binary }}\right)\right)\right) . $

式中:$ {\boldsymbol {I}_{\mathrm{c}}} $${\boldsymbol{I}_{\mathrm{r}}}$分别表示输出的重建图像和输入的有雨图像,$ {\boldsymbol{M}_{\rm{binary}}} $表示输入的雨纹掩模,${{F}_{\rm{encoder}}}( \cdot )$${{F}_{\rm{decoder}}}( \cdot )$分别为编码器和解码器结构.

2.2. 雨纹掩模生成模块

为了动态定位雨纹区域,首先使用形态学顶帽变换提取雨纹特征图,如图2(a)所示. 基于雨纹在亮度通道中高对比度的线性特征,使用输入图像的亮度分量$ \boldsymbol{Y} \in {{\bf{R}}^{H \times W}} $,进行形态学顶帽操作,得到雨纹特征图$ {\boldsymbol{M}_{\rm{initial}}} $. 计算过程如下:

图 2

图 2   雨纹掩模生成模块

Fig.2   Rain streak mask generation block


$ {\boldsymbol{M}_{\rm{initial}}} = \boldsymbol{Y} - \left( {\boldsymbol{Y} \circ \boldsymbol{B}} \right) . $

式中:$ \boldsymbol{Y} \circ \boldsymbol{B} $表示以结构元素B执行的开操作(先腐蚀后膨胀),B$ {\text{3}} \times 5 $矩形核,其长轴方向与雨纹典型倾斜方向一致. 雨纹通常表现为图像中细小的亮线或亮斑,而顶帽变换能够提取出图像中的亮区域. 图2(b)给出了真实雨纹特征图和本研究提取雨纹特征图的对比效果,可以看到两者在形态、分布及纹理细节上均呈现高度相似性,验证了此操作在雨纹提取中的有效性. 为了适应不同分辨率的MAB模块,须对$ {{\boldsymbol{M}}_{\rm{initial}}} $进行下采样和卷积操作实现分辨率对齐,以获取第l层编码器的雨纹特征图$ {\boldsymbol{M}}^{(l)}_{\rm{aligned}} $,计算公式为

$ \boldsymbol{M}^{(l)}_{\text {aligned }}=\operatorname{Conv}\left(\text { PixelUnShuffle }\left(\boldsymbol{M}_{\text {initial }}\right)\right) . $

式中: $ \text { PixelUnShuffle}\left( \cdot \right) $为像素混洗下采样操作, $ {\mathrm{Conv}}\left( \cdot \right) $$ {\text{3}} \times {\text{3}} $的卷积操作.

为了提高掩模生成的鲁棒性,使用动态阈值$ \tau $对雨纹特征图$ {\boldsymbol{M}}^{(l)}_{\rm{aligned}} $进行二值化,获取雨纹掩模$ {\boldsymbol{M}}^{(l)}_{\rm{binary}} $作为编码器对应层的输入. 计算公式为

$ {{M}}^{(l)}_{\text {binary }}(i, j)=\left\{\begin{array}{lc}1, & {{M}}^{(l)}_{\text {aligned }}(i, j)< \tau; \\0, & \text { 其他 }.\end{array} \right. $

式中:$ {{M}}^{(l)}_{\rm{aligned}}(i,j) $$ {{M}}^{(l)}_{\rm{binary}}(i,j) $分别是雨纹特征图$ {\boldsymbol{M}}^{(l)}_{\rm{aligned}} $和雨纹掩模$ {\boldsymbol{M}}^{(l)}_{\rm{binary}} $中第i行,第j列的元素. 雨纹掩模实现了对雨纹区域和非雨纹区域的明确定位.

2.3. 雨纹掩模注意力模块

传统Transformer架构采用全局自注意力机制,会在所有图像块间形成全连接注意力映射,导致自注意力计算受到有雨像素的影响,增加模型从退化特征中恢复目标特征的难度. 为了抑制雨纹干扰,MAB模块利用雨纹掩模筛选的无雨特征,构建雨纹掩模注意力机制,通过前馈神经网络,解耦雨纹对背景特征学习的干扰,有效提取图像关键特征. MAB模块组成如图3所示. 首先,使用雨纹掩模与键矩阵K进行内积操作筛选出干净特征,得到掩模键矩阵$ {\boldsymbol{K}}'$,计算过程如下:

图 3

图 3   雨纹掩模注意力模块(MAB)结构图

Fig.3   Structure of masked attention block(MAB)


$ {\boldsymbol{K}}' = {\boldsymbol{K}} \odot {\boldsymbol{M}}^{(l)}_{\rm{binary}} . $

式中: $ \odot $表示内积操作. 针对滑动窗口内查询矩阵$ {\boldsymbol{Q}} $、掩模键矩阵$ {\boldsymbol{K}}' $及值矩阵$ {\boldsymbol{V}} $,注意力计算重构为

$ \operatorname{Attention}\left(\boldsymbol{Q}, \boldsymbol{K}^{\prime}, \boldsymbol{V}\right)=\operatorname{Softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}'^ {\mathrm{T}}}{\sqrt{d'_k}}\right) \boldsymbol{V} . $

式中:$d'_k $为掩模键矩阵${\boldsymbol{K}}' $的维度.

通过上述过程,雨纹区域对应位置的权重被强制置零,抑制噪声特征通过注意力传播,同时保留了干净无雨区域的全局建模能力.

2.4. 非局部注意力模块

图像具有非局部的内在特性,具体表现为图像中存在大量重复的纹理和结构,即使空间位置不相邻的像素也可能具有相似的颜色和结构特征. 在图像去雨任务中,雨纹遮挡造成局部特征丢失,如边缘、轮廓、纹理等细节特征,因此要求网络具备强大的全局信息捕捉能力,有效建模远距离的空间依赖关系,以弥补局部相似特征的缺失.

传统空间注意力机制受限于局部窗口感受野,其远程建模能力主要通过级联滑动窗口构建逐级传递信息的传输链实现. 然而,这条传输链极易因路径缺失或中间节点特征衰减导致远程依赖关系建模失败. 为此,NAB模块构建邻域增强的非局部注意力机制,旨在通过非局部特征相似性引导像素重组,突破空间约束,增强远程依赖建模效率. NAB模块由基于非局部聚类的特征重组、非局部注意力计算和逆映射特征恢复3个关键组件构成,如图4所示.

图 4

图 4   非局部注意力模块(NAB)结构图

Fig.4   Structure of non-local attention block(NAB)


为了综合衡量特征图像素的灰度和结构相似性,首先采用均值滤波对特征图进行预处理. 然后,采用基于非局部聚类的特征重组,将远距离相似特征重排到一起,使远距离相似特征转变为局域相似特征,用于注意力计算,解决因窗口注意力计算传输链衰减引起的远距离建模失败.

具体而言,给定输入特征图$ {\boldsymbol{F}} \in {{\bf{R}}^{\hat H \times \hat W \times C}} $,其中,$ \hat H \times \hat W $表示特征图的大小,$C$表示特征图的通道数,对每个空间单元$ (m,n) $执行8邻域均值滤波操作,生成具有空间结构编码的新特征图$ {\boldsymbol{F}}' $,其中,$ m \in \{ 0,1, \cdots ,\hat H - 1\} $$ n \in \{ 0,1, \cdots ,\hat W - 1\} $. 新特征图$ {\boldsymbol{F}}' $沿通道维度展开为$ {\boldsymbol{F}}' \in {{\bf{R}}^{\hat H\hat W \times C}} $,并通过K-means算法将其聚类为 k个类别.

$ F_{m, n}^{\prime}=\dfrac{1}{9} \sum_{{a}=-1}^l \sum_{{b}=-1}^l F_{{m}+{a}, n+{b}} , $

$ L_{m, n}=\underset{l \in\{1,2, \cdots, k\}}{\operatorname{argmin}}\left\|F_{m, n}^{\prime}-\mu_{{k}}\right\|_2^2 . $

式中:$ F_{m,n}^{'} $为新特征图$ {\boldsymbol{F}}' $$ (m,n) $处的像素值,$ {\mu _k} $为聚类第 k类中心,$ {L_{m,n}} $为聚类后每个像素的类别号. 聚类完成后,同类像素按行优先顺序连续排列,生成结构重组特征图$ {{\boldsymbol{F}}_{{\mathrm{re}}}} $. 该设计通过强制相似非局部特征在空间上邻接,使后续注意力计算能够更高效地捕获长距离依赖关系. 特征重组后,对重组特征图执行非局部注意力计算,最终通过逆映射特征恢复函数将特征恢复至原始空间排布,以确保数据一致性,其数学描述如下:

$ \left.\begin{array}{l}\boldsymbol{F}_{\mathrm{re}}=\operatorname{Shuffle}\left(\boldsymbol{F}^{\prime}, L\right), \\\boldsymbol{X}=\operatorname{Shuffle}^{-1}\left(\operatorname{SWA}\left(\boldsymbol{F}_{\mathrm{re}}\right), L\right).\end{array}\right\} $

式中:L为所有像素的类别号组成的集合. $ {\mathrm{Shuffle}}( \cdot ) $为非局部聚类的特征重组映射函数,$ {{\mathrm{Shuffle}}^{ - 1}}( \cdot ) $为逆映射特征恢复函数,$ {\mathrm{SWA}}( \cdot ) $为非局部注意力计算函数.

3. 实验和分析

3.1. 实验设置

数据集与评估指标:本实验在4个主流去雨基准数据集上进行验证,包括:Rain200L[17]、Rain200H[17]、DID-Data [29]、DDN-Data[15]. 具体而言,Rain200L和Rain200H各包含1800组训练图像对和200组测试图像对;DID-Data和DDN-Data分别包含12000组和12600组训练图像对,以及1200组和1400组测试图像对,上述数据集均是在干净图像上添加不同密度和强度的雨纹获得的合成数据集. 为了保持与现有研究的可比性[24],本实验将以在亮度通道计算的峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性指数(structure similarity index measure,SSIM)作为定量评估指标.

实现细节如下:模型基于PyTorch框架实现,在训练过程中,使用Adam优化器进行端到端的学习. NMSFormer模型1~4级模块的数量设置为$ \{ 6,4,4,6\} $,初始通道设置为48. 在图像预处理阶段,输入图像被裁剪为$ 256 \times 256 $大小的像素块,批大小设置为8. 训练分为2阶段:首先在Rain200L数据集上训练,学习率被初始化为3×10−4,采用余弦退火策略在1.5×105次迭代后衰减至1×10−6;在其他数据集上以初始学习率1×10−4进行微调.

3.2. 测试结果

定量评估情况如下. 本研究将NMSFormer模型与常用及近期优秀方法进行了比较,包括基于先验知识的模型(GMM[12]、DSC[13]),基于CNN的模型 (DDN [14]、PreNet[16]、RCDNet[18]、DualGCN[19]、SPDNet[20]),基于Transformer的方法(Restormer[23]、DRS-foemer[24]、Regformer[7]、NeRD-Rain[25]),以及基于状态空间模型的MMamba[26]. 如表1所示呈现了本研究方法与以上方法在4个雨纹数据集上的比较结果,其中,粗体表示最优值,下划线表示次优值. 可以看出,本研究方法在不同数据集上的指标都取得了优异的成绩. 特别地,在Rain200H数据集上,NMSFormer获得了33.23 dB的PSNR,与表现最优方法Regformer相比,PSNR高出0.77 dB,表明本研究方法对去除大雨和复杂的雨纹更加有效. 在其他数据集上,PSNR和SSIM指标也接近或刷新了当前最优结果,这清楚地表明了本研究方法的有效性.

表 1   不同方法的客观评价指标对比

Tab.1  Comparison of objective evaluations of different methods

方法Rain200LRain200HDID-DataDDN-Data平均指标
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
GMM (2015)28.660.865214.500.416425.810.834427.550.847924.130.7410
DSC (2016)27.160.866314.730.381524.240.827927.310.837323.360.7333
DDN (2017)34.680.967126.050.805630.970.911630.000.904130.430.8971
PreNet (2019)37.800.981429.040.899133.170.948132.600.945933.150.9436
RCDNet (2020)39.170.988530.240.904834.080.953233.040.947234.130.9484
DualGCN (2021)40.730.988631.150.912534.370.962033.010.948934.810.9530
SPDNet (2021)40.500.987531.280.920734.570.956033.150.945734.880.9525
Restormer (2022)40.990.989032.000.934435.290.964134.200.957135.620.9612
DRSgormer (2023)41.230.989432.170.932635.350.964634.350.958835.780.9614
Regformer (2024)41.510.990032.460.935335.430.965134.380.959135.950.9624
NeRD-Rain(2024)41.710.990332.400.937335.530.965934.450.959636.020.9630
MMamba (2025)41.490.989532.430.934535.410.965534.460.959335.950.9622
本研究算法41.710.990733.230.934135.590.968034.540.961836.260.9636

新窗口打开| 下载CSV


视觉评估情况如下. 如图56所示,详尽展示了本研究方法雨纹去除的视觉结果. 如图5所示为上述方法在DID-Data数据集上的去雨效果,其中第2、4、6行是对图像局部区域的放大展示,旨在清晰呈现图像中细节变化. 在降雨场景中,白色雨纹常常与图像中竖直白色线状细节具有相似的颜色和结构,现有图像去雨模型在处理这类情况时,由于无法准确区分而将该类细节误判为雨纹去除. 如图5所示,这种误判会导致重建图像中纹理细节丢失,严重影响图像的质量和视觉效果. 而本研究方法能够更准确地识别雨纹和真实图像细节之间的差异,从而实现对雨纹的有效去除和对竖直线状细节的保留.

图 5

图 5   不同算法在 DID-Data数据集上的去雨效果对比

Fig.5   Comparison of deraining effect of different algorithms on DID-Data


图 6

图 6   不同算法在 Rain200H数据集上的去雨效果对比

Fig.6   Comparison of deraining effect of different algorithms on Rain200H


图6所示展示了上述方法在Rain200H数据集上的去雨效果. 在该数据集中,高强度的大雨对图像造成了严重的遮挡,导致图像局部纹理被掩盖,图中标注了矩形框以突出不同方法在重建被大雨严重遮挡的纹理细节时的表现. 如图6所示,现有模型难以利用有限的信息对远距离依赖关系进行有效建模,在最终的去雨结果中,矩形框内出现明显的细节缺失,视觉效果不佳. 本研究方法精准定位图像中的非局部相似背景信息,并在注意力计算时建立有效关联来恢复被雨纹遮盖的细节纹理,显著提升了去雨后图像的视觉效果.

3.3. 消融实验

为了验证本研究提出的双阶段优化框架及核心模块的有效性,设计了6组对照实验分别从阶段化架构设计、雨纹掩模注意力及非局部注意力3个维度进行系统性验证. 在实验中,利用Rain200L数据集来训练和评估网络,基线模型采用Swin Transformer模块(Swin Transformer block,STB)构成的编码器-解码器结构,6组实验如下. 1)模型1:基线模型,编码器-解码器均由STB块组成;2)模型2:编码器-解码器均由MAB块组成;3)模型3:编码器-解码器均由NAB块组成;4)模型4:编码器-解码器分别由MAB块和STB块组成;5)模型5:编码器-解码器分别由STB块和NAB块组成;6)本模型:采用“雨纹抑制-细节重建”双阶段结构,编码器-解码器分别由MAB块和NAB块组成.

消融实验结果如表2所示. 首先,验证了双阶段模型中雨纹掩模注意力和非局部注意力的必要性. 模型5相比本模型在PSNR上降低0.34 dB,模型4相较于本模型在PSNR上降低0.30 dB,充分证明了2个模块对模型整体性能的提升. 更进一步,设置了模型2、3,验证分阶段去雨的有效性. 实验数据表明,模型2、3的指标都远低于分阶段模型4、5,说明了雨纹掩模注意力和非局部注意力对编码器和解码器的适用性,雨纹掩模注意力在特征提取阶段作用更大,而非局部注意力在图像重建阶段更重要,充分证明了本研究分阶段优化策略的有效性. 去雨可视化结果如图7所示,其他网络架构在去雨后仍存在雨纹残留或细节恢复不完整问题,而本研究方法去雨效果明显优于其他网络.

表 2   本研究方法不同模块消融实验的结果

Tab.2  Results of ablation experiments on different modules of proposed method

模型编码器解码器PSNR/dBSSIM
不分阶段模型1STBSTB40.690.9852
模型2MABMAB40.990.9851
模型3NABNAB41.100.9862
分阶段模型4MABSTB41.410.9869
模型5STBNAB41.370.9871
本模型MABNAB41.710.9907

新窗口打开| 下载CSV


图 7

图 7   消融实验去雨效果对比

Fig.7   Comparison of deraining effect of ablation experiments


4. 结 语

提出双阶段NMSFormer图像去雨网络. 将图像去雨任务按照雨纹抑制、细节重建的分阶段递进优化实现;在编码阶段,利用雨纹掩模注意力机制,阻断雨纹噪声传播,提高特征表达质量;在解码阶段,构建非局部注意力机制,通过特征聚类重组策略捕捉像素间远程依赖关系,提高图像去雨的细节重建能力. 实验结果表明,在多个公开数据集中,本研究方法在PSNR和SSIM指标上表现优异,同时雨纹去除彻底,纹理细节恢复清晰,在密集雨纹干扰下仍能有效恢复图像的竖直线状细节,表现出了卓越的模型性能. 未来计划在保持模型性能的基础上,进一步优化网络结构,实现模型的轻量化.

参考文献

汤红忠, 王翔, 张小刚, 等

面向单幅图像去雨的非相干字典学习及其稀疏表示研究

[J]. 通信学报, 2017, 38 (7): 28- 35

DOI:10.11959/j.issn.1000-436x.2017149      [本文引用: 1]

TANG Hongzhong, WANG Xiang, ZHANG Xiaogang, et al

Incoherent dictionary learning and sparse representation for single-image rain removal

[J]. Journal on Communications, 2017, 38 (7): 28- 35

DOI:10.11959/j.issn.1000-436x.2017149      [本文引用: 1]

YANG W, TAN R T, WANG S, et al

Single image deraining: from model-based to data-driven and beyond

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (11): 4059- 4077

DOI:10.1109/TPAMI.2020.2995190      [本文引用: 1]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers [C]// The 16th European Conference on Computer Vision. Cham: Springer, 2020: 213–229.

[本文引用: 1]

HONG D, HAN Z, YAO J, et al

SpectralFormer: rethinking hyperspectral image classification with transformers

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1- 15

[本文引用: 1]

杨军, 张琛

基于边界点估计与稀疏卷积神经网络的三维点云语义分割

[J]. 浙江大学学报: 工学版, 2024, 58 (6): 1121- 1132

[本文引用: 1]

YANG Jun, ZHANG Chen

Semantic segmentation of 3D point cloud based on boundary point estimation and sparse convolution neural network

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (6): 1121- 1132

[本文引用: 1]

LI B, ZHANG Z, ZHENG H, et al. Diving deep into regions: exploiting regional information Transformer for single image deraining [EB/OL]. (2024-08-04) [2025 -07-01]. https://arxiv.org/abs/2402.16033.

[本文引用: 2]

ZENG K, LIN H, YAN Z, et al

Non-local self-attention network for image super-resolution

[J]. Applied Intelligence, 2024, 54 (7): 5336- 5352

DOI:10.1007/s10489-024-05343-y      [本文引用: 1]

ZHENG X, LIAO Y, GUO W, et al. Single-image-based rain and snow removal using multi-guided filter [C]// International Conference Neural Information Processing. Berlin, Heidelberg: Springer, 2013.

[本文引用: 1]

KIM J H, LEE C, SIM J Y, et al. Single-image deraining using an adaptive nonlocal means filter [C]// 2013 IEEE International Conference on Image Processing. Melbourne: IEEE, 2013: 914–917.

[本文引用: 1]

CHEN D Y, CHEN C C, KANG L W

Visual depth guided color image rain streaks removal using sparse coding

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24 (8): 1430- 1455

DOI:10.1109/TCSVT.2014.2308627      [本文引用: 1]

LIN C Y, TAO Z, XU A S, et al

Sequential dual attention network for rain streak removal in a single image

[J]. IEEE Transactions on Image Processing, 2020, 29: 6250- 6265

[本文引用: 1]

LUO Y, XU Y, JI H. Removing rain from a single image via discriminative sparse coding [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 3397–3405.

[本文引用: 2]

LI Y, TAN R T, GUO X, et al. Rain streak removal using layer priors [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2736–2744.

[本文引用: 2]

FU X, HUANG J, DING X, et al

Clearing the skies: a deep network architecture for single-image rain removal

[J]. IEEE Transactions on Image Processing, 2017, 26 (6): 2944- 2956

DOI:10.1109/TIP.2017.2691802      [本文引用: 2]

FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 1715–1723.

[本文引用: 2]

REN D, ZUO W, HU Q, et al. Progressive image deraining networks: a better and simpler baseline [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 3932-3941.

[本文引用: 2]

YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 1685–1694.

[本文引用: 3]

WANG H, XIE Q, ZHAO Q, et al. A model-driven deep neural network for single image rain removal [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 3100–3109.

[本文引用: 2]

FU X, QI Q, ZHA Z, et al. Rain streak removal via dual graph convolutional network [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2021: 1352–1360.

[本文引用: 2]

YI Q, LI J, DAI Q, et al. Structure-preserving deraining with residue channel prior guidance [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021: 4218–4227.

[本文引用: 2]

DOAOVUTSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03) [2025-07-01]. https://arxiv.org/abs/2010.11929.

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021: 9992–10002.

[本文引用: 1]

ZAMIR S W, ARORA A, KHAN S, et al. Restormer: efficient transformer for high-resolution image restoration [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 5718–5729.

[本文引用: 2]

CHEN X, LI H, LI M, et al. Learning a sparse transformer network for effective image deraining [C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 5896–5905.

[本文引用: 3]

CHEN X, PAN J, DONG J. Bidirectional multi-scale implicit neural representations for image deraining [C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 25627–25636.

[本文引用: 2]

OUYANG Z, LI W

MMamba: enhancing image deraining with Morton curve-driven locality learning

[J]. Neurocomputing, 2025, 638: 130161

DOI:10.1016/j.neucom.2025.130161      [本文引用: 2]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

SHI W, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 1874–1883.

[本文引用: 1]

ZHANG H, PATEL V M. Density-aware single image de-raining using a multi-stream dense network [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 695–704.

[本文引用: 1]

/