浙江大学学报(工学版), 2023, 57(8): 1487-1494 doi: 10.3785/j.issn.1008-973X.2023.08.002

计算机技术

基于动态注意力网络的图像超分辨率重建

赵小强,, 王泽, 宋昭漾, 蒋红梅

1. 兰州理工大学 电气工程与信息工程学院,甘肃 兰州 730050

2. 甘肃省工业过程先进控制重点实验室,甘肃 兰州 730050

3. 兰州理工大学 国家级电气与控制工程实验教学中心,甘肃 兰州 730050

Image super-resolution reconstruction based on dynamic attention network

ZHAO Xiao-qiang,, WANG Ze, SONG Zhao-yang, JIANG Hong-mei

1. School of Electrical Engineering and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China

2. Key Laboratory of Gansu Advanced Control for Industrial Processes, Lanzhou 730050, China

3. National Experimental Teaching Center of Electrical and Control Engineering, Lanzhou University of Technology, Lanzhou 730050, China

收稿日期: 2022-10-10  

基金资助: 国家自然科学基金资助项目(62263021);国家重点研发计划资助项目(2020YFB1713600);甘肃省科技计划资助项目(21YF5GA072, 21JR7RA206)

Received: 2022-10-10  

Fund supported: 国家自然科学基金资助项目(62263021);国家重点研发计划资助项目(2020YFB1713600);甘肃省科技计划资助项目(21YF5GA072,21JR7RA206)

作者简介 About authors

赵小强(1969—),男,教授,从事故障诊断、图像处理、数据挖掘研究.orcid.org/0000-0001-5687-942X.E-mail:xqzhao@lut.edu.cn , E-mail:xqzhao@lut.edu.cn

摘要

针对图像超分辨率算法在具有不同重要性的通道和空间域上采取相同的处理方式,导致计算资源无法集中利用到重要特征上的问题,提出基于动态注意力网络的图像超分辨率算法. 该算法改变了现有均等处理注意力机制的方式,通过构建的动态注意力模块对不同的注意力机制赋予动态学习的权重,以获取网络更需要的高频信息,重建高质量图片;通过特征重用的方式构建双蝶式结构,充分融合2个注意力分支的信息,弥补不同注意力机制间所缺失的特征信息. 在Set5、Set14、BSD100、Urban100和Manga109数据集上的模型评估结果表明,相较于其他主流超分辨率算法,本研究所提算法整体性能表现更好. 当放大因子为4时,相较于次优算法,所提算法在5个公开测试集上的峰值信噪比分别提升了0.06、0.07、0.04、0.15、0.15 dB.

关键词: 图像处理 ; 图像超分辨率 ; 注意力机制 ; 动态卷积 ; 双蝶式结构

Abstract

The image super-resolution algorithm adopts the same processing mode in channels and spatial domains with different importance, which leads to the failure of computing resources to concentrate on important features. Aiming at the above problem, an image super-resolution algorithm based on dynamic attention network was proposed. Firstly, the existing way of equalizing attention mechanisms was changed, and dynamic learning weights were assigned to different attention mechanisms by constructed dynamic attention modules, by which high-frequency information more needed by the network was obtained and high-quality pictures were reconstructed. Secondly, the double butterfly structure was constructed through feature reuse , which fully integrated the information from the two branches of attention and compensated for the missing feature information between the different attention mechanisms. Finally, model evaluation was conducted on Set5, Set14, BSD100, Urban100 and Manga109 datasets. Results show that the proposed algorithm has better overall performance than other mainstream super-resolution algorithms. When the amplification factor was 4, compared with the sub-optimal algorithm, the peak signal-to-noise ratio values were improved by 0.06, 0.07, 0.04, 0.15 and 0.15 dB, respectively, on the above five public test sets.

Keywords: image processing ; image super-resolution ; attention mechanism ; dynamic convolution ; double butterfly structure

PDF (1196KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵小强, 王泽, 宋昭漾, 蒋红梅. 基于动态注意力网络的图像超分辨率重建. 浙江大学学报(工学版)[J], 2023, 57(8): 1487-1494 doi:10.3785/j.issn.1008-973X.2023.08.002

ZHAO Xiao-qiang, WANG Ze, SONG Zhao-yang, JIANG Hong-mei. Image super-resolution reconstruction based on dynamic attention network. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(8): 1487-1494 doi:10.3785/j.issn.1008-973X.2023.08.002

单幅图像超分辨率(single image super-resolution, SISR)重建是计算机视觉领域中一项重要的图像处理技术,在卫星遥感[1]、医学成像[2]和人脸识别[3]等诸多领域有着广泛应用,其目的主要为从低分辨率(low resolution, LR)图像中重建出高分辨率(high resolution, HR)图像.

图像降质是一个病态过程,高-低分辨率图像之间不存在一一对应的关系,即同一张HR图像在不同环境下有不同退化方向. 早期基于插值[4]的方法使用同一个插值核而忽略图像的局部结构,无法分辨图像中存在的局部复杂结构;基于重建[5]的方法容易受到输入数据和随机噪声的影响,导致重建效果提升不显著,因此这2类方法都难以改善图像超分辨率重建的效果. 近些年,随着深度学习[6]的快速发展,Dong等[7]在图像超分辨率重建领域中运用深度学习方法,提出了基于卷积神经网络的SRCNN (super resolution using convolutional neural network)算法,实现了网络端对端的学习,但由于只进行了3层卷积操作,该算法提取的图像信息有限. 针对此问题,Dong等[8]在SRCNN算法的基础上提出FSRCNN (accelerating the super-resolution convolutional neural network)算法,该算法在上采样操作中使用反卷积层代替双三次插值,并且将网络由3层加深为8层. 随后,许多研究者在此基础上,致力于研究重建效果更好的算法. 网络的加深会带来大量参数的计算,针对此问题,Lim等[9]提出基于增强型深度残差网络的EDSR (enhanced deep residual network for single image super-resolution) 算法,该算法在残差网络的基础上将批标准化层移除,加快网络收敛速度. Tai等[10]提出基于持续记忆网络的MemNet (persistent memory network)算法,其利用密集连接结构构建了一个深度神经网络,使算法具有较强的学习LR图像与HR图像之间映射函数的能力. Ahn等[11]提出基于级联残差网络的CARN(cascading residual network)算法,通过使用局部和全局的级联模块来避免以往使用递归网络造成的信息损失. Wang等[12]提出基于自适应加权网络的AWSRN(adaptive weighted super-resolution network)算法,提出一种自适应加权多尺度重构模块,在不减少性能的情况下,通过自适应权值去除一些贡献较低的分支,来减少网络参数.

尽管上述基于深度学习的图像超分辨率算法取得了较好的重建效果,但仍存在一些问题,比如这些算法大多都通过增加网络的宽度和深度来实现更好的重建效果. 在现实世界中,高昂的计算成本限制了它们的应用[13]. 为此,一些使用注意力机制的超分辨率重建算法被提出,Dai等[14]提出基于二阶注意力网络的SAN(second-order attention network)算法,利用二阶特征的分布自适应地学习特征的内部依赖关系. Zhang等[15]提出将基于残差非局部注意网络的RNAN (residual non-local attention network)算法用于图像修复,通过在分支中提出残差局部和非局部注意力块,进一步增强网络表征能力. 上述大多数方法都专注于开发复杂的注意力模块以获得更好的性能或采用均等处理的方式来运用各种注意力机制,但是不同注意力机制所提取的特征存在不同的重要程度,均等处理的方式会使得大量计算资源分配到无用特征上,从而导致计算资源无法得到有效利用.

针对上述问题,本研究提出基于动态注意力网络(dynamic attention network, DAN)的图像超分辨率算法. 与以往均等处理注意力机制方式不同的是,本研究算法提出了动态注意力(dynamic attention, DA)模块,为2种不同注意力分支生成其相应的权重,增强高贡献特征,从而自适应地分配计算资源到重要特征上,提高模型的有效性. 其中,权重根据输入特征动态地发生变化,并且该模块在训练过程中也能自适应地学习. 同时设计了一种双蝶式(double butterfly, DB)结构,可以充分融合2个注意力分支的信息,相互弥补不同注意力在网络训练中所忽视的特征信息.

1. 动态卷积

Jia等[16]首次将动态学习的概念引入到深度学习之中,提出一种新的学习框架. Yang等[17]提出条件参数卷积,可以为每个特征学习一个特定的卷积核参数,在提升模型的尺寸与容量的同时保持高效推理. Chen等[18]提出动态卷积,与普通卷积不同的是,动态卷积没有使用单个卷积核,而是根据输入的关注度动态地聚合多个并行卷积核. Zang等[19]提出用于加速卷积神经网络的自适应卷积,基于图像内容生成可调节的卷积核,以解决卷积核之间存在冗余信息的问题. 其中,动态卷积[18]的框架图如图1所示. 图中,FC、BN分别表示全连接层和批归一化层.

图 1

图 1   动态卷积框架图

Fig.1   Dynamic convolution framework diagram


与常规卷积中单一的卷积核不同,动态卷积会根据输入自适应地调整卷积参数,通过Softmax函数集成多个并行的卷积核,其通过注意力的方式以非线性形式进行融合,不仅计算高效,而且具有更强的调整表达能力,同时无须提升网络的深度与宽度. 定义传统卷积表达式如下:

$ {{\boldsymbol{y}}} = g\left( {{{{\boldsymbol{W}}}^{\text{T}}}{{\boldsymbol{x}}}+{{\boldsymbol{b}}}} \right) . $

式中: $ {{\boldsymbol{W}}} $表示权值, $ {{\boldsymbol{b}}} $表示偏置, $ g $表示激活函数. 则动态卷积表达式如下:

$ \left. \begin{aligned} & {{\boldsymbol{y}}} = g\left( {{{{\tilde {\boldsymbol{W}}}}^{{\rm{T}}} }{{\boldsymbol{x}}}+{\tilde {\boldsymbol{b}}}} \right) ; {\tilde {\boldsymbol{W}}}\left( {{\boldsymbol{x}}} \right) = \sum\limits_{k = 1}^K {{\pi _k}\left( {{\boldsymbol{x}}} \right)} {{{\tilde {\boldsymbol{W}}}}_k} ;\\& {\tilde {\boldsymbol{b}}}\left( {{\boldsymbol{x}}} \right) = \sum\limits_{k = 1}^K {{\pi _k}\left( {{\boldsymbol{x}}} \right)} { {{\tilde {\boldsymbol{b}}}} _k} ; \sum\limits_{k = 1}^K {{\pi _k}\left( {{\boldsymbol{x}}} \right)} = 1,0 \leqslant {\pi _k}\left( {{\boldsymbol{x}}} \right) \leqslant 1 . \end{aligned}\right\} $

式中: $ {\tilde {\boldsymbol{W}}}$$ {\tilde {\boldsymbol{b}}}$分别表示注意力权值加权后的卷积核和偏置, $ {{\tilde {\boldsymbol{W}}}_k} $$ {{\tilde {\boldsymbol{b}}}_k} $分别表示第 $ k $个卷积核及其偏置, $ {\pi _k} $表示第 $ k $个卷积核的注意力权值,K为卷积核总数.

2. 基于动态注意力网络的图像超分辨率重建

2.1. 本研究算法框架

本研究提出了基于动态注意力网络的图像超分辨率重建算法,该算法整体网络结构图如图2所示. 网络框架由3部分组成,分别为浅层特征提取单元、动态融合单元和图像重建单元. 其中浅层特征提取单元由一个 $ 3 \times 3 $的卷积层组成;动态融合单元仅由32个DA模块组成;图像重建单元由上采样模块和一个 $ 3 \times 3 $的卷积层组成.

图 2

图 2   动态注意力网络结构图

Fig.2   Dynamic attention network structure diagram


假设 $ {{{\boldsymbol{I}}}_{{\rm{LR}}}} $$ {{{\boldsymbol{I}}}_{{\rm{SR}}}} $为输入的低分辨率图像和重建的高分辨率图像,首先,通过初始卷积层进行特征维度转换,从低分辨率图像中提取初始特征 $ {{{\boldsymbol{x}}}}' $

$ {{{\boldsymbol{x}}}}' = {f_0}\left( {{{{{\boldsymbol{I}}}}_{{{\rm{LR}}} }}} \right) . $

式中: $ {f_0} $为浅层特征提取函数. 紧接着,将浅层特征信息传递到多个DA模块堆叠构成链式结构的非线性映射模块中,进一步生成特征图:

$ {{\boldsymbol{x}}_n} = \left( {f_{{{\rm{DA}}} }^n\left( {f_{{{\rm{DA}}} }^{n - 1}\left( { \cdots f_{{{\rm{DA}}} }^0\left( {{\boldsymbol{x}}'} \right) \cdots } \right)} \right)} \right) . $

式中: $ f_{{{\rm{DA}}} }^i $表示第 $ i $个DA模块, $ {{\boldsymbol{x}}_n} $为第 $ n $个DA模块输出的特征图. 将提取到的深层特征信息通过跳线连接[20]的方式进行连接,以此简化学习过程,增强梯度传播,同时缓解梯度爆炸问题,具体操作如下:

$ {{{\boldsymbol{F}}}_{\rm{n}}} = {f_{\rm{f}}}\left( {{{{\boldsymbol{x}}}_n}} \right)+{{\boldsymbol{x}}}' . $

式中: $ {f_{{\rm{f}}} } $表示 $ 3 \times 3 $卷积核的卷积层运算. 随后,利用上采样模块对得到的特征信息 $ {{{\boldsymbol{F}}}_{{\rm{n}}} } $进行上采样:

$ {{{\boldsymbol{F}}}_{{\rm{up}}}} = {f_{{\rm{up}}}}\left( {{{{\boldsymbol{F}}}_{\rm{n}}}} \right) . $

式中: $ {f_{{\rm{up}}}}$表示上采样运算, ${{{\boldsymbol{F}}}_{{{\rm{up}}} }}$表示得到的上采样特征. 最后,利用重建卷积层 $ {f_{{\rm{rec}}}} $对上采样特征进行重建:

$ {{{\boldsymbol{I}}}_{{{\rm{SR}}} }} = {f_{{\rm{rec}}}}\left( {{{{\boldsymbol{F}}}_{{\rm{up}}}}} \right) . $

式中: $ {f_{{\rm{rec}}}} $表示 $ 3 \times 3 $卷积核的卷积层运算.

2.2. 动态注意力模块

先前的文献[21]表明,低分辨率图像中的信息具有丰富的低频和有价值的高频成分,使用注意力机制可以帮助网络更加关注高频特征,避免所有特征都被平等对待. 通常,在使用不同注意力机制的过程中,都是采取均等处理的方式,即通过简单的串联或并联,直接将产生的不同特征图融合,而没有考虑到不同注意力机制所提取的图像特征具有不同的重要程度,以及花费大量计算资源在相似的特征信息上的问题. 为此,本研究提出了一种可学习的DA模块,如图3所示. 图中,CA和PA分别表示通道注意力块和像素注意力块. 2种注意力结构图如图4所示.

图 3

图 3   动态注意力模块结构图

Fig.3   Dynamic attention module structure diagram


图 4

图 4   2种注意力结构图

Fig.4   Two kinds of attention structure chart


本研究所提出的DA模块可以自适应地选择更重要的特征信息,以及有侧重地平衡2条注意力支路,产生更动态的特征,从而提高深度网络的表达能力. 其中的动态模块如同动态卷积一样,可以随着输入的变换而产生变换,具体来说,每个动态模块会根据其输入特征生成相应的权重,并通过加权总和的方式控制2条不同的注意力分支:

$ {{{\boldsymbol{x}}}_n} = {f_{1 \times 1}}\left( {\pi _{n - 1}^{{{\rm{ca}}} } \times {{\boldsymbol{x}}}_{n - 1}^{{{\rm{ca}}} }+\pi _{n - 1}^{{{\rm{pa}}} } \times {{\boldsymbol{x}}}_{n - 1}^{{{\rm{pa}}} }} \right)+{{{\boldsymbol{x}}}_{n - 1}} . $

式中: $ {{\boldsymbol{x}}}_{n - 1}^{{{\rm{ca}}} } $为通道注意力分支输出结果, $ {{\boldsymbol{x}}}_{n - 1}^{{{\rm{pa}}} } $为像素注意力分支输出结果, $ \pi _{n - 1}^{{{\rm{ca}}} } $$ \pi _{n - 1}^{{{\rm{pa}}} } $分别为通道注意力分支和像素注意力分支的权重, $ {f_{1 \times 1}} $$ 1 \times 1 $卷积核的卷积层运算.

动态权重的计算过程如下:

$ {\pi _{n - 1}} = {f_{{\rm{am}}}}\left( {{{{\boldsymbol{x}}}_{n - 1}}} \right) . $

式中: $ {f_{{\rm{am}}}} $表示动态模块的函数. $ {f_{{\rm{am}}}} $过程如图3所示, $ {{{\boldsymbol{x}}}_{n - 1}} $首先经过全局平均池化,接着通过具有ReLU激活的2个全连接层,最后经过Softmax激活函数,为2个注意力分支生成归一化权重. 动态模块在训练过程中也一直处于学习过程,因此生成的权重并非固定,而是随着输入的变化而变化. 如文献[19]所述,通过约束动态权重可以促进动态模块的学习,即定义了一个约束 $ \pi _{n - 1}^{{{\rm{ca}}} }+\pi _{n - 1}^{{{\rm{pa}}} } = 1 $,通过这个约束可以压缩内核空间,以简化学习过程,减少网络训练时间.

为了弥补不同注意力间所忽视掉的特征,在2个注意力支路中添加DB结构,如图5所示. 具体来说,输入 $ {{\boldsymbol{x}}} $首先经过一个注意力模块 $ {A_1} $得到输出 $ {{{\boldsymbol{x}}}_1} $

图 5

图 5   双蝶式结构

Fig.5   Double butterfly construction


$ {{{\boldsymbol{x}}}_1} = {A_1}\left( {{\boldsymbol{x}}} \right) .$

其次,通过特征复用的方式,将所得到的输出 $ {{{\boldsymbol{x}}}_1} $输入到另一个注意力模块:

$ {{{\boldsymbol{x}}}_2} = {A_2}\left( {{{\boldsymbol{x}}}+{{{\boldsymbol{x}}}_1}} \right). $

随后,再次使用特征复用的方式,将提取到的 $ {{{\boldsymbol{x}}}_2} $输回到另一支路,进而得到相应的输出 $ {{\bf{out}}}_1 $$ {{\bf{out}}}_2 $.

3. 结果与分析

3.1. 实验数据

在训练阶段,使用公开的DIV2K[22]数据集作为训练数据集,其包含了800张2K分辨率的高清图像,对这些高分辨率图像进行90°、180°、270°旋转以及比例缩放来进行数据增强. 训练所用的低分辨率图像由高分辨率图像经过双三次下采样获得,将高分辨率图像和对应的低分辨率图像分别裁剪成尺寸为 $ 48s \times 48s $$ 48 \times 48 $的图像块,其中 $ s $表示放大倍数. 在测试阶段,使用5个标准数据集:Set5[23]、Set14[24]、BSD100[25]、Urban100[26]和Manga109[27]. 本研究在RGB通道上训练网络,在YCrCb空间中的Y通道上进行批次测试,同时使用峰值信噪比(peak signal-to-noise ratio, PSNR)[28]和结构相似度(structural similarity, SSIM)[29]进行评估.

3.2. 实验环境及参数设置

网络训练所用平台为Ubuntu18.04,编程框架为Pytorch,处理器为Intel Core i9-9900K,显卡为RTX2080Ti,11 G显存,系统内存为64 G. 网络使用Adam算法[30]进行优化,其具体参数设置为 $ \,\beta _1 = 0.9 $$ \,\beta _2 = 0.999 $$ \varepsilon = {10^{ - 8}} $. 使用 $ {L_1} $函数作为本研究网络的损失函数,图像批处理[9]大小设置为16,整个网络共训练1000个epoch,初始学习率为0.0001,每200个epoch减少一半.

3.3. 模型分析

为了保证实验的公平性,所有实验训练批次为400个epoch.

3.3.1. 注意力机制的选择

对于给定的特征图 $ {{\boldsymbol{F}}} \in {{{\bf{R}}}^{C \times H \times W}} $,其中 $ C $H$ W $表示该特征图的通道数、高度和宽度. 当特征图通过一个注意力机制 $ {H_{\rm{A}}} $时,将会产生一个注意力图 $ {H_{\rm{A}}}\left( {{\boldsymbol{F}}} \right) \in {{\bf{R}}^{{C'} \times {H'} \times {W'}}} $,其中 $ {C'} $$ {H'} $$ {W'} $取决于该注意力机制的功能,例如通道注意力机制针对通道数方面,生成一个一维注意力图( $ {{\mathbf{R}}^{C \times 1 \times 1}} $),空间注意力机制则针对高度和宽度方面生成一个二维注意力图( $ {{\mathbf{R}}^{1 \times H \times W}} $),而像素注意力机制针对通道数、高度和宽度3个方面生成一个三维注意力图( $ {{\mathbf{R}}^{C \times H \times W}} $). 当不同的注意力机制以并联的方式结合在一起时,不同维度的注意力图可能会相互产生影响.

本研究共设置了3种不同组合方式,“CA+PA”表示通道注意力模块和像素注意力模块以DB结构并行连接;“SA+PA”表示空间注意力模块和像素注意力模块以DB结构并行连接;“SA+CA”表示空间注意力模块和通道注意力模块以DB结构并行连接. 其中,通道注意力模块和像素注意力模块如图4所示,DB结构及空间注意力如图56所示. 在Set5数据集上进行测试(放大倍数s=4),统计400个epoch的平均PSNR. “CA+PA”、“SA+PA”、“SA+CA”组合方式下的平均PSNR分别为32.16、32.14、31.96 dB. 可以看出,“CA+PA”的组合方式更有利于产生较好的超分辨率重建结果,因此本研究选择“CA+PA”的组合方式.

图 6

图 6   空间注意力结构

Fig.6   Structure of spatial attention


3.3.2. 动态模块的影响

为了验证本研究所提出的动态模块的有效性,将本研究算法和无动态模块的算法进行比较. 在Set5数据集上进行测试(放大倍数s=4),统计400个epoch的平均PSNR. 无动态模块时PSNR为32.16 dB,而存在动态模块时PSNR为32.32 dB,提升了0.16 dB. 由此可见,本研究所提出的动态模块,能够有效地将计算资源分配到重要特征上,对于提升网络的学习能力,作用是明显的.

3.3.3. 双蝶式结构的影响

为了验证DB结构的提升效果,在没有动态模块的影响下,将没有DB结构的本研究算法与存在DB结构的本研究算法进行对比. 在Set5数据集上进行测试(放大倍数s=4),统计400个epoch的平均PSNR. 无DB结构时PSNR为32.10 dB,而存在DB结构时PSNR为32.16 dB,提升了0.06 dB,说明DB结构能够更好地弥补不同支路间所忽视的特征信息,有利于提升图片重建质量.

3.4. 客观效果和主观效果对比

为了验证本研究算法的有效性,进行客观效果的评估,在Set5、Set14、BSD100、Urban100和Manga109标准测试集上,将本研究算法的重建结果与当前先进的超分辨率算法Bicubic、EDSR-baseline[9]、MemNet[10]、CARN[11]、IMDN[31]、SeaNet-baseline[32]、Cross-SRN[33]和SRMDNF[34]进行2倍、3倍、4倍放大倍数下的PSNR性能对比,对比结果如表1所示. 表中,加粗的为最优结果,下划线为次优结果. 可以看出,本研究所提出的DAN的平均PSNR和SSIM均显著优于其他主流对比方法的,在Set14测试集的放大2、3、4倍的情况下,与次优结果相比,平均PSNR分别提升了0.02、0.04、0.07 dB;而在BSD100测试集的放大2、3、4倍情况下,与次优结果相比,平均PSNR提升了0.01、0.01、0.04 dB. 同时,横向来看,当放大系数为4时,在5个测试集上,与次优结果相比,平均PSNR分别提升了0.08、0.07、0.04、0.15、0.15 dB. 在参数量方面,DAN算法能够在付出较小参数量提升的情况下,获得较高的重建性能提升幅度,例如,在放大系数为4的情况下,与次优结果相比,在参数量上仅提高了41 K. 这些实验结果表明,DAN对于不同放大系数及不同类型的图像均有良好的重建效果,但其能更好地适应重建难度更大的放大倍数较大的图像,也更善于重建存在不同频段细节特征的图片,同时可以在图像超分辨率性能和模型复杂度之间取得更好的平衡.

表 1   不同SR算法在放大倍数为2、3、4时的平均PSNR与SSIM

Tab.1  Average PSNR and SSIM for different SR algorithms at magnifications of 2, 3 and 4

方法 倍数 参数量/K PSNR(dB)/SSIM
Set5 Set14 BSD100 Urban100 Manga109
Bicubic 2 33.68/0.9304 30.24/0.8691 29.56/0.8435 26.88/0.8405 30.80/0.9339
IMDN 694 38.00/0.9605 33.63/0.9177 32.19/0.8996 32.17/0.9283 38.88/0.977 4
MemNet 677 37.78/0.9597 33.28/0.9142 32.08/0.8978 31.31/0.9195 37.72/0.9740
CARN 1592 37.76/0.9590 33.52/0.9166 32.09/0.8978 31.92/0.9256 38.36/0.9765
EDSR-baseline 1370 37.99/0.9604 33.57/0.9175 32.16/0.8994 31.98/0.9272 38.45/0.9770
SRMDNF 1513 37.79/0.9600 33.32/0.9150 32.05/0.8980 31.33/0.9200
SeaNet-baseline 2102 37.99/0.9607 33.60/0.9174 32.18/0.8995 32.08/0.9276 38.48/0.9768
Cross-SRN 1296 38.03/0.9606 33.62/0.9180 32.19/0.8997 32.28/0.9290 38.75/0.9773
DAN(本研究) 1298 38.04/0.9608 33.64/0.9180 32.20/0.8998 32.26/0.9296 38.72/0.9773
Bicubic 3 30.93/0.8682 27.55/0.7742 27.21/0.7385 24.46/0.7349 26.95/0.8556
IMDN 703 34.36/0.9270 30.32/0.8417 29.09/0.8046 28.17/0.8519 33.61/0.9445
MemNet] 677 34.09/0.9248 30.00/0.8350 28.96/0.8001 27.56/0.8376 32.51/0.9369
CARN 1592 34.29/0.9255 30.29/0.8407 29.06/0.8034 28.06/0.8493 33.50/0.9440
EDSR-baseline 1500 34.37/0.9270 30.28/0.8417 29.09/0.8052 28.15/0.8527 33.49/0.9438
SRMDNF 1530 34.12/0.9250 30.04/0.8370 28.97/0.8030 27.57/0.8400
SeaNet-baseline 2471 34.36/0.9280 30.34/0.8428 29.09/0.8053 28.17/0.8527 33.40/0.9444
Cross-SRN 1296 34.43/0.9275 30.33/0.8417 29.09/0.8050 28.23/0.8535 33.65/0.9448
DAN(本研究) 1326 34.42/0.9274 30.38/0.8429 29.10/0.8052 28.24/0.8542 33.63/0.9446
Bicubic 4 28.42/0.8104 26.00/0.7027 26.96/0.6675 23.14/0.6577 24.80/0.7866
IMDN 715 32.21/0.8948 28.58/0.7811 27.56/0.7353 26.04/0.7838 30.45/0.9075
MemNet 677 31.74/0.8893 28.26/0.7723 27.40/0.7281 25.50/0.7630 29.42/0.8942
CARN 1592 32.13/0.8937 28.60/0.7806 27.58/0.7349 26.07/0.7837 30.47/0.9087
EDSR-baseline 1500 32.09/0.8938 28.58/0.7813 27.57/0.7357 26.04/0.7849 30.45/0.9082
SRMDNF 1555 31.96/0.8930 28.35/0.7770 27.49/0.7340 25.68/0.7730
SeaNet-baseline 2397 32.18/0.8948 28.61/0.7822 27.57/0.7359 26.05/0.7896 30.44/0.9088
Cross-SRN 1296 32.24/0.8954 28.59/0.7817 27.58/0.7364 26.16/0.7881 30.53/0.9081
DAN(本研究) 1337 32.32/0.8962 28.68/0.7841 27.62/0.7381 26.31/0.7936 30.68/0.9106

新窗口打开| 下载CSV


进一步进行主观效果的评估,如图7所示为在Set14、BSD100、Urban100这3种数据集上4倍放大倍数下的视觉效果图. 可以看出,DAN显著优于其他对比方法. 就Set14中的图像barbara,对于椅子上的线条纹路,虽然IMDN、CARN、EDSR_baseline可以判断出纹路间的区别,但本研究提出的DAN对于蓝色线条与杏色线条之间的纹理重建结果更为清晰并且整体视觉效果更好;就BSD100中的图像78004,对于图片中间的建筑纹路,DAN几乎完美地复原了图片中的纹理和网格信息;就Urban100中的图像img096,对于大厦右上角的区域,相比于重建质量好的CARN,DAN不仅避免了几何结构的失真现象,同时构建了更规则的纹理. 本研究提出的DAN之所以能够重建出更好的纹理和网格信息,主要得益于DB结构及DA模块:DB结构可以有效地避免特征信息的丢失;DA模块能够动态地调整不同注意力机制间的权重,进而有助于注意力机制在不同层次之间对不同特征信息进行适应性地选择.

图 7

图 7   标准测试集下4倍放大倍数下的视觉效果比较

Fig.7   Comparison of visual effects at magnification of four in standard test set


4. 结 语

本研究提出基于动态注意力网络的图像超分辨率重建算法. 通过构建的动态注意力模块,为不同注意力支路赋予权重,动态地调整不同注意力机制间的贡献,使网络更专注于所需要的信息,不仅降低了网络的计算复杂度,同时避免了均等处理方法中关注低频信息浪费计算资源的问题. 与单一的并行结合方式相比,本研究构建的双蝶式结构,更好地弥补了不同注意力机制间所遗漏的特征信息. 实验结果表明,在放大倍数为2、3、4的测试集上,本研究算法相比其他主流算法在评价性能指标和视觉效果上都能获得更好的效果. 然而在实际应用中往往需要任意倍数的图像超分辨率重建,因此,未来计划在本研究算法的基础上进行任意倍数的图像超分辨率重建算法的研究.

参考文献

SI W, HAN J, YANG Z, et al. Research on key techniques for super-resolution reconstruction of satellite remote sensing images of transmission lines [C]// Journal of Physics: Conference Series. Sanya: ICAACE, 2021: 012092.

[本文引用: 1]

DEEBA F, KUN S, DHAREJO F A, et al

Sparse representation based computed tomography images reconstruction by coupled dictionary learning algorithm

[J]. IET Image Processing, 2020, 14 (11): 2365- 2375

DOI:10.1049/iet-ipr.2019.1312      [本文引用: 1]

ZHANG F, LIU N, CHANG L, et al

Edge-guided single facial depth map super-resolution using CNN

[J]. IET Image Processing, 2020, 14 (17): 4708- 4716

DOI:10.1049/iet-ipr.2019.1623      [本文引用: 1]

LI W, LIAO W

Stable super-resolution limit and smallest singular value of restricted Fourier matrices

[J]. Applied and Computational Harmonic Analysis, 2021, 51: 118- 156

DOI:10.1016/j.acha.2020.10.004      [本文引用: 1]

吴世豪, 罗小华, 张建炜, 等

基于FPGA的新边缘指导插值算法硬件实现

[J]. 浙江大学学报: 工学版, 2018, 52 (11): 2226- 2232

[本文引用: 1]

WU Shi-hao, LUO Xiao-hua, ZHANG Jian-wei, et al

FPGA-based hardware implementation of new edge-directed interpolation algorithm

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (11): 2226- 2232

[本文引用: 1]

段然, 周登文, 赵丽娟, 等

基于多尺度特征映射网络的图像超分辨率重建

[J]. 浙江大学学报: 工学版, 2019, 53 (7): 1331- 1339

[本文引用: 1]

DUAN Ran, ZHOU Deng-wen, ZHAO Li-juan, et al

Image super-resolution reconstruction based on multi-scale feature mapping network

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (7): 1331- 1339

[本文引用: 1]

DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// European Conference on Computer Vision. Zurich: ECCV, 2014: 184-199.

[本文引用: 1]

DONG C, LOY C C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38 (2): 295- 307

[本文引用: 1]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: CVPRW, 2017: 136-144.

[本文引用: 3]

TAI Y, YANG J, LIU X, et al. Memnet: a persistent memory network for image restoration [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: ICCV, 2017: 4539-4547.

[本文引用: 2]

AHN N, KANG B, SOHN K A. Fast, accurate, and lightweight super-resolution with cascading residual network [C]// Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 252-268.

[本文引用: 2]

WANG C, LI Z , SHI J. Lightweight image super-resolution with adaptive weighted learning network [EB/OL]. [2019-04-04]. https://arxiv.org/abs/1904.02358.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 3-19.

[本文引用: 1]

DAI T, CAI J, ZHANG Y, et al. Second-order attention network for single image super-resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: CVPR, 2019: 11065-11074.

[本文引用: 1]

ZHANG Y, LI K, LI K, et al. Residual non-local attention networks for image restoration[EB/OL]. [2019-03-24]. https://arxiv.org/abs/1903.10082.

[本文引用: 1]

JIA X, BRABANDERE D B, TUYTELAARS T, et al. Dynamic filter networks for predicting unobserved views [C]// Proceedings of the European Conference on Computer Vision 2016 Workshops. Amsterdam: ECCVW, 2016: 1-2.

[本文引用: 1]

YANG B, BENDER G, LE Q V, et al. Condconv: conditionally parameterized convolutions for efficient inference [C]// Advances in Neural Information Processing Systems. 2019, 32: 767-779.

[本文引用: 1]

CHEN Y, DAI X, LIU M, et al. Dynamic convolution: attention over convolution kernels [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: CVPR, 2020: 11030-11039.

[本文引用: 2]

ZHANG Y, ZHANG J, WANG Q, et al. Dynet: dynamic convolution for accelerating convolutional neural networks [EB/OL]. [2020-04-22]. https://arxiv.org/abs/2004.10694.

[本文引用: 2]

ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks [C]// Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 286-301.

[本文引用: 1]

CHEN H, GU J, ZHANG Z. Attention in attention network for image super-resolution [EB/OL]. [2021-04-19]. https://arxiv.org/abs/2104.09497.

[本文引用: 1]

TIMOFTE R, AGUSTSSON E, VAN G L, et al. Ntire 2017 challenge on single image super-resolution: methods and results [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Hawaii: CVPRW, 2017: 114-125.

[本文引用: 1]

BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding [C]// Proceedings British Machine Vision Conference. Surrey: Springer, 2012: 1-10.

[本文引用: 1]

ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations [C]// International Conference on Curves and Surfaces. Avignon: ICCS, 2010: 711-730.

[本文引用: 1]

MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// Proceedings 18th IEEE International Conference on Computer Vision. Vancouver: ICCV, 2001: 416-423.

[本文引用: 1]

HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Santiago: IEEE, 2015: 5197-5206.

[本文引用: 1]

MATSUI Y, ITO K, ARAMAKI Y, et al

Sketch-based manga retrieval using manga109 dataset

[J]. Multimedia Tools and Applications, 2017, 76 (20): 21811- 21838

DOI:10.1007/s11042-016-4020-z      [本文引用: 1]

FEI Y, LIAN F H, YAN Y. An improved PSNR algorithm for objective video quality evaluation [C]// 2007 Chinese Control Conference. Zhangjiajie: CCC, 2007: 376-380.

[本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. [2014-12-22]. https://arxiv.org/abs/1412.6980.

[本文引用: 1]

HUI Z, GAO X, YANG Y, et al. Lightweight image super-resolution with information multi-distillation network [C]// Proceedings of the 27th ACM International Conference on Multimedia. Ottawa: ACM, 2019: 2024-2032.

[本文引用: 1]

FANG F, LI J, ZENG T

Soft-edge assisted network for single image super-resolution

[J]. IEEE Transactions on Image Processing, 2020, 29: 4656- 4668

DOI:10.1109/TIP.2020.2973769      [本文引用: 1]

LIU Y, JIA Q, FAN X, et al

Cross-srn: structure-preserving super-resolution network with cross convolution

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32 (8): 4927- 4939

[本文引用: 1]

ZHANG K, ZUO W, ZHANG L. Learning a single convolutional super-resolution network for multiple degradations [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt lake city: CVPR, 2018: 3262-3271.

[本文引用: 1]

/