浙江大学学报(工学版), 2023, 57(9): 1885-1893 doi: 10.3785/j.issn.1008-973X.2023.09.020

电子、通信与自动控制技术

基于多级连续编码与解码的图像超分辨率重建算法

宋昭漾,, 赵小强,, 惠永永, 蒋红梅

1. 兰州理工大学 电气工程与信息工程学院,甘肃 兰州 730050

2. 甘肃省工业过程先进控制重点实验室,甘肃 兰州 730050

3. 兰州理工大学 国家级电气与控制工程实验教学中心,甘肃 兰州 730050

Image super-resolution reconstruction algorithm based on multi-level continuous encoding and decoding

SONG Zhao-yang,, ZHAO Xiao-qiang,, HUI Yong-yong, JIANG Hong-mei

1. College of Electrical Engineering and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China

2. Key Laboratory of Gansu Advanced Control for Industrial Processes, Lanzhou 730050, China

3. National Experimental Teaching Center of Electrical and Control Engineering, Lanzhou University of Technology, Lanzhou 730050, China

通讯作者: 赵小强, 男, 教授. orcid.org/0000-0001-5687-942X. E-mail: xqzhao@lut.edu.cn

收稿日期: 2022-05-24  

基金资助: 国家重点研发计划资助项目(2020YFB1713600);国家自然科学基金资助项目(61763029);甘肃省科技计划资助项目(21YF5GA072, 21JR7RA206);甘肃省教育厅产业支撑计划资助项目(2021CYZC-02)

Received: 2022-05-24  

Fund supported: 国家重点研发计划资助项目(2020YFB1713600);国家自然科学基金资助项目(61763029);甘肃省科技计划资助项目(21YF5GA072,21JR7RA206);甘肃省教育厅产业支撑计划资助项目(2021CYZC-02)

作者简介 About authors

宋昭漾(1995—),男,博士生,从事图像超分辨率研究.orcid.org/0000-0003-0754-0846.E-mail:szy@lut.edu.cn , E-mail:szy@lut.edu.cn

摘要

以卷积神经网络为模型框架的图像超分辨率重建算法难以提取低分辨率图像内部的多层次特征信息, 导致重建图像缺少丰富细节, 为此提出新的图像超分辨率重建算法. 所提算法通过初始卷积层从低分辨率图像提取浅层特征; 通过多个端对端连接的多级连续编码与解码的注意力残差模块获取低分辨率图像内部不同层级的图像特征, 按照不同的提取难度生成这些特征的权重, 重新校准不同层次的图像特征, 获取图像内部丰富的细节特征;通过上采样模块和重建卷积层将提取到的丰富细节特征和浅层特征重建成高分辨率图像. 在Set5、Set14、BSD100和Urban100测试集上进行的对比测试结果表明,使用所提算法重建的图像在客观评价指标、视觉效果上均优于使用主流算法重建的图像.

关键词: 超分辨率重建 ; 卷积神经网络 ; 多级连续编码与解码 ; 注意力 ; 多层次特征信息

Abstract

A new image super-resolution reconstruction algorithm was proposed, aiming at the problem that the image super-resolution reconstruction algorithms by using convolutional neural network as the model framework was difficult to extract multi-level feature information inside a low-resolution image, resulting in the lack of rich details in the reconstructed image. The proposed algorithm extracted shallow features from low-resolution images through initial convolution layer. Image features of different levels in a low-resolution image were obtained through a plurality of end-to-end connected multi-level continuous encoding and decoding attention residual modules, the weights of these features were generated according to different extraction difficulties, and the image features of different levels were recalibrated to obtain rich detailed features in the image. Through the up-sampling module and reconstruction convolution layer, the extracted rich detailed features and shallow features were reconstructed into high-resolution images. The comparative test results on the test sets of Set5, Set14, BSD100 and Urban100 show that the image reconstructed by the proposed algorithm is superior to the image reconstructed by a mainstream algorithm in objective evaluation index and visual effect.

Keywords: super-resolution reconstruction ; convolutional neural network ; multi-level continuous encoding and decoding ; attention ; multi-level feature information

PDF (2659KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋昭漾, 赵小强, 惠永永, 蒋红梅. 基于多级连续编码与解码的图像超分辨率重建算法. 浙江大学学报(工学版)[J], 2023, 57(9): 1885-1893 doi:10.3785/j.issn.1008-973X.2023.09.020

SONG Zhao-yang, ZHAO Xiao-qiang, HUI Yong-yong, JIANG Hong-mei. Image super-resolution reconstruction algorithm based on multi-level continuous encoding and decoding. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(9): 1885-1893 doi:10.3785/j.issn.1008-973X.2023.09.020

图像超分辨率重建旨在从低分辨率(low-resolution, LR)图像中重建出一副对应的高分辨率(high-resolution, HR)图像, 是计算机视觉的重要分支[1-2], 在生活中具有广泛的应用场景[3-5]. 许多深度学习[6-8]的算法致力于通过构建更深或更宽的神经网络模型来学习LR图像和HR图像之间复杂的映射关系[9-12].

基于卷积神经网络的图像超分辨率重建算法(super-resolution convolutional neural network, SRCNN)[13]率先通过建立卷积神经网络来学习LR图像到HR图像的映射关系. 虽然该算法较传统算法的性能有较大提升, 但是算法建立的神经网络模型结构比较简单(仅有3个卷积层), 导致该网络模型的学习性能有限. 有研究者在卷积神经网络的基础上提出一系列基于神经网络的图像超分辨率重建算法, 如基于快速的卷积神经网络图像超分辨率重建算法(fast super-resolution convolutional neural network, FSRCNN)[14]和基于高效的亚像素卷积网络图像超分辨率重建算法(Efficient sub-pixel convolutional neural network, ESPCN)[15]. 虽然这些算法拥有较强的学习复杂映射关系的能力, 但是在训练过程中容易造成梯度爆炸. 基于深度卷积网络的图像超分辨率重建算法(very deep convolution network super-resolution, VDSR)[16]在加深网络深度和扩大网络感受野的同时引入残差学习. 基于递归神经网络的图像超分辨率重建算法(deeply-recursive convolutional network, DRCN)[17]在残差学习的基础上引入全局残差网络. 基于增强的深度残差网络图像超分辨率重建算法(enhanced deep residual network for single image super-resolution, EDSR)[18]引入局部残差并去除了残差块中的批归一化层,能够构建更深的神经网络来学习复杂映射关系. 基于密集跳线连接的图像超分辨率重建算法(super-resolution using dense network, SRDenseNet)[19]将密集连接网络应用于图像超分辨率重建, 有效抑制了梯度消失问题。基于残差密集网络的图像超分辨率重建算法(residual dense network, RDN)[20]在密集块的开头和结尾增加残差连接和卷积运算进行特征降维, 使模型具有更强的学习能力. 这些算法同等对待图像的低、高频特征, 耗费了大量的计算量却未获得图像的深层特征. 受深度神经网络蓬勃发展的影响, 有研究者提出用各种网络结构和学习机制来实现更好的图像重建性能. 如1)基于深度残差通道注意力网络的图像超分辨率重建算法(residual channel attention network, RCAN)[21]引入通道注意机制来重点关注图像的高频特征并获得更好的性能, 2)基于注意力网络的注意力图像超分辨率图像算法(attention in attention network, A2N)[22]引入注意力丢失机制来动态调整注意力的权重. 这些算法难以获取LR内部的多层次信息.

本研究提出多级连续编码与解码的图像超分辨率重建算法:设计连续编码与解码模型来获取图像内部具有连续相关性的特征信息, 在连续编码与解码模型基础上设计多级连续编码与解码模型, 设计多级连续编码与解码的注意力残差模块, 构造多级连续编码与解码网络来重建HR图像.

1. 多级连续编码与解码网络

1.1. 模型框架

图1所示为多级连续编码与解码的图像超分辨率重建算法模型框架示意图. 该模型框架主要由3个部分组成, 分别为初始特征提取操作、深度特征提取操作、上采样和重建操作. 当LR图像输入该算法模型时, 1)由卷积核为 $ {\text{3}} \times {\text{3}} $的卷积层进行初始特征提取:

图 1

图 1   多级连续编码与解码的图像超分辨率重建算法的模型框架

Fig.1   Model framework of image super-resolution reconstruction algorithm based on multi-level continuous encoding and decoding


$ {F_0} = {C_{\text{3}}}({I_{{\text{LR}}}}). $

式中: $ {I_{{\text{LR}}}} $为低分辨率图像, $ {F_0} $为获得的LR图像初始特征, $ {C_{\text{3}}} $为卷积核为 $ {\text{3}} \times {\text{3}} $的卷积层运算. 该卷积层的输入通道数为3, 输出通道为64. 2)浅层特征由 $ K $个端对端连接的多级连续编码与解码的注意力残差模块进行深度特征提取, 提取的深度特征由卷积核为 $ {\text{3}} \times {\text{3}} $的中间卷积层进行融合:

$ {F_{\text{f}}} = {C_3}\left( {{H_{{K}}}\left( { \cdot \cdot \cdot {H_1}\left( {{F_0}} \right) \cdot \cdot \cdot } \right)} \right). $

式中: $ {H_1} $${H_{K}}$分别为第1个和第 $ K $个多级连续编码与解码的注意力残差模块运算, $ {F_{\text{f}}} $为提取到的深度特征. 中间卷积层的输入通道和输出通道都为64. 3)LR图像的初始特征和深度特征通过全局残差连接结合在一起, 由上采样模块和重建卷积层组合模块进行上采样和重建:

$ {F_{{\text{up}}}} = {H_{{\text{up}}}}\left( {{F_0}+{F_{\text{f}}}} \right), $

$ {I_{{\text{SR}}}} = {C_3}\left( {{F_{{\text{up}}}}} \right). $

式中: $ {H_{{\text{up}}}} $为上采样模块的运算, $ {I_{{\text{SR}}}} $为重建的SR图像, $ {F_{{\text{up}}}} $为上采样的特征. 重建卷积层的输入通道数为64, 输出通道数为3. 本研究使用的上采样模块为亚像素卷积层.

1.2. 连续编码与解码

图像内部特征信息比较复杂且有连续相关性, 为此在编码与解码模型的基础上构建连续编码与解码模型, 对比示意图如图2所示.

图 2

图 2   2种编码与解码模型的对比示意图

Fig.2   Comparison diagram of two encoding and decoding models


假设基于编码与解码模型的输入为 $ x $, 输出为 $ y $, 运算式为

$ y = {H_{{\text{De}}}}\left( {{H_{{\text{En}}}}\left( x \right)} \right). $

式中: $ {H_{{\text{En}}}} $为编码器的运算, $ {H_{{\text{De}}}} $为解码器的运算. 式(5)表示大小为 $ H \times W \times C $的输入特征 $ x $经过编码器的运算变成大小为 $ H \times W \times {C \mathord{\left/ {\vphantom {C r}} \right. } r} $的特征, 该特征经过解码器的运算恢复成大小为 $ H \times W \times C $的图像特征,其中 $ r $为压缩系数.

连续编码与解码模型不仅通过多个编码器对大小为 $ H \times W \times {C \mathord{\left/ {\vphantom {C r}} \right. } r} $的特征进行连续编码和解码, 还在相邻的编码器之间增加残差块来避免在连续编码过程中信息丢失;同样地, 该模型在相邻的解码器之间增加残差块来避免在连续解码过程中信息恢复不充分. 连续编码与解码模型的运算式为

$ \begin{split} y =& H_{{\text{De}}}^n\big( {{H_{{\text{Res}}}}\big( { \cdot \cdot \cdot {H_{{\text{Res}}}}\big( {H_{{\text{De}}}^1} } } \big( {H_{{\text{En}}}^1}\big( {{H_{{\text{Res}}}}} \big( { \cdot \cdot \cdot } \\ & {H_{{\text{Res}}}}\big( {H_{{\text{En}}}^n\big( x \big)} \big) \cdots \big)\big)\big)\big) \cdots \big)\big).\\ \end{split} $

式中: $ H_{{\text{En}}}^1 $$ H_{{\text{En}}}^n $分别为连续编码器中第1个编码器和第 $ n $个编码器的运算, $ H_{{\text{De}}}^1 $$ H_{{\text{De}}}^n $表示连续解码器中第1个解码器和第 $ n $个解码器的运算, $ {H_{{\text{Res}}}} $为残差块的运算. 式(6)表示大小为 $ H \times W \times C $的输入特征 $ x $经过多个连续的编码器和残差块的组合模块运算得到大小为 $H \times W \times {C \mathord{\left/ {\vphantom {C {{r_{{k}}}}}} \right. } {{r_{k}}}}$的特征, 该特征经过多个连续的编码器和残差块的组合模块运算得到大小为 $ H \times W \times {C \mathord{\left/ {\vphantom {C r}} \right. } r} $的最终的编码特征;对称地, 得到的编码特征经过多个解码器和残差块的组合模块运算恢复成大小为 $H \times W \times {C \mathord{\left/ {\vphantom {C {{r_{k}}}}} \right. } {{r_{k}}}}$的特征, 该特征经过多个连续的解码器和残差块的组合运算恢复成大小为 $ H \times W \times C $的图像特征.

1.3. 多级连续编码与解码

图像的像素级信息分为多个层次, 有容易重建的特征信息(如图像轮廓), 有难以重建的特征信息(如图像内部纹理和边缘),为此在连续编码与解码模型的基础上设计如图3所示的多级连续编码与解码模型. 该模型由3个不同层级的编码与解码块组成, 能够分别获取不同层级的图像特征信息, 该模型中第1层级的编码与解码块进行图像浅层的、容易提取的特征提取, 第2层级的连续编码与解码块进行复杂的图像特征提取, 第3层级的连续编码与解码块进行深层的、难以提取的图像特征提取. 具体来说, 第1层级的编码与解码块通过编码器先对特征进行编码, 再用解码器对编码的特征进行解码来获得特征:

图 3

图 3   多级连续编码与解码模型示意图

Fig.3   Schematic diagram of multi-level continuous encoding and decoding model


$ {}^1{F_{{\text{En}}}} = {H_{{\text{Res}}}}\big( {{}^1{H_{{\text{En}}}}\big( {{H_{{\text{Res}}}}\big( {x} \big)} \big)} \big), $

$ {}^1{F_{{\text{De}}}} = {H_{{\text{Res}}}}\left( {{}^1{H_{{\text{De}}}}\left( {{}^1{F_{{\text{En}}}}} \right)} \right). $

式中: $ {}^1{F_{{\text{En}}}} $为第1层级的编码特征, $ {}^1{F_{{\text{De}}}} $为第1层级的解码特征, $ {}^1{H_{{\text{En}}}} $为第1层级的编码器的运算, $ {}^1{H_{{\text{De}}}} $为第1层级的解码器的运算. 在第1层级编码的基础上, 第2层级的连续编码与解码块通过第2层级的编码器对第1层级的编码特征进行二次编码, 再用第2层级的连续解码器对第2层级的编码特征进行连续解码:

$ {}^2{F_{{\text{En}}}} = {H_{{\text{Res}}}}\left( {{}^2{H_{{\text{En}}}}\left( {{}^1{F_{{\text{En}}}}} \right)} \right), $

$ {}^2{F_{{\text{De}}}} = {H_{{\text{Res}}}}\left( {{}^2H_{{\text{De}}}^2\left( {{H_{{\text{Res}}}}\left( {{}^2H_{{\text{De}}}^1\left( {{}^2{F_{{\text{En}}}}} \right)} \right)} \right)} \right). $

式中: $ {}^2{F_{{\text{En}}}} $为第2层级的编码特征, $ {}^2{F_{{\text{De}}}} $为第2层级的解码特征, $ {}^2{H_{{\text{En}}}} $为第2层级的编码器运算, $ {}^2H_{{\text{De}}}^1 $$ {}^2H_{{\text{De}}}^2 $为第2层级的2个连续解码器运算. 在第2层级的编码的基础上, 第3层级的连续编码与解码块通过第3层级的编码器对第2层级的编码特征进行三次编码, 再用第3层级的连续解码器对第3层级的编码特征进行连续解码:

$ {}^3F_{{\text{En}}}^{} = {H_{{\text{Res}}}}\left( {{}^3H_{{\text{En}}}^{}\left( {{}^2F_{{\text{En}}}^{}} \right)} \right), $

$ {}^3F_{{\text{De}}}^{} = {H_{{\text{Res}}}}\left( {{}^3H_{{\text{De}}}^3\left( {{H_{{\text{Res}}}}\left( {{}^3H_{{\text{De}}}^2\left( {{H_{{\text{Res}}}}\left( {{}^3H_{{\text{De}}}^1\left( {{}^3F_{{\text{En}}}^{}} \right)} \right)} \right)} \right)} \right)} \right). $

式中: $ {}^3F_{{\text{En}}}^{} $为第3层级的编码特征, $ {}^3F_{{\text{De}}}^{} $为第3层级的解码特征, $ {}^3H_{{\text{En}}}^{} $为第3层级的编码器运算, $ {}^3H_{{\text{De}}}^{\text{1}} $$ {}^3H_{{\text{De}}}^{\text{2}} $$ {}^3H_{{\text{De}}}^{\text{3}} $为第3层级的3个连续解码器运算.

1.4. 多级连续编码与解码的注意力残差模块

多级连续编码与解码模型的输出包括图像内部的浅层特征、复杂特征和深层特征, 其中浅层特征容易提取且需要的计算量较小, 深层特征难以提取并需要的计算量较大. 如果在提取图像内部的特征时平等地对待这些特征, 则会消耗很大的计算量. 在有限的计算量情况下, 为了合理分配计算量并尽可能地提取到图像内部的丰富特征, 设计如图4所示的多级连续编码与解码的注意力残差模块. 该模块在多级连续编码与解码模型的基础上, 对3个层级的解码特征进行注意力运算. 具体来说, 该模块1)对3个层级的解码特征( $ {}^1{F_{{\text{De}}}} $, $ {}^2{F_{{\text{De}}}} $$ {}^3F_{{\text{De}}}^{} $)进行级联运算, 并用 $ 1 \times 1 $卷积层进行融合:

图 4

图 4   多级连续编码与解码的注意力残差模块结构示意图

Fig.4   Schematic diagram of attention residual module structure of multi-level continuous encoding and decoding


$ {F_{{\text{De}}}} = {C_1}\left( {{\text{Concat}}\left[ {{}^1{F_{{\text{De}}}},{}^2{F_{{\text{De}}}},{}^3{F_{{\text{De}}}}} \right]} \right). $

式中: $ \text{Concat}\;(\cdot) $为级联运算, $ {C_1} $为卷积核为 $ 1 \times 1 $的卷积层运算, $ {F_{{\text{De}}}} $为融合后的解码特征. 2)对融合后的解码特征进行注意力运算,包括挤压、激励和重新校准操作3个过程. 挤压操作是通过全局平均池化层将融合后的解码特征压缩到通道描述符 $ {z_{\text{c}}} $中:

$ {z_{\text{c}}} = {H_{{\text{GP}}}}({F_{{\text{De}}}}) = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{F_{{\text{De}}}}\left( {i,j} \right)} } . $

式中: $ {H_{{\text{GP}}}} $为全局平均池化操作, $ H $$ W $分别为解码特征的高度和宽度, $ \left( {i,j} \right) $为解码特征的高度和宽度坐标. 激励操作通过2个 $ 1 \times 1 $卷积层和ReLU激活函数对每个特征进行变换, 再通过Sigmoid激活函数为浅层特征、复杂特征和深层特征生成不同的权重:

$ s = \sigma \left( {W_1^2\delta \left( {W_1^1{z_{\text{c}}}} \right)} \right). $

式中: $ W_1^1 $$ W_1^2 $分别为2个 $ 1 \times 1 $卷积层的不同权重, $ \delta $为ReLU激活函数的运算, $ \sigma $为Sigmoid激活函数的运算. 重新校准操作是通过乘法重新校准解码特征中包含的浅层特征、复杂特征和深层特征的权重:

$ {\hat F_{{\text{De}}}} = {F_{{\text{De}}}} \times s. $

式中: $ {\hat F_{{\text{De}}}} $为校准后的解码特征. 3)通过局部残差连接将输入的图像特征与校准后的解码特征结合, 更新后的图像特征为

$ \hat x = x+{\hat F_{{\text{De}}}}. $

2. 实验结果与分析

2.1. 实验设备

深度学习框架为Pytorch0.4, 编程语言为Python3.6, 训练和测试使用的平台为Ubuntu18.04, CPU为Inter i9-9900 K, 内存为64 G, 使用的GPU为RTX 2080 Ti, 显存为11 G.

2.2. 实验数据集

训练集为DIV2K[23]数据集, 该数据集包含800张高清的HR图像, 100张验证图像和100张测试图像. 使用Bicubic算法处理HR图像, 生成对应的放大倍数分别为2、3、4的LR图像. 为了扩展数据集, 先对HR图像和不同放大倍数下的LR图像按照旋转角度分别为90°、180°、270°进行旋转, 再按照比例系数分别为0.6、0.7、0.8、0.9进行缩放, 最后对这些图像进行裁剪.

测试集为Set5[24]、Set14[25]、BSD100[26]和Urban100[27]数据集, 分别包含5、14、100、100张不同风格的图像(如人像、动物、风景、建筑物等). 使用Bicubic算法生成和HR图像对应的放大倍数分别为2、3、4的LR图像.

2.3. 训练和测试细节

所提算法在深度特征提取中使用64个多级连续编码与解码的注意力残差模块. 本研究使用的损失函数为 $ L_1^{} $损失函数,使用Adam[28]优化算法对损失函数进行优化. 网络训练过程中设置的批次大小为16, 迭代轮次epoch=1 000, 学习率初始为0.000 1;epoch每隔200,学习率降为原来的一半. 所提算法在测试过程中使用的性能评价指标为峰值信噪比(peak signal to noise ratio, PSNR)和结构相似度[29](structural similarity index, SSIM), 在YCbCr通道中的Y通道进行测试图像性能测试.

2.4. 实验结果与分析

将主流的7种算法(Bicubic、SRCNN[13]、FSRCNN[14]、VDSR[16]、DBPN[30]、RFDN[31]和A2N[22])与所提算法进行算法性能的对比测试. 分别在放大倍数为2、3和4的情况下,使用不同算法测试Set5、Set14、BSD100和Urban100数据集, 测试结果如表1~3所示. 相比主流算法, 在放大倍数为2、3的情况下,所提算法测试4个数据集的性能评价指标均为最优, 实现了PSNR、SSIM的较大提升。相比主流算法, 在放大倍数为4的情况下,所提算法测试Urban100数据集的性能评价指标最优. 具体来说, 对于测试集Set5、Set14、BSD100、Urban100,当放大倍数为2时, 所提算法获得的PSNR比DBPN算法获得的次优PSNR分别提升0.08、0.09、0.01、0.19 dB;当放大倍数为3时, 所提算法获得的PSNR比A2N算法获得的次优PSNR分别提升0.11、0.07、0.06、0.25 dB.当放大倍数为4时,对于Urban100测试集, 所提算法获得的PSNR比DBPN算法获得的次优PSNR值提升0.03 dB;当放大倍数为2、4时, 所提算法获得的SSIM比DBPN算法获得的次优SSIM分别提升0.001 8、0.002 8;当放大倍数为3时, 所提算法获得的SSIM比A2N算法获得的次优SSIM提升0.006 4. 所提算法在特征提取过程中通过多级连续编码与解码的注意力残差块,获取不同层级的图像特征信息, 为不同层级的图像特征信息分配不同计算量的权重, 能够尽可能多地获得图像内部丰富的细节特征, 因此相比7种主流算法, 所提算法具有较好的超分辨率重建性能, 能够实现PSNR、SSIM的较大提升.

表 1   不同图像重建算法在4个测试集上的性能评价指标(放大倍数为2)

Tab.1  Performance evaluation indicators of different image resolution algorithms on four test sets (magnification is 2)

算法 Set5 Set14 BSD100 Urban100
PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
Bicubic 33.66 0.929 9 30.24 0.868 8 29.56 0.843 1 26.88 0.840 3
SRCNN[13] 36.66 0.954 2 32.45 0.906 7 31.36 0.887 9 29.50 0.894 6
FSRCNN[14] 37.05 0.956 0 32.66 0.909 0 31.53 0.892 0 29.88 0.902 0
VDSR[16] 37.53 0.959 0 33.05 0.913 0 31.90 0.896 0 30.77 0.914 0
DBPN[30] 38.09 0.960 0 33.85 0.919 0 32.27 0.900 0 32.55 0.932 4
RFDN[31] 38.05 0.960 6 33.68 0.918 4 32.16 0.899 4 32.12 0.927 8
A2N[22] 38.06 0.960 8 33.75 0.919 4 32.22 0.900 2 32.43 0.931 1
本研究 38.17 0.961 0 33.94 0.920 8 32.28 0.901 0 32.74 0.934 2

新窗口打开| 下载CSV


表 2   不同图像重建算法在4个测试集上的性能评价指标(放大倍数为3)

Tab.2  Performance evaluation indicators of different image resolution algorithms on four test sets (magnification is 3)

算法 Set5 Set14 BSD100 Urban100
PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
Bicubic 30.39 0.868 2 27.55 0.774 2 27.21 0.738 5 24.46 0.734 9
SRCNN[13] 32.75 0.909 0 29.30 0.821 5 28.41 0.786 3 26.24 0.798 9
FSRCNN[14] 33.18 0.914 0 29.37 0.824 0 28.53 0.791 0 26.43 0.808 0
VDSR[16] 33.67 0.921 0 29.78 0.832 0 28.83 0.799 0 27.14 0.829 0
RFDN[31] 34.41 0.927 3 30.34 0.842 0 29.09 0.805 0 28.21 0.852 5
A2N[22] 34.47 0.927 9 30.44 0.843 7 29.14 0.805 9 28.41 0.857 0
本研究 34.58 0.928 8 30.51 0.845 6 29.20 0.807 9 28.66 0.863 4

新窗口打开| 下载CSV


表 3   不同图像重建算法在4个测试集上的性能评价指标(放大倍数为4)

Tab.3  Performance evaluation indicators of different image resolution algorithms on four test sets (magnification is 4)

算法 Set5 Set14 BSD100 Urban100
PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM PSNR/dB SSIM
Bicubic 28.42 0.810 4 26.00 0.702 7 25.96 0.667 5 23.14 0.657 7
SRCNN[13] 30.48 0.862 8 27.50 0.751 3 26.90 0.710 1 24.52 0.722 1
FSRCNN[14] 30.72 0.866 0 27.61 0.755 0 26.98 0.715 0 24.62 0.728 0
VDSR[16] 31.35 0.883 0 28.02 0.768 0 27.29 0.725 1 25.18 0.754 0
DBPN[30] 32.47 0.898 0 28.82 0.786 0 27.72 0.740 0 26.38 0.794 6
RFDN[31] 32.24 0.895 2 28.61 0.781 9 27.57 0.736 0 26.11 0.785 8
A2N[22] 32.30 0.896 6 28.71 0.784 2 27.61 0.737 4 26.27 0.792 0
本研究 32.37 0.897 1 28.76 0.785 7 27.55 0.734 0 26.41 0.797 4

新窗口打开| 下载CSV


为了测试所提算法的重建图像的视觉效果, 在放大倍数为4的情况下对Urban100测试集中的3张图像(img004、img061和img096)进行不同算法的对比测试, 对比测试的视觉效果图如图5~7所示. 图5中, Bicubic、SRCNN、FSRCNN和VDSR算法图像重建的小孔存在模糊问题, DBPN、RFDN和A2N算法图像重建的小孔存在严重的变形问题(如DBPN算法图像重建的小孔存在变小和变圆问题, RFDN、A2N算法图像重建的小孔存在变弯问题), 所提算法图像重建的小孔基本保持了原形状. 图6中, Bicubic、SRCNN、和FSRCNN算法图像重建的楼层存在严重的模糊问题, VDSR算法图像重建的高楼层存在严重的变形问题, DBPN、RFDN和A2N算法图像重建的楼层存在严重的锐化问题, 所提算法图像重建的楼层存在轻微的锐化问题, 不存在变形问题. 图7中, Bicubic、SRCNN、FSRCNN和VDSR算法图像重建的大楼外侧竖条出现严重的模糊不清问题, DBPN、RFDN和A2N算法图像重建的大楼外右侧竖条存在较严重的模糊问题, 重建的大楼外左侧竖条存在轻微的扭曲问题, 所提算法图像重建的大楼外侧基本没有模糊问题和扭曲问题. 综上所述, 所提算法相比主流算法不仅在性能测试指标方面实现较大提升, 而且在重建图像的细节方面也具体较好的视觉效果.

图 5

图 5   不同图像重建算法重建的img004对比图像(放大倍数为4)

Fig.5   Comparison images of img004 reconstructed by different image resolution algorithms (magnification is 4)


图 6

图 6   不同图像重建算法重建的img061对比图像(放大倍数为4)

Fig.6   Comparison images of img061 reconstructed by different image resolution algorithms (magnification is 4)


图 7

图 7   不同图像重建算法重建的img096对比图像(放大倍数为4)

Fig.7   Comparison images of img096 reconstructed by different image resolution algorithms (magnification is 4)


2.5. 多级连续编码与解码的注意力残差模块分析

假设 $ {\text{E}}{{\text{D}}1} $$ {\text{E}}{{\text{D}}2} $$ {\text{E}}{{\text{D}}3} $分别为第1、2、3层级的连续编码与解码块, $ {\text{Attention}} $为注意力残差块. 在放大倍数为4的情况下,使用DIV2K数据集分别训练由上述4个模块排列组合成的网络, 并在Set5测试集上进行测试, PSNR 如表4所示. 可以看出, 多级连续编码与解码的注意力残差模块能够获得最高的PSNR. 原因是只使用 $ {\text{E}}{{\text{D}}1} $$ {\text{E}}{{\text{D}}2} $$ {\text{E}}{{\text{D}}3} $模块的网络模型只能够获取到图像局部单一的特征, 组合使用3个模块的网络模型能够获得多层级的浅层特征、复杂特征和深层特征. 在此基础上, 结合 $ {\text{Attention}} $模块, 为获得图像内部多层级的浅层特征、复杂特征和深层特征分配不同的计算量权重, 能够尽可能地提取到图像内部丰富的细节特征.

表 4   多级连续编码与解码的注意力残差模块消融研究结果(放大倍数为4)

Tab.4  Ablation study results of attention residual module based on multi-level continuous encoding and decoding (magnification is 4)

网络 PSNR/dB
未组合ED1、ED2、ED3、Attention 31.57
ED1 31.64
ED1+ED2 32.01
ED1+ED2+ED3 32.16
ED1+ED2+ED3+Attention 32.37

新窗口打开| 下载CSV


2.6. 模型分析

使用所提算法与SRCNN、FSRCNN、VDSR、DBPN、RFDN和A2N算法在放大倍数为4的Urban100测试集中分别进行参数量n与运行时间t对比, 结果如图8所示. 相比DBPN算法,所提算法不仅参数量少, 还实现了PSNR的提升;相比A2N、RFDN、VDSR、FSRCNN和SRCNN算法, 所提算法虽然参数量较多, 但是实现了PSNR的大提升. 所提算法的运行时间比DBPN算法的运行时间少, 且近似于A2N算法的运行时间. 综上所述, 所提算法的网络模型在实现PSNR提升的同时参数量和运行时间均较少.

图 8

图 8   不同图像重建算法在Urban100测试集上的性能对比(放大倍数为4)

Fig.8   Performance comparison of different image resolution algorithms on Urban100 test set (magnification is 4)


3. 结 语

本研究提出多级连续编码与解码的图像超分辨率重建算法. 所提算法通过多级连续编码与解码的注意力残差模块从低分辨率图像中提取不同层级的特征信息, 并对这些不同层级的特征信息生成不同的权重(给浅层特征分布较小的权重, 给深度特征分布较大的权重), 尽可能地提取到图像内部的丰富特征. 实验结果表明, 在放大倍数为2、3、4的测试集(Set5、Set14、BSD100和Urban100)上, 相比主流算法, 所提算法能够实现峰值信噪比值和结构相似度值的较大提升, 同时使用所提算法重建的高分辨率图像更清晰且包含更多的细节信息. 实际应用中往往需要进行任意倍数的图像超分辨率重建,因此,在未来的研究工作中,计划在所提算法的基础上进行任意倍数的图像超分辨率重建算法研究.

参考文献

ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2472-2481.

[本文引用: 1]

ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks [C]// European Conference on Computer Vision. [S.l.]: Springer, 2018: 294-301.

[本文引用: 1]

CHEN H, GU J, ZHANG Z. Attention in attention network for image super-resolution [EB/OL]. [2022-04-21]. https://arxiv.org/pdf/2104.09497.pdf.

[本文引用: 5]

AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 126-135.

[本文引用: 1]

BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding [C]// Proceedings British Machine Vision Conference. Surrey: [s.n.], 2012: 1-10.

[本文引用: 1]

ZEYDE R, ELAD M, PROTTER M, et al. On single image scale-up using sparse-representations [C]// International Conference on Curves and Surfaces. [S.l.]: Springer, 2010: 711-730.

[本文引用: 1]

MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// Proceedings of the IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 416-423.

[本文引用: 1]

HUANG J, SINGH A, AHUJA N, et al. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 5197-5206

[本文引用: 1]

KINGMA D P, BA J L. ADAM: a method for stochastic optimization [EB/OL]. [2022-04-21]. https://arxiv.org/pdf/1412.6980.pdf.

[本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

HARIS M, SHAKHNAROVICH G, UKITA N

Deep back-projection networks for super-resolution

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (12): 4323- 4337

DOI:10.1109/TPAMI.2020.3002836      [本文引用: 3]

LIU J, TANG J, WU G. Residual feature distillation network for lightweight image super-resolution [C]// European Conference on Computer Vision. [S.l.]: Springer, 2020: 41-55.

[本文引用: 4]

CHEN H, HE X, QING L, et al

Real-world single image super-resolution: a brief review

[J]. Information Fusion, 2022, 79: 124- 145

DOI:10.1016/j.inffus.2021.09.005      [本文引用: 1]

REBECQ H, RANFTL R, KOLTUN V, et al. Events-to-video: bringing modern computer vision to event cameras [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3857-3866.

[本文引用: 1]

WANG Z, JIANG K, YI P, et al

Ultra-dense GAN for satellite imagery super-resolution

[J]. Neurocomputing, 2020, 398: 328- 373

DOI:10.1016/j.neucom.2019.03.106      [本文引用: 1]

LIU H, GU Y, WANG T, et al

Satellite video super-resolution based on adaptively spatiotemporal neighbors and nonlocal similarity regularization

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58 (12): 8372- 8383

DOI:10.1109/TGRS.2020.2987400     

YUE L, SHEN H, LI J, et al

Image super-resolution: the techniques, applications, and future

[J]. Signal Processing, 2016, 128: 389- 408

DOI:10.1016/j.sigpro.2016.05.002      [本文引用: 1]

DENG L, YU D. Deep learning: methods and applications [M]. [S.l.]: Now Foundations and Trends, 2014: 197-387.

[本文引用: 1]

JORDAN M I, MITCHELL T M

Machine learning: trends, perspectives, and prospects

[J]. Science, 2015, 349 (6245): 255- 260

DOI:10.1126/science.aaa8415     

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521: 436- 444

DOI:10.1038/nature14539      [本文引用: 1]

ANWAR S, KHAN S, BARNES N

A deep journey into super-resolution: a survey

[J]. ACM Computing Surveys, 2020, 53 (3): 1- 34

[本文引用: 1]

WANG Z, CHEN J, HOI S C H

Deep learning for image super-resolution: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3365- 3387

DOI:10.1109/TPAMI.2020.2982166     

SONG Z, ZHAO X, JIANG H

Gradual deep residual network for super-resolution

[J]. Multimedia Tools and Applications, 2021, 80: 9765- 9778

DOI:10.1007/s11042-020-10152-9     

SONG Z, ZHAO X, HUI Y, et al

Progressive back-projection network for COVID-CT super-resolution

[J]. Computer Methods and Programs in Biomedicine, 2021, 208: 106193

DOI:10.1016/j.cmpb.2021.106193      [本文引用: 1]

DONG C, LOY C C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38 (2): 295- 307

[本文引用: 5]

DONG C, LOY C C, TANG X, et al. Accelerating the super-resolution convolutional neural network [C]// European Conference on Computer Vision. [S.l.]: Springer, 2016: 391-407.

[本文引用: 5]

SHI W, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1874-1883.

[本文引用: 1]

KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1646-1654.

[本文引用: 5]

KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1637-1645.

[本文引用: 1]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 136-144.

[本文引用: 1]

TONG T, LI G, LIU X, et al. Image super-resolution using dense skip connections [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 4799-4807.

[本文引用: 1]

/