基于纹理修复的双焦相机连续数字变焦算法

doi:10.3785/j.issn.1008-973X.2021.08.012

基于纹理修复的双焦相机连续数字变焦算法

宋炯辉^,, 李奇^,, 王静, 徐之海, 冯华君, 陈跃庭

1. 浙江大学光电科学与工程学院，浙江杭州 310027

2. 光学辐射重点实验室，北京 100854

Continuous digital zooming algorithm of dual-focal camera based on texture restoration

SONG Jiong-hui^,, LI Qi^,, WANG Jing, XU Zhi-hai, FENG Hua-jun, CHEN Yue-ting

1. College of Optical Science and Engineering, Zhejiang University, Hangzhou 310027, China

2. Science and Technology on Optical Radiation Laboratory, Beijing 100854, China

通讯作者: 李奇，男，副教授，博士. orcid.org/0000-0002-1672-6362. E-mail: liqi@zju.edu.cn

收稿日期: 2020-08-3

基金资助:

装备预研重点实验室基金资助项目（61424080214）；十三五民用航天资助项目

Received: 2020-08-3

Fund supported:

装备预研重点实验室基金资助项目（61424080214）；十三五民用航天资助项目

作者简介 About authors

宋炯辉（1996—），男，硕士生，从事数字图像处理研究.orcid.org/0000-0002-1848-0116.E-mail:21830051@zju.edu.cn , E-mail：21830051@zju.edu.cn

摘要

设计主要用于双焦相机成像系统的连续数字变焦算法. 该算法将双焦相机连续数字变焦问题拆分成长焦相机视场内的特征迁移问题和长焦相机视场外的纹理修复问题. 在实现细节上，该算法参考基于上下文语义的图像修复算法的思路，利用长焦相机图像的纹理信息修复短焦相机图像，并在2个问题上使用相似的网络结构来降低长焦相机视场内外细节视觉效果的差异. 实验结果表明，相比其他算法，所提算法能显著提升变焦图像的质量，有效改善长焦相机视场内外纹理细节差距较大的问题，在主客观评价上都具有更好的表现. 此外，该方法对于处于长焦相机视场外的纹理细节，具有明显的修复效果，对于实际拍摄的图像同样有效.

关键词： 双焦相机 ; 连续数字变焦 ; 上下文语义 ; 纹理修复 ; 图像修复

Abstract

A continuous digital zooming algorithm mainly for dual-focal camera imaging system was proposed. The continuous digital zooming problem of dual-focal camera was divided into the feature transfer problem in the field of view of the long-focus camera and the texture repair problem outside the field of view of the long-focus camera. The texture information of long-focus camera image was used to restore short-focus camera image referring to contextual image restoration algorithm, and a similar network structure was used to reduce the visual difference inside and outside the field of view of the long-focus camera. Experimental results show that compared with other algorithms, the proposed algorithm can improve the quality of images, improve the problem of large gap between the texture details inside and outside the field of view of the long-focus camera, and has higher subjective resolution and better visual clarity. In addition, the algorithm has an obvious repair effect on the texture details outside the field of view of the long-focus camera and also performs well for the actual images.

Keywords： dual-focal camera ; continuous digital zooming ; context ; texture restoration ; image restoration

PDF (1237KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

宋炯辉, 李奇, 王静, 徐之海, 冯华君, 陈跃庭. 基于纹理修复的双焦相机连续数字变焦算法. 浙江大学学报(工学版)[J], 2021, 55(8): 1510-1517 doi:10.3785/j.issn.1008-973X.2021.08.012

SONG Jiong-hui, LI Qi, WANG Jing, XU Zhi-hai, FENG Hua-jun, CHEN Yue-ting. Continuous digital zooming algorithm of dual-focal camera based on texture restoration. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(8): 1510-1517 doi:10.3785/j.issn.1008-973X.2021.08.012

双焦相机成像系统指由2个共光轴或平行光轴的定焦相机组成的相机系统，2个光学系统具有不同的光学参数. 出于成本以及成像系统可靠性的考虑，在航天相机以及大部分智能手机中，较少使用光学变焦的镜头，而是倾向于使用双焦相机系统. 短焦相机视场较大，但是细节分辨力不足；长焦相机可以拍摄高分辨图片并获得大量细节信息，但是视场较小. 因此，可以利用长焦图像的高频细节，提升数字变焦图像的视觉效果，特别是长焦相机视场外区域的视觉效果，通过双焦相机连续数字变焦算法来模拟光学变焦.

目前，实际使用的双焦相机连续数字变焦算法主要可以分为2类，第1类算法主要通过传统的图像插值算法和基于深度学习的图像超分辨算法，直接提升短焦相机拍摄的低分辨图像的分辨率. 在插值算法方面，Keys等^[1-2]通过对双线性插值和双三次插值算法进行改进，发明了较多自适应的插值算法. Dong等^[3-4]提出基于深度学习的图像超分辨算法，通过卷积神经网络模型直接进行从低分辨图像到高分辨图像的端到端的学习. 在卷积神经网络的基础上，Ledig等^[5]提出基于对抗生成网络的图像超分辨技术，运用生成器和判别器互相博弈学习产生更符合自然图像特点的图像，并对纹理区域进行大胆的猜测，使最终输出的图像具有较好的视觉效果. 第2类算法利用高分辨长焦相机拍摄的图像的细节信息，来提升数字变焦后图像的视觉效果. Yu等^[6]利用配准和块搜索的策略，对长焦相机视场内的图像进行分辨率提升，并使用传统的单帧超分辨算法对处于长焦相机视场外的部分进行处理. 为了提升视觉效果，Moon等^[7]提出长焦相机图像到短焦相机图像的退化模型，估计退化点扩散函数，在配准长短焦相机的图像后，以此为依据使用传统的图像恢复算法进行图像复原. Ma等^[8]在配准的基础上，将长焦和短焦相机的图像进行频带分解，在每个频带内进行图像修复，最终得到变焦图像. 赫贵然等^[9]利用特征层提取和特征块匹配的算法，运用卷积神经网络将长焦相机图像中特征块的特征信息迁移到短焦相机图像匹配的区域，并以修复后的短焦图像为基础进行数字变焦. 此外，Zhang等^[10-11]提出基于参考图像的超分辨算法，利用参考图像的相似特征来提升超分辨图像的质量.

在以上算法中，第1类算法仅能通过先将短焦图像进行固定倍率的变焦，再对变焦后图像进行下采样的算法来实现连续数字变焦，且无法充分利用长焦相机获得的纹理细节信息. 第2类算法的效果与配准或特征匹配的精度紧密相关，长焦相机视场内的区域分辨率提升效果明显高于长焦相机视场外的区域导致长焦相机视场内与视场外区域纹理细节存在一定差异，影响视觉效果.

为了解决上述问题，把双焦相机连续数字变焦问题拆分成长焦相机视场内的特征迁移问题和长焦相机视场外的纹理修复问题，借鉴基于上下文语义的图像修复算法^[12-13]的思路，利用长焦相机图像的纹理信息修复短焦相机图像，并在2个问题上使用相似的网络结构来降低长焦相机视场内外细节视觉效果的差异.

1. 相关工作

1.1. 双焦相机成像系统

双焦相机成像系统指由2个共光轴或平行光轴的定焦相机组成的相机系统，在一般情况下，双焦相机具有不同的焦距和分辨率，对应的2个成像传感器拥有相近或相同的成像面积和像素数. 典型的双焦相机成像系统获得的图像如图1所示. 长焦相机获得图像（记为 ${I_{{\rm{HR}}}}$）常常具有小视场高分辨率的特点，而短焦相机获得图像（记为 ${I_{{\rm{LR}}}}$）常常具有大视场和低分辨率的特点，由于采样定律的限制，短焦相机的空间采样率往往低于长焦相机的空间采样率，导致短焦相机获得图像缺乏高频信息，这种丟失在长焦相机和短焦相机的焦距相差较大时较明显. 在这种情况下，若简单将 ${I_{{\rm{LR}}}}$和 ${I_{{\rm{HR}}}}$进行图像融合来获得变焦图像，所得图像在图像分辨率和视觉效果上都与光学变焦所得图像存在明显差异，因此，须研究适用于双焦相机成像系统的连续数字变焦算法来得到与光学变焦图像相似的数字变焦图像.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 双焦相机成像系统示意图

Fig.1 Schematic diagram of dual-focus camera imaging system

1.2. 图像修复算法

为了解决长焦相机和短焦相机空间分辨率不匹配的问题，最直观的算法是采用图像超分辨算法对短焦相机图像进行重建. 然而，低分辨图像可以看作是高分辨图像的多对一映射，超分辨算法只会产生高分辨图像所在空间的一个子集. 图像修复算法常常被用于修复图像中的丟失区域，在样本数量足够、语义信息较明确的情况下，图像修复算法可以提供空间分辨率与高分辨图像近似的修复图像.

随着深度学习的不断发展，研究者将其运用到图像修复中^[14-16]，Zeng等^[12]根据低层特征具有更丰富的纹理细节，高层特征具有更抽象的语义这一情况，提出金字塔结构的图像修复网络，运用注意力（attention）机制，将高层特征逐层次用于指导低层特征的补全. 相较于图像修复算法须首先结合待修复区域周边信息来尽可能准确地获得待修复区域的语义，在本研究的连续数字变焦问题中，可以直接将上采样后的短焦相机图像作为待修复图像，利用短焦相机图像原有的准确的语义信息将长焦相机图像的纹理细节迁移到短焦相机图像上，从而获得高质量的变焦后图像.

2. 基于纹理修复的短焦图像细节恢复

2.1. 网络结构

网络采用生成式对抗网络的框架，整体结构如图2所示，该网络主要由三部分组成：特征迁移子网络、纹理修复子网络和判别器. 其中特征迁移子网络和纹理修复子网络借鉴了文献[12]中用到的图像修复网络的结构.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 本研究细节修复算法的流程图

Fig.2 Flow chart of proposed detail restoration algorithm

获得变焦图像 ${I_{\rm{Z}}}$的具体流程如下：根据变焦倍率M对长焦高分辨相机图像 ${I_{{\rm{HR}}}}$、短焦低分辨相机图像 ${I_{{\rm{LR}}}}$进行预处理，将其输入特征迁移子网络中，得到迁移后图像 ${I_{{\rm{trans}}}}$，再将 ${I_{{\rm{trans}}}}$输入到纹理修复子网络中，得到变焦图像 ${I_{\rm{Z}}}$，在训练阶段还须将 ${I_{\rm{Z}}}$和对应参考图像 ${I_{\rm{R}}}$共同输入到判别器中来获得生成对抗损失.

纹理修复子网络：纹理修复子网络由L层构成，除第L层外，每一层包含编码器、解码器和基于注意力机制的细节迁移模块（ATN模块），该子网络的结构如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 纹理修复子网络示意图

Fig.3 Schematic diagram of texture restoration sub-network

使用 ${\phi ^1}, \cdots ,{\phi ^{L - 1}},{\phi ^L}$来表示图像通过编码器的卷积层从低到高生成的特征，编码器生成的特征经过ATN模块处理后得到的特征可以表示为

(1) $ \left.\begin{array}{c} {\psi ^{L - 1}} = f\left( {{\phi ^{L - 1}},{\phi ^L}} \right),\\ {\psi ^{L - 2}} = f\left( {{\phi ^{L - 2}},{\psi ^{L - 1}}} \right),\\ {\vdots }\\ {\psi ^1} = f\left( {{\phi ^1},{\psi ^2}} \right) = f\left( {{\phi ^1}, \cdots f\left( {{\phi ^{L - 1}},{\phi ^L}} \right)} \right). \end{array}\right\} $

式中：f为ATN模块的操作，研究^[16]已经证实利用这种跨层的注意力转移和金字塔填充机制，可以提升缺失区域的视觉和语义连贯性.

对于第n层的ATN模块， $R_{\rm{l}}^{n + 1}$、 $R_{\rm{h}}^{n + 1}$分别表示第n+1层ATN模块生成的特征图 ${\psi ^{n + 1}}$（第L−1层为 ${\phi ^L}$）的边缘低分辨区域和中心高分辨区域，计算从低分辨区域和高分辨区域分别提取的小块的余弦相似度：

(2) $s_{i,j}^{n + 1} = \left\langle {\frac{{p_i^{n + 1}}}{{\left\| {p_i^{n + 1}} \right\|}},\;\frac{{p_j^{n + 1}}}{{\left\| {p_j^{n + 1}} \right\|}}} \right\rangle .$

式中： $p_i^{n + 1}$为从 $R_{\rm{l}}^{n + 1}$中提取的第i个小块， $p_j^{n + 1}$为从 $R_{\rm{h}}^{n + 1}$中提取的第j个小块. 将softmax函数应用在之前计算得到的相似度上，可以获得每一小块注意力机制的得分：

(3) $\alpha _{j,i}^{n + 1} = \frac{{\exp \; {s_{i,j}^{n + 1}} }}{{\displaystyle \sum\nolimits_{j = 1}^N {\exp \; {s_{i,j}^{n + 1}} } }}.$

式中：N为 $R_{\rm{h}}^{n+1} $中提取的小块总数.

在获得注意力机制的得分后，可以根据第n层编码器生成的特征 $\phi^n $的高分辨区域 $R_{\rm{h}}^n $计算得到低分辨率区域 $R_{\rm{l}}^n $中第i小块修复后的特征：

(4) $q_i^n = \sum\limits_{j = 1}^N {\alpha _{j,i}^{n{\rm{ + 1}}}q_j^n} .$

式中： $q_j^n$为从 $R_{\rm{h}}^n$中提取的第j个小块. 此外，本研究还根据文献[12]中的网络使用4组具有不同空洞间隔的空洞卷积来整合不同尺度的上下文信息，这样的设计确保了最终重建的特征中结构与上下文的一致性，从而提升修复效果.

使用 ${\varphi ^{L - 1}},{\varphi ^{L - 2}}, \cdots ,{\varphi ^1}$表示解码器生成的特征，各层的特征计算公式如下：

(5) $ \left.\begin{array}{c} {\varphi ^{L - 1}}{\rm{ = }}{\psi ^{L - 1}} \oplus {\phi ^{L - 1}},\\ {\varphi ^{L - 2}}{\rm{ = }}{\psi ^{L - 2}} \oplus g\left( {{\varphi ^{L - 1}}} \right) \oplus {\phi ^{L - 2}} ,\\ {\vdots }\\ {\varphi ^1}{\rm{ = }}{\psi ^1} \oplus g\left( {{\varphi ^2}} \right) \oplus {\phi ^1}. \end{array}\right\} $

式中： $g\left( \cdot \right)$为转置卷积运算， $ \oplus $为图像在特征通道进行拼接.

特征迁移子网络：为了提升图像整体视觉效果，本研究的特征迁移子网络采用和纹理修复子网络类似的结构. 特征迁移子网络涉及的短焦相机图像的特征一般都能在长焦相机图像中找到对应的特征，且两者的位置差异较小，因此，特征迁移子网络的网络层数较浅. 本研究采用L=2的纹理修复子网络作为特征迁移子网络.

判别器：本研究采用和SRNTT^[10]相同的判别器结构.

2.2. 损失函数

本研究网络的损失函数如下：

(6) $L = {\lambda _{\rm{G}}}{L_{\rm{G}}} + {\lambda _{{\rm{fea}}}}{L_{{\rm{fea}}}} + {\lambda _{{\rm{per}}}}{L_{{\rm{per}}}} + {\lambda _{{\rm{rec}}}}{L_{{\rm{rec}}}}.$

式中： ${L_{\rm{G}}}$为生成对抗损失， ${L_{{\rm{fea}}}}$为特征迁移损失， ${L_{{\rm{per}}}}$为感知损失， ${L_{{\rm{rec}}}}$为重构损失， ${\lambda _{\rm{G}}}$、 ${\lambda _{{\rm{fea}}}}$、 ${\lambda _{{\rm{per}}}}$、 ${\lambda _{{\rm{rec}}}}$分别为对应损失的权重系数.

生成对抗网络可以生成清晰且视觉上令人满意的图像. 本研究采用WGAN-GP网络^[17]，生成对抗损失可以表示为

(7) $ \begin{split} {L_{\rm{D}}} = \;& \mathop {{E}}\limits_{{\tilde x} \sim {{{P}}_{\rm{g}}}} \left[ {D\left( {{\tilde x}} \right)} \right] - \mathop {{E}}\limits_{x \sim {{{P}}_{\rm{r}}}} \left[ {D\left( x \right)} \right] +\\ \;& \lambda \mathop {{E}}\limits_{\hat x \sim {{{P}}_{\hat x}}} \left[ {{{\left( {{{\left\| {{\nabla}D\left( {\hat x} \right)} \right\|}_2} - 1} \right)}^2}} \right], \end{split} $

(8) ${L_{\rm{G}}} = - \mathop {{E}}\limits_{{\tilde x} \sim {{{P}}_{\rm{g}}}} \left[ {D\left( {{\tilde x}} \right)} \right].$

式中： ${L_{\rm{D}}}$为判别器损失， ${{E}}\left( \cdot \right)$为计算数学期望， $D\left( \cdot \right)$为判别器的输出， $x$、 $\tilde x$、 $\hat x$分别为真实图像、生成的图像和由前两者插值得到的图像， ${{{P}}_{\rm{g}}}$、 ${{{P}}_{\rm{r}}}$、 ${{{P}}_{\hat x}}$分别为对应图像的分布.

采用特征迁移损失来避免特征迁移模块在迁移长焦相机视场内细节时从与原特征距离较远处迁移特征，L_fea可以表示为

(9) ${L_{{\rm{fea}}}} = \sum\limits_l^L {\frac{1}{{{N^l}}}\sum\limits_i^N {{{\left\| {\left( {{x_{i,}}\;{y_i}} \right) - \left( {{x_{j,}}\;{y_j}} \right)} \right\|}_2}} } .$

式中： ${N^l}$为第l层迁移的特征的像素数量， $\left( {{x_{i,}}\;{y_i}} \right)$和 $\left( {{x_{j,}}\;{y_j}} \right)$分别为特征在短焦相机图像中的坐标和对应迁移的特征在长焦图像中的坐标.

感知损失利用预训练完成的VGG19网络^[18]，已经被证明可以改善图像的视觉效果，更好地还原出图像的纹理细节，可以表示为

(10) ${L_{{\rm{per}}}} = \frac{1}{{{C_i}{H_i}{W_i}}}\left\| {\phi _i^{{\rm{vgg}}}\left( {{I_{\rm{Z}}}} \right) - \phi _i^{{\rm{vgg}}}\left( {{I_{\rm{R}}}} \right)} \right\|_2^2.$

式中： $\phi _i^{{\rm{vgg}}}\left( \cdot \right)$为第i层VGG19网络生成的特征图， $\left( {{C_i},{H_i},{W_i}} \right)$为第i层特征图的尺寸.

本研究使用生成图像和参考图像之间的L₁范数衡量两者的相似性，可以表示为

(11) ${L_{{\rm{rec}}}} = \frac{1}{{CHW}}{\left\| {{I_{\rm{Z}}} - {I_{\rm{R}}}} \right\|_1}.$

式中：（C，H，W）为参考图像的尺寸.

3. 实验与分析

3.1. 实验环境及数据集

为了验证算法的有效性，将本研究的模型在常见的图像超分辨率任务数据集上进行训练，在Set14、BSD100数据集上进行测试. 实验中模拟的长焦相机和短焦相机的焦距之比为4，使用NVIDIA 1080Ti显卡进行训练. ${\lambda _{{\rm{rec}}}}$、 ${\lambda _{\rm{G}}}$、 ${\lambda _{{\rm{per}}}}$、 ${\lambda _{{\rm{fea}}}}$分别为1、1×10⁻³、1×10⁻²和1×10⁻³. 使用 ${\;\beta _{\rm{1}}}{\rm{ = 0}}{\rm{.9}}$， ${\;\beta _{\rm{2}}}{\rm{ = 0}}{\rm{.999}}$、 $\varepsilon {\rm{ = 1}} \times {10^{ - 8}}$的Adam优化器，学习率为1×10⁻⁴.

由于本研究所使用的数据集并不专门用于双焦相机连续数字变焦任务的训练，因此，须对数据集进行预处理来模拟双焦相机获得的图像. 在数据集预处理过程中，每幅图像会随机生成3个不同的变焦倍率M，一组训练集图像的示意图如图4所示. 将不同倍率的图像组成训练集可以实现数据的扩充，并能使网络模型在不同的变焦倍率下都能有较好的效果，提升算法鲁棒性.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 数据集中的一组训练集图像

Fig.4 Training set images in dataset

3.2. 整体仿真情况

对本研究提出的连续数字变焦算法流程进行仿真实验，将实验结果与传统插值算法、基于参考图像的超分辨算法TTSR^[11] 进行比较，并在一些实验中与其他双焦图像连续数字变焦算法^[9]的结果进行比较. 连续变焦的仿真结果如图5所示. 同时，为了体现本研究算法在不同图像中的鲁棒性，选取不同图像不同变焦倍率进行仿真实验，结果如图6所示. 图中，白色框内代表长焦相机视场. 此外，使用定量评价指标峰值信噪比（peak signal to noise ratio，PSNR）对不同变焦倍率下图像整体质量以及长焦相机视场内、外区域图像质量分别进行评价，结果如表1、2所示.可以看出，利用本研究算法得到的变焦图像可以更好地还原被拍摄景物的整体纹理细节，且在长焦相机视场外的细节恢复效果上具有明显优势，相比于其他算法，本研究算法恢复的细节更加清晰、锐利. 这是因为在语义信息较为明确的情况下，图像修复算法更可能提供空间分辨率和长焦相机视场内图像近似的修复图像，前提是该纹理细节在长焦相机视场内有相似纹理. 这里所说的相似纹理，不仅包括视觉上可以直观看到的相似纹理，也包括通过编码器生成的特征图中相似的特征. 如图7所示为该问题进一步的仿真结果示例. 图中，中央方框内为长焦相机视场区域. 可以看出，粗线框内头巾的花纹部分在长焦相机视场内、外部分并不相同，且存在桌布花纹的干扰，本研究的算法可以较好地修复长焦相机视场外的花纹，且未明显出现花纹反向或者模糊的情况.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同算法连续数字变焦的仿真实验结果

Fig.5 Simulation results of continuous digital zoom using different algorithms

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同图像不同变焦倍率的仿真实验结果

Fig.6 Simulation results of different images and different zoom magnifications

表 1 不同算法不同变焦倍率的峰值信噪比

Tab.1 PSNR of different zoom magnifications and algorithms

算法	×1.2	×1.4	×1.6	×1.8	×2.0	×2.2	×2.4	×2.6	×2.8	×3.0	×3.2	×3.4	×3.6	×3.8
双三次插值	35.01	32.93	31.49	30.38	29.55	28.87	28.31	27.89	27.51	27.19	26.89	26.60	26.35	26.07
TTSR^[11]	39.79	36.73	34.53	33.27	32.15	31.29	30.56	29.98	29.53	29.19	28.87	28.55	28.29	27.96
文献[9]算法	39.11	36.29	34.05	33.11	32.03	31.07	30.19	29.53	29.02	28.68	28.22	27.89	27.43	27.18
本研究算法	39.46	36.33	34.18	33.25	32.32	31.56	30.89	30.17	29.71	29.43	29.06	28.77	28.50	28.05

新窗口打开| 下载CSV

表 2 不同算法长焦相机视场内外的峰值信噪比

Tab.2 PSNR of inside and outside field of view of long-focal camera

视场	算法	×1.5	×2.0	×2.5	×3.0	×3.5
长焦相机视场内	双三次插值	32.03	29.81	28.06	27.12	26.49
	TTSR^[11]	37.57	34.23	32.04	30.41	29.88
	文献[9]算法	36.56	33.44	31.10	29.39	28.53
	本研究算法	37.75	34.21	31.93	30.28	29.71
长焦相机视场外	双三次插值	32.25	29.42	27.94	27.26	26.47
	TTSR^[11]	35.21	31.45	29.08	27.62	27.93
	文献[9]算法	34.80	31.54	29.01	27.76	27.31
	本研究算法	34.72	31.69	29.58	28.33	28.24

新窗口打开| 下载CSV

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 长焦相机视场外纹理修复效果对比

Fig.7 Comparison of texture restoring effects for field out of view of long-focal camera

从定量分析结果可以看出，本研究处理结果优于传统插值和其他连续数字变焦算法的结果，但在变焦倍数较低时，其PSNR略低于图像超分辨算法的. 可能原因如下：一是在损失函数的设计上使用感知损失和基于L₁范数的重构损失，已有研究表明基于L₂范数的重构损失在图像超分辨任务中可以获得较好的PSNR，但是使用感知损失和基于L₁范数的重构损失可以获得更真实的纹理，提升视觉效果；二是长焦相机视场外、短焦相机视场内的细节修复是基于图像修复算法进行的，在变焦倍率较低时，须进行修复的区域过大，图像修复算法受到了一定的影响；三是本研究算法采用基于GAN的网络框架，已有研究表明，GAN网络虽然可以生成更自然、更逼真的纹理细节，但是在一定程度上会影响生成图片的PSNR.

3.3. 过渡区域的视觉效果

本研究的变焦算法以短焦相机图像为基础，且在特征迁移网络和图像修复网络中使用相似的网络结构，因此在长焦相机视场内、外能够较自然地进行过渡. 如图8所示为该问题的仿真结果示例. 图中，粗线框内为长焦相机视场内的部分区域. 可以看出，虽然基于参考图像的图像超分辨算法在粗线框内部有更尖锐的纹理细节，但是在粗线框内、外，右图胡子部分过渡较为自然，而左图胡子部分存在明显的差异.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 过渡区域视觉效果对比

Fig.8 Comparison of visual effects in transition areas

3.4. 实拍图像处理结果

为了验证本研究算法在实拍图像中的有效性，选取一处景物拍摄一组长焦高分辨、短焦低分辨图像. 将拍摄得到的图像分别使用传统插值算法、基于参考图像的图像超分辨算法和本研究算法进行处理，得到如图9 所示的变焦图. 可以看出. 本研究算法比传统插值和超分辨算法更好地还原景物细节，边缘也更加锐利. 同时，相比于基于参考图像的图像超分辨算法，本研究数字变焦后的结果噪声相对不明显. 此外，本研究算法所得结果的色调和白平衡都以短焦相机图像为基准，无须事先进行预处理操作.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 真实图像实验结果

Fig.9 Experimental result of real images

4. 结　语

提出基于纹理修复的双焦图像连续数字变焦算法，实验结果表明，对一定范围内给定的任意变焦倍数，利用本研究所提算法可以得到比传统插值算法和超分辨算法质量更好的数字变焦图像. 总结来说，主要有以下优势.

1）清晰度高，可以充分利用长焦相机图像修复景物细节. 实验结果表明，本研究算法可以利用长焦相机视场内的纹理细节来修复长焦相机视场外的可修复纹理，更好地还原被拍摄景物的细节.

2）过渡效果自然. 本研究算法以短焦相机图像为基础，且在特征迁移网络和图像修复网络中使用了相似的网络结构，实验结果表明，在长焦相机视场内与长焦相机视场外的边缘过渡区域，本研究算法能够获得过渡自然的图像.

3）算法具有较好的鲁棒性. 利用单应性矩阵对长焦相机图像进行扭曲，模拟实际应用中存在的2个相机之间光轴不平行的问题，实验结果表明，本研究算法能得到完整自然的变焦图像. 因此在实际应用中无须对长焦相机图像和短焦相机图像进行复杂的预处理操作.

所提算法存在以下不足.

1）虽然本研究算法相较于之前的双焦图像连续数字变焦算法在处理时间上有了明显的提升，但是这一算法仍然不能满足拍摄场景的实时变焦，须在拍摄完成后花费一定时间进行后处理.

2）在变焦倍率较低的情况下，由于须修复的区域过大，在客观评价指标上与图像超分辨算法相比存在差距.

3）当长焦相机视场内完全不存在与长焦相机视场外、短焦相机视场内的纹理相似的纹理时，本研究的网络对这些纹理细节有一些修复效果，但修复效果仍有一定的提升空间.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

KEYS R

Cubic convolution interpolation for digital image processing

[J]. Speech and Signal Processing, 1981, 29 (6): 1153- 1160

DOI:10.1109/TASSP.1981.1163711 [本文引用: 1]

[2]

LI X

New edge-directed interpolation

[J]. IEEE Transactions on Image Processing, 2001, 10 (10): 1521- 1527

DOI:10.1109/83.951537 [本文引用: 1]

[3]

DONG C, LOY C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38 (2): 295- 307

DOI:10.1109/TPAMI.2015.2439281 [本文引用: 1]

[4]

KIM J, LEE J, LEE K. Accurate image super-resolution using very deep convolutional networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 1646-1654.

[本文引用: 1]

[5]

LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii: IEEE, 2017: 4681-4690.

[本文引用: 1]

[6]

YU S, MOON B, KIM D, et al

Continuous digital zooming of asymmetric dual camera images using registration and variational image restoration

[J]. Multidimensional Systems and Signal Processing, 2018, 29 (4): 1959- 1987

DOI:10.1007/s11045-017-0534-4 [本文引用: 1]

[7]

MOON B, YU S, KO S, et al

Continuous digital zooming using local self-similarity-based superresolution for an asymmetric dual camera system

[J]. Journal of the Optical Society of America A-optics Image Science and Vision, 2017, 34 (6): 991- 1003

DOI:10.1364/JOSAA.34.000991 [本文引用: 1]

[8]

MA H, LI Q, XU Z, et al

Photo-realistic continuous digital zooming for an asymmetrical dual camera system

[J]. Optics and Laser Technology, 2019, 109: 110- 122

DOI:10.1016/j.optlastec.2018.07.056 [本文引用: 1]

[9]

赫贵然, 李奇, 冯华君, 等

基于CNN特征提取的双焦相机连续数字变焦

[J]. 浙江大学学报: 工学版, 2019, 53 (6): 1182- 1189

URL [本文引用: 5]

HE Gui-ran, LI Qi, FENG Hua-jun, et al

Dual-focal camera continuous digital zoom based on CNN and feature extraction

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (6): 1182- 1189

URL [本文引用: 5]

[10]

ZHANG Z, WANG Z, LIN Z, et al. Image super-resolution by neural texture transfer[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Bench: IEEE, 2019: 7982-7991.

[本文引用: 2]

[11]

YANG F, YANG H, FU J, et al. Learning texture transformer network for image super-resolution[C]// 2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 5791-5800.

[本文引用: 5]

[12]

ZENG Y, FU J, CHAO H, et al. Learning pyramid-context encoder network for high-quality image inpainting[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Bench: IEEE, 2019: 1486-1494.

[本文引用: 4]

[13]

YI Z, TANG Q, AZIZI S, et al. Contextual residual aggregation for ultra high-resolution image inpainting[C]// 2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 7508-7517.

[本文引用: 1]

[14]

PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2536-2544.

[本文引用: 1]

[15]

SATOSHI I, EDGAR S, HIROSHI I

Globally and locally consistent image completion

[J]. ACM Transactions on Graphics, 2017, 36 (4): 107

[16]

YU J, LIN Z, YANG J, et al. Generative image inpainting with contextual attention[C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 5505-5514.

[本文引用: 2]

[17]

GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein GANs[C]// Thirty-first Conference on Neural Information Processing Systems. Long Bench: NIPS, 2017: 5767-5677.

[本文引用: 1]

[18]

JUSTIN J, ALEXANDRE A, LI F. Perceptual losses for real-time style transfer and super-resolution[C]// The 14th European Conference on Computer Vision. Amsterdam: IEEE, 2016: 694–711.

[本文引用: 1]

Cubic convolution interpolation for digital image processing

1981

... 目前，实际使用的双焦相机连续数字变焦算法主要可以分为2类，第1类算法主要通过传统的图像插值算法和基于深度学习的图像超分辨算法，直接提升短焦相机拍摄的低分辨图像的分辨率. 在插值算法方面，Keys等^[1-2]通过对双线性插值和双三次插值算法进行改进，发明了较多自适应的插值算法. Dong等^[3-4]提出基于深度学习的图像超分辨算法，通过卷积神经网络模型直接进行从低分辨图像到高分辨图像的端到端的学习. 在卷积神经网络的基础上，Ledig等^[5]提出基于对抗生成网络的图像超分辨技术，运用生成器和判别器互相博弈学习产生更符合自然图像特点的图像，并对纹理区域进行大胆的猜测，使最终输出的图像具有较好的视觉效果. 第2类算法利用高分辨长焦相机拍摄的图像的细节信息，来提升数字变焦后图像的视觉效果. Yu等^[6]利用配准和块搜索的策略，对长焦相机视场内的图像进行分辨率提升，并使用传统的单帧超分辨算法对处于长焦相机视场外的部分进行处理. 为了提升视觉效果，Moon等^[7]提出长焦相机图像到短焦相机图像的退化模型，估计退化点扩散函数，在配准长短焦相机的图像后，以此为依据使用传统的图像恢复算法进行图像复原. Ma等^[8]在配准的基础上，将长焦和短焦相机的图像进行频带分解，在每个频带内进行图像修复，最终得到变焦图像. 赫贵然等^[9]利用特征层提取和特征块匹配的算法，运用卷积神经网络将长焦相机图像中特征块的特征信息迁移到短焦相机图像匹配的区域，并以修复后的短焦图像为基础进行数字变焦. 此外，Zhang等^[10-11]提出基于参考图像的超分辨算法，利用参考图像的相似特征来提升超分辨图像的质量. ...

New edge-directed interpolation

2001

Image super-resolution using deep convolutional networks

2016

Continuous digital zooming of asymmetric dual camera images using registration and variational image restoration

2018

Continuous digital zooming using local self-similarity-based superresolution for an asymmetric dual camera system

2017

Photo-realistic continuous digital zooming for an asymmetrical dual camera system

2019

基于CNN特征提取的双焦相机连续数字变焦

2019

... 对本研究提出的连续数字变焦算法流程进行仿真实验，将实验结果与传统插值算法、基于参考图像的超分辨算法TTSR^[11] 进行比较，并在一些实验中与其他双焦图像连续数字变焦算法^[9]的结果进行比较. 连续变焦的仿真结果如图5所示. 同时，为了体现本研究算法在不同图像中的鲁棒性，选取不同图像不同变焦倍率进行仿真实验，结果如图6所示. 图中，白色框内代表长焦相机视场. 此外，使用定量评价指标峰值信噪比（peak signal to noise ratio，PSNR）对不同变焦倍率下图像整体质量以及长焦相机视场内、外区域图像质量分别进行评价，结果如表1、2所示.可以看出，利用本研究算法得到的变焦图像可以更好地还原被拍摄景物的整体纹理细节，且在长焦相机视场外的细节恢复效果上具有明显优势，相比于其他算法，本研究算法恢复的细节更加清晰、锐利. 这是因为在语义信息较为明确的情况下，图像修复算法更可能提供空间分辨率和长焦相机视场内图像近似的修复图像，前提是该纹理细节在长焦相机视场内有相似纹理. 这里所说的相似纹理，不仅包括视觉上可以直观看到的相似纹理，也包括通过编码器生成的特征图中相似的特征. 如图7所示为该问题进一步的仿真结果示例. 图中，中央方框内为长焦相机视场区域. 可以看出，粗线框内头巾的花纹部分在长焦相机视场内、外部分并不相同，且存在桌布花纹的干扰，本研究的算法可以较好地修复长焦相机视场外的花纹，且未明显出现花纹反向或者模糊的情况. ...

... PSNR of different zoom magnifications and algorithms

Tab.1

算法	×1.2	×1.4	×1.6	×1.8	×2.0	×2.2	×2.4	×2.6	×2.8	×3.0	×3.2	×3.4	×3.6	×3.8
双三次插值	35.01	32.93	31.49	30.38	29.55	28.87	28.31	27.89	27.51	27.19	26.89	26.60	26.35	26.07
TTSR^[11]	39.79	36.73	34.53	33.27	32.15	31.29	30.56	29.98	29.53	29.19	28.87	28.55	28.29	27.96
文献[9]算法	39.11	36.29	34.05	33.11	32.03	31.07	30.19	29.53	29.02	28.68	28.22	27.89	27.43	27.18
本研究算法	39.46	36.33	34.18	33.25	32.32	31.56	30.89	30.17	29.71	29.43	29.06	28.77	28.50	28.05

表 2

不同算法长焦相机视场内外的峰值信噪比 ...

... PSNR of inside and outside field of view of long-focal camera

Tab.2

视场	算法	×1.5	×2.0	×2.5	×3.0	×3.5
长焦相机视场内	双三次插值	32.03	29.81	28.06	27.12	26.49
	TTSR^[11]	37.57	34.23	32.04	30.41	29.88
	文献[9]算法	36.56	33.44	31.10	29.39	28.53
	本研究算法	37.75	34.21	31.93	30.28	29.71
长焦相机视场外	双三次插值	32.25	29.42	27.94	27.26	26.47
	TTSR^[11]	35.21	31.45	29.08	27.62	27.93
	文献[9]算法	34.80	31.54	29.01	27.76	27.31
	本研究算法	34.72	31.69	29.58	28.33	28.24

图 7

长焦相机视场外纹理修复效果对比 ...

... 文献[9]算法 34.80 31.54 29.01 27.76 27.31 本研究算法 34.72 31.69 29.58 28.33 28.24 图 7

长焦相机视场外纹理修复效果对比 ...

基于CNN特征提取的双焦相机连续数字变焦

2019

... PSNR of different zoom magnifications and algorithms

Tab.1

算法	×1.2	×1.4	×1.6	×1.8	×2.0	×2.2	×2.4	×2.6	×2.8	×3.0	×3.2	×3.4	×3.6	×3.8
双三次插值	35.01	32.93	31.49	30.38	29.55	28.87	28.31	27.89	27.51	27.19	26.89	26.60	26.35	26.07
TTSR^[11]	39.79	36.73	34.53	33.27	32.15	31.29	30.56	29.98	29.53	29.19	28.87	28.55	28.29	27.96
文献[9]算法	39.11	36.29	34.05	33.11	32.03	31.07	30.19	29.53	29.02	28.68	28.22	27.89	27.43	27.18
本研究算法	39.46	36.33	34.18	33.25	32.32	31.56	30.89	30.17	29.71	29.43	29.06	28.77	28.50	28.05

表 2

不同算法长焦相机视场内外的峰值信噪比 ...

... PSNR of inside and outside field of view of long-focal camera

Tab.2

视场	算法	×1.5	×2.0	×2.5	×3.0	×3.5
长焦相机视场内	双三次插值	32.03	29.81	28.06	27.12	26.49
	TTSR^[11]	37.57	34.23	32.04	30.41	29.88
	文献[9]算法	36.56	33.44	31.10	29.39	28.53
	本研究算法	37.75	34.21	31.93	30.28	29.71
长焦相机视场外	双三次插值	32.25	29.42	27.94	27.26	26.47
	TTSR^[11]	35.21	31.45	29.08	27.62	27.93
	文献[9]算法	34.80	31.54	29.01	27.76	27.31
	本研究算法	34.72	31.69	29.58	28.33	28.24

图 7

长焦相机视场外纹理修复效果对比 ...

... 文献[9]算法 34.80 31.54 29.01 27.76 27.31 本研究算法 34.72 31.69 29.58 28.33 28.24 图 7

长焦相机视场外纹理修复效果对比 ...

... 判别器：本研究采用和SRNTT^[10]相同的判别器结构. ...

... PSNR of different zoom magnifications and algorithms

Tab.1

算法	×1.2	×1.4	×1.6	×1.8	×2.0	×2.2	×2.4	×2.6	×2.8	×3.0	×3.2	×3.4	×3.6	×3.8
双三次插值	35.01	32.93	31.49	30.38	29.55	28.87	28.31	27.89	27.51	27.19	26.89	26.60	26.35	26.07
TTSR^[11]	39.79	36.73	34.53	33.27	32.15	31.29	30.56	29.98	29.53	29.19	28.87	28.55	28.29	27.96
文献[9]算法	39.11	36.29	34.05	33.11	32.03	31.07	30.19	29.53	29.02	28.68	28.22	27.89	27.43	27.18
本研究算法	39.46	36.33	34.18	33.25	32.32	31.56	30.89	30.17	29.71	29.43	29.06	28.77	28.50	28.05

表 2

不同算法长焦相机视场内外的峰值信噪比 ...

... PSNR of inside and outside field of view of long-focal camera

Tab.2

视场	算法	×1.5	×2.0	×2.5	×3.0	×3.5
长焦相机视场内	双三次插值	32.03	29.81	28.06	27.12	26.49
	TTSR^[11]	37.57	34.23	32.04	30.41	29.88
	文献[9]算法	36.56	33.44	31.10	29.39	28.53
	本研究算法	37.75	34.21	31.93	30.28	29.71
长焦相机视场外	双三次插值	32.25	29.42	27.94	27.26	26.47
	TTSR^[11]	35.21	31.45	29.08	27.62	27.93
	文献[9]算法	34.80	31.54	29.01	27.76	27.31
	本研究算法	34.72	31.69	29.58	28.33	28.24

图 7

长焦相机视场外纹理修复效果对比 ...

... [11] 35.21 31.45 29.08 27.62 27.93 文献[9]算法 34.80 31.54 29.01 27.76 27.31 本研究算法 34.72 31.69 29.58 28.33 28.24 图 7

长焦相机视场外纹理修复效果对比 ...

... 为了解决上述问题，把双焦相机连续数字变焦问题拆分成长焦相机视场内的特征迁移问题和长焦相机视场外的纹理修复问题，借鉴基于上下文语义的图像修复算法^[12-13]的思路，利用长焦相机图像的纹理信息修复短焦相机图像，并在2个问题上使用相似的网络结构来降低长焦相机视场内外细节视觉效果的差异. ...

... 随着深度学习的不断发展，研究者将其运用到图像修复中^[14-16]，Zeng等^[12]根据低层特征具有更丰富的纹理细节，高层特征具有更抽象的语义这一情况，提出金字塔结构的图像修复网络，运用注意力（attention）机制，将高层特征逐层次用于指导低层特征的补全. 相较于图像修复算法须首先结合待修复区域周边信息来尽可能准确地获得待修复区域的语义，在本研究的连续数字变焦问题中，可以直接将上采样后的短焦相机图像作为待修复图像，利用短焦相机图像原有的准确的语义信息将长焦相机图像的纹理细节迁移到短焦相机图像上，从而获得高质量的变焦后图像. ...

... 网络采用生成式对抗网络的框架，整体结构如图2所示，该网络主要由三部分组成：特征迁移子网络、纹理修复子网络和判别器. 其中特征迁移子网络和纹理修复子网络借鉴了文献[12]中用到的图像修复网络的结构. ...

... 式中：

$q_j^n$

为从

$R_{\rm{h}}^n$

中提取的第j个小块. 此外，本研究还根据文献[12]中的网络使用4组具有不同空洞间隔的空洞卷积来整合不同尺度的上下文信息，这样的设计确保了最终重建的特征中结构与上下文的一致性，从而提升修复效果. ...

Globally and locally consistent image completion

2017

... 式中：f为ATN模块的操作，研究^[16]已经证实利用这种跨层的注意力转移和金字塔填充机制，可以提升缺失区域的视觉和语义连贯性. ...

... 生成对抗网络可以生成清晰且视觉上令人满意的图像. 本研究采用WGAN-GP网络^[17]，生成对抗损失可以表示为 ...

... 感知损失利用预训练完成的VGG19网络^[18]，已经被证明可以改善图像的视觉效果，更好地还原出图像的纹理细节，可以表示为 ...

〈

〉