浙江大学学报(工学版), 2019, 53(6): 1182-1189 doi: 10.3785/j.issn.1008-973X.2019.06.018

计算机与自动化技术

基于CNN特征提取的双焦相机连续数字变焦

赫贵然,, 李奇,, 冯华君, 徐之海, 陈跃庭

Dual-focal camera continuous digital zoom based onCNN and feature extraction

HE Gui-ran,, LI Qi,, FENG Hua-jun, XU Zhi-hai, CHEN Yue-ting

通讯作者: 李奇,男,副教授,博士. orcid.org/0000-0002-1672-6362. E-mail: liqi@zju.edu.cn

收稿日期: 2018-10-24  

Received: 2018-10-24  

作者简介 About authors

赫贵然(1995—),男,硕士生,从事数字图像处理研究.orcid.org/0000-0003-3352-2991.E-mail:3130103692@zju.edu.cn , E-mail:3130103692@zju.edu.cn

摘要

设计一种主要针对智能手机双焦镜头的连续数字变焦方案. 该方案基于卷积神经网络特征层提取和特征块匹配,充分利用2个不同焦距镜头的拍摄信息,将长焦镜头图像的高分辨信息迁移到短焦图像的可修复区域,并以修复后的短焦图像为基础进行数字变焦. 仿真和实验结果表明,相比基于传统插值放大的变焦方案和基于单图像超分辨的变焦方案,所提方案的处理结果拥有更高的主观分辨率和视觉清晰度;当用户给定的变焦倍数在长、短焦镜头倍数之间时,所提方案可以显著提升变焦图像的质量;对于处于长焦相机视场外、短焦相机视场内的纹理,修复效果比现有方法更好;该方法的处理结果对长焦、短焦图像的双目视差大小有着很好的鲁棒性.

关键词: 非对称双焦镜头 ; 连续数字变焦 ; 卷积神经网络(CNN) ; 特征提取 ; 超分辨成像 ; 图像恢复

Abstract

A digital continuous zooming scheme mainly for smartphone dual-focal lens was proposed, which was based on extraction and patch-matching of the convolutional neural network feature map, making full use of the shooting information of two different focal length lenses. The high-resolution information of the long-focal image was migrated to the repairable area of the short-focus image, then the zoomed image was produced accordingly. The simulation and experimental results show that the image produced by the proposed method has higher subjective resolution and better visual clarity, compared with the traditional interpolation and super-resolution results. The method can greatly enhance the imaging quality of the dual-focal lens when the magnification factor is between the two lens. For the texture outside the Short-Focal-Len filed but in the Long-Focal-Len field, the proposed method also performs better than the existing methods. Otherwise, the proposed method has good robustness in dealing with the parallax problem of the dual-focal camera.

Keywords: asymmetric dual-focal camera ; continuous digital zoom ; convolutional neural network (CNN) ; feature extraction ; super-resolution ; image restoration

PDF (1210KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赫贵然, 李奇, 冯华君, 徐之海, 陈跃庭. 基于CNN特征提取的双焦相机连续数字变焦. 浙江大学学报(工学版)[J], 2019, 53(6): 1182-1189 doi:10.3785/j.issn.1008-973X.2019.06.018

HE Gui-ran, LI Qi, FENG Hua-jun, XU Zhi-hai, CHEN Yue-ting. Dual-focal camera continuous digital zoom based onCNN and feature extraction. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(6): 1182-1189 doi:10.3785/j.issn.1008-973X.2019.06.018

受装配空间的限制,智能手机的镜头设计大都采用单摄像头方案或光轴互相平行的非对称双焦摄像头方案. 主流双焦摄像头变焦方案只有长焦和短焦工作模式,对于长、短焦镜头倍数之间的任意变焦倍数,大多数方法都是基于插值法或传统单帧超分辨方法来完成变焦. 这些方法无法有效利用长焦图像的高频细节,导致所得变焦图像的边缘锐利度不够,被拍摄景物的纹理细节不能得到有效还原. 为了充分利用长焦图像的高频细节,充分提升变焦倍数在双镜头变焦倍数之间时变焦图像的视觉清晰度,需要研究非对称双摄像头的数字变焦方案.

目前,多数手机厂商采用的双焦相机连续变焦方案都是基于传统的像素插值技术,例如双三次插值、基于机器学习或基于卷积神经网络的单帧图像超分辨技术. Yang等[1-4]]提出了一些基于统计学习的单帧超分辨方法,这些方法通常需要预先使用大量数据训练高低分辨字典对,利用预训练好的字典对进行超分辨工作. 相对于传统插值方法,这些超分辨方法可以获得分辨率更高、更加自然的图像. 近几年,卷积神经网络在很多领域都表现出十分优秀的性能,一些研究者将卷积神经网络应用在了单帧超分辨工作上[5-7]. 相较于上文提到的基于统计学习的超分辨结果,利用超分辨网络获得的超分辨图像的分辨率和自然程度有了进一步的提升,不过超分辨网络的工作对硬件性能的要求也更高.

有研究者基于智能手机双焦镜头连续变焦的应用背景,针对性地提出了基于长焦图像和短焦图像的变焦方案. Yu等[8]利用配准和块搜索的策略,对长焦视场内的图像进行分辨率提升. 对于处于长焦视场外、短焦视场内的部分,则使用传统的单帧超分辨方法进行处理. Moon等[9]在配准长短焦图像后,提出了长焦图像到短焦图像的退化模型,估计退化点扩散函数(point spread function, PSF),并以此为依据使用传统的图像恢复算法进行图像复原. Ma等[10]在配准的基础上,将长焦和短焦图像进行频带分解,在每个频带内使用图像修复的方法[11],利用长焦图像的清晰纹理对短焦图相似纹理进行修复,并进一步得到变焦图像. Chen等[12]将VDSR超分辨网络作了一些修改,使其能够胜任双分辨变焦任务并且比传统的超分辨网络获得更好的视觉效果和更高的定量评价指标.

以上方法中,单帧超分辨技术虽然可以获得比插值方法更锐利的边界和更舒适的视觉效果,但若将其应用于双焦相机连续变焦,则不能有效地利用长焦图像的高频细节,景物的纹理细节不够丰富. 基于长、短焦图像的变焦算法可以获得比单帧超分辨方法更好的恢复效果,但其变焦图像在长焦视场内的细节清晰度无法和长焦图像相比,长焦视场外的效果则和单帧超分辨方法相差无几.

本文算法部分借鉴了基于卷积神经网络的风格转换(style transfer)算法[13],该算法是基于马尔库夫随机场的纹理合成方法[14],将分块处理流程从图像上应用到了对应的特征层上. 之所以要在特征层上而不是在图像上直接进行操作,是因为基于图像本身的块匹配[15](PatchMatch)操作通常会引入比较严重的块效应.

1. 实验原理

1.1. 非对称双焦相机成像模型

非对称双焦摄像头一般指2个光轴平行放置的镜头,两者焦距成一定比例,一般为2∶1~3∶1. 为了阐述方便,设定长焦镜头和短焦镜头焦距之比N=2∶1. 两者的视场角也成相应的倍数关系. 其中焦距较短的短焦镜头拥有更大的视场范围,可以完成一般的成像任务. 当用户希望拍摄远处景物的局部细节时,可切换到长焦工作模式,此时拍摄视场角变小,由于物方空间采样率更高,景物的细节可以更多地被还原.

长、短焦镜头对应的2个成像传感器一般拥有相近或相同的成像面积和像素数. 由于焦距的倍数关系,其视场角通常也成倍数关系. 根据几何关系可以得出,该比例近似和焦距比相同. 即短焦图像(记为 ${I_{\rm{S}}}$)和长焦图像(记为 ${I_{\rm{L}}}$)的横向(或纵向)视场大小之比为

${{{{y_{{}_{\rm{S}}}}}}}/{{{{y_{{}_{\rm{L}}}}}}} = N = 2.$

容易得到:

${\beta _{{}_{\rm{L}}}} = N{\beta _{{}_{\rm{S}}}} = 2{\beta _{{}_{\rm{S}}}}.$

其中, ${\beta _{{}_{\rm{L}}}}$${\beta _{{}_{\rm{S}}}}$分别为长焦和短焦成像系统的横向放大率. 当用户给定双焦相机的数字变焦倍数 $M\left( {1 \leqslant M \leqslant 2} \right)$时,其变焦图的像素尺寸不变,与长、短焦图像尺寸相同,但变焦图像IZ的横向放大率βZ变为短焦图的M倍,即:

${\beta _{{}_{\rm{Z}}}} = M{\beta _{{}_{\rm{S}}}}.$

此时变焦图的视场大小变为短焦图的 $1/M$倍:

$\frac{{{{y_{{}_{\rm{Z}}}}}}}{{{{y_{{}_{\rm{S}}}}}}} = \frac{1}{M}.$

${I_{\rm{S}}}$${I_{\rm{L}}}$的横向和纵向的像素数通常相同,成像面积通常相同,整个非对称双焦摄像头的成像过程示意图如图1所示. 多数手机制造商通常将裁剪、上采样得到的结果图 ${I_{{\rm{SUC}}}}$作为变焦结果 ${I_{\rm{Z}}}$. 基于双焦图像的变焦方法则还需要利用长焦图像 ${I_{\rm{L}}}$的下采样版本对 ${I_{{\rm{SUC}}}}$进行细节修复,并以此为基础得到变焦结果 ${I_{\rm{Z}}}$.

图 1

图 1   应用块匹配(PatchMatch)对仿真图像进行纹理修复

Fig.1   Texture restoring results of stimulated images with PatchMatch method


1.2. 所提方法流程

假设 $N = 2$,经过短焦镜头和长焦镜头拍摄得到的图像分别为 ${I_{{}_{\rm{S}}}} \in {{\bf{R}}^{W \times H}}$${I_{{}_{\rm{L}}}} \in {{\bf{R}}^{W \times H}}$,其像素尺寸大小相同. 此时短焦图像的成像质量主要受其像素分辨率的限制. 为了便于后续细节恢复,需要先将该图像通过某种方式上采样. 本文使用双三次插值方法对 ${I_{\rm{S}}}$进行2倍上采样操作,得到短焦上采样图像 ${I_{{\rm{SU}}}}$. 这里与图1中的流程略有不同,图1的一般框架是直接将短焦图像上采样到需要的变焦倍数尺寸. 之所以在这个细节上有这样的区别,是因为利用2倍修复图像可以快速方便地得到各个变焦倍率的图像,且在实验中发现其修复效果更好.

上采样后得到的图像 ${I_{{\rm{SU}}}}$${I_{\rm{L}}}$对拍摄物体有着同样的横向放大率 ${\beta _{{}_{\rm{L}}}}$.${I_{{\rm{SU}}}}$裁剪至需要的变焦图像线视场大小,根据式(4)可得裁剪图像尺寸如下:

$\left.\begin{gathered} {H_{{\rm{SUC}}}} = \frac{1}{M}{H_{{\rm{SU}}}} = \frac{2}{M}H, \\ {W_{{\rm{SUC}}}} = \frac{1}{M}{W_{{\rm{SU}}}} = \frac{2}{M}W. \end{gathered} \right\}$

式中:HW为原始短焦(或长焦)图像的高和宽,M为用户给定的变焦倍数,HSUCWSUC为裁剪图像的高和宽. 按照式(5)裁剪 ${I_{{\rm{SU}}}}$的中央区域,得到 ${I_{{\rm{SUC}}}} \in {{\bf{R}}^{{{2W} / M} \times {{2H} / M}}}$,接下来使用 ${I_{\rm{L}}}$${I_{{\rm{SUC}}}}$进行细节恢复. 将 ${I_{\rm{L}}}$${I_{{\rm{SUC}}}}$分别输入预训练的VGG卷积神经网络,提取特定的特征层,进行优化迭代后,得到修复后的短焦图 ${I^*}_{{\rm{SUC}}}$. 具体的修复细节见第2章. 此时该图像的像素尺度和横向放大率仍为短焦图像的2倍. 为了得到用户给定变焦倍数的图像,需要将该图像使用双三次插值下采样到原拍摄图像的像素尺寸大小:

$\begin{gathered} {H_{\rm{Z}}} = H, \; {W_{\rm{Z}}} = W. \end{gathered} $

式中:HZWZ分别为最终变焦结果图IZ的高和宽. 下采样后得到所需的变焦图像 ${I_{\rm{Z}}} \in {{\bf{R}}^{W \times H}}$.

2. 基于特征提取的短焦图像细节恢复

借鉴文献[13]中用到的特征块提取和优化策略,将长焦图像 ${I_{\rm{L}}} \in {{\bf{R}}^{W \times H}}$的纹理细节信息迁移到上采样短焦图像 ${I_{{\rm{SUC}}}} \in {{\bf{R}}^{2W/M \times 2H/M}}$的最佳匹配位置(如图2所示). 将 ${I_{{\rm{SUC}}}}$${I_{\rm{L}}}$分别输入到ImageNet数据集上预训练好的VGG19网络,提取 ${I_{\rm{L}}}$网络中的较低层特征层(relu_3_1)和 ${I_{{\rm{SUC}}}}$网络中的较高特征层(relu_4_1),提取到的特征层分别记作 $\varPhi ({I_{{\rm{SUC}}}})$$\varPhi ({I_{\rm{L}}})$. 高层特征层包含了图像的更多宏观结构信息,而低层特征层则包含了图像更加丰富的细节信息. 为了后续优化方便并且不陷入局部最小值,将待优化图像 ${I^*}_{{\rm{SUC}}}$初始化为 ${I^*}_{{\rm{SUC}}} = {I_{{\rm{SUC}}}}$. 利用反向传播算法进行迭代优化:

图 2

图 2   非对称双焦摄像头典型成像模型示意图

Fig.2   Schematic diagram of classical asymmetric dual zooming imaging model


$\begin{split} {I^*}_{{\rm{SUC}}} =& \mathop {{\rm{arg\;min}}}\limits_{{I^*}} {E_{\rm{T}}}(\varPhi ({I^*}), \varPhi ({I_{\rm{L}}})) + \\& {\alpha _1}{E_{\rm{C}}}(\varPhi ({I^*}), \varPhi ({I_{{\rm{SUC}}}})) + {\alpha _2}\gamma ({I^*}). \end{split} $

式(7)中的损失函数共由三部分组成. ${E_{\rm{C}}}$为结构损失,其含义为待优化图像特征层与 ${I_{{\rm{SUC}}}}$对应特征层之间的欧几里得距离的平方(L2范数距离):

${E_{\text{C}}}\left( {\varPhi \left( {I*} \right),\varPhi \left( {{I_{{\text{SUC}}}}} \right)} \right) = \left\| \varPhi \right.\left( {I*} \right) - {\left. {\varPhi \left( {{I_{{\text{SUC}}}}} \right)} \right\|^2}.$

${E_{\rm{T}}}$为纹理损失,为待优化特征层和长焦图像特征层对应纹理相似性的度量:

${E_{\rm{T}}}\left( {\varPhi ({I^*}), \varPhi ({I_{\rm{L}}})} \right) = \displaystyle\sum\nolimits_{i = 1}^m {{1_{{\delta _i} < t}}}\; {\delta _i}. $

式中: ${\delta _i}$为待优化特征块 ${\varPsi _i}(\varPhi ({I^*}))$与其在长焦图像特征层最匹配之特征块的欧几里得距离平方,

${\delta _i}({I^*}) = \left\| {{\varPsi _i}(\varPhi ({I^*})) - {\varPsi _{N(i)}}(\varPhi ({I_{\rm{L}}}))} \right\|^2.$

其中, ${\varPsi _i}(\varPhi ({I^*})) \in {{\bf{R}}^{k \times k \times C}}$为一系列从特征层 $\varPhi ({I^*})$中提取的m个局部图像块,i为编号. 特征块从特征层中按照一定的空间规律裁剪得到,C为该特征层的通道数,k为特征块的宽和高, ${\varPsi _{N(i)}}(\varPhi ({I_{\rm{L}}}))$为从 ${I_{\rm{L}}}$的特征层中提取到的与第i个待优化特征块 ${\varPsi _i}(\varPhi ({I^*}))$最相似的最佳匹配特征块. 寻找最佳匹配特征块的优化原则如下:

$N(i) = \mathop {\arg {\rm{ min}}}\limits_{j = 1,2, \cdots , { m_{{}_{\rm L}}{{}}}} \frac{{{\varPsi _i}(\varPhi ({I^*})) \cdot {\varPsi _j}(\varPhi ({I_{\rm{L}}}))}}{{\left| {{\varPsi _i}(\varPhi ({I^*}))} \right| \cdot \left| {{\varPsi _j}(\varPhi ({I_{\rm{L}}}))} \right|}}.$

${I_{\rm{L}}}$${m_{\rm{L}}}$个特征块中,找到与第i个待优化特征块的归一化自相关性最小的特征块,其角标记为 $N(i)$. 自相关性描述了2个相同尺寸的图像块(特征块)之间的相似程度. 而阈值函数 ${1_{{\delta _i} < t}}$的含义如下:

${1_{{\delta _i} < t}}{\rm{ = }}\left\{ {\begin{array}{*{20}{c}} {0, }&{{\delta _i} \geqslant t}; \\ {1, }&{{\delta _i} < t} . \end{array}} \right.$

即当欧几里得距离 ${\delta _i}({I^*})$大于阈值t时,也就是纹理差距过大时,该特征块不参与优化. 引入阈值的目的是剔除修复效果很差的区域,从而使得整体恢复效果显得更加自然. 只有当短焦图和长焦图中含有相似纹理时,该区域的纹理才会被修复. 本文后续的仿真和实验中将该阈值设置为t=0.8. 其中式(11)的优化过程可以通过一次等效卷积操作来进行,从而大大加快了优化速度.

$\gamma ({I^*})$为平滑约束,使用平方梯度范数来增强优化结果图像的平滑性,减少图像中的噪声以及不自然的纹理:

$\gamma {\rm{(}}{I^*}{\rm{) = }}\sum\nolimits_{i, j} {\left[{{({I^*}_{i, j + 1} - {I^*}_{i, j})}^2} - {{({I^*}_{i + 1, j} - {I^*}_{i, j})}^2}\right]} .$

为了平衡各部分损失函数,在式(7)中加入 ${\alpha _1}$${\alpha _2}$常量. 本部分的图像处理整体流程如下:将上采样后的短焦图像 ${I_{{\rm{SUC}}}}$和长焦图像 ${I_{\rm{L}}}$输入到预训练的VGG19网络中,得到每张图像对应的特征层. 之后在特征层relu4_1上利用式(8)计算结构损失,在特征层relu3_1上利用式(9)计算纹理损失,其中在计算式(9)的纹理损时又要用到式(11)的最佳匹配快搜索策略. 最后利用式(13)计算自然图像平滑损失. 计算得到总体损失后,利用反向传播方法计算上采样短焦图像 ${I_{{\rm{SUC}}}}$的梯度,用梯度下降法更新 ${I_{{\rm{SUC}}}}$,经过一定数量的迭代,即可得到修复后短焦上采样图像 ${I^*}_{{\rm{SUC}}}$.

第2章所述算法都在图像特征层上进行。若直接在原图像上进行操作,会引起严重的块效应,结果图中会出现网格状纹理,如图2所示。

3. 实验结果与分析

3.1. 仿真实验

仿真实验选取如图3所示的自然景物图像,这些图像经过裁剪作为真实(label)图像,图像尺寸均为 $500 \times 500$. 使用双三次插值分别将这些图像下采样至 $1/2$尺寸以及裁剪中央 $1/2$尺寸区域后,得到仿真的长焦和短焦拍摄图像,其尺寸均为 $250 \times 250$,即 $H = W = 250$.

图 3

图 3   用于仿真实验的自然景物图像

Fig.3   Scenery images used for stimulation experiments


使用本文框架编写代码,进行仿真实验. 计算机配置如下:处理器:Intel(R) Core(TM) i5-7500 @3.40 GHz (4核),RAM:8 GB DDR4,显卡:NVIDIA GeForce GTX 1050Ti,显存:4 GB DDR5. 将本文的处理结果同基于传统插值的处理结果以及基于单图像超分辨方法[2](A+)的处理结果进行对比.

首先验证细节修复算法的效果. 如图4所示为使用长焦图像对上采样短焦图像进行细节修复后的部分结果展示. 可以看到,采用本文修复算法进行细节修复后,短焦图像的视觉清晰度比传统插值算法有了非常显著的提升,并且更能还原景物的细节. 传统的基于单帧图像的超分辨算法A+[2]比传统插值算法更能提升物体边缘的锐利程度,但无法还原丢失的纹理. 本文方法能够比A+算法提升更多的边缘清晰度,并且能够利用长焦图像的高频纹理恢复短焦图像的对应纹理.

图 4

图 4   本文细节修复方法与其他方法的仿真结果对比

Fig.4   Comparison of stimulation results for proposed texture restoring method and other methods


对本文提出的一整套变焦算法流程进行仿真实验,实验结果如图5所示. 可以看到,相比使用传统的插值算法得到的变焦图像,以及仅利用单幅短焦图像使用单帧超分辨算法[2]进行上采样和裁剪得到的变焦图像而言,利用本文方法得到的变焦图像可以更好地还原被拍摄景物的纹理细节,边缘也更加锐利自然,视觉观感更好. 但是随着变焦倍数的不断下降,本文方法的修复效果越来越接近于插值图像、单帧超分辨结果图像以及真实图像,这是数字变焦工作的必然结果. 由于手机双焦摄像头的成像质量通常受到成像单元像素尺寸的限制,为了得到与原拍摄图像像素数相同的变焦图像,将含有高频细节的短焦修复图像 ${I^*}_{{\rm{SUC}}}$进行下采样后,这些高频细节会丢失很多,此时图像的像素密度不足以呈现过高的空间频率. 可以预见,当用户给定变焦倍数M=1时,变焦图像空间分辨率几乎与短焦图像无异. 因此在实际应用中,可以不进行下采样操作,将裁剪后的修复图像 ${I^*}_{{\rm{SUC}}}$直接当作变焦图像给用户使用,这样做可以使得用户给定变焦倍数M接近1.0时也能获得很好的变焦结果.

图 5

图 5   不同变焦倍数、采用不同方法的变焦结果对比

Fig.5   Comparison of zooming results for different zooming scales using different methods


使用定量评价指标峰值信噪比(peak signal to noise ratio, PSNR)对各变焦倍率图像质量进行评价,结果如表1所示. 从表中可以看出,在PSNR指标上,本文处理结果要优于传统插值方法,但部分情况下其PSNR值低于基于单帧图像的超分辨方法,尤其是在变焦倍数较低时. 可能原因如下:一是如前文所述,变焦处理流程包含了下采样处理,在下采样过程中,已被修复的高频细节可能会有所丢失;二是细节修复的过程基于迭代块处理,并且是在较高的特征层上进行,纹理在被迁移的过程中有可能产生微小位移或形变.

表 1   仿真实验变焦结果定量评价

Tab.1  Quantitative evaluation of zooming results in stimulation experiments

图像 M =1.3 M =1.5 M =1.7
双线性插值 A+ 本文方法 双线性插值 A+ 本文方法 双线性插值 A+ 本文方法
Ancient 27.45 29.81 27.78 24.32 25.52 24.46 25.62 27.46 27.30
Autumn 25.27 25.93 26.65 21.59 22.03 22.28 23.60 24.27 25.52
Baboon 27.20 28.57 27.54 23.53 24.27 23.62 27.47 28.09 28.16
Building1 27.20 29.33 28.17 23.13 23.93 23.67 24.27 25.57 26.01
Building2 29.26 31.79 29.48 25.66 26.71 25.87 27.45 29.60 29.23
Building3 23.33 25.57 24.89 20.08 21.00 20.95 20.21 21.59 22.19
Butterfly 29.73 34.79 31.23 28.77 31.97 29.97 26.96 31.27 29.54
Fruits 29.32 31.62 30.85 27.12 28.56 28.02 27.38 29.38 30.11
Shanghai 26.07 28.32 27.26 22.21 22.99 22.83 22.88 24.02 24.24
Mountain 29.75 30.80 31.31 26.04 26.43 26.77 27.43 28.17 29.64

新窗口打开| 下载CSV


本文的变焦算法对位于长焦视场外、短焦视场内的纹理细节同样具有修复的作用,前提是该纹理细节在长焦视场内有对应的相似纹理. 如图6所示为该问题的仿真结果示例,其中的中央方框内为长焦相机视场区域. 从图中可以看到,栏杆部分在长焦视场内、外均有分布,这就为利用长焦视场内纹理修复长焦视场外纹理提供了可能. 为衡量算法的处理时间,运用本文算法对512×512的RGB三通道仿真图像进行处理实验,平均处理时间为41.62 s. 实验结果说明本方法的图像处理时间较长,算法还有待改进.

图 6

图 6   长焦视场外纹理修复效果验证实验

Fig.6   Texture restoring examination for field out of Long-Focal-Len


3.2. 真实图像实验与视差分析

为了验证所提方法对视差的鲁棒性,使用小米手机6的双焦摄像头,选取一处景物拍摄一组视差较大的长焦、短焦图像. 经计算,该双焦摄像头的焦距比为1.85倍,即 $N = 1.85$. 将拍摄得到的长焦、短焦图像分别使用传统插值方法、A+方法和本文方法进行处理,得到的变焦图. 如图7所示. 为方便展示细节,图7中所有图像只展示特定部分. 从结果中可以看出. 本文方法可以比传统插值和超分辨方法更好地还原景物细节,边缘也更加锐利,整体视觉观感更好. 并且长短焦拍摄图片的下方有遮挡视差,长焦和短焦图的白平衡和色调也有所不同,这些因素并不会干扰变焦过程的正常进行. 本方法所得结果的遮挡关系、白平衡和色调都以短焦图为基准,无须事先进行配准等预处理操作. 本文方法使用长焦图的纹理来修复短焦图像,结果中没有拼接带来的块效应等瑕疵.

图 7

图 7   真实图像实验结果及视差鲁棒性验证

Fig.7   Experimental result of real image and verification of parallax problem


真实图像实验的客观评价指标使用拉普拉斯算子法,如下式所示:

$\begin{gathered} L = \frac{{\rm{1}}}{{\left( {H - 2} \right)\left( {W - 2} \right)}}\sum\limits_{i = 1}^{H - 1} {\sum\limits_{j = 1}^{{\rm{W}} - 1} {} } [8g\left( {i, j} \right) - g(i - 1, j - 1) - \hfill \\ \;\;\;\;\;\;g(i, j - 1) - g(i - 1, j) - g(i + 1, j + 1) - g(i, j + 1) - \hfill \\ \;\;\;\;\;\;g(i + 1, j) - g(i - 1, j + 1) - g(i + 1, j - 1){]^{{\rm{1/2}}}}. \hfill \\ \end{gathered} $

式中: $g \in {{\bf{R}}^{W \times H}}$代表待评价图像,灰度范围为0~255. 评价结果(M=1.7)如下:双线性插值结果、A+结果和本文结果的拉普拉斯指标值分别为3.64、3.95和4.49。实验结果表明,采用本文方法得到的变焦图像比采用传统插值和单帧超分辨方法得到的边缘清晰度要高很多.

4. 结 论

本研究提出了一种基于卷积神经网络的双焦相机数字连续变焦算法,对一定范围内用户给定的任意变焦倍数,可以得到比传统插值方法和超分辨方法质量更好的数字变焦图像. 仿真和实验结果表明,相比基于单帧的超分辨方法,所提方法主要有以下优势.

1)清晰度高,可以充分利用长焦图像更为丰富的景物细节. 无论是从主观清晰度还是从客观评价指标来看,其处理结果均比基于单帧的超分辨方法更清晰.

2)对长焦视场外、短焦视场内的细节有一定的修复效果. 很多研究者处理双焦相机变焦问题时,对长焦视场外的图像只是简单地利用单帧超分辨方法进行处理,而本文方法可以充分利用长焦视场内的纹理细节来修复长焦视场外的可修复纹理,更好地还原被拍摄景物的细节.

3)对视差有较好的鲁棒性. 实验结果表明,当双焦相机图像存在视差,即被拍摄景物在长、短焦图像内的遮挡关系不同,或者曝光和白平衡等参数有所不同时,本文方法都能得到完整自然的变焦图像. 所得变焦图像的视差、遮挡关系、曝光和白平衡等参数与短焦图像的参数是一致的. 因此在实际应用中不需要对长焦图像和短焦图像进行图像配准等复杂预处理操作.

所提方存在以下不足:1)处理时间比较长,不能在拍摄景物时实时变焦,需要在拍摄完成后花费一定时间进行后处理. 2)算法对内存和处理器的性能要求比较高,不能在很多性能不高的嵌入式系统上运行,只能在PC、智能手机和一些高性能的AI嵌入式芯片上运行.

参考文献

YANG J, WRIGHT J, HUANG T S, et al

Image super-resolution via sparse representation

[J]. IEEE Transactions on Image Processing, 2010, 19 (11): 2861- 73

DOI:10.1109/TIP.2010.2050625      [本文引用: 1]

TIMOFTE R, SMET V D, GOOL L V. A+: Adjusted anchored neighborhood regression for fast super-resolution [C] // Asian Conference on Computer Vision 2014. Singapore: Springer, 2014: 111-126.

[本文引用: 3]

TIMOFTE R, DE V, VAN GOOL L. Anchored neighborhod regression for fast example-based super-resolution [C] // Proceedings of the IEEE International Conference on Computer Vision 2013. Sydney: ICCV, 2013: 1920-1927.

ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations [C] // International Conference on Curves and Surfaces 2010. Avignon: Springer, 2010: 711-730.

[本文引用: 1]

DONG C, LOY C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38 (2): 295- 307

DOI:10.1109/TPAMI.2015.2439281      [本文引用: 1]

KIM J, LEE JK, LEE KM. Accurate image super-resolution using very deep convolutional networks [C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: [s. n.], 2016: 1646-1654.

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C] // Advances in Neural Information Processing Systems. Montreal: [s. n.], 2014: 2672-2680.

[本文引用: 1]

YU S, MOON B, KIM D, et al

Continuous digital zooming of asymmetric dual camera images using registration and variational image restoration

[J]. Multidimensional Systems and Signal Processing, 2018, 29 (4): 1959- 87

DOI:10.1007/s11045-017-0534-4      [本文引用: 1]

MOON B, YU S, KO S, et al

Continuous digital zooming using local self-similarity-based super-resolution for an asymmetric dual camera system

[J]. Journal of the Optical Society of America A-optics Image Science and Vision, 2017, 34 (6): 991- 1003

DOI:10.1364/JOSAA.34.000991      [本文引用: 1]

MA H, LI Q, XU Z, et al

Photo-realistic continuous digital zooming for an asymmetrical dual camera system

[J]. Optics and Laser Technology, 2019, 109: 110- 22

DOI:10.1016/j.optlastec.2018.07.056      [本文引用: 1]

CRIMINISI A, PEREZ P, TOYAMA K

Region filling and object removal by exemplar-based image inpainting

[J]. IEEE Transactions on Image Processing, 2004, 13 (9): 1200- 12

DOI:10.1109/TIP.2004.833105      [本文引用: 1]

CHEN H, CHEN C, CHUANG Y. A deep convolutional neural network for continuous zoom with dual cameras [C] // SIGGRAPH Asia 2017 Posters. Bangkok: ACM, 2017: 13.

[本文引用: 1]

LI C, WAND M. Combining markov random fields and convolutional neural networks for image synthesis [C] // Conference on Computer Vision and Pattern Recognition (CVPR) 2016. Las Vegas: [s. n.], 2016: 2479-2486.

[本文引用: 2]

EFROS A, LEUNG T K. Texture synthesis by non-parametric sampling [C] // Proceedings of the Seventh IEEE International Conference on Computer Vision 1999. Kerkyra: IEEE, 1999: 1033-1038.

[本文引用: 1]

BARNES C, SHECHTMAN E, FINEKLSTEIN A, et al

PatchMatch: a randomized correspondence algorithm for structural image editing

[J]. ACM Transactions on Graphics (TOG), 2009, 28 (3): 1- 11

[本文引用: 1]

/