浙江大学学报(工学版), 2025, 59(5): 956-963 doi: 10.3785/j.issn.1008-973X.2025.05.009

计算机技术、信息工程

基于时间维超分辨率的视频快照压缩成像重构

陈赞,, 李冉, 冯远静, 李永强

浙江工业大学 信息工程学院,浙江 杭州 310023

Video snapshot compressive imaging reconstruction based on temporal super-resolution

CHEN Zan,, LI Ran, FENG Yuanjing, LI Yongqiang

College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

收稿日期: 2024-04-9  

基金资助: 国家自然科学基金资助项目(62002327);浙江省自然科学基金资助项目(LQ21F020017).

Received: 2024-04-9  

Fund supported: 国家自然科学基金资助项目(62002327);浙江省自然科学基金资助项目(LQ21F020017).

作者简介 About authors

陈赞(1989—),男,讲师,博士,从事计算机视觉、压缩感知的研究.orcid.org/0000-0003-4252-4761.E-mail:zanchen2@zjut.edu.cn , E-mail:zanchen2@zjut.edu.cn

摘要

针对视频快照压缩成像(SCI)因压缩采样率较小所导致的重构硬件负担高、重构质量差的问题,提出基于体素流的深度展开式重构框架,对重构视频进行时间维度超分. 基于优化迭代提出深度去噪网络,对初始帧进行迭代重构. 将去噪网络的视频特征转换为体素流特征,以估计体素信息. 基于体素流构造运动正则化器,使用原始帧的体素计算时间维超分辨的帧. 在模型中结合群卷积,融合不同阶段的体素流信息,减少运动信息损失. 实验结果表明,在基准数据集上的平均重构峰值信噪比相较于对比方法提高了0.23 dB,重构帧视觉质量更高. 在重构视频帧率相同的情况下,利用提出的方法能够显著降低视频SCI系统的压缩采样率,保持高质量的重构结果.

关键词: 快照压缩成像 ; 压缩感知 ; 体素流 ; 深度学习 ; 超分辨率

Abstract

A voxel flow-based deep unfolding reconstruction framework was proposed to perform time-dimensional super-resolution on the reconstructed video frames aiming at the problems of high reconstruction hardware burden and poor reconstruction quality of video snapshot compressed imaging (SCI) due to small compressive sampling rate. A deep denoising network was proposed based on optimized iteration to iteratively reconstruct the initial frames. The video features of the denoising network were converted into voxel flow features in order to estimate the voxel information. A motion regularizer was constructed based on voxel streams in order to compute time-dimensional super-resolved frames by using voxels from the original frames. Group convolution was combined in the model to fuse the voxel stream information at different stages to reduce the loss of motion information. The experimental results showed that the average reconstructed peak signal-to-noise ratio on the benchmark dataset was improved by 0.23 dB compared to the comparison method, and the visual quality of reconstructed frames was higher. The compressive sampling rate of the video SCI system can be significantly reduced with the same frame rate of the reconstructed video by using the proposed method in order to maintain high quality reconstruction results.

Keywords: snapshot compressive imaging ; compressive sensing ; voxel flow ; deep learning ; super-resolution

PDF (1398KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈赞, 李冉, 冯远静, 李永强. 基于时间维超分辨率的视频快照压缩成像重构. 浙江大学学报(工学版)[J], 2025, 59(5): 956-963 doi:10.3785/j.issn.1008-973X.2025.05.009

CHEN Zan, LI Ran, FENG Yuanjing, LI Yongqiang. Video snapshot compressive imaging reconstruction based on temporal super-resolution. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 956-963 doi:10.3785/j.issn.1008-973X.2025.05.009

压缩感知近年来推动了计算成像技术的发展[1-3]. 快照压缩成像(snapshot compressive imaging, SCI)是基于压缩感知理论的计算成像系统的分支. 视频SCI系统使用特殊的硬件掩膜对连续高速场景进行采样,并将采样数据压缩为单个测量值[4-7]. 缺乏快速准确的重建算法是限制SCI系统实际应用的因素之一[8-9]. 一些算法采用各种先验知识作为正则化,将SCI重构转化为正则优化问题[10-12]. 此类算法的可解释性强,但重建性能不够理想[13]. 此外,Shi等[14]提出结合双重紧框架和空间变化阈值的可训练有界去噪器. 此外,Shi等[15]为视频SCI系统设计基于双紧框架的深度视频去噪器,增强了对视频特征的处理能力. 最近,Shi等[16]通过扩展双紧框架,提出可训练的高斯去噪器. 此外,一些深度神经网络被用来学习从测量值到原始帧的直接映射[17-20]. 一些研究人员结合了迭代优化算法和深度学习的优势,提出各种用于SCI重建的深度展开框架,但是网络的训练需要大量的硬件内存. 除此之外,受掩膜移动速度、机械或电路故障的影响,视频SCI系统很难在每个采样瞬间都理想地采样到相应的图像[21].

传统的SCI重建算法很难解决这些问题,本文提供了另一种思路. SCI系统的测量值是由掩膜和采样场景直接产生的,掩模具有特殊的对角结构. 这意味着某个掩膜可由相邻掩膜衍生出来. 需要重构的视频帧和已知的掩膜都具有时间连续性,这为SCI系统的时间维度超分提供了可能.

考虑到上述问题,本文提出新的深度展开框架. 具体来说,基于深度展开框架的基础,在重构过程中整合了基于体素流的帧合成方法,在时间维度上扩展视频数据,而不是直接降低压缩采样率,因为后者会造成大量的硬件内存和训练时间的消耗[21]. 本文提出的深度展开框架使用深度去噪器学习粗糙重建帧到原始帧的映射,采用运动正则化方法从去噪特征中直接提取体素流,以探索帧与帧之间的时空相关性[18-20]. 为了进一步提高模型性能,本文提出跨阶段体素流特征融合策略并引入群卷积[22-24].

1. 视频快照压缩成像的数学模型

视频SCI是集成系统,其在硬件中采样图像,在软件中重构图像,流程如图1所示.

图 1

图 1   视频SCI系统的视频采集和重构示意图

Fig.1   Schematic diagram of SCI system video acquisition and reconstruction


视频SCI系统使用多个掩膜$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b = 1}^B \in {{\bf{R}}^{h \times w \times B}} $来调制3D视频帧$ \left\{ {{{\boldsymbol{X}}_b}} \right\}_{b = 1}^B \in {{{\bf{R}}}^{h \times w \times B}} $,使其转换为二维测量值$ {\boldsymbol{Y}} \in {{\bf{R}}^{h \times w}} $. 假设掩码$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b = 1}^B $由2部分组成:$ {{\boldsymbol{M}}_{{{b}} \in {{\boldsymbol{b}}_1}}} $$ {{\boldsymbol{M}}_{{{b}} \in {{\boldsymbol{b}}_2}}} $,其中$ {{\boldsymbol{b}}_1} $$ {{\boldsymbol{b}}_2} $分别为与原始帧和需要超分的帧(未观测帧)相对应的掩膜的索引. 掩膜的$ {{\boldsymbol{b}}_1} $部分由预定义的随机伯努利矩阵组成,本文认为$ {{\boldsymbol{b}}_2} $部分的掩膜在空间维度上的所有值都等于零,这导致了重构中的全零传感矩阵.尽管全零传感矩阵对应的帧对测量值没有贡献,但笔者认为它们是已观测和可恢复的,观测过程可以表示为

${\boldsymbol{ Y}} = \sum\limits_{b \in {{\boldsymbol{b}}_1}} {{{\boldsymbol{X}}_b}} \odot {{\boldsymbol{M}}_b}+{\boldsymbol{N}}. $
(1)

式中:$ {\boldsymbol{N}} \in {{\bf{R}}^{h \times w}} $为观测噪声,$ \odot $表示元素级相乘. 定义传感矩阵$ {\boldsymbol{\varPhi}} \in {{\bf{R}}^{hw \times hwB}} $由SCI系统的$ B $个掩膜连接而成:

$ {\boldsymbol{\varPhi}} = \left[ {{{\boldsymbol{D}}_1}, \cdots ,{{\boldsymbol{D}}_B}} \right]. $
(2)

式中:$ {{\boldsymbol{D}}_b} = {{\mathrm{diag}}} \,\,({{\mathrm{vec}}} ({{\boldsymbol{M}}_b})) \in {{\bf{R}}^{hw \times hw}} $表示对应掩膜的对角矩阵形式,$ {{\mathrm{vec}}} ( \cdot ) $表示矩阵的向量化操作. 式(1)的向量化形式为

$ {{\mathrm{vec}}} ({\boldsymbol{Y}}) = {\boldsymbol{\varPhi}} {{\mathrm{vec}}} ({\boldsymbol{X}})+{{\mathrm{vec}}} ({\boldsymbol{N}}). $
(3)

测量值$ {{\mathrm{vec}}} ({\boldsymbol{Y}}) \in {{\bf{R}}^{hw \times 1}} $,噪声$ {{\mathrm{vec}}} ({\boldsymbol{N}}) \in {{\bf{R}}^{hw \times 1}} $$ {{\mathrm{vec}}} ({\boldsymbol{X}}) = {\left[ {{{\mathrm{vec}}} {{({{\boldsymbol{X}}_1})}^ {\mathrm{T}} }, \cdots ,{{\mathrm{vec}}} {{({{\boldsymbol{X}}_B})}^ {\mathrm{T}}}} \right]^ {\mathrm{T}} } \in {{\bf{R}}^{hwB \times 1}} $. 在这种情况下,系统的压缩采样率为$ 1/B $.

2. 视频快照压缩成像时间维超分辨率

为了获取有助于提取体素流和重构的运动信息,对测量值$ {\boldsymbol{Y}} $进行能量归一化:

$ \overline {\boldsymbol{Y}} = {\boldsymbol{Y}} \oslash \sum\limits_{{{b}}\in {{\boldsymbol{b}}_1}} {{{\boldsymbol{M}}_b}} . $
(4)

式中:$ \oslash $表示元素级除法. $ \overline {\boldsymbol{Y}} $中的像素比$ {\boldsymbol{Y}} $中的像素更加均匀. $ \overline {\boldsymbol{Y}} $可以视为保留了背景和运动信息的原始高速帧$ \left\{ {{{\boldsymbol{X}}_b}} \right\}_{b = 1}^B $的近似平均值. $ \overline {\boldsymbol{Y}} $与粗糙重构的结果一起构成去噪网络的输入,如图2所示.

图 2

图 2   基于体素流的时间维超分辨率模型示意图

Fig.2   Schematic of time-dimensional super-resolution model based on voxel flow


2.1. 视频SCI深度展开式重建框架

为了重构得到时间维超分辨率后的视频帧$ {\boldsymbol{X}} $,设$ {\boldsymbol{x}}= {{\mathrm{vec}}} ({\boldsymbol{X}}) $$ {\boldsymbol{y}} = {{\mathrm{vec}}} ({\boldsymbol{Y}}) $,需要求解以下优化问题:

$ {\boldsymbol{x}}=\mathrm{arg}\;\underset{{\boldsymbol{x}}}{\mathrm{min}}\left\{\Vert {\boldsymbol{y}}-{\boldsymbol{\varPhi}} {\boldsymbol{x}}{\Vert }_{2}^{2}/2+{{\varPsi}} ({\boldsymbol{x}})\right\}. $
(5)

式中:$ \Vert {\boldsymbol{y}}-{\boldsymbol{\varPhi}} {\boldsymbol{x}}{\Vert }_{2}^{2}/2 $为保真度项,$ {\bf{\varPsi}} ({\boldsymbol{x}}) $表示正则化项. 设$ {\bf{\varPsi}} ({\boldsymbol{x}}) = {{\bf{\varPsi}} _1}({\boldsymbol{x}})+{{\bf{\varPsi}} _2}({\boldsymbol{x}}) $,其中$ {{\bf{\varPsi}} _1}({\boldsymbol{x}}) $表示去噪正则化项,$ {{\bf{\varPsi}} _2}({\boldsymbol{x}}) $表示运动正则化项,则式(5)可以写成

$ {\boldsymbol{x}} = \arg\; \mathop {\min }\limits_{\boldsymbol{x}} \left\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2/2+{{\bf{\varPsi}} _1}({\boldsymbol{x}})+{\varPsi _2}({\boldsymbol{x}})\right\}. $
(6)

引入2个辅助变量$ {\boldsymbol{V}} $$ {\boldsymbol{Z}} $,则式(6)可以写成

$ \left. \begin{gathered} {\boldsymbol{x}},{\mathrm{vec}}({\boldsymbol{V}}),{\mathrm{vec}}({\boldsymbol{Z}}) = \arg \;\mathop {\min }\limits_{_{{\boldsymbol{x,V,Z}}}} \;\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2/2+ \\ \;\;\;\;\;\;\;\;\;{{\bf{\varPsi}} _1}({\mathrm{vec}}({\boldsymbol{V}}))+{{\bf{\varPsi}} _2}({\mathrm{vec}}({\boldsymbol{Z}}))\}, \\ \;\;\;\;\;\;\;\;\;{\mathrm{s.t.}}\quad {\boldsymbol{x}} = {\mathrm{vec}}({\boldsymbol{V}}) = {\mathrm{vec}}({\boldsymbol{Z}}). \\ \end{gathered} \right\} $
(7)

式(7)可以通过3个子问题迭代求解:

$ \begin{split}& {\mathrm{vec}}({\boldsymbol{V}}) = \\ &\quad \arg \;\mathop {\min }\limits_{\boldsymbol{V}} \;\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2+ \lambda \left\| {{\mathrm{vec}}({\boldsymbol{V}}) - ({{{\boldsymbol{x}}+{\mathrm{vec}}({\boldsymbol{Z}})}}})/2 \right\|_2^2\}, \end{split} $
(8)

$ \begin{split} &{\mathrm{vec}}({\boldsymbol{Z}}) = \\ & \arg \quad \mathop {\min }\limits_{\boldsymbol{Z}} \;\{{{\bf{\varPsi}} _1}({\mathrm{vec}}({\boldsymbol{Z}}))+ \lambda \left\| {{\mathrm{vec}}({\boldsymbol{Z}}) - ({{{\boldsymbol{x}}+{\mathrm{vec}}({\boldsymbol{V}})}})/{2}} \right\|_2^2\}, \end{split} $
(9)

$ {\boldsymbol{x}} = \arg \;\mathop {\min }\limits_{\boldsymbol{x}}\; \{{{\bf{\varPsi}} _2}({\boldsymbol{x}})+ \lambda \left\| {{\boldsymbol{x}} - ({{{\mathrm{vec}}({\boldsymbol{Z}})+{\mathrm{vec}}({\boldsymbol{V}})}}){/ }2} \right\|_2^2\}. $
(10)

图2所示,设$ k $为迭代索引,通过下列步骤对式(8)~(10)进行求解.

更新$ {\boldsymbol{V}} $:旨在更新保真度项. 给定$ {{\boldsymbol{X}}^{k - 1}} $,则$ {{\boldsymbol{V}}^k} $的更新可以视作线性流形上的欧几里得投影:

$ {{\mathrm{vec}}} ({{\boldsymbol{V}}^k}) = {\left( {{{\boldsymbol{\varPhi}} ^ {\mathrm{T}} }{\boldsymbol{\varPhi}} +{\boldsymbol{I}}} \right)^{ - 1}}\left( {{{\boldsymbol{\varPhi}} ^ {\mathrm{T}} }{\boldsymbol{y}}+{{\boldsymbol{x}}^{k - 1}}} \right). $
(11)

基于式(11),将$ {\boldsymbol{V}} $的迭代更新过程用投影操作$ {{P}^k}( \cdot ) $来表示.

更新$ {\boldsymbol{Z}} $:旨在更新去噪正则化项$ {{\bf{\varPsi}} _1}( \cdot ) $. 使用深度网络作为去噪器来完成更新:

$ {{\boldsymbol{Z}}^k} = {{{\mathrm{Pro}}}}{{{{\mathrm{x}}}}_{{{\bf{\varPsi}} _1}}}({{\boldsymbol{V}}^k}) = {{D}^k}\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right). $
(12)

式中:$ \left| \cdot \right| $表示通道维度的矩阵连接,深度网络在此处起到的是近端算子的作用. $ {{D}^k}( \cdot ) $的细节如图3所示,主要由3个部分组成:编码层($ {C}_1^k $)、群卷积层($ {{R}^k} $)及解码层($ {C}_2^k $). 其中编码层包含4个三维Conv-LeakyRelu层,最后一层的步长为2. 群卷积层包含4个群卷积块,用于将视频域特征转换为体素流特征,其具体结构将在2.4节介绍. 解码层与编码层的结构相同. 变量$ {\boldsymbol{Z}} $的更新可以表示为

图 3

图 3   提出模型中每迭代阶段的去噪器$ {{D}^k} $和运动正则化器$ {{M}^k} $的结构示意图

Fig.3   Details of denoiser $ {{D}^k} $ and motion regularizer $ {{M}^k} $ of each iteration phase of proposed model


$ {{\boldsymbol{Z}}^k} = \mathcal{C}_2^k\left( {{{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right)} \right). $
(13)

更新$ {\boldsymbol{X}} $:旨在更新运动正则化项$ {{\bf{\varPsi}} _2}( \cdot ) $. 使用基于体素流的运动正则化,对视频帧进行修正:

$ {{\boldsymbol{X}}^k} = {{{\mathrm{Pro}}}}{{{{\mathrm{x}}}}_{{{\bf{\varPsi}} _2}}}({{\boldsymbol{Z}}^k}) = {{M}^k}({{\boldsymbol{Z}}^k},{{\boldsymbol{F}}^k}). $
(14)

式中:$ {M^{{k}}} $表示运动正则化器,$ {{\boldsymbol{F}}^k} $为第$ k $阶段预测出的体素流.

2.2. 基于体素流的运动正则化

体素通常是指在三维空间中的体积像素. 使用轻量级的卷积网络$ {{S}^k} $,将视频特征转换为体素流$ {{\boldsymbol{F}}^k} $. $ {{S}^k} $包含4个三维卷积层,其中最后1层的激活函数为tanh,其余层的激活函数为LeakyRelu. 估计出的体素流可以表示为

$ {{\boldsymbol{F}}^k} = {{S}^k}\left( {{{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right)} \right). $
(15)

$ {{S}^k} $的输入为群卷积层的输出,$ {{\boldsymbol{F}}^k} $的第3维度的大小对应全零传感矩阵的数量. 为了简单起见,省略迭代索引$ k $. 体素流$ {\boldsymbol{F}} \in {{\bf{R}}^{h \times w \times {\hat b_2} \times L}} $包含$ L $个通道($ L = 3 $),其中$ {\hat b_2} = {{\mathrm{Card}}}\; ({{\boldsymbol{b}}_2}) $与未观测帧索引数量一致,$ {{\mathrm{Card}}} ( \cdot ) $为集合内元素的个数. 在第$ b $帧的位置$ (x,y) $处有3个分量值:

$ {\boldsymbol{F}}(x,y,b,:) = {{S}^k}({{\boldsymbol{X}}_{b - 1}},{{\boldsymbol{X}}_{b+1}}) = [\Delta x,\Delta y,\Delta t]. $
(16)

式中:$ {{\boldsymbol{X}}_{b - 1}} $$ {{\boldsymbol{X}}_{b+1}} $分别为当前帧的前一帧和后一帧,$ \Delta x $$ \Delta y $$ \Delta t $分别为空间和时间维度的像素位移量. 设估算出的体素流在视频帧间是局部线性的,且在时间上是对称的,则可以通过该体素流的负值来识别前一帧中的相应位置. 将前一帧和后一帧中相应位置的绝对坐标指定为

$ \left. \begin{gathered} ({{L}}_x^0,{{L}}_y^0) = (x - \Delta x,y - \Delta y), \\ ({{L}}_x^1,{{L}}_y^1) = (x+\Delta x,y+\Delta y). \\ \end{gathered} \right\} $
(17)

每对坐标对应一个虚拟体素,计算得到该体素8个顶点的整数位置:

$ \left. \begin{gathered} {{{{\boldsymbol{L}}}}^{000}} = \left[ {\left\lfloor {{{L}}_x^0} \right\rfloor ,\left\lfloor {{{L}}_y^0} \right\rfloor ,b - 1} \right], \\ {{{{\boldsymbol{L}}}}^{100}} = \left[ {\left\lceil {{{L}}_x^0} \right\rceil ,\left\lfloor {{{L}}_y^0} \right\rfloor ,b - 1} \right], \\ \;\;\;\;\;\;\;\; \vdots \\ {{{{\boldsymbol{L}}}}^{011}} = \left[ {\left\lfloor {{{L}}_x^1} \right\rfloor ,\left\lceil {{{L}}_y^1} \right\rceil ,b+1} \right], \\ {{{{\boldsymbol{L}}}}^{111}} = \left[ {\left\lceil {{{L}}_x^1} \right\rceil ,\left\lceil {{{L}}_y^1} \right\rceil ,b+1} \right]. \\ \end{gathered} \right\} $
(18)

式中:$ \left\lfloor \cdot \right\rfloor $表示地板函数,通常用于计算在三维空间中某一点的虚拟体素的顶点位置.

设计算子$ {T} $,使用三线性插值生成位置$ (x,y) $处的像素:

$ {\boldsymbol{X}}(x,y,b) = {T}({\boldsymbol{Z}},{\boldsymbol{L}}) = \sum\limits_{i,j,l} {{{\boldsymbol{W}}^{ijl}}} {\boldsymbol{Z}}\left( {{{\boldsymbol{L}}^{ijl}}} \right); \;i,j,l \in \{ 0,1\} . \\ $
(19)

式中:$ {{\boldsymbol{W}}^{ijl}} $为三线性重采样权重[23]. 构成体素流的3个分量分别为空间和时间维度的像素偏移量. 基于这些偏移量,通过三线性插值计算得到连续2个原始帧之间的中间帧像素,原始帧和中间帧的精确度随着算法迭代和网络训练的进行而逐渐提高.

2.3. 跨阶段体素流的特征融合

在优化迭代过程中,连接不同迭代阶段的变量是$ {\boldsymbol{V}} $$ {\boldsymbol{X}} $,这2个变量都只包含一个通道(时间维度保持不变). 中间特征有多达64个通道,因此会损失部分多通道体素流特征信息,这严重影响了模型的重构性能. 针对该问题,提出跨阶段体素流特征融合的策略. 如图2所示,在第$ k $个阶段($ k \geqslant 2 $),将之前阶段的体素流$ {{\boldsymbol{F}}^{k - 1}} $在通道维度与视频特征连接起来,并将它们一起作为$ {{S}^k} $的输入. 设$ {{\boldsymbol{Q}}^k} = {{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right) $,则式(15)可以修改为

$ {{\boldsymbol{F}}^k} = \left\{ {\begin{array}{*{20}{l}} {{{S}^k}\left( {{{\boldsymbol{Q}}^k}} \right),}&{k = 1;} \\ {{{S}^k}\left( {\left| {{{\boldsymbol{Q}}^k},{{\boldsymbol{F}}^*}} \right|} \right),}&{1 < k \leqslant K.} \end{array}} \right. $
(20)

式中:${{\boldsymbol{F}}^*} = \left[ {{{\boldsymbol{F}}^1},{{\boldsymbol{F}}^2}, \cdots ,{{\boldsymbol{F}}^{k - 1}}} \right]$$ K $为最大迭代次数的索引. 特征融合可以增强网络的表达能力,综合利用各个层次的特征信息,从而弥补多个阶段之间因通道压缩而丢失的信息.

2.4. 群卷积块

给出群卷积块的具体结构,进一步提高模型的性能. 如图3所示,将群卷积块的输入和输出分别设为$ {{\boldsymbol{r}}^i} $$ {{\boldsymbol{r}}^{i+1}} $. 该卷积块使用4个卷积分支,在通道维度上均分$ {{\boldsymbol{r}}^i} $

$ \left. \begin{gathered} {\boldsymbol{r}}_1^{i+1} = {\boldsymbol{r}}_4^i+{{B}_1}\left( {{\boldsymbol{r}}_1^i} \right), \\ {\boldsymbol{r}}_2^{i+1} = {\boldsymbol{r}}_3^i+{{B}_2}\left( {{\boldsymbol{r}}_1^{i+1}} \right), \\ {\boldsymbol{r}}_3^{i+1} = {\boldsymbol{r}}_2^i+{{B}_3}\left( {{\boldsymbol{r}}_2^{i+1}} \right), \\ {\boldsymbol{r}}_4^{i+1} = {\boldsymbol{r}}_1^i+{{B}_4}\left( {{\boldsymbol{r}}_3^{i+1}} \right). \\ \end{gathered} \right\} $
(21)

式中:${B}( \cdot )$表示基础卷积块,每个${B}( \cdot )$包含1个三维Conv-LeakyRelu-Conv层,卷积核大小为3×3×3. 在群卷积中,每个分组只处理一部分特征,这可能会导致信息在不同分组间的隔离. 通过将最后一个分组的输出与第一个分组的输出进行加权结合,可以促进不同分组间的信息交流和融合,增大特征间的相互影响. 从卷积分支输出的特征在通道维度上被重新连接:

$ {{\boldsymbol{r}}^{i+1}} = \left[ {{\boldsymbol{r}}_1^{i+1},{\boldsymbol{r}}_2^{i+1},{\boldsymbol{r}}_3^{i+1},{\boldsymbol{r}}_4^{i+1}} \right]. $
(22)

在一定程度上堆叠相同的结构,有利于提高非线性性能. 此外,群卷积通过限制超参数的自由选择,降低了对特定数据集过拟合的风险[25-27].

3. 实验结果

3.1. 训练和测试

对于压缩采样率为$ 1/B $的视频SCI系统,设原始帧的数量为${\hat b_1} = {{\mathrm{Card}}} ({{\boldsymbol{b}}_1})$. 模型将测量值$ {\boldsymbol{Y}} $和掩膜$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b \in {\boldsymbol{b}}_1} $作为模型输入,随后输出重构的完整视频帧$ \hat {\boldsymbol{X}} \in {{{\bf{R}}}^{h \times w \times B}} $. 给定$ N $个训练对$ \left\{ {({{\boldsymbol{Y}}^i},{{\boldsymbol{X}}^i})} \right\}_{i = 1}^N $,使用均方误差(mean square error,MSE)作为损失函数:

$ {{L}_{{\mathrm{MSE}}}} = \frac{1}{{N{N_{\mathrm{s}}}}}\sum\limits_{i = 1}^N {\left\| {{{\hat {\boldsymbol{X}}}^i} - {{\boldsymbol{X}}^i}} \right\|_2^2} . $
(23)

式中:$ {N_{\mathrm{s}}} $为数据块$ \hat {\boldsymbol{X}} $的大小. 所有训练数据都来自公共数据集DAVIS2017[28],其中包含90个不同场景的480像素和1080像素分辨率的图像. 通过随机裁剪、缩放和水平翻转等数据增强方法,共获得26 000对灰度数据和21 000对彩色数据. 从原始图像中裁剪连续图像作为基准真实视频帧,在每段视频帧中选择奇数帧作为原始帧. 为了便于比较,使用原始尺寸为256×256×8(即$ {b_1} = {b_2} = 4 $)的基准数据集Kobe、Runner、Drop、Traffic、Aerial和Vehicle,这些数据集被广泛用于视频SCI重构任务[10,13]. 为了进行实际验证,使用原始大小为256×256×14的真实数据集Chopper wheel和Hand lens,对所提模型进行测试. 所有方法都在相同的硬件上,使用相同的数据集和掩码进行重新训练和测试. 使用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structure similarity index measure, SSIM)作为重构质量评估指标.

本文的模型在Pytorch中实现,并在NVIDIA Tesla V100 GPU上训练120个轮次. 使用 Adam 优化器来最小化损失函数,将初始学习率设置为$ 1.5 \times {10^{ - 4}} $. 为了达到最佳的训练效果,每10个训练轮次将学习率降低5%.

3.2. 灰度模拟数据集的实验结果

表1所示为在6个基准数据集上重构结果的平均PSNR、SSIM和运行时间tr. 对于现有的算法,本文修改了原始模型上输出通道的数量,即利用神经网络的学习能力来强制预测未观测帧. 对于HQS-RevSCI,将RevSCI的网络设置为HQS算法的去噪先验,保持可逆结构的总数不变. 对于FISTA-Rev-AE-3D,使用FISTA算法代替ISTA-Rev-AE中的ISTA算法,采用三维卷积代替二维卷积. 对于ISTA-Rev-AE,调整了AE模型的维度差异,使CS重建算法能够进行视频快照压缩成像的重建. 对于EfficientSCI,将网络中的ResDNet子网络数量设为8,并将特征分为2组进行训练. 将初始学习率设置为$ 1 \times {10^{ - 5}} $,模型的训练时间为300轮次. 对于Res2former,网络中单个结构的数量与原文设置保持一致. 将初始学习率设置为$ 1 \times {10^{ - 4}} $,模型训练100个轮次.

表 1   模拟数据重构结果和运行时间对比,单元格中左侧数据为PSNR,右侧数据为SSIM

Tab.1  Comparison results and running time of simulated data reconstruction, the left data of the cell is PSNR and the right is SSIM

对比方法PSNR/dB, SSIMtr/s
KobeTrafficRunnerDropAerialCrash平均值
Tensor-FISTA[19]25.02, 0.80422.71, 0.82230.32, 0.94234.36, 0.97125.95, 0.87625.50, 0.89127.31, 0.8840.0166
E2E-CNN[17]26.24, 0.82024.53, 0.88833.80, 0.97436.66, 0.98927.29, 0.91526.30, 0.91229.14, 0.9170.0098
RevSCI[18]27.51, 0.88424.87, 0.89834.05, 0.97637.70, 0.99026.97, 0.91226.31, 0.91529.57, 0.9290.1412
ISTA-Rev-AE[29]25.91, 0.81124.09, 0.87033.07, 0.97738.05, 0.97026.73, 0.90326.18, 0.90828.96, 0.9090.0481
GAP-Unet-S12[20]27.48, 0.85625.55, 0.90735.29, 0.98037.18, 0.99227.90, 0.92426.83, 0.92530.04, 0.9310.0327
HQS-RevSCI[30]27.59, 0.87525.14, 0.90234.30, 0.97738.15, 0.99027.27, 0.91726.32, 0.91429.79, 0.9290.4136
FISTA-Rev-AE-3D[31]27.58, 0.86525.59, 0.90935.03, 0.97938.59, 0.99127.58, 0.92126.57, 0.91530.16, 0.9300.1281
SCI-OF[32]29.03, 0.91626.83, 0.93335.32, 0.98039.68, 0.99228.07, 0.93227.34, 0.93931.04, 0.9490.2476
EfficientSCI[33]25.25, 0.82622.65, 0.82831.34, 0.96235.51, 0.98426.02, 0.89025.52, 0.89827.71, 0.8980.0206
Res2former[34]26.54, 0.85824.32, 0.86833.42, 0.97337.90, 0.98927.30, 0.91626.58, 0.92429.34, 0.9210.0216
本文方法28.87, 0.91227.05, 0.93536.29, 0.98239.82, 0.99328.29, 0.93327.35, 0.94131.27, 0.9490.2509

新窗口打开| 下载CSV


表1可以看出,在大多数个场景的PSNR和SSIM方面,本文的方法都优于对比方法,尤其是平均PSNR比排名第2的SCI-OF高0.23 dB. Tensor-FISTA、E2E-CNN和ISTA-Rev-AE的运行速度较快,但重构结果相对较差. 得益于较小的网络结构和简便的GAP算法,GAP-Unet-S12在较短的运行时间内获得了与FISTA-Rev-AE-3D几乎相当的重构结果,但重构帧的视觉质量较差. 如图4所示为本文方法与对比方法重构时间维超分辨率帧结果的可视化对比. 由于采用了基于体素流的运动正则化,本文方法重构的帧具有更清晰的细节和更锐利的边缘,对比方法重构的帧更平滑粗糙,如Kobe中的数字“24”和Aerial中的“树枝”.

图 4

图 4   不同方法在灰度模拟数据上的重构结果视觉对比

Fig.4   Visual comparison of reconstruction result of different methods on gray-scale simulated data


3.3. 真实数据集的实验结果

视频SCI的真实数据存在不可避免的噪声,由于光照不均,掩膜可能不准确. 此外,较小的压缩采样率意味着更多的视频帧在测量值中被压缩,重构难度增加. 对于SCI重构方法来说,真实数据的重构更具挑战性[2,7]. 在压缩采样率为$ 1/14 $的真实数据Chopper wheel和Hand lens上进行实验,验证模型的性能. 使用DAVIS2017和真实数据的掩膜,生成用于训练的测量值和基准图像. 由于真实数据的测试没有基准图像,通过视觉质量对性能进行主观的评估. 如图5所示为不同方法在真实数据上重构的结果. 可以看出,与其他方法相比,利用本文方法得到的字母“D”和“手”的边缘更清晰.

图 5

图 5   不同方法在真实采集数据上的重构结果视觉对比

Fig.5   Visual comparison of reconstruction result of different methods on real collected data


在重构后的Chopper wheel图像中,可以观察到一些存在于原始数据中的白色斑点. 在对比实验的视觉质量方面,利用FISTA-Rev-AE-3D方法产生的结果过度平滑,导致了这些存在于测量帧之内的细节丢失.

4. 消融研究

在传统的视频帧插值方法中,体素流(特征)通常是从完整的视频帧中提取的,而本文直接将网络的中间特征转化为体素流,节省了计算资源. 为了验证该方法的有效性,设置消融实验. 根据提出的模型,在每阶段原始帧重构完成后,再从原始帧中重新提取体素流. 其他设置保持不变. 实验结果如表2所示. 可以看出,在所有数据集上,使用重新提取的体素流进行重构的结果都落后于使用中间特征转换的体素流,平均 PSNR比中间特征转换的体素流小3.12 dB.

表 2   平均PSNR、SSIM和运行时间的消融实验重构结果对比

Tab.2  Comparison of reconstruction result of ablation experiment on average PSNR, SSIM and running time

对比方法PSNR/dB, SSIMtr/s
KobeTrafficRunnerDropAerialCrash平均值
重提取VF26.31, 0.84722.89, 0.83231.93, 0.95935.21, 0.97926.66, 0.89925.87, 0.90628.15, 0.9040.461 5
w/o MR26.52, 0.83225.16, 0.90134.73, 0.97838.22, 0.99027.35, 0.91826.35, 0.91329.72, 0.9220.071 8
w/o CF28.68, 0.90826.69, 0.93135.13, 0.98039.47, 0.99228.06, 0.93127.27, 0.93630.89, 0.9460.248 3
w/o GC28.55, 0.90126.65, 0.93135.67, 0.98139.70, 0.99227.99, 0.93027.15, 0.93630.95, 0.9450.211 2
本文方法28.87, 0.91227.05, 0.93536.29, 0.98239.82, 0.99328.29, 0.93327.35, 0.94131.27, 0.9490.250 9

新窗口打开| 下载CSV


为了验证运动正则化(MR)和跨阶段体素流特

征融合(CF)的有效性,设计2个不完整模型,分别去除运动正则化和特征融合结构. CF是在MR估计的体素流基础上工作的,因此在一个不完整模型中去掉了MR和CF,在另一个不完整模型中去掉了CF,但保留了MR. 训练这些消融模型的配置和参数与完整模型保持一致. 利用没有MR的模型,直接从粗略重构的原始帧中估算得到未观测帧. 在基准数据集上的消融实验重构结果如表2所示. 可以看出,完整模型的重构结果比无MR模型高1.55 dB,而CF使得重构指标提升了0.38 dB. 这说明体素流可以有效地提取视频SCI中连续帧之间的运动信息,利用基于体素流的深度运动正则化可以更精确地计算视频连续帧之间的像素运动.

为了验证群卷积块(GC)的有效性,在另一项实验中用可逆块结构[29,31]替换GC . 本文只取了可逆结构的正向部分,因为正向可逆结构可以看作是群数较少的群卷积. 模型的其他设置和参数保持不变,实验结果如表2所示. 可以看出,用正向可逆块替换GC后,模型的PSNR性能降低了0.32 dB,这说明增加卷积的组数可以有效地改善模型的重构性能.

为了验证不同迭代阶段对实验结果的影响,使用不同的迭代次数重新训练了提出的模型. 如图6所示,最大阶段数$ K = 6 $的重构模型在重构结果的平均PSNR上超过了次优的方法,而且随着$ K $的增加,性能有所提高. 随着阶段的增加,重构视频帧的平均 PSNR 递增率会缓慢下降,模型的训练和推理速度也会下降. 经过权衡,将$ K $设为10.

图 6

图 6   原始观测帧数的消融研究重构结果对比

Fig.6   Comparison of reconstruction result of ablation studies for number of original observed frame


为了验证所提出的SCI重构方法中体素流(VF)的鲁棒性,在测量值中改变$ {\hat b_1} $以进行比较. 在压缩采样率为$ 1/8 $的模型中,原始帧数从2增加到8,使用基准灰度数据集测试重构结果. 实验结果如图7所示. 可以看出,在观测帧数占测量值一半的情况下,重构结果仍然很好;随着观测帧数的增加,重构质量不断提高.

图 7

图 7   最大阶段数K的消融研究重构结果对比

Fig.7   Comparison of reconstruction result of ablation studies for maximum phase number K


5. 结 语

本文针对视频SCI提出基于体素流的深度展开重构框架,可以从测量值中恢复观测到的帧并在时间维度进行超分. 具体来说,本文在视频SCI问题的优化迭代过程中嵌入深度神经网络作为去噪器,将视频特征转换为体素流,利用体素流构造成运动正则化器. 运动正则化器和深度去噪器在同一迭代中更新原始帧和未观测帧. 为了提高模型的性能,本文引入群卷积,在不同阶段融合体素流信息,减少迭代过程中的信息损失. 本文在公共数据集上进行大量的实验,验证了所提出的模型能够在重构视频帧率相同的情况下,显著降低视频SCI系统的压缩采样率,保证高质量的重构结果.

参考文献

CHEN Z, GUO W, FENG Y, et al

Deep-learned regularization and proximal operator for image compressive sensing

[J]. IEEE Transactions on Image Processing, 2021, 30: 7112- 7126

[本文引用: 1]

QIAO M, LIU X, YUAN X

Snapshot spatial–temporal compressive imaging

[J]. Optics Letters, 2020, 45 (7): 1659- 1662

DOI:10.1364/OL.386238      [本文引用: 1]

LU R, CHEN B, LIU G, et al

Dual-view snapshot compressive imaging via optical flow aided recurrent neural network

[J]. International Journal of Computer Vision, 2021, 129 (12): 3279- 3298

DOI:10.1007/s11263-021-01532-1      [本文引用: 1]

LLULL P, LIAO X, YUAN X, et al

Coded aperture compressive temporal imaging

[J]. Optics Express, 2013, 21 (9): 10526- 10545

DOI:10.1364/OE.21.010526      [本文引用: 1]

YUAN X, BRADY D, KATSAGGELOS A

Snapshot compressive imaging: theory, algorithms, and applications

[J]. IEEE Signal Processing Magazine, 2021, 38 (2): 65- 88

DOI:10.1109/MSP.2020.3023869     

SUN Y, YUAN X, PANG S

Compressive high-speed stereo imaging

[J]. Optics Express, 2017, 25 (15): 18182- 18190

DOI:10.1364/OE.25.018182     

ZHANG Z, DENG C, LIU Y, et al

Ten-mega-pixel snapshot compressive imaging with a hybrid coded aperture

[J]. Photonics Research, 2021, 9 (11): 2277- 2287

DOI:10.1364/PRJ.435256      [本文引用: 2]

ZHAN C, HU H, SUI X, et al

Joint resource allocation and 3D aerial trajectory design for video streaming in UAV communication systems

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31 (8): 3227- 3241

[本文引用: 1]

LIN F, FU C, HE Y, et al

Learning temporary block-based bidirectional incongruity-aware correlation filters for efficient UAV object tracking

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31 (6): 2160- 2174

[本文引用: 1]

LIU Y, YUAN X, SUO J, et al

Rank minimization for snapshot compressive imaging

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41 (12): 2990- 3006

[本文引用: 2]

YUAN X, LIU Y, SUO J, et al. Plug-and-play algorithms for large-scale snapshot compressive imaging [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 1447-1457.

YUAN X, LIU Y, SUO J, et al

Plug-and-play algorithms for video snapshot compressive imaging

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44 (10): 7093- 7111

[本文引用: 1]

YANG J, YUAN X, LIAO X, et al

Video compressive sensing using Gaussian mixture models

[J]. IEEE Transactions on Image Processing, 2014, 23 (11): 4863- 4878

DOI:10.1109/TIP.2014.2344294      [本文引用: 2]

SHI B, WANG Y, LI D

Provable general bounded denoisers for snapshot compressive imaging with convergence guarantee

[J]. IEEE Transactions on Computational Imaging, 2023, 9 (2): 55- 69

[本文引用: 1]

SHI B, LI D, WANG Y, et al

Provable deep video denoiser using spatial–temporal information for video snapshot compressive imaging: algorithm and convergence analysis

[J]. Signal Processing, 2024, 214 (1): 109236

[本文引用: 1]

SHI B, WANG Y, LIAN Q. A trainable bounded denoiser using double tight frame network for snapshot compressive imaging [C]// IEEE International Conference on Acoustics, Speech and Signal Processing . Singapore: IEEE, 2022: 1516-1520.

[本文引用: 1]

QIAO M, MENG Z, MA J, et al

Deep learning for video compressive sensing

[J]. Apl Photonics, 2020, 5 (3): 030801

DOI:10.1063/1.5140721      [本文引用: 2]

CHENG Z, CHEN B, LIU G, et al. Memory-efficient network for large-scale video compressive sensing [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 16246-16255.

[本文引用: 2]

HAN X, WU B, SHOU Z, et al. Tensor FISTA-Net for real-time snapshot compressive imaging [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI, 2020, 34(7): 10933-10940.

[本文引用: 1]

MENG Z, YUAN X, JALALI S

Deep unfolding for snapshot compressive imaging

[J]. International Journal of Computer Vision, 2023, 131 (11): 2933- 2958

DOI:10.1007/s11263-023-01844-4      [本文引用: 3]

WANG Z, ZHANG H, CHENG Z, et al. Metasci: scalable and adaptive reconstruction for video compressive sensing [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 2083-2092.

[本文引用: 2]

NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive convolution [C]// IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 670-679.

[本文引用: 1]

LIU Z, YEH R, TANG X, et al. Video frame synthesis using deep voxel flow [C]// IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 4463-4471.

[本文引用: 1]

ZHANG Y, LIU X, WU B, et al. Video synthesis via transform-based tensor neural network [C]// Proceedings of the 28th ACM International Conference on Multimedia . Melbourne: ACM, 2020: 2454-2462.

[本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386      [本文引用: 1]

XIE S, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [C]// IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 1492-1500.

HUANG G, LIU S, MAATEN L, et al. Condensenet: an efficient DenseNet using learned group convolutions [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 2752-2761.

[本文引用: 1]

MIAO Y, ZHAO X, WANG J, et al

Snapshot compressive imaging using domain-factorized deep video prior

[J]. IEEE Transactions on Computational Imaging, 2024, 10 (1): 93- 102

[本文引用: 1]

LI S, ZHENG Z, DAI W, et al. REV-AE: a learned frame set for image reconstruction [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona: IEEE, 2020: 1823-1827.

[本文引用: 2]

WU Z, ZHANG J, MOU C. Dense deep unfolding network with 3D-CNN prior for snapshot compressive imaging [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 4872-4881.

[本文引用: 1]

LI S, DAI W, ZHENG Z, et al

Reversible autoencoder: a CNN-based nonlinear lifting scheme for image reconstruction

[J]. IEEE Transactions on Signal Processing, 2021, 69 (5): 3117- 3131

[本文引用: 2]

CHEN Z, LI R, LI Y, et al. Video snapshot compressive imaging via optical flow [C]// IEEE International Conference on Multimedia and Expo . Brisbane: IEEE, 2023: 2177-2182.

[本文引用: 1]

WANG L, CAO M, YUAN X. Efficientsci: densely connected network with space-time factorization for large-scale video snapshot compressive imaging [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 18477-18486.

[本文引用: 1]

WANG P, WANG L, YUAN X. Deep optics for video snapshot compressive imaging [C]// IEEE/CVF International Conference on Computer Vision . Paris: IEEE, 2023: 10646-10656.

[本文引用: 1]

/