基于时间维超分辨率的视频快照压缩成像重构

doi:10.3785/j.issn.1008-973X.2025.05.009

基于时间维超分辨率的视频快照压缩成像重构

陈赞^,, 李冉, 冯远静, 李永强

浙江工业大学信息工程学院，浙江杭州 310023

Video snapshot compressive imaging reconstruction based on temporal super-resolution

CHEN Zan^,, LI Ran, FENG Yuanjing, LI Yongqiang

College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

收稿日期: 2024-04-9

基金资助:

国家自然科学基金资助项目（62002327）；浙江省自然科学基金资助项目（LQ21F020017）.

Received: 2024-04-9

Fund supported:

国家自然科学基金资助项目（62002327）；浙江省自然科学基金资助项目（LQ21F020017）.

作者简介 About authors

陈赞（1989—），男，讲师，博士，从事计算机视觉、压缩感知的研究.orcid.org/0000-0003-4252-4761.E-mail：zanchen2@zjut.edu.cn , E-mail：zanchen2@zjut.edu.cn

摘要

针对视频快照压缩成像（SCI）因压缩采样率较小所导致的重构硬件负担高、重构质量差的问题，提出基于体素流的深度展开式重构框架，对重构视频进行时间维度超分. 基于优化迭代提出深度去噪网络，对初始帧进行迭代重构. 将去噪网络的视频特征转换为体素流特征，以估计体素信息. 基于体素流构造运动正则化器，使用原始帧的体素计算时间维超分辨的帧. 在模型中结合群卷积，融合不同阶段的体素流信息，减少运动信息损失. 实验结果表明，在基准数据集上的平均重构峰值信噪比相较于对比方法提高了0.23 dB，重构帧视觉质量更高. 在重构视频帧率相同的情况下，利用提出的方法能够显著降低视频SCI系统的压缩采样率，保持高质量的重构结果.

关键词： 快照压缩成像 ; 压缩感知 ; 体素流 ; 深度学习 ; 超分辨率

Abstract

A voxel flow-based deep unfolding reconstruction framework was proposed to perform time-dimensional super-resolution on the reconstructed video frames aiming at the problems of high reconstruction hardware burden and poor reconstruction quality of video snapshot compressed imaging (SCI) due to small compressive sampling rate. A deep denoising network was proposed based on optimized iteration to iteratively reconstruct the initial frames. The video features of the denoising network were converted into voxel flow features in order to estimate the voxel information. A motion regularizer was constructed based on voxel streams in order to compute time-dimensional super-resolved frames by using voxels from the original frames. Group convolution was combined in the model to fuse the voxel stream information at different stages to reduce the loss of motion information. The experimental results showed that the average reconstructed peak signal-to-noise ratio on the benchmark dataset was improved by 0.23 dB compared to the comparison method, and the visual quality of reconstructed frames was higher. The compressive sampling rate of the video SCI system can be significantly reduced with the same frame rate of the reconstructed video by using the proposed method in order to maintain high quality reconstruction results.

Keywords： snapshot compressive imaging ; compressive sensing ; voxel flow ; deep learning ; super-resolution

PDF (1398KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈赞, 李冉, 冯远静, 李永强. 基于时间维超分辨率的视频快照压缩成像重构. 浙江大学学报(工学版)[J], 2025, 59(5): 956-963 doi:10.3785/j.issn.1008-973X.2025.05.009

CHEN Zan, LI Ran, FENG Yuanjing, LI Yongqiang. Video snapshot compressive imaging reconstruction based on temporal super-resolution. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 956-963 doi:10.3785/j.issn.1008-973X.2025.05.009

压缩感知近年来推动了计算成像技术的发展^[1-3]. 快照压缩成像（snapshot compressive imaging, SCI）是基于压缩感知理论的计算成像系统的分支. 视频SCI系统使用特殊的硬件掩膜对连续高速场景进行采样，并将采样数据压缩为单个测量值^[4-7]. 缺乏快速准确的重建算法是限制SCI系统实际应用的因素之一^[8-9]. 一些算法采用各种先验知识作为正则化，将SCI重构转化为正则优化问题^[10-12]. 此类算法的可解释性强，但重建性能不够理想^[13]. 此外，Shi等^[14]提出结合双重紧框架和空间变化阈值的可训练有界去噪器. 此外，Shi等^[15]为视频SCI系统设计基于双紧框架的深度视频去噪器，增强了对视频特征的处理能力. 最近，Shi等^[16]通过扩展双紧框架，提出可训练的高斯去噪器. 此外，一些深度神经网络被用来学习从测量值到原始帧的直接映射^[17-20]. 一些研究人员结合了迭代优化算法和深度学习的优势，提出各种用于SCI重建的深度展开框架，但是网络的训练需要大量的硬件内存. 除此之外，受掩膜移动速度、机械或电路故障的影响，视频SCI系统很难在每个采样瞬间都理想地采样到相应的图像^[21].

传统的SCI重建算法很难解决这些问题，本文提供了另一种思路. SCI系统的测量值是由掩膜和采样场景直接产生的，掩模具有特殊的对角结构. 这意味着某个掩膜可由相邻掩膜衍生出来. 需要重构的视频帧和已知的掩膜都具有时间连续性，这为SCI系统的时间维度超分提供了可能.

考虑到上述问题，本文提出新的深度展开框架. 具体来说，基于深度展开框架的基础，在重构过程中整合了基于体素流的帧合成方法，在时间维度上扩展视频数据，而不是直接降低压缩采样率，因为后者会造成大量的硬件内存和训练时间的消耗^[21]. 本文提出的深度展开框架使用深度去噪器学习粗糙重建帧到原始帧的映射，采用运动正则化方法从去噪特征中直接提取体素流，以探索帧与帧之间的时空相关性^[18-20]. 为了进一步提高模型性能，本文提出跨阶段体素流特征融合策略并引入群卷积^[22-24].

1. 视频快照压缩成像的数学模型

视频SCI是集成系统，其在硬件中采样图像，在软件中重构图像，流程如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 视频SCI系统的视频采集和重构示意图

Fig.1 Schematic diagram of SCI system video acquisition and reconstruction

视频SCI系统使用多个掩膜$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b = 1}^B \in {{\bf{R}}^{h \times w \times B}} $来调制3D视频帧$ \left\{ {{{\boldsymbol{X}}_b}} \right\}_{b = 1}^B \in {{{\bf{R}}}^{h \times w \times B}} $，使其转换为二维测量值$ {\boldsymbol{Y}} \in {{\bf{R}}^{h \times w}} $. 假设掩码$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b = 1}^B $由2部分组成：$ {{\boldsymbol{M}}_{{{b}} \in {{\boldsymbol{b}}_1}}} $和$ {{\boldsymbol{M}}_{{{b}} \in {{\boldsymbol{b}}_2}}} $，其中$ {{\boldsymbol{b}}_1} $和$ {{\boldsymbol{b}}_2} $分别为与原始帧和需要超分的帧（未观测帧）相对应的掩膜的索引. 掩膜的$ {{\boldsymbol{b}}_1} $部分由预定义的随机伯努利矩阵组成，本文认为$ {{\boldsymbol{b}}_2} $部分的掩膜在空间维度上的所有值都等于零，这导致了重构中的全零传感矩阵.尽管全零传感矩阵对应的帧对测量值没有贡献，但笔者认为它们是已观测和可恢复的，观测过程可以表示为

(1)${\boldsymbol{ Y}} = \sum\limits_{b \in {{\boldsymbol{b}}_1}} {{{\boldsymbol{X}}_b}} \odot {{\boldsymbol{M}}_b}+{\boldsymbol{N}}. $

式中：$ {\boldsymbol{N}} \in {{\bf{R}}^{h \times w}} $为观测噪声，$ \odot $表示元素级相乘. 定义传感矩阵$ {\boldsymbol{\varPhi}} \in {{\bf{R}}^{hw \times hwB}} $由SCI系统的$ B $个掩膜连接而成：

(2)$ {\boldsymbol{\varPhi}} = \left[ {{{\boldsymbol{D}}_1}, \cdots ,{{\boldsymbol{D}}_B}} \right]. $

式中：$ {{\boldsymbol{D}}_b} = {{\mathrm{diag}}} \,\,({{\mathrm{vec}}} ({{\boldsymbol{M}}_b})) \in {{\bf{R}}^{hw \times hw}} $表示对应掩膜的对角矩阵形式，$ {{\mathrm{vec}}} ( \cdot ) $表示矩阵的向量化操作. 式(1)的向量化形式为

(3)$ {{\mathrm{vec}}} ({\boldsymbol{Y}}) = {\boldsymbol{\varPhi}} {{\mathrm{vec}}} ({\boldsymbol{X}})+{{\mathrm{vec}}} ({\boldsymbol{N}}). $

测量值$ {{\mathrm{vec}}} ({\boldsymbol{Y}}) \in {{\bf{R}}^{hw \times 1}} $，噪声$ {{\mathrm{vec}}} ({\boldsymbol{N}}) \in {{\bf{R}}^{hw \times 1}} $，$ {{\mathrm{vec}}} ({\boldsymbol{X}}) = {\left[ {{{\mathrm{vec}}} {{({{\boldsymbol{X}}_1})}^ {\mathrm{T}} }, \cdots ,{{\mathrm{vec}}} {{({{\boldsymbol{X}}_B})}^ {\mathrm{T}}}} \right]^ {\mathrm{T}} } \in {{\bf{R}}^{hwB \times 1}} $. 在这种情况下，系统的压缩采样率为$ 1/B $.

2. 视频快照压缩成像时间维超分辨率

为了获取有助于提取体素流和重构的运动信息，对测量值$ {\boldsymbol{Y}} $进行能量归一化：

(4)$ \overline {\boldsymbol{Y}} = {\boldsymbol{Y}} \oslash \sum\limits_{{{b}}\in {{\boldsymbol{b}}_1}} {{{\boldsymbol{M}}_b}} . $

式中：$ \oslash $表示元素级除法. $ \overline {\boldsymbol{Y}} $中的像素比$ {\boldsymbol{Y}} $中的像素更加均匀. $ \overline {\boldsymbol{Y}} $可以视为保留了背景和运动信息的原始高速帧$ \left\{ {{{\boldsymbol{X}}_b}} \right\}_{b = 1}^B $的近似平均值. $ \overline {\boldsymbol{Y}} $与粗糙重构的结果一起构成去噪网络的输入，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 基于体素流的时间维超分辨率模型示意图

Fig.2 Schematic of time-dimensional super-resolution model based on voxel flow

2.1. 视频SCI深度展开式重建框架

为了重构得到时间维超分辨率后的视频帧$ {\boldsymbol{X}} $，设$ {\boldsymbol{x}}= {{\mathrm{vec}}} ({\boldsymbol{X}}) $，$ {\boldsymbol{y}} = {{\mathrm{vec}}} ({\boldsymbol{Y}}) $，需要求解以下优化问题：

(5)$ {\boldsymbol{x}}=\mathrm{arg}\;\underset{{\boldsymbol{x}}}{\mathrm{min}}\left\{\Vert {\boldsymbol{y}}-{\boldsymbol{\varPhi}} {\boldsymbol{x}}{\Vert }_{2}^{2}/2+{{\varPsi}} ({\boldsymbol{x}})\right\}. $

式中：$ \Vert {\boldsymbol{y}}-{\boldsymbol{\varPhi}} {\boldsymbol{x}}{\Vert }_{2}^{2}/2 $为保真度项，$ {\bf{\varPsi}} ({\boldsymbol{x}}) $表示正则化项. 设$ {\bf{\varPsi}} ({\boldsymbol{x}}) = {{\bf{\varPsi}} _1}({\boldsymbol{x}})+{{\bf{\varPsi}} _2}({\boldsymbol{x}}) $，其中$ {{\bf{\varPsi}} _1}({\boldsymbol{x}}) $表示去噪正则化项，$ {{\bf{\varPsi}} _2}({\boldsymbol{x}}) $表示运动正则化项，则式(5)可以写成

(6)$ {\boldsymbol{x}} = \arg\; \mathop {\min }\limits_{\boldsymbol{x}} \left\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2/2+{{\bf{\varPsi}} _1}({\boldsymbol{x}})+{\varPsi _2}({\boldsymbol{x}})\right\}. $

引入2个辅助变量$ {\boldsymbol{V}} $和$ {\boldsymbol{Z}} $，则式(6)可以写成

(7)$ \left. \begin{gathered} {\boldsymbol{x}},{\mathrm{vec}}({\boldsymbol{V}}),{\mathrm{vec}}({\boldsymbol{Z}}) = \arg \;\mathop {\min }\limits_{_{{\boldsymbol{x,V,Z}}}} \;\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2/2+ \\ \;\;\;\;\;\;\;\;\;{{\bf{\varPsi}} _1}({\mathrm{vec}}({\boldsymbol{V}}))+{{\bf{\varPsi}} _2}({\mathrm{vec}}({\boldsymbol{Z}}))\}, \\ \;\;\;\;\;\;\;\;\;{\mathrm{s.t.}}\quad {\boldsymbol{x}} = {\mathrm{vec}}({\boldsymbol{V}}) = {\mathrm{vec}}({\boldsymbol{Z}}). \\ \end{gathered} \right\} $

式(7)可以通过3个子问题迭代求解：

(8)$ \begin{split}& {\mathrm{vec}}({\boldsymbol{V}}) = \\ &\quad \arg \;\mathop {\min }\limits_{\boldsymbol{V}} \;\{\left\| {{\boldsymbol{y}} - {\boldsymbol{\varPhi}} {\boldsymbol{x}}} \right\|_2^2+ \lambda \left\| {{\mathrm{vec}}({\boldsymbol{V}}) - ({{{\boldsymbol{x}}+{\mathrm{vec}}({\boldsymbol{Z}})}}})/2 \right\|_2^2\}, \end{split} $

(9)$ \begin{split} &{\mathrm{vec}}({\boldsymbol{Z}}) = \\ & \arg \quad \mathop {\min }\limits_{\boldsymbol{Z}} \;\{{{\bf{\varPsi}} _1}({\mathrm{vec}}({\boldsymbol{Z}}))+ \lambda \left\| {{\mathrm{vec}}({\boldsymbol{Z}}) - ({{{\boldsymbol{x}}+{\mathrm{vec}}({\boldsymbol{V}})}})/{2}} \right\|_2^2\}, \end{split} $

(10)$ {\boldsymbol{x}} = \arg \;\mathop {\min }\limits_{\boldsymbol{x}}\; \{{{\bf{\varPsi}} _2}({\boldsymbol{x}})+ \lambda \left\| {{\boldsymbol{x}} - ({{{\mathrm{vec}}({\boldsymbol{Z}})+{\mathrm{vec}}({\boldsymbol{V}})}}){/ }2} \right\|_2^2\}. $

如图2所示，设$ k $为迭代索引，通过下列步骤对式(8)~(10)进行求解.

更新$ {\boldsymbol{V}} $：旨在更新保真度项. 给定$ {{\boldsymbol{X}}^{k - 1}} $，则$ {{\boldsymbol{V}}^k} $的更新可以视作线性流形上的欧几里得投影：

(11)$ {{\mathrm{vec}}} ({{\boldsymbol{V}}^k}) = {\left( {{{\boldsymbol{\varPhi}} ^ {\mathrm{T}} }{\boldsymbol{\varPhi}} +{\boldsymbol{I}}} \right)^{ - 1}}\left( {{{\boldsymbol{\varPhi}} ^ {\mathrm{T}} }{\boldsymbol{y}}+{{\boldsymbol{x}}^{k - 1}}} \right). $

基于式(11)，将$ {\boldsymbol{V}} $的迭代更新过程用投影操作$ {{P}^k}( \cdot ) $来表示.

更新$ {\boldsymbol{Z}} $：旨在更新去噪正则化项$ {{\bf{\varPsi}} _1}( \cdot ) $. 使用深度网络作为去噪器来完成更新：

(12)$ {{\boldsymbol{Z}}^k} = {{{\mathrm{Pro}}}}{{{{\mathrm{x}}}}_{{{\bf{\varPsi}} _1}}}({{\boldsymbol{V}}^k}) = {{D}^k}\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right). $

式中：$ \left| \cdot \right| $表示通道维度的矩阵连接，深度网络在此处起到的是近端算子的作用. $ {{D}^k}( \cdot ) $的细节如图3所示，主要由3个部分组成：编码层（$ {C}_1^k $）、群卷积层（$ {{R}^k} $）及解码层（$ {C}_2^k $）. 其中编码层包含4个三维Conv-LeakyRelu层，最后一层的步长为2. 群卷积层包含4个群卷积块，用于将视频域特征转换为体素流特征，其具体结构将在2.4节介绍. 解码层与编码层的结构相同. 变量$ {\boldsymbol{Z}} $的更新可以表示为

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 提出模型中每迭代阶段的去噪器$ {{D}^k} $和运动正则化器$ {{M}^k} $的结构示意图

Fig.3 Details of denoiser $ {{D}^k} $ and motion regularizer $ {{M}^k} $ of each iteration phase of proposed model

(13)$ {{\boldsymbol{Z}}^k} = \mathcal{C}_2^k\left( {{{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right)} \right). $

更新$ {\boldsymbol{X}} $：旨在更新运动正则化项$ {{\bf{\varPsi}} _2}( \cdot ) $. 使用基于体素流的运动正则化，对视频帧进行修正：

(14)$ {{\boldsymbol{X}}^k} = {{{\mathrm{Pro}}}}{{{{\mathrm{x}}}}_{{{\bf{\varPsi}} _2}}}({{\boldsymbol{Z}}^k}) = {{M}^k}({{\boldsymbol{Z}}^k},{{\boldsymbol{F}}^k}). $

式中：$ {M^{{k}}} $表示运动正则化器，$ {{\boldsymbol{F}}^k} $为第$ k $阶段预测出的体素流.

2.2. 基于体素流的运动正则化

体素通常是指在三维空间中的体积像素. 使用轻量级的卷积网络$ {{S}^k} $，将视频特征转换为体素流$ {{\boldsymbol{F}}^k} $. $ {{S}^k} $包含4个三维卷积层，其中最后1层的激活函数为tanh，其余层的激活函数为LeakyRelu. 估计出的体素流可以表示为

(15)$ {{\boldsymbol{F}}^k} = {{S}^k}\left( {{{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right)} \right). $

$ {{S}^k} $的输入为群卷积层的输出，$ {{\boldsymbol{F}}^k} $的第3维度的大小对应全零传感矩阵的数量. 为了简单起见，省略迭代索引$ k $. 体素流$ {\boldsymbol{F}} \in {{\bf{R}}^{h \times w \times {\hat b_2} \times L}} $包含$ L $个通道（$ L = 3 $），其中$ {\hat b_2} = {{\mathrm{Card}}}\; ({{\boldsymbol{b}}_2}) $与未观测帧索引数量一致，$ {{\mathrm{Card}}} ( \cdot ) $为集合内元素的个数. 在第$ b $帧的位置$ (x,y) $处有3个分量值：

(16)$ {\boldsymbol{F}}(x,y,b,:) = {{S}^k}({{\boldsymbol{X}}_{b - 1}},{{\boldsymbol{X}}_{b+1}}) = [\Delta x,\Delta y,\Delta t]. $

式中：$ {{\boldsymbol{X}}_{b - 1}} $和$ {{\boldsymbol{X}}_{b+1}} $分别为当前帧的前一帧和后一帧，$ \Delta x $、$ \Delta y $和$ \Delta t $分别为空间和时间维度的像素位移量. 设估算出的体素流在视频帧间是局部线性的，且在时间上是对称的，则可以通过该体素流的负值来识别前一帧中的相应位置. 将前一帧和后一帧中相应位置的绝对坐标指定为

(17)$ \left. \begin{gathered} ({{L}}_x^0,{{L}}_y^0) = (x - \Delta x,y - \Delta y), \\ ({{L}}_x^1,{{L}}_y^1) = (x+\Delta x,y+\Delta y). \\ \end{gathered} \right\} $

每对坐标对应一个虚拟体素，计算得到该体素8个顶点的整数位置：

(18)$ \left. \begin{gathered} {{{{\boldsymbol{L}}}}^{000}} = \left[ {\left\lfloor {{{L}}_x^0} \right\rfloor ,\left\lfloor {{{L}}_y^0} \right\rfloor ,b - 1} \right], \\ {{{{\boldsymbol{L}}}}^{100}} = \left[ {\left\lceil {{{L}}_x^0} \right\rceil ,\left\lfloor {{{L}}_y^0} \right\rfloor ,b - 1} \right], \\ \;\;\;\;\;\;\;\; \vdots \\ {{{{\boldsymbol{L}}}}^{011}} = \left[ {\left\lfloor {{{L}}_x^1} \right\rfloor ,\left\lceil {{{L}}_y^1} \right\rceil ,b+1} \right], \\ {{{{\boldsymbol{L}}}}^{111}} = \left[ {\left\lceil {{{L}}_x^1} \right\rceil ,\left\lceil {{{L}}_y^1} \right\rceil ,b+1} \right]. \\ \end{gathered} \right\} $

式中：$ \left\lfloor \cdot \right\rfloor $表示地板函数，通常用于计算在三维空间中某一点的虚拟体素的顶点位置.

设计算子$ {T} $，使用三线性插值生成位置$ (x,y) $处的像素：

(19)$ {\boldsymbol{X}}(x,y,b) = {T}({\boldsymbol{Z}},{\boldsymbol{L}}) = \sum\limits_{i,j,l} {{{\boldsymbol{W}}^{ijl}}} {\boldsymbol{Z}}\left( {{{\boldsymbol{L}}^{ijl}}} \right); \;i,j,l \in \{ 0,1\} . \\ $

式中：$ {{\boldsymbol{W}}^{ijl}} $为三线性重采样权重^[23]. 构成体素流的3个分量分别为空间和时间维度的像素偏移量. 基于这些偏移量，通过三线性插值计算得到连续2个原始帧之间的中间帧像素，原始帧和中间帧的精确度随着算法迭代和网络训练的进行而逐渐提高.

2.3. 跨阶段体素流的特征融合

在优化迭代过程中，连接不同迭代阶段的变量是$ {\boldsymbol{V}} $和$ {\boldsymbol{X}} $，这2个变量都只包含一个通道（时间维度保持不变）. 中间特征有多达64个通道，因此会损失部分多通道体素流特征信息，这严重影响了模型的重构性能. 针对该问题，提出跨阶段体素流特征融合的策略. 如图2所示，在第$ k $个阶段（$ k \geqslant 2 $），将之前阶段的体素流$ {{\boldsymbol{F}}^{k - 1}} $在通道维度与视频特征连接起来，并将它们一起作为$ {{S}^k} $的输入. 设$ {{\boldsymbol{Q}}^k} = {{R}^k}\left( {{C}_1^k\left( {\left| {{{\boldsymbol{V}}^k},\overline {\boldsymbol{Y}} } \right|} \right)} \right) $，则式(15)可以修改为

(20)$ {{\boldsymbol{F}}^k} = \left\{ {\begin{array}{*{20}{l}} {{{S}^k}\left( {{{\boldsymbol{Q}}^k}} \right),}&{k = 1；} \\ {{{S}^k}\left( {\left| {{{\boldsymbol{Q}}^k},{{\boldsymbol{F}}^*}} \right|} \right),}&{1 < k \leqslant K.} \end{array}} \right. $

式中：${{\boldsymbol{F}}^*} = \left[ {{{\boldsymbol{F}}^1},{{\boldsymbol{F}}^2}, \cdots ,{{\boldsymbol{F}}^{k - 1}}} \right]$，$ K $为最大迭代次数的索引. 特征融合可以增强网络的表达能力，综合利用各个层次的特征信息，从而弥补多个阶段之间因通道压缩而丢失的信息.

2.4. 群卷积块

给出群卷积块的具体结构，进一步提高模型的性能. 如图3所示，将群卷积块的输入和输出分别设为$ {{\boldsymbol{r}}^i} $和$ {{\boldsymbol{r}}^{i+1}} $. 该卷积块使用4个卷积分支，在通道维度上均分$ {{\boldsymbol{r}}^i} $：

(21)$ \left. \begin{gathered} {\boldsymbol{r}}_1^{i+1} = {\boldsymbol{r}}_4^i+{{B}_1}\left( {{\boldsymbol{r}}_1^i} \right), \\ {\boldsymbol{r}}_2^{i+1} = {\boldsymbol{r}}_3^i+{{B}_2}\left( {{\boldsymbol{r}}_1^{i+1}} \right), \\ {\boldsymbol{r}}_3^{i+1} = {\boldsymbol{r}}_2^i+{{B}_3}\left( {{\boldsymbol{r}}_2^{i+1}} \right), \\ {\boldsymbol{r}}_4^{i+1} = {\boldsymbol{r}}_1^i+{{B}_4}\left( {{\boldsymbol{r}}_3^{i+1}} \right). \\ \end{gathered} \right\} $

式中：${B}( \cdot )$表示基础卷积块，每个${B}( \cdot )$包含1个三维Conv-LeakyRelu-Conv层，卷积核大小为3×3×3. 在群卷积中，每个分组只处理一部分特征，这可能会导致信息在不同分组间的隔离. 通过将最后一个分组的输出与第一个分组的输出进行加权结合，可以促进不同分组间的信息交流和融合，增大特征间的相互影响. 从卷积分支输出的特征在通道维度上被重新连接：

(22)$ {{\boldsymbol{r}}^{i+1}} = \left[ {{\boldsymbol{r}}_1^{i+1},{\boldsymbol{r}}_2^{i+1},{\boldsymbol{r}}_3^{i+1},{\boldsymbol{r}}_4^{i+1}} \right]. $

在一定程度上堆叠相同的结构，有利于提高非线性性能. 此外，群卷积通过限制超参数的自由选择，降低了对特定数据集过拟合的风险^[25-27].

3. 实验结果

3.1. 训练和测试

对于压缩采样率为$ 1/B $的视频SCI系统，设原始帧的数量为${\hat b_1} = {{\mathrm{Card}}} ({{\boldsymbol{b}}_1})$. 模型将测量值$ {\boldsymbol{Y}} $和掩膜$ \left\{ {{{\boldsymbol{M}}_b}} \right\}_{b \in {\boldsymbol{b}}_1} $作为模型输入，随后输出重构的完整视频帧$ \hat {\boldsymbol{X}} \in {{{\bf{R}}}^{h \times w \times B}} $. 给定$ N $个训练对$ \left\{ {({{\boldsymbol{Y}}^i},{{\boldsymbol{X}}^i})} \right\}_{i = 1}^N $，使用均方误差（mean square error，MSE）作为损失函数：

(23)$ {{L}_{{\mathrm{MSE}}}} = \frac{1}{{N{N_{\mathrm{s}}}}}\sum\limits_{i = 1}^N {\left\| {{{\hat {\boldsymbol{X}}}^i} - {{\boldsymbol{X}}^i}} \right\|_2^2} . $

式中：$ {N_{\mathrm{s}}} $为数据块$ \hat {\boldsymbol{X}} $的大小. 所有训练数据都来自公共数据集DAVIS2017^[28]，其中包含90个不同场景的480像素和1080像素分辨率的图像. 通过随机裁剪、缩放和水平翻转等数据增强方法，共获得26 000对灰度数据和21 000对彩色数据. 从原始图像中裁剪连续图像作为基准真实视频帧，在每段视频帧中选择奇数帧作为原始帧. 为了便于比较，使用原始尺寸为256×256×8（即$ {b_1} = {b_2} = 4 $）的基准数据集Kobe、Runner、Drop、Traffic、Aerial和Vehicle，这些数据集被广泛用于视频SCI重构任务^[10,13]. 为了进行实际验证，使用原始大小为256×256×14的真实数据集Chopper wheel和Hand lens，对所提模型进行测试. 所有方法都在相同的硬件上，使用相同的数据集和掩码进行重新训练和测试. 使用峰值信噪比（peak signal-to-noise ratio, PSNR）和结构相似性（structure similarity index measure, SSIM）作为重构质量评估指标.

本文的模型在Pytorch中实现，并在NVIDIA Tesla V100 GPU上训练120个轮次. 使用 Adam 优化器来最小化损失函数，将初始学习率设置为$ 1.5 \times {10^{ - 4}} $. 为了达到最佳的训练效果，每10个训练轮次将学习率降低5%.

3.2. 灰度模拟数据集的实验结果

如表1所示为在6个基准数据集上重构结果的平均PSNR、SSIM和运行时间t_r. 对于现有的算法，本文修改了原始模型上输出通道的数量，即利用神经网络的学习能力来强制预测未观测帧. 对于HQS-RevSCI，将RevSCI的网络设置为HQS算法的去噪先验，保持可逆结构的总数不变. 对于FISTA-Rev-AE-3D，使用FISTA算法代替ISTA-Rev-AE中的ISTA算法，采用三维卷积代替二维卷积. 对于ISTA-Rev-AE，调整了AE模型的维度差异，使CS重建算法能够进行视频快照压缩成像的重建. 对于EfficientSCI，将网络中的ResDNet子网络数量设为8，并将特征分为2组进行训练. 将初始学习率设置为$ 1 \times {10^{ - 5}} $，模型的训练时间为300轮次. 对于Res2former，网络中单个结构的数量与原文设置保持一致. 将初始学习率设置为$ 1 \times {10^{ - 4}} $，模型训练100个轮次.

表 1 模拟数据重构结果和运行时间对比，单元格中左侧数据为PSNR，右侧数据为SSIM

Tab.1 Comparison results and running time of simulated data reconstruction, the left data of the cell is PSNR and the right is SSIM

对比方法	PSNR/dB, SSIM							t_r/s
对比方法	Kobe	Traffic	Runner	Drop	Aerial	Crash	平均值	t_r/s
Tensor-FISTA^[19]	25.02, 0.804	22.71, 0.822	30.32, 0.942	34.36, 0.971	25.95, 0.876	25.50, 0.891	27.31, 0.884	0.0166
E2E-CNN^[17]	26.24, 0.820	24.53, 0.888	33.80, 0.974	36.66, 0.989	27.29, 0.915	26.30, 0.912	29.14, 0.917	0.0098
RevSCI^[18]	27.51, 0.884	24.87, 0.898	34.05, 0.976	37.70, 0.990	26.97, 0.912	26.31, 0.915	29.57, 0.929	0.1412
ISTA-Rev-AE^[29]	25.91, 0.811	24.09, 0.870	33.07, 0.977	38.05, 0.970	26.73, 0.903	26.18, 0.908	28.96, 0.909	0.0481
GAP-Unet-S12^[20]	27.48, 0.856	25.55, 0.907	35.29, 0.980	37.18, 0.992	27.90, 0.924	26.83, 0.925	30.04, 0.931	0.0327
HQS-RevSCI^[30]	27.59, 0.875	25.14, 0.902	34.30, 0.977	38.15, 0.990	27.27, 0.917	26.32, 0.914	29.79, 0.929	0.4136
FISTA-Rev-AE-3D^[31]	27.58, 0.865	25.59, 0.909	35.03, 0.979	38.59, 0.991	27.58, 0.921	26.57, 0.915	30.16, 0.930	0.1281
SCI-OF^[32]	29.03, 0.916	26.83, 0.933	35.32, 0.980	39.68, 0.992	28.07, 0.932	27.34, 0.939	31.04, 0.949	0.2476
EfficientSCI^[33]	25.25, 0.826	22.65, 0.828	31.34, 0.962	35.51, 0.984	26.02, 0.890	25.52, 0.898	27.71, 0.898	0.0206
Res2former^[34]	26.54, 0.858	24.32, 0.868	33.42, 0.973	37.90, 0.989	27.30, 0.916	26.58, 0.924	29.34, 0.921	0.0216
本文方法	28.87, 0.912	27.05, 0.935	36.29, 0.982	39.82, 0.993	28.29, 0.933	27.35, 0.941	31.27, 0.949	0.2509

新窗口打开| 下载CSV

从表1可以看出，在大多数个场景的PSNR和SSIM方面，本文的方法都优于对比方法，尤其是平均PSNR比排名第2的SCI-OF高0.23 dB. Tensor-FISTA、E2E-CNN和ISTA-Rev-AE的运行速度较快，但重构结果相对较差. 得益于较小的网络结构和简便的GAP算法，GAP-Unet-S12在较短的运行时间内获得了与FISTA-Rev-AE-3D几乎相当的重构结果，但重构帧的视觉质量较差. 如图4所示为本文方法与对比方法重构时间维超分辨率帧结果的可视化对比. 由于采用了基于体素流的运动正则化，本文方法重构的帧具有更清晰的细节和更锐利的边缘，对比方法重构的帧更平滑粗糙，如Kobe中的数字“24”和Aerial中的“树枝”.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 不同方法在灰度模拟数据上的重构结果视觉对比

Fig.4 Visual comparison of reconstruction result of different methods on gray-scale simulated data

3.3. 真实数据集的实验结果

视频SCI的真实数据存在不可避免的噪声，由于光照不均，掩膜可能不准确. 此外，较小的压缩采样率意味着更多的视频帧在测量值中被压缩，重构难度增加. 对于SCI重构方法来说，真实数据的重构更具挑战性^[2,7]. 在压缩采样率为$ 1/14 $的真实数据Chopper wheel和Hand lens上进行实验，验证模型的性能. 使用DAVIS2017和真实数据的掩膜，生成用于训练的测量值和基准图像. 由于真实数据的测试没有基准图像，通过视觉质量对性能进行主观的评估. 如图5所示为不同方法在真实数据上重构的结果. 可以看出，与其他方法相比，利用本文方法得到的字母“D”和“手”的边缘更清晰.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同方法在真实采集数据上的重构结果视觉对比

Fig.5 Visual comparison of reconstruction result of different methods on real collected data

在重构后的Chopper wheel图像中，可以观察到一些存在于原始数据中的白色斑点. 在对比实验的视觉质量方面，利用FISTA-Rev-AE-3D方法产生的结果过度平滑，导致了这些存在于测量帧之内的细节丢失.

4. 消融研究

在传统的视频帧插值方法中，体素流（特征）通常是从完整的视频帧中提取的，而本文直接将网络的中间特征转化为体素流，节省了计算资源. 为了验证该方法的有效性，设置消融实验. 根据提出的模型，在每阶段原始帧重构完成后，再从原始帧中重新提取体素流. 其他设置保持不变. 实验结果如表2所示. 可以看出，在所有数据集上，使用重新提取的体素流进行重构的结果都落后于使用中间特征转换的体素流，平均 PSNR比中间特征转换的体素流小3.12 dB.

表 2 平均PSNR、SSIM和运行时间的消融实验重构结果对比

Tab.2 Comparison of reconstruction result of ablation experiment on average PSNR, SSIM and running time

对比方法	PSNR/dB, SSIM							t_r/s
对比方法	Kobe	Traffic	Runner	Drop	Aerial	Crash	平均值	t_r/s
重提取VF	26.31, 0.847	22.89, 0.832	31.93, 0.959	35.21, 0.979	26.66, 0.899	25.87, 0.906	28.15, 0.904	0.461 5
w/o MR	26.52, 0.832	25.16, 0.901	34.73, 0.978	38.22, 0.990	27.35, 0.918	26.35, 0.913	29.72, 0.922	0.071 8
w/o CF	28.68, 0.908	26.69, 0.931	35.13, 0.980	39.47, 0.992	28.06, 0.931	27.27, 0.936	30.89, 0.946	0.248 3
w/o GC	28.55, 0.901	26.65, 0.931	35.67, 0.981	39.70, 0.992	27.99, 0.930	27.15, 0.936	30.95, 0.945	0.211 2
本文方法	28.87, 0.912	27.05, 0.935	36.29, 0.982	39.82, 0.993	28.29, 0.933	27.35, 0.941	31.27, 0.949	0.250 9

新窗口打开| 下载CSV

为了验证运动正则化（MR）和跨阶段体素流特

征融合（CF）的有效性，设计2个不完整模型，分别去除运动正则化和特征融合结构. CF是在MR估计的体素流基础上工作的，因此在一个不完整模型中去掉了MR和CF，在另一个不完整模型中去掉了CF，但保留了MR. 训练这些消融模型的配置和参数与完整模型保持一致. 利用没有MR的模型，直接从粗略重构的原始帧中估算得到未观测帧. 在基准数据集上的消融实验重构结果如表2所示. 可以看出，完整模型的重构结果比无MR模型高1.55 dB，而CF使得重构指标提升了0.38 dB. 这说明体素流可以有效地提取视频SCI中连续帧之间的运动信息，利用基于体素流的深度运动正则化可以更精确地计算视频连续帧之间的像素运动.

为了验证群卷积块（GC）的有效性，在另一项实验中用可逆块结构^[29,31]替换GC . 本文只取了可逆结构的正向部分，因为正向可逆结构可以看作是群数较少的群卷积. 模型的其他设置和参数保持不变，实验结果如表2所示. 可以看出，用正向可逆块替换GC后，模型的PSNR性能降低了0.32 dB，这说明增加卷积的组数可以有效地改善模型的重构性能.

为了验证不同迭代阶段对实验结果的影响，使用不同的迭代次数重新训练了提出的模型. 如图6所示，最大阶段数$ K = 6 $的重构模型在重构结果的平均PSNR上超过了次优的方法，而且随着$ K $的增加，性能有所提高. 随着阶段的增加，重构视频帧的平均 PSNR 递增率会缓慢下降，模型的训练和推理速度也会下降. 经过权衡，将$ K $设为10.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 原始观测帧数的消融研究重构结果对比

Fig.6 Comparison of reconstruction result of ablation studies for number of original observed frame

为了验证所提出的SCI重构方法中体素流（VF）的鲁棒性，在测量值中改变$ {\hat b_1} $以进行比较. 在压缩采样率为$ 1/8 $的模型中，原始帧数从2增加到8，使用基准灰度数据集测试重构结果. 实验结果如图7所示. 可以看出，在观测帧数占测量值一半的情况下，重构结果仍然很好；随着观测帧数的增加，重构质量不断提高.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 最大阶段数K的消融研究重构结果对比

Fig.7 Comparison of reconstruction result of ablation studies for maximum phase number K

5. 结　语

本文针对视频SCI提出基于体素流的深度展开重构框架，可以从测量值中恢复观测到的帧并在时间维度进行超分. 具体来说，本文在视频SCI问题的优化迭代过程中嵌入深度神经网络作为去噪器，将视频特征转换为体素流，利用体素流构造成运动正则化器. 运动正则化器和深度去噪器在同一迭代中更新原始帧和未观测帧. 为了提高模型的性能，本文引入群卷积，在不同阶段融合体素流信息，减少迭代过程中的信息损失. 本文在公共数据集上进行大量的实验，验证了所提出的模型能够在重构视频帧率相同的情况下，显著降低视频SCI系统的压缩采样率，保证高质量的重构结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CHEN Z, GUO W, FENG Y, et al

Deep-learned regularization and proximal operator for image compressive sensing

[J]. IEEE Transactions on Image Processing, 2021, 30: 7112- 7126