<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 SU-CPB方法框架

Fig.1 Framework of SU-CPB

图 2

图 2 CPB模型工作方式

Fig.2 Working mechanism of CPB

1.1. 训练阶段

定义 ${\left\{ {Q_m^{\rm{B}}} \right\}_{m = 1,2,\cdots,M}} = \left\{ {Q_1^{\rm{B}},Q_2^{\rm{B}},\cdots,Q_M^{\rm{B}}} \right\}$为中心像素p的一组支持块. 使用Pearson积矩相关系数 $ \gamma (p,{Q}_{m}^{\rm{B}}) $ 筛选中心像素p的支持块 $\left\{ {Q_m^{\rm{B}}} \right\}$，即以 $ \gamma (p,{Q}_{m}^{\rm{B}}) $为关键字降序排列 $ {Q_m^{\rm{B}}} $，取前M个. 其中，

(1) $ \gamma (p,{Q}_{m}^{\rm{B}})=\frac{{C}_{p,{\overline{Q}}_{m}^{\rm{B}}}}{{\sigma }_{p}\cdot {\sigma }_{{\overline{Q}}_{m}^{\rm{B}}}}. $

式中： ${C_{p,\overline Q _m^{\rm{B}}}}$为中心像素p与它的第m个支持块 $Q_m^{\rm{B}}$在训练集中的像素强度协方差， ${\sigma _p}$与 ${\sigma _{\overline Q _m^{\rm{B}}}}$分别为p与 $Q_m^{\rm{B}}$强度值的标准差.

对每个中心像素p，对应有多个支持块 ${Q^{\rm{B}}}$，它们在时间的推移中关系稳定，即它们的像素强度之差服从单高斯分布：

(2) $\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) \sim N\left( {{b_m},\sigma _m^2} \right). $

式中： ${I_p}$为p的像素强度， ${\overline I _{Q_m^{\rm{B}}}}$为支持块 $Q_m^{\rm{B}}$的平均像素强度， ${b_m}$与 $\sigma _m^2$分别为高斯分布的均值与方差参数. 在CPB模型中，每对(p， $Q_m^{\rm{B}}$)都有各自的高斯分布，当训练集大小为T时，

(3) ${b_m} = \frac{1}{T}\sum\limits_{t = 1}^T {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right)} {\text{，}} $

(4) $\sigma _m^2 = \frac{1}{T}\sum\limits_{t = 1}^T {{{\left[ {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) - {b_m}} \right]}^2}} . $

1.2. 检测阶段

对（p， $Q_m^{\rm{B}}$）的状态作如下定义：

(5) $ {\omega _m} = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {1,}\\ {0,} \end{array}}&{\begin{array}{*{20}{r}} {\left| {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) - {b_m}} \right| \geqslant \eta {\sigma _m};}\\ \text{其他.} \end{array}} \end{array}} \right. $

式中：η为高斯模型阈值常数。当 ${\omega _m} = 1$ 时，p与 ${Q^{\rm{B}}}$ 处于不稳定状态；当 ${\omega _m} = 0$ 时，p与 ${Q^{\rm{B}}}$ 处于稳定状态.

由式（5）可知，对每个支持块 $Q_m^{\rm{B}}$与p的差分过程等同于1个二分类器，考虑到每个支持块与中心像素线性相关性的差异，引入它们与中心像素的相关系数 ${\gamma _m}$作为权重进行相关性决策，当满足以下条件时，CPB将中心像素p分类为前景点：

(6) $ \sum\limits_{m = 1}^M {{\gamma _m}} {\omega _m} > \lambda \sum\limits_{m = 1}^M {{\gamma _m}} \text{.} $

式中：λ为相关性决策阈值， ${\gamma _m}$为中心像素p与支持块 $Q_m^{\rm{B}}$的相关系数.

2. 时空注意力模型（STAM）

2.1. 注意力机制与光流

注意力机制启发于人类的感知过程，人脑的注意力机制在特定时刻总是集中在场景局部而忽略其他部分，该注意力机制可以等效于一个资源分配模型. 目前，已有将注意力机制用于深度神经网络的初步尝试，深度玻尔兹曼机（DBM）^[23]在训练阶段通过重构过程包含了自上而下的注意力机制；注意力机制也被广泛应用于循环神经网络（RNN）和长短期记忆网络（LSTM）中，以处理顺序决策任务^[23-24]. 顶层信息被顺序采集并决定如何应用于接下来的特征学习，时序过程^[25-26]将以顺序决策建模图像分类问题. 这一架构允许使用RNN和LSTM进行端到端的优化，能够以目标驱动的方式获得不同类型的注意力. Li等^[27]提出的金字塔注意力语义分割模型包含特征金字塔与全局注意力.

一般而言，卷积神经网络特征层的高层特征具有较大的感受野，包含全局上下文，擅长场景分类，但对单个像素的分类能力较弱. 低层特征携带了大量的细粒度信息，可以帮助高层特征在上采样过程中重建对象细节. 传统的卷积神经网络将信息从下采样层传播到所有对应的上采样层，因为它将编码器与解码器特征拼接在一起却没有进行任何选择，无法确定所选择的特征对前景分割是否必要. STAM通过在解码阶段引入注意力模块，融合了解码器与编码器的特征，高层特征提供全局信息用以指导注意力模块选择适当的低层特征，这些低层特征有助于对输入图像进行二值预测.

2.2. 模型结构

STAM模型结合时空信息，并利用注意力模块将编码器与解码器的特征融合. 如图3所示，图像编码器与光流编码器是2个结构相同的编码器，共有8个卷积层，分别以静态图像和相邻图像的光流强度场^[28]作为输入，加号表示像素级加法. 解码器为8层，卷积步长为2，每层进行上采样处理，应用7个注意力模块进行融合，注意力模块卷积步长为1. 真实场景中的物理运动可以用运动场描述，在平面图像上物体的运动往往是通过图像序列中不同图像灰度分布的不同来体现的. 光流场是像素点在图像平面运动产生的瞬时速度场，很适合描述帧间的时域上下文关系. 该模型将光流强度场与静态图像并行输入网络，以此引入帧间上下文信息，比基于单帧图像分割的方法^[9-10]更合理.

图 3

图 3 STAM模型网络结构

Fig.3 STAM network structure

STAM在CDNet2014数据集上取随机5%数据与其真值进行训练，使用光流与静态图片并引入注意力机制，使其对变化较敏感. 当STAM用来处理未经训练的场景时，只能得到粗略的分割结果，表明其泛化能力有待提高. 在本文的工作中，STAM模型用来生成前景分割掩模，解决CPB模型的在线更新问题. 最终分割结果由具备在线更新能力的SU-CPB模型完成.

3. 基于STAM分割掩模的像素-支持块对的动态选择机制

CPB模型存在的问题如下：中心像素p与支持块 ${\left\{ {Q_m^{\rm{B}}} \right\}_{m = 1,2,\cdots,M}}$具有统计意义上的强相关性，一旦前景运动物体覆盖支持块，将造成支持块与中心像素差分关系的不确定性，式（5）构建的像素状态判断准则暂时失效，导致出现分割错误. 避开前景区域选择支持块，保证支持块分布于背景区域，模型的性能将得到有效提升. CPB模型的在线更新问题实际上是利用动态筛选机制完成支持块的有效替换，以避免前景覆盖支持块带来的分割错误.

如图4所示是支持块的动态选择模型流程图. 处于前景区域的支持块将被支持块序列中的候选支持块替换. 在训练阶段，所有支持块按相关系数递减得到支持块序列. 候选支持块将在有需要时被启用并暂时地代替失效支持块.

图 4

图 4 支持块的动态选择模型流程图

Fig.4 Dynamic selection model of supporting blocks

STAM能够在未训练场景下做出粗略的分割预测. 由于判断支持块是否失效无须像素级的分割精度，使用STAM的粗略分割结果可以作为支持块是否被前景覆盖的判断依据.

如图5所示为一组模型选择效果演示. 图5（b）中三角形表示中心像素点，正方形表示支持块. 由图5可知，中心像素在不同时间点拥有不同的支持块，当船只驶过时，支持块的选择会动态地避开该前景区域.

图 5

图 5 模型选择效果演示

Fig.5 Demonstration of selection model

4. 差异分割结果的解决方式

尽管CPB支持块的动态选择参考了STAM的分割结果，但二者的最终分割结果有一定的差异性. 上述模型与STAM由于分别使用了截然不同的前景分割方法——基于像素空间关系的背景统计建模技术与参考了光流的注意力模型，它们的结果本身具有一定的互补性.

4.1. 结构失效支持块替换

虽然在支持块的选择上尽可能避开了前景区域，却无法避免2种状况：1）STAM的分割结果与真值有一定的差距，不能保证所有支持块都能完全避开前景区域；2）随着时间的推移，原本在训练阶段得到的像素-支持块模型会由于前景或背景噪声出现“退化”现象，从而导致结构失效. 本文提出2种方式，解决中心像素与支持块可能存在的结构失效的问题.

如图6所示为失效支持块的替换过程. CPB与STAM对像素点存在分歧有2种情况：1）CPB认为是前景点，STAM将其归类为背景；2）CPB认为是背景点，STAM将其归类为前景.

图 6

图 6 失效支持块的替换

Fig.6 Replacement of broken pairs

CPB模型在检测阶段考虑到每个支持块与中心像素线性相关性的差异，以相关系数作为权重值，当结果与STAM存在差异时，高的相关系数所对应的支持块很可能已经处于结构失效状态. 为了避免这种情况发生，在模型输出存在差异性时，剔除高相关系数的支持块，并用候选支持块代替. 不稳定状态不意味着失效状态，当中心像素p为前景时，它与支持块处在不稳定状态而被检出，这时不稳定状态是有效状态，稳定状态是失效状态；当p为背景时，它与支持块处于稳定状态，一旦它们处于不稳定状态，像素p会成为“虚警”，此时不稳定状态为失效状态. 式（5）计算了每个像素-支持块对的稳定性.

根据以上结论构建差异分割结果的解决方式. 当STAM和CPB在该中心像素点p存在差异分割结果时，考虑到CPB的分割结果存在错误的可能性，为了消除可能已经处于结构失效状态的支持块对中心像素点p存在的错误引导，使用候选支持块对其进行替换. 同时CPB的鲁棒性意味着该解决方式不会导致分割性能的下降. 相关对比实验结果印证了所提出的解决方式的合理性.

统计处于不稳定状态的支持块数量，即

(7) $K = \sum\limits_{m = 1}^M {{\omega _m}} . $

考虑到情况1）与情况2）的不同，分别计算2种情况下的平均相关系数：

(8) $ \overline \gamma = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{l}} {\dfrac{1}{K}\displaystyle\sum\limits_{m = 1}^M {{\gamma _m} {\omega _m}} ,}\\ {\dfrac{1}{{M - K}}\displaystyle\sum\limits_{m = 1}^M {{\gamma _m} (1 - {\omega _m})} ,} \end{array}}&{\begin{array}{*{20}{l}} \text{情况1；}\\ \text{情况2. } \end{array}} \end{array}} \right.$

如果某个支持块 $Q_m^{\rm{B}}$与p的相关系数满足：

(9) ${\gamma _m} \geqslant \overline \gamma . $

那么 $Q_m^{\rm{B}}$需要被替换.

4.2. 前景相似度计算

因为像素-支持块模型是依据其特征值在长时域内的变化相关性构建的，具有高相关系数的支持块应是与其中心像素同质的区域. 当像素p是前景而被CPB错误分类为背景，即处于情况2）时，计算该像素点与其周围存在的前景点的相似度 $ {r}_{\rm{F}} $，计算该像素点与其所有支持块的平均相似度 $ {r}_{\rm{B}} $. 若满足下列条件，则将其分类为前景，反之为背景.

(10) ${r_{\rm{F}}}{\rm{ = }}\frac{1}{{20}}\sum\limits_{n = 1}^{20} {\sqrt {{{({R_p} - {R_n})}^2} + {{({G_p} - {G_n})}^2} + {{({B_p} - {B_n})}^2}} } \text{，} $

(11) ${r_{\rm{B}}}{\rm{ = }}\frac{1}{{{M}}}\sum\limits_{{{m}} = 1}^M {\sqrt {{{({R_p} - {{\overline R }_m})}^2} + {{({G_p} - {{\overline G }_m})}^2} + {{({B_p} - {{\overline B }_m})}^2}} } \text{，} $

(12) ${r_{\rm{F}}} > \varepsilon {r_{\rm{B}}}. $

式中：ε为相似度决策阈值；使用像素点之间RGB值的欧式距离作为相似度的度量， $ {R}_{p} $、 $ {G}_{p} $、 $ {B}_{p} $分别为目标像素p的RGB值；取距离目标像素最近的20个前景像素点并根据式（10）计算 ${r}_{{\rm{F}}}$；M为目标像素p的支持块数量， $ {\stackrel{-}{R}}_{m} $、 $ {\stackrel{-}{G}}_{m} $、 $ {\stackrel{-}{B}}_{m} $分别为支持块m的RGB平均值，根据式（11）计算 $ {r}_{\rm{B}} $.

5. 实验结果分析

5.1. 实验设置

CDNet2014^[29]包含大量不同场景的数据集，可以用于前景分割的训练和测评. 本文在CDNet2014数据集上的实验环境如下：1）在数据集充足的前提下，选择前400张前景占比小的或者没有明显前景的图片作为训练集；2）对前景占比高的数据集，尽量从它的前20%中选择前景占比低的图片作为训练集. 本文的CPB实验数据在该实验环境下给出.

STAM模型是在CDNet2014数据集上随机选取5%的图片与其真值进行训练得到的. 为验证对比所有方法的跨场景泛化能力，采用Wallflower^[30]与LIMU^[31]2个数据集. SU-CPB方法在Wallflower采用数据集规定的200张作为训练集，LIMU选用前400张作为训练集，实验参数设置如表1所示.

表 1 SU-CPB中的各项参数设置

Tab.1 Parameters setting of SU-CPB

参数	设置值
支持块数量	20
候选支持块数量	10
高斯模型阈值	2.5
相关性决策阈值	0.5
相似度决策阈值	0.8

5.2. 实验评估

实验使用CDNet2014里的11个数据集，对比12种方法，结果如表2所示. 表中，各数据集缩写对应的名称如下：bad weather（BDW），baseline（BSL），camera jitter（CJT），dynamic background（DBG），intermittent object motion（IOM），low frame rate（LFR），night videos（NVD），shadow（SHD），thermal（THM）and turbulence（TBL）. 可以看出，SU-CPB在7个数据集中与序号2~7的非监督方法相比排名第一，且大部分场景都实现了对CPB模型性能的较大提升. 与SU-CPB相比，序号10~12的监督学习方法的模型往往过拟合，因此针对特定训练场景的分割结果更好；序号8和9的监督学习方法在经过跨场景的标注训练后，具有一定的泛化能力.

表 2 不同方法的CDNet2014数据集F-measure对比

Tab.2 F-measure of different methods on CDNet2014

序号	算法	F-measure
序号	算法	BDW	BSL	CJT	DBG	IOM	SHD	THM	TBL	LFR	NVD	PTZ
1	SU-CPB	0.867	0.907	0.853	0.924	0.760	0.910	0.969	0.895	0.449	0.558	0.753
2	CPB^[17]	0.475	0.519	0.597	0.477	0.348	0.581	0.372	0.459	0.170	0.277	0.161
3	SuBSENSE^[6]	0.862	0.950	0.815	0.818	0.657	0.865	0.817	0.779	0.645	0.560	0.348
4	KDE^[3]	0.757	0.909	0.572	0.596	0.409	0.803	0.742	0.448	0.548	0.437	0.037
5	GMM^[2]	0.738	0.825	0.597	0.633	0.521	0.732	0.662	0.466	0.537	0.410	0.152
6	BMOG^[8]	0.784	0.830	0.749	0.793	0.529	0.840	0.635	0.693	0.610	0.498	0.235
7	SGSM-BS^[11]	0.856	0.950	0.820	0.848	0.819	0.890	0.850	0.850	0.750	0.510	−
8	STAM^[22]	0.970	0.989	0.899	0.948	0.916	0.966	0.991	0.933	0.668	0.710	0.865
9	DeepBS^[9]	0.830	0.958	0.899	0.876	0.610	0.930	0.758	0.846	0.600	0.584	0.313
10	CascadeCNN^[12]	0.943	0.979	0.976	0.966	0.851	0.941	0.896	0.911	0.837	0.897	0.917
11	DPDL^[13]	0.869	0.969	0.866	0.869	0.876	0.936	0.838	0.764	0.708	0.611	0.609
12	FgSegNet^[14]	0.984	0.998	0.995	0.994	0.993	0.995	0.992	0.978	0.956	0.978	0.989

当参照CPB方法作对比时，由于统一采用小训练集（相对CPB方法的要求而言），CPB此时的F-measure较低见表2，表现不够稳定. 相比之下，SU-CPB在小训练集的情况下，实现了性能的提高，在CDNet数据集上比CPB方法的F-measure平均提高了0.4. 由于大部分P-B对失效，CPB方法在复杂场景（天气云朵大范围变化或大运动目标进入等）中会出现大面积的false positive检测结果，SU-CPB对这种情况有明显的鲁棒性. 对比结果如图7所示. 图中，parking场景为大范围辐射背景下的云朵漂移，abandoned box场景和fall场景为大目标物运动.

图 7

图 7 复杂场景下不同方法的检测效果对比

Fig.7 Comparison of detection in different complex scenarios

如表3所示为特定场景下SU-CPB与STAM F-measure对比. 与STAM相比，SU-CPB在DBG下的fountain02场景、BSL下的PETS2006场景、CJT下的traffic场景、IOM下的abandoned box场景和parking场景的F-measure均有所提高.

表 3 特定场景下SU-CPB与STAM 的 F-measure对比

Tab.3 Comparison of proposed method with STAM on specific training sets

场景	F-measure
场景	SU-CPB	STAM^[22]
PETS2006	0.957 0	0.956 3
traffic	0.835 0	0.834 9
fountain02	0.934 0	0.933 5
abandoned box	0.820 6	0.812 3
parking	0.764 1	0.763 3

为了评估SU-CPB在跨场景下的泛化能力，使用Wall Flower和LIMU数据集下的总共10个场景进行对比实验. 其中STAM、Cascade CNN和FgSegNet 3种监督方法均为同一实验设置，即在CDNet2014中随机选取5%的图片与其真值训练，并在Wallflower与LIMU共10个场景中进行跨场景的前景检测.

Wallflower数据集上的实验结果如表4、5所示，Fg Aperture为Foreground Aperture的缩写. 由表4可知，SU-CPB在Bootstrap、Foreground Aperture、Light Switch、Time of Day场景中比其他方法的F-measure高，在除Waving Trees外的场景中表现比CPB更优，且在平均上表现最优，平均比CPB提升12.15%，比STAM提升11.09%. Moved Object场景用来检验背景模型更新能力，由于其用来评估的真值中并没有前景目标，选择Specificity =TN/（TN+FP）作为评估参数. 从Moved Object实验结果可以看出，SU -CPB能够解决原本处于背景中的静止物体被移动后留下的“鬼影”问题.

表 4 Wallflower数据集各场景中不同方法的F-measure对比

Tab.4 F-measure of different methods on Wallflower under different scenes

场景	F-measure
场景	SU-CPB	STAM^[22]	DeepBS^[9]	Cascade CNN^[12]	FgSeg-Net^[14]	CPB^[17]	SuBSENSE^[6]	GMM^[2]	PBAS^[32]
Bootstrap	0.756 0	0.741 4	0.747 9	0.523 8	0.358 7	0.651 8	0.419 2	0.530 6	0.285 7
Camouflage	0.688 4	0.736 9	0.985 7	0.677 8	0.121 0	0.611 2	0.953 5	0.830 7	0.892 2
Fg Aperture	0.942 0	0.829 2	0.658 3	0.793 5	0.411 9	0.590 0	0.663 5	0.577 8	0.645 9
Light Switch	0.909 7	0.909 0	0.611 4	0.588 3	0.681 5	0.715 7	0.320 1	0.229 6	0.221 2
Time of Day	0.794 9	0.342 9	0.549 4	0.377 1	0.422 2	0.756 4	0.710 7	0.720 3	0.487 5
Waving Trees	0.666 5	0.532 5	0.954 6	0.287 4	0.345 6	0.703 3	0.959 7	0.976 7	0.842 1
Overall	0.792 9	0.682 0	0.751 2	0.541 3	0.390 2	0.671 4	0.671 1	0.644 3	0.562 4

表 5 Wallflower数据集Moved Object场景中不同方法的Specifity对比

Tab.5 Specifity of different methods on Moved Object of Wallflower

场景	Specifity
场景	SU-CPB	STAM^[22]	CascadeCNN^[12]	FgSegNet^[14]	CPB^[17]
Moved Object	0.997 7	0.994 9	0.773 6	0.847 0	0.892 2

对于LIMU数据集，在Camera Parameter、Intersection和Light Switch场景中进行方法对比，实验数据见表6，检测效果如图8所示. 在这3个场景中，SU-CPB的F-measure比其他方法高，平均比STAM高31.54%，比CPB高11.37%.

表 6 LIMU数据集各场景中不同方法的F-measure对比

Tab.6 F-measure of different methods on LIMU under different scenes

场景	F-measure
场景	SU-CPB	STAM^[22]	CascadeCNN^[12]	FgSegNet^[14]	CPB^[17]
Camera Parameter	0.748 4	0.674 2	0.102 5	0.266 8	0.654 5
Intersection	0.767 2	0.623 7	0.045 3	0.142 8	0.677 8
Light Switch	0.821 1	0.095 3	0.027 7	0.041 4	0.663 3
Overall	0.778 9	0.464 4	0.058 5	0.150 3	0.665 2

图 8

图 8 不同方法在LIMU数据集不同场景中的检测效果对比

Fig.8 Comparison of detection in different methods on different scenes of LIMU

LIMU数据集3个场景中，SU-CPB在各阶段下的F-measure对比见表7. 表中，CPB为最初模型，CP $ {\rm{B}}_{{\rm{DT}}} $为引入动态选择方法后的初步结果，SU-CPB为引入2种差异分割结果解决方式后的最终结果. 实验表明，这2种差异分割结果解决方法的引入可以提升分割性能.

表 7 LIMU数据集各场景中SU-CPB方法不同阶段的F-measure对比

Tab.7 F-measure of SU-CPB method under different stage on different scenes of LIMU

场景	F-measure
场景	CPB^[17]	CPB_DT	SU-CPB
Camera Parameter	0.654 5	0.715 9	0.748 4
Intersection	0.677 8	0.690 8	0.767 2
Light Switch	0.663 3	0.642 5	0.821 1
Overall	0.665 2	0.683 1	0.778 9

6. 结　语

本文在CPB模型的基础上，利用STAM分割结果作为指导，完成了对CPB模型的像素-支持块共现模型的在线更新. 实验表明，SU-CPB在实验数据集上提升了CPB的性能，解决了CPB在处理复杂场景时出现的一些问题：大目标物体进入场景、大范围的天气云朵变化、静止物体移动后留下的“鬼影”等. SU-CPB方法在跨场景前景分割能力上显著优于 STAM 和 CPB 方法，并优于参与对比的其他方法. 未来将进一步探讨该方法中STAM模块的可替换性以及应用不同方法作为分割指导后的相应对比.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

VACAVANT A, CHATUAU T, WILHELM A, et al. A benchmark dataset for outdoor foreground/background extraction[C]// Asian Conference on Computer Vision. [S. l.]: Springer, 2012: 291-300.

DOI:10.1016/j.patcog.2014.10.020 [本文引用: 1]

[2]

STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S. l.]: IEEE, 1999: 246-252.

[本文引用: 3]

[3]

ELGAMMAL A, DURAISWAMI R, HARWOOD D, et al

Background and foreground modeling using nonparametric kernel density estimation for visual surveillance

[J]. Proceedings of the IEEE, 2002, 90 (7): 1151- 1163

DOI:10.1109/JPROC.2002.801448 [本文引用: 2]

[4]

JODOIN P M, MIGNOTTE M, KONRAD J

Statistical background subtraction using spatial cues

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17 (12): 1758- 1763

DOI:10.1109/TCSVT.2007.906935 [本文引用: 1]

[5]

BARNICH O, DROOGENBROECK M V

ViBe: a universal background subtraction algorithm for video sequences

[J]. IEEE Transactions on Image Processing, 2011, 20 (6): 1709- 1724

DOI:10.1109/TIP.2010.2101613

[6]

ST-CHARLES P L, BILODEAU G A, BERGEVIN R

SuBSENSE: a universal change detection method with local adaptive sensitivity

[J]. IEEE Transactions on Image Processing, 2014, 24 (1): 359- 373

[本文引用: 3]

[7]

LIANG D, KANEKO S, HASHIMOTO M, et al

Co-occurrence probability-based pixel pairs background model for robust object detection in dynamic scenes

[J]. Pattern Recognition, 2015, 48 (4): 1374- 1390

[8]

MARTINS I, CARVALHO P, CORTE-REAL, et al

BMOG: boosted Gaussian mixture model with controlled complexity for background subtraction

[J]. Pattern Analysis and Applications, 2018, 21 (3): 641- 654

DOI:10.1007/s10044-018-0699-y [本文引用: 2]

[9]

BRAHAM M, DROOGENBROECK M V. Deep background subtraction with scene-specific convolutional neural networks [C]// 2016 International Conference on Systems, Signals and Image Processing. [S. l.]: IEEE, 2016.

[本文引用: 4]

[10]

BABAEE M, DINH D T, RIGOLL G. A deep convolutional neural network for background subtraction [EB/OL]. [2019-09-30]. https://arxiv.org/pdf/1702.01731.pdf.

[本文引用: 2]

[11]

SHI G, HUANG T, DONG W, et al

Robust foreground estimation via structured gaussian scale mixture modeling

[J]. IEEE Transactions on Image Processing, 2018, 27 (10): 4810- 4824

DOI:10.1109/TIP.2018.2845123 [本文引用: 2]

[12]

WANG Y, LUO Z, JODOIN P, et al

Interactive deep learning method for segmenting moving objects

[J]. Pattern Recognition Letters, 2017, 96: 66- 75

[本文引用: 4]

[13]

ZHAO C, CHAM T, REN X, et al. Background subtraction based on deep pixel distribution learning [C]// 2018 IEEE International Conference on Multimedia and Expo. [S. l.]: IEEE, 2018: 1-6.

[本文引用: 2]

[14]

LIM L A, KELES H Y

Foreground segmentation using convolutional neural networks for multiscale feature encoding

[J]. Pattern Recognition Letters, 2018, 112: 256- 262

DOI:10.1016/j.patrec.2018.08.002 [本文引用: 5]

[15]

LIM L A, KELES H Y

Learning multi-scale features for foreground segmentation

[J]. Pattern Analysis and Applications, 2019, 23 (3): 1369- 1380

[16]

QIU M, LI X

A fully convolutional encoder-decoder spatial-temporal network for real-time background subtraction

[J]. IEEE Access, 2019, 7: 85949- 85958

[17]

ZHOU W, KANEKO S, LIANG D, et al

Background subtraction based on co-occurrence pixel-block pairs for robust object detection in dynamic scenes

[J]. IIEEJ Transactions on Image Electronics and Visual Computing, 2018, 5 (2): 146- 159

[本文引用: 6]

[18]

ZHOU W, KANEKO S, HASHIMOTO M, et al. A co-occurrence background model with hypothesis on degradation modification for object detection in strong background changes [C]// 2018 24th International Conference on Pattern Recognition. [S. l.]: IEEE, 2018: 1743-1748.

[19]

ZHOU W, KANEKO S, HASHIMOTO M, et al

Foreground detection based on co-occurrence background model with hypothesis on degradation modiﬁcation in dynamic scenes

[J]. Signal Processing, 2019, 160: 66- 79

DOI:10.1016/j.sigpro.2019.02.021

[20]

ZHOU W, KANEKO S, SATOH Y, et al. Co-occurrence based foreground detection with hypothesis on degradation modification in severe imaging conditions [C] // Proceedings of JSPE Semestrial Meeting 2018 JSPE Autumn Conference. [S. l.]: JSPE, 2018: 624-625.

DOI:10.1016/j.patcog.2010.11.022 [本文引用: 1]

[21]

ZHAO X, SATOH Y, TAKAUJI H, et al

Object detection based on a robust and accurate statistical multi-point-pair model

[J]. Pattern Recognition, 2011, 44 (6): 1296- 1311

[22]

LIANG D, PAN J, SUN H, et al

Spatio-temporal attention model for foreground detection in cross-scene surveillance videos

[J]. Sensors, 2019, 19 (23): 5142

DOI:10.3390/s19235142 [本文引用: 6]

[23]

LAROCHELLE H, HINTON G. Learning to combine foveal glimpses with a third-order boltzmann machine [C]// Advances in Neural Information Processing Systems 23: Conference on Neural Information Processing Systems A Meeting Held December. [S. l.]: Curran Associates Inc, 2010: 1243–1251.

[本文引用: 2]

[24]

KIM J, LEE S, KWAK D, et al. Multimodal residual learning for visual QA [C]// Neural Information Processing Systems. [S. l.]: MIT Press, 2016: 361-369.

[25]

MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention [C]// Neural Information Processing Systems. [S. l.]: MIT Press, 2014, 2: 2204-2212.

[26]

XU K, BA J, KIROS R, et al

Show, attend and tell: neural image caption generation with visual attention

[J]. International Conference on Machine Learning, 2015, 3: 2048- 2057

[27]

LI H, XIONG P, AN J, et al. Pyramid attention network for semantic segmentation [EB/OL]. [2019-09-30]. https://arxiv.org/pdf/1805.10180.pdf.

[28]

Liu C. Beyond pixels: exploring new representations and applications for motion analysis [D]. Cambridge: MIT, 2009.

[29]

GOYRTTE N, JODOIN P M, PORIKLI F, et al. Changedetection. net: a new change detection benchmark dataset [C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. [S. l.]: IEEE, 2012: 1-8.

[30]

TOYAMMA K, KRUMM J, BRUMITT B, et al. Wallflower: principles and practice of background maintenance [C]// Proceedings of the Seventh IEEE International Conference on computer vision. [S. l.]: IEEE, 1999: 255-261.

[31]

Laboratory for image and media understanding [DB/OL]. [2019-09-30]. http://limu.ait.kyushu-u.ac.jp/dataset/en/.

[32]

HOFMANN M, TIEFENBACHER P, RIGOLL G. Background segmentation with feedback: the pixel-based adaptive segmenter [C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. [S. l.]: IEEE, 2012: 38-43.