浙江大学学报(工学版), 2020, 54(12): 2405-2413 doi: 10.3785/j.issn.1008-973X.2020.12.015

计算机与控制工程

动态背景下基于自更新像素共现的前景分割

梁栋,, 刘昕宇, 潘家兴, 孙涵, 周文俊, 金子俊一

Foreground segmentation under dynamic background based on self-updating co-occurrence pixel

LIANG Dong,, LIU Xin-yu, PAN Jia-xing, SUN Han, ZHOU Wen-jun, KANEKO Shun’ichi

收稿日期: 2019-11-2  

Received: 2019-11-2  

作者简介 About authors

梁栋(1985—),男,博士,从事模式识别与计算机视觉研究.orcid.org/0000-0003-2784-3449.E-mail:liangdong@nuaa.edu.cn , E-mail:liangdong@nuaa.edu.cn

摘要

针对共现像素-支持块模型(CPB)存在的问题,提出一种新的自更新像素共现模型(SU-CPB). 引入经大规模监控场景训练的时空注意力模型(STAM),将STAM分割掩模作为指导,通过3种方法,包括像素-支持块对的动态选择,结构失效支持块的替换与前景相似度的计算,完成对支持块的在线自更新,解决CPB不具备更新能力带来的模型性能下降的问题,并使SU-CPB具备跨场景前景分割能力. 实验结果表明,该方法在所有测试场景下均优于CPB,并在未经STAM训练的Wallflower与LIMU数据集下,显著优于单纯的STAM、CPB以及其他参与对比的方法.

关键词: 前景分割 ; 像素空间关系 ; 时空注意力模型(STAM) ; 在线自更新 ; 跨场景

Abstract

A new foreground segmentation method called self-updating co-occurrence pixel-block model (SU-CPB) was proposed to solve the problem of co-occurrence pixel-block model (CPB). The segmentation result of STAM was used as a reference, by introducing supervised spatio-temporal attention model (STAM) that has been trained in large-scale training data. Three methods including a pixel-block dynamic selection method, replacement of broken pairs and calculation of the foreground similarities were proposed. The pixel-block pairs were self-updated online with these methods, and the problem of the CPB model performance degradation caused by lack of updating capability was solved. The capability of foreground segmentation across scenes was possessed. Experimental results show that this method performs better than CPB model in all scenes, and is significantly better than STAM, CPB and other methods participating in comparison under the Wallflower and LIMU datasets without training by STAM.

Keywords: foreground segmentation ; pixel spatial relation ; spatio-temporal attention model (STAM) ; online self-updating ; cross-scene

PDF (1089KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

梁栋, 刘昕宇, 潘家兴, 孙涵, 周文俊, 金子俊一. 动态背景下基于自更新像素共现的前景分割. 浙江大学学报(工学版)[J], 2020, 54(12): 2405-2413 doi:10.3785/j.issn.1008-973X.2020.12.015

LIANG Dong, LIU Xin-yu, PAN Jia-xing, SUN Han, ZHOU Wen-jun, KANEKO Shun’ichi. Foreground segmentation under dynamic background based on self-updating co-occurrence pixel. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(12): 2405-2413 doi:10.3785/j.issn.1008-973X.2020.12.015

前景分割在智能视频监控中发挥着重要的作用[1]. 传统的前景分割方法通常依赖建立背景统计模型. 例如Stauffer等[2]提出的混合高斯模型(Gaussian mixture model,GMM)或Elgammal等[3]提出的无参数的核密度估计模型(kernel density estimation,KDE). 这种大样本训练框架带来的主要问题是模型在特征空间中往往覆盖较大的范围,一旦目标物的特征值处于该区间范围,将被判定为背景而无法被正确检出.

Jodoin等[4-6]考虑到中心像素与相邻像素的空间上下文关系,构建了基于局部邻域特征的背景模型. 这类模型局限于挖掘局部的空间关系,在纹理稀缺背景下表现欠佳. Liang等[7]利用空间像素间特征值变化的关联信息,构建了共现像素对模型(co-occurrence probablity-based pixel pairs,CP3). 该技术借助空间像素间的相对变化来分割运动目标,使背景模型能够在一定程度上自动地适应背景的波动,进而使分割更为精确. Martins等[8]提出的背景差分方法在保证分割精确性的同时,也将方法的计算时间复杂度纳入考量,注重了分割的实时性.

Braham等[9-10]提出基于卷积神经网络的前景分割方法,它们只能处理具体场景,对于其他场景则需要再训练. 近3年来对于前景分割的研究主要集中于对传统统计背景建模方法的改进以及利用深度学习的方法直接进行前景分割[11-13]. Lim等[14-15]使用3组CNN编码器对同一输入图像的3种不同尺度进行特征编码,并使用TCNN(transposed convolutional neural network)对多尺度特征进行解码,得到像素级前景分割掩模. Qiu等[16]使用基于convLSTM的网络来捕捉连续帧之间的空间和时间维度特征. 此外,基于卷积神经网络的前景分割方法存在的普遍问题在于,其性能表现严重依赖于训练数据的标注规模和质量. 众所周知,分割任务的训练样本需逐帧人工标注,标注代价高,难以实现新场景的快速标注和训练,严重限制了此类方法在视频监控任务中的大规模应用.

为了解决上述问题,本文提出一种更加鲁棒的自更新像素共现模型(self-updating co-occurrence pixel-block model,SU-CPB),用于动态背景下跨场景的前景分割. 以Zhou等[17-20]提出的像素-支持块共现模型(co-occurrence pixel-block model,CPB)作为本文的基础,其前期相关工作包括CP3与Zhao等[21]提出的灰度排列对模型(grayscale arranging pairs,GAP). 与CP3模型类似,CPB训练过程依赖像素间线性相关性的计算,给背景模型的在线更新造成困难. 在近期的研究中,Liang等[22]提出时空注意力模型(spatio-temporal attention model,STAM)并将其应用于跨场景的前景分割. 在本文中,引入了STAM作为分割指导,完成了SU-CPB模型的构建. 该方法在一些困难场景下显著优于CPB模型,并在跨场景对比实验中优于其他参与对比的方法.

1. 像素-支持块共现(CPB)模型

本文提出的SU-CPB框架如图1所示. CPB包括2个阶段:训练阶段与检测阶段. CPB的工作模式如图2所示. 该方法通过比较中心像素p与它的共现支持块 ${Q^{\rm{B}}}$以判断p是否为前景点.

图 1

图 1   SU-CPB方法框架

Fig.1   Framework of SU-CPB


图 2

图 2   CPB模型工作方式

Fig.2   Working mechanism of CPB


1.1. 训练阶段

定义 ${\left\{ {Q_m^{\rm{B}}} \right\}_{m = 1,2,\cdots,M}} = \left\{ {Q_1^{\rm{B}},Q_2^{\rm{B}},\cdots,Q_M^{\rm{B}}} \right\}$为中心像素p的一组支持块. 使用Pearson积矩相关系数 $ \gamma (p,{Q}_{m}^{\rm{B}}) $ 筛选中心像素p的支持块 $\left\{ {Q_m^{\rm{B}}} \right\}$,即以 $ \gamma (p,{Q}_{m}^{\rm{B}}) $为关键字降序排列 $ {Q_m^{\rm{B}}} $,取前M个. 其中,

$ \gamma (p,{Q}_{m}^{\rm{B}})=\frac{{C}_{p,{\overline{Q}}_{m}^{\rm{B}}}}{{\sigma }_{p}\cdot {\sigma }_{{\overline{Q}}_{m}^{\rm{B}}}}. $

式中: ${C_{p,\overline Q _m^{\rm{B}}}}$为中心像素p与它的第m个支持块 $Q_m^{\rm{B}}$在训练集中的像素强度协方差, ${\sigma _p}$${\sigma _{\overline Q _m^{\rm{B}}}}$分别为p$Q_m^{\rm{B}}$强度值的标准差.

对每个中心像素p,对应有多个支持块 ${Q^{\rm{B}}}$,它们在时间的推移中关系稳定,即它们的像素强度之差服从单高斯分布:

$\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) \sim N\left( {{b_m},\sigma _m^2} \right). $

式中: ${I_p}$p的像素强度, ${\overline I _{Q_m^{\rm{B}}}}$为支持块 $Q_m^{\rm{B}}$的平均像素强度, ${b_m}$$\sigma _m^2$分别为高斯分布的均值与方差参数. 在CPB模型中,每对(p$Q_m^{\rm{B}}$)都有各自的高斯分布,当训练集大小为T时,

${b_m} = \frac{1}{T}\sum\limits_{t = 1}^T {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right)} {\text{,}} $

$\sigma _m^2 = \frac{1}{T}\sum\limits_{t = 1}^T {{{\left[ {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) - {b_m}} \right]}^2}} . $

1.2. 检测阶段

对(p$Q_m^{\rm{B}}$)的状态作如下定义:

$ {\omega _m} = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {1,}\\ {0,} \end{array}}&{\begin{array}{*{20}{r}} {\left| {\left( {{I_p} - {{\overline I }_{Q_m^{\rm{B}}}}} \right) - {b_m}} \right| \geqslant \eta {\sigma _m};}\\ \text{其他.} \end{array}} \end{array}} \right. $

式中:η为高斯模型阈值常数。当 ${\omega _m} = 1$ 时,p${Q^{\rm{B}}}$ 处于不稳定状态;当 ${\omega _m} = 0$ 时,p${Q^{\rm{B}}}$ 处于稳定状态.

由式(5)可知,对每个支持块 $Q_m^{\rm{B}}$p的差分过程等同于1个二分类器,考虑到每个支持块与中心像素线性相关性的差异,引入它们与中心像素的相关系数 ${\gamma _m}$作为权重进行相关性决策,当满足以下条件时,CPB将中心像素p分类为前景点:

$ \sum\limits_{m = 1}^M {{\gamma _m}} {\omega _m} > \lambda \sum\limits_{m = 1}^M {{\gamma _m}} \text{.} $

式中:λ为相关性决策阈值, ${\gamma _m}$为中心像素p与支持块 $Q_m^{\rm{B}}$的相关系数.

2. 时空注意力模型(STAM)

2.1. 注意力机制与光流

注意力机制启发于人类的感知过程,人脑的注意力机制在特定时刻总是集中在场景局部而忽略其他部分,该注意力机制可以等效于一个资源分配模型. 目前,已有将注意力机制用于深度神经网络的初步尝试,深度玻尔兹曼机(DBM)[23]在训练阶段通过重构过程包含了自上而下的注意力机制;注意力机制也被广泛应用于循环神经网络(RNN)和长短期记忆网络(LSTM)中,以处理顺序决策任务[23-24]. 顶层信息被顺序采集并决定如何应用于接下来的特征学习,时序过程[25-26]将以顺序决策建模图像分类问题. 这一架构允许使用RNN和LSTM进行端到端的优化,能够以目标驱动的方式获得不同类型的注意力. Li等[27]提出的金字塔注意力语义分割模型包含特征金字塔与全局注意力.

一般而言,卷积神经网络特征层的高层特征具有较大的感受野,包含全局上下文,擅长场景分类,但对单个像素的分类能力较弱. 低层特征携带了大量的细粒度信息,可以帮助高层特征在上采样过程中重建对象细节. 传统的卷积神经网络将信息从下采样层传播到所有对应的上采样层,因为它将编码器与解码器特征拼接在一起却没有进行任何选择,无法确定所选择的特征对前景分割是否必要. STAM通过在解码阶段引入注意力模块,融合了解码器与编码器的特征,高层特征提供全局信息用以指导注意力模块选择适当的低层特征,这些低层特征有助于对输入图像进行二值预测.

2.2. 模型结构

STAM模型结合时空信息,并利用注意力模块将编码器与解码器的特征融合. 如图3所示,图像编码器与光流编码器是2个结构相同的编码器,共有8个卷积层,分别以静态图像和相邻图像的光流强度场[28]作为输入,加号表示像素级加法. 解码器为8层,卷积步长为2,每层进行上采样处理,应用7个注意力模块进行融合,注意力模块卷积步长为1. 真实场景中的物理运动可以用运动场描述,在平面图像上物体的运动往往是通过图像序列中不同图像灰度分布的不同来体现的. 光流场是像素点在图像平面运动产生的瞬时速度场,很适合描述帧间的时域上下文关系. 该模型将光流强度场与静态图像并行输入网络,以此引入帧间上下文信息,比基于单帧图像分割的方法[9-10]更合理.

图 3

图 3   STAM模型网络结构

Fig.3   STAM network structure


STAM在CDNet2014数据集上取随机5%数据与其真值进行训练,使用光流与静态图片并引入注意力机制,使其对变化较敏感. 当STAM用来处理未经训练的场景时,只能得到粗略的分割结果,表明其泛化能力有待提高. 在本文的工作中,STAM模型用来生成前景分割掩模,解决CPB模型的在线更新问题. 最终分割结果由具备在线更新能力的SU-CPB模型完成.

3. 基于STAM分割掩模的像素-支持块对的动态选择机制

CPB模型存在的问题如下:中心像素p与支持块 ${\left\{ {Q_m^{\rm{B}}} \right\}_{m = 1,2,\cdots,M}}$具有统计意义上的强相关性,一旦前景运动物体覆盖支持块,将造成支持块与中心像素差分关系的不确定性,式(5)构建的像素状态判断准则暂时失效,导致出现分割错误. 避开前景区域选择支持块,保证支持块分布于背景区域,模型的性能将得到有效提升. CPB模型的在线更新问题实际上是利用动态筛选机制完成支持块的有效替换,以避免前景覆盖支持块带来的分割错误.

图4所示是支持块的动态选择模型流程图. 处于前景区域的支持块将被支持块序列中的候选支持块替换. 在训练阶段,所有支持块按相关系数递减得到支持块序列. 候选支持块将在有需要时被启用并暂时地代替失效支持块.

图 4

图 4   支持块的动态选择模型流程图

Fig.4   Dynamic selection model of supporting blocks


STAM能够在未训练场景下做出粗略的分割预测. 由于判断支持块是否失效无须像素级的分割精度,使用STAM的粗略分割结果可以作为支持块是否被前景覆盖的判断依据.

图5所示为一组模型选择效果演示. 图5(b)中三角形表示中心像素点,正方形表示支持块. 由图5可知,中心像素在不同时间点拥有不同的支持块,当船只驶过时,支持块的选择会动态地避开该前景区域.

图 5

图 5   模型选择效果演示

Fig.5   Demonstration of selection model


4. 差异分割结果的解决方式

尽管CPB支持块的动态选择参考了STAM的分割结果,但二者的最终分割结果有一定的差异性. 上述模型与STAM由于分别使用了截然不同的前景分割方法——基于像素空间关系的背景统计建模技术与参考了光流的注意力模型,它们的结果本身具有一定的互补性.

4.1. 结构失效支持块替换

虽然在支持块的选择上尽可能避开了前景区域,却无法避免2种状况:1)STAM的分割结果与真值有一定的差距,不能保证所有支持块都能完全避开前景区域;2)随着时间的推移,原本在训练阶段得到的像素-支持块模型会由于前景或背景噪声出现“退化”现象,从而导致结构失效. 本文提出2种方式,解决中心像素与支持块可能存在的结构失效的问题.

图6所示为失效支持块的替换过程. CPB与STAM对像素点存在分歧有2种情况:1)CPB认为是前景点,STAM将其归类为背景;2)CPB认为是背景点,STAM将其归类为前景.

图 6

图 6   失效支持块的替换

Fig.6   Replacement of broken pairs


CPB模型在检测阶段考虑到每个支持块与中心像素线性相关性的差异,以相关系数作为权重值,当结果与STAM存在差异时,高的相关系数所对应的支持块很可能已经处于结构失效状态. 为了避免这种情况发生,在模型输出存在差异性时,剔除高相关系数的支持块,并用候选支持块代替. 不稳定状态不意味着失效状态,当中心像素p为前景时,它与支持块处在不稳定状态而被检出,这时不稳定状态是有效状态,稳定状态是失效状态;当p为背景时,它与支持块处于稳定状态,一旦它们处于不稳定状态,像素p会成为“虚警”,此时不稳定状态为失效状态. 式(5)计算了每个像素-支持块对的稳定性.

根据以上结论构建差异分割结果的解决方式. 当STAM和CPB在该中心像素点p存在差异分割结果时,考虑到CPB的分割结果存在错误的可能性,为了消除可能已经处于结构失效状态的支持块对中心像素点p存在的错误引导,使用候选支持块对其进行替换. 同时CPB的鲁棒性意味着该解决方式不会导致分割性能的下降. 相关对比实验结果印证了所提出的解决方式的合理性.

统计处于不稳定状态的支持块数量,即

$K = \sum\limits_{m = 1}^M {{\omega _m}} . $

考虑到情况1)与情况2)的不同,分别计算2种情况下的平均相关系数:

$ \overline \gamma = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{l}} {\dfrac{1}{K}\displaystyle\sum\limits_{m = 1}^M {{\gamma _m} {\omega _m}} ,}\\ {\dfrac{1}{{M - K}}\displaystyle\sum\limits_{m = 1}^M {{\gamma _m} (1 - {\omega _m})} ,} \end{array}}&{\begin{array}{*{20}{l}} \text{情况1;}\\ \text{情况2. } \end{array}} \end{array}} \right.$

如果某个支持块 $Q_m^{\rm{B}}$p的相关系数满足:

${\gamma _m} \geqslant \overline \gamma . $

那么 $Q_m^{\rm{B}}$需要被替换.

4.2. 前景相似度计算

因为像素-支持块模型是依据其特征值在长时域内的变化相关性构建的,具有高相关系数的支持块应是与其中心像素同质的区域. 当像素p是前景而被CPB错误分类为背景,即处于情况2)时,计算该像素点与其周围存在的前景点的相似度 $ {r}_{\rm{F}} $,计算该像素点与其所有支持块的平均相似度 $ {r}_{\rm{B}} $. 若满足下列条件,则将其分类为前景,反之为背景.

${r_{\rm{F}}}{\rm{ = }}\frac{1}{{20}}\sum\limits_{n = 1}^{20} {\sqrt {{{({R_p} - {R_n})}^2} + {{({G_p} - {G_n})}^2} + {{({B_p} - {B_n})}^2}} } \text{,} $

${r_{\rm{B}}}{\rm{ = }}\frac{1}{{{M}}}\sum\limits_{{{m}} = 1}^M {\sqrt {{{({R_p} - {{\overline R }_m})}^2} + {{({G_p} - {{\overline G }_m})}^2} + {{({B_p} - {{\overline B }_m})}^2}} } \text{,} $

${r_{\rm{F}}} > \varepsilon {r_{\rm{B}}}. $

式中:ε为相似度决策阈值;使用像素点之间RGB值的欧式距离作为相似度的度量, $ {R}_{p} $$ {G}_{p} $$ {B}_{p} $分别为目标像素p的RGB值;取距离目标像素最近的20个前景像素点并根据式(10)计算 ${r}_{{\rm{F}}}$M为目标像素p的支持块数量, $ {\stackrel{-}{R}}_{m} $$ {\stackrel{-}{G}}_{m} $$ {\stackrel{-}{B}}_{m} $分别为支持块m的RGB平均值,根据式(11)计算 $ {r}_{\rm{B}} $.

5. 实验结果分析

5.1. 实验设置

CDNet2014[29]包含大量不同场景的数据集,可以用于前景分割的训练和测评. 本文在CDNet2014数据集上的实验环境如下:1)在数据集充足的前提下,选择前400张前景占比小的或者没有明显前景的图片作为训练集;2)对前景占比高的数据集,尽量从它的前20%中选择前景占比低的图片作为训练集. 本文的CPB实验数据在该实验环境下给出.

STAM模型是在CDNet2014数据集上随机选取5%的图片与其真值进行训练得到的. 为验证对比所有方法的跨场景泛化能力,采用Wallflower[30]与LIMU[31]2个数据集. SU-CPB方法在Wallflower采用数据集规定的200张作为训练集,LIMU选用前400张作为训练集,实验参数设置如表1所示.

表 1   SU-CPB中的各项参数设置

Tab.1  Parameters setting of SU-CPB

参数 设置值
支持块数量 20
候选支持块数量 10
高斯模型阈值 2.5
相关性决策阈值 0.5
相似度决策阈值 0.8

新窗口打开| 下载CSV


5.2. 实验评估

实验使用CDNet2014里的11个数据集,对比12种方法,结果如表2所示. 表中,各数据集缩写对应的名称如下:bad weather(BDW),baseline(BSL),camera jitter(CJT),dynamic background(DBG),intermittent object motion(IOM),low frame rate(LFR),night videos(NVD),shadow(SHD),thermal(THM)and turbulence(TBL). 可以看出,SU-CPB在7个数据集中与序号2~7的非监督方法相比排名第一,且大部分场景都实现了对CPB模型性能的较大提升. 与SU-CPB相比,序号10~12的监督学习方法的模型往往过拟合,因此针对特定训练场景的分割结果更好;序号8和9的监督学习方法在经过跨场景的标注训练后,具有一定的泛化能力.

表 2   不同方法的CDNet2014数据集F-measure对比

Tab.2  F-measure of different methods on CDNet2014

序号 算法 F-measure
BDW BSL CJT DBG IOM SHD THM TBL LFR NVD PTZ
1 SU-CPB 0.867 0.907 0.853 0.924 0.760 0.910 0.969 0.895 0.449 0.558 0.753
2 CPB[17] 0.475 0.519 0.597 0.477 0.348 0.581 0.372 0.459 0.170 0.277 0.161
3 SuBSENSE[6] 0.862 0.950 0.815 0.818 0.657 0.865 0.817 0.779 0.645 0.560 0.348
4 KDE[3] 0.757 0.909 0.572 0.596 0.409 0.803 0.742 0.448 0.548 0.437 0.037
5 GMM[2] 0.738 0.825 0.597 0.633 0.521 0.732 0.662 0.466 0.537 0.410 0.152
6 BMOG[8] 0.784 0.830 0.749 0.793 0.529 0.840 0.635 0.693 0.610 0.498 0.235
7 SGSM-BS[11] 0.856 0.950 0.820 0.848 0.819 0.890 0.850 0.850 0.750 0.510
8 STAM[22] 0.970 0.989 0.899 0.948 0.916 0.966 0.991 0.933 0.668 0.710 0.865
9 DeepBS[9] 0.830 0.958 0.899 0.876 0.610 0.930 0.758 0.846 0.600 0.584 0.313
10 CascadeCNN[12] 0.943 0.979 0.976 0.966 0.851 0.941 0.896 0.911 0.837 0.897 0.917
11 DPDL[13] 0.869 0.969 0.866 0.869 0.876 0.936 0.838 0.764 0.708 0.611 0.609
12 FgSegNet[14] 0.984 0.998 0.995 0.994 0.993 0.995 0.992 0.978 0.956 0.978 0.989

新窗口打开| 下载CSV


当参照CPB方法作对比时,由于统一采用小训练集(相对CPB方法的要求而言),CPB此时的F-measure较低见表2,表现不够稳定. 相比之下,SU-CPB在小训练集的情况下,实现了性能的提高,在CDNet数据集上比CPB方法的F-measure平均提高了0.4. 由于大部分P-B对失效,CPB方法在复杂场景(天气云朵大范围变化或大运动目标进入等)中会出现大面积的false positive检测结果,SU-CPB对这种情况有明显的鲁棒性. 对比结果如图7所示. 图中,parking场景为大范围辐射背景下的云朵漂移,abandoned box场景和fall场景为大目标物运动.

图 7

图 7   复杂场景下不同方法的检测效果对比

Fig.7   Comparison of detection in different complex scenarios


表3所示为特定场景下SU-CPB与STAM F-measure对比. 与STAM相比,SU-CPB在DBG下的fountain02场景、BSL下的PETS2006场景、CJT下的traffic场景、IOM下的abandoned box场景和parking场景的F-measure均有所提高.

表 3   特定场景下SU-CPB与STAM 的 F-measure对比

Tab.3  Comparison of proposed method with STAM on specific training sets

场景 F-measure
SU-CPB STAM[22]
PETS2006 0.957 0 0.956 3
traffic 0.835 0 0.834 9
fountain02 0.934 0 0.933 5
abandoned box 0.820 6 0.812 3
parking 0.764 1 0.763 3

新窗口打开| 下载CSV


为了评估SU-CPB在跨场景下的泛化能力,使用Wall Flower和LIMU数据集下的总共10个场景进行对比实验. 其中STAM、Cascade CNN和FgSegNet 3种监督方法均为同一实验设置,即在CDNet2014中随机选取5%的图片与其真值训练,并在Wallflower与LIMU共10个场景中进行跨场景的前景检测.

Wallflower数据集上的实验结果如表45所示,Fg Aperture为Foreground Aperture的缩写. 由表4可知,SU-CPB在Bootstrap、Foreground Aperture、Light Switch、Time of Day场景中比其他方法的F-measure高,在除Waving Trees外的场景中表现比CPB更优,且在平均上表现最优,平均比CPB提升12.15%,比STAM提升11.09%. Moved Object场景用来检验背景模型更新能力,由于其用来评估的真值中并没有前景目标,选择Specificity =TN/(TN+FP)作为评估参数. 从Moved Object实验结果可以看出,SU -CPB能够解决原本处于背景中的静止物体被移动后留下的“鬼影”问题.

表 4   Wallflower数据集各场景中不同方法的F-measure对比

Tab.4  F-measure of different methods on Wallflower under different scenes

场景 F-measure
SU-CPB STAM[22] DeepBS[9] Cascade CNN[12] FgSeg-Net[14] CPB[17] SuBSENSE[6] GMM[2] PBAS[32]
Bootstrap 0.756 0 0.741 4 0.747 9 0.523 8 0.358 7 0.651 8 0.419 2 0.530 6 0.285 7
Camouflage 0.688 4 0.736 9 0.985 7 0.677 8 0.121 0 0.611 2 0.953 5 0.830 7 0.892 2
Fg Aperture 0.942 0 0.829 2 0.658 3 0.793 5 0.411 9 0.590 0 0.663 5 0.577 8 0.645 9
Light Switch 0.909 7 0.909 0 0.611 4 0.588 3 0.681 5 0.715 7 0.320 1 0.229 6 0.221 2
Time of Day 0.794 9 0.342 9 0.549 4 0.377 1 0.422 2 0.756 4 0.710 7 0.720 3 0.487 5
Waving Trees 0.666 5 0.532 5 0.954 6 0.287 4 0.345 6 0.703 3 0.959 7 0.976 7 0.842 1
Overall 0.792 9 0.682 0 0.751 2 0.541 3 0.390 2 0.671 4 0.671 1 0.644 3 0.562 4

新窗口打开| 下载CSV


表 5   Wallflower数据集Moved Object场景中不同方法的Specifity对比

Tab.5  Specifity of different methods on Moved Object of Wallflower

场景 Specifity
SU-CPB STAM[22] CascadeCNN[12] FgSegNet[14] CPB[17]
Moved Object 0.997 7 0.994 9 0.773 6 0.847 0 0.892 2

新窗口打开| 下载CSV


对于LIMU数据集,在Camera Parameter、Intersection和Light Switch场景中进行方法对比,实验数据见表6,检测效果如图8所示. 在这3个场景中,SU-CPB的F-measure比其他方法高,平均比STAM高31.54%,比CPB高11.37%.

表 6   LIMU数据集各场景中不同方法的F-measure对比

Tab.6  F-measure of different methods on LIMU under different scenes

场景 F-measure
SU-CPB STAM[22] CascadeCNN[12] FgSegNet[14] CPB[17]
Camera Parameter 0.748 4 0.674 2 0.102 5 0.266 8 0.654 5
Intersection 0.767 2 0.623 7 0.045 3 0.142 8 0.677 8
Light Switch 0.821 1 0.095 3 0.027 7 0.041 4 0.663 3
Overall 0.778 9 0.464 4 0.058 5 0.150 3 0.665 2

新窗口打开| 下载CSV


图 8

图 8   不同方法在LIMU数据集不同场景中的检测效果对比

Fig.8   Comparison of detection in different methods on different scenes of LIMU


LIMU数据集3个场景中,SU-CPB在各阶段下的F-measure对比见表7. 表中,CPB为最初模型,CP $ {\rm{B}}_{{\rm{DT}}} $为引入动态选择方法后的初步结果,SU-CPB为引入2种差异分割结果解决方式后的最终结果. 实验表明,这2种差异分割结果解决方法的引入可以提升分割性能.

表 7   LIMU数据集各场景中SU-CPB方法不同阶段的F-measure对比

Tab.7  F-measure of SU-CPB method under different stage on different scenes of LIMU

场景 F-measure
CPB[17] CPBDT SU-CPB
Camera Parameter 0.654 5 0.715 9 0.748 4
Intersection 0.677 8 0.690 8 0.767 2
Light Switch 0.663 3 0.642 5 0.821 1
Overall 0.665 2 0.683 1 0.778 9

新窗口打开| 下载CSV


6. 结  语

本文在CPB模型的基础上,利用STAM分割结果作为指导,完成了对CPB模型的像素-支持块共现模型的在线更新. 实验表明,SU-CPB在实验数据集上提升了CPB的性能,解决了CPB在处理复杂场景时出现的一些问题:大目标物体进入场景、大范围的天气云朵变化、静止物体移动后留下的“鬼影”等. SU-CPB方法在跨场景前景分割能力上显著优于 STAM 和 CPB 方法 ,并优于参与对比的其他方法. 未来将进一步探讨该方法中STAM模块的可替换性以及应用不同方法作为分割指导后的相应对比.

参考文献

VACAVANT A, CHATUAU T, WILHELM A, et al. A benchmark dataset for outdoor foreground/background extraction[C]// Asian Conference on Computer Vision. [S. l.]: Springer, 2012: 291-300.

[本文引用: 1]

STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S. l.]: IEEE, 1999: 246-252.

[本文引用: 3]

ELGAMMAL A, DURAISWAMI R, HARWOOD D, et al

Background and foreground modeling using nonparametric kernel density estimation for visual surveillance

[J]. Proceedings of the IEEE, 2002, 90 (7): 1151- 1163

DOI:10.1109/JPROC.2002.801448      [本文引用: 2]

JODOIN P M, MIGNOTTE M, KONRAD J

Statistical background subtraction using spatial cues

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17 (12): 1758- 1763

DOI:10.1109/TCSVT.2007.906935      [本文引用: 1]

BARNICH O, DROOGENBROECK M V

ViBe: a universal background subtraction algorithm for video sequences

[J]. IEEE Transactions on Image Processing, 2011, 20 (6): 1709- 1724

DOI:10.1109/TIP.2010.2101613     

ST-CHARLES P L, BILODEAU G A, BERGEVIN R

SuBSENSE: a universal change detection method with local adaptive sensitivity

[J]. IEEE Transactions on Image Processing, 2014, 24 (1): 359- 373

[本文引用: 3]

LIANG D, KANEKO S, HASHIMOTO M, et al

Co-occurrence probability-based pixel pairs background model for robust object detection in dynamic scenes

[J]. Pattern Recognition, 2015, 48 (4): 1374- 1390

DOI:10.1016/j.patcog.2014.10.020      [本文引用: 1]

MARTINS I, CARVALHO P, CORTE-REAL, et al

BMOG: boosted Gaussian mixture model with controlled complexity for background subtraction

[J]. Pattern Analysis and Applications, 2018, 21 (3): 641- 654

DOI:10.1007/s10044-018-0699-y      [本文引用: 2]

BRAHAM M, DROOGENBROECK M V. Deep background subtraction with scene-specific convolutional neural networks [C]// 2016 International Conference on Systems, Signals and Image Processing. [S. l.]: IEEE, 2016.

[本文引用: 4]

BABAEE M, DINH D T, RIGOLL G. A deep convolutional neural network for background subtraction [EB/OL]. [2019-09-30]. https://arxiv.org/pdf/1702.01731.pdf.

[本文引用: 2]

SHI G, HUANG T, DONG W, et al

Robust foreground estimation via structured gaussian scale mixture modeling

[J]. IEEE Transactions on Image Processing, 2018, 27 (10): 4810- 4824

DOI:10.1109/TIP.2018.2845123      [本文引用: 2]

WANG Y, LUO Z, JODOIN P, et al

Interactive deep learning method for segmenting moving objects

[J]. Pattern Recognition Letters, 2017, 96: 66- 75

[本文引用: 4]

ZHAO C, CHAM T, REN X, et al. Background subtraction based on deep pixel distribution learning [C]// 2018 IEEE International Conference on Multimedia and Expo. [S. l.]: IEEE, 2018: 1-6.

[本文引用: 2]

LIM L A, KELES H Y

Foreground segmentation using convolutional neural networks for multiscale feature encoding

[J]. Pattern Recognition Letters, 2018, 112: 256- 262

DOI:10.1016/j.patrec.2018.08.002      [本文引用: 5]

LIM L A, KELES H Y

Learning multi-scale features for foreground segmentation

[J]. Pattern Analysis and Applications, 2019, 23 (3): 1369- 1380

[本文引用: 1]

QIU M, LI X

A fully convolutional encoder-decoder spatial-temporal network for real-time background subtraction

[J]. IEEE Access, 2019, 7: 85949- 85958

[本文引用: 1]

ZHOU W, KANEKO S, LIANG D, et al

Background subtraction based on co-occurrence pixel-block pairs for robust object detection in dynamic scenes

[J]. IIEEJ Transactions on Image Electronics and Visual Computing, 2018, 5 (2): 146- 159

[本文引用: 6]

ZHOU W, KANEKO S, HASHIMOTO M, et al. A co-occurrence background model with hypothesis on degradation modification for object detection in strong background changes [C]// 2018 24th International Conference on Pattern Recognition. [S. l.]: IEEE, 2018: 1743-1748.

ZHOU W, KANEKO S, HASHIMOTO M, et al

Foreground detection based on co-occurrence background model with hypothesis on degradation modification in dynamic scenes

[J]. Signal Processing, 2019, 160: 66- 79

DOI:10.1016/j.sigpro.2019.02.021     

ZHOU W, KANEKO S, SATOH Y, et al. Co-occurrence based foreground detection with hypothesis on degradation modification in severe imaging conditions [C] // Proceedings of JSPE Semestrial Meeting 2018 JSPE Autumn Conference. [S. l.]: JSPE, 2018: 624-625.

[本文引用: 1]

ZHAO X, SATOH Y, TAKAUJI H, et al

Object detection based on a robust and accurate statistical multi-point-pair model

[J]. Pattern Recognition, 2011, 44 (6): 1296- 1311

DOI:10.1016/j.patcog.2010.11.022      [本文引用: 1]

LIANG D, PAN J, SUN H, et al

Spatio-temporal attention model for foreground detection in cross-scene surveillance videos

[J]. Sensors, 2019, 19 (23): 5142

DOI:10.3390/s19235142      [本文引用: 6]

LAROCHELLE H, HINTON G. Learning to combine foveal glimpses with a third-order boltzmann machine [C]// Advances in Neural Information Processing Systems 23: Conference on Neural Information Processing Systems A Meeting Held December. [S. l.]: Curran Associates Inc, 2010: 1243–1251.

[本文引用: 2]

KIM J, LEE S, KWAK D, et al. Multimodal residual learning for visual QA [C]// Neural Information Processing Systems. [S. l.]: MIT Press, 2016: 361-369.

[本文引用: 1]

MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention [C]// Neural Information Processing Systems. [S. l.]: MIT Press, 2014, 2: 2204-2212.

[本文引用: 1]

XU K, BA J, KIROS R, et al

Show, attend and tell: neural image caption generation with visual attention

[J]. International Conference on Machine Learning, 2015, 3: 2048- 2057

[本文引用: 1]

LI H, XIONG P, AN J, et al. Pyramid attention network for semantic segmentation [EB/OL]. [2019-09-30]. https://arxiv.org/pdf/1805.10180.pdf.

[本文引用: 1]

Liu C. Beyond pixels: exploring new representations and applications for motion analysis [D]. Cambridge: MIT, 2009.

[本文引用: 1]

GOYRTTE N, JODOIN P M, PORIKLI F, et al. Changedetection. net: a new change detection benchmark dataset [C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. [S. l.]: IEEE, 2012: 1-8.

[本文引用: 1]

TOYAMMA K, KRUMM J, BRUMITT B, et al. Wallflower: principles and practice of background maintenance [C]// Proceedings of the Seventh IEEE International Conference on computer vision. [S. l.]: IEEE, 1999: 255-261.

[本文引用: 1]

Laboratory for image and media understanding [DB/OL]. [2019-09-30]. http://limu.ait.kyushu-u.ac.jp/dataset/en/.

[本文引用: 1]

HOFMANN M, TIEFENBACHER P, RIGOLL G. Background segmentation with feedback: the pixel-based adaptive segmenter [C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. [S. l.]: IEEE, 2012: 38-43.

[本文引用: 1]

/