浙江大学学报(工学版), 2022, 56(2): 263-270 doi: 10.3785/j.issn.1008-973X.2022.02.006

计算机与控制工程

基于多分类及特征融合的静默活体检测算法

黄新宇,, 游帆, 张沛, 张昭, 张柏礼,, 吕建华, 徐立臻

Silent liveness detection algorithm based on multi classification and feature fusion network

HUANG Xin-yu,, YOU Fan, ZHANG Pei, ZHANG Zhao, ZHANG Bai-li,, LV Jian-hua, XU Li-zhen

通讯作者: 张柏礼,男,副教授. orcid.org/0000-0001-9400-9791. E-mail: 220191827@seu.edu.cn

收稿日期: 2021-07-19  

Received: 2021-07-19  

作者简介 About authors

黄新宇(1996—),男,硕士,从事人脸识别、活体检测研究.orcid.org/0000-0002-1527-7219.E-mail:2639239697@qq.com , E-mail:2639239697@qq.com

摘要

现有的静默活体检测研究忽略不同非活体攻击方式之间的差异,以及不考虑活体和非活体样本类别不均衡对模型学习的不利影响. 本研究将非活体攻击类别细分成打印攻击和展示攻击,将静默活体检测由传统的二分类问题转变为多分类问题,并提出采取交叉熵作为损失函数对网络模型进行训练的方案,用以克服二分类和类别不均衡问题,使得模型训练中能更准确发现和抽象出非活体人脸样本共同的欺诈特征,提高网络模型对非活体识别的精准度. 构建双流特征融合网络模型,采取注意力机制对从RGB和YCrCb这2种不同色彩空间提取到的特征向量进行自适应加权融合,以进一步提升网络模型的特征表示能力. 在CASIA-FASD、Replay-Attack、MSU-MFSD和OULU-NPU 4个公开数据集进行大量的对比实验,实验结果表明,采取多分类策略以及特征融合的静默活体检测模型能够有效降低分类错误率并提升泛化能力.

关键词: 人脸活体检测 ; 多分类 ; 类别不均衡 ; 交叉熵损失 ; 特征融合

Abstract

Difference between non-liveness attack types is neglected, and adverse impact of category imbalance between liveness and non-liveness samples on model training is not considered in existing studies of silent liveness detection. In this paper, non-liveness attacks were subdivided into two categories, print attack and display attack, which transformed silent liveness detection from traditional two-classification problem into multi-classification problem. And the cross-entropy was used as the loss function to train network model. Thus, the disadvantage of binary classification and category imbalance can be eliminated, common features of the non-liveness face samples were likely to be identified more accurately through model training, and the accuracy of the network model was improved for non-liveness recognition. Moreover, a two-stream feature fusion the network model was constructed to further improve the feature representation capacity of the network model, which adopted the attention mechanism to adaptively fuse the feature vectors extracted from RGB and YCrCb. Abundant comparative experiments were performed on four public datasets, CASIA-FASD, Replay-Attack, MSU-MFSD and OULU-NPU. Experimental results indicate that silent liveness detection model adopting multi-classification strategy and feature fusion can effectively reduce the classification error and improve over-generalization ability.

Keywords: face liveness detection ; multi classification ; class imbalance ; cross-entropy loss ; feature fusion

PDF (913KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

黄新宇, 游帆, 张沛, 张昭, 张柏礼, 吕建华, 徐立臻. 基于多分类及特征融合的静默活体检测算法. 浙江大学学报(工学版)[J], 2022, 56(2): 263-270 doi:10.3785/j.issn.1008-973X.2022.02.006

HUANG Xin-yu, YOU Fan, ZHANG Pei, ZHANG Zhao, ZHANG Bai-li, LV Jian-hua, XU Li-zhen. Silent liveness detection algorithm based on multi classification and feature fusion network. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(2): 263-270 doi:10.3785/j.issn.1008-973X.2022.02.006

人脸识别是一种生物身份认证技术,相比指纹识别、声纹识别,人脸识别以其便捷、非接触、高准确率和高处理速度等特点在实际中得到广泛应用. 然而,单纯的人脸识别系统无法防范人脸照片和人脸视频攻击,为此,往往须结合人脸活体检测对人脸打印照片、电子照片或视频等欺诈手段进行防范[1-2].

现实中人脸识别主要面临3种攻击手段[3]:打印攻击、展示攻击和3D面具攻击. 打印攻击将人脸图像打印在纸张上,通过弯曲、旋转、剪除眼睛等区域的方式来欺骗人脸识别系统. 展示攻击通过手机、平板电子设备上的人脸照片或视频进行攻击. 3D面具攻击通过制作人脸3D面具进行攻击,由于其制作复杂、成本较高,在生活中较少出现. 本研究主要针对前2种攻击手段进行研究,这也是国内外学者研究的重点.

人脸活体检测可以分成3大类实现方式:基于硬件辅助的方式、基于用户配合的方式以及静默活体检测的方式. 基于硬件辅助的方式须配备深度摄像头、3D结构光、热红外摄像头等辅助设备,在提升了部署成本的同时限制了其应用范围[1, 4]. 基于用户配合的方式需要频繁的用户交互,人脸识别过程时间较长,用户体验不够友好[1, 4]. 静默活体检测的方式通过分析活体与非活体人脸图像的色彩和纹理差异性特征进行真伪判别,其成本低廉、部署简易、用户友好,是一种理想的人脸活体检测任务实现方式,也一直是研究的热点.

静默活体检测根据特征提取策略又可以细分为3种方式:基于图像质量分析的方式、基于传统图像纹理特征的方式以及基于卷积神经网络的方式. 本研究以基于卷积神经网络的方式为研究对象,为了进一步提升基于卷积神经网络的静默活体检测算法的泛化能力,提出基于多分类及特征融合的人脸活体检测算法,首先通过对非活体攻击类型细分,使得模型能够更加关注不同攻击方式类内共性特征的学习,有效提升模型的泛化能力;同时,构建双流特征提取网络进一步提升模型的表征能力.

1. 相关研究

基于图像质量分析的方式依据的原理是,非活体人脸样本是通过活体人脸样本二次采集得到的,打印攻击容易导致色彩、人脸细节特征的变形与丢失,展示攻击在识别过程容易产生摩尔纹、大片高光图像噪声,导致被识别图像质量下降. Galbally等 [5]选取了14种图像质量统计特征进行活体判别,Di等 [6]融合镜面反射特征、模糊度特征、色矩特征和色彩多样性特征4类图像质量评估统计特征,并通过集成多个分类器设计了一个有效的人脸活体检测算法. 基于传统图像纹理特征的方式依据的原理是,非活体人脸图像与活体人脸图像由于二次采集在图像纹理细节上存在差异,通过设计特定的图像纹理特征来区分活体和非活体. 研究人员利用局部二值模式(local binary pattern, LBP)[7-10]、方向梯度直方图(histogram of oriented gradient, HOG)[11]、加速鲁棒特征(speed up robust features, SURF)[12]、尺度不变特征变换(scale-invariant feature transform, SIFT)[13]等多种特征,在RGB、HSV和YCrCb不同色彩空间中提取图像纹理特征,并结合支持向量机(support vector machine, SVM)和线性判别分析(linear discriminant analysis, LDA)设计出了多种不同的活体检测算法. 基于上述2类方式的活体检测算法通过统计或人工设计得到的图像特征较为单一,容易受到数据集拍摄设备、光照条件、背景环境等因素影响,在这些因素发生变化时算法性能会急剧下降,难以应用到复杂多变的实际场景中.

基于卷积神经网络的方式将人脸活体检测当作二分类任务,借助深度网络模型实现真假判别. 研究人员采取CaffeNet、VGG、残差网络(residual neural network, ResNet)、循环神经网络(recurrent neural network, RNN)、长短期记忆网络(long short-term memory, LSTM)等网络结构提取图像抽象纹理特征[14-19]. 基于二分类损失函数对网络模型进行监督学习,在数据集内部测试中能取得更优的分类性能,但是在跨数据集测试中模型性能下降,泛化能力仍然存在大的提升空间. 为了促使网络模型学习到更多的分类细节特征,研究人员又引入人脸深度监督信息[16, 20-23],通过算法模拟得到的人脸深度图作为辅助监督信息训练网络,使得模型泛化能力得到提升;也有研究人员采取rPPG辅助信息[17],或者通过多模态特征融合的方式提升算法的鲁棒性[18, 24-26].

2. 基于多分类的人脸活体检测算法

2.1. 多分类的动机

非活体人脸样本是由活体人脸样本通过不同欺诈方式二次采集获取的,不同的欺诈方式会呈现出不同的信息损失和样本特征. 打印攻击由于打印质量容易产生色彩偏差、人脸细节特征弥散;展示攻击由于电子设备屏幕影响容易产生摩尔纹和大片反光现象. 如图1所示为OULU-NPU[27]数据集中的不同类型人脸图像. 可以看出,活体人脸图像色彩均衡、细节清晰,打印攻击图像呈现暗黄色彩偏差,展示攻击呈现白光和摩尔纹噪声.

图 1

图 1   OULU-NPU数据集中3种类别样本

Fig.1   Three types of samples from OULU-NPU dataset


以往简单地将所有非活体人脸样本归为非活体这一类,由于不同攻击类别特征差异的存在,模型难以准确寻找和抽象出所有非活体人脸样本共同的欺诈特征;在训练中为了能够将活体与非活体样本区分开,模型很可能将数据集自身特殊环境因素引入到分类特征中,导致模型在跨数据集交叉测试时误判率增加. 通过将不同类型非活体攻击样本按照各自的欺诈特征进行划分,模型可以更好地学习到不同类别样本各自内在的共性特征,降低数据集中环境因素的影响,从而提升模型的泛化能力. 同时,由于非活体人脸样本是由活体人脸样本通过多种手段二次采集获取的(每一个正样本对应了多个负样本),导致目前几个主要的训练数据集中非活体样本数目远多于活体样本数目,这种类别不均衡也是导致分类任务性能下降的原因之一. 在将非活体样本类别细分之后,数据集中所有类别的样本数目更加均衡,有利于模型朝向更为精确的方向进行参数调整.

根据目前主流数据集中样本的分布情况(3D攻击样本较少),将非活体人脸样本按照图像特征差异细分成打印攻击样本和展示攻击样本2类,人脸活体检测任务从二分类任务转换成多分类任务. 研究涉及CASIA-FASD[3]、Replay-Attack[9]、MSU-MFSD[6]和OULU-NPU这4个公开数据集,其类别数目分布如图23所示. 图中,r为样本数目比率,OULU-p1~OULU-p4为将OULU-NPU中样本按照采集环境不同划分出的4种不同测试协议子数据集. 可以看出,相比二分类,多分类任务中各个类别样本的数目变得更加均衡.

图 2

图 2   二分类下样本数目比率

Fig.2   Sample ratio based on binary classification


图 3

图 3   多分类下样本数目比率

Fig.3   Sample ratio based on multi classification


2.2. 网络结构

2.2.1. 基准网络

在基于卷积神经网络的人脸活体检测算法中,利用ResNet系列网络进行模型构建的方案被广泛采纳,在图像分类任务中也被证明其提取图像特征的有效性. 由于当前活体检测数据集数据量相对较小,选择层数较浅的ResNet-18网络结构. 另外,参考活体检测算法中经常出现的网络结构形式设计卷积神经网络模型BaseNet,其结构如图4(a)所示,人脸图像首先经过一个卷积模块转换成64维通道的特征图,然后经过3个类似的卷积模块,依次计算图像的低、中、高3种层次的特征,最后经过一个卷积模块和全局平均池化层得到512维的特征向量. 其中,中间3层子模块的结构如图4(b)所示.

图 4

图 4   BaseNet网络模型

Fig.4   BaseNet network model


为了验证采取多分类能够让模型学习到更为准确的非活体样本共性特征,提升模型的泛化能力,在ResNet-18和BaseNet这2种网络模型上进行基于二分类和基于多分类的活体检测算法性能对比.

2.2.2. 双流特征融合网络

通过不同色彩空间的图像能够提取不同纹理偏向的图像特征,借鉴Chen等[18]的思想,基于BaseNet网络设计了一个双流融合(Baselvet-Fusion)网络模型,分别提取RGB和YCrCb色彩空间的图像特征,并进行自适应的特征融合构成最终的分类特征向量. 网络模型如图4所示.

特征加权融合表达式如下:

$ {\boldsymbol{f}}=\sum _{i}{\omega }_{i} {{\boldsymbol{f}}}_{i}. $

式中: $ {{\boldsymbol{f}}}_{i} $表示第 $ i $个特征向量; $ {\omega }_{i} $表示特征的权重,通常采取固定的0~1.0的数值. 不同图像具有不同偏向的特征,如果权重能够自适应地进行调整,可以得到更为合理的融合特征.

采取注意力机制的思想,通过如图5所示的自适应权重学习模块进行特征融合,自适应权重表达式如下:

$ \left. {\begin{array}{*{20}{c}} {\omega _i} = {\rm{softmax}}\;\left( {{s_i}} \right) = {{\rm{exp}}\;({{s_i}}})\left/{\displaystyle \sum\nolimits_j {{{\rm{exp}}\;({{s_j}})}} ,}\right.\\ {{s_i} = {\bf{key}} \cdot {{\boldsymbol{f}}_i}.} \end{array}} \right\} $

式中:key为可学习参数向量,通过模型训练得到; $ {s}_{i} $为特征 $ {\boldsymbol{f}}_i $的得分,值越大表明特征重要性越大.

图 5

图 5   双流特征融合网络

Fig.5   Two-stream feature fusion network


2.3. 损失函数

在分类任务中,交叉熵(cross entropy)损失函数是最常用的损失函数之一. 人脸活体检测作为分类任务,常常采用交叉熵损失作为模型训练的优化指标. 多分类交叉熵函数的表达式如下:

$ {L_{{\rm{CE}}}} = - \sum\limits_{i = 1}^N q \left( {{x_i}} \right){\rm{lo}}{{\rm{g}}_2} \;\left( {p\left( {{x_i}} \right)} \right). $

式中: $ {x}_{i} $表示样本为第 $ i $个类别, $ N $为类别总数, $ q $为样本的真实概率分布, $ p $为样本预测的概率分布.

在二分类任务中,假设正样本标签记为1,负样本的标签记为0,那么二分类交叉损失函数可以表示为

$ \begin{split} {L_{{\rm{BCE}}}} =\;& - y{\rm{lo}}{{\rm{g}}_2}\;P - (1 - y){\rm{lo}}{{\rm{g}}_2}\;(1 - P) = \\ \;&\left\{ {\begin{array}{*{20}{l}} { - {\rm{log}_2}\;P},&{y = 1;}\\ { - {\rm{log}_2}\;(1 - P)},&{y = 0.} \end{array}} \right. \end{split} $

式中: $ y $为样本的真实标签, $ P $为样本预测为正例的概率.

图4可以看出,采取二分类划分人脸数据集会导致活体与非活体样本数目比率失衡. 为了探讨类别不均衡问题对人脸活体检测任务的影响,分别采用FocalLoss和交叉熵作为损失函数[28]训练网络模型,通过对测试集的检测,进行结果的对比. Focal Loss是针对正负样本不均衡问题而进行的二分类损失函数,表达式如下:

$ {\rm{F}}{{\rm{L}}_{{\rm{BCE}}}} = \left\{ {\begin{array}{*{20}{l}} { - \alpha {{(1 - P)}^\gamma }{{\log }_2}\;P},\\ { - (1 - \alpha ){P^\gamma }{\rm{lo}}{{\rm{g}}_2}\;(1 - P)}, \end{array}} \right.\begin{array}{*{20}{c}} {y = 1;}\\ {y = 0.} \end{array} $

式中:参数 $ \alpha $用于平衡正负样本的损失贡献程度,参数 $\gamma$用于调节对简单样本和困难样本的重视程度. 困难样本是指处于正负样本分解边界附近难以判别的样本,增大其贡献的损失值,能够让模型得到更有效的网络参数学习.

3. 实验设计与分析

3.1. 数据集

针对打印攻击和展示攻击2类常见的非活体人脸攻击方式,将所提出算法模型在4个公开数据集上进行研究分析,包括CASIA-FASD、Replay-Attack、MSU-MFSD和OULU-NPU数据集. 不同的活体检测数据集具有不同的拍摄背景、光照条件、拍摄设备等采集环境,在欺诈方式的表现形式上也存在一定的区别. 前3个数据集的数据量较小,CASIA-FASD由600个视频样本构成,Replay-Attack由1200个视频样本构成,MSU-MFSD由280个视频样本构成;OULU-NPU数据集的数据量较大,由4950个视频样本构成,模拟的人脸图像采集环境更加具有多样性.

3.2. 评价指标

CASIA-FASD和MSU-MFSD数据集被划分成训练集和测试集,采用等错误率(equal error rate, EER)进行性能评估,Replay-Attack数据集包含训练集、验证集和测试集,采用验证集上的EER和测试集上的半错误率(half total error rate, HTER)进行性能评估. 在CASIA-FASD和Replay-Attack之间进行跨数据集测试时,通常采取HTER衡量泛化性能. 在OULU-NPU数据集上测试时,采用表示攻击分类错误率(attack presentation classification error rate, APCER)、真实人脸表示分类错误率(bona presentation classification error rate, BPCER)和平均分类错误率(average classification error rate, ACER). 上述指标数值越低,说明算法模型性能越好.

3.3. 实验设置

实验环境为Ubuntu18.04操作系统,CPU Intel Xeon E5-2620V4(8核),2.1 GHz,GPU 2×2080 Ti,内存为64 GB,代码实现统一采取PyTorch深度学习框架.

研究基于单张图片的人脸活体检测算法,而数据集中每个样本为时长约为10 s的视频,每帧图片中人脸的位置及状态仅存在细微变化,须对数据进行预处理. 首先,将视频流分割成多个单帧图片,利用Dlib库的人脸检测算法过滤掉不存在人脸的无效图片并记录人脸位置信息;然后,在每一轮训练中从有效视频流中随机挑选一张有效图片,对图片施加小范围内的色彩数值扰动,依据人脸区域随机扩大或缩小范围进行裁剪,缩放至114×114像素的固定大小,并随机擦除一块10×10像素到25×25像素大小的区域. 通过上述一系列图像数据增强操作,降低模型过拟合的风险.

在模型训练时,batch设置为32,学习率采取余弦退火衰减策略,最大值为10−4,最小值为5×10−5,梯度优化采取Adam策略;Focal Loss损失中 $ \alpha =0.6,\gamma =1.5 $. 在基于ResNet-18网络模型训练时,采取TorchVision库中预训练模型对参数初始化,总共训练100个轮次;基于BaseNet和本研究提出的BaseNet-Fusion网络模型时,参数采取均值为0、方差与参数量成反比的正态分布进行初始化,模型一共训练200个轮次,学习率最大值设置为1×10−3.

3.4. 实验结果分析

3.4.1. 数据集内部测试

分别在CASIA-FASD、Replay-Attack、MSU-MFSD和OULU-NPU数据集上进行数据集内部的训练和测试,实验结果如表1~3所示. 1)当采取ResNet-18网络模型时,与采用基于二分类的方式相比,采用基于多分类的方法,所有数据集上的多种错误率指标均明显下降. 2)当采取BaseNet网络模型时,与基于二分类的方法相比,采用基于多分类的方法,CASIA-FASD数据集上的EER略有下降,MSU-MFSD数据集上的EER没有改善,Replay-Attack数据集上的HTER指标以及OULU-NPU数据集上的APCER和APER指标均明显下降. 3)在基于二分类的方法中,结合Focal Loss损失函数,对模型性能的影响不稳定,Replay-Attack数据集上的错误率略有升高. 每类非活体样本人脸信息变形与丢失特征有显著的共性,但在类别共性之间存在差异,不同类别的活体样本之间缺少显著的共性特征,提升对活体样本的关注并不一定能够提升性能. 而采取多分类的方案细化了非活体攻击类型,提升了对打印攻击和展示攻击各自的共性特征学习,让模型更容易判断人脸识别过程中是否存在非活体欺诈.

表 1   CASIA-FASD和MSU-MFSD数据集内部测试

Tab.1  Result of intra-testing on CASIA-FASD and MSU-MFSD dataset

网络结构 方法 EER/%
CASIA-FASD MSU-MFSD
ResNet18 二分类 2.7778 10.0000
ResNet18 +FL 4.0741 6.6667
ResNet18 多分类 1.4815 7.5000
BaseNet 二分类 6.6667 5.8333
BaseNet +FL 3.7037 2.5000
BaseNet 多分类 5.5556 2.5000

新窗口打开| 下载CSV


表 2   OULU-NPU数据集内部测试

Tab.2  Result of intra-testing of OULU-NPU dataset

网络结构 方法 APCER/% BPCER/% ACER/%
ResNet18 二分类 12.7778 6.6667 9.7222
ResNet18 +FL 10.5556 3.0556 6.8056
ResNet18 多分类 7.5000 4.1667 5.8333
BaseNet 二分类 11.6667 2.5000 7.0833
BaseNet +FL 5.8333 5.0000 5.4167
BaseNet 多分类 5.6944 5.0000 5.3472

新窗口打开| 下载CSV


表 3   Replay-Attack数据集内部测试

Tab.3  Result of intra-testing of Replay-Attack dataset

网络结构 方法 EER/% HTER/%
ResNet18 二分类 0.0000 2.0000
ResNet18 +FL 0.0000 2.7875
ResNet18 多分类 0.0000 0.7500
BaseNet 二分类 0.0000 1.0000
BaseNet +FL 6.0000 2.8750
BaseNet 多分类 0.0000 0.3750

新窗口打开| 下载CSV


表4所示为本研究所提出的方法与其他优秀活体检测方法在CASIA-FASD和Replay-Attack数据集上的性能对比. 在CASIA-FASD数据集上,本研究的方法的EER错误率最低;在Replay-Attack数据上,相比于其他方法,本研究的方法与MSR-Attention方法性能接近,但是若采用MSR-Attention方法,须对输入图像进行MSR转换,该过程耗时较长. 如表5所示为本研究所提出的方法与其他优秀活体检测方法在OULU-NPU数据集上的性能对比。在OULU-NPU数据集上,本研究方法的APCER错误率和ACER错误率最低,BPCER错误率略高。相比于其他方法,本研究方法在OULU-NPU数据上也与MSR-Attention方法性能接近。

表 4   不同方法在CASIA-FASD和Replay-Attack数据集上的性能对比

Tab.4  Performance comparison of different methods on CASIA-FASD and Replay-Attack dataset

方法 Replay-Attack CASIA-FASD
EER/% HTER/% EER/%
LBP-TOP[29] 7.900 7.600 10.000
CNN[14] 6.100 2.100 7.400
IDA[6] 7.400
Motion+LBP[30] 4.500 5.110
Color-LBP[10] 0.400 2.900 6.200
MSR-Attention[18] 0.210 0.389 3.145
BaseNet-Fusion 1.000 0.500 2.961

新窗口打开| 下载CSV


表 5   不同方法在OULU-NPU数据集上的性能对比

Tab.5  Performance comparison of different methods on OULU-NPU dataset

方法 APCER/% BPCER/% ACER/%
MixedFASNet[1] 9.7000 2.5000 6.1000
DeepPixBiS[31] 11.4000 0.6000 6.0000
MSR-Attention[18] 7.6000 2.2000 4.9000
BaseNet-Fusion 6.6667 2.5000 4.5833

新窗口打开| 下载CSV


3.4.2. 跨数据集测试

为了进一步验证采取多分类对模型泛化能力的提升,在数据集之间进行交叉验证,一是在CASIA-FASD上训练模型,在Replay-Attack数据集上进行测试;二是在Replay-Attack数据集上训练,在CASIA-FASD数据集上进行测试. 采取EER作为泛化性能的评价指标,实验结果如表6所示. 可以看出,与采用基于二分类的方法相比,采用基于多分类的方法,ResNet-18和BaseNet网络模型中均有不同程度的错误率下降.

表 6   二分类和多分类方法在CASIA-FASD和Replay-Attack数据集上的交叉测试

Tab.6  Cross-testing between CASIA-FASD and Replay-Attack dataset by binary classification and multiple classification

网络结构 方法 EER/%
训练: CASIA
测试: Replay
训练: Replay
测试: CASIA
ResNet-18 二分类 40.8750 48.3333
ResNet-18 多分类 36.7500 47.5926
BaseNet 二分类 47.8750 56.6670
BaseNet 多分类 33.2500 45.3704

新窗口打开| 下载CSV


表7所示为本研究方法与其他优秀活体检测方法在数据集交叉验证时的性能对比. 在CASIA-FASD数据集上训练并在Replay-Attack数据集上测试,本研究算法的EER错误率最低;在Replay-Attack数据集上训练并在CASIA-FASD数据集上测试,本研究方法的错误率略高于Color-Texture和MSR-Attention方法.

表 7   不同方法在Replay-Attack和CASIA-FASD数据集下的交叉测试

Tab.7  Cross-testing of different methods under Replay-Attack and CASIA-FASD dataset

方法 EER/%
训练: CASIA
测试: Replay
训练: Replay
测试: CASIA
LBP-TOP[29] 49.700 60.6000
CNN[14] 48.500 39.6000
Color-LBP[10] 47.000 39.6000
Color-Texture[32] 30.300 37.7000
FaceDs[33] 28.500 41.1000
MSR-Attention[18] 36.200 34.7000
BaseNet-Fusion 27.875 38.5185

新窗口打开| 下载CSV


图67所示为对BaseNet网络模型提取到的分类特征向量采取主成分分析(principal component analysis,PCA)特征降维后的样本分布,图6为基于二分类方法的样本分布,图7为基于多分类方法的样本分布. 可以看出,打印攻击和展示攻击具有各自的共性欺诈特征,通过多分类能够较好地将这2类样本区分开,使得人脸检测算法能够更好地识别出非活体攻击,从而提升模型的鲁棒性.

图 6

图 6   二分类下CASIA-FASD测试集数据的特征分布

Fig.6   Feature distribution on test set of CASIA-FASD based on binary classification


图 7

图 7   多分类下CASIA-FASD测试集数据的特征分布

Fig.7   Feature distribution on test set of CASIA-FASD based on multi classification


4. 结 语

提出静默活体检测算法,通过将任务从二分类转换成多分类,使得模型在训练过程中更容易学习到不同类别各自的共性特征,并间接地降低了类别不平衡问题给训练带来的不利影响;同时,构建了一个双流特征融合网络,自适应融合从RGB和YCrCb色彩空间中提取的图像特征,进一步提升模型的特征表示能力. 大量的对比实验结果验证了本研究方法的有效性.

由于纸张、电子设备屏幕与真实人脸的构造不同,摄像头采集得到的人脸图像在亮度、光照信息上存在差异,下一步研究考虑从RGB图像中高效地分离出亮度、反射光特征,以进一步提升模型性能.

参考文献

RAMACHANDRA R, BUSCH C

Presentation attack detection methods for face recognition systems: a comprehensive survey

[J]. ACM Computing Surveys (CSUR), 2017, 50 (1): 1- 37

DOI:10.1145/3009967      [本文引用: 4]

卢子谦, 陆哲明, 沈冯立, 等

人脸反欺诈活体检测综述

[J]. 信息安全学报, 2020, 5 (2): 18- 27

[本文引用: 1]

LU Zi-qian, LU Zhe-ming, SHEN Feng-li, et al

A survey of face anti-spoofing

[J]. Journal of Cyber Security, 2020, 5 (2): 18- 27

[本文引用: 1]

ZHANG Z W, YAN J J, LIU S F, et al. A face antispoofing database with diverse attacks[C]// 2012 5th IAPR International Conference on Biometrics (ICB). Phuket: IEEE, 2012: 26-31.

[本文引用: 2]

BOULKENAFET Z, AKHTAR Z, FENG X Y, et al

Face anti-spoofing in biometric systems

[J]. Biometric Security and Privacy, 2017, 299- 321

[本文引用: 2]

GALBALLY J, MARCEL S. Face anti-spoofing based on general image quality assessment[C]// 2014 22nd International Conference on Pattern Recognition (ICPR). Columbia: IEEE, 2014: 1173-1178.

[本文引用: 1]

DI W, HU H, JAIN A K

Face spoof detection with image distortion analysis

[J]. IEEE Transactions on Information Forensics and Security, 2015, 10 (4): 746- 761

DOI:10.1109/TIFS.2015.2400395      [本文引用: 3]

MAATTA J

Face spoofing detection from single images using texture and local shape analysis

[J]. IET Biometrics, 2012, 1 (1): 3- 10

DOI:10.1049/iet-bmt.2011.0009      [本文引用: 1]

RAGHAVENDRA R, RAJA K B, BUSCH C

Presentation attack detection for face recognition using light field camera

[J]. IEEE Transactions on Image Processing, 2015, 24 (3): 1060- 1075

DOI:10.1109/TIP.2015.2395951     

CHINGOVSKA I, ANJOS A, MARCEL S. On the effectiveness of local binary patterns in face anti-spoofing[C]// Proceedings of International Conference of Biometrics Special Interest Group (BIOSIG). Darmstadt: IEEE, 2012: 1-7.

[本文引用: 1]

BOULKENAFET Z, KOMULAINEN J, HADID A. Face anti-spoofing based on color texture analysis[C]// 2015 IEEE International Conference on Image Processing (ICIP). Quebec City: IEEE, 2015: 2636-2640.

[本文引用: 3]

GRAGNANIELLO D, POGGI G, SANSONE C, et al

An investigation of local descriptors for biometric spoofing detection

[J]. IEEE Transactions on Information Forensics and Security, 2015, 10 (4): 849- 863

DOI:10.1109/TIFS.2015.2404294      [本文引用: 1]

BOULKENAFET Z, KOMULAINEN J, HADID A

Face antispoofing using speeded-up robust features and fisher vector encoding

[J]. IEEE Signal Processing Letters, 2016, 24 (2): 141- 145

[本文引用: 1]

PATEL K, HAN H, JAIN A K

Secure face unlock: spoof detection on smartphones

[J]. IEEE Transactions on Information Forensics and Security, 2016, 11 (10): 2268- 2283

DOI:10.1109/TIFS.2016.2578288      [本文引用: 1]

YANG J, LEI Z, LI S Z

Learn convolutional neural network for face anti-spoofing

[J]. Computer Sicence, 2014, 9281: 373- 384

[本文引用: 3]

LI L, FENG X Y, BOULKENAFET Z, et al. An original face anti-spoofing approach using partial convolutional neural network[C]// 2016 6th International Conference on Image Processing Theory, Tools and Applications (IPTA). Oulu: IEEE, 2016.

ATOUM Y, LIU Y J, JOURABLOO A, et al. Face anti-spoofing using patch and depth-based CNNs[C]// 2017 IEEE International Joint Conference on Biometrics (IJCB). Denver: IEEE, 2017: 319-328.

[本文引用: 1]

LIU Y J, JOURABLOO A, LIU X M. Learning deep models for face anti-spoofing: binary or auxiliary supervision[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 389-398.

[本文引用: 1]

CHEN H, HU G, LEI Z, et al

Attention-based two-stream convolutional networks for face spoofing detection

[J]. IEEE Transactions on Information Forensics and Security, 2019, 15: 578- 593

[本文引用: 5]

龙敏, 佟越洋

应用卷积神经网络的人脸活体检测算法研究

[J]. 计算机科学与探索, 2018, 12 (10): 1658- 1670

DOI:10.3778/j.issn.1673-9418.1801009      [本文引用: 1]

LONG Ming, TONG Yue-yang

Research on face liveness detection algorithm using convolutional neural network

[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12 (10): 1658- 1670

DOI:10.3778/j.issn.1673-9418.1801009      [本文引用: 1]

SHAO R, LAN X, LI J, et al. Multi-adversarial discriminative deep domain generalization for face presentation attack detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 10023-10031.

[本文引用: 1]

WANG Z, ZHAO C, QIN Y, et al. Exploiting temporal and depth information for multi-frame face anti-spoofing[EB/OL]. [2021-07-01]. https://arxiv.org/abs/1811.05118v3.

WANG Z Z, YU Z T, ZHAO C X, et al. Deep spatial gradient and temporal depth learning for face anti-spoofing[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 5042-5051.

YU Z T, ZHAO C X, WANG Z Z, et al. Searching central difference convolutional networks for face anti-spoofing[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 5295-5305.

[本文引用: 1]

SHEN T, HUANG Y Y, TONG Z J. Facebagnet: bag-of-local-features model for multi-modal face anti-spoofing[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach: IEEE, 2019: 1611-1616.

[本文引用: 1]

ZHANG S, LIU A, WAN J, et al

Casia-surf: a large-scale multi-modal benchmark for face anti-spoofing

[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2020, 2 (2): 182- 193

DOI:10.1109/TBIOM.2020.2973001     

皮家甜, 杨杰之, 杨琳希, 等

基于多模态特征融合的轻量级人脸活体检测方法

[J]. 计算机应用, 2020, 40 (12): 3658- 3665

[本文引用: 1]

PI Jia-tian, YANG Jie-zhi, YANG Lin-xi, at el

Lightweight face liveness detection method based on multi-modal feature fusion

[J]. Journal of Computer Applications, 2020, 40 (12): 3658- 3665

[本文引用: 1]

BOULKENAFET Z, KOMULAINEN J, LI L, et al. Oulu-npu: a mobile face presentation attack database with real-world variations[C]// 2017 12th IEEE International Conference on Automatic Face and Gesture Recognition. Washington: IEEE, 2017: 612-618.

[本文引用: 1]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2980-2988.

[本文引用: 1]

PEREIRA T D, ANJOS A, DE MARTINO J M, et al. Can face anti-spoofing countermeasures work in a real world scenario?[C]// 2013 International Conference on Biometrics (ICB). Madrid: IEEE, 2013: 1-8.

[本文引用: 2]

KOMULAINEN J, HADID A, PIETIKAINEN M, et al. Complementary countermeasures for detecting scenic face spoofing attacks[C]// 2013 International Conference on Biometrics (ICB). Madrid: IEEE, 2013: 1-7.

[本文引用: 1]

GEORGE A, MARCEL S. Deep pixel-wise binary supervision for face presentation attack detection[C]// 2019 International Conference on Biometrics (ICB). Crete: IEEE, 2019: 1-8.

[本文引用: 1]

BOULKENAFET Z, KOMULAINEN J, HADID A

Face spoofing detection using colour texture analysis

[J]. IEEE Transactions on Information Forensics and Security, 2016, 11 (8): 1818- 1830

DOI:10.1109/TIFS.2016.2555286      [本文引用: 1]

JOURABLOO A, LIU Y J, LIU X M. Face de-spoofing: anti-spoofing via noise modeling[C]// Proceedings of the Eurpoean Conference of Computer Vision (ECCV). Munich: [s.n.], 2018: 290-306.

[本文引用: 1]

/