浙江大学学报(工学版), 2020, 54(11): 2128-2137 doi: 10.3785/j.issn.1008-973X.2020.11.008

计算机与控制工程

基于过渡帧概念训练的微表情检测深度网络

付晓峰,, 牛力, 胡卓群, 李建军, 吴卿

Deep micro-expression spotting network training based on concept of transition frame

FU Xiao-feng,, NIU Li, HU Zhuo-qun, LI Jian-jun, WU Qing

收稿日期: 2019-10-19  

Received: 2019-10-19  

作者简介 About authors

付晓峰(1981—),女,副教授,博士,从事计算机视觉、模式识别、人工智能等研究.orcid.org/0000-0003-4903-5266.E-mail:fuxiaofeng@hdu.edu.cn , E-mail:fuxiaofeng@hdu.edu.cn

摘要

为了更准确地从视频中检测面部微表情,针对微表情数据库样本规模较小的特点,采用迁移学习方法将深度卷积神经网络应用于微表情检测问题. 选取预训练过的深度卷积神经网络模型,保留卷积层及预训练参数,添加全连接层和分类器,构造一个二分类的微表情检测深度网络(MesNet). 为了去除微表情数据库中影响网络训练的噪声标签,提出过渡帧的概念和自适应识别过渡帧算法. MesNet在CASME II、SMIC-E-HS与 CAS(ME)2数据库上的曲线下面积(AUC)分别达到0.955 6、0.933 8与0.785 3,其中在CASME II短视频数据库和 CAS(ME)2长视频数据库上均取得最优结果,表明MesNet具有高精度和广适用范围的特点;过渡帧对比实验结果表明,构造训练集时从原始视频中去除过渡帧能够有效提高MesNet微表情检测性能.

关键词: 微表情检测 ; 迁移学习 ; 深度卷积神经网络 ; 二分类 ; 过渡帧

Abstract

A deep convolutional neural network was applied in view of the small sample size of micro-expression databases, in order to spot facial micro-expressions more accurately from videos through transfer learning. A pre-trained deep convolutional neural network model was selected, and the convolutional layers and the pre-trained parameters were reserved. The full connected layer and the classifier were added after these layers to construct a deep binary classification micro-expression spotting network (MesNet). The concept of transition frame and an adaptive recognition algorithm of transition frames were proposed to remove the noisy labels from micro-expression databases that disturbed the network training. Experimental results show that the AUC values of MesNet on CASME II, SMIC-E-HS and CAS(ME)2 reach 0.955 6, 0.933 8 and 0.785 3, respectively. Among three databases, MesNet achieves state-of-the-art results both on CASME II which is a short video database and CAS(ME)2 which is a long video database. It shows that the proposed MesNet has the characteristics of high accuracy and wide application range. Comparison experiment results of the transition frame show that removing the transition frames from original videos when constructing the training set can effectively improve the micro-expression spotting performance of MesNet.

Keywords: micro-expression spotting ; transfer learning ; deep convolutional neural network ; binary classification ; transition frame

PDF (1231KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

付晓峰, 牛力, 胡卓群, 李建军, 吴卿. 基于过渡帧概念训练的微表情检测深度网络. 浙江大学学报(工学版)[J], 2020, 54(11): 2128-2137 doi:10.3785/j.issn.1008-973X.2020.11.008

FU Xiao-feng, NIU Li, HU Zhuo-qun, LI Jian-jun, WU Qing. Deep micro-expression spotting network training based on concept of transition frame. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(11): 2128-2137 doi:10.3785/j.issn.1008-973X.2020.11.008

与持续时间为0.5~4.0 s的传统面部表情不同,持续时间为1/25~1/5 s[1-3]的面部微表情是一种瞬时、无意识的反应,揭示人的真实情感[4-5]. 由于微表情在情感监测、谎言检测[6-7]、临床诊断[8]、商业谈判[9]等各个领域的潜在应用,在过去的10多年中,微表情识别已经引起研究人员越来越多的关注. 微表情具有诱导困难、数据难以采集、样本规模较小、人眼难以识别等特殊性. 最初的微表情识别主要由心理学家等专业人士人工进行,近年来计算机硬件的进步,使得利用计算机视觉算法和机器学习方法自动识别微表情成为可能.

微表情识别包含微表情检测和微表情种类判别2个步骤. 微表情检测是微表情种类判别的前提,一段包含微表情的视频,需要先检测其微表情分布,才能判断微表情属于哪种类别. 微表情种类判别性能已经达到较高水平[10-11],而微表情检测性能相对较低,尚有较大提升空间. 因为微表情的持续时间极短,在一段视频中只持续较少的帧,所以从视频中检测微表情极其困难.

近年来,Liong等[12]提出一种利用面部光学应变特征检测微表情的方法. Li等[13]提出一个含有4层卷积层的神经网络,并结合定向光流直方图(directional optical flow histogram,HOOF)特征检测微表情. Diana等[14]提出一种微表情分析系统,包括高速图像采集装置和软件系统,通过计算帧差异(frame differences)特征检测微表情. Zhang等[15]提出一种特征矩阵处理方法,与卷积神经网络相结合,从长视频中检测微表情峰值帧. 已有微表情检测算法普遍存在的问题是微表情检测精度较低或者适用范围偏小. 常用于微表情检测的数据库有CASME II[16]、SMIC-E-HS[17]和 CAS(ME)2[18],尚没有一种微表情检测算法同时在3个数据库上得到验证的相关报道.

深度卷积神经网络适合于图像分类任务[19-22],但是往往会遇到数据规模不足而难以训练的难题. 以ResNet为例,ImageNet数据库[23]含有超过1 000万张标注图片,所以才能将152层的ResNet模型训练到94.9%的准确率. 对比之下,CASME II、SMIC-E-HS和 CAS(ME)2数据库中可用作训练集的微表情帧数量分别仅有12 000、4 500、5 500帧左右,而且同一段视频的不同帧之间图像相似度过高,样本多样性严重不足. 因此,在微表情数据库上难以直接训练ResNet等几十至上百层的深度网络模型.

为了提高微表情检测性能,本研究通过迁移学习(transfer learning)[24]将深度卷积神经网络应用于微表情检测问题. 迁移学习是指调整某个问题上训练好的模型,使其适用于相近领域的新问题. 同时,针对监督学习中噪声标签的概念,本研究提出微表情过渡帧的概念和自适应识别过渡帧算法. 另外,由于微表情数据库中的视频直接放入神经网络训练效果不佳,本研究提出一种对微表情视频进行数据预处理的方法,并证明该方法的有效性.

1. 方 法

1.1. 迁移学习与微表情检测

实验采用CASME II、SMIC-E-HS和CAS(ME)2数据库,构建微表情检测深度网络(micro-expression spotting network,MesNet). 以CASME II数据库中编号为20_EP15_03f的一段视频为例描述MesNet训练流程. 如图1所示,步骤1)是对原始视频进行数据预处理;步骤2)是使用自适应识别过渡帧算法去除过渡帧; 步骤3)是将去除了过渡帧之后的2类样本输入MesNet网络进行训练, MesNet第一部分为在ImageNet数据库上预训练好的CNN模型;步骤4)是在预训练模型之后连接一定数量的全连接层; 步骤5)是在网络最后一层添加Logistic分类器.

图 1

图 1   MesNet训练流程图

Fig.1   Training flow chart of MesNet


I表示输入MesNet网络的微表情帧和中性帧样本,则

${{\lambda}} {\rm{ = }}\phi \left( {{I}} \right).$

式中: $\phi \left( {{I}} \right)$为使用预训练模型从图像中提取特征, ${{\lambda}} $为图像形状和纹理特征. 为了进一步提取微表情特征,有

${{F}} = f({{\lambda}} ,N).$

式中:F为全连接层;以 ${{\lambda}} $为输入, $f({{\lambda}} ,N)$为连接一层包含有N个神经元的全连接层. 构建输出层,因为MesNet为二分类网络,所以输出层只包含1个神经元:

${\rm{Output}} = f({{F}},1).$

式中:Output为全连接层,也为输出层. 以全连接层F为输入, $f({{F}},1)$为连接一层包含有1个神经元的全连接层.

MesNet网络使用logistic分类器,损失函数为

$L = - \frac{{\rm{1}}}{m}\sum\limits_{i{\rm{ = 1}}}^m {\left[ {{y^{(i)}}\ln {y_0}^{(i)} + (1 - {y^{(i)}})\ln \left( {1 - {y_0}^{(i)}} \right)} \right]} .$

式中:m为参与一次迭代的样本数,y(i)为第i个训练样本的真实标签值,标签为1代表正样本微表情帧,0代表负样本中性帧. ${y_0}^{(i)}$为MesNet预测第i个样本为正样本的概率. ${y_0}^{(i)}$计算公式为

${y_0}^{(i)} = \frac{1}{{1 + {{\rm{exp\;(-Output)}}}}}.$

MesNet网络优化采用学习率自适应的Adam算法. 算法1给出了MesNet网络优化具体步骤.

算法1 MesNet网络优化算法

1)初始化参数值:学习率α = 0.001;一阶矩估计的指数衰减速率ρ1 = 0.9,二阶矩估计的指数衰减速率ρ2 = 0.999;用于数值稳定的小常数δ= 10–8;一阶矩变量s = 0,二阶矩变量r = 0;迭代次数t = 0;使用Xavier方法[25]初始化模型参数θ.

2)从训练集中取出一个包含m个样本的批次{x(1),…,x(m)},x(i)对应的标签为y(i).

3)计算梯度:

${{g}} = \frac{1}{m}{\nabla _{{\theta}} }\sum\limits_{i{\rm{ = 1}}}^m {L(k({{{x}}^{(i)}};} {{\theta}} ),{y^{(i)}}).$

式中:k(x(i)θ)表示当网络模型参数为θ时,输入样本x(i)得到的输出.

4)更新迭代次数:

$t = t + 1.$

5)更新有偏一阶矩估计和有偏二阶矩估计:

${{s}} = {\rho _{_1}}{{s}} + (1 - {\rho _1}){{g}},$

${{r}} = {\rho _{_2}}{{r}} + (1 - {\rho _2}){{g}} \odot {{g}}.$

式中: $ \odot $为矩阵的逐元素乘积.

6)修正一阶矩偏差和二阶矩偏差:

${{\widehat s}} = \frac{{{s}}}{{1 - \rho _1^t}},$

${{\widehat r}} = \frac{{{r}}}{{1 - \rho _2^t}}.$

7)计算梯度更新:

$\Delta {{\theta}} = - \alpha \frac{{{{\widehat s}}}}{{\sqrt {{{\widehat r}}} + \delta }}.$

应用梯度更新:

${{\theta}} = {{\theta}} + \Delta {{\theta}} .$

8)如果没有到达停止准则,返回步骤2);否则终止训练. MesNet网络优化停止准则为当L在1000次循环内没有进一步改善时终止训练.

1.2. 过渡帧的概念

图2所示是图1所示视频按时序分解的示意图. 此段视频时长5 s,共1 024帧. 根据CASME II数据库说明文档,起始帧(onset frame)第86帧是微表情的开始帧,顶点帧(apex frame)第129帧是微表情的峰值帧,结束帧(offset frame)第181帧是微表情持续的最后一帧.

图 2

图 2   CASME II视频片段示例

Fig.2   Example of CASME II video clips


在监督学习中,训练数据所对应的标签质量对学习效果具有重要影响. 从微表情数据库制作过程可知,在200帧/s的高速拍摄条件下,无法以100%的准确率判断起始帧和结束帧附近的帧是微表情帧还是中性帧. 因此,第86帧和第181帧附近的帧可能带有噪声标签,如果把带有噪声标签的帧放入训练集,会干扰模型训练. 本研究将起始帧和结束帧附近带有噪声标签的帧定义为过渡帧,并对训练集做去除过渡帧的处理.

过渡帧靠近起始帧或结束帧,而且数量少, 为了去除过渡帧,做2个假设:1)过渡帧数量占训练集样本总数的10%;2)过渡帧以起始帧或结束帧为中心连续分布. 如图2所示,在上述2个假设成立的条件下,以第86帧、第129帧、第181帧为界,将整段视频分为4个片段,每个片段分为2个部分,图中对总共8个部分进行编号. 以U1表示第1部分样本的集合,以L1表示第1部分样本的数量,其余7部分依此类推. 在每段中去除邻近第86帧或者第181帧的10%的帧,使L1L2 = L4L3 = L5L6 = L8L7 = 9∶1,如图2所示视频总计去除U2U3U6U7阴影部分共105帧过渡帧.

1.3. 自适应识别过渡帧

实际上,1.2节2个假设成立是无法被证明的. 在不做任何假设的条件下,为了识别和去除过渡帧,本研究提出自适应识别过渡帧算法. 算法流程如图3所示,具体步骤见算法2.

图 3

图 3   自适应识别过渡帧算法

Fig.3   Adaptive algorithm of transition frames recognition


算法2 自适应识别过渡帧算法

1) 考虑到过渡帧比例不会超过训练集样本总数50%. 那么,如图2所示,初始化L1L2 = L3L4 = L5L6 = L7L8 = 1∶1. 以UT表示过渡帧样本集合,以UT0表示待去除过渡帧样本集合,则UT0 = U2U3U6U7

2) 如图3所示,U4U5作为微表情帧样本,U1U8作为中性帧样本,训练MesNet,得到模型C

3) 使用模型C预测UT0中的样本x(i),属于正样本微表情帧的概率为Pi,若Pi接近0,则样本为中性帧,若Pi接近1,则样本为微表情帧. 那么过渡帧判别公式为

${U_{\rm{T}}} = \left\{ {{{{x}}^i}|P_{{\rm{min}}} < {P_i} < P_{{\rm{max}}},{{{x}}^i} \in {U_{{\rm{T}}0}}} \right\}.$

式中:PminPmax∈(0,1),PminPmax具体取值将在下文讨论;

4) U2U3U6U7去除过渡帧之后的样本集合分别为U2-U3-U6-U7-. 则放入训练集的微表情帧样本集合为

${U_{{\rm{ME}}}} = {U_{3 - }} \cup {U_4} \cup {U_5} \cup {U_{6 - }},$

中性帧样本集合为

${U_{\rm{N}}} = {U_1} \cup {U_{2 - }} \cup {U_{7 - }} \cup {U_8}.$

UT0总共24 454个样本输入模型C进行预测,得到对应的24 454个概率值. 为了确定最优阈值PminPmax,作概率分布图如图4所示。图中,横坐标P为预测概率,纵坐标N为样本数量. 概率分布在[0,0.05]区间内的16 616个样本,模型C判断其为微表情帧的概率不高于0.05,即为中性帧的概率不低于0.95;概率分布在[0.95,1.00]的5 429个样本,模型C判断其为微表情帧的概率不低于0.95. 样本预测概率值越接近0.5,说明模型C越难以判断其类别,预测结果可信度越低,此类样本即为过渡帧. 结合概率分布情况,分布在[0,0.05]的样本数量远多于(0.05,0.10]的,而分布在(0.05,0.10]的样本数量没有远多于(0.10,0.15]的,可以确定Pmin取值为0.05,同理可确定Pmax取值为0.95. 采用自适应识别过渡帧算法从CASME II数据库训练集共48 670个样本中去除2 409个过渡帧样本,占训练集样本总数约4.950%. 对SMIC-E-HS与 CAS(ME)2数据库的处理与此类似.

图 4

图 4   待去除过渡帧样本概率分布图

Fig.4   Probability distribution of samples waiting to remove transition frames


1.4. 数据预处理

微表情是强度极其微弱的面部肌肉运动,因此在数据预处理阶段去除与微表情检测不相关的噪声显得尤为重要.如图5(a)所示为CASME II数据库中编号15_EP03_02的视频中某一帧图像,可见受试者头部有明显的角度倾斜,另外还有背景、头发、耳机等大量的干扰信息. 本研究对原始视频的预处理分为3个步骤:人脸检测、人脸对齐和微表情区域裁剪.利用Dlib正向人脸检测器,提取得到人脸矩形框,使用残差神经网络人脸特征点检测模型,检测得到矩形框内的68个人脸特征点,如图5所示.

图 5

图 5   人脸特征点检测

Fig.5   Facial landmarks detection


图6所示,设2个外眼角坐标编号分别为36和45,利用这2点的横纵坐标可计算得出人脸的偏斜角度. 设第36和45关键点坐标分别为(x1, y1)和(x2, y2),则

水平差量:

$d_x = x_2 - x_1,$

垂直差量:

$d_y = y_2 - y_1,$

人脸偏转角度:

${\rm{angle}} = {\rm{\arctan}}\; \left( {\frac{{d_y}}{{d_x}}} \right) \times \frac{{180}}{\text{π} }.$

图 6

图 6   人脸对齐坐标设置

Fig.6   Face alignment coordinates setting


利用angle计算仿射矩阵作仿射变换,可得人脸对齐后的图像。由图7(a)可见,人脸对齐之后的图像仍然包含较多噪声,例如眼镜框和图像四角的头发等干扰信息。如图8(b)所示,有的图像还会存在衣物领口和耳机线等干扰信息。相较微表情帧和中性帧之间微小的类间间距,这些噪声干扰造成的类内间距更为显著. 为了最大限度缩小类内间距,需要进一步裁剪图像.

图 7

图 7   微表情区域裁剪

Fig.7   Micro-expression region cropping


图 8

图 8   CASME II数据库图像预处理示例

Fig.8   Image preprocessing examples of CASME II


结合面部动作编码系统(facial action coding system,FACS)[26]对相关微表情的编码,基于最大限度保留CASME II几种微表情包含的动作单元和最大程度减少噪声干扰的原则,进一步裁剪图像. 反复测试确定最佳裁剪参数,最终结果如图7(b)所示. 如图8所示为CASME II数据库一些图像预处理示例,图8(a)为原图,图8(b)为Dlib人脸检测图,图8(c)为采用本研究预处理方法进行预处理得到的图.

比较图8(a)(c)可见,图像预处理有效去除了大部分影响微表情检测的噪声干扰. CASME II、SMIC-E-HS与 CAS(ME)2数据库中总共32万多帧图像全部依据以上流程进行预处理.

2. 实 验

2.1. 微表情检测算法性能评价指标

微表情检测算法主要评价指标包括受试者工作特性(receiver operating characteristics,ROC)曲线和曲线下面积(area under curve,AUC),其次为Precision、Recall、F-Measure和Accuracy. 根据测试集的真实标签和MesNet预测标签,可得如图9所示的微表情检测二分类混淆矩阵.

图 9

图 9   二分类混淆矩阵

Fig.9   Binary classification confusion matrix


正样本为微表情帧,负样本为中性帧. 如果一个测试集的正样本被MesNet预测为正,记作True Positive,被预测为负记作False Negative;如果测试集的负样本被MesNet预测为负,记作True Negative,被预测为正记作False Positive. 用TP代表True Positives,FN代表False Negatives,TN代表True Negatives,FP代表False Positives. Precision、Recall、F-Measure和 Accuracy计算方法如下:

${\rm{Precision}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}},$

${\rm{Recall}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}},$

${\rm{F - Measure}} = \frac{2}{{1/{\rm{Precision}} + 1/{\rm{Recall}}}},$

${\rm{Accuracy}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{FN}} + {\rm{TN}}}}.$

ROC曲线描述了收益(True Positive)和成本(False Positive)之间的相对权衡,横坐标为False Positive Rate(FPR),纵坐标为True Positive Rate(TPR),计算方法如下:

${\rm{FPR}} = \frac{{{\rm{FP}}}}{{{\rm{FP}} + {\rm{TN}}}},$

${\rm{TPR}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}}.$

ROC空间中每个点代表一个分类器. 如果一个点在另一个点左上方,这个点所代表的分类器性能比另一个点更好. 当分类器阈值取不同值时,可得到一系列(FPR, TPR)点,即为ROC曲线[27]. 本研究使用python机器学习库scikit-learn中的roc_curve函数、auc函数分别作ROC曲线图和计算AUC.

2.2. 训练集和测试集的构造

CASME II数据库共包含26个受试者,每个受试者有数量不等的视频,总共255段视频,每段视频包含时长不等的微表情片段,视频平均长度为252帧. 随机选取视频总数80%左右(194段)的视频作为训练集,其余(61段)作为测试集. 类似地,SMIC-E-HS中视频平均长度为590帧,有124段视频作为训练集,33段视频作为测试集. CAS(ME)2中视频平均长度为2 478帧,有55段视频作为训练集,14段视频作为测试集.

CASME II训练集去除过渡帧后共有12 992个微表情帧样本和33 269个中性帧样本. 实验中发现,保持训练集2类样本数量均衡可以提高模型性能. 因此从33 269个中性帧样本中随机选取12 992个作为中性帧类别,其余中性帧样本不参与训练. 则本研究CASME II训练集2个类别共计25 984张图片,测试集共计15 512张图片. 对SMIC-E-HS和 CAS(ME)2数据库的处理与CASME II类似.

图像数据增强作为一种扩大样本规模进而避免过拟合的方法被广泛地运用在神经网络的训练中. 典型的图像数据增强方法有翻转、旋转、缩放、随机裁剪或补零等. 实验中发现,对微表情数据采用以上方法做数据增强,微表情检测实验结果变化甚微,且训练过程中损失函数难以收敛,因此本研究不采用上述数据增强的方法.

2.3. 实验环境及参数设置

1) 在windows10下配置GPU深度学习环境,GPU型号为NVIDIA Titan XP;深度学习框架为tensorflow-gpu-1.9.0;编程语言为python3.6.

2) MesNet全连接层的层数先后设置为1、2,每层神经元数量先后设为256、512、1 024. 通过大量实验发现,全连接层层数设为1或2时模型性能没有明显差异. 神经元数量起初设置256个,增加为512个后性能有小幅提升,继续增加为1 024个后没有明显变化. 最终确定MesNet全连接层部分的配置为1层全连接层,包含512个神经元.

3)使用VGGNet、Google Inception Net、ResNet、Inception-ResNet V2分别搭建MesNet-VGG、MesNet-Inception、MesNet-Res和MesNet-Inception-Res网络. 表1列出了在CASME II数据库上训练各版本MesNet时所需图片输入尺寸、训练迭代次数、模型大小及终止训练时的L,以及在过渡帧比例设定为10%的前提下的测试集AUC.

表 1   CASME II数据库上各种版本MesNet网络训练细节及AUC

Tab.1  Training details and AUC values of various MesNet models on CASME II

模型 图片输入尺寸 训练迭代次数 模型大小/MB L AUC
MesNet-VGG-19 224×224×3 767 1 096 0.029 0 0.837 7
MesNet-Inception V3 299×299×3 1 239 115 0.028 9 0.920 0
MesNet-Inception V4 299×299×3 1 558 184 0.000 1 0.887 6
MesNet-Res V2-50 224×224×3 124 109 0.008 5 0.787 1
MesNet-Res V2-101 224×224×3 319 182 0.001 5 0.844 8
MesNet-Res V2-152 224×224×3 231 242 0.006 9 0.844 8
MesNet-Inception-Res-V2 299×299×3 5 362 235 0.011 5 0.952 6

新窗口打开| 下载CSV


2.4. MesNet采用不同CNN结构的性能比较

表1中选取5种MesNet模型作ROC曲线如图10所示.

图 10

图 10   CASME II上5种MesNet网络的ROC曲线

Fig.10   ROC curves of 5 MesNet models on CASME II


表1图10可见,不同网络性能差异较为明显. MesNet-Res V2-50曲线下面积相对最小,性能相对最差. MesNet-Inception V3性能较好,明显领先于MesNet-Inception V4. 相比 MesNet-Res V2-50,增加了卷积层数的MesNet-Res V2-101和MesNet-Res V2-152模型性能有一定的提升,而101层和152层网络表现相近,说明在微表情检测问题上,适当增加网络卷积层的数量能提高网络性能,但是当大于某个阈值后再增加网络深度则无法继续提升性能. MesNet-Inception-Res-V2结合Inception和ResNet的优点,曲线下面积最大,性能最优. 本研究通过迁移学习方法,可以灵活使用多种不同的CNN结构提取图像特征,从而找到最适合微表情检测的CNN结构构建MesNet. 后文MesNet均特指MesNet-Inception-Res-V2.

2.5. 过渡帧对MesNet性能的影响

去除过渡帧方法包括人为设置过渡帧比例0%、10%、20%、30%和自适应去除过渡帧共5种方法,实验结果如表2所示. 以SMIC-E-HS和 CAS(ME)2数据库为例,作ROC曲线如图11所示. 图中5条实线表示SMIC-E-HS数据库曲线,5条虚线表示 CAS(ME)2数据库曲线. 实验结果表明,在3个数据库上,去除10%比例的过渡帧均能有效提高模型性能;过渡帧去除比例增大到20%和30%,模型性能出现了下降;采用自适应识别过渡帧算法,模型性能为最优.

表 2   MesNet采用不同去除过渡帧方法的AUC

Tab.2  AUC values of MesNet using different methods of removing transition frames

方法 AUC
CASME II SMIC-E-HS CAS(ME)2
0% 0.938 6 0.906 2 0.752 8
10% 0.952 6 0.918 0 0.763 9
20% 0.944 9 0.901 7 0.742 1
30% 0.916 2 0.888 3 0.736 1
自适应 0.955 6 0.933 8 0.785 3

新窗口打开| 下载CSV


图 11

图 11   SMIC-E-HS和CAS(ME)2数据库上不同去除过渡帧方法的ROC曲线

Fig.11   ROC curves of different methods to remove transition frames on SMIC-E-HS and CAS(ME)2


2.6. 预处理有效性验证

在未去除过渡帧的条件下,使用CASME II、SMIC-E-HS和CAS(ME)2数据库,分析预处理步骤对MesNet性能的影响,实验结果如表3所示。表中(a)、(b)、(c)分别对应图8的3个阶段. 实验结果表明,本研究提出的数据预处理方法能够有效提高MesNet微表情检测性能.

表 3   预处理不同阶段的AUC对比

Tab.3  Comparison of AUC values in different stages of preprocessing

预处理阶段 AUC
CASME II SMIC-E-HS CAS(ME)2
图8(a) 0.613 4 0.574 5 0.532 8
图8(b) 0.770 5 0.721 1 0.603 1
图8(c) 0.938 6 0.906 2 0.752 8

新窗口打开| 下载CSV


2.7. MesNet与现有算法的对比

2.7.1. 算法精度对比

表4~6所示,在CASME II、SMIC-E-HS和CAS(ME)2数据库上,MesNet各项评价指标均领先于大部分已有算法. 在SMIC-E-HS上MesNet相较CFD[28]算法的AUC低0.036 8,但在CASME II数据库上MesNet性能更优.

表 4   CASME II数据库上MesNet与已有方法的性能对比

Tab.4  Performance comparison among MesNet and existing methods on CASME II

方法 Precision Recall F-Measure Accuracy AUC
3D HOG – XT[29] 0.534 1 0.623 5 0.575 4 0.735 5 0.726 1
Frame differences[14] 0.817 5
HOOF[30] 0.649 9
LBP[30] 0.929 8
CFD[28] 0.941 9
MesNet 0.939 6 0.947 8 0.943 7 0.914 6 0.955 6

新窗口打开| 下载CSV


表 5   SMIC-E-HS数据库上MesNet与已有方法的性能对比

Tab.5  Performance comparison among MesNet and existing methods on SMIC-E-HS

方法 Precision Recall F-Measure Accuracy AUC
HOOF[30] 0.694 1
LBP[30] 0.833 2
Riesz Pyramid[31] 0.898 0
CFD[28] 0.970 6
MesNet 0.969 0 0.988 5 0.978 7 0.959 6 0.933 8

新窗口打开| 下载CSV


表 6   CAS(ME)2数据库上MesNet与已有方法的性能对比

Tab.6  Performance comparison among MesNet and existing methods on CAS(ME)2

方法 Precision Recall F-Measure Accuracy AUC
MDMD[32] 0.352 1 0.319 0 0.334 8 0.735 5 0.654 8
LBP[18] 0.663 9
MesNet 0.960 2 0.996 2 0.977 9 0.957 0 0.785 3

新窗口打开| 下载CSV


2.7.2. 算法适用范围对比

与其他算法相比,除了精度更高之外,MesNet还具有以下优势. MesNet对输入视频长短无任何限制,不仅适用于CASME II、SMIC-E-HS的短视频,也适用于CAS(ME)2数据库的长视频. 相比之下,文献[14]、[29]、[30]、[31]提出的算法仅在CASME II或者SMIC-E-HS的较短视频上得到验证. 文献[18]、[32]仅使用CAS(ME)2长视频数据库,在短视频上的性能并未验证.

本研究使用CASME II、SMIC-E-HS和CAS(ME)2数据库,使MesNet算法的高性能在长视频和短视频上都得到充分验证. 如表7所示,本研究实验测试集中,最短视频(CASME II数据库编号为14_EP09_03),长度仅为51帧,经测试AUC达到0.983 2. 最长视频(CAS(ME)2数据库编号为31_0401girlcrashing),长度达到3 712帧,测试AUC达到0.789 3.

表 7   长视频与短视频的性能对比

Tab.7  Performance comparison between a long video and a short video

视频 数据库 时长/s 帧总数 Precision Recall F-Measure Accuracy AUC
14_EP09_03 CASME II 0.26 51 0.837 2 1.000 0 0.911 4 0.862 7 0.983 2
31_0401girlcrashing CAS(ME)2 123.7 3 712 0.978 4 1.000 0 0.989 1 0.978 4 0.789 3

新窗口打开| 下载CSV


与文献[14]、[18]、[29]~[32]提取视频时空特征,均依赖帧时序关系不同,MesNet只关注帧样本空间特征,不依赖时序关系. 在以下情况中,依赖帧时序的算法无法进行微表情检测,而MesNet仍然适用:1)单独一张视频帧;2)打乱时序的视频.

3. 结 语

本研究通过迁移学习方法,提出高精度和广适用范围的MesNet微表情检测网络,在CASME II和CAS(ME)2数据库上取得最优结果,在SMIC-E-HS数据库上取得第二优的结果. 首次明确提出微表情过渡帧的概念,放大到监督学习领域,则过渡帧概念对应于噪声标签的概念. 提出自适应识别过渡帧算法,实验结果表明该算法可有效提高微表情检测性能. 提出的对原始视频进行数据预处理的方法,对今后微表情数据预处理有一定的借鉴意义.

在实用性方面,MesNet本质是二分类网络,检测微表情帧不依赖帧时序关系. 因此MesNet不仅可以从微表情数据库完整视频中检测微表情帧,也可以从给定的任意帧集合中检测微表情帧,还可以判断给定的单帧是否为微表情帧. 另外,对MesNet网络输出层神经元数量和分类器稍加改动,可得到一个结构与MesNet相似且同样基于迁移学习方法的微表情种类判别网络,与MesNet网络组合起来使用,便构成一个完整的微表情检测识别系统.

针对微表情数据样本规模较小的问题,正在开展制作新的微表情数据库,使用生成式对抗网络(generative adversarial networks,GAN)做数据增强等研究工作. 未来的工作,将围绕跨数据库跨人种的微表情检测和识别问题进行,以提高微表情检测和识别算法在实际应用场景中的通用性.

致谢  本研究使用的泰坦Xp显卡由英伟达公司捐赠。(The Titan Xp used for this research was donated by the NVIDIA Corporation.)

参考文献

HAPPY S L, ROUTRAY A

Fuzzy histogram of optical flow orientations for micro-expression recognition

[J]. IEEE Transactions on Affective Computing, 2017, 10 (3): 394- 406

[本文引用: 1]

KHOR H Q, SEE J, PHAN R C W, et al. Enriched long-term recurrent convolutional network for facial micro-expression recognition [C] // 2018 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an: IEEE, 2018: 667-674.

贲晛烨, 杨明强, 张鹏, 等

微表情自动识别综述

[J]. 计算机辅助设计与图形学学报, 2014, 26 (9): 1385- 1395

[本文引用: 1]

BEN Xian-ye, YANG Ming-qiang, ZHANG Peng, et al

Survey on automatic micro expression recognition methods

[J]. Journal of Computer-Aided Design and Computer Graphics, 2014, 26 (9): 1385- 1395

[本文引用: 1]

EKMAN P, FRIESEN W V

Nonverbal leakage and clues to deception

[J]. Psychiatry, 1969, 32 (1): 88- 106

DOI:10.1080/00332747.1969.11023575      [本文引用: 1]

EKMAN P. The philosophy of deception [M]. Oxford: Oxford University Press, 2009: 118-133.

[本文引用: 1]

BRINKE, PORTER L T

Reading between the lies: identifying concealed and falsified emotions in universal facial expressions

[J]. Psychological Science, 2008, 19 (5): 508- 514

DOI:10.1111/j.1467-9280.2008.02116.x      [本文引用: 1]

BERNSTEIN D M, LOFTUS E F

How to tell if a particular memory is true or false

[J]. Perspectives on Psychological Science, 2009, 4 (4): 370- 374

DOI:10.1111/j.1745-6924.2009.01140.x      [本文引用: 1]

RUSSELL T A, CHU E, PHILLIPS M L

A pilot study to investigate the effectiveness of emotion recognition remediation in schizophrenia using the micro-expression training tool

[J]. British Journal of Clinical Psychology, 2006, 45 (4): 579- 583

DOI:10.1348/014466505X90866      [本文引用: 1]

SALTER F, GRAMMER K, RIKOWSKI A

Sex differences in negotiating with powerful males

[J]. Human Nature, 2005, 16 (3): 306- 321

DOI:10.1007/s12110-005-1013-4      [本文引用: 1]

PENG M, WU Z, ZHANG Z, et al. From macro to micro expression recognition: deep learning on small datasets using transfer learning [C] // 2018 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an: IEEE, 2018: 657-661.

[本文引用: 1]

付晓峰, 吴俊, 牛力

小数据样本深度迁移网络自发表情分类

[J]. 中国图象图形学报, 2019, 24 (5): 753- 761

[本文引用: 1]

FU Xiao-feng, WU Jun, NIU Li

Classification of small spontaneous expression database based on deep transfer learning network

[J]. Journal of Image and Graphics, 2019, 24 (5): 753- 761

[本文引用: 1]

LIONG S T, SEE J, PHAN R C W, et al

Spontaneous subtle expression detection and recognition based on facial strain

[J]. Signal Processing: Image Communication, 2016, 47: 170- 182

DOI:10.1016/j.image.2016.06.004      [本文引用: 1]

LI X, YU J, ZHAN S. Spontaneous facial micro-expression detection based on deep learning [C] // 2016 IEEE 13th International Conference on Signal Processing. Chengdu: IEEE, 2016: 1130-1134.

[本文引用: 1]

DIANA B, RADU D, RAZVAN I, et al

High-speed video system for micro-expression detection and recognition

[J]. Sensors, 2017, 17 (12): 2913- 2931

DOI:10.3390/s17122913      [本文引用: 4]

ZHANG Z, CHEN T, MENG H, et al

SMEConvNet: a convolutional neural network for spotting spontaneous facial micro-expression from long videos

[J]. IEEE Access, 2018, 6: 71143- 71151

DOI:10.1109/ACCESS.2018.2879485      [本文引用: 1]

YAN W J, LI X, WANG S J, et al

CASME II: an improved spontaneous micro-expression database and the baseline evaluation

[J]. PLOS ONE, 2014, 9 (1): 1- 8

[本文引用: 1]

LI X, PFISTER T, HUANG X, et al. A spontaneous micro-expression database: inducement, collection and baseline [C] // 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai: IEEE, 2013: 1-6.

[本文引用: 1]

QU F, WANG S J, YAN W J, et al

CAS(ME)2: a database for spontaneous macro-expression and micro-expression spotting and recognition

[J]. IEEE Transactions on Affective Computing, 2018, 9 (4): 424- 436

DOI:10.1109/TAFFC.2017.2654440      [本文引用: 4]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1-9.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2818-2826.

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning [C] // AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4-12.

[本文引用: 1]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C] // 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248-255.

[本文引用: 1]

PAN S J, YANG Q

A survey on transfer learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22 (10): 1345- 1359

DOI:10.1109/TKDE.2009.191      [本文引用: 1]

GLOROT X, BENGIO Y

Understanding the difficulty of training deep feedforward neural networks

[J]. Journal of Machine Learning Research, 2010, 9: 249- 256

[本文引用: 1]

EKMAN P, FRIESEN W V. Facial action coding system: a technique for the measurement of facial movement [M]. Palo Alto: Consulting Psychologists Press, 1978.

[本文引用: 1]

FAWCETT T

An introduction to ROC analysis

[J]. Pattern Recognition Letters, 2006, 27 (8): 861- 874

DOI:10.1016/j.patrec.2005.10.010      [本文引用: 1]

HAN Y, LI B J, LAI Y K, et al. CFD: A collaborative feature difference method for spontaneous micro-expression spotting [C] // 2018 25th IEEE International Conference on Image Processing. Athens: IEEE, 2018: 1942-1946.

[本文引用: 3]

DAVISON A K, LANSLEY C, NG C C, et al. Objective micro-facial movement detection using facs-based regions and baseline evaluation [C] // 2018 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an: IEEE, 2018: 642-649.

[本文引用: 3]

LI X, HONG X, MOILANEN A, et al

Towards reading hidden emotions: a comparative study of spontaneous micro-expression spotting and recognition methods

[J]. IEEE Transactions on Affective Computing, 2018, 9 (4): 563- 577

DOI:10.1109/TAFFC.2017.2667642      [本文引用: 5]

DUQUE C A, ALATA O, EMONET R, et al. Micro-expression spotting using the Riesz pyramid [C] // 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 66-74.

[本文引用: 2]

WANG S J, WU S, QIAN X, et al

A main directional maximal difference analysis for spotting facial movements from long-term videos

[J]. Neurocomputing, 2017, 230: 382- 389

DOI:10.1016/j.neucom.2016.12.034      [本文引用: 3]

/