<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 MesNet训练流程图

Fig.1 Training flow chart of MesNet

以I表示输入MesNet网络的微表情帧和中性帧样本，则

(1) ${{\lambda}} {\rm{ = }}\phi \left( {{I}} \right).$

式中： $\phi \left( {{I}} \right)$为使用预训练模型从图像中提取特征， ${{\lambda}} $为图像形状和纹理特征. 为了进一步提取微表情特征，有

(2) ${{F}} = f({{\lambda}} ,N).$

式中：F为全连接层；以 ${{\lambda}} $为输入， $f({{\lambda}} ,N)$为连接一层包含有N个神经元的全连接层. 构建输出层，因为MesNet为二分类网络，所以输出层只包含1个神经元：

(3) ${\rm{Output}} = f({{F}},1).$

式中：Output为全连接层，也为输出层. 以全连接层F为输入， $f({{F}},1)$为连接一层包含有1个神经元的全连接层.

MesNet网络使用logistic分类器，损失函数为

(4) $L = - \frac{{\rm{1}}}{m}\sum\limits_{i{\rm{ = 1}}}^m {\left[ {{y^{(i)}}\ln {y_0}^{(i)} + (1 - {y^{(i)}})\ln \left( {1 - {y_0}^{(i)}} \right)} \right]} .$

式中：m为参与一次迭代的样本数，y⁽ⁱ⁾为第i个训练样本的真实标签值，标签为1代表正样本微表情帧，0代表负样本中性帧. ${y_0}^{(i)}$为MesNet预测第i个样本为正样本的概率. ${y_0}^{(i)}$计算公式为

(5) ${y_0}^{(i)} = \frac{1}{{1 + {{\rm{exp\;(-Output)}}}}}.$

MesNet网络优化采用学习率自适应的Adam算法. 算法1给出了MesNet网络优化具体步骤.

算法1 MesNet网络优化算法

1）初始化参数值：学习率α = 0.001；一阶矩估计的指数衰减速率ρ₁ = 0.9，二阶矩估计的指数衰减速率ρ₂ = 0.999；用于数值稳定的小常数δ= 10^–8；一阶矩变量s = 0，二阶矩变量r = 0；迭代次数t = 0；使用Xavier方法^[25]初始化模型参数θ.

2）从训练集中取出一个包含m个样本的批次{x⁽¹⁾,…,x⁽^m⁾}，x⁽ⁱ⁾对应的标签为y⁽ⁱ⁾.

3）计算梯度：

(6) ${{g}} = \frac{1}{m}{\nabla _{{\theta}} }\sum\limits_{i{\rm{ = 1}}}^m {L(k({{{x}}^{(i)}};} {{\theta}} ),{y^{(i)}}).$

式中：k(x⁽ⁱ⁾；θ)表示当网络模型参数为θ时，输入样本x⁽ⁱ⁾得到的输出.

4）更新迭代次数：

(7) $t = t + 1.$

5）更新有偏一阶矩估计和有偏二阶矩估计：

(8) ${{s}} = {\rho _{_1}}{{s}} + (1 - {\rho _1}){{g}},$

(9) ${{r}} = {\rho _{_2}}{{r}} + (1 - {\rho _2}){{g}} \odot {{g}}.$

式中： $ \odot $为矩阵的逐元素乘积.

6）修正一阶矩偏差和二阶矩偏差：

(10) ${{\widehat s}} = \frac{{{s}}}{{1 - \rho _1^t}},$

(11) ${{\widehat r}} = \frac{{{r}}}{{1 - \rho _2^t}}.$

7）计算梯度更新：

(12) $\Delta {{\theta}} = - \alpha \frac{{{{\widehat s}}}}{{\sqrt {{{\widehat r}}} + \delta }}.$

应用梯度更新：

(13) ${{\theta}} = {{\theta}} + \Delta {{\theta}} .$

8）如果没有到达停止准则，返回步骤2）；否则终止训练. MesNet网络优化停止准则为当L在1000次循环内没有进一步改善时终止训练.

1.2. 过渡帧的概念

如图2所示是图1所示视频按时序分解的示意图. 此段视频时长5 s，共1 024帧. 根据CASME II数据库说明文档，起始帧（onset frame）第86帧是微表情的开始帧，顶点帧（apex frame）第129帧是微表情的峰值帧，结束帧（offset frame）第181帧是微表情持续的最后一帧.

图 2

图 2 CASME II视频片段示例

Fig.2 Example of CASME II video clips

在监督学习中，训练数据所对应的标签质量对学习效果具有重要影响. 从微表情数据库制作过程可知，在200帧/s的高速拍摄条件下，无法以100%的准确率判断起始帧和结束帧附近的帧是微表情帧还是中性帧. 因此，第86帧和第181帧附近的帧可能带有噪声标签，如果把带有噪声标签的帧放入训练集，会干扰模型训练. 本研究将起始帧和结束帧附近带有噪声标签的帧定义为过渡帧，并对训练集做去除过渡帧的处理.

过渡帧靠近起始帧或结束帧，而且数量少，为了去除过渡帧，做2个假设：1）过渡帧数量占训练集样本总数的10%；2）过渡帧以起始帧或结束帧为中心连续分布. 如图2所示，在上述2个假设成立的条件下，以第86帧、第129帧、第181帧为界，将整段视频分为4个片段，每个片段分为2个部分，图中对总共8个部分进行编号. 以U₁表示第1部分样本的集合，以L₁表示第1部分样本的数量，其余7部分依此类推. 在每段中去除邻近第86帧或者第181帧的10%的帧，使L₁∶L₂ = L₄∶L₃ = L₅∶L₆ = L₈∶L₇ = 9∶1，如图2所示视频总计去除U₂∪U₃∪U₆∪U₇阴影部分共105帧过渡帧.

1.3. 自适应识别过渡帧

实际上，1.2节2个假设成立是无法被证明的. 在不做任何假设的条件下，为了识别和去除过渡帧，本研究提出自适应识别过渡帧算法. 算法流程如图3所示，具体步骤见算法2.

图 3

图 3 自适应识别过渡帧算法

Fig.3 Adaptive algorithm of transition frames recognition

算法2 自适应识别过渡帧算法

1) 考虑到过渡帧比例不会超过训练集样本总数50%. 那么，如图2所示，初始化L₁∶L₂ = L₃∶L₄ = L₅∶L₆ = L₇∶L₈ = 1∶1. 以U_T表示过渡帧样本集合，以U_T0表示待去除过渡帧样本集合，则U_T0 = U₂∪U₃∪U₆∪U₇；

2) 如图3所示，U₄∪U₅作为微表情帧样本，U₁∪U₈作为中性帧样本，训练MesNet，得到模型C；

3) 使用模型C预测U_T0中的样本x⁽ⁱ⁾，属于正样本微表情帧的概率为P_i，若P_i接近0，则样本为中性帧，若P_i接近1，则样本为微表情帧. 那么过渡帧判别公式为

(14) ${U_{\rm{T}}} = \left\{ {{{{x}}^i}|P_{{\rm{min}}} < {P_i} < P_{{\rm{max}}},{{{x}}^i} \in {U_{{\rm{T}}0}}} \right\}.$

式中：P_min，P_max∈(0,1)，P_min、P_max具体取值将在下文讨论；

4) U₂、U₃、U₆、U₇去除过渡帧之后的样本集合分别为U_2-、U_3-、U_6-、U_7-. 则放入训练集的微表情帧样本集合为

(15) ${U_{{\rm{ME}}}} = {U_{3 - }} \cup {U_4} \cup {U_5} \cup {U_{6 - }},$

中性帧样本集合为

(16) ${U_{\rm{N}}} = {U_1} \cup {U_{2 - }} \cup {U_{7 - }} \cup {U_8}.$

将U_T0总共24 454个样本输入模型C进行预测，得到对应的24 454个概率值. 为了确定最优阈值P_min、P_max，作概率分布图如图4所示。图中，横坐标P为预测概率，纵坐标N为样本数量. 概率分布在[0，0.05]区间内的16 616个样本，模型C判断其为微表情帧的概率不高于0.05，即为中性帧的概率不低于0.95；概率分布在[0.95，1.00]的5 429个样本，模型C判断其为微表情帧的概率不低于0.95. 样本预测概率值越接近0.5，说明模型C越难以判断其类别，预测结果可信度越低，此类样本即为过渡帧. 结合概率分布情况，分布在[0，0.05]的样本数量远多于(0.05，0.10]的，而分布在(0.05，0.10]的样本数量没有远多于(0.10，0.15]的，可以确定P_min取值为0.05，同理可确定P_max取值为0.95. 采用自适应识别过渡帧算法从CASME II数据库训练集共48 670个样本中去除2 409个过渡帧样本，占训练集样本总数约4.950%. 对SMIC-E-HS与 CAS(ME)²数据库的处理与此类似.

图 4

图 4 待去除过渡帧样本概率分布图

Fig.4 Probability distribution of samples waiting to remove transition frames

1.4. 数据预处理

微表情是强度极其微弱的面部肌肉运动，因此在数据预处理阶段去除与微表情检测不相关的噪声显得尤为重要.如图5（a）所示为CASME II数据库中编号15_EP03_02的视频中某一帧图像，可见受试者头部有明显的角度倾斜，另外还有背景、头发、耳机等大量的干扰信息. 本研究对原始视频的预处理分为3个步骤：人脸检测、人脸对齐和微表情区域裁剪.利用Dlib正向人脸检测器，提取得到人脸矩形框，使用残差神经网络人脸特征点检测模型，检测得到矩形框内的68个人脸特征点，如图5所示.

图 5

图 5 人脸特征点检测

Fig.5 Facial landmarks detection

如图6所示，设2个外眼角坐标编号分别为36和45，利用这2点的横纵坐标可计算得出人脸的偏斜角度. 设第36和45关键点坐标分别为（x₁, y₁）和（x₂, y₂），则

水平差量：

(17) $d_x = x_2 - x_1,$

垂直差量：

(18) $d_y = y_2 - y_1,$

人脸偏转角度：

(19) ${\rm{angle}} = {\rm{\arctan}}\; \left( {\frac{{d_y}}{{d_x}}} \right) \times \frac{{180}}{\text{π} }.$

图 6

图 6 人脸对齐坐标设置

Fig.6 Face alignment coordinates setting

利用angle计算仿射矩阵作仿射变换，可得人脸对齐后的图像。由图7（a）可见，人脸对齐之后的图像仍然包含较多噪声，例如眼镜框和图像四角的头发等干扰信息。如图8（b）所示，有的图像还会存在衣物领口和耳机线等干扰信息。相较微表情帧和中性帧之间微小的类间间距，这些噪声干扰造成的类内间距更为显著. 为了最大限度缩小类内间距，需要进一步裁剪图像.

图 7

图 7 微表情区域裁剪

Fig.7 Micro-expression region cropping

图 8

图 8 CASME II数据库图像预处理示例

Fig.8 Image preprocessing examples of CASME II

结合面部动作编码系统（facial action coding system，FACS）^[26]对相关微表情的编码，基于最大限度保留CASME II几种微表情包含的动作单元和最大程度减少噪声干扰的原则，进一步裁剪图像. 反复测试确定最佳裁剪参数，最终结果如图7（b）所示. 如图8所示为CASME II数据库一些图像预处理示例，图8（a）为原图，图8（b）为Dlib人脸检测图，图8（c）为采用本研究预处理方法进行预处理得到的图.

比较图8（a）和（c）可见，图像预处理有效去除了大部分影响微表情检测的噪声干扰. CASME II、SMIC-E-HS与 CAS(ME)²数据库中总共32万多帧图像全部依据以上流程进行预处理.

2. 实验

2.1. 微表情检测算法性能评价指标

微表情检测算法主要评价指标包括受试者工作特性（receiver operating characteristics，ROC）曲线和曲线下面积（area under curve，AUC），其次为Precision、Recall、F-Measure和Accuracy. 根据测试集的真实标签和MesNet预测标签，可得如图9所示的微表情检测二分类混淆矩阵.

图 9

图 9 二分类混淆矩阵

Fig.9 Binary classification confusion matrix

正样本为微表情帧，负样本为中性帧. 如果一个测试集的正样本被MesNet预测为正，记作True Positive，被预测为负记作False Negative；如果测试集的负样本被MesNet预测为负，记作True Negative，被预测为正记作False Positive. 用TP代表True Positives，FN代表False Negatives，TN代表True Negatives，FP代表False Positives. Precision、Recall、F-Measure和 Accuracy计算方法如下：

(20) ${\rm{Precision}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}},$

(21) ${\rm{Recall}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}},$

(22) ${\rm{F - Measure}} = \frac{2}{{1/{\rm{Precision}} + 1/{\rm{Recall}}}},$

(23) ${\rm{Accuracy}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{FN}} + {\rm{TN}}}}.$

ROC曲线描述了收益（True Positive）和成本（False Positive）之间的相对权衡，横坐标为False Positive Rate（FPR），纵坐标为True Positive Rate（TPR），计算方法如下：

(24) ${\rm{FPR}} = \frac{{{\rm{FP}}}}{{{\rm{FP}} + {\rm{TN}}}},$

(25) ${\rm{TPR}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}}.$

ROC空间中每个点代表一个分类器. 如果一个点在另一个点左上方，这个点所代表的分类器性能比另一个点更好. 当分类器阈值取不同值时，可得到一系列（FPR, TPR）点，即为ROC曲线^[27]. 本研究使用python机器学习库scikit-learn中的roc_curve函数、auc函数分别作ROC曲线图和计算AUC.

2.2. 训练集和测试集的构造

CASME II数据库共包含26个受试者，每个受试者有数量不等的视频，总共255段视频，每段视频包含时长不等的微表情片段，视频平均长度为252帧. 随机选取视频总数80%左右（194段）的视频作为训练集，其余（61段）作为测试集. 类似地，SMIC-E-HS中视频平均长度为590帧，有124段视频作为训练集，33段视频作为测试集. CAS(ME)²中视频平均长度为2 478帧，有55段视频作为训练集，14段视频作为测试集.

CASME II训练集去除过渡帧后共有12 992个微表情帧样本和33 269个中性帧样本. 实验中发现，保持训练集2类样本数量均衡可以提高模型性能. 因此从33 269个中性帧样本中随机选取12 992个作为中性帧类别，其余中性帧样本不参与训练. 则本研究CASME II训练集2个类别共计25 984张图片，测试集共计15 512张图片. 对SMIC-E-HS和 CAS(ME)²数据库的处理与CASME II类似.

图像数据增强作为一种扩大样本规模进而避免过拟合的方法被广泛地运用在神经网络的训练中. 典型的图像数据增强方法有翻转、旋转、缩放、随机裁剪或补零等. 实验中发现，对微表情数据采用以上方法做数据增强，微表情检测实验结果变化甚微，且训练过程中损失函数难以收敛，因此本研究不采用上述数据增强的方法.

2.3. 实验环境及参数设置

1）在windows10下配置GPU深度学习环境，GPU型号为NVIDIA Titan XP；深度学习框架为tensorflow-gpu-1.9.0；编程语言为python3.6.

2） MesNet全连接层的层数先后设置为1、2，每层神经元数量先后设为256、512、1 024. 通过大量实验发现，全连接层层数设为1或2时模型性能没有明显差异. 神经元数量起初设置256个，增加为512个后性能有小幅提升，继续增加为1 024个后没有明显变化. 最终确定MesNet全连接层部分的配置为1层全连接层，包含512个神经元.

3）使用VGGNet、Google Inception Net、ResNet、Inception-ResNet V2分别搭建MesNet-VGG、MesNet-Inception、MesNet-Res和MesNet-Inception-Res网络. 表1列出了在CASME II数据库上训练各版本MesNet时所需图片输入尺寸、训练迭代次数、模型大小及终止训练时的L，以及在过渡帧比例设定为10%的前提下的测试集AUC.

表 1 CASME II数据库上各种版本MesNet网络训练细节及AUC

Tab.1 Training details and AUC values of various MesNet models on CASME II

模型	图片输入尺寸	训练迭代次数	模型大小/MB	L	AUC
MesNet-VGG-19	224×224×3	767	1 096	0.029 0	0.837 7
MesNet-Inception V3	299×299×3	1 239	115	0.028 9	0.920 0
MesNet-Inception V4	299×299×3	1 558	184	0.000 1	0.887 6
MesNet-Res V2-50	224×224×3	124	109	0.008 5	0.787 1
MesNet-Res V2-101	224×224×3	319	182	0.001 5	0.844 8
MesNet-Res V2-152	224×224×3	231	242	0.006 9	0.844 8
MesNet-Inception-Res-V2	299×299×3	5 362	235	0.011 5	0.952 6

2.4. MesNet采用不同CNN结构的性能比较

从表1中选取5种MesNet模型作ROC曲线如图10所示.

图 10

图 10 CASME II上5种MesNet网络的ROC曲线

Fig.10 ROC curves of 5 MesNet models on CASME II

由表1及图10可见，不同网络性能差异较为明显. MesNet-Res V2-50曲线下面积相对最小，性能相对最差. MesNet-Inception V3性能较好，明显领先于MesNet-Inception V4. 相比 MesNet-Res V2-50，增加了卷积层数的MesNet-Res V2-101和MesNet-Res V2-152模型性能有一定的提升，而101层和152层网络表现相近，说明在微表情检测问题上，适当增加网络卷积层的数量能提高网络性能，但是当大于某个阈值后再增加网络深度则无法继续提升性能. MesNet-Inception-Res-V2结合Inception和ResNet的优点，曲线下面积最大，性能最优. 本研究通过迁移学习方法，可以灵活使用多种不同的CNN结构提取图像特征，从而找到最适合微表情检测的CNN结构构建MesNet. 后文MesNet均特指MesNet-Inception-Res-V2.

2.5. 过渡帧对MesNet性能的影响

去除过渡帧方法包括人为设置过渡帧比例0%、10%、20%、30%和自适应去除过渡帧共5种方法，实验结果如表2所示. 以SMIC-E-HS和 CAS(ME)²数据库为例，作ROC曲线如图11所示. 图中5条实线表示SMIC-E-HS数据库曲线，5条虚线表示 CAS(ME)²数据库曲线. 实验结果表明，在3个数据库上，去除10%比例的过渡帧均能有效提高模型性能；过渡帧去除比例增大到20%和30%，模型性能出现了下降；采用自适应识别过渡帧算法，模型性能为最优.

表 2 MesNet采用不同去除过渡帧方法的AUC

Tab.2 AUC values of MesNet using different methods of removing transition frames

方法	AUC
方法	CASME II	SMIC-E-HS	CAS(ME)²
0%	0.938 6	0.906 2	0.752 8
10%	0.952 6	0.918 0	0.763 9
20%	0.944 9	0.901 7	0.742 1
30%	0.916 2	0.888 3	0.736 1
自适应	0.955 6	0.933 8	0.785 3

图 11

图 11 SMIC-E-HS和CAS(ME)²数据库上不同去除过渡帧方法的ROC曲线

Fig.11 ROC curves of different methods to remove transition frames on SMIC-E-HS and CAS(ME)²

2.6. 预处理有效性验证

在未去除过渡帧的条件下，使用CASME II、SMIC-E-HS和CAS(ME)²数据库，分析预处理步骤对MesNet性能的影响，实验结果如表3所示。表中（a）、（b）、（c）分别对应图8的3个阶段. 实验结果表明，本研究提出的数据预处理方法能够有效提高MesNet微表情检测性能.

表 3 预处理不同阶段的AUC对比

Tab.3 Comparison of AUC values in different stages of preprocessing

预处理阶段	AUC
预处理阶段	CASME II	SMIC-E-HS	CAS(ME)²
图8（a）	0.613 4	0.574 5	0.532 8
图8（b）	0.770 5	0.721 1	0.603 1
图8（c）	0.938 6	0.906 2	0.752 8

2.7. MesNet与现有算法的对比

2.7.1. 算法精度对比

如表4~6所示，在CASME II、SMIC-E-HS和CAS(ME)²数据库上，MesNet各项评价指标均领先于大部分已有算法. 在SMIC-E-HS上MesNet相较CFD^[28]算法的AUC低0.036 8，但在CASME II数据库上MesNet性能更优.

表 4 CASME II数据库上MesNet与已有方法的性能对比

Tab.4 Performance comparison among MesNet and existing methods on CASME II

方法	Precision	Recall	F-Measure	Accuracy	AUC
3D HOG – XT^[29]	0.534 1	0.623 5	0.575 4	0.735 5	0.726 1
Frame differences^[14]	−	−	−	0.817 5	−
HOOF^[30]	−	−	−	−	0.649 9
LBP^[30]	−	−	−	−	0.929 8
CFD^[28]	−	−	−	−	0.941 9
MesNet	0.939 6	0.947 8	0.943 7	0.914 6	0.955 6

表 5 SMIC-E-HS数据库上MesNet与已有方法的性能对比

Tab.5 Performance comparison among MesNet and existing methods on SMIC-E-HS

方法	Precision	Recall	F-Measure	Accuracy	AUC
HOOF^[30]	−	−	−	−	0.694 1
LBP^[30]	−	−	−	−	0.833 2
Riesz Pyramid^[31]	−	−	−	−	0.898 0
CFD^[28]	−	−	−	−	0.970 6
MesNet	0.969 0	0.988 5	0.978 7	0.959 6	0.933 8

表 6 CAS(ME)²数据库上MesNet与已有方法的性能对比

Tab.6 Performance comparison among MesNet and existing methods on CAS(ME)²

方法	Precision	Recall	F-Measure	Accuracy	AUC
MDMD^[32]	0.352 1	0.319 0	0.334 8	0.735 5	0.654 8
LBP^[18]	−	−	−	−	0.663 9
MesNet	0.960 2	0.996 2	0.977 9	0.957 0	0.785 3

2.7.2. 算法适用范围对比

与其他算法相比，除了精度更高之外，MesNet还具有以下优势. MesNet对输入视频长短无任何限制，不仅适用于CASME II、SMIC-E-HS的短视频，也适用于CAS(ME)²数据库的长视频. 相比之下，文献[14]、[29]、[30]、[31]提出的算法仅在CASME II或者SMIC-E-HS的较短视频上得到验证. 文献[18]、[32]仅使用CAS(ME)²长视频数据库，在短视频上的性能并未验证.

本研究使用CASME II、SMIC-E-HS和CAS(ME)²数据库，使MesNet算法的高性能在长视频和短视频上都得到充分验证. 如表7所示，本研究实验测试集中，最短视频（CASME II数据库编号为14_EP09_03），长度仅为51帧，经测试AUC达到0.983 2. 最长视频（CAS(ME)²数据库编号为31_0401girlcrashing），长度达到3 712帧，测试AUC达到0.789 3.

表 7 长视频与短视频的性能对比

Tab.7 Performance comparison between a long video and a short video

视频	数据库	时长/s	帧总数	Precision	Recall	F-Measure	Accuracy	AUC
14_EP09_03	CASME II	0.26	51	0.837 2	1.000 0	0.911 4	0.862 7	0.983 2
31_0401girlcrashing	CAS(ME)²	123.7	3 712	0.978 4	1.000 0	0.989 1	0.978 4	0.789 3

与文献[14]、[18]、[29]~[32]提取视频时空特征，均依赖帧时序关系不同，MesNet只关注帧样本空间特征，不依赖时序关系. 在以下情况中，依赖帧时序的算法无法进行微表情检测，而MesNet仍然适用：1）单独一张视频帧；2）打乱时序的视频.

3. 结　语

本研究通过迁移学习方法，提出高精度和广适用范围的MesNet微表情检测网络，在CASME II和CAS(ME)²数据库上取得最优结果，在SMIC-E-HS数据库上取得第二优的结果. 首次明确提出微表情过渡帧的概念，放大到监督学习领域，则过渡帧概念对应于噪声标签的概念. 提出自适应识别过渡帧算法，实验结果表明该算法可有效提高微表情检测性能. 提出的对原始视频进行数据预处理的方法，对今后微表情数据预处理有一定的借鉴意义.

在实用性方面，MesNet本质是二分类网络，检测微表情帧不依赖帧时序关系. 因此MesNet不仅可以从微表情数据库完整视频中检测微表情帧，也可以从给定的任意帧集合中检测微表情帧，还可以判断给定的单帧是否为微表情帧. 另外，对MesNet网络输出层神经元数量和分类器稍加改动，可得到一个结构与MesNet相似且同样基于迁移学习方法的微表情种类判别网络，与MesNet网络组合起来使用，便构成一个完整的微表情检测识别系统.

针对微表情数据样本规模较小的问题，正在开展制作新的微表情数据库，使用生成式对抗网络（generative adversarial networks，GAN）做数据增强等研究工作. 未来的工作，将围绕跨数据库跨人种的微表情检测和识别问题进行，以提高微表情检测和识别算法在实际应用场景中的通用性.

致谢　　本研究使用的泰坦Xp显卡由英伟达公司捐赠。(The Titan Xp used for this research was donated by the NVIDIA Corporation.)

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HAPPY S L, ROUTRAY A

Fuzzy histogram of optical flow orientations for micro-expression recognition

[J]. IEEE Transactions on Affective Computing, 2017, 10 (3): 394- 406

[2]

KHOR H Q, SEE J, PHAN R C W, et al. Enriched long-term recurrent convolutional network for facial micro-expression recognition [C] // 2018 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an: IEEE, 2018: 667-674.

[3]

贲晛烨, 杨明强, 张鹏, 等

微表情自动识别综述

[J]. 计算机辅助设计与图形学学报, 2014, 26 (9): 1385- 1395

BEN Xian-ye, YANG Ming-qiang, ZHANG Peng, et al

Survey on automatic micro expression recognition methods

[J]. Journal of Computer-Aided Design and Computer Graphics, 2014, 26 (9): 1385- 1395

DOI:10.1080/00332747.1969.11023575 [本文引用: 1]

[4]

EKMAN P, FRIESEN W V

Nonverbal leakage and clues to deception

[J]. Psychiatry, 1969, 32 (1): 88- 106

[5]

EKMAN P. The philosophy of deception [M]. Oxford: Oxford University Press, 2009: 118-133.

DOI:10.1111/j.1467-9280.2008.02116.x [本文引用: 1]

[6]

BRINKE, PORTER L T

Reading between the lies: identifying concealed and falsified emotions in universal facial expressions

[J]. Psychological Science, 2008, 19 (5): 508- 514

[7]

BERNSTEIN D M, LOFTUS E F

How to tell if a particular memory is true or false

[J]. Perspectives on Psychological Science, 2009, 4 (4): 370- 374

DOI:10.1111/j.1745-6924.2009.01140.x [本文引用: 1]

[8]

RUSSELL T A, CHU E, PHILLIPS M L

A pilot study to investigate the effectiveness of emotion recognition remediation in schizophrenia using the micro-expression training tool

[J]. British Journal of Clinical Psychology, 2006, 45 (4): 579- 583

DOI:10.1348/014466505X90866 [本文引用: 1]

[9]

SALTER F, GRAMMER K, RIKOWSKI A

Sex differences in negotiating with powerful males

[J]. Human Nature, 2005, 16 (3): 306- 321

DOI:10.1007/s12110-005-1013-4 [本文引用: 1]

[10]

PENG M, WU Z, ZHANG Z, et al. From macro to micro expression recognition: deep learning on small datasets using transfer learning [C] // 2018 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an: IEEE, 2018: 657-661.

[11]

付晓峰, 吴俊, 牛力

小数据样本深度迁移网络自发表情分类

[J]. 中国图象图形学报, 2019, 24 (5): 753- 761

FU Xiao-feng, WU Jun, NIU Li

Classification of small spontaneous expression database based on deep transfer learning network

[J]. Journal of Image and Graphics, 2019, 24 (5): 753- 761

[12]

LIONG S T, SEE J, PHAN R C W, et al

Spontaneous subtle expression detection and recognition based on facial strain

[J]. Signal Processing: Image Communication, 2016, 47: 170- 182

DOI:10.1016/j.image.2016.06.004 [本文引用: 1]

[13]

LI X, YU J, ZHAN S. Spontaneous facial micro-expression detection based on deep learning [C] // 2016 IEEE 13th International Conference on Signal Processing. Chengdu: IEEE, 2016: 1130-1134.

[14]

DIANA B, RADU D, RAZVAN I, et al

High-speed video system for micro-expression detection and recognition

[J]. Sensors, 2017, 17 (12): 2913- 2931

DOI:10.3390/s17122913 [本文引用: 4]

[15]

ZHANG Z, CHEN T, MENG H, et al

SMEConvNet: a convolutional neural network for spotting spontaneous facial micro-expression from long videos

[J]. IEEE Access, 2018, 6: 71143- 71151

DOI:10.1109/ACCESS.2018.2879485 [本文引用: 1]

[16]

YAN W J, LI X, WANG S J, et al

CASME II: an improved spontaneous micro-expression database and the baseline evaluation

[J]. PLOS ONE, 2014, 9 (1): 1- 8

[17]

LI X, PFISTER T, HUANG X, et al. A spontaneous micro-expression database: inducement, collection and baseline [C] // 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai: IEEE, 2013: 1-6.

[18]

QU F, WANG S J, YAN W J, et al

CAS(ME)²: a database for spontaneous macro-expression and micro-expression spotting and recognition

[J]. IEEE Transactions on Affective Computing, 2018, 9 (4): 424- 436

DOI:10.1109/TAFFC.2017.2654440 [本文引用: 4]

[19]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1-9.

[20]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[21]

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2818-2826.

[22]

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning [C] // AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4-12.

[23]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C] // 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248-255.

[24]

PAN S J, YANG Q

A survey on transfer learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22 (10): 1345- 1359

DOI:10.1109/TKDE.2009.191 [本文引用: 1]

[25]

GLOROT X, BENGIO Y

Understanding the difficulty of training deep feedforward neural networks

[J]. Journal of Machine Learning Research, 2010, 9: 249- 256

[26]

EKMAN P, FRIESEN W V. Facial action coding system: a technique for the measurement of facial movement [M]. Palo Alto: Consulting Psychologists Press, 1978.