浙江大学学报(工学版), 2019, 53(12): 2365-2371 doi: 10.3785/j.issn.1008-973X.2019.12.014

计算机科学与人工智能

基于级联网络和残差特征的人脸特征点定位

许爱东,, 黄文琦, 明哲, 陈伟亮, 胡浩基,, 杨航

Facial landmark localization based on cascaded hourglass network with residual features

XU Ai-dong,, HUANG Wen-qi, MING Zhe, CHEN Wei-liang, HU Roland,, YANG Hang

通讯作者: 胡浩基,男,副教授. orcid.org/0000-0001-6048-6549. E-mail: haoji_hu@zju.edu.cn

收稿日期: 2018-11-5  

Received: 2018-11-5  

作者简介 About authors

许爱东(1977—),男,教授级高级工程师,从事电网信息应用技术研究.orcid.org/0000-0003-2091-817X.E-mail:xuad@csg.cn , E-mail:xuad@csg.cn

摘要

为进一步提高人脸特征点定位精度,探究当前广泛用于人脸关键点定位的全卷积神经网络(FCN)架构的原理和缺陷,讨论FCN核函数在特征点定位中引入的副作用,即训练和测试时评判准则不一致的问题. 理论分析该问题存在的可能性和普遍性,设计实验验证在实际场景下此问题存在的广泛性. 提出结合残差特征的沙漏网络结构并将其应用于人脸特征点检测;提出多级沙漏网络的级联结构,并将其与经典的栈式沙漏网络进行对比分析. 实验结果表明:二级级联结构获得了与四级栈式结构相当的特征点定位精度,大幅降低了模型参数量和时间复杂度. 所提方法在300-W数据库的困难子集上的平均归一化误差为6.84%,优于已有最好方法.

关键词: 人脸特征点检测 ; 全卷积神经网络(FCN) ; 残差特征 ; 级联结构

Abstract

The principles and defects of full convolutional network (FCN), which was widely utilized in facial landmark localization, were studied to improve the facial landmark localization accuracy. Discuss the side effects introduced by the kernel function in the feature of FCN, that the evaluation criteria were inconsistent during training and testing. Firstly, theoretically analyze the possibility and the universality of this problem, and then design experiments to verify the existence of this problem in actual situation. To solve this problem, a hourglass network structure was proposed for facial landmark localization combining residual features; the cascaded hourglass network structure was given. The experimental results show that the two-stage cascade structure can obtain comparable accuracy compared with the four-stage stack structure, which means that the model parameter quantity and time complexity will be reduced greatly. The average normalization error of the proposed method on the difficult subset of the 300-W database was 6.84%, which is better than the previous best result.

Keywords: facial landmark localization ; fully convolutional network (FCN) ; residual feature ; cascaded structure

PDF (1010KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

许爱东, 黄文琦, 明哲, 陈伟亮, 胡浩基, 杨航. 基于级联网络和残差特征的人脸特征点定位. 浙江大学学报(工学版)[J], 2019, 53(12): 2365-2371 doi:10.3785/j.issn.1008-973X.2019.12.014

XU Ai-dong, HUANG Wen-qi, MING Zhe, CHEN Wei-liang, HU Roland, YANG Hang. Facial landmark localization based on cascaded hourglass network with residual features. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(12): 2365-2371 doi:10.3785/j.issn.1008-973X.2019.12.014

人脸特征点定位是指由图像定位预定义脸部特征点(如:眼角、面部轮廓点等)的位置,在人脸识别[1]、表情识别[2]、人脸正脸化[3]等方面应用广泛. 比如,在人脸识别中,以人脸特征点定位为核心的人脸规范化可以降低姿态对人脸识别的影响,提高算法的准确率. 近年来,人脸特征点定位研究受到了广泛关注.

人脸特征点定位研究分为3类. 1)基于参数化模型的方法[4-6]. 此类方法的核心是建立人脸形状模型,以较低维度的参数描述人脸特征点;建立人脸外观模型,依据重建的人脸外观与模型的匹配程度来更新特征点的位置. 经典的方法是Cootes等[4]提出的主动外观模型,该方法构建了基于主成分分析[7]的人脸形状和外观模型以充分利用人脸的特性. 2)通过回归预测人脸特征点的位置[8-9]. Xiong等[8]提出监督梯度下降法,通过人脸特征点附近的纹理特征学习梯度下降的方向. 该方法采用了手工特征,因此在复杂场景下的准确率不高. 3)把人脸特征点检测问题看成像素级密度估计问题[10-14]. Long等[15]提出了全卷积神经网络,该方法首先通过降采样逐层提取高层次的特征,再通过融合底层特征并且逐层升采样恢复位置信息,获得像素级的输出[10-14].

基于全卷积神经网络(fully convolutional neural network,FCN)的人脸特征点定位方法采用核函数来生成真实概率矩阵,优化目标是最小化预测概率矩阵和真实概率矩阵的差异. 文献[10]~[14]采用的损失函数主要有2种:交叉熵损失函数[10-12]和像素级欧几里得损失函数[13-14]. 核函数的引入使得网络训练更加容易收敛,但是关于核函数引入带来的影响此前并未有学者作深入研究. 本文指出FCN训练的重要过程—采用核函数来生成真实概率矩阵,会对人脸特征点检测的准确率造成影响,训练和测试时采用的评估标准差异会导致性能下降.

本文提出基于残差特征的级联沙漏网络结构(cascaded hourglass network with residual feature,RF-CHN). 该结构组合不同的优化准则,有2个基本模块:1)输入的人脸图像通过沙漏网络首先被编码成保持解析度的热图并且基于此预测出人脸特征点位置的初始估计. 沙漏网络从栈式沙漏网络[14]修改得到. 2)从网络的中间层构建一个小的子网来生成残差特征,并且利用残差特征来进一步估计1)中通过热图获得的人脸特征点估计的误差. 由于热图是通过优化概率矩阵得到的,而人脸特征点的残差是通过优化欧式距离得到的,从而解决训练和测试评判准则不一致的问题.

1. 方法原理

1.1. 现有FCN结构的缺点

设输入的人脸图像为I,要预测的人脸特征点的数目为N个,则基于的方法需要预测N个保持空间分辨率的概率矩阵 ${{Q}} = \left\{ {{{{Q}}^1},{{{Q}}^2},\cdots,{{{Q}}^N}} \right\}$. 首先把人脸图像编码成保持空间分辨率的特征图,接着在空间上进行softmax归一化:

${{Q}} = {\rm{softmax}}\;[{f_{{\rm{FCN}}}}({{I}};{{{\theta }}_{{\rm{FCN}}}})].$

式中:第i个概率矩阵 ${{{Q}}^i}$中的概率值表示第i个特征点在图像上对应的像素位置出现的概率, ${{{\theta }}_{{\rm{FCN}}}}$为神经网络 ${f_{{\rm{FCN}}}}$的参数.

大多数基于全卷积神经网络的人脸特征点检测方法采用了交叉熵损失函数[10-12]

${E_{\rm{c}}}{\rm{(}}{{{Q}}^i}{\rm{,}}{{{A}}^i}{\rm{)}} = {\rm{ - }}\sum\limits_{{{j,k}}} {A_{jk}^i\;\log\; (Q_{jk}^i){\rm{ }}{\rm{.}}} $

式中:jk分别为输入图像的行、列下标, ${{{A}}^i}$为第i个人脸特征点的真实概率矩阵. 一些研究也使用像素级欧几里得损失函数作为目标函数[13-14]

${E_{\rm{e}}}({{{Q}}^i},{{{A}}^i}) = \sum\limits_{j,k} {{{(Q_{jk}^i,A_{jk}^i)}^2}} {\rm{ }}{\rm{.}}$

前人的研究工作广泛采用基于高斯核来生成真实概率矩阵:

$A_{jk}^i = {\rm{N}}[(j,k);({x_i},{y_i}),{\sigma ^2}{{I}}]. $

式中: $({x_i},{y_i})$为第i个人脸特征点的真实位置,σ用于控制响应的方差. 文献[10]采用其他核函数.

训练时,网络参数通过反向传播算法更新,目标函数是式(2)或(3). 测试时,第i个人脸关键点的位置通过下式计算:

$({x_i},{y_i}) = \mathop {\arg \max }\limits_{j,k} Q_{jk}^i{\rm{ }}{\rm{.}}$

通过计算预测的人脸特征点位置与真实值的差距可以衡量算法的性能. 与文献[9]相同,采用相对于人脸的瞳孔间距归一化平均误差(normalized mean error,NME)来衡量特征点检测的结果.

核函数的引入使得交叉熵损失函数(或逐像素欧几里得损失函数)与人脸特征点检测的误差NME之间呈现非单调的关系. 构造反例进行证明,不妨设概率矩阵大小为 $3 \times 3$,设有真实概率矩阵:

${{A}} = \left[ {\begin{array}{*{20}{c}} {0.146\;8}&{0.242\;0}&{0.146\;8} \\ {0.242\;0}&{{\rm{0}}{\rm{.398\;9}}}&{0.242\;0} \\ {0.146\;8}&{0.242\;0}&{0.146\;8} \end{array}} \right].$

真实的特征点位置在矩阵A的中心. 选用高斯核函数并且设置σ=1以得到A.

设存在2个不同的预测概率矩阵 ${{{Q}}_{\rm{1}}}$${{{Q}}_{\rm{2}}}$

$\left. {\begin{array}{l}{{{Q}}_{{1}}} = \left[ {\begin{array}{*{20}{c}} {0.146\;8}&{0.242\;0}&{0.146\;8} \\ {{\rm{0}}{\rm{.398\;9}}}&{0.242\;0}&{0.242\;0} \\ {0.146\;8}&{0.242\;0}&{0.146\;8} \end{array}} \right],\\{{{Q}}_{{2}}} = \left[ {\begin{array}{*{20}{c}} {0.242\;0}&{0.146\;8}&{0.242\;0} \\ {0.146\;8}&{{\rm{0}}{\rm{.398\;9}}}&{0.146\;8} \\ {0.242\;0}&{0.146\;8}&{0.242\;0} \end{array}} \right]. \end{array}} \right\}$

对交叉熵损失函数,由式(2)得到

${\begin{array}{*{20}{c}} {{E_{\rm{c}}}\left( {{{{Q}}_{{1}}},{{A}}} \right) = 2.945} ,\quad {{E_{\rm{c}}}\left( {{{{Q}}_2},{{A}}} \right) = 3.057} \;. \end{array}} $

对欧几里得损失函数,按式(3)可得

$ {\begin{array}{*{20}{c}} {{E_{\rm{e}}}\left( {{{{Q}}_{{1}}},{{A}}} \right) = 0.0492} ,\quad {{E_{\rm{e}}}\left( {{{{Q}}_2},{{A}}} \right) = 0.0725} \;. \end{array}} $

式中: ${{{E}}_{\rm c}}( \cdot )$为交叉熵损失, ${{{E}}_{\rm e}}\left( \cdot \right)$为欧几里得损失. 在这2种情况下,都有 ${{E}}\left( {{{{Q}}_{\rm{1}}},{{A}}} \right) < {{E}}\left( {{{{Q}}_{\rm{2}}},{{A}}} \right)$ . 根据式(4)可得

${\rm{NME}}\left( {{{{Q}}_{\rm{1}}},{{A}}} \right) > {\rm{NME}}\left( {{{{Q}}_{\rm{2}}},{{A}}} \right). $

结果表明,当前全卷积网络广泛采用的2种损失函数(式(2)或(3))均无法衡量特征点定位结果的优劣.

尽管这个例子是通过高斯核函数得到的,对于其他核函数[10]也有相同的结果. 使用交叉熵损失函数作为目标函数,在非限定人脸特征点定位数据集300-W和Menpo数据库上训练直到收敛,并且记录每个样本的交叉熵以及特征点检测误差,得出所有训练样本的平均交叉熵与人脸特征点NME之间的关系曲线,如图1所示. 从图1可以看到,当误差比较大的时候,交叉熵与NME之间的关系是单调的,符合预期;但是当误差比较小时,交叉熵与NME之间的关系是非单调的,表明此时损失函数无法准确衡量特征点定位的误差,因此难以进一步提高特征点定位精度.

图 1

图 1   交叉熵损失与归一化欧氏损失之间的关系曲线

Fig.1   Relationship between cross entropy loss and normalized Euclidean loss


1.2. 基于残差特征的级联沙漏网络

1.2.1. 结合残差特征的全卷积网络

本文采用基础网络是沙漏网络[14],如图2所示. 输入图像大小是256×256,先降采样到64×64的大小,然后输入到沙漏网络. 沙漏网络输出大小为64×64. 2个额外的反卷积层用于把64×64大小的概率矩阵恢复到256×256的大小. 其他细节请参考文献[14].

图 2

图 2   基于残差特征的沙漏网络示意图

Fig.2   Diagram of hourglass network based on residual characteristics


图2所示,从网络的中间层提取特征,并用于估计人脸特征点的残差. 残差特征定义为 $r = \varPhi ({f_m})$, 其中 $\varPhi $为一个多层神经网络, ${f_m}$为第 $m$张图像的特征. 使用欧几里得损失函数来回归人脸特征点的残差:

${{{L}}_{{\rm{RF}}}} = \frac{1}{2}\sum\limits_{m = 1}^M {{{\left\| {{{W}} \cdot r - \Delta {S_t}(m)} \right\|}^2}} {\rm{ }}{\rm{.}}$

式中: $M$为批梯度下降法一次处理的图片数目, ${{W}}$为全连接层的参数, $\Delta {S_t}(m)$为第 $t$级网络输出的人脸特征点检测结果与真实值的误差.

此外,定义交叉熵损失函数如下:

$ {{{L}}_{{\rm{LOSS}}}} = - \sum\limits_{m = 1}^M {\left[ {\sum\limits_i {\sum\limits_{jk} {Q_{jk}^i(m)\log\; (A_{jk}^i(m))} } } \right]} {\rm{ }}{\rm{.}} $

因此,总的目标函数为

${{L}} = \lambda {{{L}}_{{\rm{RF}}}} + {{{L}}_{{\rm{LOSS}}}}{\rm{ }}{\rm{.}}$

式中: $\lambda $为残差项的权重,用于控制残差项和交叉熵项的相对重要性.

首先使用交叉熵损失函数(式(2))训练网络直到收敛,然后把目标函数换成式(7),使用交叉熵损失函数和残差项训练整个网络. 测试时,将图像输入到网络中,同时预测出人脸特征点S以其残差项 $\Delta S$. 网络的输出是 $S$$\Delta S$的叠加:

${S_{{\rm{pred}}}} = S + \Delta S{\rm{ }}{\rm{.}}$

1.2.2. 基于残差特征的级联沙漏网络

基于第1.2.1节所述的结合残差特征的全卷积神网络,设计多级级联的结构,即结合残差特征的级联沙漏网络(RF-CHN). RF-CHN由2级全卷积网络组成:1)输入人脸图像 ${I_1}$,第一级网络输出人脸特征点的估计 ${S_1}$;2)计算出将 ${S_1}$变换到预定义的标准人脸形状 ${S_{\rm c}}$的相似变换 ${T_1}$,并将人脸图像通过双线性内插变换到正脸 ${I_2} = {T_1}({I_1})$;3)将变换后的人脸图像 ${I_2}$输入到第二级网络,获得人脸特征点的估计 ${S_2}$,即为最终的预测结果如图3(b)所示.

图 3

图 3   栈式沙漏网络(SHN)与级联沙漏网络

Fig.3   The structure of stacked hourglass network (SHN) and cascaded hourglass network


与RF-CHN最相关的是栈式沙漏网络(stacked hourgalss network,SHN)[14]. 栈式沙漏网络由若干个沙漏网络堆叠而成,将前级网络输出的特征图输入至下一级网络,最终得到人脸特征点的估计. 如图3所示为这2种不同结构的对比:栈式网络把前级的特征图输入至后级;级联网络把人脸图像进行校正之后输入至后级. 级联网络通过分级设计,各级网络具有分工. 其中,使用第一级网络粗估计人脸特征点,接着用第一级估计的人脸特征点通过相似变换校正人脸图像并输入到第二级网络以精确估计人脸特征点. 由于校正之后消除了姿态的影响,后级网络更容易达到更高的精度. 这样一个级联的结构可以有不止2级,在本实验中2级结构达到饱和性能.

2. 人脸特征点检测实验

2.1. 数据集

本研究在以下2个公开数据集上进行实验.

1)300-W数据集[16]. 300-W数据集由LFPW、HELEN、AFW和IBUG数据集组成,包含3 148张训练图片和689张测试图片. 这些图片采集自非限定条件下,包含不同姿态、光照情况下的人脸图像. 每张图片用68个特征点标定. 在689张测试图片中,有554张来自于HELEN和LFPW数据集,构成常规测试子集. 另外135张图片来自IBUG数据集,构成困难测试子集.

2)Menpo数据集[17]. Menpo是一个大规模的人脸特征点数据集,其图片包含正脸与侧脸. 训练集包含6 679张正脸图片和2 300张侧脸图片. 测试集包含12 006张正脸图片以及4 253张侧脸图片. 正脸图片用68个特征点标记,侧脸图片用39个特征点标记.

2.2. 实验结果与分析

2.2.1. 评测标准

本研究在当前公开的2个数据集(300-W和Menpo)上进行实验. 300-W数据集的图片在自然条件下采集,包含多姿态、遮挡、光照变化等多种情况,具有广泛的代表性. 300-W评测中的困难子集(即IBUG数据集)是当前最困难的数据集,可用于评测本文算法的鲁棒性. Menpo数据集包含海量的图片,可进一步验证算法在海量训练数据下的泛化能力. 本文算法的评测标准如表1所示,其中, n为数据集特征点数目,k为训练集样本数,m为测试集样本数.

表 1   不同数据集的评测标准

Tab.1  Testing protocol of different datasets

数据集 k m n
300-W 3 148 689 68
Menpo正脸 6 679 12 006 68
Menpo侧脸 2 300 4 253 39

新窗口打开| 下载CSV


2.2.2. 参数设置

本研究在配备英特尔i5-4590处理器以及英伟达GTX 1080图形处理器的工作站上进行实验,采用深度学习平台Caffe[18]实现. 通过随机镜像、旋转、平移、尺度变换等对每张图片进行扩增,将训练图像数目扩增到原来的30倍. 本研究使用随机梯度下降法(stochastic gradient descent, SGD)训练. 在训练过程中,学习率从0.03逐渐下降到3×10−4. 每当损失函数没有下降时,把学习率调整为原来的1/10. 在300-W和Menpo数据集上,只使用交叉熵损失函数对训练图片迭代10轮达到收敛,接着同时用交叉熵和残差损失对训练图片迭代1~2轮达到收敛. 式(7)中的超参数λ设置为0.5.

2.2.3. 实验结果分析

将本文算法与若干最新算法性能,包括基于参数化模型的研究[6]、CFSS[19]等;基于回归的SDM[8]、LBF[9]、TR-DRN[20]等;基于全卷积神经网络的RAR[12]、DCR[10]、DAN[21]等.

将本文级联沙漏网络(cascaded hourglass network,CHN)、结合残差特征的级联沙漏网络(RF-CHN)只在300-W数据集的训练集上训练,而CHN-Menpo、RF-CHN-Menpo在300-W和Menpo数据集的训练集上训练.

表2展示了本文算法与多种其他算法在300-W测试集上的平均归一化误差. 本文算法RF-CHN在常规子集上排名第三,其中平均归一化测试误差为4.18%;在困难子集以及完全集上排名第一. 表3展示了使用300-W和Menpo这2个数据集的训练集合并训练时本文算法的量化结果. 本文只跟Dan-Menpo[21]比较,这是因为该方法公布了源码. 可以看到,在完全集上本文算法的平均归一化误差比Dan-Menpo降低了0.25%.

表 2   在300-W测试集上的归一化平均误差(NME)(只使用300-W训练集)

Tab.2  Normalized mean error (NME) on 300-W test dataset with 300-W training data only

%
方法 常规子集 困难子集 全集
文献[7] 8.22 18.33 10.20
SDM[6] 5.57 15.40 7.50
LBF[9] 4.95 11.98 6.32
CFSS[19] 4.73 9.98 5.76
RAR[12] 4.12 8.35 4.94
DCR[10] 4.07 8.29 4.90
TR-DRN[21] 4.36 7.56 4.99
DAN[20] 4.42 7.57 5.03
CHN 4.22 7.97 4.95
RF-CHN 4.18 7.39 4.81

新窗口打开| 下载CSV


表 3   采用额外训练数据时在300-W测试集上的NME

Tab.3  NME on 300-W test dateset using additionaltraining data

%
算法名称 常规子集 困难子集 完全集
DAN-Menpo[20] 4.29 7.05 4.83
CHN 4.11 6.98 4.67
RF-CHN 4.03 6.84 4.58

新窗口打开| 下载CSV


图4展示了各个算法在300-W常规子集和困难子集上的累积误差分布(cumulative error distribution ,CED)曲线. 本文算法RF-CHN在常规子集上取得了与DCR[10]不相上下的性能,在困难集上与其他算法相比有较大的提升. 图5展示了本文算法在Menpo数据集上的累积误差分布曲线. 本文算法在正脸和侧脸测试数据上得到的结果优于文献[22]和[23]。文献[14]虽然取得了最高精度,但采用了额外数据,而本文算法只采用了Menpo训练数据.

图 4

图 4   在300-W的常规子集和困难子集上的累积误差分布(CED)曲线

Fig.4   Cumulative error distribution (CED) curves on common and challenging test sets of 300-W database


图 5

图 5   在Menpo测试集上的CED曲线

Fig.5   CED curves on Menpo test dataset


图6(a)展示了在300-W测试数据集上的特征点检测结果. 失败的例子以方框标出. 图6(b)是在Menpo数据集上的人脸特征点检测的结果. 第一行是本文算法预测值,第二行是真实值. 可以看到本文算法可以处理复杂的光照和姿态的情况. 在图6(b)中,可以看到本文算法即使在有较大姿态变化的人脸上也有很好的检测效果.

图 6

图 6   所提算法人脸特征点检测结果与真实值的对比

Fig.6   Comparison of real value and detection results of face feature point by proposed algorithm


2.2.4. 级联结构分析

为说明级联结构的优点并确定级联级数,本文在300-W数据集上采用不同级数的网络测试. 对CHN方法,级联结构的误差降低了0.75%;对于RF-CHN方法,级联结构的误差降低了0.67%. 当级联级数达到2级时,性能达到饱和.

为对比级联结构跟栈式结构的性能,在300-W数据集上测试相关算法. 其中,栈式沙漏网络(SHN)采用图3(a)的结构,由4级沙漏网络组成;级联沙漏网络(CHN)采用2级沙漏网络构成.

表4所示,t为级数,e为归一化欧几里得误差,p为参数数量. CHN方法在采用2级沙漏网络的情况下达到了与SHN采用4级沙漏网络类似的性能. 与SHN相比,CHN网络的参数数目为30.08 M,不到SHN的50%. 该结果表明,通过相似变换模块对输入图像进行校正可以有效提高后级网络的精度.

表 4   在300-W测试集上的NME

Tab.4  NME on 300-W test dataset %

方法 t e p/M
SHN 4 7.00 62.63
CHN 2 6.98 30.08
RF-CHN 2 6.84 34.34

新窗口打开| 下载CSV


2.2.5. 运行效率

本文提出的CHN及RF-CHN算法基于深度学习,需要使用GPU加速,因此主要比较本文算法与其他基于深度学习的基准算法. 在配备英特尔i5-4590处理器以及英伟达GTX 1080图形处理器的工作站上实验,用100张图片测试运行时间并计算本文算法的帧率. 所提算法的处理速度达到17.5 帧/s,基本满足实时性要求.

3. 结 语

本文分析了全卷积神经网络在训练和测试时采用不同评判准则的问题;提出了结合残差特征的级联沙漏网络结构,并将其应用于人脸特征点检测. 所提方法在公开的数据集上获得了最佳性能. 相比于栈式结构,提出的二级级联结构可获得与四级栈式结构相似的精度,大大降低了算法的复杂度. 实验结果表明:本文算法在300-W和Menpo数据集上取得了比以前方法更小的误差. 所提方法实现过程简单,具有较大的实际应用价值.

参考文献

山世光. 人脸识别中若干关键问题的研究[D]. 北京: 中国科学院研究生院, 2004.

[本文引用: 1]

SHANG Shi-guang. Study on some key issuses in face recognition[D]. Beijing: Institute of Computing Technology Chinese Academy of Sciences, 2004

[本文引用: 1]

刘伟锋. 人脸表情识别研究[D]. 合肥: 中国科学技术大学, 2007.

[本文引用: 1]

LIU Wei-feng. A study on facial expression recognition[D]. Hefei: University of Science and Technology of China, 2007

[本文引用: 1]

HASSNER T, HAREL S, PAZ E, et al. Effective face frontalization in unconstrained images [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4295-4304.

[本文引用: 1]

COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models [C] // European conference on computer vision. Freiburg: ECCV, 1998: 484-498.

[本文引用: 2]

COOTES T F, TAYLOR C J, COOPER D H, et al

Active shape models-their training and application

[J]. Computer vision and image understanding, 1995, 61 (1): 38- 59

DOI:10.1006/cviu.1995.1004     

XIONG X, TORRE F D L. Supervised descent method and its applications to face alignment [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 532-539.

[本文引用: 3]

RAMANAN D. Face detection, pose estimation, and landmark localization in the wild [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2879-2886.

[本文引用: 2]

HOTELLING, HAROLD

Analysis of a complex of statistical variables into principal components.

[J]. Journal of Educational Psychology, 1933, 24 (6): 417

DOI:10.1037/h0071325      [本文引用: 3]

REN S, CAO X, WEI Y, et al. Face alignment at 3000 FPS via regressing local binary features [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1685-1692.

[本文引用: 4]

LAI H, XIAO S, PAN Y, et al

Deep recurrent regression for facial landmark retection

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 28 (5): 1144- 1157

[本文引用: 10]

HONARI S, YOSINSKI J, VINCENT P, et al. Recombinator networks: Learning Coarse-to-fine feature aggregation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LAS VEGAS: IEEE, 2016: 5743-5752.

XIAO S, FENG J, XING J, et al. Robust facial landmark detection via recurrent attentive-refinement networks [C] // European Conference on Computer Vision. Amsterdam: ECCV, 2016: 57-72.

[本文引用: 4]

BULAT A, TZIMIROPOULOS G. Two-stage convolutional part heatmap regression for the 1st 3D face alignment in the wild (3DFAW) challenge [C] // European Conference on Computer Vision. Amsterdam: ECCV, 2016: 616-624.

[本文引用: 2]

YANG J, LIU Q, ZHANG K. Stacked hourglass network for robust facial landmark localisation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2025-2033.

[本文引用: 10]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[本文引用: 1]

SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. 300 faces in-the-wild challenge: the first facial landmark localization challenge [C] // Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney: ICCV, 2013: 397-403.

[本文引用: 1]

ZAFEIRIOU S, TRIGEORGIS G, CHRYSOS G, et al. The menpo facial landmark localisation challenge: a step towards the solution [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2116-2125.

[本文引用: 1]

JIA, YQ, SHELHAMER, et al. Caffe: convolutional architecture for fast feature embedding [J]. 2014: 675-678.

[本文引用: 1]

ZHU S, LI C, CHEN C L, et al. Face alignment by coarse-to-fine shape searching [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4998-5006.

[本文引用: 2]

KOWALSKI M, NARUNIEC J, TRZCINSKI T. Deep alignment network: a convolutional neural network for robust face alignment [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2034-2043.

[本文引用: 3]

LV J, SHAO X, XING J, et al. A deep regression architecture with two-stage re-initialization for high performance facial landmark detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3691-3700.

[本文引用: 3]

AMIR Z, TADAS B, LOUISPHILIPPE M. Convolutional experts constrained local model for facial landmark detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017, pp. 2051-2059.

[本文引用: 1]

ZHENHUA F, JOSEF K, MUHAMMAD A, et. al. Face detection, bounding box aggregation and pose estimation for robust facial landmark localisation in the wild [C] // Proceedings of the International Conference on Computer Vision and Pattern Recognition Workshop. Honolulu: IEEE, 2017: 2106-2115.

[本文引用: 1]

/