<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 交叉熵损失与归一化欧氏损失之间的关系曲线

Fig.1 Relationship between cross entropy loss and normalized Euclidean loss

1.2. 基于残差特征的级联沙漏网络

1.2.1. 结合残差特征的全卷积网络

本文采用基础网络是沙漏网络^[14]，如图2所示. 输入图像大小是256×256，先降采样到64×64的大小，然后输入到沙漏网络. 沙漏网络输出大小为64×64. 2个额外的反卷积层用于把64×64大小的概率矩阵恢复到256×256的大小. 其他细节请参考文献[14].

图 2

图 2 基于残差特征的沙漏网络示意图

Fig.2 Diagram of hourglass network based on residual characteristics

如图2所示，从网络的中间层提取特征，并用于估计人脸特征点的残差. 残差特征定义为 $r = \varPhi ({f_m})$, 其中 $\varPhi $为一个多层神经网络， ${f_m}$为第 $m$张图像的特征. 使用欧几里得损失函数来回归人脸特征点的残差：

(11) ${{{L}}_{{\rm{RF}}}} = \frac{1}{2}\sum\limits_{m = 1}^M {{{\left\| {{{W}} \cdot r - \Delta {S_t}(m)} \right\|}^2}} {\rm{ }}{\rm{.}}$

式中： $M$为批梯度下降法一次处理的图片数目， ${{W}}$为全连接层的参数， $\Delta {S_t}(m)$为第 $t$级网络输出的人脸特征点检测结果与真实值的误差.

此外，定义交叉熵损失函数如下：

(12) $ {{{L}}_{{\rm{LOSS}}}} = - \sum\limits_{m = 1}^M {\left[ {\sum\limits_i {\sum\limits_{jk} {Q_{jk}^i(m)\log\; (A_{jk}^i(m))} } } \right]} {\rm{ }}{\rm{.}} $

因此，总的目标函数为

(13) ${{L}} = \lambda {{{L}}_{{\rm{RF}}}} + {{{L}}_{{\rm{LOSS}}}}{\rm{ }}{\rm{.}}$

式中： $\lambda $为残差项的权重，用于控制残差项和交叉熵项的相对重要性.

首先使用交叉熵损失函数（式（2））训练网络直到收敛，然后把目标函数换成式（7），使用交叉熵损失函数和残差项训练整个网络. 测试时，将图像输入到网络中，同时预测出人脸特征点S以其残差项 $\Delta S$. 网络的输出是 $S$和 $\Delta S$的叠加：

(14) ${S_{{\rm{pred}}}} = S + \Delta S{\rm{ }}{\rm{.}}$

1.2.2. 基于残差特征的级联沙漏网络

基于第1.2.1节所述的结合残差特征的全卷积神网络，设计多级级联的结构，即结合残差特征的级联沙漏网络（RF-CHN）. RF-CHN由2级全卷积网络组成：1）输入人脸图像 ${I_1}$，第一级网络输出人脸特征点的估计 ${S_1}$；2）计算出将 ${S_1}$变换到预定义的标准人脸形状 ${S_{\rm c}}$的相似变换 ${T_1}$，并将人脸图像通过双线性内插变换到正脸 ${I_2} = {T_1}({I_1})$；3）将变换后的人脸图像 ${I_2}$输入到第二级网络，获得人脸特征点的估计 ${S_2}$，即为最终的预测结果如图3（b）所示.

图 3

图 3 栈式沙漏网络（SHN）与级联沙漏网络

Fig.3 The structure of stacked hourglass network (SHN) and cascaded hourglass network

与RF-CHN最相关的是栈式沙漏网络（stacked hourgalss network，SHN）^[14]. 栈式沙漏网络由若干个沙漏网络堆叠而成，将前级网络输出的特征图输入至下一级网络，最终得到人脸特征点的估计. 如图3所示为这2种不同结构的对比：栈式网络把前级的特征图输入至后级；级联网络把人脸图像进行校正之后输入至后级. 级联网络通过分级设计，各级网络具有分工. 其中，使用第一级网络粗估计人脸特征点，接着用第一级估计的人脸特征点通过相似变换校正人脸图像并输入到第二级网络以精确估计人脸特征点. 由于校正之后消除了姿态的影响，后级网络更容易达到更高的精度. 这样一个级联的结构可以有不止2级，在本实验中2级结构达到饱和性能.

2. 人脸特征点检测实验

2.1. 数据集

本研究在以下2个公开数据集上进行实验.

1）300-W数据集^[16]. 300-W数据集由LFPW、HELEN、AFW和IBUG数据集组成，包含3 148张训练图片和689张测试图片. 这些图片采集自非限定条件下，包含不同姿态、光照情况下的人脸图像. 每张图片用68个特征点标定. 在689张测试图片中，有554张来自于HELEN和LFPW数据集，构成常规测试子集. 另外135张图片来自IBUG数据集，构成困难测试子集.

2）Menpo数据集^[17]. Menpo是一个大规模的人脸特征点数据集，其图片包含正脸与侧脸. 训练集包含6 679张正脸图片和2 300张侧脸图片. 测试集包含12 006张正脸图片以及4 253张侧脸图片. 正脸图片用68个特征点标记，侧脸图片用39个特征点标记.

2.2. 实验结果与分析

2.2.1. 评测标准

本研究在当前公开的2个数据集（300-W和Menpo）上进行实验. 300-W数据集的图片在自然条件下采集，包含多姿态、遮挡、光照变化等多种情况，具有广泛的代表性. 300-W评测中的困难子集（即IBUG数据集）是当前最困难的数据集，可用于评测本文算法的鲁棒性. Menpo数据集包含海量的图片，可进一步验证算法在海量训练数据下的泛化能力. 本文算法的评测标准如表1所示，其中， n为数据集特征点数目，k为训练集样本数，m为测试集样本数.

表 1 不同数据集的评测标准

Tab.1 Testing protocol of different datasets

数据集	k	m	n
300-W	3 148	689	68
Menpo正脸	6 679	12 006	68
Menpo侧脸	2 300	4 253	39

2.2.2. 参数设置

本研究在配备英特尔i5-4590处理器以及英伟达GTX 1080图形处理器的工作站上进行实验，采用深度学习平台Caffe^[18]实现. 通过随机镜像、旋转、平移、尺度变换等对每张图片进行扩增，将训练图像数目扩增到原来的30倍. 本研究使用随机梯度下降法（stochastic gradient descent, SGD）训练. 在训练过程中，学习率从0.03逐渐下降到3×10⁻⁴. 每当损失函数没有下降时，把学习率调整为原来的1/10. 在300-W和Menpo数据集上，只使用交叉熵损失函数对训练图片迭代10轮达到收敛，接着同时用交叉熵和残差损失对训练图片迭代1~2轮达到收敛. 式（7）中的超参数λ设置为0.5.

2.2.3. 实验结果分析

将本文算法与若干最新算法性能，包括基于参数化模型的研究^[6]、CFSS^[19]等；基于回归的SDM^[8]、LBF^[9]、TR-DRN^[20]等；基于全卷积神经网络的RAR^[12]、DCR^[10]、DAN^[21]等.

将本文级联沙漏网络（cascaded hourglass network，CHN）、结合残差特征的级联沙漏网络（RF-CHN）只在300-W数据集的训练集上训练，而CHN-Menpo、RF-CHN-Menpo在300-W和Menpo数据集的训练集上训练.

表2展示了本文算法与多种其他算法在300-W测试集上的平均归一化误差. 本文算法RF-CHN在常规子集上排名第三，其中平均归一化测试误差为4.18%；在困难子集以及完全集上排名第一. 表3展示了使用300-W和Menpo这2个数据集的训练集合并训练时本文算法的量化结果. 本文只跟Dan-Menpo^[21]比较，这是因为该方法公布了源码. 可以看到，在完全集上本文算法的平均归一化误差比Dan-Menpo降低了0.25%.

表 2 在300-W测试集上的归一化平均误差（NME）（只使用300-W训练集）

Tab.2 Normalized mean error (NME) on 300-W test dataset with 300-W training data only

%
方法	常规子集	困难子集	全集
文献[7]	8.22	18.33	10.20
SDM^[6]	5.57	15.40	7.50
LBF^[9]	4.95	11.98	6.32
CFSS^[19]	4.73	9.98	5.76
RAR^[12]	4.12	8.35	4.94
DCR^[10]	4.07	8.29	4.90
TR-DRN^[21]	4.36	7.56	4.99
DAN^[20]	4.42	7.57	5.03
CHN	4.22	7.97	4.95
RF-CHN	4.18	7.39	4.81

表 3 采用额外训练数据时在300-W测试集上的NME

Tab.3 NME on 300-W test dateset using additionaltraining data

%
算法名称	常规子集	困难子集	完全集
DAN-Menpo^[20]	4.29	7.05	4.83
CHN	4.11	6.98	4.67
RF-CHN	4.03	6.84	4.58

图4展示了各个算法在300-W常规子集和困难子集上的累积误差分布（cumulative error distribution ，CED）曲线. 本文算法RF-CHN在常规子集上取得了与DCR^[10]不相上下的性能，在困难集上与其他算法相比有较大的提升. 图5展示了本文算法在Menpo数据集上的累积误差分布曲线. 本文算法在正脸和侧脸测试数据上得到的结果优于文献[22]和[23]。文献[14]虽然取得了最高精度，但采用了额外数据，而本文算法只采用了Menpo训练数据.

图 4

图 4 在300-W的常规子集和困难子集上的累积误差分布（CED）曲线

Fig.4 Cumulative error distribution (CED) curves on common and challenging test sets of 300-W database

图 5

图 5 在Menpo测试集上的CED曲线

Fig.5 CED curves on Menpo test dataset

图6(a)展示了在300-W测试数据集上的特征点检测结果. 失败的例子以方框标出. 图6(b)是在Menpo数据集上的人脸特征点检测的结果. 第一行是本文算法预测值，第二行是真实值. 可以看到本文算法可以处理复杂的光照和姿态的情况. 在图6(b)中，可以看到本文算法即使在有较大姿态变化的人脸上也有很好的检测效果.

图 6

图 6 所提算法人脸特征点检测结果与真实值的对比

Fig.6 Comparison of real value and detection results of face feature point by proposed algorithm

2.2.4. 级联结构分析

为说明级联结构的优点并确定级联级数，本文在300-W数据集上采用不同级数的网络测试. 对CHN方法，级联结构的误差降低了0.75%；对于RF-CHN方法，级联结构的误差降低了0.67%. 当级联级数达到2级时，性能达到饱和.

为对比级联结构跟栈式结构的性能，在300-W数据集上测试相关算法. 其中，栈式沙漏网络（SHN）采用图3(a)的结构，由4级沙漏网络组成；级联沙漏网络（CHN）采用2级沙漏网络构成.

如表4所示，t为级数，e为归一化欧几里得误差，p为参数数量. CHN方法在采用2级沙漏网络的情况下达到了与SHN采用4级沙漏网络类似的性能. 与SHN相比，CHN网络的参数数目为30.08 M，不到SHN的50%. 该结果表明，通过相似变换模块对输入图像进行校正可以有效提高后级网络的精度.

表 4 在300-W测试集上的NME

Tab.4 NME on 300-W test dataset %

方法	t	e	p/M
SHN	4	7.00	62.63
CHN	2	6.98	30.08
RF-CHN	2	6.84	34.34

2.2.5. 运行效率

本文提出的CHN及RF-CHN算法基于深度学习，需要使用GPU加速，因此主要比较本文算法与其他基于深度学习的基准算法. 在配备英特尔i5-4590处理器以及英伟达GTX 1080图形处理器的工作站上实验，用100张图片测试运行时间并计算本文算法的帧率. 所提算法的处理速度达到17.5 帧/s，基本满足实时性要求.

3. 结　语

本文分析了全卷积神经网络在训练和测试时采用不同评判准则的问题；提出了结合残差特征的级联沙漏网络结构，并将其应用于人脸特征点检测. 所提方法在公开的数据集上获得了最佳性能. 相比于栈式结构，提出的二级级联结构可获得与四级栈式结构相似的精度，大大降低了算法的复杂度. 实验结果表明：本文算法在300-W和Menpo数据集上取得了比以前方法更小的误差. 所提方法实现过程简单，具有较大的实际应用价值.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

山世光. 人脸识别中若干关键问题的研究[D]. 北京: 中国科学院研究生院, 2004.

SHANG Shi-guang. Study on some key issuses in face recognition[D]. Beijing: Institute of Computing Technology Chinese Academy of Sciences, 2004

[2]

刘伟锋. 人脸表情识别研究[D]. 合肥: 中国科学技术大学, 2007.

LIU Wei-feng. A study on facial expression recognition[D]. Hefei: University of Science and Technology of China, 2007

[3]

HASSNER T, HAREL S, PAZ E, et al. Effective face frontalization in unconstrained images [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4295-4304.

[4]

COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models [C] // European conference on computer vision. Freiburg: ECCV, 1998: 484-498.

[5]

COOTES T F, TAYLOR C J, COOPER D H, et al

Active shape models-their training and application

[J]. Computer vision and image understanding, 1995, 61 (1): 38- 59

DOI:10.1006/cviu.1995.1004

[6]

XIONG X, TORRE F D L. Supervised descent method and its applications to face alignment [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 532-539.

[本文引用: 3]

[7]

RAMANAN D. Face detection, pose estimation, and landmark localization in the wild [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2879-2886.

[8]

HOTELLING, HAROLD

Analysis of a complex of statistical variables into principal components.

[J]. Journal of Educational Psychology, 1933, 24 (6): 417

DOI:10.1037/h0071325 [本文引用: 3]

[9]

REN S, CAO X, WEI Y, et al. Face alignment at 3000 FPS via regressing local binary features [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1685-1692.

[本文引用: 4]

[10]

LAI H, XIAO S, PAN Y, et al

Deep recurrent regression for facial landmark retection

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 28 (5): 1144- 1157

[本文引用: 10]

[11]

HONARI S, YOSINSKI J, VINCENT P, et al. Recombinator networks: Learning Coarse-to-fine feature aggregation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LAS VEGAS: IEEE, 2016: 5743-5752.

[12]

XIAO S, FENG J, XING J, et al. Robust facial landmark detection via recurrent attentive-refinement networks [C] // European Conference on Computer Vision. Amsterdam: ECCV, 2016: 57-72.

[本文引用: 4]

[13]

BULAT A, TZIMIROPOULOS G. Two-stage convolutional part heatmap regression for the 1st 3D face alignment in the wild (3DFAW) challenge [C] // European Conference on Computer Vision. Amsterdam: ECCV, 2016: 616-624.

[14]

YANG J, LIU Q, ZHANG K. Stacked hourglass network for robust facial landmark localisation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2025-2033.

[本文引用: 10]

[15]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[16]

SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. 300 faces in-the-wild challenge: the first facial landmark localization challenge [C] // Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney: ICCV, 2013: 397-403.

[17]

ZAFEIRIOU S, TRIGEORGIS G, CHRYSOS G, et al. The menpo facial landmark localisation challenge: a step towards the solution [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2116-2125.

[18]

JIA, YQ, SHELHAMER, et al. Caffe: convolutional architecture for fast feature embedding [J]. 2014: 675-678.

[19]

ZHU S, LI C, CHEN C L, et al. Face alignment by coarse-to-fine shape searching [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4998-5006.

[20]

KOWALSKI M, NARUNIEC J, TRZCINSKI T. Deep alignment network: a convolutional neural network for robust face alignment [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 2034-2043.

[本文引用: 3]

[21]

LV J, SHAO X, XING J, et al. A deep regression architecture with two-stage re-initialization for high performance facial landmark detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3691-3700.

[本文引用: 3]

[22]

AMIR Z, TADAS B, LOUISPHILIPPE M. Convolutional experts constrained local model for facial landmark detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017, pp. 2051-2059.

[23]

ZHENHUA F, JOSEF K, MUHAMMAD A, et. al. Face detection, bounding box aggregation and pose estimation for robust facial landmark localisation in the wild [C] // Proceedings of the International Conference on Computer Vision and Pattern Recognition Workshop. Honolulu: IEEE, 2017: 2106-2115.