基于融合约束局部模型的三维人脸特征点定位
Feature fusion based constrained local model for three-dimensional facial landmark localization
通讯作者:
收稿日期: 2018-03-15
Received: 2018-03-15
作者简介 About authors
成翔昊(1993—),男,硕士,从事三维人脸特征点定位与识别研究.orcid.org/0000-0003-1100-742X.E-mail:
提出基于特征融合约束局部模型的三维人脸特征点定位算法. 该算法对每个特征点分别使用三维网格的深度信息和网格局部形状信息训练分类器,对分类器的响应进行融合. 使用基于融合响应的正则化特征点均值漂移算法进行模型拟合,实现特征点定位. 三维人脸特征点定位经常需要对每个特征点的候选点集进行遍历产生候选点组合,该算法使用模型拟合代替穷举搜索,避免了嵌套循环带来的快速增长的时间开销. 使用FRGC v2.0和Bosphorus数据库,对算法进行实验评估. FRGC v2.0库上的特征点平均误差为2.48~4.12 mm,总体检测成功率为97.3%,其中中性、温和及极端表情下的检测成功率分别为97.6%、97.4%和95.5%. Bosphorus库上3种姿态下的检测成功率分别是94%、95%和89%. 实验结果表明,提出方法具有较好的效果,对表情和小幅度的姿态变化具有较好的鲁棒性.
关键词:
An algorithm for automatic detection of landmarks on three-dimensional faces was proposed by using a feature fusion based constrained local model. A classifier based on depth information and a classifier based on local shape information of three-dimensional meshes were trained for each landmark. The responses of two classifiers were merged and the regularized landmark mean shift algorithm was applied on fitting for the localization of landmarks. Traversing candidates of each landmark is usually necessary in three-dimensional facial landmark localization to generate candidate combinations. The problem of time overhead for nested loops that increases rapidly by using model fitting instead of exhaustive search was solved. The approach was evaluated based on three-dimensional face databases: FRGC v2.0 and Bosphorus. The mean error of every landmark in the FRGC v2.0 is between 2.48 mm to 4.12 mm. The overall detection success rate is 97.3%, among which 97.6% for neutral expression, 97.4% for mild, 95.5% for extreme. On the Bosphorus database, the success rate of 94%, 95% and 89% was respectively achieved under three different poses. The experimental results show that the proposed approach is comparable to state-of-the-art methods in terms of its accuracy, and good robustness is achieved against expression and small pose variation.
Keywords:
本文引用格式
成翔昊, 达飞鹏, 汪亮.
CHENG Xiang-hao, DA Fei-peng, WANG Liang.
统计形状模型是计算机视觉领域一项常用的技术,可以用于定位二维图像中人脸、肢体和器官等目标物体上预定义的特征点. Cootes等提出基于二维图像的主动形状模型[6]、主动外观模型[7]和约束局部模型[8](constrained local model, CLM). 这些方法在对局部表面建模、训练和匹配优化策略部分使用不同的方法. 一些学者尝试使用基于二维图像的方法解决三维人脸特征点定位问题,Morency等[9]基于CLM模型提出CLM-Z框架,该方法结合二维图像的灰度信息和三维人脸的深度信息,使用正则化特征点均值漂移算法[10]作为模型匹配算法. Cheng等[11]提出结合三维人脸深度、天顶角和方位角信息的CLM模型,在人脸深度图上定位特征点. 这些方法仅仅使用了人脸的深度信息,无法很好地处理姿态变化.
基于三维人脸点云的统计形状模型方法通常需要提取一个关键点集. Nair等[12]建立三维点分布模型(point distribution model, PDM),该方法结合形状指数和曲度指数提取出特征点,生成特征点组合,通过最小化与模型形状的残差来实现定位. Perakis等[13]提出大的姿态变化下检测特征点的统计人脸特征点模型,使用形状指数和旋转图提取出关键点,通过普氏分析和旋转图相似度筛选出特征点. Creusot等[14]提出基于三维人脸的机器学习方法,计算训练集人脸每个特征点的10个局部描述符,为每个特征点训练一个分类器. 融合分类器的响应检测出关键点,使用随机抽样一致算法(random sample consensus, RANSAC)进行特征点选择. Sukno等[15]提出可以处理人脸缺失遮挡的方法,为每个特征点统计出按旋转图相似度从高到低排列,包含有效候选点需要提取的候选点数量. 提取出数量足够的候选点,使用基于RANSAC的方法定位特征点. 这些方法需要对关键点集中特征点的候选点集进行嵌套遍历,计算开销随着特征点数的增加迅速增长.
本文提出基于特征融合约束局部模型的三维人脸特征点定位算法. 为了更好地利用三维人脸网格的局部信息,该算法结合人脸的深度和表面形状信息,为每个特征点分别训练一个深度信息分类器和形状信息分类器. 使用训练得到的深度图人脸检测器的特征点平均位置作为算法的初始化位置,利用正则化特征点均值漂移算法进行模型拟合,实现特征点定位. 该方法由于使用模型拟合代替对候选点的嵌套遍历,与基于关键点检测的定位方法相比,在待定位较多特征点时的时间开销更小.
1. 约束局部模型原理
约束局部模型分为以下3部分:形状模型、局部模型和模型拟合. 形状模型和局部模型分别用来描述物体的结构形状和局部外观信息;模型拟合利用局部模型获得的响应,在形状模型的约束下调整参数向量,使当前模型拟合到最优位置.
1.1. 形状模型
大多数的形变模型匹配方法对非刚性物体的形变采用线性优化策略,本文使用点分布模型对非刚性形变进行线性建模,并与全局的刚性形变结合. 将特征点的坐标连接成一个向量,表示二维图像中的形状:
式中:
式中:
式中:
1.2. 局部模型
局部模型由
式中:
1.3. 模型拟合
CLM拟合的目标是搜索PDM参数
式中:
式(5)中的正则项和对齐误差函数可以表示为
CLM是局部方法,依赖于初始参数估计. 假设PDM参数的初始估计为
式中:
式中:
使用吉洪诺夫高斯-牛顿正则化方法,导出
2. 基于特征融合的约束局部模型
如图1所示, 提出融合深度信息和网格局部信息的局部模型. 对三维人脸点云进行均匀重采样,得到分辨率为1 mm的三维点云. 将点云转化为深度图以及网格化,在三维网格上的点与深度图的人脸像素点之间建立一一对应关系. 分别使用深度信息和三维网格信息训练分类器,融合2个分类器响应作为局部模型的响应.
图 1
图 1 基于特征融合约束局部模型的三维人脸特征点算法的总体框架
Fig.1 Framework of three-dimensional facial landmark localization algorithm based on feature fusion based constrained local model
2.1. 深度信息分类器
深度信息表示三维人脸到镜头的距离信息,参考文献[9]的方法,使用logistic回归表示深度信息响应:
式中:
其中
2.2. 形状信息分类器
参考文献[14],计算人脸网格的10个局部描述符. 包括6个曲率相关的标量描述符:最大曲率
2个与局部平面相关的标量描述符:局部平面距离和局部体积,表示网格点到其周围点形成的平面的最近距离以及该点与平面构成立方体的体积. 2个直方图描述符:旋转直方图[18]和球面直方图,分别统计一个点周围柱面和球面空间的点分布情况.
对于训练中的每个特征点,标量描述符值的分布可以用参数化的类条件概率密度分布近似. 使用2种概率密度函数(probability density function, PDF),对形状指数描述使用逆高斯分布函数,其他描述符使用高斯分布. 对于网格上的点
式中:
对于直方图描述符得分,需要计算描述符与平均直方图的差值并映射到一个标量上. 对于点
式中:
将10个描述符的得分级联成向量
2.3. 基于融合特征的模型拟合
人脸深度信息是三维点云在某个方向上的投影,仅仅使用深度信息无法有效地将人脸其他特征点和周围点区分开来. 三维人脸的表面具有更丰富的形状信息,不随着姿态变化发生形变,提取的特征对表情变化更加鲁棒. 本文融合深度信息和形状信息,使用
对1.3节的模型拟合算法进行修改. 使用深度图人脸检测器进行人脸检测,将训练集中特征点相对于人脸检测器的平均位置作为特征点初始化位置. 由于深度图内、外眼角距离大约为30像素,使用眼角距离一半的15像素作为矩形搜索区域的大小. 模型拟合算法的流程如下.
1)使用深度图人脸检测器初始化特征点位置,根据式(2)对模型参数
2)根据式(13)、(21)为每个特征点分别计算搜索窗口内的
3)根据式(10)计算均值漂移向量,按式(11)计算PDM参数更新
4)当
3. 实验结果
图 2
3.1. 实验结果评估
根据文献[13]的方法,从FRGC v2.0中选取300张正面人脸作为训练集,手动标记出人脸的14个特征点,为每个特征点分别训练深度信息分类器和形状信息分类器. 从FRGC v2.0中的149个对象里选出975张正面人脸,作为测试集.
使用平均误差、误差标准差和检测成功率,对特征点定位的效果进行量化评估. 特征点的平均误差表示测试集算法定位的特征点与真实特征点位置的距离平均值,误差标准差为训练集中这个特征点误差距离的标准差. 个体检测误差是一个样本14个特征点误差的平均值. 总体检测误差是训练集所有个体检测误差分布的均值和标准差. 总体检测成功率是训练集中个体检测误差在某个阈值中的比率,本文选取阈值为6 mm.
如表1所示,本文方法的总体平均误差和标准差分别为3.12和1.37 mm,总体检测成功率为97.3%. 其中,每个特征点的平均误差为2.48~4.12 mm. 本文方法对内眼角点的定位效果最佳,检测成功率分别是97.0%和96.5%;对下巴点的定位效果最差,检测成功率只有76.3%.
表 1 基于FRGCv2.0数据库的实验结果以及与其他算法的精度对比
Tab.1
检测误差/mm | 文献[14]方法 | 文献[15]方法 | 文献[21]方法 | 本文方法 | ||||||||
平均误差 | 标准差 | 平均误差 | 标准差 | 平均误差 | 标准差 | 平均误差 | 标准差 | 成功率/% | ||||
0 | 5.87 | 3.11 | 4.49 | 2.64 | 3.04 | 2.00 | 2.85 | 1.48 | 96.1 | |||
1 | 4.31 | 2.44 | 3.35 | 1.63 | 2.10 | 1.46 | 2.48 | 1.55 | 97.0 | |||
2 | 4.20 | 2.07 | 2.55 | 1.60 | — | — | 2.90 | 1.83 | 94.3 | |||
3 | 4.29 | 2.03 | 3.35 | 1.63 | 2.28 | 1.55 | 2.53 | 1.61 | 96.5 | |||
4 | 6.00 | 3.03 | 4.49 | 2.64 | 4.13 | 2.36 | 2.77 | 2.04 | 93.7 | |||
5 | 3.35 | 2.00 | 2.22 | 1.31 | 3.34 | 2.41 | 3.58 | 1.97 | 87.4 | |||
6 | 4.73 | 3.68 | 3.09 | 1.18 | 7.77 | 4.03 | 3.14 | 2.22 | 91.1 | |||
7 | 4.86 | 3.54 | 3.09 | 1,18 | 7.61 | 3.96 | 3.37 | 2.39 | 89.6 | |||
8 | 3.67 | 3.11 | 2.81 | 1.11 | — | — | 3.16 | 2.56 | 90.5 | |||
9 | 5.47 | 3.45 | 4.05 | 3.12 | 4.50 | 3.85 | 2.96 | 1.69 | 95.7 | |||
10 | 5.64 | 3.58 | 4.05 | 3.12 | 4.37 | 3.82 | 2.73 | 1.84 | 94.7 | |||
11 | 4.23 | 3.21 | 3.40 | 1.97 | 3.66 | 3.52 | 3.25 | 2.33 | 90.0 | |||
12 | 5.46 | 3.92 | 4.82 | 4.04 | 5.49 | 5.59 | 3.87 | 2.98 | 80.2 | |||
13 | 7.28 | 7.41 | 5.39 | 4.01 | 6.45 | 5.60 | 4.12 | 3.26 | 76.3 | |||
总体 | 4.95 | 3.33 | 3.44 | — | 4.97 | — | 3.12 | 1.37 | 97.3 |
为了验证特征融合的有效性,对仅基于深度信息和形状信息的CLM分别开展实验. 仅基于深度信息的CLM算法的总体误差和标准差为5.07和3.69 mm,仅基于局部形状信息的CLM算法的总体误差和标准差为3.76和2.34 mm. 可以看出,融合深度信息和形状信息后的特征点效果大大提高.
3.2. 表情姿态鲁棒性实验
为了评估算法在姿态和表情变化下的效果,开展以下2个实验.
1)将FRGC v2.0的测试集按照表情强度分为中性、温和和极端3个子集进行实验,计算3种表情强度下子集的总体平均误差和检测成功率. 3个子集的总体检测成功率分别为97.6%、97.4%和95.5%. 可以看出,在表情强度变化下,总体检测成功率没有发生很大的变化,该方法在表情变化下具有较好的鲁棒性.
2)使用Bosphorus库中不同姿态的人脸,对该方法在姿态变化下的鲁棒性进行测试. Bosphorus库包含7个尺度的偏航旋转、4个尺度的俯仰旋转、2个角度的交叉旋转. 随机抽取100张姿态为轻微上仰的人脸作为数据集DB1,100张姿态为轻微俯视的人脸作为数据集DB2,100张偏航角为10°的人脸作为数据集DB3. DB1、DB2和DB3的检测成功率分别为94%、95%和89%,相较于FRGC v2.0测试集97.3%的检测成功率没有很大的下滑,可得该方法在小幅度的姿态变化下具有较好的鲁棒性.
3.3. 与其他算法的对比实验
1)与其他算法的精度对比.
Creusot等[14]将每个三维网格分类器的响应融合,提取出人脸关键点,使用RANSAC算法搜索与模型匹配的候选点组合. 文献[14]算法的总体平均误差为4.95,误差标准差为3.33. Sukno等[15]将人脸点集按照旋转图相似度从高到低进行排列,统计出训练集中对于每个特征点要提取有效候选点,需要从高到低遍历的点的数量为50. 提取出每个特征点的候选点,使用RANSAC算法实现特征点定位. 文献[15]算法的总体平均误差为3.44. Camgöz 等[21]采用基于深度图的特征点定位方法. 该算法使用监督下降方法,训练一个通用下降方向序列和偏差项序列,更新特征点位置,实现特征点定位. 该方法仅仅用三维人脸的深度信息定位人脸的12个特征点,总体平均误差为4.97 mm,其中鼻翼点的平均检测误差分别为7.77和7.61 mm. 实验结果表明,在FRGC v2.0人脸集下,本文的特征点平均误差和总体平均误差都小于其他方法.
2)与其他算法的效率对比.
Creusot等[14-15]在定位特征点都使用RANSAC算法,需要反复选择数据中的随机子集,找到与模型匹配最佳的组合. Creusot等[14]使用阈值筛选出一组稀疏关键点集,算法的效率与关键点集的稀疏程度成正比,与定点精度成反比. 本文对FRGC v2.0数据库的点云进行均匀重采样,预处理后的每个点云包含大约4万个点,算法在i5处理器的Windows操作系统上使用C++进行编码,平均运行时间为1.05 s,使用GPU加速算法,效率可以提高几十倍. 文献[14]方法将FRGC v2.0数据库的点云稀释到平均包含3 000多个点,平均运行时间为1.18 s. 文献[15]方法给出的定位14个特征点的算法时间为31.5 s,该方法将点云稀释到平均包含4万个点.
4. 结 论
(1)提出基于三维网格、融合三维人脸深度信息和局部形状信息的约束局部模型. 分别为每个特征点训练深度信息分类器和形状信息分类器,有效利用三维人脸丰富的局部表面信息,将特征点与其他点区分开来.
(2)正则化特征点均值漂移算法使用对初始形状进行迭代回归的方法,代替对候选特征点穷举遍历,生成候选特征点组合,避免了嵌套循环造成的随着待定位特征点数量迅速增长的时间开销.
本文基于FRGC v2.0数据库和Bosphorus数据库,对该方法进行实验评估. 实验结果表明,本文方法在精度上取得了较好的效果,对于表情变化和小幅度的姿态变化具有较好的鲁棒性.
参考文献
基于关键点和局部特征的三维人脸识别
[J].
3D face recognition based on keypoints and local feature
[J].
基于网格纵横局部二值模式的三维人脸识别
[J].DOI:10.3969/j.issn.0254-3087.2016.06.027
A 3D face recognition method based on the local binary pattern from vertical and horizontal on the mesh
[J].DOI:10.3969/j.issn.0254-3087.2016.06.027
Efficient 3D face recognition using local covariance descriptor and Riemannian kernel sparse coding
[J].
Digital facial dysmorphology for genetic screening: Hierarchical constrained local model using ICA
[J].DOI:10.1016/j.media.2014.04.002 [本文引用: 1]
Active shape models-their training and application
[J].DOI:10.1006/cviu.1995.1004 [本文引用: 1]
Automatic feature localisation with constrained local models
[J].DOI:10.1016/j.patcog.2008.01.024 [本文引用: 1]
Deformable model fitting by regularized landmark mean-shift
[J].DOI:10.1007/s11263-010-0380-4 [本文引用: 1]
3-D face detection, landmark localization, and registration using a point distribution model
[J].DOI:10.1109/TMM.2009.2017629 [本文引用: 1]
3D facial landmark detection under large yaw and expression variations
[J].DOI:10.1109/TPAMI.2012.247 [本文引用: 2]
A machine-learning approach to keypoint detection and landmarking on 3D meshes
[J].DOI:10.1007/s11263-012-0605-9 [本文引用: 8]
3-D facial landmark localization with asymmetry patterns and shape regression from incomplete local features
[J].DOI:10.1109/TCYB.2014.2359056 [本文引用: 6]
Probabilistic visual learning for object representation
[J].DOI:10.1109/34.598227 [本文引用: 1]
/
〈 |
|
〉 |
