<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 三维掌纹识别方法流程图

Fig.1 Framework of 3D palmprint recognition method

三维掌纹数据在采集过程中往往容易受到噪声的干扰，手掌本身也不是一个刚性的物体，形变情况不可避免，因此，传统的迭代就近点方法（iterative closest point，ICP）并不适用于三维掌纹识别. 为了较好地提取三维掌纹的局部细节特征，采用曲率特征、形状指数、表面类型来进行描述，并将上述特征作为后续深度学习方法的输入.

1.1. 平均曲率和高斯曲率

平均曲率和高斯曲率是表面的内在量度，对于旋转、平移甚至非刚性形变具有鲁棒性. 在三维掌纹识别中平均曲率和高斯曲率都具有独特的性质^[9]：平均曲率确定了掌纹表面的形状，而高斯曲率确定了掌纹凹凸面的形状. 对于任一三维掌纹曲面S（u，v，f（u，v）），高斯曲率（Gaussian curvature）G和平均曲率（mean curvature）M的计算公式如下:

(1) $G {\rm{= }}\frac{{{f_{uu}}{f_{vv}} - f_{uv}^2}}{{{{(1 + f_u^2 + f_v^2)}^2}}},$

(2) $M {\rm{= }}\frac{{(1 + f_u^2){f_{vv}} + (1 + f_v^2){f_{uu}} - 2{f_u}{f_v}{f_{uv}}}}{{2{{(1 + f_u^2 + f_v^2)}^{3/2}}}}.$

式中： ${f_u}$、 ${f_v}$、 ${f_{uu}}$、 ${f_{vv}}$、 ${f_{uv}}$分别代表曲面的一阶、二阶以及混合偏导数. 在实际应用中，本文首先通过式（3）将平均曲率和高斯曲率归一化到[0，1]：

(3) $\overline C (i,j) = 0.5 \times [C(i,j) - \mu ]/(4\sigma) + 0.5.$

式中：C为平均曲率或高斯曲率， $\mu $和 $\sigma $分别为对应曲率图的均值和方差. 因此， $\overline C (i,j)$可映射到8位灰度图像 $\overline G \left( {i,j} \right)$：

(4) $\overline G \left( {i,j} \right) = \left\{ {\begin{array}{*{20}{c}} 0,\quad\quad\quad\quad\quad\quad\quad\quad\;\\ \begin{array}{c} {\rm{round}}\;\left( {255\times \overline C \left( {i,j} \right)} \right),\;\\ 255,\quad\quad\quad\quad\quad\quad\quad\quad \end{array} \end{array}} \right.\begin{array}{*{20}{c}} {\overline C \left( {i,j} \right) \leqslant 0};\quad\quad\;\\ {0 < \overline C \left( {i,j} \right) < 1};\\ {\overline C \left( {i,j} \right) \geqslant 1}.\quad\quad\; \end{array}$

式中：round代表四舍五入操作.

图2展示了3种不同手掌的平均曲率和高斯曲率图像，其中图2（a）、（b）、（c）为平均曲率图，图2（d）、（e）、（f）为对应的高斯曲率图. 图2（a）和（b）来自同一个手掌的2个不同时期，图2（c）则来自另一个手掌. 可以看出，平均曲率和高斯曲率图像可以很好地描绘三维手掌表面主线和纹理特征，同时保存了不同形状结构的深度信息.

图 2

图 2 不同三维手掌平均曲率图与高斯曲率图

Fig.2 Mean curvature images and Gaussian curvature images of different 3D palms

1.2. 形状指数

根据第1.1节计算得出的平均曲率和高斯曲率，可以得到形状指数特征. 考虑曲面S上通过点P的所有曲线，每条曲线 ${C_i}$在P处都具有相应的曲率 ${k_i}$. 令所有曲率 ${k_i}$中的最大值为 ${k_{\max }}$，最小值为 ${k_{\min }}$， ${k_{\max }}$和 ${k_{\min }}$称为曲面S上点P的主曲率，计算公式如下：

(5) ${k_{\max }},{k_{\min }} = M \pm \sqrt {{M^2} - G}. $

在获取最大、最小曲率值后，根据文献[6]中所提出的方法，形状指数（shape index，SI）可表示为

(6) ${\rm {SI}} = \frac{1}{2} - \frac{1}{{\text{π}} }\arctan \left( {\frac{{{k_{\max }} + {k_{\min }}}}{{{k_{\max }} - {k_{\min }}}}} \right).$

目前，现有的三维掌纹识别方法大多利用掌纹的平均曲率和高斯曲率来提取特征，而研究表明，形状指数不易受到平移、旋转和尺度变换的影响，能够刻画三维掌纹几何结构上细微的变化^[6]. 同时，由于形状指数图取值在[0，1]，可以直接将其转化为8位灰度图像：

(7) $\overline G\left( {i,j} \right) = {\rm{round}}\;\left( {255 \times {\rm {SI}}\left( {i,j} \right)} \right).$

图3显示了三维掌纹的形状指数图，其中图3（a）和（b）为同一个手掌在2个不同时期的形状指数图，图3（c）则为另外一个手掌的形状指数图. 从图3中可以看出，形状指数不但可以有效地提取出三维掌纹中的主要线条，同时保留了掌纹表面的很多细节.

图 3

图 3 不同三维手掌形状指数图

Fig.3 Shape index images of different 3D palms

1.3. 表面类型

表面类型(surface type, ST)将平均曲率和高斯曲率以不同方式组合到一起来描述三维掌纹的特征，其具有高度的辨识力，而且对于掌纹的误对齐也表现出了很好的效果。假定根据式（1）、（2）得到平均曲率和高斯曲率，则三维表面类型的定义如表1所示，其中包括8种基本类型和1个M=0、G>0的特例.

表 1 三维表面类型定义

Tab.1 Three dimensional surface type definition

曲率	G> 0	G = 0	G< 0
M< 0	峰（ST = 1）	岭（ST = 2）	鞍岭（ST = 3）
M= 0	无（ST = 4）	平坦（ST = 5）	低点（ST = 6）
M> 0	坑（ST = 7）	谷（ST = 8）	鞍谷（ST = 9）

在实际应用中，平均曲率和高斯曲率的取值为浮点数. 为了确定M=0、G=0这一特定的类型，首先对平均曲率和高斯曲率取值进行归一化：

(8) $\overline C (i,j) = C(i,j)/(2\sigma) .$

通过采用上述策略，绝大多数曲率取值被映射到区间[−1，1]. 因此，可以设定一个阈值，当曲率绝对值小于该阈值时，则认为当前曲率值为0. 最终，三维掌纹中每个点都可以对应9种类型中的一个，对于每个三维掌纹就能得到其对应的表面类型图，如图4所示. 其中图4（a）和（b）来自同一个手掌的2个不同的时期，而图（c）则来自另外一个手掌.

图 4

图 4 不同三维手掌表面类型图

Fig.4 Surface type images of different 3D palms

2. 深度学习

深度学习是一种允许计算机系统从经验和数据中得到提高的技术，具有强大的识别能力和灵活性. 卷积神经网络（CNN）在深度学习的历史中发挥了重要作用，目前仍然是当今深度学习商业应用的前沿. 典型的卷积神经网络体系结构由卷积层、池化层、回归层组成.

1）卷积层. 使用卷积核，通过对输入图像进行反卷积来优化每个卷积单元的参数，通过逐层卷积运算不断从图像中提取复杂的纹理特征. 卷积运算由于具有稀疏交互、参数共享、等变表示等特性，极大地减少了神经网络的训练参数. 卷积计算结束之后加上一个偏置值，得到卷积神经网络的输出. 卷积层的计算公式可以表示为

(9) ${{{X}}_i} = f\left(\sum\limits_{{M_j}} {{{{X}}_{i - 1}}} {W_{ij}} + {b_i}\right).$

式中： ${{{X}}_i}$为第i个卷积神经网络的输出， ${M_j}$为当前卷积层中卷积核数量， ${{{X}}_{i - 1}}$为输入的特征图， ${W_{ij}}$为权重， ${b_i}$为偏置值.

2）池化层. 池化函数使用某一位置的相邻像素总体统计特征来代替网络在该位置的输出，具体操作时，将每个相邻的像素相加以得到一个新像素，然后通过采样函数down，并用标量 ${W_i}$加权该像素，最后增加偏置 ${b_i}$. 池化层计算公式可以表示为

(10) ${{{X}}_i} = {\rm{down}}\left( {{{{X}}_{i - 1}}} \right){W_i} + {b_i}.$

3）Softmax回归层. Softmax回归层主要用于解决多分类问题，对于输入 ${X_i}$，每一个类别分别估算出概率值P. 得出相应的概率并使用 ${{\left[ {\sum\nolimits_{j = 1}^k {{{\rm{exp}}\;({\theta _j^{\rm{T}}{X_i}}}} }) \right]}}^{-1}$进行归一化，使得所有概率相加值为1. 概率值最大即为预测类. Softmax可按下式计算：

(11) $ {h_\theta }\left( {{x_i}} \right) = \left[\!\!\! {\begin{array}{*{20}{c}} {P\left( {{y^i} = 1|{{{X}}_i};{{\theta}} } \right)}\\ {P\left( {{y^i} = 2|{{{X}}_i};{{\theta}} } \right)}\\ {P\left( {{y^i} = 3|{{{X}}_i};{{\theta}} } \right)}\\ {\vdots}\\ {P\left( {{y^i} = k|{{{X}}_i};{{\theta}} } \right)} \end{array}} \!\!\!\right] = \frac{1}{{\sum\nolimits_{j = 1}^k {{{\rm{exp}}\;({{{\theta}} _j^{\rm{T}}{{{X}}_i}}})} }}\left[\!\!\! \begin{array}{*{20}{c}} {{\rm{exp}}\;({{{\theta}} _1^{\rm{T}}{{{X}}_i}})}\\ {{\rm{exp}}\;({{{\theta}} _2^{\rm{T}}{{{X}}_i}})}\\ {{\rm{exp}}\;({{{\theta}} _3^{\rm{T}}{{{X}}_i}})}\\ {\vdots}\\ {{\rm{exp}}\;({{{\theta}} _k^{\rm{T}}{{{X}}_i}})} \end{array}\!\!\! \right] \cdot $

为了对不同的卷积神经网络进行全面比较和分析，选用4种典型的卷积神经网络模型，包括AlexNet^[10]、GoogleNet^[11]、Vgg16^[12]、ResNet50^[13]：其中AlexNet包含8个层，前5层为卷积层，后3层为全连接层；GoogleNet包含22层，采用了Inception模块化的结构，额外增加了2个Softmax用于梯度前向传导，并且增加了2个loss来避免梯度回传消失；Vgg16由5个池化层和13个卷积层组成，所有的隐藏层都包含RuLU激活函数；ResNet50与传统的网络结构最大的区别在于ResNet网络结构通过捷径连接的方式，把输入传到输出作为初始结果.

3. 实验结果与讨论

3.1. 三维掌纹数据库

本文使用香港理工三维掌纹数据库^[14]进行实验，该数据库总计有400 个不同三维掌纹类别，因此上述4种神经网络的输出为一个400维的向量. 该数据中包括8 000 个不同掌纹，分属200个不同人，其中男性为136 人，女性为64 人，年龄跨度在10~55 岁. 其中单独个人的三维掌纹数据分2次采集，采集时间间隔为1 个月. 每次采集时，记录单独个体左、右手各10 个三维掌纹数据. 同一个体左手或者右手的三维掌纹被视为同一类，总计有400 个不同类别，每一类别包括20 个三维掌纹. 相应地，第2章所述的4种神经网络的输出为一个400维向量. 原始三维掌纹的空间分辨率为768×576，Z方向上的精度为32 bit. 三维掌纹的中心区域（大小为128×128）通过感兴趣区域方法裁剪获得，并将其用于后续的特征提取和识别. 该数据库三维掌纹图像如图5所示，其中图5（a）和（b）来源于同一个手掌的两次不同采集时期，图5（c）则为另外一个手掌（为了便于观察，已经将其视角进行调整）.

图 5

图 5 香港理工大学三维掌纹数据库示例图像

Fig.5 Examples from Hong Kong Polytechnic University 3D palmprint database

3.2. 三维掌纹识别实验

本文在上述数据库上进行三维掌纹识别实验，将实验结果与目前流行的三维掌纹识别方法^{[5, 7, 15]}进行比较. 同时，本文也尝试将二维掌纹识别领域新颖的方向特征编码^[16-17]思想引入到三维掌纹识别领域中，并进行讨论. 实验中，平台如下：操作系统：Windows 10；CPU：i5-8400 CPU @2.80GHz；GPU：GTX1060；内存：8 GB RAM；深度学习框架：Caffe.

识别实验属于一对多（one-against-many）的比较过程，尝试确定输入三维掌纹所归属的类别. 本文识别实验设计如下：首先从每一类中随机挑选N（N=1，2，4，10）个样本作为训练样本（training sample），将该类其他样本视为探测样本（probe sample）. 最后通过统计不同方法首选识别率（rank-one recognition rate）R来衡量方法的性能.

在训练样本数量N=10的前提下，首先分别提取三维掌纹的平均曲率、高斯曲率、表面类型特征，并将所提出的基于深度学习（采用AlexNet模型）的三维掌纹识别方法与目前流行的三维掌纹识别方法^[5,15]进行比较，如表2所示.

表 2 不同三维掌纹识别方法识别准确率比较

Tab.2 Identification accuracy by using different 3D palmprint recognition methods %

三维特征	表面类型	平均曲率	高斯曲率
文献[5]	99.15	93.55	67.10
文献[15]	98.78	91.88	91.87
AlexNet模型	99.40	99.20	98.75

通过表2可以看出，所提出的基于深度学习的三维掌纹识别方法在识别性能上有较明显的优势. 从表面类型特征的识别结果看，本文方法的准确率较文献[5]方法有所提高；在平均曲率和高斯曲率特征上，相对于文献[5]方法，本文方法识别准确率提升非常显著，由此验证了本文方法的有效性和鲁棒性. 值得注意的是，由于平均曲率和高斯曲率分别代表了掌纹图像的表面形状和凹凸结构，将这2种特征结合到一起所得到的表面类型描述了更丰富的三维掌纹几何特征，取得了更高的识别准确率.

Fei等^[7]使用精确方向编码和紧凑表面类型的混合表达来提取三维掌纹特征. 为了进行全面的比较，首先在本文方法、文献[5]方法中使用表面类型提取三维掌纹特征，然后在训练样本数量为N=1、2、4、10的条件下，对上述3种方法进行识别实验，如表3所示. 实验结果表明：当训练样本较少时（N=1，2），本文所采用的基于深度学习的掌纹识别方法与文献[7]方法相比较有一定性能差距，但随着训练样本的增加（N=4，10），两者在识别率上的差异并不明显. 另一方面，文献[7]采用2种特征的混合表达来提取三维掌纹，而本文方法仅采用表面类型这一单一特征. 因此，认为采用混合特征提取三维掌纹信息，并将其作为深度学习网络的输入，将进一步提升本文方法的性能，这也是未来的研究方向之一. 同时，由于深度学习网络可以直接输出三维掌纹对于各种类别的概率，在运行时间上本文方法要优于文献[7]方法，更适合一些对实时性要求较高的领域.

表 3 不同训练样本条件下识别准确率比较

Tab.3 Identification accuracy by using different training samples %

方法	N=1	N=2	N=4	N=10
ST+文献[5]	90.22	94.17	97.26	99.15
ST+ AlexNet	91.37	95.83	99.05	99.40
CBR^[7]	95.11	97.31	99.52	99.66

目前，二维掌纹识别领域涌现出一些新颖的方向特征编码思想^[16-17]，本文尝试将其引入三维掌纹识别方面，并进行实验. 实验设置如下：将训练样本数量设置为N=10，首先采用表面类型提取三维掌纹特征，随后采用方向特征编码并进行识别，得到的首选识别率分别为0.991 2^[16]和0.990 3^[17]，识别性能基本上与基于协同表示的方法^[5]相当.

3.3. 运行时间分析及不同特征、网络结构的性能讨论

为了验证各种方法的应用性能，表4列举了各种掌纹识别方法的运行时间t_r. 从表4中可以看出，目前流行的三维掌纹识别方法^[5，7，15]运行耗时较多，而深度学习网络可以直接输出三维掌纹对于各种类别的概率，因此所提方法能够快速识别三维掌纹所属类别，其时间消耗较少，比较适合一些对实时性要求比较高的场合，进一步表明了所提方法的优越性.

表 4 不同三维掌纹识别方法的运行时间

Tab.4 Runtime of different 3D palmprint recognition methods ms

方法	t_r	方法	t_r
ST^[15]	63 275.86	CBR^[7]	858.29
MCI^[15]	9 403.33	AlexNet+ST	96.562
GCI^[15]	9 403.30	AlexNet+MCI	94.993
ST^[5]	547.03	AlexNet+GCI	94.352

为了进行全面的比较，对不同的三维特征、不同网络结构的深度学习模型进行三维掌纹识别实验（N=10），如表5、6所示. 可以看出，相比于目前流行的三维掌纹识别方法^[5，7，15]，不同网络结构的深度学习模型对于不同的三维特征识别准确率都较好，这说明深度学习方法在三维掌纹识别应用中具有普遍的适用性. 随着网络结构的复杂性加大，识别时间也随之增大，如GoogleNet、Vgg16、ResNet50的识别时间要大于AlexNet的识别时间. 值得注意的是，识别准确率并不随着网络结构复杂性的增大而得以提升，究其原因，是香港理工三维掌纹数据库整体样本数量偏少，相对简单的深度学习模型（如：AlexNet）也能获取较好的识别结果，复杂深度学习模型的优势无法体现.

表 5 不同特征、不同网络结构深度学习模型识别准确率对比

Tab.5 Identification accuracy by using different features and network structures of deep learning models %

三维特征	AlexNet	GoogleNet	Vgg16	ResNet50
表面类型	99.40	99.55	99.25	99.45
形状指数	99.30	99.00	97.25	98.90
平均曲率	99.20	99.15	99.55	98.80
高斯曲率	98.75	96.60	97.50	96.25

表 6 不同特征、不同网络结构深度学习模型运行时间对比

Tab.6 Runtime by using different features and network structuresof deep learning models ms

三维特征	AlexNet	GoogleNet	Vgg16	ResNet50
表面类型	96.562	103.896	261.432	257.531
形状指数	95.865	103.812	261.175	256.421
平均曲率	94.993	103.461	259.813	254.594
高斯曲率	94.352	103.153	258.231	254.451

DOI:10.1016/j.patcog.2007.08.016 [本文引用: 1]

4. 结　语

基于局部纹理特征，本文率先将深度学习引入到三维掌纹识别应用中，并在香港理工三维掌纹数据库上对不同的提取特征、不同网络结构的深度学习模型进行了全面的分析与比较. 实验结果表明：1）本文方法在识别准确率和处理时间上都优于目前流行的三维掌纹识别方法，具有较大的应用前景；2）不同网络结构的深度学习模型在不同提取特征上识别准确率都较好. 这表明本文所提出的深度学习方法在三维掌纹识别应用中具有普遍的适用性. 未来计划研究不同提取特征之间的关联属性，挖掘并利用存在互补关系的特征来实现多特征融合，从而进一步提高模型的识别性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HUANG D, JIA W, ZHANG D

Palmprint verification based on principal lines

[J]. Pattern Recognition, 2008, 41 (4): 1316- 1328

[2]

FEI L, XU Y, TANG W, et al

Double-orientation code and nonlinear matching scheme for palmprint recognition

[J]. Pattern Recognition, 2016, 49 (1): 89- 101

[3]

ZHANG L, CHENG Z, SHEN Y, et al

Palmprint and palmvein recognition based on DCNN and a new large-scale contactless palmvein dataset

[J]. Symmetry, 2018, 10 (4): 78

DOI:10.3390/sym10040078 [本文引用: 1]

[4]

白雪飞, 高楠, 张宗华, 等

基于分块ST与主成分分析的三维掌纹识别

[J]. 天津大学学报: 自然科学与工程技术版, 2018, 51 (6): 631- 637

BAI Xue-fei, GAO Nan, ZHANG Zong-hua, et al

Three dimensional palmprint identification based on blocked ST and PCA

[J]. Journal of Tianjin University: Science and Technology, 2018, 51 (6): 631- 637

[5]

ZHANG L, SHEN Y, LI H, et al

3D palmprint identification using block-wise features and collaborative representation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (8): 1730- 1736

DOI:10.1109/TPAMI.2014.2372764 [本文引用: 12]

[6]

YANG B, XIANG X, XU D, et al

3D palmprint recognition using shape index representation and fragile bits

[J]. Multimedia Tools and Applications, 2017, 76 (14): 15357- 15375

DOI:10.1007/s11042-016-3832-1 [本文引用: 3]

[7]

FEI L, ZHANG B, XU Y, et al

Precision direction and compact surface type representation for 3D palmprint identification

[J]. Pattern Recognition, 2019, 87 (3): 237- 247

[本文引用: 10]

[8]

BAI X, GAO N, ZHANG Z, et al

Person recognition using 3D palmprint data based on full-field sinusoidal fringe projection

[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68 (9): 3287- 3298

DOI:10.1109/TIM.2018.2877226 [本文引用: 1]

[9]

KUHNEL W, HUNT B. Differential Geometry: Curves-Surfaces-Manifolds: 2nd ed [M]. New York: American Mathematical Society, 2006: 66-68.

[10]

KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [C] // Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.

[11]

SZEGEDY, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'15). Washington: IEEE Computer Society Press, 2015: 1-9.

[12]

SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv Preprint, arXiv: 1409.1556, 2014.

[13]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [J]. arXiv Preprint, arXiv: 1512.03385, 2015.