<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 GFFN模型框架图

Fig.1 GFFN model frame

1.1. 模型的输入模块

GFFN模型的输入模块如图2所示， $ {{\boldsymbol{Q}}_{\rm{f}}} $为人脸特征， $ {{\boldsymbol{Q}}_{\rm{p}}} $为行人特征. 输入待识别的图片，使用Insightface人脸识别模型^[11]和PCB+RPP行人识别模型^[12]进行特征提取.

图 2

图 2 GFFN的输入模块

Fig.2 Input module for GFFN

1.2. 模型的特征融合模块

将得到的2个特征送入特征融合模块进行融合，组合出更加丰富且有效的身份特征.

1.2.1. 特征相加融合

如图3(a)所示，相加融合是指特征值相加，通道数不变，将2个特征向量组合成复合向量.

图 3

图 3 多种特征融合方法图

Fig.3 Map of multiple feature fusion methods

1.2.2. 特征拼接融合

如图3(b)所示，拼接融合是指将2个特征进行首尾拼接. 当通道数增加时, $ \left[ { \cdot , \cdot } \right] $为向量首尾拼接符.

1.2.3. 软注意力融合

如图3(c)所示，Shon等^[13]提出一种基于软注意力的融合方式，在两两输入特征之间进行互补平衡. 通过注意力层 $ {f_{{\rm{att}}}}\left( \cdot \right) $得到各生物特征的注意力得分：

(1) $ {\hat a_i} = {f_{{\text{att}}}}\left( {\left[ {{{\boldsymbol{Q}}_{\text{f}}},{{\boldsymbol{Q}}_{\text{p}}}} \right]} \right). $

式中： $ {\hat a_i} $为某生物特征的注意力得分， $ {\hat a_{\text{f}}} $ 为人脸特征的注意力得分， $ {\hat a_{\text{p}}} $为行人特征的注意力得分. 最终的加权融合特征为

(2) $ {{\boldsymbol{e}}_z} = \left\{ \begin{array}{l} \displaystyle\sum {{\alpha _{\rm{f}}}{{\boldsymbol{Q}}_x}} ,\\ \displaystyle\sum {\alpha _{\rm{p}}{{\boldsymbol{Q}}_x}} . \end{array} \right. $

式中： $ {{\boldsymbol{e}}_z} $为加权融合特征， ${\tilde{\boldsymbol{Q}}}_x $为 $ {{{\boldsymbol{Q}}}_x}$经过全连接（fully connected，FC）层后的生物特征， ${{\boldsymbol{Q}}} $为最终的组合特征， $ {\alpha _{\text{f}}}$为人脸的加权融合系数， $ {\alpha _{\text{p}}} $为行人的加权融合系数. 具体计算过程为

(3) $ \left. \begin{array}{l} {\alpha _{\rm{f}}} = \dfrac{{\exp \left( {{{\hat a}_{\rm{f}}}} \right)}}{{\exp \left( {{{\hat a}_{\rm{f}}}} \right) + \exp \left( {{{\hat a}_{\rm{p}}}} \right)}},\\ {\alpha _{\rm{p}}} = \dfrac{{\exp \left( {{{\hat a}_{\rm{p}}}} \right)}}{{\exp \left( {{{\hat a}_{\rm{f}}}} \right) + \exp \left( {{{\hat a}_{\rm{p}}}} \right)}}. \end{array} \right\} $

1.2.4. 门控特征融合

如图3(d)所示，门控机制是应用在GRU或长短期记忆（long short term memory，LSTM）网络等循环网络中的流量控制部件，使用的门控特征融合结构^[5]. 在结合特征融合优势的同时，重点在决策层面进行优化控制. GFFN设计的目的是将不同的生物特征数据进行组合并找到最优表示. 每个 $ {{\boldsymbol{Q}}_x} $对应于与每个生物特征相关联的特征向量，经过双曲正切函数的激活，该函数旨在对特定特征的内部进行映射编码. 对于每个激活后的特征 $ {{\boldsymbol{Q}}_x} $，通过一个门控神经元(在图中由sigmoid函数输出表示)控制输入. 当新ID数据被输入到网络时，门控神经元接收拼接后的特征向量作为输入，并使用它们来决定生物特征 $ {{\boldsymbol{Q}}_x} $对整体识别任务做出的贡献量，门控学习机制的数学原理为

(4) $ {\tilde{{\boldsymbol{Q}}}}_{x}=\mathrm{tanh}\left({W}_{i},{{\boldsymbol{Q}}}_{x}\right)\text{，} $

(5) $ S=\sigma \left({W}_{s}\cdot \left[{{\boldsymbol{Q}}}_{\text{f}},{{\boldsymbol{Q}}}_{\text{p}}\right]\right)\text{，} $

(6) $ {\boldsymbol{Q}} = S {\tilde {\boldsymbol{Q}}_{\text{f}}}+\left( {1 - S} \right) {\tilde {\boldsymbol{Q}}_{\text{p}}}. $

式中： $ \tanh $为双曲正切函数， $ {W}_{s}、{W}_{i} $为网络学习到的权重参数， $ S $为门控网络的权值分配系数， $ \sigma $为sigmoid函数.

为了不同特征的组合找到最优的表示，模型以人脸512维特征和行人3 072维特征作为输入，都经过一个FC层，该层还包括归一化层（batch normalization，BN）和Drop_out层. BN层的加入是为了加快网络的训练和收敛、控制梯度爆炸和防止梯度消失；Drop_out层则可以防止训练过拟合，整体是为了得到更加紧凑和区分性更强的特征. 人脸特征和行人特征的输出维度均为1 024，再用双曲正切函数进行激活. 最初输入的人脸特征和行人特征进行首尾拼接后，以及经过相同的FC层操作后，得到1 024维融合特征 $\tilde {\boldsymbol{Q}}$，使用式（4）得到分配2个特征的权值系数. 最后用权值系数与人脸特征和行人特征分别进行对应元素相乘并相加，得到最终的特征表示，再通过损失层进行ID预测分类.

1.3. 模型的损失函数模块

在一般的识别任务中，训练集和测试集的所有类别都会有对应标签，如著名的Mnist和ImageNet数据集，里面包含的每个类别是确定的. 大多网络最终采用Softmax损失函数进行监督训练，得到的深度特征都具有良好的类间区分性. 身份识别任务存在类间复杂及类内多样的问题，预先收集所有测试目标的信息是不切实际的，因此需要网络学习到的特征具有较强的判别性.

中心距离损失的设计主要是为了缓解类间距离小于类内距离导致识别有误的情况，通过寻找每一类特征的中心，以度量学习的形式惩罚所学特征与它类中心的距离即缩小同类样本之间的距离. Wen等^[10]通过以手写数字分类任务为例（Mnist数据集），展示网络最终的输出特征在二维空间的分布. 类间距离虽然被区分，但是仍存在类内距离过大的情况，于是提出Center Loss来约束类内距离. 本研究借鉴减少类内距离的思想，将门控分类与中心损失结合产生新的损失函数为

(7) $\begin{split} {L_{{\rm{fu}}}} =& {L_{\rm{a}}}+{L_{\rm{b}}} = - \frac{1}{M}\sum\limits_{i = 1}^M \ln \left( {\frac{{{e^{W_{_{y,i}}^{\rm{T}}{x_i}}}}}{{\displaystyle \sum\limits_{j = 1}^N {{e^{W_j^{\rm{T}}{x_i}}}} }}} \right)+\\ &\frac{\lambda }{2} \sum\limits_{i = 1}^M {\left\| {{x_i} - {c_{y,i}}} \right\|_2^2} . \end{split} $

式中： $ L{}_{\rm{a}} $为门控分类损失； $ {L_{\rm{b}}} $为中心距离损失； $ M $和 $ N $分别为小批次中的图片数量和类别数； $ {x_i} $为属于类别 $ {y_i} $的第 $ i $个特征， $ {x_i} \in {{\bf{R}}^d} $； $ d $为特征的维数； $ W_j^{\rm{T}} $和 $ W_{y,i}^{\rm{T}} $为网络训练的权重参数； $ {c_{y,i}} $为特征的第 $ {y_i} $个类中心， $ {c_{y,i}} \in {{\bf{R}}^d} $； $ \lambda $为平衡2种损失的权值超参数，经实验效果对比将其设置为0.2最佳. 门控分类损失与中心距离损失在深度神经网络中的融合结构如图4所示.

图 4

图 4 门控分类损失和中心距离损失的连接图

Fig.4 Connection diagram of gated classification loss and center distance loss

2. 实验处理与结果分析

2.1. 实验数据集的制作

为了抓拍到丰富的行人姿态，在某高校人口流动稳定的路段安装了12台监控抓拍设备. 在若干天的固定时间段下，收集到约 $ 4 \times {10^6} $张行人流动图，利用已开源的行人检测和人脸检测技术，裁剪出单个目标行人的整体图片和对应的人脸图片，经过人工数据处理和筛选，最终得到ID数为1 392的行人和人脸数据集（G-campus1392），如图5所示.

图 5

图 5 G-campus1 392数据集样例

Fig.5 Dataset of sample G-campus1392

为了验证实验的有效性和稳定性，将数据集以随机抽取的方式分成3组（Randomdata1、Randomdata2、Randomdata3），如表1所示，其中 $ {N_{\text{u}}} $为图片数量. 类比公开的行人数据集Market1501中训练集和测试集的ID数比例，随机抽取的各组数据集中训练集和测试集ID数均为696个，并且每个ID都有5组行人—人脸库图片用于测试环节的距离度量. 由于人脸图片是从行人图片中裁剪得到，以表1中的图片数量来表示行人或人脸图片数量.

表 1 G-campus1392数据集的图片数量

Tab.1 Number of images in G-campus1392 dataset

数据集	$ {N_{\text{u}}} $
数据集	训练集	测试集	库
Randomdata1	15 138	16 486	3 480
Randomdata2	15 846	15 778	3 480
Randomdata3	15 354	16 270	3 480

2.2. 实验训练与测试说明

本研究以表征学习的形式来训练识别模型，最后的全连接层维数等于类别数. 在测试时，需要利用的是训练网络的特征提取能力，并且训练集和测试集的ID不能共享，因此会丢弃最后的全连接层. 为了保证实验的合理性，对单行人、单人脸、各种融合方法均采用ID分类网络进行训练. 将所有方法中网络的全连接层数和超参数进行统一，取全连接层之前的1 024维特征作为输出特征，便于后续的距离度量.

实验的评价指标是重识别任务(re-identification, ReID)中常用的识别准确率（accuracy，ACC）和平均准确率（mean average precision，mAP）. 为了真实刻画目标识别的合理性与真实性，计算库中每个ID的5张图片与待测试的图片之间的欧式距离，采用加和求平均数的方法得到平均距离. 当平均距离最小的库ID与待测试图片ID相同时，则该测试图片识别正确，所有测试图片（总数记为 $ {\rm{Al}}{{\rm{l}}_{{\rm{ID}}}} $）中识别正确的个数记为 $ {\rm{Tru{e_{ID}}}} $，则ACC的计算为

(8) $ {\rm{ACC}} = \frac{{{\rm{Tru{e_{ID}}}}}}{{{\rm{Al{l_{ID}}}}}}. $

ACC指标则是统计识别正确个数占总ID数的比重. 为了能够更加全面的衡量ReID算法的性能，采用mAP指标来反映检索的人在数据库中所有正确图片排在序列表前面的程度，其计算式为

(9) $ {\rm{mAP}} = \frac{1}{E}\frac{1}{j}\sum\limits_{{m}}^E {\sum\limits_{{a_{m,\;i - 1}} < {a_{m,i}}} {\frac{{{a_{m,\;i}}}}{i}} } \cdot $

式中： $ E $为总查询次数， $ m \in \left( {1,E} \right) $； $ i $为查询中返回的图片数量； $ {a_{m,\;i}}\left( {{a_{m,0}} = 0} \right) $为第 $ m $次查询中，返回的前 $ i $张图片中识别成功的个数； $ j $为第 $ m $次查询结束时，识别正确图片的总个数.

2.3. 实验方法

为了验证所提方法的有效性，实验部分对比了图3中的3种特征融合方法，也将单一特征的分类识别结果与各融合方法进行对比. 在现实监控场景下，人脸和行人的特征融合，能够弥补单一特征信息丢失的不足.

2.4. 实验分析

在试验中，通过对比单一特征识别结果、多特征识别结果以及是否加入中心距离损失来验证所提方法的有效性.

2.4.1. 各识别方法的实验结果分析

在控制网络层和超参数的前提下，计算ACC值和mAP值，实验结果如表2所示. 从表2可知，人脸识别的准确率最低. 在现实情况及非配合情况下，人脸识别准确率确实会受到较大的影响. 3组数据的人脸和行人平均识别准确率分别为40.574%、54.818%，行人特征相比于人脸具有较高的鲁棒性. 在多特征融合方法中，特征相加融合的平均准确率为59.16%，这种求和方式默认2种特征的贡献量是相同的，所得平均值容易因质量差的特征产生偏差. 首尾拼接融合的平均准确率为61%，该方法将2个特征均放入网络中组合训练，缺点是整体的性能会因损坏的特征数据而下降.

表 2 多种识别方法的结果对比

Tab.2 Comparison of results of multiple identification methods

方法	Randomdata1		Randomdata2		Randomdata3
方法	ACC/%	mAP/%	ACC/%	mAP/%	ACC/%	mAP/%
人脸分类	40.659	35.532	41.615	36.089	39.447	34.389
行人分类	55.265	52.275	55.451	51.527	53.737	50.626
特征相加融合	59.878	55.585	60.235	55.961	57.367	54.146
首尾拼接融合	61.749	57.890	61.313	57.091	59.939	55.851
软注意力融合	64.582	59.835	63.519	58.936	62.698	56.261
门控特征融合	73.893	69.342	73.305	68.583	71.807	67.280

以上2种融合方法都是静态的特征融合，而软注意力融合与本研究的门控特征融合都是动态的特征融合方式，两者的平均准确率分别为63.6%、73.0%. 从实验结果看，多特征的动态组合不仅能弥补单一特征信息缺失的不足，也能缓解多特征融合存在冗余的问题. 两者虽都为动态融合，但两者在动态程度上存在差别，软注意力机制会重点关注某一特征，并且会综合考虑所有特征，最终所得的权值系数很难取到极端值. 在现实应用场景下，人脸往往模糊到无法获取有用的特征甚至是干扰的信息. 本研究的门控方法采用sigmoid函数进行权值分配，由于该函数的平滑性和取值特征，考虑到的因素更多，更适合现实场景下的应用. 不难发现，本研究的门控特征融合方法带来的提升效果是显著且稳定的.

2.4.2. 中心距离损失效果分析

对于多分类问题，不可避免的就是类内与类间距离的大小问题，所提的融合损失能够针对该问题进行优化. 各分类方法在表2的实验基础上，加上中心距离损失重新训练和测试. ACC值和mAP值如下表3、4所示，其中L1为分类任务中常用的交叉熵损失，L2为所提的融合损失.

表 3 分类网络增加中心距离损失后的ACC值

Tab.3 ACC value of classification network after increasing center distance loss %

方法	Randomdata1		Randomdata2		Randomdata3
方法	L1	L2	L1	L2	L1	L2
人脸分类	40.659	43.989	41.615	44.219	39.447	42.612
行人分类	55.265	61.197	55.451	60.698	53.737	59.213
特征相加融合	59.878	65.235	60.235	67.593	57.367	66.326
首尾拼接融合	61.749	71.430	61.313	70.681	59.939	69.490
软注意力融合	64.582	72.298	63.519	71.796	62.698	71.008
门控特征融合	73.893	75.798	73.305	76.347	71.807	74.714

表 4 分类网络增加中心距离损失后的mAP值

Tab.4 mAP value of classification network after increasing center distance loss %

方法	Randomdata1		Randomdata2		Randomdata3
方法	L1	L2	L1	L2	L1	L2
人脸分类	35.532	37.925	36.089	37.993	34.389	36.665
行人分类	52.275	56.777	51.527	56.182	50.626	54.934
特征相加融合	55.585	61.623	55.961	61.962	54.146	59.247
首尾拼接融合	57.890	65.642	57.091	64.684	55.851	62.271
软注意力融合	59.835	67.234	58.936	66.039	56.261	64.915
门控特征融合	69.342	71.461	68.583	71.257	67.280	69.715

通过观察表3、4的实验结果可以发现，ACC值和mAP值在加入中心距离损失后均有提升，各方法的平均准确率分别提高3.0%、5.6%、7.2%、9.5%、8.1%、2.6%. 各方法在加上中心距离损失训练后，随着类中心距离在训练过程中不断更新调整，有效缓解样本由于类间距离小于类内距离而导致判决错误的情况. 6类方法的平均准确率先上升后下降，当2个特征进行融合后，融合特征的类内距离会随之增加. 为了使得融合后的类内特征距离更加紧凑，加入中心距离损失，改善因类内距离过大而出现误判的情况，单特征改善情况则不会那么显著. 本研究的门控方法加入损失后的提升效果虽不如其他方法明显，是因为特征的有效性已经接近上限，同时也反映出本研究特征融合方式是紧凑的.

2.4.3. 错误样本分析

以上述实验结果中的门控损失和距离loss实验结果为例，整理出4组错误的典型样本如图6所示. 每组左边为测试样本，右边为模型识别出的错误结果. 从图6来看，当人脸模糊或不配合、行人衣服颜色相似时，即使采用融合方式，模型在应对2个特征信息不准的情况下，鲁棒性表现的都不够强，这表明不仅融合算法存在挑战，单行人或人脸识别模型的特征提取也有待改进. 数据集的丰富性也会影响结果，当训练量足够多时，现实场景下的目标识别率也会进一步提升.

图 6

图 6 所提方法的错误样本

Fig.6 Error samples of proposed method

由于本研究数据集由项目合作方提供，暂时没有取得公开权限，读者可以搜集多个公开数据集如Market1501等. 在使用能够看到人脸和行人的数据时，可以与本研究相当的数据量进行重现测试，也可以根据介绍的数据集制作流程，重新制作数据集进行复现.

3. 结　语

本研究提出了一种基于门控多特征融合与中心损失的动态目标识别方法. 以门控的方式将行人特征与人脸特征进行动态融合，产生更强的类间区分性特征，可以弥补单一特征在现实场景下由于信息丢失导致识别准确率下降的问题. 将中心距离损失与门控分类损失结合，随着类中心距离的更新，类内距离不断缩小，使得特征更具判别能力. 在自制数据集实验结果中，监控场景下的特征融合方法可以有效降低目标识别的误判概率. 在实际场景下，会出现待识别目标被遮挡、更换衣服或监控环境光强变化等复杂情况，这样会导致特征融合产生不了更强的特征，反而会组合产生干扰特征，因此进一步的研究可从如何提取强鲁棒性的特征或训练出带有记忆的识别网络2个方向来展开.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WANG K, WANG S, ZHANG P, et al. An efficient training approach for very large scale face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4083-4092.

[2]

ZHU H, KE W, LI D, et al. Dual cross-attention learning for fine-grained visual categorization and object re-identification [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4692-4702.

[3]

YE F, YANG J

A deep neural network model for speaker identification

[J]. Applied Sciences, 2021, 11 (8): 3603

DOI:10.3390/app11083603 [本文引用: 1]

[4]

YE M, SHEN J, SHAO L

Visible-infrared person re-identification via homogeneous augmented tri-modal learning

[J]. IEEE Transactions on Information Forensics and Security, 2020, 16: 728- 739

[5]

QIAN Y, CHEN Z, WANG S

Audio visual deep neural network for robust person verification

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1079- 1092

DOI:10.1109/TASLP.2021.3057230 [本文引用: 2]

[6]

SARANGI P P, NAYAK D R, PANDA M, et al

A feature-level fusion based improved multimodal biometric recognition system using ear and profile face

[J]. Journal of Ambient Intelligence and Humanized Computing, 2022, 13: 1867- 1898

[7]

GUO W, WANG J, WANG S

Deep multimodal representation learning: a survey

[J]. IEEE Access, 2019, 7: 63373- 63394

DOI:10.1109/ACCESS.2019.2916887 [本文引用: 1]

[8]

AREVALO J, SOLORIO T, MONTESYGOMEZ M, et al

Gated multimodal networks

[J]. Neural Computing and Applications, 2020, 32: 10209- 10228

DOI:10.1007/s00521-019-04559-1 [本文引用: 1]

[9]

DICKSON M C, BOSMAN A S, MALAN K M. Hybridised loss functions for improved neural network generalisation [C]// Pan African Artificial Intelligence and Smart Systems: First International Conference. Cham: SIP, 2022: 169-181.

[10]

WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition [C]// Computer Vision ECCV 2016: 14th European Conference. Netherlands: SIP, 2016: 499-515.

[本文引用: 2]

[11]

DENG J, GUO J, XUE N, et al. Arcface: Additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4690-4699.

[12]

SUN Y, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline) [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n. ], 2018: 480-496.

[13]

SHON S, OH T H, GLASS J. Noise-tolerant audio-visual online person verification using an attention-based neural network fusion [C]// ICASSP IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton: IEEE, 2019: 3995-3999.