浙江大学学报(工学版), 2023, 57(10): 2011-2017 doi: 10.3785/j.issn.1008-973X.2023.10.010

计算机技术、自动化技术

基于门控特征融合与中心损失的目标识别

莫建文,, 李晋, 蔡晓东,, 陈锦威

桂林电子科技大学 信息与通信学院,广西 桂林 541004

Target recognition based on gated feature fusion and center loss

MO Jian-wen,, LI Jin, CAI Xiao-dong,, CHEN Jin-wei

School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, China

通讯作者: 蔡晓东,男,研究员,博导. orcid.org/0000-0001-8505-1007. E-mail: caixiaodong@guet.edu.cn

收稿日期: 2022-09-22  

基金资助: 国家自然科学基金资助项目(62001133, 62177012); 广西创新驱动发展专项项目(AA20302001);广西无线宽带通信与信号处理重点实验室基金资助项目(GXKL06200114)

Received: 2022-09-22  

Fund supported: 国家自然科学基金资助项目(62001133,62177012);广西创新驱动发展专项项目(AA20302001);广西无线宽带通信与信号处理重点实验室基金资助项目(GXKL06200114)

作者简介 About authors

莫建文(1972—),男,副教授,博士,从事机器视觉及图像处理等研究.orcid.org/0000-0002-1729-1284.E-mail:Mo_jianwen@126.com , E-mail:Mo_jianwen@126.com

摘要

针对目标活动、光线及摄像头距离等问题,提出一种基于门控特征融合与中心损失的目标识别方法. 门控特征融合是为了弥补单一特征信息丢失时,身份识别准确率下降的缺陷. 门控结构指导网络对输入的人脸、行人特征进行贡献量评估, 再根据贡献量去分配权值,组合产生识别性更强的身份特征. 通过添加中心损失函数,在引导网络下减少了特征的类内距离,使得特征更具判别性. 实验结果表明,在自建数据集上所提方法的最终识别准确率最高可以达到76.35%,优于单特征识别方法以及多种融合方法,使用所提的融合损失函数后,平均识别准确率可提高2.63%.

关键词: 身份识别 ; 监控场景 ; 特征融合 ; 门控机制 ; 中心距离损失

Abstract

A target identification method based on gated feature fusion with center loss was proposed, aiming at the problems of target activity, light and camera distance. Gated feature fusion was designed to compensate for the decrease in identity recognition accuracy when the single feature information was lost. Gated structure guidance network evaluated the contribution of input facial and pedestrian features, and weights were assigned according to the contribution to produce a more recognizable identity feature. By adding a center loss function, the intra-class distance of the features was reduced under the guidance network, making the features more discriminative. The final recognition accuracy of the proposed method on the self-constructed dataset could reach up to 76.35%, which was better than that of single-feature recognition methods and multiple fusion methods. The average recognition accuracy could be improved by 2.63% with the proposed fusion loss function.

Keywords: identification ; surveillance scene ; feature fusion ; gated mechanism ; center distance loss

PDF (1598KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

莫建文, 李晋, 蔡晓东, 陈锦威. 基于门控特征融合与中心损失的目标识别. 浙江大学学报(工学版)[J], 2023, 57(10): 2011-2017 doi:10.3785/j.issn.1008-973X.2023.10.010

MO Jian-wen, LI Jin, CAI Xiao-dong, CHEN Jin-wei. Target recognition based on gated feature fusion and center loss. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(10): 2011-2017 doi:10.3785/j.issn.1008-973X.2023.10.010

生物特征识别身份的系统非常有吸引力,它们易于使用且安全系数高,因此研究者们对这些人体固有的生理或行为特征的研究也日益增多. Wang等[1]提出动态类池化方法来存储和更新身份特征,在不牺牲性能的情况下,节省时间和成本. Zhu等[2]提出全局-局部交叉注意和成对交叉注意来实现各类图像间的信息交互,学习到细微特征可以提高行人识别准确率. Ye等[3]提出一种基于二维卷积神经网络(two dimensional convolutional neural network, 2D-CNN)和门控循环单元(gated recurrent unit,GRU) 的深度神经网络 (deep neural network,DNN) 模型,实现说话人的身份识别等. 当特征采集器获取特征出现误差时,由于现实场景的复杂性,仅仅采用单一生物特征很难维持身份识别的稳定性;当单一生物特征无法满足现实需求时,研究者们便尝试以多生物特征的丰富性来应对现实情况的复杂性. Ye等[4]使用可见图像生成辅助灰度模态,挖掘可见图片特征与对应图片的红外特征之间的结构关系,解决白天和夜间因存在光线差异的目标身份识别问题. Qian等[5]有效地结合人脸信息和语音信息,显著地提高个人身份验证系统的性能. Sarangi等[6]提出一种基于耳朵和人脸轮廓的多模态生物识别系统,组合2个有效的局部特征,产生高维特征向量. 在频域和空间域中保留互补信息,弥补了耳朵特征进行身份识别时的缺点,也提高了整体的身份识别准确率. 在社区安全问题中,指纹、语音、人脸、行人等则是需要特定的前端设备和安装角度的位置相互配合. 现有的监控设备大都不具备这种配合条件,因此在这种场景下动态的目标识别就变得比较困难. 目前尚未发现有研究通过人脸和行人特征的融合来解决类似的问题,如何组合人脸特征与行人特征并产生鲁棒性更强的目标身份特征是亟待解决的问题.

目前常用的多模态特征融合方法[7]有联合表示和协调表示等,联合表示常用的是Concat方法直接拼接产生维数更高的特征或Add方法将2个特征向量组合成复合向量,而协调表示则是学习协调子空间中的每个模态的分离但约束表示. Concat方法是简单拼接的方法,虽然丰富了目标身份特征信息,但是使得冗余信息增加,会对身份判决带来强干扰. 受多生物特征融合[8]的启发,本研究设计出门控特征融合网络(gated feature fusion network,GFFN),考虑各部分特征的融合程度,在丰富特征信息的同时,也避免冗余信息带来的误判. 针对本研究的目标多分类问题,交叉熵损失函数虽然能实现类间区分,但是类内的距离却没有进行约束. 当不同人的穿着或相貌相似时,类间距离减少;当同一人受拍摄角度或者光线强度等影响时,类内距离增大,则会出现类间距离小于类内距离的情况. Dickson等[9]发现将平方和误差损失函数与交叉熵损失函数混合使用可以提高网络性能,结合现实应用与Wen等[10]的损失函数融合思想,通过加入中心损失对分类网络进行类内距离约束,使得提取的特征判别性更强.

1. GFFN模型

由于摄像头角度、抓拍距离、目标活动及光线明暗程度等现实情况的影响,使得监控场景下人脸数据的有效性受限,从而导致人脸识别网络的准确率急剧下降. 受多模态特征融合的启发,在实际应用中考虑到人脸与行人特征各自的价值以及在不同场景下所受到的技术约束,对两者各自的优势进行融合应用,采用的门控融合网络可以指导神经网络去综合考虑人脸和行人特征的贡献量,有效地缓解因单生物特征信息模糊而导致识别准确率低的现象. GFFN模型的整体框架如图1所示.

图 1

图 1   GFFN模型框架图

Fig.1   GFFN model frame


1.1. 模型的输入模块

GFFN模型的输入模块如图2所示, $ {{\boldsymbol{Q}}_{\rm{f}}} $为人脸特征, $ {{\boldsymbol{Q}}_{\rm{p}}} $为行人特征. 输入待识别的图片,使用Insightface人脸识别模型[11]和PCB+RPP行人识别模型[12]进行特征提取.

图 2

图 2   GFFN的输入模块

Fig.2   Input module for GFFN


1.2. 模型的特征融合模块

将得到的2个特征送入特征融合模块进行融合,组合出更加丰富且有效的身份特征.

1.2.1. 特征相加融合

图3(a)所示,相加融合是指特征值相加,通道数不变,将2个特征向量组合成复合向量.

图 3

图 3   多种特征融合方法图

Fig.3   Map of multiple feature fusion methods


1.2.2. 特征拼接融合

图3(b)所示,拼接融合是指将2个特征进行首尾拼接. 当通道数增加时, $ \left[ { \cdot , \cdot } \right] $为向量首尾拼接符.

1.2.3. 软注意力融合

图3(c)所示,Shon等[13]提出一种基于软注意力的融合方式,在两两输入特征之间进行互补平衡. 通过注意力层 $ {f_{{\rm{att}}}}\left( \cdot \right) $得到各生物特征的注意力得分:

$ {\hat a_i} = {f_{{\text{att}}}}\left( {\left[ {{{\boldsymbol{Q}}_{\text{f}}},{{\boldsymbol{Q}}_{\text{p}}}} \right]} \right). $

式中: $ {\hat a_i} $为某生物特征的注意力得分, $ {\hat a_{\text{f}}} $ 为人脸特征的注意力得分, $ {\hat a_{\text{p}}} $为行人特征的注意力得分. 最终的加权融合特征为

$ {{\boldsymbol{e}}_z} = \left\{ \begin{array}{l} \displaystyle\sum {{\alpha _{\rm{f}}}{{\boldsymbol{Q}}_x}} ,\\ \displaystyle\sum {\alpha _{\rm{p}}{{\boldsymbol{Q}}_x}} . \end{array} \right. $

式中: $ {{\boldsymbol{e}}_z} $为加权融合特征, ${\tilde{\boldsymbol{Q}}}_x $$ {{{\boldsymbol{Q}}}_x}$经过全连接(fully connected,FC)层后的生物特征, ${{\boldsymbol{Q}}} $为最终的组合特征, $ {\alpha _{\text{f}}}$为人脸的加权融合系数, $ {\alpha _{\text{p}}} $为行人的加权融合系数. 具体计算过程为

$ \left. \begin{array}{l} {\alpha _{\rm{f}}} = \dfrac{{\exp \left( {{{\hat a}_{\rm{f}}}} \right)}}{{\exp \left( {{{\hat a}_{\rm{f}}}} \right) + \exp \left( {{{\hat a}_{\rm{p}}}} \right)}},\\ {\alpha _{\rm{p}}} = \dfrac{{\exp \left( {{{\hat a}_{\rm{p}}}} \right)}}{{\exp \left( {{{\hat a}_{\rm{f}}}} \right) + \exp \left( {{{\hat a}_{\rm{p}}}} \right)}}. \end{array} \right\} $

1.2.4. 门控特征融合

图3(d)所示,门控机制是应用在GRU或长短期记忆(long short term memory,LSTM)网络等循环网络中的流量控制部件,使用的门控特征融合结构[5]. 在结合特征融合优势的同时,重点在决策层面进行优化控制. GFFN设计的目的是将不同的生物特征数据进行组合并找到最优表示. 每个 $ {{\boldsymbol{Q}}_x} $对应于与每个生物特征相关联的特征向量,经过双曲正切函数的激活,该函数旨在对特定特征的内部进行映射编码. 对于每个激活后的特征 $ {{\boldsymbol{Q}}_x} $,通过一个门控神经元(在图中由sigmoid函数输出表示)控制输入. 当新ID数据被输入到网络时,门控神经元接收拼接后的特征向量作为输入,并使用它们来决定生物特征 $ {{\boldsymbol{Q}}_x} $对整体识别任务做出的贡献量,门控学习机制的数学原理为

$ {\tilde{{\boldsymbol{Q}}}}_{x}=\mathrm{tanh}\left({W}_{i},{{\boldsymbol{Q}}}_{x}\right)\text{,} $

$ S=\sigma \left({W}_{s}\cdot \left[{{\boldsymbol{Q}}}_{\text{f}},{{\boldsymbol{Q}}}_{\text{p}}\right]\right)\text{,} $

$ {\boldsymbol{Q}} = S {\tilde {\boldsymbol{Q}}_{\text{f}}}+\left( {1 - S} \right) {\tilde {\boldsymbol{Q}}_{\text{p}}}. $

式中: $ \tanh $为双曲正切函数, $ {W}_{s}、{W}_{i} $为网络学习到的权重参数, $ S $为门控网络的权值分配系数, $ \sigma $为sigmoid函数.

为了不同特征的组合找到最优的表示,模型以人脸512维特征和行人3 072维特征作为输入,都经过一个FC层,该层还包括归一化层(batch normalization,BN)和Drop_out层. BN层的加入是为了加快网络的训练和收敛、控制梯度爆炸和防止梯度消失;Drop_out层则可以防止训练过拟合,整体是为了得到更加紧凑和区分性更强的特征. 人脸特征和行人特征的输出维度均为1 024,再用双曲正切函数进行激活. 最初输入的人脸特征和行人特征进行首尾拼接后,以及经过相同的FC层操作后,得到1 024维融合特征 $\tilde {\boldsymbol{Q}}$,使用式(4)得到分配2个特征的权值系数. 最后用权值系数与人脸特征和行人特征分别进行对应元素相乘并相加,得到最终的特征表示,再通过损失层进行ID预测分类.

1.3. 模型的损失函数模块

在一般的识别任务中,训练集和测试集的所有类别都会有对应标签,如著名的Mnist和ImageNet数据集,里面包含的每个类别是确定的. 大多网络最终采用Softmax损失函数进行监督训练,得到的深度特征都具有良好的类间区分性. 身份识别任务存在类间复杂及类内多样的问题,预先收集所有测试目标的信息是不切实际的,因此需要网络学习到的特征具有较强的判别性.

中心距离损失的设计主要是为了缓解类间距离小于类内距离导致识别有误的情况,通过寻找每一类特征的中心,以度量学习的形式惩罚所学特征与它类中心的距离即缩小同类样本之间的距离. Wen等[10]通过以手写数字分类任务为例(Mnist数据集),展示网络最终的输出特征在二维空间的分布. 类间距离虽然被区分,但是仍存在类内距离过大的情况,于是提出Center Loss来约束类内距离. 本研究借鉴减少类内距离的思想,将门控分类与中心损失结合产生新的损失函数为

$\begin{split} {L_{{\rm{fu}}}} =& {L_{\rm{a}}}+{L_{\rm{b}}} = - \frac{1}{M}\sum\limits_{i = 1}^M \ln \left( {\frac{{{e^{W_{_{y,i}}^{\rm{T}}{x_i}}}}}{{\displaystyle \sum\limits_{j = 1}^N {{e^{W_j^{\rm{T}}{x_i}}}} }}} \right)+\\ &\frac{\lambda }{2} \sum\limits_{i = 1}^M {\left\| {{x_i} - {c_{y,i}}} \right\|_2^2} . \end{split} $

式中: $ L{}_{\rm{a}} $为门控分类损失; $ {L_{\rm{b}}} $为中心距离损失; $ M $$ N $分别为小批次中的图片数量和类别数; $ {x_i} $为属于类别 $ {y_i} $的第 $ i $个特征, $ {x_i} \in {{\bf{R}}^d} $$ d $为特征的维数; $ W_j^{\rm{T}} $$ W_{y,i}^{\rm{T}} $为网络训练的权重参数; $ {c_{y,i}} $为特征的第 $ {y_i} $个类中心, $ {c_{y,i}} \in {{\bf{R}}^d} $$ \lambda $为平衡2种损失的权值超参数,经实验效果对比将其设置为0.2最佳. 门控分类损失与中心距离损失在深度神经网络中的融合结构如图4所示.

图 4

图 4   门控分类损失和中心距离损失的连接图

Fig.4   Connection diagram of gated classification loss and center distance loss


2. 实验处理与结果分析

2.1. 实验数据集的制作

为了抓拍到丰富的行人姿态,在某高校人口流动稳定的路段安装了12台监控抓拍设备. 在若干天的固定时间段下,收集到约 $ 4 \times {10^6} $张行人流动图,利用已开源的行人检测和人脸检测技术,裁剪出单个目标行人的整体图片和对应的人脸图片,经过人工数据处理和筛选,最终得到ID数为1 392的行人和人脸数据集(G-campus1392),如图5所示.

图 5

图 5   G-campus1 392数据集样例

Fig.5   Dataset of sample G-campus1392


为了验证实验的有效性和稳定性,将数据集以随机抽取的方式分成3组(Randomdata1、Randomdata2、Randomdata3),如表1所示,其中 $ {N_{\text{u}}} $为图片数量. 类比公开的行人数据集Market1501中训练集和测试集的ID数比例,随机抽取的各组数据集中训练集和测试集ID数均为696个,并且每个ID都有5组行人—人脸库图片用于测试环节的距离度量. 由于人脸图片是从行人图片中裁剪得到,以表1中的图片数量来表示行人或人脸图片数量.

表 1   G-campus1392数据集的图片数量

Tab.1  Number of images in G-campus1392 dataset

数据集 $ {N_{\text{u}}} $
训练集 测试集
Randomdata1 15 138 16 486 3 480
Randomdata2 15 846 15 778 3 480
Randomdata3 15 354 16 270 3 480

新窗口打开| 下载CSV


2.2. 实验训练与测试说明

本研究以表征学习的形式来训练识别模型,最后的全连接层维数等于类别数. 在测试时,需要利用的是训练网络的特征提取能力,并且训练集和测试集的ID不能共享,因此会丢弃最后的全连接层. 为了保证实验的合理性,对单行人、单人脸、各种融合方法均采用ID分类网络进行训练. 将所有方法中网络的全连接层数和超参数进行统一,取全连接层之前的1 024维特征作为输出特征,便于后续的距离度量.

实验的评价指标是重识别任务(re-identification, ReID)中常用的识别准确率(accuracy,ACC)和平均准确率(mean average precision,mAP). 为了真实刻画目标识别的合理性与真实性,计算库中每个ID的5张图片与待测试的图片之间的欧式距离,采用加和求平均数的方法得到平均距离. 当平均距离最小的库ID与待测试图片ID相同时,则该测试图片识别正确,所有测试图片(总数记为 $ {\rm{Al}}{{\rm{l}}_{{\rm{ID}}}} $)中识别正确的个数记为 $ {\rm{Tru{e_{ID}}}} $,则ACC的计算为

$ {\rm{ACC}} = \frac{{{\rm{Tru{e_{ID}}}}}}{{{\rm{Al{l_{ID}}}}}}. $

ACC指标则是统计识别正确个数占总ID数的比重. 为了能够更加全面的衡量ReID算法的性能,采用mAP指标来反映检索的人在数据库中所有正确图片排在序列表前面的程度,其计算式为

$ {\rm{mAP}} = \frac{1}{E}\frac{1}{j}\sum\limits_{{m}}^E {\sum\limits_{{a_{m,\;i - 1}} < {a_{m,i}}} {\frac{{{a_{m,\;i}}}}{i}} } \cdot $

式中: $ E $为总查询次数, $ m \in \left( {1,E} \right) $$ i $为查询中返回的图片数量; $ {a_{m,\;i}}\left( {{a_{m,0}} = 0} \right) $为第 $ m $次查询中,返回的前 $ i $张图片中识别成功的个数; $ j $为第 $ m $次查询结束时,识别正确图片的总个数.

2.3. 实验方法

为了验证所提方法的有效性,实验部分对比了图3中的3种特征融合方法,也将单一特征的分类识别结果与各融合方法进行对比. 在现实监控场景下,人脸和行人的特征融合,能够弥补单一特征信息丢失的不足.

2.4. 实验分析

在试验中,通过对比单一特征识别结果、多特征识别结果以及是否加入中心距离损失来验证所提方法的有效性.

2.4.1. 各识别方法的实验结果分析

在控制网络层和超参数的前提下,计算ACC值和mAP值,实验结果如表2所示. 从表2可知,人脸识别的准确率最低. 在现实情况及非配合情况下,人脸识别准确率确实会受到较大的影响. 3组数据的人脸和行人平均识别准确率分别为40.574%、54.818%,行人特征相比于人脸具有较高的鲁棒性. 在多特征融合方法中,特征相加融合的平均准确率为59.16%,这种求和方式默认2种特征的贡献量是相同的,所得平均值容易因质量差的特征产生偏差. 首尾拼接融合的平均准确率为61%,该方法将2个特征均放入网络中组合训练,缺点是整体的性能会因损坏的特征数据而下降.

表 2   多种识别方法的结果对比

Tab.2  Comparison of results of multiple identification methods

方法 Randomdata1 Randomdata2 Randomdata3
ACC/% mAP/% ACC/% mAP/% ACC/% mAP/%
人脸分类 40.659 35.532 41.615 36.089 39.447 34.389
行人分类 55.265 52.275 55.451 51.527 53.737 50.626
特征相加融合 59.878 55.585 60.235 55.961 57.367 54.146
首尾拼接融合 61.749 57.890 61.313 57.091 59.939 55.851
软注意力融合 64.582 59.835 63.519 58.936 62.698 56.261
门控特征融合 73.893 69.342 73.305 68.583 71.807 67.280

新窗口打开| 下载CSV


以上2种融合方法都是静态的特征融合,而软注意力融合与本研究的门控特征融合都是动态的特征融合方式,两者的平均准确率分别为63.6%、73.0%. 从实验结果看,多特征的动态组合不仅能弥补单一特征信息缺失的不足,也能缓解多特征融合存在冗余的问题. 两者虽都为动态融合,但两者在动态程度上存在差别,软注意力机制会重点关注某一特征,并且会综合考虑所有特征,最终所得的权值系数很难取到极端值. 在现实应用场景下,人脸往往模糊到无法获取有用的特征甚至是干扰的信息. 本研究的门控方法采用sigmoid函数进行权值分配,由于该函数的平滑性和取值特征,考虑到的因素更多,更适合现实场景下的应用. 不难发现,本研究的门控特征融合方法带来的提升效果是显著且稳定的.

2.4.2. 中心距离损失效果分析

对于多分类问题,不可避免的就是类内与类间距离的大小问题,所提的融合损失能够针对该问题进行优化. 各分类方法在表2的实验基础上,加上中心距离损失重新训练和测试. ACC值和mAP值如下表34所示,其中L1为分类任务中常用的交叉熵损失,L2为所提的融合损失.

表 3   分类网络增加中心距离损失后的ACC值

Tab.3  ACC value of classification network after increasing center distance loss %

方法 Randomdata1 Randomdata2 Randomdata3
L1 L2 L1 L2 L1 L2
人脸分类 40.659 43.989 41.615 44.219 39.447 42.612
行人分类 55.265 61.197 55.451 60.698 53.737 59.213
特征相加融合 59.878 65.235 60.235 67.593 57.367 66.326
首尾拼接融合 61.749 71.430 61.313 70.681 59.939 69.490
软注意力融合 64.582 72.298 63.519 71.796 62.698 71.008
门控特征融合 73.893 75.798 73.305 76.347 71.807 74.714

新窗口打开| 下载CSV


表 4   分类网络增加中心距离损失后的mAP值

Tab.4  mAP value of classification network after increasing center distance loss %

方法 Randomdata1 Randomdata2 Randomdata3
L1 L2 L1 L2 L1 L2
人脸分类 35.532 37.925 36.089 37.993 34.389 36.665
行人分类 52.275 56.777 51.527 56.182 50.626 54.934
特征相加融合 55.585 61.623 55.961 61.962 54.146 59.247
首尾拼接融合 57.890 65.642 57.091 64.684 55.851 62.271
软注意力融合 59.835 67.234 58.936 66.039 56.261 64.915
门控特征融合 69.342 71.461 68.583 71.257 67.280 69.715

新窗口打开| 下载CSV


通过观察表34的实验结果可以发现,ACC值和mAP值在加入中心距离损失后均有提升,各方法的平均准确率分别提高3.0%、5.6%、7.2%、9.5%、8.1%、2.6%. 各方法在加上中心距离损失训练后,随着类中心距离在训练过程中不断更新调整,有效缓解样本由于类间距离小于类内距离而导致判决错误的情况. 6类方法的平均准确率先上升后下降,当2个特征进行融合后,融合特征的类内距离会随之增加. 为了使得融合后的类内特征距离更加紧凑,加入中心距离损失,改善因类内距离过大而出现误判的情况,单特征改善情况则不会那么显著. 本研究的门控方法加入损失后的提升效果虽不如其他方法明显,是因为特征的有效性已经接近上限,同时也反映出本研究特征融合方式是紧凑的.

2.4.3. 错误样本分析

以上述实验结果中的门控损失和距离loss实验结果为例,整理出4组错误的典型样本如图6所示. 每组左边为测试样本,右边为模型识别出的错误结果. 从图6来看,当人脸模糊或不配合、行人衣服颜色相似时,即使采用融合方式,模型在应对2个特征信息不准的情况下,鲁棒性表现的都不够强,这表明不仅融合算法存在挑战,单行人或人脸识别模型的特征提取也有待改进. 数据集的丰富性也会影响结果,当训练量足够多时,现实场景下的目标识别率也会进一步提升.

图 6

图 6   所提方法的错误样本

Fig.6   Error samples of proposed method


由于本研究数据集由项目合作方提供,暂时没有取得公开权限,读者可以搜集多个公开数据集如Market1501等. 在使用能够看到人脸和行人的数据时,可以与本研究相当的数据量进行重现测试,也可以根据介绍的数据集制作流程,重新制作数据集进行复现.

3. 结 语

本研究提出了一种基于门控多特征融合与中心损失的动态目标识别方法. 以门控的方式将行人特征与人脸特征进行动态融合,产生更强的类间区分性特征,可以弥补单一特征在现实场景下由于信息丢失导致识别准确率下降的问题. 将中心距离损失与门控分类损失结合,随着类中心距离的更新,类内距离不断缩小,使得特征更具判别能力. 在自制数据集实验结果中,监控场景下的特征融合方法可以有效降低目标识别的误判概率. 在实际场景下,会出现待识别目标被遮挡、更换衣服或监控环境光强变化等复杂情况,这样会导致特征融合产生不了更强的特征,反而会组合产生干扰特征,因此进一步的研究可从如何提取强鲁棒性的特征或训练出带有记忆的识别网络2个方向来展开.

参考文献

WANG K, WANG S, ZHANG P, et al. An efficient training approach for very large scale face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4083-4092.

[本文引用: 1]

ZHU H, KE W, LI D, et al. Dual cross-attention learning for fine-grained visual categorization and object re-identification [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 4692-4702.

[本文引用: 1]

YE F, YANG J

A deep neural network model for speaker identification

[J]. Applied Sciences, 2021, 11 (8): 3603

DOI:10.3390/app11083603      [本文引用: 1]

YE M, SHEN J, SHAO L

Visible-infrared person re-identification via homogeneous augmented tri-modal learning

[J]. IEEE Transactions on Information Forensics and Security, 2020, 16: 728- 739

[本文引用: 1]

QIAN Y, CHEN Z, WANG S

Audio visual deep neural network for robust person verification

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1079- 1092

DOI:10.1109/TASLP.2021.3057230      [本文引用: 2]

SARANGI P P, NAYAK D R, PANDA M, et al

A feature-level fusion based improved multimodal biometric recognition system using ear and profile face

[J]. Journal of Ambient Intelligence and Humanized Computing, 2022, 13: 1867- 1898

[本文引用: 1]

GUO W, WANG J, WANG S

Deep multimodal representation learning: a survey

[J]. IEEE Access, 2019, 7: 63373- 63394

DOI:10.1109/ACCESS.2019.2916887      [本文引用: 1]

AREVALO J, SOLORIO T, MONTESYGOMEZ M, et al

Gated multimodal networks

[J]. Neural Computing and Applications, 2020, 32: 10209- 10228

DOI:10.1007/s00521-019-04559-1      [本文引用: 1]

DICKSON M C, BOSMAN A S, MALAN K M. Hybridised loss functions for improved neural network generalisation [C]// Pan African Artificial Intelligence and Smart Systems: First International Conference. Cham: SIP, 2022: 169-181.

[本文引用: 1]

WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition [C]// Computer Vision ECCV 2016: 14th European Conference. Netherlands: SIP, 2016: 499-515.

[本文引用: 2]

DENG J, GUO J, XUE N, et al. Arcface: Additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4690-4699.

[本文引用: 1]

SUN Y, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline) [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n. ], 2018: 480-496.

[本文引用: 1]

SHON S, OH T H, GLASS J. Noise-tolerant audio-visual online person verification using an attention-based neural network fusion [C]// ICASSP IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton: IEEE, 2019: 3995-3999.

[本文引用: 1]

/