<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 身份识别系统总体结构示意图

Fig.1 Overall architecture of identity recognition system

2.1. 整体设计

现实场景布置的监控摄像机在捕捉到目标行人信息后会返回一个包含结构化信息的文件，文件包含检测到的目标行人矩形框图片地址、原始图片地址，以及目标行人相关的属性特征，如果目标行人的人脸被检测到，还会同时包含目标行人人脸矩形框图片地址和原始人脸图片地址. 将相应的图片输入到对应的分支中提取特征，如果检测到人脸信息，同时使用人脸识别分支和行人重识别分支提取特征之后进行特征融合然后通过阈值过滤的识别过程来确定目标行人身份；如果未能检测到人脸信息，则只使用行人重识别分支提取特征然后通过阈值过滤的识别过程来确定目标行人身份.

2.2. 行人重识别

2.2.1. 行人重识别分支整体结构

行人重识别分支整体结构如图2所示，采用ResNet-50^[14]作为主干网络，并将改进的衣着信息消除模块分别嵌入到layer3、layer4后. 对于前端摄像机检测到的行人图片，将其输入到主干网络中提取特征，提取的特征图尺寸为[C，H，W]，C、H、W分别为特征图的通道数、高度、宽度. 提取出的特征经过全局平局池化（global average pooling，GAP）后得到[C，1，1]的向量，通过三元组损失（triplet loss）^[8]和分类损失（classification loss）进行约束训练，分类损失和三元组损失表达式如下：

图 2

图 2 行人重识别模型

Fig.2 Person re-identification model

(1) $ {L}_{\text{MI}}=-\sum\nolimits_{i}^{N}{y}_{i}{\rm{log}}_2\;({\hat{y}}_{i}), $

(2) $ {L}_{\text{MT}}={\sum\nolimits_{i}^{N}\left[\left\|{f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{p}}}\right)}\right\|_2-\left\|{f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{n}}}\right)}\right\|_2+\alpha \right]_+}. $

式中： $ {y_i} $为样本的真实标签， $ {\hat y_i} $为预测标签， $ N $为样本数， $ {x}_{i}^{\mathrm{a}} $为锚样本， $ {x}_{i}^{\mathrm{p}} $为与锚样本属于同一个身份的正样本， $ {x}_{i}^{\mathrm{n}} $为与锚样本属于不同身份的负样本， $ \alpha $为正负样本对距离的最小间隔，[*]₊表示max (0，*).

整个行人重识别分支的损失函数为

(3) $ {L}_{\text{R}}={L}_{\text{ICESD1}}+{L}_{\text{ICESD2}}+{L}_{\text{MI}}+{L}_{\text{MT}}. $

式中： $ {L_{{\text{ICESD1}}}} $为第1个ICESD模块的损失， $ {L_{{\text{ICESD2}}}} $为第2个ICESD模块的损失.

2.2.2. 改进的衣着信息消除模块

目前主流的基于深度学习的行人重识别方法普遍依赖行人衣着这样的外观信息来提取特征，在应用到现实场景时，会由于行人衣着变化而失效，不能正确识别行人^[3]. 为了解决这个问题，提出改进的衣着信息消除模块（ICESD模块）^[3]来消除衣着信息，提取对于衣着变化具有鲁棒性的特征，ICESD模块的具体结构如图3所示. 图中，f ^o、f ^nor、f ^S、f ^ID、f ^clo、f ^IDALL分别为原始输入的特征、去风格化后的特征、原始输入特征减去去风格化特征后的特征、分离出的身份特征、分离出的衣着特征、最终的身份特征.

图 3

图 3 改进的衣着信息消除模块

Fig.3 Improved cloth-elimination shape-distillation module

在ICESD模块的设计中，一张行人图片被认为主要包含行人的身份信息和风格信息，其中身份信息主要为包括行人的身形信息在内的生物信息，这些信息在行人的检索过程中具有较高的辨识性，而风格信息主要包括行人的衣着信息、图片的背景信息这些与行人身份无关的信息. ICESD模块通过分离身份信息和风格信息，最终使用身份信息来进行检索，提高了对于行人换装问题的鲁棒性.

对于ICESD模块的结构，首先将输入的特征图经过实例正则化（instance normalization，IN）^[15]去风格化，经过去风格化，可以消除掉与身份无关的衣着信息这些风格信息，保留下需要的身份特定的身份信息. 这个过程可以表示为

(4) $ {f^{{\text{nor}}}} = \beta \frac{{{f^{\rm{o}}} - E\;\left[ {{f^{\rm{o}}}} \right]}}{{\sqrt {{\rm{Var}}\;\left[ {{f^{\rm{o}}}} \right] - \varepsilon } }} + \gamma . $

式中： $ E\;\left[ {\cdot} \right] $表示取均值； $ {\rm{Var}}\;\left[ {\cdot} \right] $表示取方差； $ \;\beta $、 $ \gamma $为2个可学习的放缩参数，通过反向传播更新； $ \varepsilon $为一个极小的常值，防止出现分母为零的情况.

原始输入的特征包含身份信息和风格信息，去风格化后的特征包含大部分身份信息和部分的风格信息. 原始特征减去去风格化后的包含一定身份信息的特征得到包含行人身份信息和衣着信息的特征 $ {f}^{{\rm{S}}} $，再通过注意力机制分离身份信息和衣着信息，分别提取出衣着特征和身份特征，将提取出的身份特征和去风格化的特征相加作为最终的身份特征. 注意力机制的具体结构如图4（a）所示. 通过注意力模块^[16-19]，分别关注对身份信息和衣着信息最显著的区域，这个过程可以表示为

图 4

图 4 改进的衣着信息消除模块中的注意力模块

Fig.4 Attention module of improved cloth-elimination shape-distillation module

(5) $ {f}^{\text{clo}}={\rm{A{t}{t}{e}{n}}}\;\left({f}^{{\rm{S}}}\right){f}^{{\rm{S}}}, $

(6) $ {f}^{\text{ID}}=\left(1-{\rm{Atten}}\;\left({f}^{{\rm{S}}}\right)\right){f}^{{\rm{S}}}. $

式中： $ \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\left({{f}}^{\mathrm{S}}\right) $为注意力机制应用到 $ {f^S} $得到的注意力图.

文献[3]的CESD模块的注意力模块如图4（b）所示，输入的特征图[C，H，W]经过全局平均池化后，接1×1的卷积层和 $ \mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u} $激活层改变特征通道数（由C变为R），然后再接1×1的卷积层和 $ \mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u} $激活层将通道数恢复为C，经过 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $激活层输出[C，1，1]的注意力图. 这一过程可以表示为

(7) $ {A_{\rm{c}}} = {\rm{sigmoid}}\;\left( {{\rm{Relu}}\;\left( {{\rm{Conv}}\;\left( {{\rm{Relu}}\;\left( {{\rm{Conv}}\;\left( {{\rm{GAP}}\;\left( {{f^{\rm{S}}}} \right)} \right)} \right)} \right)} \right)} \right). $

式中： $ {\rm{GAP}} $、 $ {\rm{Conv}} $、 $ \mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u} $、 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $分别为全局平局池化、卷积层、 $ \mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u} $激活层和 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $激活层.

这样得到的注意图在每一个通道上的值是相同的，未能充分注意到每个通道不同空间位置的不同激活. 相较于文献[3]，本研究在注意力机制上进行了改进，提出通道方向重校准和空间方向增强的注意力模块，具体结构如图4（a）所示，分别在通道方向和空间位置上提取注意力图，最后将通道和空间位置整合在一起得到最终的注意力图.

具体来说，在通道方向重校准与原文献基本一致，采用基本类似的结构，与文献[3]除第1个卷积层所用卷积核数不同（L和R不同），其余均相同，得到通道方向的注意力图 $ {A}_{\text{c}} $依然可以用式（7）表示.

空间方向增强通过在输入的特征图[C，H，W]的通道方向进行GAP得到[1，H，W]的特征图，然后对这一特征图通过1×1的卷积层和Relu激活层来学习各个空间位置的重要性，最后在整个特征图上使用softmax进行归一化得到在各个空间位置上的相对重要性. 这一过程可以表示为

(8) $ {A}_{\text{s}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\;\left(\mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u}\;\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\;\left(\mathrm{C}\mathrm{G}\mathrm{A}\mathrm{P}\;\left({f}^{S}\right)\right)\right)\right). $

式中： $ \mathrm{C}\mathrm{G}\mathrm{A}\mathrm{P} $为在通道方向上进行全局平均池化.

通过将通道方向和空间位置上得到的注意力相乘获得最终得注意力图：

(9) $ \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}={A}_{\text{c}}{A}_{\text{s}}. $

将得到的身份信息特征和衣着信息特征分别通过身份分类器和衣着分类器进行分类，对于身份信息特征同时施加三元组损失^[8]. 分类损失和三元组损失计算如下：

(10) $ {L}_{\text{I}}=-\sum\nolimits_{i}^{N}{y}_{i}{\rm{log}}_2\;({\hat{y}}_{i}), $

(11) $ {L}_{\text{CL}}=-\sum\nolimits_{i}^{N}{c}_{i}{\rm{log}}_2\;({\hat{c}}_{i}), $

(12) $ {L}_{\text{IT}}=\sum\nolimits_{i}^{N}\left[\left\| {f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{p}}}\right)} \right\|_2-\left\| {f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{n}}}\right)} \right\|_2+\alpha \right]_+. $

式中： $ {{L}}_{\text{I}} $为身份信息特征的分类损失； $ {{L}}_{\text{CL}} $为衣着信息特征的分类损失； $ {c_i} $为真实衣着标签； $ {\hat c_i} $为预测的标签； $ {{L}}_{\text{IT}} $为身份信息特征的三元组损失.

ICESD模块的总体损失为

(13) $ {L}_{\text{ICESD}}={L}_{\text{I}}+\mu {L}_{\text{CL}}+\theta {L}_{\text{IT}}. $

式中：μ和θ为2个超参数，分别表示衣着信息分类损失和身份信息特征三元组损失的权重，用来平衡对应的损失项的重要程度.

2.3. 人脸识别

人脸识别模型的结构如图5所示，本研究使用ResNet-50^[14]作为主干网络提取特征，对于一张检测到的人脸图片，首先使用MTCNN^[20]网络来对齐人脸图片，将对齐后的人脸图片输入到主干网络中提取特征，提取的特征图尺寸为[C，H，W]. 提取出的特征经过GAP后得到长度为C的向量，通过三元组损失^[8]和分类损失来监督整个人脸识别模型的训练.

(14) $ {L}_{\text{FL}}=-\sum\nolimits_{i}^{N}{y}_{i}{\rm{log}}_2\;({\hat{y}}_{i}), $

(15) $ {L}_{\text{FT}}={\sum\nolimits_{i}^{N}\left[\left\| {f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{p}}}\right)} \right\|_2-\left\| {f\left({x}_{i}^{{\rm{a}}}\right)-f\left({x}_{i}^{{\rm{n}}}\right)} \right\|_2+\alpha \right]}_+. $

式中：L_FL、L_FT分别为人脸识别分支的交叉熵分类损失和三元组损失.

总的损失函数为

(16) $ {L}_{\text{F}}={L}_{\text{FL}}+{L}_{{\rm{FT}}}. $

在测试中，使用GAP后的向量作为推断向量来计算质询图片与整个图库数据集的相似度.

图 5

图 5 人脸识别模型

Fig.5 Face recognition model

2.4. 特征融合和阈值过滤的识别过程

2.4.1. 特征库构造

对数据库中的数据进行统计，平均一个人有5次变装. 对数据集中属于同一个类别的特征进行聚类，用不同聚类中心分别代表一个行人身份的不同穿着（风格）. 本研究采用K-means聚类方法，聚类数设定为5，最终选择这5个聚类中心作为该类别的特征，存储在特征库中，这样每个类别有5个特征. 在测试时，若质询图片与任一类别的5个特征的任何一个最为相似，且符合设定的阈值条件，即认为该质询图片属于这一类别^[21-22]. 分别对人脸识别和行人重识别提取人脸特征库和行人特征库.

对每个类别提取的特征进行5个聚类中心的K-means聚类然后存储的原因如下.

1）不存储每个行人类别所有图片的特征的原因如下：（a）数据库中存在大量的行人图片，若存储每个类别的所有图片的特征，计算相似度是巨大的时间开销，影响算法处理速度.（b）现实场景存在严重换装问题，不同行人有可能穿着极为相似的衣着，而穿着相似衣着的行人图片在特征空间中的距离相对较小. 本研究的算法可以在一定程度上削弱衣着信息对行人身份识别的影响，但衣着的影响依然存在. 对于前端摄像机拍摄到的一个行人的图片，在与特征库进行比对时，若数据库中存在一张衣着极为相似的其他行人的图片，会存在误导，使得模型不能鲁棒地识别行人的身份. 因此，统计数据库中每个行人的平均变装次数，以此作为聚类类别数，将聚类中心作为特征库中这个类别的特征存储有利于提高模型在现实场景中存在换装问题时的鲁棒性.

2）不存储每个行人类别的均值特征的原因如下：现实场景中存在严重换装问题，本研究的算法虽然在一定程度上降低了衣着的影响，但不能完全去除衣着信息，若将每个行人类别的所有图片特征取平均后存储，则丢失了每种衣着信息的差异性，反而会增加换装问题对行人身份识别的消极影响.

2.4.2. 特征相似度融合

在现实场景中，会因行人背对摄像机而检测不到人脸，这时人脸识别分支会失效只能使用行人重识别分支进行识别. 如何进行特征相似度的融合使得系统可以在人脸识别失效时依然提供鲁棒的检索结果是特征相似度融合的关键. 采用人脸分支和行人重识别分支特征分别计算相似度然后进行加权平均的方式进行相似度融合. 具体来说：若目标行人检测到人脸图片，则分别将人脸矩形框图片和目标矩形框图片输入到人脸识别模型和行人重识别模型提取特征，分别与人脸特征库和行人特征库比对，计算人脸相似度和行人相似度，两者经加权平均作为最终的相似度，在与特征库中行人类别比对时取5个特征中最高的相似度作为与该行人类别的相似度. 在换装情况下，人脸识别的可靠度更高，对应人脸识别分支和行人重识别分支选择的权重分别为0.8、0.2. 若未检测到人脸图片，则将目标矩形框图片输入到行人重识别分支中提取特征，与行人特征库比对，得到的相似度即作为最终的相似度.

在本次实验中，所有的相似度计算均采用余弦相似度，计算方式如下：

(17) $ \mathrm{S}\mathrm{i}\mathrm{m}=\mathrm{c}\mathrm{o}\mathrm{s}\;\left({f}^{{\rm{g}}},{f}^{{\rm{q}}}\right). $

式中： $ {f}^{{\rm{g}}} $、 $ {f}^{{\rm{q}}} $分别为特征库中的特征和质询图片经相应的分支模型提取的特征， $ \mathrm{c}\mathrm{o}\mathrm{s} $为余弦相似度.

2.4.3. 阈值过滤的识别过程

在实际场景中，对于前端监控设备检测到的行人图片，经2.4.2节计算得到最终的相似度. 如果与特征库中行人类别的最高的相似度小于0.5，则认为它是未知行人；如果最高的相似度高于0.5，则认为它是特征库中存在的已知行人，最高相似度所属的类别即为该人员所属的类别.

2.4.4. 训练方式和训练数据构造

阈值过滤的识别过程，即首先判断一张质询图片是否属于特征库中的已知行人身份类别，如果属于已知类别，再给出相应的所属类别，如果不属于已知类别，则直接判断为未知行人. 为了实现这一目的，首先选择一些行人类别作为已知类别，然后将其余的所有行人均看作未知行人，利用包含未知行人类在内的数据构造三元组. 为了实现阈值过滤的识别过程，须未知行人类与所有的已知行人类别的距离都足够远. 在不改变已知类别与未知行人类构成的三元组在整体三元组损失中的权重的情况下，须增加未知行人类和所有已知行人类的负样本对组合数. 所以在构建三元组时，采样更多的未知行人类样本，相对少地采样已知行人类别样本，这样会有更多的已知类别和未知行人类构成的三元组，使得未知行人类与所有的已知行人类别的距离都足够远，利用这样构造的批数据来训练模型.

3. 实验测试与结果

本研究所有实验都是基于pytorch实现的，实验设备使用的是NVIDIA GTX1080ti. 布防的监控设备具备移动行人检测功能，当检测到存在移动行人时，检测系统会返回一个包含结构化信息的文件，文件包含对检测到目标行人的描述、检测到的目标行人矩形框图片地址和原始图片地址，以及行人相关的属性特征，如果目标行人的人脸被检测到，还会同时包含人脸矩形框图片地址和原始人脸图片地址. 在通过地址读取到图片后，主要使用检测到的这2张或4张图片来实现所提出的算法.

构建三元组：对于已知行人类别，对每个类别采样2个样本，对于第21类未知行人类采样40个样本，这样每个批数据中包含80个样本，其中已知行人类别总共40个样本，未知行人类40个样本. 利用这样构造的批数据来训练模型.

为了充分利用现有的人脸识别和行人重识别公开数据集，采用域适应的方式进行训练. 首先在公开数据集上进行模型的预训练，然后在采集的数据上进行精调，所采用的源域公开数据集包括人脸识别使用CASIA数据集，行人重识别数据集使用Market1501数据集.

3.1. 测试数据和评价指标

所提出算法是针对现实场景行人身份识别应用设计的，在现实场景中取得了较好的效果. 使用的训练数据和测试数据均采集自实际布置的监控摄像头，由于布置的场地人员流动较少，针对应用场景设计方法，选取20个人员作为20个已知的行人类别，将其他所有人员作为未知行人类即第21类. 在测试时，使用阈值过滤的识别过程，即首先判断一张质询图片是否属于这20个已知的类别，如果属于已知类别，再给出相应的所属类别，如果不属于这20个类别，将其分类为未知行人并引发报警. 将属于20个已知类别的行人图片或行人人脸图片称为正样本，与相应类别的样本构成正样本对，将不属于这20个已知类别的图片样本和样本对称为无关样本和无关样本对，将正样本和无关样本构成的样本对称之为负样本对（负样本对不包括正样本中不同类别构成的样本对）. 对于人脸样本，标注的样本包括正样本1462张图片，无关样本3215张图片，其中训练集包括正样本784张图片，无关样本2107张图片，测试集包括正样本678张图片，无关样本1108张图片，在测试时，训练集的正样本将作为图库数据集. 对于行人样本，标注的样本包括正样本2001张图片，无关样本3262张图片，其中训练集包括正样本1024张图片，无关样本2134张图片，测试集包括正样本977张图片，无关样本1128张图片，在测试时，训练集的正样本将作为图库数据集.

针对这样的场景设置，选择的评价指标为Rank-1准确度，以及正负样本对的相似度位于阈值左右两侧的百分比. 前者是为了评价能否正确找到正样本所属的类别，后者是为了评价能否正确区分正样本和无关样本，前者Rank-1准确度和当前主流研究工作保持一致，不考虑Rank-1相似度的绝对值，只考虑质询的正样本在图库数据集中最相似的样本，只要Rank-1相似的样本和质询图片同属一个类别即认为分类准确（此处Rank-1准确度的质询图片只有正样本，与当前主流工作保持一致）. 后者考虑Rank-1相似度的绝对值，正样本质询图片在图库数据集中的Rank-1相似度大于阈值代表正样本正确划分，不考虑是否正确找到所属类别，无关样本质询图片在图库数据集中的Rank-1相似度小于阈值代表无关样本正确划分. 后续使用正样本正确划分率和无关样本正确划分率来分别代表正负样本对的相似度位于阈值左右两侧的百分比.

3.2. 实验结果

基于采集的数据集和相应的指标采用所提出的方法进行实验并进行实验结果分析. 人脸模型和行人重识别模型单独训练，然后分别测试性能，各自训练完好之后加入整体行人身份识别系统中作为整体测试行人身份识别系统的性能. 人脸模型和行人重识别模型均须根据任务利用域适应的方法进行精调. 训练过程和测试性能如下.

3.2.1. 行人重识别模型

针对行人重识别模型，使用域适应的方法，首先在公开数据集Market1501^[23]上进行预训练，然后在标记的数据上进行精调，使其适应到数据的域中. 在Market1501^[23]源域数据集上的预训练只使用随机水平翻转数据增强，训练用行人图片放缩至256×128大小，然后输入行人重识别模型进行训练，采用SGD优化器，初始学习率为0.001，总共训练500个回合，每100个回合衰减至1/10. 无须在源域数据上进行测试，因此，原Market1501^[23]数据集中的训练数据和测试数据均用来训练. 在标记的数据上进行精调时，采用早停策略，即在采集的数据域上，当模型还未在训练数据上完全收敛时，选择在验证集上获得最高准确度时的模型. 本研究的算法在行人数据上的效果如表1所示. 表中，A为准度.

在实际场景中，对于前端监控设备检测到的行人图片，首先计算它与行人特征库中特征的相似度，如果Rank-1的相似度小于0.5则认为该行人是无关行人. 如果Rank-1的相似度高于0.5，则认为该行人是20个类别中人员，Rank-1所属的类别即是该人员所属的类别. 在现实应用场景下，阈值过滤的识别过程大大增强了算法在实际应用中的效果，同时，尽可能降低负样本被识别为正样本的概率（对应无关样本未能正确划分的概率0.02%），可以容许一定的正样本被误判为负样本（对应正样本未能正确划分的概率为17.5%），这也在较大程度上增强了该算法在现实场景中应用的鲁棒性.

表 1 行人重识别模型性能

Tab.1 Performance of person Re-id model

指标	A/%
Rank-1	47.80
Rank-5	65.40
Rank-10	75.60
正样本正确划分率	82.50
无关样本正确划分率	99.98

1）行人重识别模型分离实验结果. 探究行人重识别模型各个组成元件对整体行人重识别模型性能的贡献. 实验结果如表2所示. 表中，Baseline表示主干网络ResNet-50采用交叉熵分类损失和三元组损失在Market1501上进行预训练，然后在所采集数据集上精调（无ICESD模块或CESD模块），CESD₃表示在主干网络Resnet-50的layer3后添加CESD模块，ICESD₃表示在主干网络Resnet-50的layer3后添加ICESD模块，CESD₃+ CESD₄表示分别在主干网络Resnet-50的layer3和layer4后添加CESD模块. 可以看出，将ICESD模块置于layer3还是layer4后对性能并无太大影响，但是同时在layer3和layer4后添加ICESD模块对性能有较大提升，在Rank-1和mAP分别带来2.2%和0.8%的性能提升，可能的原因是ResNet-50网络的layer3和layer4关注不同语义级别的信息，在其后同时添加ICESD模块可以融合不同语义级别的信息，带来性能提升，但单独使用不同语义级别的信息并无明显的优劣之分. 同时，相较于CESD模块，采用所提出的注意力机制的ICESD模块，会分别带来Rank-1和mAP的0.9%和0.7%的性能提升，充分证明了所提出的ICESD模块的有效性.

表 2 行人重识别模型组成元件分析

Tab.2 Component analysis of Re-id model

模型	mAP	Rank-1
ResNet-50（Baseline）	10.7	13.3
Baseline+CESD₃	26.7	44.4
Baseline+ICESD₃	26.9	45.6
Baseline+CESD₄	26.6	44.5
Baseline+ICESD₄	26.9	45.6
Baseline+CESD₃+ CESD₄	27.0	46.7
Baseline+ICESD₃+ ICESD₄	27.7	47.8

2）行人重识别模型的超参数分析. 分析超参数对行人重识别模型性能的影响，若无另外说明，所进行的超参数分析均是在Baseline+ICESD₃+ICESD₄下进行的. 分析4个超参数， $ {\mu _{\text{1}}} $、 $ {\theta _{\text{1}}} $、 $ {\mu _{\text{2}}} $、 $ {\theta _{\text{2}}} $分别对应ICESD₃模块和ICESD₄模块. 在最开始，将所有参数都设定为1.0，在分析一个参数对性能的影响时，固定其他参数，然后从1.0到0以0.1为间隔改变超参的数值，寻找使模型取得最高性能的数值，在找到最优数值后，这个超参在之后的实验中将被固定为这一数值.

对所有超参数都进行分析，发现模型最佳性能在 $ {\mu _{\text{1}}} $、 $ {\theta _{\text{1}}} $、 $ {\mu _{\text{2}}} $、 $ {\theta _{\text{2}}} $分别为0.3、0.5、0.6、0.5时取得.

3）行人重识别模型整体性能分析. 鉴于深度学习方法相较于手工设计特征的方法已经在行人重识别取得显著的性能提升，主要比较基于深度学习的方法. 为了公平起见，本研究所提算法和最新方法均在3.1节中划分的训练集和测试集下进行训练和测试. 比较结果如表3所示. 可以看出，本研究算法在所采集的数据上实现了最高的性能表现，在mAP和Rank-1上分别超越MuDeep方法5.0%、7.6%，超越PCB方法3.4%、3.4%. 主要原因是对于每个行人类别，图库数据集和质询数据集之间没有衣着重叠，即在图库数据集和质询数据集中相同行人的衣着不同，而不同人之间的衣着有可能极为相似. HACNN、MuDeep、PCB这些常规的行人重识别方法关注于外观信息进行推断，会受到行人衣着信息的干扰，在衣着信息变化时，会产生错误的推断. 上述结果充分证明本研究算法针对现实场景应用中普遍存在的行人换装问题具有一定的有效性.

表 3 行人重识别性能比较

Tab.3 Comparison of person Re-id

模型	mAP	Rank-1
ResNet-50^[14]	10.7	13.3
SENet-50^[24]	16.5	20.5
HACNN^[17]	21.6	39.9
MuDeep^[16]	22.7	40.2
PCB^[11]	24.3	43.6
本研究所提模型	27.7	47.8

3.2.2. 人脸识别模型

针对人脸识别模型，同样使用域适应的方法，首先在公开数据集CASIA上进行预训练，然后在所标记的数据上进行精调，以使其适应到数据的域中. 在CASIA源域数据集上的预训练与文献[6]一致，训练用人脸图片经MTCNN^[20]网络对齐后放缩至224×224大小，然后输入人脸识别模型进行训练^[6]. 无须在源域数据上进行测试，因此，将原CASIA数据集中的训练数据和测试数据均用于训练. 在所采集的数据上精调时，因为标记数据较少，为了防止过拟合，同样采用早停策略. 本研究算法在人脸数据上实现了卓越的性能表现，在Rank-1、正样本正确划分率、无关样本正确划分率上分别实现100%、97.70%、99.93%的性能表现.

训练的人脸模型在采集数据上实现了100%的Rank-1准确度，而且与人脸特征库相似度大于阈值的无关样本只有0.07%，模型实现了较高的性能，体现本研究算法在真实场景中具有较强的适应性.

3.3. 行人身份识别系统整体性能分析

选择2周内通过布控的监控网络采集到的1761组新数据（如图1所示，检测系统返回文件带上4张或2张图片为一组数据）作为测试数据. 其中，属于20个已知类别的正样本有351组数据，属于无关行人类别的无关样本有1410组数据，正样本中包含人脸图片的数据192组，无关样本中包含人脸图片的数据793组. 测试数据的结果如表4所示. 表中，A_c为分类正确率. 可以看出，对于无关样本的识别，在不引入人脸识别的情况下，性能已经足够好（97%），所以人脸识别的引入对整体性能（97%）并无明显提升. 对于正样本的识别，人脸识别的引入对性能带来了巨大提升（带人脸正样本（69%）相较于不带人脸正样本（44%），识别准确度上升25%）. 同时，对于系统的整体性能，人脸识别的引入对性能带来了较大提升（带人脸数据（92%）相较于不带人脸数据（86%），识别准确度上升6%），充分证明了人脸识别的引入对于行人的身份识别系统是有帮助的，可以带来显著的性能提升. 系统在所有样本上也实现了89%的正确识别率，具有现实应用的意义，同时行人身份识别算法在新采集的数据上实现了和3.2节相当的性能，证明在现实场景中的应用具有一定的鲁棒性，可以较好地应用在现实场景的监控网络中.

表 4 测试数据结果的统计数据

Tab.4 Statisticoftestdataoutput

数据样本	数据样本	A_c/%
正样本	总正样本	58
	带人脸正样本	69
	不带人脸正样	44
无关样本	总无关样本	97
	带人脸无关样本	97
	不带人脸无关样本	97
总样本	总样本	89
	带人脸数据	92
	不带人脸数据	86

3.4. 行人身份识别系统实时性分析

分析行人身份识别系统的实时性性能，以现实场景布置的监控摄像机返回的2组包含结构化信息的文件为例，一组包含人脸数据，一组不包含人脸数据.

行人身份识别系统的计算资源主要消耗在深度模型的处理过程. 行人重识别模型和人脸识别模型的参数量P和每秒浮点运算量（FLOPs）如表5所示. 与ResNet-50网络相比，行人重识别模型由于ICESD模块的引入，参数量和每秒浮点运算量均有增加. 相较于参数量和运算量的增加，行人重识别模型在识别性能上较ResNet-50提升明显（见3.2.1.3节）. 人脸模型只使用主干网络来提取特征，与ResNet-50一致. 由于输入尺寸不同，当ResNet-50用于行人重识别和人脸识别分支时，有相同的参数但是有不同的运算量.

表 5 深度模型的参数量和FLOPs

Tab.5 Params and FLOPs of deep model

模型	P/M	FLOPs/G
行人重识别模型	46.6	6.0
ResNet-50^[14]（行人）	24.0	4.1
人脸识别模型	24.0	1.6
ResNet-50^[14]（人脸）	24.0	1.6

系统计算耗时同样是行人身份识别系统在现实场景下应用的重要考量. 系统计算耗时如表6所示. 表中，系统运行整体时间包含导入模型时间和运算时间，前者是指导入训练好的模型和已经构建好的人脸和行人特征库所需的时间，后者是指在读取到质询图片后经深度模型提取特征然后与特征库进行距离度量，最后将识别结果绘制成图形输出所需的时间. 可以看出，一次系统运行的大部分时间花费在模型导入过程中，而模型导入可以在程序运行初始完成，之后每次质询图片识别无须再进行模型导入，所以每次识别运行过程的实际时间消耗为运算时间. 在单张GTX1080ti设备下，包含人脸数据一次识别花费0.79 s，不包含人脸数据的行人识别由于无须人脸模型提取特征，消耗时间相对较少，为0.58 s. 在有更多算力资源的情况下，运行效率会更高. 在本研究所布置的现实场景下，监控网络并不是逐帧返回检测结果，在检测到一段移动行人数据后，才会将一个结构化数据传输给行人身份识别系统进行识别. 本研究系统应用在该现实场景下可以实时返回输出结果，满足布置的需求.

表 6 识别系统计算耗时分析

Tab.6 Computing time of recognition system

数据类型	数据样本	t/s¹⁾
1）注：时间为10次测试平均值.
包含人脸数据	系统运行整体时间	4.69
	导入模型时间	3.90
	运算时间	0.79
不包含人脸数据	系统运行整体时间	4.52
	导入模型时间	3.94
	运算时间	0.58

4. 结　语

提出应用于现实场景的行人身份识别算法，结合人脸识别达到了较好的性能. 结合阈值过滤的识别过程，即先识别是否属于目标行人库中的已知行人类别，再识别具体属于哪个类别，更进一步提高其在现实场景中的适用性. 针对换装行人重识别问题，提出改进的衣着信息消除模块（ICESD）通过注意力机制来分离衣着信息和身份信息，提取具有衣着不变性的身份信息. 所提出的注意力机制充分利用了通道和空间位置上的信息，更好地激活辨识性区域，相比之下获得了更好的结果. 实际场景的应用测试验证了算法的有效性，实时性分析也验证了系统可以现实布置.

目前，身份识别系统仅在一个现实场景布置的监控系统中使用，而且应用场景设定为20个已知行人，其余行人均为未知行人. 在下一步工作中，将进一步探索将本系统布置到场景更加广泛的不同监控网络中.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

罗浩, 姜伟, 范星, 等

基于深度学习的行人重识别研究进展

[J]. 自动化学报, 2019, 45 (11): 2032- 2049

URL [本文引用: 4]

LUO Hao, JIANG Wei, FAN Xing, et al

A survey on deep learning based person re-identification

[J]. Acta Automatica Sinica, 2019, 45 (11): 2032- 2049

URL [本文引用: 4]

[2]

李幼蛟, 卓力, 张菁, 等

行人再识别技术综述

[J]. 自动化学报, 2018, 44 (9): 1554- 1568

URL [本文引用: 1]

LI You-jiao, ZHUO Li, ZHANG Jing, et al

A survey of person re-identification

[J]. Acta Automatica Sinica, 2018, 44 (9): 1554- 1568

URL [本文引用: 1]

[3]

QIAN X L, WANG W X, ZHANG L, et al. Long-term cloth-changing person re-identification [EB/OL]. [2020-05-26]. https://arxiv.org/abs/2005.12633.

[本文引用: 11]

[4]

JIN X, LAN C, ZENG W, et al. Style normalization and restitution for generalizable person re-identification[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 3140-3149.

[本文引用: 2]

[5]

WEI L H, ZHANG S L, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 79-88.

[6]

KHATUN A, DENMAN S, SRIDHARAN, S, et al. End-to-end domain adaptive attention network for cross-domain person re-identification [EB/OL]. [2020-05-07]. https://arxiv.org/abs/2005.03222.

[本文引用: 5]

[7]

ZHAI Y P, LU S J. AD-Cluster: augmented discriminative clustering for domain adaptive person re-identification [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9018-9027.

[8]

SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 815-823.

[本文引用: 7]

[9]

WEN Y D, ZHANG K P, LI Z F. A discriminative feature learning approach for deep face recognition [C]// Proceedings of the 2016 European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515.

[10]

ZHANG J, LIU L, XU C, et al. Hierarchical and efficient learning for person re-identification [EB/OL]. [2020-05-18]. https://arxiv.org/abs/2005.08812.

[11]

SUN Y, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline) [C]// Proceedings of the 2016 European Conference on Computer Vision. Munich: Springer, 2018: 3387–3396.

[12]

LIAO S C, HU Y, ZHU X Y, et al. Person re-identification by local maximal occurrence representation and metric learning [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2197−2206.

[13]

TAGORE N K, SINGH A, MANCHE S, et al. Deep learning based person re-identification [EB/OL]. [2020-05-07]. https://arxiv.org/abs/2005.03293.

[14]

HE K M, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 5]

[15]

ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: the missing ingredient for fast stylization [EB/OL]. [2016-06-27]. https://arxiv.org/abs/1607.08022.

[16]

QIAN X L, FU Y, XIANG T, et al

Leader-based multi-scale attention deep architecture for person re-identification

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42 (2): 371- 385

DOI:10.1109/TPAMI.2019.2928294 [本文引用: 2]

[17]

LI W, ZHU X, GONG S. Harmonious attention network for person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2285–2294.

[18]

CHEN B, DENG W, HU J. Mixed high-order attention network for person re-identification [C]// Proceedings of the 2019 IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 371-381.

[19]

周勇, 王瀚正, 赵佳琦, 等. 基于可解释注意力部件模型的行人重识别方法[EB/OL]. [2020-08-23]. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=MOTO20201105000&uniplatform=NZKPT&v=JCreBvAGjWgg9eTStxOX1MHBH7tyLrog82SWoZ97XdB1Id9qWj877hYBzM9evYAl.

ZHOU Yong, WANG Han-zheng, ZHAO Jia-qi, et al. Interpretable Attention Part Model for Person Re-identification [EB/OL]. [2020-08-23]. https:/kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=MOTO20201105000&uniplatform=NZKPT&v=JCreBvAGjWgg9eTStxOX1MHBH7tyLrog82SWoZ97XdB1Id9qWj877hYBzM9evYAl.

[20]

ZHANG K, ZHANG Z, LI Z, et al

Joint face detection and alignment using multitask cascaded convolutional networks

[J]. IEEE Signal Processing Letters, 2016, 23: 1499- 1503

DOI:10.1109/LSP.2016.2603342 [本文引用: 2]

[21]

JIN X., LAN C, ZENG W, et al. Global distance distributions separation for unsupervised person re-identification [EB/OL]. [2020-06-01]. https://arxiv.org/pdf/2006.00752.pdf.

[22]

LIN Y T, XIE L X. Unsupervised person re-identification via softened similarity learning [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 3387-3396.

[23]

ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1116–1124.

[24]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.