室内环境中人穿携物品归属关系自主学习框架

doi:10.3785/j.issn.1008-973X.2019.07.010

室内环境中人穿携物品归属关系自主学习框架

吴皓^,, 李文静, 田国会^,, 陈兆伟, 杨勇

Self-learning framework for attribution relationship of people carrying objects under family environment

WU Hao^,, LI Wen-jing, TIAN Guo-hui^,, CHEN Zhao-wei, YANG Yong

通讯作者: 田国会，男，教授. orcid.org/0000-0001-8332-3064. E-mail： g.h.tian@sdu.edu.cn

收稿日期: 2018-10-31

Received: 2018-10-31

作者简介 About authors

吴皓（1972—），女，副教授，从事智能机器人的研究.orcid.org/0000-0001-6993-8863.E-mail：wh911@sdu.edu.cn , E-mail：wh911@sdu.edu.cn

摘要

为了满足机器人个性化服务需求，使机器人可以根据不同的服务对象来选择专属物品进行任务的推理和规划，需要服务机器人具备自主获取人穿携物品与人的归属关系的能力. 针对家庭环境下人穿携物品与人的归属关系获取问题，提出人穿携物品归属关系自主学习框架. 采用基于物品检测模型SSD与人体姿态估计模型OpenPose相结合的人穿携物品检测定位方法，实现人穿携物品检测. 利用基于迁移学习的卷积神经网络提取物品特征，通过后端分类器完成物品实例属性识别，使用人脸检测与识别模型MTCNN完成服务对象身份识别. 通过归属关系自主学习策略，完成归属关系的自主学习. 实验结果表明，提出的人穿携物品归属关系自主学习框架能够准确、高效地完成归属关系的学习，有效排除环境干扰因素对归属关系学习的影响，具有良好的准确性和鲁棒性.

关键词： 服务机器人 ; 个性化服务 ; 深度学习 ; 穿携物品 ; 物品归属关系

Abstract

It is necessary for service robots to have the ability to independently obtain the attribution relationship between people and their carrying objects in order to satisfy the requirements of robot personalized service and enable robots to select exclusive objects to perform inference and planning according to different service individual. A self-learning framework for the attribution relationship between people and their carrying objects was proposed aiming at the problem of the attribution relationship between people carrying objects and people in the family environment. The method of detecting and locating people carrying objects was used based on the object detection model SSD and the human posture estimation model OpenPose in order to realize the detection of human carrying objects. The face detection and recognition model MTCNN were used to complete the service individual identification by extracting the objects features by convolutional neural network based on migration learning and using the backend classifier to complete the object instance attribute identification. The self-learning of the attribution relationship was completed through the self-learning strategy. The experimental results show that the proposed self-learning framework for attribution relationship of people carrying objects can accurately and efficiently complete the learning of attribution relationship, effectively eliminating the influence of environmental interference factors on attribution learning. The proposed framework has good accuracy and robustness.

Keywords： service robot ; personalized service ; deep learning ; carrying object ; attribution relationship of objects

PDF (1331KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

吴皓, 李文静, 田国会, 陈兆伟, 杨勇. 室内环境中人穿携物品归属关系自主学习框架. 浙江大学学报(工学版)[J], 2019, 53(7): 1315-1322 doi:10.3785/j.issn.1008-973X.2019.07.010

WU Hao, LI Wen-jing, TIAN Guo-hui, CHEN Zhao-wei, YANG Yong. Self-learning framework for attribution relationship of people carrying objects under family environment. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(7): 1315-1322 doi:10.3785/j.issn.1008-973X.2019.07.010

随着服务机器人日益融入家庭生活，用户对服务机器人个性化服务水平的要求越来越高，服务任务更加细化，因此机器人需要具备根据不同用户提出的服务需求来选择专属物品进行任务的推理和规划能力，即执行的服务任务由“取物品”到“取某个用户的专属物品”的升级. 这要求机器人不仅具备对穿携物品的检测和识别能力，还要具有对发出命令的用户身份的识别能力，更重要的是须建立人穿携物品与每个用户的归属关系. 如何有效地获取家庭环境下人穿携物品与人的归属关系尤为重要.

近年来，对人穿携物品的识别研究主要有人手持物品和人穿着衣物的识别2个方面. Hsieh等^[1]提出比率直方图的方法，在一系列图像帧中进行人手持物品的检测. 针对人手持物品存在不同程度的遮挡问题，Rivera-rubio等^[2]建立SHORT数据集，用于评估不同因素对识别性能的影响程度. Lv等^[3]提出基于异构特征融合的RGB-D手持物品识别方法. 对于开放、动态式的真实环境，Li等^[4]提出手持物品识别系统，使得计算机在与人体交互的过程中不断提高自身的识别能力. 在上述方法中人处于标准的站姿或坐姿，对复杂的环境背景效果不理想. Yamaguchi等^[5]提出解析图片中人穿着衣物的方法. Liang等^[6]使用Co-CNN网络结构，对输入的包含人体的图片以端到端的方式进行逐像素的分类. Gong等^[7]提出自监督结构敏感性学习方法，无需在模型训练中具体标记人体关节信息，并在PASCAL-PersonPar数据集和LIP数据集^[8]上验证了该方法的有效性. 对于现在一些标准数据集和真实场景中人体解析的差异，Li等^[9]提出用于多人解析的数据集MHP，使用MH-Parser在解析过程中更好地利用全局上下文信息和局部特征. 这些工作对机器人根据不同的服务对象来选择专属物品具有一定的借鉴意义，但对人全身的穿携物品的识别以及机器人“自主”获取服务对象与专属物品的关联归属关系是机器人提供个性化服务亟待解决的关键问题.

本文提出针对人穿携物品归属关系的自主学习框架. 利用基于物品检测与人体姿态估计相结合的方法获取人穿携物品的类别与位置信息，对难以检测的物品进行二次检测定位，形成仅包含单一物品的人穿携物品图像集合，基于实例识别模型获取物品实例属性. 设计基于卷积神经网络的人脸检测与识别模型，其中前者用于检测人脸所在区域，后者进行人脸特征提取；利用SVM分类器，实现对机器人服务对象身份的识别. 引入归属关系记忆矩阵概念用于描述物品归属关系，提出基于相似度度量的归属关系学习策略，指导机器人完成归属关系的自主学习.

1. 人穿携物品检测定位与实例识别

人穿携物品检测定位与实例识别模型由物品检测定位模块与实例识别模块2部分组成.

1.1. 物品检测定位

物品检测定位由物品全局检测模型及人体姿态估计模型构成，两者相互配合完成物品检测与定位功能. 如图1所示为物品检测与定位流程图.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 物品检测与定位流程图

Fig.1 Flow chart of object detection and positioning

在人穿携的物品中，通常包含各种尺寸大小的物品，SSD模型^[10]通过选择多个网络层的特征图可以更好地检测图像中不同大小的物品. 在物品检测定位方面，采用SSD网络结构. 采用Focal Loss损失函数^[11]，解决由于类别失衡导致的准确率低的问题. 考虑到样本分布变化导致的模型训练收敛速度较慢的问题，在卷积层后引入批归一化（batch normalization，BN）算法^[12]构成SSD-BN模型，对数据分布进行归一化处理来消除内部协变量转移问题，从而提高网络训练速度. 物品全局检测模型只能检测到环境中物品的位置及类别信息，无法判断该物品是否为穿携物品. 需要借助人体姿态估计模型获取人体关节点位置信息，对物品进行空间约束.

在人体姿态估计任务中，自底向上（bottom-up）的方式与自顶到下（top-down）的方式^[13]相比较而言，前者采用在全局进行关键点检测，然后分别对关键点进行聚类，获得不同人物的整体姿态，该方法具有良好的实时性；后者首先在图像中检测到多个人物整体，然后单独对每个人物进行关节点定位，这类方法的时间消耗会随着个体的增加呈线性增长，并且对于距离较近的人物整体检测效果不佳. 本文采用自底向上的OpenPose^[14]人体姿态估计模型，完成人体姿态估计任务. 通过计算得到部位置信图，产生部位亲和域，作为后面模型的输入数据. 采用图论中的偶匹配方法，对关节点位置信息进行空间约束，完成不同人物关节点的聚类.

1.2. 物品实例识别

显著性区域的定位及前景提取^[15]是实例识别的重点，因此提出基于图像显著性的前景自动提取算法，用于显著性区域前景提取. 使用实例识别模型提取前景区域的特征，并使用后端分类器实现分类，如图2所示为物品实例识别流程图.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 物品实例识别流程

Fig.2 Recognition process of object instance

2. 用户身份识别

机器人服务对象身份识别本质上是家庭成员人脸识别问题. 传统的人脸识别包括人脸检测、人脸关键点检测和人脸识别3个过程^[16]. 传统方法在实际应用场景下的准确率不足以满足要求，深度学习的引入为人脸识别问题^[17]带来了质的提升，如图3所示为采用的基于深度学习的人脸识别流程图. 利用WIDER FACE^[18]与CelebA数据集^[19]作为人脸检测的训练数据集，以实现基于卷积神经网络的人脸检测识别模型的训练，有效减小了姿态、光照等对人脸识别的影响；在传统人脸识别过程中加入人脸图像归一化方法，减弱姿态对人脸识别的影响.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 人脸识别流程图

Fig.3 Flow chart of face recognition

根据Wang等^[20]对人脸识别算法的比较评估，采用神经网络中的MTCNN^[21]模型进行人脸检测。MTCNN模型是一种多任务级联卷积神经网络模型，通过3个子网络模型遵循由粗到细逐渐修正的检测过程，实现人脸检测与人脸关键点检测任务. 如图4所示分别为MTCNN模型中子网络P-Net、R-Net、O-Net的检测结果.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 人脸检测效果图

Fig.4 Effect diagram of human face detection

对于家庭环境下用户成员数量少导致的样本数据缺少的问题，通过对人脸特征的分布进行可视化分析发现，不同人脸特征具有线性可分性，因此选用线性SVM分类器^[22]实现人脸识别. SVM分类问题本质上是最大化几何间隔 ${2}/{{\left\| {{w}} \right\|}}$的优化问题，定义约束最优化问题，如下所示：

(1) $ \left. {\begin{array}{*{20}{l}} {\mathop {\min }\limits_{{{w}},b}\; \dfrac{1}{2}{{\left\| {{w}} \right\|}^2}};\\ {{\rm{s.t.}}\;{y_i}({{wx}} + b) - 1 \geqslant 0,\;i \in \{ 1,2, \cdots ,n\}. } \end{array}} \right\} $

3. 归属关系学习

3.1. 归属关系的表示

选择恰当的归属关系表示形式可以提高归属关系的存储及查询效率，因此提出归属关系矩阵C用于归属关系的表示，定义如下：

(2) $ {C} = \left[ {\begin{array}{*{20}{c}} {{c_{00}}}&{{c_{01}}}& \cdots &{{c_{0m}}}\\ {{c_{10}}}&{{c_{11}}}& \cdots &{{c_{1m}}}\\ \vdots & \vdots && \vdots \\ {{c_{n0}}}&{{c_{n1}}}& \cdots &{{c_{nm}}} \end{array}} \right]. $

通过模拟人的长短期记忆以及便于机器人在不同的学习周期中对归属关系进行表示，归属关系矩阵实例化2种不同的形式：短期归属矩阵和长期归属矩阵. 短期记忆矩阵记录每个学习周期中物品实例对于每个服务对象的归属频率，由于人穿携物品存在遮挡造成误识别、某服务对象在某段时间内使用他人物品的情况存在，需要利用后续算法进行处理，形成长期记忆矩阵. 长期记忆矩阵记录每个服务对象对应每一类物品的实例编号，有助于提高归属关系查询速度，因此c_ij具有不同含义. 在前者中表示服务对象i对穿携物品j的归属频率，在后者中表示归属于服务对象i的穿携物品类别j所对应的实例编号.

短期归属关系记忆矩阵将每个周期学习到的穿携物品归属于每个服务对象的归属频率进行存储，形成短期记忆矩阵. 短期记忆矩阵中记录的是归属频率，当归属频率为0时表示该物品从未出现在对应服务对象的穿携物品中，否则表示出现的次数. 如图5所示为短期记忆矩阵存储结构及对应的具体实例.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 短期记忆矩阵存储结构与实例

Fig.5 Short-term memory matrix storage structure and instance

如图5（a）所示，短期记忆矩阵由6个字段组成，分别为用户编号（uid）及5个物品实例，均以无符号整形数据作为字段的数据类型. 图5（b）中，短期记忆矩阵中存在3个服务对象以及3个手机和2个帽子实例，每一列代表某一个实例对于各个服务对象的归属频率，如phone1对3个服务对象的归属频率分别是0、0、17，取数值最大者作为phone1的归属服务对象，由此可知，在该学习周期内，phone1的归属服务对象为服务对象2，其他物品实例以此类推.

与短期记忆矩阵相比，长期记忆矩阵表示最终的归属关系，可以直接查询个性化服务的归属关系。为了优化归属关系查询效率，长期记忆矩阵不再存储归属频率，而是直接存储某一服务对象所拥有的某类穿携物品的实例编号. 在对多个短期记忆矩阵中的归属频率进行统计后，可以得到某物品实例归属于所有服务对象的归属频率；将对应归属频率最大的用户作为该物品实例的所有者，最后将某个服务对象所拥有的物品实例编号进行存储，形成长期记忆矩阵. 如图6所示为长期记忆矩阵存储结构及对应的具体实例.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 长期记忆矩阵存储结构与实例

Fig.6 Long-term memory matrix storage structure and instance

如图6（a）所示，uid字段为用户编号，其余字段为所有的归属物品. 如图6（b）所示为长期记忆矩阵具体实例，3个服务对象可能持有的物品有手机、水杯、帽子、鞋子，对于0号服务对象拥有的对应实例分别为1号手机、0号水杯和0号鞋子，由于0号服务对象没有帽子，因此帽子所对应的实例编号为−1；对于1号服务对象，拥有的对应实例分别为2号手机、2号水杯和1号鞋子，其他服务对象以此类推. 通过使用简单的查询语句，可得特定服务对象所拥有某一类物品的实例编号，实现人穿携物品归属关系的查询.

3.2. 归属关系选择算法

在学习过程中，服务机器人可能由于环境干扰或人为因素导致学习的短期归属矩阵存在偏差或错误，需要采用相应的机制对这类情况进行排除. 首先定义短期记忆矩阵的向量表示形式，如下所示：

(3) $ {U}=\left[u_{1}, u_{2}, \cdots, u_{i}, \cdots, u_{n}\right]^{\rm T}. $

式中：u_i为实例i对应的用户编号. 向量v_i、v_j的相似性度量定义如下所示：

(4) $ {\rm{sim}} < {{{v}}_i},{{{v}}_j} > = \cos\; \theta = \frac{{\sum\limits_{k = 1}^n {v_i^k} v_j^k}}{{\sqrt {\sum\limits_{k = 1}^n {{{\left( {v_i^k} \right)}^2}} } \sqrt {\sum\limits_{k = 1}^n {{{\left( {v_j^k} \right)}^2}} } }}. $

将经过多个学习周期学习得到的短期归属矩阵定义为T，将经过选择算法得到的最终短期归属矩阵定义为O，算法流程如图7所示。

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 归属关系选择算法流程

Fig.7 Selection algorithm process of attribution relationship

4. 实验与分析

4.1. 实验环境与实验平台

在实验室中模拟家庭环境进行归属关系的自主学习，环境中存在4个用户，编号分别为0、1、2、3，存在手机、水杯、帽子、鞋子以及手表这5类物品以及对应的12个物品实例.

采用机器人前端-服务器后端组合的实验平台，机器人前端采用TurTleBot移动机器人平台（见图8），作为视频采集平台，前端主要采集实时环境图像；后端服务器配置如下：Ubuntu16.04操作系统、i7-8700k处理器、32 GB内存以及一块NVIDIA GTX 1080TiGPU，整个归属关系学习过程中除图像获取外其余所有任务均在后端服务器完成. 前端与后端通过网络进行数据传输.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 TurTleBot移动机器人平台

Fig.8 TurTleBot mobile robot platform

4.2. 实验结果与分析

4.2.1. 物品检测定位实验

家庭环境中可能存在只有一人或同时存在多人的情况，因此针对单人及多人情况下的物品检测与定位情况进行实验，如图9所示. 图9从左至右依次为物品全局检测结果、人体姿态估计结果以及物品定位结果. 由图9可知，利用提出的物品检测定位方法能够实现良好的检测定位效果.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 物品检测定位实验

Fig.9 Object detection and positioning experiment

4.2.2. 物品实例识别实验

经过物品检测定位后，使用本文的物品实例识别模型对其进行识别，如图10所示为部分实验结果. 可以看出，该模型不仅能够正确地识别出物品的实例属性，而且对所识别物品的置信度均大于0.98.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 物品实例识别实验

Fig.10 Object instance recognition experiment

对大约1 000个实例物品进行识别，得到模型的识别准确率A_cc，如图11所示. 可以看出，该物品实例识别模型对每类物品的识别准确率均大于0.91，具有极高的可信度，该模型表现出良好的可行性与准确性.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 物品实例识别准确率

Fig.11 Recognition accuracy rate of object instance

4.2.3. 人脸识别实验

选择提出的人脸识别模型，对4个用户的约200张测试图像进行人脸识别实验，并设置置信度阈值为0.9，如图12所示为得到的混淆矩阵. 可以看出，每个用户的识别准确率均达到较高水平，人脸识别模型表现出良好的识别效果.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 人脸识别混淆矩阵

Fig.12 Confusion matrix of face recognition

4.2.4. 归属关系学习实验

在构建短期归属关系记忆矩阵过程中，以30 min为一个短期矩阵学习周期. 每个学习周期开始后，机器人利用自身携带的视频采集设备对家居环境图像进行实时扫描；将获取到的图像分别送入物品检测定位与识别模块以及人脸识别模块，获取到穿携物品的实例信息及服务对象的身份信息；将两者进行归属关系的关联及更新，最终以短期记忆矩阵的形式进行存储. 重复上述过程，直到该学习周期完成. 其中经过5个学习周期得到的短期记忆矩阵，如图13所示.

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 短期记忆矩阵

Fig.13 Short-term memory matrices

在构建长期归属关系记忆矩阵过程中，可以根据使用环境的不同，选择不同的长期矩阵学习周期. 在该实验中，选择7 d作为长期矩阵学习周期，总共得到168个短期记忆矩阵. 此时，使用归属关系选择算法对获得的所有短期记忆矩阵进行选择，得到可信的归属关系. 以图13为例，由式（3）可以求得图13中短期记忆矩阵所对应的向量表示，如下所示：

(5) $ \begin{split} & {{U}_{(0 \leqslant {i} \leqslant 5,0 \leqslant {j} \leqslant 12)}} = \\ & \left\{ {\begin{array}{*{20}{c}} {[\begin{array}{*{20}{c}} 0&1&2&0&1&2&0&1&2&1&2&0 \end{array}]}\\ {[\begin{array}{*{20}{c}} 0&1&2&0&1&2&0&1&2&1&2&0 \end{array}]}\\ {[\begin{array}{*{20}{c}} 0&1&2&0&1&2&0&1&2&2&2&0 \end{array}]}\\ {[\begin{array}{*{20}{c}} 0&1&2&0&1&2&0&1&2&1&2&0 \end{array}]}\\ {[\begin{array}{*{20}{c}} 2&1&2&0&1&2&0&1&2&2&1&0 \end{array}]} \end{array}} \right.. \end{split} $

利用式（4）所述算法对短期归属关系记忆矩阵进行选择，最终排除第5个归属关系，得到前4个短期归属关系并形成最终的短期记忆矩阵. 对所得到的168个短期记忆矩阵重复上述操作，获得可信的归属关系. 通过对所有可信的短期归属矩阵进行统计，可得所有物品实例归属于某一服务对象的归属频率；将对应归属频率最大的服务对象作为该物品实例的所有者，可以得到所有物品实例对应的服务对象，形成长期归属关系记忆矩阵. 由式（5）得到长期记忆矩阵，如图14所示.

图 14

新窗口打开| 下载原图ZIP| 生成PPT

图 14 长期归属关系记忆矩阵

Fig.14 Long-term attribution relationship memory matrix

从图14可以看出，通过归属关系选择算法能够有效地将部分存在错误情况的短期记忆矩阵（归属关系5）排除掉，但由于人穿携物品存在遮挡造成误识别、某服务对象在该学习周期内携带别人物品等情况的存在，容易造成像归属关系3这种无法排除掉的情况；通过后期对长达7天所获得的所有短期归属关系进行选择后，可以有效排除存在错误的归属关系，获得更真实、有效的人穿携物品归属关系.

4.2.5. 基于长期记忆矩阵的归属物品查询实验

基于MySQL数据库进行服务对象归属物品的查询，MySQL数据库支持快速高效的数据存储、修改及查询等操作. 采用Navicat for MySQL图形界面作为归属关系可视化工具进行归属物品的查询，查询结果如图15所示.

图 15

新窗口打开| 下载原图ZIP| 生成PPT

图 15 归属物品查询结果

Fig.15 Attribution object search results

从图15可以看出，对归属于服务对象0的手机进行查询，得到手机编号为1；与已有的数据进行对比，显示查询结果正确，且查询所需时间小于1 ms，表明采用数据库结构化查询语言（structured query language，SQL）对持久化存储的数据进行查询操作具有一定的可行性与高效性.

5. 结　语

本文针对家庭环境下的服务机器人个性化服务需求，提出人穿携物品的归属关系自主学习框架. 将迁移学习用于深度学习，提高了机器人在家居环境下的物品检测定位与实例识别能力；通过MTCNN模型实现服务对象的身份识别，引入归属关系记忆矩阵完成人穿携物品归属关系的直观表示，利用数据库查询工具实现归属关系的查询功能. 实验结果表明，本文框架能够使机器人高效地完成人穿携物品归属关系的自主学习. 接下来的研究可以针对动态环境下，对采集到的图像序列进行处理提高识别精度；考虑在归属关系学习过程中引入更丰富的语义信息，完善框架体系结构.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HSIEH J W, CHENG J C, CHEN L C, et al

Handheld object detection and its related event analysis using ratio histogram and mixture of HMMs

[J]. Journal of Visual Communication and Image Representation, 2014, 25 (6): 1399- 1415

DOI:10.1016/j.jvcir.2014.05.009 [本文引用: 1]

[2]

RIVERA-RUBIO J, IDREES S, ALEXIOU I, et al. A dataset for hand-held object recognition [C] // IEEE International Conference on Image Processing. Paris: IEEE, 2015: 5881-5885.

[本文引用: 1]

[3]

LV X, JIANG S Q, HERRANZ L, et al

RGB-D hand-held object recognition based on heterogeneous feature fusion

[J]. Computer Science and Technology, 2015, 30 (2): 340- 352

DOI:10.1007/s11390-015-1527-0 [本文引用: 1]

[4]

LI X, JIANG S Q, LV X, et al. Learning to recognize hand-held objects from scratch [C] // Advances in Multimedia Information Processing. Berlin: Springer, 2016: 527–539.

[本文引用: 1]

[5]

YAMAGUCHI K, KIAPOUR M H, ORTIZ L E, et al. Parsing clothing in fashion photographs [C] // Computer Vision and Pattern Recognition. Phode Island: IEEE, 2012: 3570-3577.

[本文引用: 1]

[6]

LIANG X D, XU C Y, SHEN X H, et al. Human parsing with contextualized convolutional neural network [C] // IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1386-1394.

[本文引用: 1]

[7]

GONG K, LIANG X D, ZHANG D Y, et al. Look into person: self-supervised structure-sensitive learning and a new benchmark for human parsing [C] // IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 932-940.

[本文引用: 1]

[8]

CHEN X J, MOTTAGHI R, LIU X B, et al. Detect what you can: detecting and representing objects using holistic models and body parts [C] // Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1979-1986.

[本文引用: 1]

[9]

LI J S, ZHAO J, WEI Y C, et al. Towards real world human parsing: multiple-human parsing in the wild [C] // Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.

[本文引用: 1]

[10]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C] // European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

[本文引用: 1]

[11]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C] // Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999-3007.

[本文引用: 1]

[12]

IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C] // Proceedings of the 32nd International Conference on Machine Learning. Coimbra: ACM, 2015: 448-456.

[本文引用: 1]

[13]

SARAFIANOS N, BOTEANU B, IONESCU B, et al

3D human pose estimation: a review of the literature and analysis of covariates

[J]. Computer Vision and Image Understanding, 2016, 152: 1- 20

DOI:10.1016/j.cviu.2016.09.002 [本文引用: 1]

[14]

CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields [C] // Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1302-1310.

[本文引用: 1]

[15]

CHENG M M. Saliency and similarity detection for image scene analysis [D]. Tianjin: NanKai University, 2012: 33-56.

[本文引用: 1]

[16]

ZHAO Z Q, HUANG D S, SUN B Y

Human face recognition based on multi-features using neural networks committee

[J]. Pattern Recognition Letters, 2004, 25 (12): 1351- 1358

DOI:10.1016/j.patrec.2004.05.008 [本文引用: 1]

[17]

GEETHA K P, VADIVELU S S, SINGH N A. Human face recognition using neural networks [C] // Radio Science Conference. Cairo: IEEE, 2012: 260-263.

[本文引用: 1]

[18]

YANG S, LUO P, CHEN C L, et al. WIDER FACE: a face detection benchmark [C] // Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 5525-5533.

[本文引用: 1]

[19]

LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild [C] // Proceedings of the IEEE International Conference on Computer Vision. Boston: IEEE, 2015: 3730-3738.

[本文引用: 1]

[20]

WANG M, DENG W. Deep face recognition: a survey [C] // Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 471-478.

[本文引用: 1]

[21]

ZHANG K, ZHANG Z, LI Z, et al

Joint face detection and alignment using multitask cascaded convolutional networks

[J]. IEEE Signal Processing Letters, 2016, 23 (10): 1499- 1503

DOI:10.1109/LSP.2016.2603342 [本文引用: 1]

[22]

UKIL A

Support vector machine

[J]. Computer Science, 2002, 1 (4): 1- 28

[本文引用: 1]

Handheld object detection and its related event analysis using ratio histogram and mixture of HMMs

2014

... 近年来，对人穿携物品的识别研究主要有人手持物品和人穿着衣物的识别2个方面. Hsieh等^[1]提出比率直方图的方法，在一系列图像帧中进行人手持物品的检测. 针对人手持物品存在不同程度的遮挡问题，Rivera-rubio等^[2]建立SHORT数据集，用于评估不同因素对识别性能的影响程度. Lv等^[3]提出基于异构特征融合的RGB-D手持物品识别方法. 对于开放、动态式的真实环境，Li等^[4]提出手持物品识别系统，使得计算机在与人体交互的过程中不断提高自身的识别能力. 在上述方法中人处于标准的站姿或坐姿，对复杂的环境背景效果不理想. Yamaguchi等^[5]提出解析图片中人穿着衣物的方法. Liang等^[6]使用Co-CNN网络结构，对输入的包含人体的图片以端到端的方式进行逐像素的分类. Gong等^[7]提出自监督结构敏感性学习方法，无需在模型训练中具体标记人体关节信息，并在PASCAL-PersonPar数据集和LIP数据集^[8]上验证了该方法的有效性. 对于现在一些标准数据集和真实场景中人体解析的差异，Li等^[9]提出用于多人解析的数据集MHP，使用MH-Parser在解析过程中更好地利用全局上下文信息和局部特征. 这些工作对机器人根据不同的服务对象来选择专属物品具有一定的借鉴意义，但对人全身的穿携物品的识别以及机器人“自主”获取服务对象与专属物品的关联归属关系是机器人提供个性化服务亟待解决的关键问题. ...

RGB-D hand-held object recognition based on heterogeneous feature fusion

2015

... 在人穿携的物品中，通常包含各种尺寸大小的物品，SSD模型^[10]通过选择多个网络层的特征图可以更好地检测图像中不同大小的物品. 在物品检测定位方面，采用SSD网络结构. 采用Focal Loss损失函数^[11]，解决由于类别失衡导致的准确率低的问题. 考虑到样本分布变化导致的模型训练收敛速度较慢的问题，在卷积层后引入批归一化（batch normalization，BN）算法^[12]构成SSD-BN模型，对数据分布进行归一化处理来消除内部协变量转移问题，从而提高网络训练速度. 物品全局检测模型只能检测到环境中物品的位置及类别信息，无法判断该物品是否为穿携物品. 需要借助人体姿态估计模型获取人体关节点位置信息，对物品进行空间约束. ...

3D human pose estimation: a review of the literature and analysis of covariates

2016

... 在人体姿态估计任务中，自底向上（bottom-up）的方式与自顶到下（top-down）的方式^[13]相比较而言，前者采用在全局进行关键点检测，然后分别对关键点进行聚类，获得不同人物的整体姿态，该方法具有良好的实时性；后者首先在图像中检测到多个人物整体，然后单独对每个人物进行关节点定位，这类方法的时间消耗会随着个体的增加呈线性增长，并且对于距离较近的人物整体检测效果不佳. 本文采用自底向上的OpenPose^[14]人体姿态估计模型，完成人体姿态估计任务. 通过计算得到部位置信图，产生部位亲和域，作为后面模型的输入数据. 采用图论中的偶匹配方法，对关节点位置信息进行空间约束，完成不同人物关节点的聚类. ...

... 显著性区域的定位及前景提取^[15]是实例识别的重点，因此提出基于图像显著性的前景自动提取算法，用于显著性区域前景提取. 使用实例识别模型提取前景区域的特征，并使用后端分类器实现分类，如图2所示为物品实例识别流程图. ...

Human face recognition based on multi-features using neural networks committee

2004

... 机器人服务对象身份识别本质上是家庭成员人脸识别问题. 传统的人脸识别包括人脸检测、人脸关键点检测和人脸识别3个过程^[16]. 传统方法在实际应用场景下的准确率不足以满足要求，深度学习的引入为人脸识别问题^[17]带来了质的提升，如图3所示为采用的基于深度学习的人脸识别流程图. 利用WIDER FACE^[18]与CelebA数据集^[19]作为人脸检测的训练数据集，以实现基于卷积神经网络的人脸检测识别模型的训练，有效减小了姿态、光照等对人脸识别的影响；在传统人脸识别过程中加入人脸图像归一化方法，减弱姿态对人脸识别的影响. ...

... 根据Wang等^[20]对人脸识别算法的比较评估，采用神经网络中的MTCNN^[21]模型进行人脸检测.MTCNN模型是一种多任务级联卷积神经网络模型，通过3个子网络模型遵循由粗到细逐渐修正的检测过程，实现人脸检测与人脸关键点检测任务. 如图4所示分别为MTCNN模型中子网络P-Net、R-Net、O-Net的检测结果. ...

Joint face detection and alignment using multitask cascaded convolutional networks

2016

Support vector machine

2002

... 对于家庭环境下用户成员数量少导致的样本数据缺少的问题，通过对人脸特征的分布进行可视化分析发现，不同人脸特征具有线性可分性，因此选用线性SVM分类器^[22]实现人脸识别. SVM分类问题本质上是最大化几何间隔

${2}/{{\left\| {{w}} \right\|}}$

的优化问题，定义约束最优化问题，如下所示： ...

〈

〉