室内环境中人穿携物品归属关系自主学习框架
Self-learning framework for attribution relationship of people carrying objects under family environment
通讯作者:
收稿日期: 2018-10-31
Received: 2018-10-31
作者简介 About authors
吴皓(1972—),女,副教授,从事智能机器人的研究.orcid.org/0000-0001-6993-8863.E-mail:
为了满足机器人个性化服务需求,使机器人可以根据不同的服务对象来选择专属物品进行任务的推理和规划,需要服务机器人具备自主获取人穿携物品与人的归属关系的能力. 针对家庭环境下人穿携物品与人的归属关系获取问题,提出人穿携物品归属关系自主学习框架. 采用基于物品检测模型SSD与人体姿态估计模型OpenPose相结合的人穿携物品检测定位方法,实现人穿携物品检测. 利用基于迁移学习的卷积神经网络提取物品特征,通过后端分类器完成物品实例属性识别,使用人脸检测与识别模型MTCNN完成服务对象身份识别. 通过归属关系自主学习策略,完成归属关系的自主学习. 实验结果表明,提出的人穿携物品归属关系自主学习框架能够准确、高效地完成归属关系的学习,有效排除环境干扰因素对归属关系学习的影响,具有良好的准确性和鲁棒性.
关键词:
It is necessary for service robots to have the ability to independently obtain the attribution relationship between people and their carrying objects in order to satisfy the requirements of robot personalized service and enable robots to select exclusive objects to perform inference and planning according to different service individual. A self-learning framework for the attribution relationship between people and their carrying objects was proposed aiming at the problem of the attribution relationship between people carrying objects and people in the family environment. The method of detecting and locating people carrying objects was used based on the object detection model SSD and the human posture estimation model OpenPose in order to realize the detection of human carrying objects. The face detection and recognition model MTCNN were used to complete the service individual identification by extracting the objects features by convolutional neural network based on migration learning and using the backend classifier to complete the object instance attribute identification. The self-learning of the attribution relationship was completed through the self-learning strategy. The experimental results show that the proposed self-learning framework for attribution relationship of people carrying objects can accurately and efficiently complete the learning of attribution relationship, effectively eliminating the influence of environmental interference factors on attribution learning. The proposed framework has good accuracy and robustness.
Keywords:
本文引用格式
吴皓, 李文静, 田国会, 陈兆伟, 杨勇.
WU Hao, LI Wen-jing, TIAN Guo-hui, CHEN Zhao-wei, YANG Yong.
随着服务机器人日益融入家庭生活,用户对服务机器人个性化服务水平的要求越来越高,服务任务更加细化,因此机器人需要具备根据不同用户提出的服务需求来选择专属物品进行任务的推理和规划能力,即执行的服务任务由“取物品”到“取某个用户的专属物品”的升级. 这要求机器人不仅具备对穿携物品的检测和识别能力,还要具有对发出命令的用户身份的识别能力,更重要的是须建立人穿携物品与每个用户的归属关系. 如何有效地获取家庭环境下人穿携物品与人的归属关系尤为重要.
近年来,对人穿携物品的识别研究主要有人手持物品和人穿着衣物的识别2个方面. Hsieh等[1]提出比率直方图的方法,在一系列图像帧中进行人手持物品的检测. 针对人手持物品存在不同程度的遮挡问题,Rivera-rubio等[2]建立SHORT数据集,用于评估不同因素对识别性能的影响程度. Lv等[3]提出基于异构特征融合的RGB-D手持物品识别方法. 对于开放、动态式的真实环境,Li等[4]提出手持物品识别系统,使得计算机在与人体交互的过程中不断提高自身的识别能力. 在上述方法中人处于标准的站姿或坐姿,对复杂的环境背景效果不理想. Yamaguchi等[5]提出解析图片中人穿着衣物的方法. Liang等[6]使用Co-CNN网络结构,对输入的包含人体的图片以端到端的方式进行逐像素的分类. Gong等[7]提出自监督结构敏感性学习方法,无需在模型训练中具体标记人体关节信息,并在PASCAL-PersonPar数据集和LIP数据集[8]上验证了该方法的有效性. 对于现在一些标准数据集和真实场景中人体解析的差异,Li等[9]提出用于多人解析的数据集MHP,使用MH-Parser在解析过程中更好地利用全局上下文信息和局部特征. 这些工作对机器人根据不同的服务对象来选择专属物品具有一定的借鉴意义,但对人全身的穿携物品的识别以及机器人“自主”获取服务对象与专属物品的关联归属关系是机器人提供个性化服务亟待解决的关键问题.
本文提出针对人穿携物品归属关系的自主学习框架. 利用基于物品检测与人体姿态估计相结合的方法获取人穿携物品的类别与位置信息,对难以检测的物品进行二次检测定位,形成仅包含单一物品的人穿携物品图像集合,基于实例识别模型获取物品实例属性. 设计基于卷积神经网络的人脸检测与识别模型,其中前者用于检测人脸所在区域,后者进行人脸特征提取;利用SVM分类器,实现对机器人服务对象身份的识别. 引入归属关系记忆矩阵概念用于描述物品归属关系,提出基于相似度度量的归属关系学习策略,指导机器人完成归属关系的自主学习.
1. 人穿携物品检测定位与实例识别
人穿携物品检测定位与实例识别模型由物品检测定位模块与实例识别模块2部分组成.
1.1. 物品检测定位
物品检测定位由物品全局检测模型及人体姿态估计模型构成,两者相互配合完成物品检测与定位功能. 如图1所示为物品检测与定位流程图.
图 1
在人穿携的物品中,通常包含各种尺寸大小的物品,SSD模型[10]通过选择多个网络层的特征图可以更好地检测图像中不同大小的物品. 在物品检测定位方面,采用SSD网络结构. 采用Focal Loss损失函数[11],解决由于类别失衡导致的准确率低的问题. 考虑到样本分布变化导致的模型训练收敛速度较慢的问题,在卷积层后引入批归一化(batch normalization,BN)算法[12]构成SSD-BN模型,对数据分布进行归一化处理来消除内部协变量转移问题,从而提高网络训练速度. 物品全局检测模型只能检测到环境中物品的位置及类别信息,无法判断该物品是否为穿携物品. 需要借助人体姿态估计模型获取人体关节点位置信息,对物品进行空间约束.
在人体姿态估计任务中,自底向上(bottom-up)的方式与自顶到下(top-down)的方式[13]相比较而言,前者采用在全局进行关键点检测,然后分别对关键点进行聚类,获得不同人物的整体姿态,该方法具有良好的实时性;后者首先在图像中检测到多个人物整体,然后单独对每个人物进行关节点定位,这类方法的时间消耗会随着个体的增加呈线性增长,并且对于距离较近的人物整体检测效果不佳. 本文采用自底向上的OpenPose[14]人体姿态估计模型,完成人体姿态估计任务. 通过计算得到部位置信图,产生部位亲和域,作为后面模型的输入数据. 采用图论中的偶匹配方法,对关节点位置信息进行空间约束,完成不同人物关节点的聚类.
1.2. 物品实例识别
图 2
2. 用户身份识别
图 3
图 4
对于家庭环境下用户成员数量少导致的样本数据缺少的问题,通过对人脸特征的分布进行可视化分析发现,不同人脸特征具有线性可分性,因此选用线性SVM分类器[22]实现人脸识别. SVM分类问题本质上是最大化几何间隔
3. 归属关系学习
3.1. 归属关系的表示
选择恰当的归属关系表示形式可以提高归属关系的存储及查询效率,因此提出归属关系矩阵C用于归属关系的表示,定义如下:
通过模拟人的长短期记忆以及便于机器人在不同的学习周期中对归属关系进行表示,归属关系矩阵实例化2种不同的形式:短期归属矩阵和长期归属矩阵. 短期记忆矩阵记录每个学习周期中物品实例对于每个服务对象的归属频率,由于人穿携物品存在遮挡造成误识别、某服务对象在某段时间内使用他人物品的情况存在,需要利用后续算法进行处理,形成长期记忆矩阵. 长期记忆矩阵记录每个服务对象对应每一类物品的实例编号,有助于提高归属关系查询速度,因此cij具有不同含义. 在前者中表示服务对象i对穿携物品j的归属频率,在后者中表示归属于服务对象i的穿携物品类别j所对应的实例编号.
短期归属关系记忆矩阵将每个周期学习到的穿携物品归属于每个服务对象的归属频率进行存储,形成短期记忆矩阵. 短期记忆矩阵中记录的是归属频率,当归属频率为0时表示该物品从未出现在对应服务对象的穿携物品中,否则表示出现的次数. 如图5所示为短期记忆矩阵存储结构及对应的具体实例.
图 5
图 5 短期记忆矩阵存储结构与实例
Fig.5 Short-term memory matrix storage structure and instance
与短期记忆矩阵相比,长期记忆矩阵表示最终的归属关系,可以直接查询个性化服务的归属关系。为了优化归属关系查询效率,长期记忆矩阵不再存储归属频率,而是直接存储某一服务对象所拥有的某类穿携物品的实例编号. 在对多个短期记忆矩阵中的归属频率进行统计后,可以得到某物品实例归属于所有服务对象的归属频率;将对应归属频率最大的用户作为该物品实例的所有者,最后将某个服务对象所拥有的物品实例编号进行存储,形成长期记忆矩阵. 如图6所示为长期记忆矩阵存储结构及对应的具体实例.
图 6
图 6 长期记忆矩阵存储结构与实例
Fig.6 Long-term memory matrix storage structure and instance
3.2. 归属关系选择算法
在学习过程中,服务机器人可能由于环境干扰或人为因素导致学习的短期归属矩阵存在偏差或错误,需要采用相应的机制对这类情况进行排除. 首先定义短期记忆矩阵的向量表示形式,如下所示:
式中:ui为实例i对应的用户编号. 向量vi、vj的相似性度量定义如下所示:
将经过多个学习周期学习得到的短期归属矩阵定义为T,将经过选择算法得到的最终短期归属矩阵定义为O,算法流程如图7所示。
图 7
4. 实验与分析
4.1. 实验环境与实验平台
在实验室中模拟家庭环境进行归属关系的自主学习,环境中存在4个用户,编号分别为0、1、2、3,存在手机、水杯、帽子、鞋子以及手表这5类物品以及对应的12个物品实例.
采用机器人前端-服务器后端组合的实验平台,机器人前端采用TurTleBot移动机器人平台(见图8),作为视频采集平台,前端主要采集实时环境图像;后端服务器配置如下:Ubuntu16.04操作系统、i7-8700k处理器、32 GB内存以及一块NVIDIA GTX 1080TiGPU,整个归属关系学习过程中除图像获取外其余所有任务均在后端服务器完成. 前端与后端通过网络进行数据传输.
图 8
4.2. 实验结果与分析
4.2.1. 物品检测定位实验
图 9
4.2.2. 物品实例识别实验
经过物品检测定位后,使用本文的物品实例识别模型对其进行识别,如图10所示为部分实验结果. 可以看出,该模型不仅能够正确地识别出物品的实例属性,而且对所识别物品的置信度均大于0.98.
图 10
对大约1 000个实例物品进行识别,得到模型的识别准确率Acc,如图11所示. 可以看出,该物品实例识别模型对每类物品的识别准确率均大于0.91,具有极高的可信度,该模型表现出良好的可行性与准确性.
图 11
4.2.3. 人脸识别实验
选择提出的人脸识别模型,对4个用户的约200张测试图像进行人脸识别实验,并设置置信度阈值为0.9,如图12所示为得到的混淆矩阵. 可以看出,每个用户的识别准确率均达到较高水平,人脸识别模型表现出良好的识别效果.
图 12
4.2.4. 归属关系学习实验
在构建短期归属关系记忆矩阵过程中,以30 min为一个短期矩阵学习周期. 每个学习周期开始后,机器人利用自身携带的视频采集设备对家居环境图像进行实时扫描;将获取到的图像分别送入物品检测定位与识别模块以及人脸识别模块,获取到穿携物品的实例信息及服务对象的身份信息;将两者进行归属关系的关联及更新,最终以短期记忆矩阵的形式进行存储. 重复上述过程,直到该学习周期完成. 其中经过5个学习周期得到的短期记忆矩阵,如图13所示.
图 13
利用式(4)所述算法对短期归属关系记忆矩阵进行选择,最终排除第5个归属关系,得到前4个短期归属关系并形成最终的短期记忆矩阵. 对所得到的168个短期记忆矩阵重复上述操作,获得可信的归属关系. 通过对所有可信的短期归属矩阵进行统计,可得所有物品实例归属于某一服务对象的归属频率;将对应归属频率最大的服务对象作为该物品实例的所有者,可以得到所有物品实例对应的服务对象,形成长期归属关系记忆矩阵. 由式(5)得到长期记忆矩阵,如图14所示.
图 14
从图14可以看出,通过归属关系选择算法能够有效地将部分存在错误情况的短期记忆矩阵(归属关系5)排除掉,但由于人穿携物品存在遮挡造成误识别、某服务对象在该学习周期内携带别人物品等情况的存在,容易造成像归属关系3这种无法排除掉的情况;通过后期对长达7天所获得的所有短期归属关系进行选择后,可以有效排除存在错误的归属关系,获得更真实、有效的人穿携物品归属关系.
4.2.5. 基于长期记忆矩阵的归属物品查询实验
基于MySQL数据库进行服务对象归属物品的查询,MySQL数据库支持快速高效的数据存储、修改及查询等操作. 采用Navicat for MySQL图形界面作为归属关系可视化工具进行归属物品的查询,查询结果如图15所示.
图 15
从图15可以看出,对归属于服务对象0的手机进行查询,得到手机编号为1;与已有的数据进行对比,显示查询结果正确,且查询所需时间小于1 ms,表明采用数据库结构化查询语言(structured query language,SQL)对持久化存储的数据进行查询操作具有一定的可行性与高效性.
5. 结 语
本文针对家庭环境下的服务机器人个性化服务需求,提出人穿携物品的归属关系自主学习框架. 将迁移学习用于深度学习,提高了机器人在家居环境下的物品检测定位与实例识别能力;通过MTCNN模型实现服务对象的身份识别,引入归属关系记忆矩阵完成人穿携物品归属关系的直观表示,利用数据库查询工具实现归属关系的查询功能. 实验结果表明,本文框架能够使机器人高效地完成人穿携物品归属关系的自主学习. 接下来的研究可以针对动态环境下,对采集到的图像序列进行处理提高识别精度;考虑在归属关系学习过程中引入更丰富的语义信息,完善框架体系结构.
参考文献
Handheld object detection and its related event analysis using ratio histogram and mixture of HMMs
[J].DOI:10.1016/j.jvcir.2014.05.009 [本文引用: 1]
RGB-D hand-held object recognition based on heterogeneous feature fusion
[J].DOI:10.1007/s11390-015-1527-0 [本文引用: 1]
3D human pose estimation: a review of the literature and analysis of covariates
[J].DOI:10.1016/j.cviu.2016.09.002 [本文引用: 1]
Human face recognition based on multi-features using neural networks committee
[J].DOI:10.1016/j.patrec.2004.05.008 [本文引用: 1]
Joint face detection and alignment using multitask cascaded convolutional networks
[J].DOI:10.1109/LSP.2016.2603342 [本文引用: 1]
/
〈 |
|
〉 |
