浙江大学学报(工学版), 2021, 55(4): 608-614 doi: 10.3785/j.issn.1008-973X.2021.04.002

计算机技术、电信技术

基于行为感知的用户画像技术

尤明辉,, 殷亚凤,, 谢磊, 陆桑璐

南京大学 计算机软件新技术国家重点实验室,江苏 南京 210023

User profiling based on activity sensing

YOU Ming-hui,, YIN Ya-feng,, XIE Lei, LU Sang-lu

State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China

通讯作者: 殷亚凤,女,副研究员. orcid.org/0000-0002-9497-6244. E-mail: yafeng@nju.edu.cn

收稿日期: 2021-01-22  

基金资助: 国家自然科学基金资助项目(61802169,61872174,61832008,61902175,61906085);江苏省自然科学基金资助项目(BK20180325,BK20190293);江苏省重点研发基金资助项目(BE2018116);软件新技术与产业化协同创新中心资助项目

Received: 2021-01-22  

Fund supported: 国家自然科学基金资助项目(61802169,61872174,61832008,61902175,61906085);江苏省自然科学基金资助项目(BK20180325,BK20190293);江苏省重点研发基金资助项目(BE2018116);软件新技术与产业化协同创新中心资助项目

作者简介 About authors

尤明辉(1998—),男,硕士生,从事智能感知的研究.orcid.org/0000-0003-3493-1121.E-mail:mf20330111@smail.nju.edu.cn , E-mail:mf20330111@smail.nju.edu.cn

摘要

为了在保护用户隐私的同时构建用户画像,提出基于行为感知的用户画像技术. 采用智能手机内置的惯性传感器,可以感知识别用户使用手机的行为(如浏览阅读、打字聊天、通话等). 通过识别的用户行为挖掘用户特性,如性别、社交性格、压力状态等,构建初步的用户画像. 实验结果表明,利用该方法能够较好地识别用户行为并构建用户画像,其中行为识别的准确率为87.2%,针对性别、社交性格、压力状态3个具体用户特性的预测准确率分别为81.8%、72.7%、72.7%.

关键词: 智能手机 ; 惯性传感器 ; 行为感知 ; 用户特性挖掘 ; 用户画像

Abstract

A user profiling method based on activity sensing was proposed in order to build user profile while protecting their privacy. The built-in inertial sensors of the smart phone were used to sense the user activities (e.g., browsing, typing, calling etc.). Then the recognized activities were used to mine user characteristics, such as social personality and stress level, in order to build a preliminary user profile. The experimental results show that the method can recognize user activities and build user profiles. The accuracy of activity recognition was 87.2%, while the accuracy of predictions for the three user characteristics in gender, social personality, and stress level was 81.8%, 72.7%, 72.7%, respectively.

Keywords: smartphone ; inertial sensor ; activity sensing ; user characteristic mining ; user profiling

PDF (873KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

尤明辉, 殷亚凤, 谢磊, 陆桑璐. 基于行为感知的用户画像技术. 浙江大学学报(工学版)[J], 2021, 55(4): 608-614 doi:10.3785/j.issn.1008-973X.2021.04.002

YOU Ming-hui, YIN Ya-feng, XIE Lei, LU Sang-lu. User profiling based on activity sensing. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(4): 608-614 doi:10.3785/j.issn.1008-973X.2021.04.002

根据2020年发布的《2020全球移动市场报告》可知,全球智能手机用户已经达到35亿. 智能手机已经成为人们日常生活的重要组成部分,提供了涵盖生活中多个方面的便捷服务. 智能手机中往往含有大量与用户有关的信息,如生活轨迹、兴趣爱好、日常习惯等,利用这些信息可以构建用户画像,为用户提供个性化的服务. 考虑到智能手机上的信息往往涉及用户的隐私,提出基于行为感知的用户画像技术,在无需访问用户应用程序的前提下构建用户画像. 具体而言,通过分析来自手机惯性传感器(加速度计、磁力计、陀螺仪)的感知数据,进行用户行为感知;通过感知到的行为序列,挖掘用户在人口属性、性格特点、心理状态等方面的特性,构建初步的用户画像[1].

所谓行为感知是指通过感知模块获取用户行为对应的观测数据,通过处理感知数据识别对应的用户行为(如滑动、点击、打字等),被广泛应用于用户认证、运动检测、人机交互等多个领域. 这些年,随着移动设备的普及,与之相适配的感知模块(传感器)将人们生活中点点滴滴的信息记录在手机中,这些记录信息为实现基于智能手机使用数据的行为感知提供了充足数据[2]. 来自不同感知模块的感知数据往往在存储、处理、分析等方面存在差异. 其中惯性传感器(加速度、陀螺仪、磁力计)被广泛应用于用户行为感知,实现随时随地的信息采集,并降低计算开销、保护用户隐私. 由于惯性传感器在数据收集、数据处理及隐私保护等方面的优势,本文主要实现基于惯性传感器数据的用户行为感知.

所谓用户画像是指根据用户在人口属性、性格特点、心理状态等方面的信息抽象出的一个标签化的用户模型,描述用户在以上方面的特征. 通过用户画像可以为用户提供个性化的服务,如信息推送、购物推荐. 作为日常生活中多种服务的接入点,智能手机的使用方式反映用户在通讯、购物、娱乐等多个方面的需求、兴趣和习惯. 这些信息为构建用户画像提供了思路. 近年来,许多研究工作关注于手机应用程序(APP)的安装列表和使用情况,构建用户画像. 这些工作往往需要获得较高的权限,以统计手机APP的使用情况,这可能会侵犯用户的隐私.

为了降低对手机权限的要求来保护用户隐私,本文提出基于行为感知的用户画像技术,在无需获取APP的安装列表或使用权限的情况下实现用户画像. 采用智能手机中常用的惯性传感器收集用户在使用手机时产生的感知数据,根据感知数据识别用户行为(如浏览阅读、游戏、打字聊天、通话、视频);基于识别的行为挖掘用户在人口属性、性格特点、心理状态等方面的特性,从而构建用户画像. 由于惯性传感器不需要特殊的用户权限,且传感器数据并非直接对应APP的使用数据,能够较好地保护用户隐私.

1. 相关工作

1.1. 行为感知

行为感知可以广泛应用于日常生活中的多个领域,是一个备受关注的研究问题[3]. 心理学家Gunnar Johansson在1973年开展了对人体运动感知的实验[4]. 随后,逐渐出现了关于行为感知的研究工作. Lane等[5]调研了当时市场上的智能手机感知算法、应用与设备,提出许多手机感知领域中出现的开放性问题. Plötz等[6]根据原始感知数据的经验累积分布函数,将原始数据进行转换,研究机器学习方法在发现通用特征方面的潜力,基于上下文信息实现行为感知. Preece等[7]实现了基于可穿戴传感器的实时行为识别系统,引入小波特征以及时域、频域特征,对8种动作进行分类,识别率达到94%. Ravi等[8]收集加速度数据进行用户行为识别,分析比较基级分类器和元级分类器的性能. Casale等[9]基于加速度传感器的数据进行行为感知,开发易于使用且携带舒适的新型可穿戴系统,获得了94%的行为识别正确率.

1.2. 用户画像

目前,基于智能手机数据分析用户画像的研究是一项颇受关注的研究工作. 当前工作主要是根据智能手机中的记录或者感知数据来表示用户使用智能手机的偏好,从而实现用户画像.

智能手机中的应用程序(Application,APP)往往记录了大量与用户相关的信息,因而常常被用于用户画像. Seneviratne等[10]基于手机应用安装列表及文字描述,采用支持向量机分类器分析有关生活区域、个人习惯、性格特征等用户特性,模型正确率达到90%. Zhao等[11]使用两步聚类和功能排名选择方法,分析106 762名Android用户的应用程序使用情况,归纳了382种不同类型的用户,提出用户标签的分析方法. 上述工作基于手机应用程序信息挖掘用户特性,因而在收集信息时需要高级别的手机权限,会导致一些安全隐私方面的隐患.

基于传感器感知数据的用户特性挖掘技术可以较好地保护用户隐私. O'Donoghue等[12]使用加速度传感器的感知数据,实现了对用户的身体状态、精神状态进行挖掘分析,帮助患者进行健康护理. Farseev等[13]从社交平台和可穿戴传感器两方面着手,提出多源个人用户配置文件学习框架:根据传感器和社交媒体数据挖掘健康属性,完成用户健康状况分析. Rahman等[14]构建人体传感器网络,结合传感器数据与社交网络,建立用户与其感兴趣的社区之间的联系,挖掘用户的兴趣爱好. Sparacino[15]设计基于传感器的可穿戴式博物馆语音解说设备,根据游客的传感器数据判断游客位置及活动方式,提供个性化的解说. Sztyler等[16]使用智能手机和智能手表中的加速度传感器数据和GPS对用户进行跟踪,分析用户特性,论述了该技术对个性化医疗保健的适用性.

2. 技术框架

设计基于行为感知的用户画像技术. 如图1所示,基于智能手机内置的加速度计、磁力计、陀螺仪,采集用户行为对应的感知数据. 采用除噪、去除重力加速度、数据分割等方式预处理感知数据,从感知数据中提取特征. 采用随机分类器,识别用户行为. 基于识别的用户行为,针对每种用户特性训练支持向量机分类器,基于用户行为序列挖掘用户特性(如人口属性、性格特点、心理状态),构建初级的用户画像.

图 1

图 1   基于行为感知实现用户画像模型框架

Fig.1   User profiling based on activity sensing model


2.1. 基于惯性传感器的行为感知技术

将用户使用手机的具体操作划分为5种类别,即浏览阅读、游戏、打字聊天、通话、视频,采用智能手机内置的惯性传感器实现以上5种行为的感知识别. 采用智能手机中的加速度计、磁力计、陀螺仪,获取用户行为对应的感知数据. 采用固定窗口分割感知数据,在分割后的数据片段中提取时域和频域特征,如时域数据的平均值、标准差、过均值率等以及频域数据的均值、标准差、峰度. 训练随机森林分类器,识别以上5种行为.

2.2. 基于用户行为的用户画像技术

将用户使用手机的行为识别为5种常见的类别. 这些用户行为能够较好地反映用户日常生活中对手机的操作,从而间接地反映出用户的人口属性、性格特点、心理状态等. 通过进一步分析识别出的5种用户行为,挖掘用户特性,如性别、社交性格、压力状态等,构建初步的用户画像. 对一段连续时间内行为感知的结果所组成的序列进行特征提取,将行为序列转化为对应的特征向量. 使用该特征向量,对上述每个方面的用户特性单独训练支持向量机分类器;根据分类结果,为智能手机用户标记每个用户特性对应的标签.

3. 基于惯性传感器的行为感知技术

3.1. 对智能手机使用行为的划分

行为感知的目的是判断用户使用手机时的具体操作. 智能手机应用多种多样,若将每个应用程序当作一个行为类别,则会使行为感知变得十分困难,将常见的应用程序划分为典型的几个类别. 统计华为应用市场安装数量排行榜前200位的应用及对应的类别标签,发现类别标签相同的应用往往对应相似的用户行为,比如今日头条APP和QQ阅读APP均对应浏览阅读行为. 根据官方给出的类别标签,将其中188款(>90%)应用归纳为以下5种类型:浏览阅读、游戏、打字聊天、通话、视频. 这5种应用类别能够概括大部分用户日常使用手机时的行为. 在这样的类别划分方式下,当用户使用优酷视频在手机上观看电影时,可以认为用户使用手机的方式是观看视频. 行为感知的目的是通过分析传感器数据,将一段数据与某一类手机使用行为相关联,该行为被认为是感知的结果.

3.2. 数据采集及预处理

选择智能手机内置的加速度计、磁力计、陀螺仪来获取感知数据. 每个传感器均为三轴传感器,采样频率均设置为100 Hz.

在原始感知数据中,某一时刻加速度计的三维数据所代表的加速度包括以下2个分量:恒定的垂直向下的重力加速度和由于手机运动产生的线性加速度. 采用一阶低通滤波器,从原始加速度中去除重力加速度,获得线性加速度. 关于用户行为的感知数据包括线性加速度、磁力计数据和陀螺仪数据. 考虑到感知数据中存在的噪声,选择使用卡尔曼滤波方法,对感知数据(即线性加速度、磁力计数据、陀螺仪数据)进行降噪处理[17]. 100 Hz 下卡尔曼滤波前、后x轴线性加速度ax的示意图如图2所示.

对于预处理后的线性加速度、磁力计数据和陀螺仪数据,采用固定大小的窗口,将其分割为等长的数据片段,用于特征提取. 为了获得合理的数据片段,选择合适的数据分割窗口. 若窗口设置太大,则会导致一些细节特征丢失;若窗口设置太小,则会导致一段时间内的数据变化趋势难以被捕捉到. 通过大量的实验观察,将窗口大小设置为60 s,即在60 s内的感知数据(即线性加速度、磁力计数据、陀螺仪数据)将被分割为一个数据片段. 对预处理后的感知数据进行分割的方法如图3所示.

图 2

图 2   使用卡尔曼滤波降噪

Fig.2   Noise-reducing with Kalman filtering


图 3

图 3   对时序数据进行数据分割

Fig.3   Data splitting on time series data


3.3. 特征提取

3.3.1. 时域特征

对于每个分割后的数据片段,对每一轴的感知数据计算如表1所示的时域特征. 具体而言,对于一个传感器某一轴的感知数据,用N表示其在分割窗口内的样本数,用Ci表示第i个样本数据的绝对值,max表示最大值,min表示最小值,num表示符合条件的元素个数. 根据表1所示的计算方法,获得某一轴的数据片段对应的均值、标准差、最大值、最小值、过均值率这5种时域特征.

表 1   所选择的时域特征

Tab.1  Time domain features used in training

时域特征 计算公式
均值 $\mu =\dfrac{1}{N}{\displaystyle\sum }_{i=1}^{{N} }{C}_{i}$
标准差 $\sigma =\sqrt{\dfrac{1}{N}{\displaystyle\sum }_{i=1}^{N}{\left({C}_{i}-\mu\right)}^{2} }$
最大值 $f_{{\rm{max}}}={\rm{max} }\;\left\{ {C}_{i}|i\in \left(1, N\right)\right\}$
最小值 $f_{{\rm{min}}}={\rm{min} }\;\left\{ {C}_{i}|i\in \left(1, N\right)\right\}$
过均值率 $f_{{\rm{above}}}=\dfrac{ {\rm{num} }\;\left\{ {C}_{i}|i\in \left(1, N\right),{C}_{i} > \mu\right\}}{N}$

新窗口打开| 下载CSV


3.3.2. 频域特征

对于分割后的数据片段,除了提取时域特征,还将提取频域特征. 由于获得的感知数据是时域数据,对数据片段中的感知数据进行傅里叶变换[18]. 具体而言,对于一个传感器某一轴的感知数据,Gi表示时域数据经过傅里叶变换后得到的第i个频域数据,

$ {G_i} = \sum\limits_{n = 1}^{{N}} {{C_n}} {{\rm{exp}}\;[{ - {\rm{j}}\left( {2{\text{π}} /{{N}}} \right)in}}];\;i \in \left( {1,{{N}}} \right). $

按照如表2所示的计算方法,获得某一轴的数据片段在频域上对应的均值、标准差、峰度这3种特征.

表 2   所选择的频域特征

Tab.2  Frequency domain features used in training

频域特征 计算公式
均值 ${\mu }_{{\rm{amp}}}=\dfrac{1}{N}{\displaystyle\sum }_{i=1}^{{N} }{G}_{i}$
标准差 ${\sigma }_{{\rm{amp}}}=\sqrt{\dfrac{1}{N}{\displaystyle\sum }_{i=1}^{N}{\left({G}_{i}-{\mu }_{{\rm{amp}}}\right)}^{2} }$
峰度 ${\gamma }_{{\rm{amp}}}=\dfrac{1}{N}{\displaystyle\sum }_{i=1}^{N}{\left[\dfrac{ {G}_{i}-{\mu }_{{\rm{amp}}} }{ {\sigma }_{{\rm{amp}}} }\right]}^{4}- 3$

新窗口打开| 下载CSV


对于数据片段中某一轴的感知数据,可以提取5种时域特征和3种频域特征. 由于一个数据片段包含9个轴的感知数据,可以提取 $\left(5+3\right)\times $ $ 9=72$种时域和频域特征,形成72维的特征向量,如图4所示.

图 4

图 4   特征向量的具体形式

Fig.4   Structure of feature vector


3.4. 模型训练

在获得感知数据对应的特征向量后,需要训练分类器模型,用于行为识别. 采用随机森林分类器,用于行为识别. 邀请11名志愿者参与实验数据采集,每名志愿者正常地使用手机1 h左右. 通过数据预处理、数据分割、特征提取,获得608个数据片段对应的特征向量. 从这些特征向量中随机地选取70%的数据来训练随机森林分类器,将训练好的模型用于行为识别,即将用户行为划分为5种类别中的一种.

4. 基于用户行为的用户画像技术

基于所述的行为感知技术,用户在一段时间内的行为可以表示为连续的行为序列,序列中的每个行为表示用户在对应的时间窗口里(即60 s)发出的操作. 根据用户在一段时间内的行为序列,设计构建用户画像的方法.

4.1. 用户画像及标签

用户在一段时间内使用手机的行为(如浏览阅读、游戏、打字聊天、通话、视频)往往能够较好地反映用户日常生活中的需求与使用智能手机的习惯,从而间接地反映出人口属性、心理状态、性格特点等用户特性[1]. 根据多个用户特性分别构建用户标签,每个用户在这些标签上的取值组成了该用户完整的用户画像. 在用户的人口属性、性格特点、心理状态这3个方面中,分别选择性别、社交性格、压力状态作为关注的用户标签. 其中,性别分为男、女2种类型,社交性格分为积极性和消极性2种类型[19],压力状态分为无压力、适度压力、巨大压力3个类型[20]. 根据这3个方面的用户标签来构建用户画像,如图5所示.

图 5

图 5   用户画像内容与用户标签形式

Fig.5   User profile and user tags


4.2. 行为序列上的特征提取

用户使用智能手机的情况往往存在差异,差异具体体现在2个方面:不同用户使用手机时长存在差异、不同用户使用手机时进行的行为存在不同. 这些差异会反映在所感知到的行为序列上:行为感知产生的行为序列长度(即识别到的行为个数)不同;行为序列的内容不同. 如果忽略行为序列的这些差异,直接对行为序列进行长度归一化,用于分类模型训练,那么会影响分类的效果. 对行为序列进行进一步的特征提取,设计针对各个行为类别的权值计算方法,用于特征提取.

行为序列是由浏览阅读、游戏、打字聊天、通话、视频5种行为类别组成的序列. 为了从行为序列中提取特征,设计了权值计算方法,为每一种行为类别分配一个对应的权值. 将5种行为类别对应的权值组成一个长度为5的特征向量,用于模型训练. 对于每个行为类别对应的权值,为出现次数较多的行为类别分配更高的权值,为连续出现的行为类别分配更高的权值. 具体而言,对于一个具体的行为类别A,用n表示在行为序列中出现的次数,用 $ {S}_{i}\left(i\in \left[1, m\right]\right) $表示由A组成的长度大于H的连续子序列(如A-A-A-A-A-A). 其中Si的长度(即含A的个数)为Lim为满足条件的子序列的个数,H设为5. 计算行为类别A对应的权值为

$ {{a}}={{n}}+\sum\limits_{i=1}^m {{L_i}} \Big/{2}. $

各个行为类别对应的权值的具体计算过程如算法1所示.

算法1  行为序列上的权值计算

输入:行为序列a[N]

输出:5种行为类别各自的权值w[5]

1: 初始化:w[i] = 0,i ∈[1,5]

2:  t = 1

3:  while t! = N+1 do

4:    w[a[t]]+=1

5:    t = t+1

6:  end while

7:  k = 2

8:  s = 1

9:  while k! = N+1 do

10:     if a[k] == a[k − 1] then

11:       s= s+1

12:     else if s >= H then

13:       w[a[k−1]]+ =s/2

14:     else then

15:       s = 1

16:     end if

17:     k = k+1

18:  end while

19: 对w数组执行规格化

20:  return w

4.3. 模型训练

针对本文构建的用户画像中涉及的性别、社交性格、压力状态3个用户特性,对每个用户特性训练一个支持向量机分类器,判断用户在对应用户特性上的属性(即取值). 所有用户特性对应的取值作为用户画像的标签,构成该用户的用户画像.

为了训练支持向量机分类器对用户特性进行分类,邀请11名志愿者参与实验. 将每名志愿者的行为感知结果按时间顺序,划分为多个长度不等的行为序列. 其中,每个行为序列的时间长度为10~15 min,每一个行为序列中包含一系列具体的行为. 获得130个行为序列以及每个行为序列对应的特征向量.

在模型训练时,针对用户的性别、社交性格、压力状态这3个用户特性,分别训练一个支持向量机分类器. 对于每一个支持向量机分类器,选取数据集中70%的数据训练模型,将训练好的模型用于指定用户特性的分类. 结合3种类型的分类器,可以获得由3种用户特性构成的标签,用来构建用户画像. 如图5所示,形如(0,1,2)的用户特性分类结果表示的用户画像为:男性,社交性格为消极型,正处于巨大压力中.

5. 实验测试与评估

5.1. 实验设备与数据集描述

该实验使用设备为参与数据收集的志愿者各自日常使用的安卓智能手机,型号包括荣耀v5、小米Mix2s、三星s9、华为mate20等. 每台设备使用加速度计、磁力计、陀螺仪采集感知数据,每个传感器的采样频率均为100 Hz.

邀请了11名志愿者参与实验,其中男性志愿者7人、女性志愿者4人. 在整个实验中,每位志愿者按个人习惯正常使用手机1 h左右. 通过数据处理,获得608个数据片段用于行为识别,获得130个行为序列用于构建用户画像.

5.2. 基于惯性传感器的行为感知

使用70%的数据训练随机森林分类模型,剩下30%的数据用于测试. 表3给出5种行为类别识别结果的混淆矩阵. 其中列表示实际的行为类别,行表示识别出的行为类别. 由混淆矩阵可知,行为感知对游戏、打字聊天、通话、视频4种行为类别的预测准确率较高;对浏览阅读这类行为的预测准确率较低,容易将这类行为误认为是打字聊天. 这可能是因为用户在浏览论坛时,往往伴随行留言、评论等类似打字聊天的操作. 总体而言,该方法具有较好的行为识别性能,平均行为识别准确率为87.2%.

表 3   行为感知预测正确率的混淆矩阵

Tab.3  Accuracy confusion matrix of activity recognition

行为类别 浏览阅读 游戏 打字聊天 通话 视频
浏览阅读 77.6% 0.0% 16.5% 2.0% 3.9%
游戏 1.5% 89.9% 2.0% 0.3% 6.3%
打字聊天 5.2% 4.0% 87.9% 2.4% 0.5%
通话 4.8% 0.0% 5.1% 88.7% 1.4%
视频 3.7% 3.5% 0.2% 0.2% 92.4%

新窗口打开| 下载CSV


考虑到不同用户的行为差异,对每个用户的行为感知结果进行分析. 如图6所示,大多数用户的行为识别准确率Acc为80%~90%,单个用户的行为识别准确率通常大于80%. 尽管用户行为存在差异,依然能够为不同的用户提供较好的行为感知结果.

图 6

图 6   不同用户在行为感知上的正确率

Fig.6   Accuracy of activity recognition on different users


5.3. 基于用户行为的用户画像技术

针对性别、社交性格、压力状态3个方面的用户特性,分别训练支持向量机分类模型. 其中70%的数据用于训练模型,剩下30%的数据用于测试.表4给出关于用户特性分类的准确率,其中性别、社交性格、压力状态这3个方面的分类准确率分别为81.8%、72.7%、72.7%. 可以发现,模型在社交性格和压力状态2个用户特性上的分类性能较低. 这可能是因为收集的数据规模较小,时长为10~15 min的行为序列随机性较高,难以精确地刻画一个人的用户特性.

考虑到行为序列的长度可能对用户特性的分类性能造成影响,邀请各位志愿者进行新一轮的数据采集. 每位志愿者分别提供10、40、60 min的感知数据,将10、40、60 min对应的行为序列用于用户特性分类. 如图7所示,随着行为序列的长度增加,用户特性的分类性能有所提升,尤其是压力状态的分类性能. 在之后的研究中,考虑采用更大规模的数据提高模型的性能,提高用户画像的准确性.

表 4   对用户特性分类的准确率

Tab.4  Classification accuracy of user characteristics

用户特性 Acc /%
性别 81.8
社交性格 72.7
压力状态 72.7

新窗口打开| 下载CSV


图 7

图 7   不同数据收集时间下对用户特性预测正确率

Fig.7   User characteristic classification accuracy of different data collection time


6. 结 语

提出基于行为感知的用户画像技术. 通过智能手机内置的加速度计、磁力计、陀螺仪,获得用户正常使用手机时的感知数据;采用随机森林分类器,将用户行为分类为浏览阅读、游戏、打字聊天、通话、视频这5类行为中的一种. 基于识别的用户行为序列,针对每种用户特性(即性别、社交性格、压力状态)训练支持向量机分类器,将用户特性进行分类,构建用户画像. 实现结果表明,利用该方法能够取得较好的性能,行为识别的准确率为87.2%,关于性别、社交性格、压力状态的分类准确率分别为81.8%、72.7%、72.7%.

参考文献

ZHAO S, LI S, RAMOS J, et al

User profiling from their use of smartphone applications: a survey

[J]. Pervasive and Mobile Computing, 2019, 59: 101052

DOI:10.1016/j.pmcj.2019.101052      [本文引用: 2]

赵莎. 基于大规模手机感知数据的用户特性挖掘[D]. 杭州: 浙江大学, 2017.

[本文引用: 1]

ZHAO Sha. User understanding based on large-scale smartphone-sensed data [D]. Hangzhou: Zhejiang University, 2017.

[本文引用: 1]

CHOUDHURY T, CONSOLVO S, HARRISON B, et al

The mobile sensing platform: an embedded activity recognition system

[J]. IEEE Pervasive Computing, 2008, 7 (2): 32- 41

DOI:10.1109/MPRV.2008.39      [本文引用: 1]

何卫华. 人体行为识别关键技术研究[D]. 重庆: 重庆大学, 2012.

[本文引用: 1]

HE Wei-hua. Research on key technologies of human activity sensing [D]. Chongqing: Chongqing University, 2012.

[本文引用: 1]

LANE N D, MILUZZO E, LU H, et al

A survey of mobile phone sensing

[J]. IEEE Communications Magazine, 2010, 48 (9): 140- 150

DOI:10.1109/MCOM.2010.5560598      [本文引用: 2]

PLÖTZ T, HAMMERLA N Y, OLIVIER P. Feature learning for activity recognition in ubiquitous computing [C]// International Joint Conference on Artificial Intelligence. Barcelona: [s.n.], 2011.

[本文引用: 1]

PREECE S J, GOULERMAS J Y, KENNEY L P J, et al

A comparison of feature extraction methods for the classification of dynamic activities from accelerometer data

[J]. IEEE Transactions on Biomedical Engineering, 2009, 56 (3): 871- 879

DOI:10.1109/TBME.2008.2006190      [本文引用: 1]

RAVI N, DANDEKAR N, MYSORE P, et al. Activity recognition from accelerometer data [C]// Proceedings of the 20th National Conference on Artificial Intelligence and the 17th Innovative Applications of Artificial Intelligence Conference. Pittsburgh: AAAI, 2005.

[本文引用: 1]

CASALE P, PUJOL O, RADEVA P. Human activity recognition from accelerometer data using a wearable device [C]// Iberian Conference on Pattern Recognition and Image Analysis. Berlin: Springer, 2011: 289-296.

[本文引用: 1]

SENEVIRATNE S, SENEVIRATNE A, MOHAPATRA P, et al

Predicting user traits from a snapshot of apps installed on a smartphone

[J]. ACM Sigmobile Mobile Computing and Communications Review, 2014, 18 (2): 1- 8

DOI:10.1145/2636242.2636244      [本文引用: 1]

ZHAO S, RAMOS J, TAO J, et al. Discovering different kinds of smartphone users through their application usage behaviors [C]// Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing. New York: ACM, 498–509.

[本文引用: 1]

O′DONOGHUE J, HERBERT J. Profile based sensor data acquisition in a ubiquitous medical environment [C]// 4th Annual IEEE International Conference on Pervasive Computing and Communications Workshops. Pisa: IEEE, 2006.

[本文引用: 1]

FARSEEV A, CHUA T S. Tweetfit: fusing multiple social media and sensor data for wellness profile learning [C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 95–101.

[本文引用: 1]

RAHMAN M A, EL SADDIK A, GUEAIEB W

Augmenting context awareness by combining body sensor networks and social networks

[J]. IEEE Transactions on Instrumentation and Measurement, 2010, 60 (2): 345- 353

[本文引用: 1]

SPARACINO F

The museum wearable: real-time sensor-driven understanding of visitors' interests for personalized visually-augmented museum experiences

[J]. Institution Archives and Museum Informatics, 2002, 17: 41

[本文引用: 1]

SZTYLER T, VÖLKER J, CARMONA J, et al. Discovery of personal processes from labeled sensor data: an application of process mining to personalized health care [C]// Proceedings of the International Workshop on Algorithms and Theories for the Analysis of Event Data: Brussels: [s. n.], 2015: 31-46.

[本文引用: 1]

KALMAN R E

A new approach to linear filtering and prediction problems

[J]. Journal of Basic Engineering, 1960, 82D: 35- 45

[本文引用: 1]

张宪超, 武继刚, 蒋增荣, 等

离散傅里叶变换的算术傅里叶变换算法

[J]. 电子学报, 2000, 28 (5): 105- 107

URL     [本文引用: 1]

ZHANG Xian-chao, WU Ji-gang, JIANG Zeng-rong, et al

An algorithm for computing DFT using arithmetic fourier transform

[J]. Acta Electronica Sinica, 2000, 28 (5): 105- 107

URL     [本文引用: 1]

OPUSZKO M, BERGER G, RUHLAND J. The impact of public scandals on social media: a sentiment analysis on Youtube to detect the influence on reputation [C]// 2019 6th European Conference on Social Media. Belgium: ACI, 2019: 36.

[本文引用: 1]

CHITTARANJAN G, BLOM J, GATICA-PEREZ D. Who's who with big-five: analyzing and classifying personality traits with smartphones [C]// 15th Annual International Symposium on Wearable Computers. Washington D.C.: IEEE, 2011: 29-36.

[本文引用: 1]

/