基于行为感知的用户画像技术
User profiling based on activity sensing
通讯作者:
收稿日期: 2021-01-22
基金资助: |
|
Received: 2021-01-22
Fund supported: | 国家自然科学基金资助项目(61802169,61872174,61832008,61902175,61906085);江苏省自然科学基金资助项目(BK20180325,BK20190293);江苏省重点研发基金资助项目(BE2018116);软件新技术与产业化协同创新中心资助项目 |
作者简介 About authors
尤明辉(1998—),男,硕士生,从事智能感知的研究.orcid.org/0000-0003-3493-1121.E-mail:
为了在保护用户隐私的同时构建用户画像,提出基于行为感知的用户画像技术. 采用智能手机内置的惯性传感器,可以感知识别用户使用手机的行为(如浏览阅读、打字聊天、通话等). 通过识别的用户行为挖掘用户特性,如性别、社交性格、压力状态等,构建初步的用户画像. 实验结果表明,利用该方法能够较好地识别用户行为并构建用户画像,其中行为识别的准确率为87.2%,针对性别、社交性格、压力状态3个具体用户特性的预测准确率分别为81.8%、72.7%、72.7%.
关键词:
A user profiling method based on activity sensing was proposed in order to build user profile while protecting their privacy. The built-in inertial sensors of the smart phone were used to sense the user activities (e.g., browsing, typing, calling etc.). Then the recognized activities were used to mine user characteristics, such as social personality and stress level, in order to build a preliminary user profile. The experimental results show that the method can recognize user activities and build user profiles. The accuracy of activity recognition was 87.2%, while the accuracy of predictions for the three user characteristics in gender, social personality, and stress level was 81.8%, 72.7%, 72.7%, respectively.
Keywords:
本文引用格式
尤明辉, 殷亚凤, 谢磊, 陆桑璐.
YOU Ming-hui, YIN Ya-feng, XIE Lei, LU Sang-lu.
根据2020年发布的《2020全球移动市场报告》可知,全球智能手机用户已经达到35亿. 智能手机已经成为人们日常生活的重要组成部分,提供了涵盖生活中多个方面的便捷服务. 智能手机中往往含有大量与用户有关的信息,如生活轨迹、兴趣爱好、日常习惯等,利用这些信息可以构建用户画像,为用户提供个性化的服务. 考虑到智能手机上的信息往往涉及用户的隐私,提出基于行为感知的用户画像技术,在无需访问用户应用程序的前提下构建用户画像. 具体而言,通过分析来自手机惯性传感器(加速度计、磁力计、陀螺仪)的感知数据,进行用户行为感知;通过感知到的行为序列,挖掘用户在人口属性、性格特点、心理状态等方面的特性,构建初步的用户画像[1].
所谓行为感知是指通过感知模块获取用户行为对应的观测数据,通过处理感知数据识别对应的用户行为(如滑动、点击、打字等),被广泛应用于用户认证、运动检测、人机交互等多个领域. 这些年,随着移动设备的普及,与之相适配的感知模块(传感器)将人们生活中点点滴滴的信息记录在手机中,这些记录信息为实现基于智能手机使用数据的行为感知提供了充足数据[2]. 来自不同感知模块的感知数据往往在存储、处理、分析等方面存在差异. 其中惯性传感器(加速度、陀螺仪、磁力计)被广泛应用于用户行为感知,实现随时随地的信息采集,并降低计算开销、保护用户隐私. 由于惯性传感器在数据收集、数据处理及隐私保护等方面的优势,本文主要实现基于惯性传感器数据的用户行为感知.
所谓用户画像是指根据用户在人口属性、性格特点、心理状态等方面的信息抽象出的一个标签化的用户模型,描述用户在以上方面的特征. 通过用户画像可以为用户提供个性化的服务,如信息推送、购物推荐. 作为日常生活中多种服务的接入点,智能手机的使用方式反映用户在通讯、购物、娱乐等多个方面的需求、兴趣和习惯. 这些信息为构建用户画像提供了思路. 近年来,许多研究工作关注于手机应用程序(APP)的安装列表和使用情况,构建用户画像. 这些工作往往需要获得较高的权限,以统计手机APP的使用情况,这可能会侵犯用户的隐私.
为了降低对手机权限的要求来保护用户隐私,本文提出基于行为感知的用户画像技术,在无需获取APP的安装列表或使用权限的情况下实现用户画像. 采用智能手机中常用的惯性传感器收集用户在使用手机时产生的感知数据,根据感知数据识别用户行为(如浏览阅读、游戏、打字聊天、通话、视频);基于识别的行为挖掘用户在人口属性、性格特点、心理状态等方面的特性,从而构建用户画像. 由于惯性传感器不需要特殊的用户权限,且传感器数据并非直接对应APP的使用数据,能够较好地保护用户隐私.
1. 相关工作
1.1. 行为感知
行为感知可以广泛应用于日常生活中的多个领域,是一个备受关注的研究问题[3]. 心理学家Gunnar Johansson在1973年开展了对人体运动感知的实验[4]. 随后,逐渐出现了关于行为感知的研究工作. Lane等[5]调研了当时市场上的智能手机感知算法、应用与设备,提出许多手机感知领域中出现的开放性问题. Plötz等[6]根据原始感知数据的经验累积分布函数,将原始数据进行转换,研究机器学习方法在发现通用特征方面的潜力,基于上下文信息实现行为感知. Preece等[7]实现了基于可穿戴传感器的实时行为识别系统,引入小波特征以及时域、频域特征,对8种动作进行分类,识别率达到94%. Ravi等[8]收集加速度数据进行用户行为识别,分析比较基级分类器和元级分类器的性能. Casale等[9]基于加速度传感器的数据进行行为感知,开发易于使用且携带舒适的新型可穿戴系统,获得了94%的行为识别正确率.
1.2. 用户画像
目前,基于智能手机数据分析用户画像的研究是一项颇受关注的研究工作. 当前工作主要是根据智能手机中的记录或者感知数据来表示用户使用智能手机的偏好,从而实现用户画像.
基于传感器感知数据的用户特性挖掘技术可以较好地保护用户隐私. O'Donoghue等[12]使用加速度传感器的感知数据,实现了对用户的身体状态、精神状态进行挖掘分析,帮助患者进行健康护理. Farseev等[13]从社交平台和可穿戴传感器两方面着手,提出多源个人用户配置文件学习框架:根据传感器和社交媒体数据挖掘健康属性,完成用户健康状况分析. Rahman等[14]构建人体传感器网络,结合传感器数据与社交网络,建立用户与其感兴趣的社区之间的联系,挖掘用户的兴趣爱好. Sparacino[15]设计基于传感器的可穿戴式博物馆语音解说设备,根据游客的传感器数据判断游客位置及活动方式,提供个性化的解说. Sztyler等[16]使用智能手机和智能手表中的加速度传感器数据和GPS对用户进行跟踪,分析用户特性,论述了该技术对个性化医疗保健的适用性.
2. 技术框架
设计基于行为感知的用户画像技术. 如图1所示,基于智能手机内置的加速度计、磁力计、陀螺仪,采集用户行为对应的感知数据. 采用除噪、去除重力加速度、数据分割等方式预处理感知数据,从感知数据中提取特征. 采用随机分类器,识别用户行为. 基于识别的用户行为,针对每种用户特性训练支持向量机分类器,基于用户行为序列挖掘用户特性(如人口属性、性格特点、心理状态),构建初级的用户画像.
图 1
2.1. 基于惯性传感器的行为感知技术
将用户使用手机的具体操作划分为5种类别,即浏览阅读、游戏、打字聊天、通话、视频,采用智能手机内置的惯性传感器实现以上5种行为的感知识别. 采用智能手机中的加速度计、磁力计、陀螺仪,获取用户行为对应的感知数据. 采用固定窗口分割感知数据,在分割后的数据片段中提取时域和频域特征,如时域数据的平均值、标准差、过均值率等以及频域数据的均值、标准差、峰度. 训练随机森林分类器,识别以上5种行为.
2.2. 基于用户行为的用户画像技术
将用户使用手机的行为识别为5种常见的类别. 这些用户行为能够较好地反映用户日常生活中对手机的操作,从而间接地反映出用户的人口属性、性格特点、心理状态等. 通过进一步分析识别出的5种用户行为,挖掘用户特性,如性别、社交性格、压力状态等,构建初步的用户画像. 对一段连续时间内行为感知的结果所组成的序列进行特征提取,将行为序列转化为对应的特征向量. 使用该特征向量,对上述每个方面的用户特性单独训练支持向量机分类器;根据分类结果,为智能手机用户标记每个用户特性对应的标签.
3. 基于惯性传感器的行为感知技术
3.1. 对智能手机使用行为的划分
行为感知的目的是判断用户使用手机时的具体操作. 智能手机应用多种多样,若将每个应用程序当作一个行为类别,则会使行为感知变得十分困难,将常见的应用程序划分为典型的几个类别. 统计华为应用市场安装数量排行榜前200位的应用及对应的类别标签,发现类别标签相同的应用往往对应相似的用户行为,比如今日头条APP和QQ阅读APP均对应浏览阅读行为. 根据官方给出的类别标签,将其中188款(>90%)应用归纳为以下5种类型:浏览阅读、游戏、打字聊天、通话、视频. 这5种应用类别能够概括大部分用户日常使用手机时的行为. 在这样的类别划分方式下,当用户使用优酷视频在手机上观看电影时,可以认为用户使用手机的方式是观看视频. 行为感知的目的是通过分析传感器数据,将一段数据与某一类手机使用行为相关联,该行为被认为是感知的结果.
3.2. 数据采集及预处理
选择智能手机内置的加速度计、磁力计、陀螺仪来获取感知数据. 每个传感器均为三轴传感器,采样频率均设置为100 Hz.
对于预处理后的线性加速度、磁力计数据和陀螺仪数据,采用固定大小的窗口,将其分割为等长的数据片段,用于特征提取. 为了获得合理的数据片段,选择合适的数据分割窗口. 若窗口设置太大,则会导致一些细节特征丢失;若窗口设置太小,则会导致一段时间内的数据变化趋势难以被捕捉到. 通过大量的实验观察,将窗口大小设置为60 s,即在60 s内的感知数据(即线性加速度、磁力计数据、陀螺仪数据)将被分割为一个数据片段. 对预处理后的感知数据进行分割的方法如图3所示.
图 2
图 3
3.3. 特征提取
3.3.1. 时域特征
表 1 所选择的时域特征
Tab.1
时域特征 | 计算公式 |
均值 | |
标准差 | |
最大值 | |
最小值 | |
过均值率 | |
3.3.2. 频域特征
对于分割后的数据片段,除了提取时域特征,还将提取频域特征. 由于获得的感知数据是时域数据,对数据片段中的感知数据进行傅里叶变换[18]. 具体而言,对于一个传感器某一轴的感知数据,Gi表示时域数据经过傅里叶变换后得到的第i个频域数据,
按照如表2所示的计算方法,获得某一轴的数据片段在频域上对应的均值、标准差、峰度这3种特征.
表 2 所选择的频域特征
Tab.2
频域特征 | 计算公式 |
均值 | |
标准差 | |
峰度 | |
对于数据片段中某一轴的感知数据,可以提取5种时域特征和3种频域特征. 由于一个数据片段包含9个轴的感知数据,可以提取
图 4
3.4. 模型训练
在获得感知数据对应的特征向量后,需要训练分类器模型,用于行为识别. 采用随机森林分类器,用于行为识别. 邀请11名志愿者参与实验数据采集,每名志愿者正常地使用手机1 h左右. 通过数据预处理、数据分割、特征提取,获得608个数据片段对应的特征向量. 从这些特征向量中随机地选取70%的数据来训练随机森林分类器,将训练好的模型用于行为识别,即将用户行为划分为5种类别中的一种.
4. 基于用户行为的用户画像技术
基于所述的行为感知技术,用户在一段时间内的行为可以表示为连续的行为序列,序列中的每个行为表示用户在对应的时间窗口里(即60 s)发出的操作. 根据用户在一段时间内的行为序列,设计构建用户画像的方法.
4.1. 用户画像及标签
图 5
4.2. 行为序列上的特征提取
用户使用智能手机的情况往往存在差异,差异具体体现在2个方面:不同用户使用手机时长存在差异、不同用户使用手机时进行的行为存在不同. 这些差异会反映在所感知到的行为序列上:行为感知产生的行为序列长度(即识别到的行为个数)不同;行为序列的内容不同. 如果忽略行为序列的这些差异,直接对行为序列进行长度归一化,用于分类模型训练,那么会影响分类的效果. 对行为序列进行进一步的特征提取,设计针对各个行为类别的权值计算方法,用于特征提取.
行为序列是由浏览阅读、游戏、打字聊天、通话、视频5种行为类别组成的序列. 为了从行为序列中提取特征,设计了权值计算方法,为每一种行为类别分配一个对应的权值. 将5种行为类别对应的权值组成一个长度为5的特征向量,用于模型训练. 对于每个行为类别对应的权值,为出现次数较多的行为类别分配更高的权值,为连续出现的行为类别分配更高的权值. 具体而言,对于一个具体的行为类别A,用n表示在行为序列中出现的次数,用
各个行为类别对应的权值的具体计算过程如算法1所示.
算法1 行为序列上的权值计算
输入:行为序列a[N]
输出:5种行为类别各自的权值w[5]
1: 初始化:w[i] = 0,i ∈[1,5]
2: t = 1
3: while t! = N+1 do
4: w[a[t]]+=1
5: t = t+1
6: end while
7: k = 2
8: s = 1
9: while k! = N+1 do
10: if a[k] == a[k − 1] then
11: s= s+1
12: else if s >= H then
13: w[a[k−1]]+ =s/2
14: else then
15: s = 1
16: end if
17: k = k+1
18: end while
19: 对w数组执行规格化
20: return w
4.3. 模型训练
针对本文构建的用户画像中涉及的性别、社交性格、压力状态3个用户特性,对每个用户特性训练一个支持向量机分类器,判断用户在对应用户特性上的属性(即取值). 所有用户特性对应的取值作为用户画像的标签,构成该用户的用户画像.
为了训练支持向量机分类器对用户特性进行分类,邀请11名志愿者参与实验. 将每名志愿者的行为感知结果按时间顺序,划分为多个长度不等的行为序列. 其中,每个行为序列的时间长度为10~15 min,每一个行为序列中包含一系列具体的行为. 获得130个行为序列以及每个行为序列对应的特征向量.
在模型训练时,针对用户的性别、社交性格、压力状态这3个用户特性,分别训练一个支持向量机分类器. 对于每一个支持向量机分类器,选取数据集中70%的数据训练模型,将训练好的模型用于指定用户特性的分类. 结合3种类型的分类器,可以获得由3种用户特性构成的标签,用来构建用户画像. 如图5所示,形如(0,1,2)的用户特性分类结果表示的用户画像为:男性,社交性格为消极型,正处于巨大压力中.
5. 实验测试与评估
5.1. 实验设备与数据集描述
该实验使用设备为参与数据收集的志愿者各自日常使用的安卓智能手机,型号包括荣耀v5、小米Mix2s、三星s9、华为mate20等. 每台设备使用加速度计、磁力计、陀螺仪采集感知数据,每个传感器的采样频率均为100 Hz.
邀请了11名志愿者参与实验,其中男性志愿者7人、女性志愿者4人. 在整个实验中,每位志愿者按个人习惯正常使用手机1 h左右. 通过数据处理,获得608个数据片段用于行为识别,获得130个行为序列用于构建用户画像.
5.2. 基于惯性传感器的行为感知
使用70%的数据训练随机森林分类模型,剩下30%的数据用于测试. 表3给出5种行为类别识别结果的混淆矩阵. 其中列表示实际的行为类别,行表示识别出的行为类别. 由混淆矩阵可知,行为感知对游戏、打字聊天、通话、视频4种行为类别的预测准确率较高;对浏览阅读这类行为的预测准确率较低,容易将这类行为误认为是打字聊天. 这可能是因为用户在浏览论坛时,往往伴随行留言、评论等类似打字聊天的操作. 总体而言,该方法具有较好的行为识别性能,平均行为识别准确率为87.2%.
表 3 行为感知预测正确率的混淆矩阵
Tab.3
行为类别 | 浏览阅读 | 游戏 | 打字聊天 | 通话 | 视频 |
浏览阅读 | 77.6% | 0.0% | 16.5% | 2.0% | 3.9% |
游戏 | 1.5% | 89.9% | 2.0% | 0.3% | 6.3% |
打字聊天 | 5.2% | 4.0% | 87.9% | 2.4% | 0.5% |
通话 | 4.8% | 0.0% | 5.1% | 88.7% | 1.4% |
视频 | 3.7% | 3.5% | 0.2% | 0.2% | 92.4% |
考虑到不同用户的行为差异,对每个用户的行为感知结果进行分析. 如图6所示,大多数用户的行为识别准确率Acc为80%~90%,单个用户的行为识别准确率通常大于80%. 尽管用户行为存在差异,依然能够为不同的用户提供较好的行为感知结果.
图 6
5.3. 基于用户行为的用户画像技术
针对性别、社交性格、压力状态3个方面的用户特性,分别训练支持向量机分类模型. 其中70%的数据用于训练模型,剩下30%的数据用于测试.表4给出关于用户特性分类的准确率,其中性别、社交性格、压力状态这3个方面的分类准确率分别为81.8%、72.7%、72.7%. 可以发现,模型在社交性格和压力状态2个用户特性上的分类性能较低. 这可能是因为收集的数据规模较小,时长为10~15 min的行为序列随机性较高,难以精确地刻画一个人的用户特性.
考虑到行为序列的长度可能对用户特性的分类性能造成影响,邀请各位志愿者进行新一轮的数据采集. 每位志愿者分别提供10、40、60 min的感知数据,将10、40、60 min对应的行为序列用于用户特性分类. 如图7所示,随着行为序列的长度增加,用户特性的分类性能有所提升,尤其是压力状态的分类性能. 在之后的研究中,考虑采用更大规模的数据提高模型的性能,提高用户画像的准确性.
表 4 对用户特性分类的准确率
Tab.4
用户特性 | Acc /% |
性别 | 81.8 |
社交性格 | 72.7 |
压力状态 | 72.7 |
图 7
图 7 不同数据收集时间下对用户特性预测正确率
Fig.7 User characteristic classification accuracy of different data collection time
6. 结 语
提出基于行为感知的用户画像技术. 通过智能手机内置的加速度计、磁力计、陀螺仪,获得用户正常使用手机时的感知数据;采用随机森林分类器,将用户行为分类为浏览阅读、游戏、打字聊天、通话、视频这5类行为中的一种. 基于识别的用户行为序列,针对每种用户特性(即性别、社交性格、压力状态)训练支持向量机分类器,将用户特性进行分类,构建用户画像. 实现结果表明,利用该方法能够取得较好的性能,行为识别的准确率为87.2%,关于性别、社交性格、压力状态的分类准确率分别为81.8%、72.7%、72.7%.
参考文献
User profiling from their use of smartphone applications: a survey
[J].DOI:10.1016/j.pmcj.2019.101052 [本文引用: 2]
The mobile sensing platform: an embedded activity recognition system
[J].DOI:10.1109/MPRV.2008.39 [本文引用: 1]
A survey of mobile phone sensing
[J].DOI:10.1109/MCOM.2010.5560598 [本文引用: 2]
A comparison of feature extraction methods for the classification of dynamic activities from accelerometer data
[J].DOI:10.1109/TBME.2008.2006190 [本文引用: 1]
Predicting user traits from a snapshot of apps installed on a smartphone
[J].DOI:10.1145/2636242.2636244 [本文引用: 1]
Augmenting context awareness by combining body sensor networks and social networks
[J].
The museum wearable: real-time sensor-driven understanding of visitors' interests for personalized visually-augmented museum experiences
[J].
A new approach to linear filtering and prediction problems
[J].
离散傅里叶变换的算术傅里叶变换算法
[J].
An algorithm for computing DFT using arithmetic fourier transform
[J].
/
〈 |
|
〉 |
