文章快速检索     高级检索
  浙江大学学报(理学版)  2018, Vol. 45 Issue (1): 37-43  DOI:10.3785/j.issn.1008-9497.2018.01.007
0

引用本文 [复制中英文]

蒋宏宇, 吴亚东, 赵韦鑫, 唐楷. 面向用户行为理解的移动通讯数据可视分析[J]. 浙江大学学报(理学版), 2018, 45(1): 37-43. DOI: 10.3785/j.issn.1008-9497.2018.01.007.
[复制中文]
JIANG Hongyu, WU Yadong, ZHAO Weixin, TANG Kai. Mobile data visual analysis for human activity understanding[J]. Journal of Zhejiang University(Science Edition), 2018, 45(1): 37-43. DOI: 10.3785/j.issn.1008-9497.2018.01.007.
[复制英文]

基金项目

国家重点研发计划项目(2016QY04W0801);四川省军民融合研究院开放基金资助项目(JMRH01);四川省科技厅项目(2017TJPT0200,2017KZ0023,2017GZ0186);西南科技大学研究生创新基金资助项目(17ycx052);西南科技大学大学生创新基金精准资助专项(jz17-045)

作者简介

蒋宏宇(1994-), ORCID:http://orcid.org/0000-0003-1534-188X, 男, 硕士研究生, 主要从事可视化、城市计算研究

通信作者

吴亚东, ORCID:http://orcid.org/0000-0003-0919-9151, E-mail:wyd028@126.com

文章历史

收稿日期:2017-07-01
面向用户行为理解的移动通讯数据可视分析
蒋宏宇1 , 吴亚东1,2 , 赵韦鑫1 , 唐楷1     
1. 西南科技大学 计算机科学与技术学院, 四川 绵阳 621010;
2. 西南科技大学 四川省军民融合研究院, 四川 绵阳 621010
摘要: 通信数据包含人类活动的时空以及社会关系等信息,对人类行为分析有重要的价值.为了帮助分析者对用户的行为进行分析和理解,构建了从通信数据中探索用户的时空、社交等信息以分析用户行为的可视化流程,旨在理解用户的行为模式并通过行为的对比发现用户的社会角色以及用户之间的真实社交关系,通过迭代式交互过程,对用户不同时段的行为进行有效的理解和分析.在此基础上,构建了用户行为可视分析系统,采用半年的通信数据对该方法以及系统进行评估,结果显示,本方法能够有效理解个人行为、识别用户之间的关系.
关键词: 用户行为    时空数据    稀疏轨迹    
Mobile data visual analysis for human activity understanding
JIANG Hongyu1 , WU Yadong1,2 , ZHAO Weixin1 , TANG Kai1     
1. Southwest University of Science and Technology, Mianyang 621010, Sichuan Province, China;
2. Sichuan Civil-Military Integration Institute, Southwest University of Science and Technology, Mianyang 621010, Sichuan Province, China
Abstract: Mobile data imply various information, including spatio-temporal characteristics and the social relationship of human activities, which have great value for human behavior exploration. In order to analyze and understand the activities of mobile users, a mobile data visual analytics framework is proposed focusing on users' activity understanding based on the spatio-temporal and social features of mobile data. And, a visual analytic system for mobile data is also built, which aims to explore mobile users' behavior patterns in different period, detect their social roles and discover their real social relationship. It has been examined with mobile data in a city, and the results prove the effectiveness of the proposed method.
Key words: activities of users    spatio-temporal data    sparse data    

移动通信技术的发展不但改变了人们传统的生活和工作方式, 亦大大影响了人们的观念和思维方式.电信企业之间的竞争推进了移动业务的创新和服务质量的提高.移动设备持有量迅速增加, 手持设备通信占据越来越重要的地位, 与人们的生活相关性亦越来越强.通信网络数据中包含了社交信息和时空信息, 通过对通信网络数据进行分析, 可有效掌握用户的行为特点、社会角色、社交网络、用户之间的真实关系等特征, 据此服务提供商便可针对不同用户群体、用户个体进行精准营销, 完成较人性化的消费推荐.安全部门也可据此对个人行为进行取证和分析.

1 相关工作 1.1 用户行为分析

CHEN等[1]使用微博位置标记数据构建了可视分析系统, 帮助用户理解和分析移动信息.KRÜGER等[2]分析了用户目的地的Twitter数据, 并通过其自行车轨迹提取地图中的关键标签.在轨迹语义方面也有诸多研究,例如, ANDRIENKO等[3]将位置轨迹转换为语义轨迹.CHU等[4]通过使用文本分析中的LDA算法提取出租车数据的主题.每个主题都在一定概率下包含一些道路, 每个出租车轨迹均具有一定概率,属于一个话题.GONZÁLEZ等[5]发现人的运动模式是有规律的,个体运动模式与个体概率分布模型具有很高的相似性, 认为人们的运动轨迹在不久的将来会重演.ZHU等[6]着眼于用户位置数据中经常出现的地点, 并根据出现时间推测用户所处的位置是家还是公司.谭钧元等[7]提出用生活熵概念作为用户移动轨迹规律程度的度量, 用个人每天同一时段移动序列的算法弥补稀疏数据采样不足的缺点.SHAD等[8]则结合地理信息与用户提供的上下文语义信息增加用户行为预测的准确性.

1.2 通话数据分析

对蜂窝网络数据的分析一直是研究领域的热点.CALABRESE等[9]和PULSELLI等[10]对米兰进行了案例分析,得到的用户活动的强度和时空特征可以通过对基站的呼叫量进行可视化表示. READES等[11]对基站的呼叫量与其附近的公共活动的相关性进行了研究.另外, 针对用户的行为痕迹, 文献[11]对150万人15个月的移动数据进行了分析, 发现每个人的行为痕迹是不同的, 通过行为痕迹能够识别人.文献[12]的研究表明,人们流动模式的基本相似会对流行病预防、应急响应以及城市规划有所启发和帮助. WU等[13]设计了一个名为TelCoVis的可视分析系统, 旨在帮助分析师利用其领域知识和电信数据深入了解城市用户的移动共现.此外, GONZÁLEZ等[14]总结了长时间大规模人群的手机通话的分析流程. ANDRIENKO等[15]设计了一个可视分析系统,对城市的属性进行了预测.另一方面, ARIETTA等[16]基于社交网络的分析思想对基站网络的流量进行了分析和识别.

有别于以上工作, 本文用基站序列相似性衡量用户相似程度, 并对用户在基站上的活动痕迹进行可视化, 旨在帮助分析者识别用户行为模式和用户之间的关系.

2 设计依据 2.1 数据来源

数据由M市某匿名移动运营商提供.该运营商在M市共有2 032个基站包含9 777个天线.通话记录由手机用户接听电话时产生的, 每次通话将产生一个包含主被叫用户、开始时间、持续时间和与该事件相关联的基站位置的详细通话记录.该数据包含从2015年3月1日到2015年8月8日150余天, 共3 000万条通话记录, 涉及1 632 732个用户和M市2.5万本地用户.

2.2 数据描述与统计

使用通话数据进行用户行为的研究, 需要考虑以下数据特征:

用户行为的不确定性:用户通话属于随机事件, 易导致数据密度变化大、采样率不稳定、用户轨迹位置不完整等情况发生.

用户位置的不确定性:在通话记录中, 承载用户本次通话的基站被记录,通过基站的ID以及基站的信号覆盖面积,可推测用户通话的大致位置,但具有很大的不确定性.

用户以及记录数据庞大:由于数据周期较长, 数据中包含所有注册为M市的用户, 用户数量庞大, 产生的通话记录规模较大.

基于这些数据特征, 将从以下几个方面对用户行为进行分析:

用户移动轨迹:作为最基本的需求, 用户的地理位置用来表达用户长时间的移动特征、移动频率、移动趋势等特征, 需要将其展示在地图中.

用户行为模式:用户在不同基站中呈现的不同的行为模式以及用户的领域路径, 根据用户拥有的领域路径, 能够识别用户的社会角色和行为模式.

用户社交关系:用户社交关系作为用户一个重要的属性,不仅能帮助分析人员推断用户之间的关系,还能根据用户自我网络上的节点属性推测其自身属性,联系密切的用户其社会角色也相近.此外,用户之间的关系是可以传递和推理的,例如A与B为亲人关系,B与C也为亲人关系,毋庸置疑A与C也为亲人关系.

根据数据特征和分析任务, 设计了使用通话数据分析用户行为的流程,如图 1所示.数据清洗并处理后抽取用户通话关系以及轨迹, 通过可视化模型描述用户行为以及用户之间的关系, 分析者在交互过程中能够完成不同的分析任务.

图 1 用户行为分析流程图 Fig. 1 The analysis flow of user behavior analysis
3 用户行为关系

用户行为分为社交行为和移动行为, 社交行为表示用户之间的通话关系; 移动行为表示用户在基站间的移动.为了分析个体行为以及个体之间的关系, 将从用户紧密度以及用户相似度两方面对用户之间的关系进行讨论.

3.1 社交紧密度

移动用户之间的通信行为隐藏着用户之间的社会关系, 通过对用户之间大量以及长时间的通话数据进行分析和挖掘, 能够发现用户之间长期稳定的社会关系.人与人之间的社会关系较为复杂, 具有多样性、随机性和不确定性, 联系较多且较密集的用户对不能说明两者之间的关系绝对亲密, 相对地很少进行通话交流的用户对也不能说明他们之间没有亲密关系.作为用户关系的初步分析, 能够通过用户的联系数量、联系的间隔以及联系时段等因素对用户对的关系进行评估.为了处理人与人之间这种复杂多样的关系, 并且更为真实地反映用户之间联系的稳定性和持久性, 本文采用不同的时间窗口对数据进行聚合, 分析者能够对这3个重要的元素进行多层次查看和理解.

3.2 基站使用模式相似度

用户在长时间的活动中会在不同的基站上留下使用痕迹, 通过总结使用痕迹, 可知道用户对于基站的使用模式.例如在公司附近的基站会留下工作时间使用多、休息时间使用少,工作日使用频率高、休息日使用频率低的痕迹;而在家附近的基站会留下相反的痕迹.

为了计算用户在单个基站上使用模式的相似度, 需要计算每个用户在基站上各时段的使用频率:

$ P_j^i = \sum\limits_N^{k = 1} {\delta \left( {i, \left[{R_k^b, R_k^e} \right]} \right) \times \varepsilon \left( {j, R_k^{{\rm{BS}}}} \right)} /\sum\limits_N^{k = 1} {\varepsilon \left( {j, R_k^{{\rm{BS}}}} \right)}, $ (1)

式(1)中i, j分别表示小时和基站, Rkb, Rke分别表示记录k的通话开始时间和结束时间, RkBS表示记录k中的基站, 在δ, ε函数中, 如果小时i在通话记录k的开始和结束时间区间内, 基站j等于通话记录k的基站,则返回1, 否则返回0.

有了每个用户在基站上各个时段的使用频率, 可通过此频率对用户之间的基站使用模式相似度进行计算:

$ {S_{\left( {i, j} \right)}} = \sum\limits_N^{k = 1} {1-\left| {P_k^i-P_k^j} \right|} /N, $ (2)

式(2)中, N表示用户i和用户j访问过的基站的集合, 如果该基站只有其中1个用户访问过, 则他们在该基站上的相似度为0.

3.3 轨迹相似度

为了找到和用户关系相近的用户, 使用轨迹相似度对用户相似性进行衡量, 用户的移动轨迹可以用基站序列表示, 利用该基站序列, 对用户相似度进行计算.

3.3.1 基站权重

基站权重是对轨迹中基站的普遍重要性的度量, 基站权重的计算公式为

$ {\rm{BT}}{{\rm{F}}_b} = \log \frac{{\left| P \right|}}{{\left| {u:b \in {T_u}} \right|}}, $ (3)

式(3)中,b表示基站, |P|为用户访问所有基站次数的总和, Tu表示用户u经过的所有基站的集合, |{ubTu}|表示用户访问基站Tu的次数.

3.3.2 时间窗口

为了对时间进行统一, 针对稀疏轨迹需要设置时间窗口对基站序列进行分割, 设窗口间隔为1 h, 基站序列BS=b1b2b3bibn,对应的时间序列T=h1h2h3hihn, 则分割后的基站序列为{BST}.

3.3.3 主导基站序列

经过时间窗口划分后, 每个时间窗口下可能包含多于1个基站, 于是需要从中选择1个最能代表这个时间窗口的基站.遍历时间窗口中的基站, 找到权重最大的基站作为时间窗口的主导基站, 基站序列{BST}转为主导基站序列.

3.3.4 相似度计算

得到用户的主导基站序列后, 计算主导基站序列{DxT}和{DyT}之间的差异率dx, y

$ {d_{x, y}} = \sum\limits_N^{i = 1} {\delta \left( {D_x^i, D_y^i} \right) \times BT{F_D}/N, } $ (4)

式(4)中,当某个时间窗口的主导基站为空时, xy之间的差异率为0, 当Dxi=Dyi时,δ(Dxi, Dyi)差异率为1, 否则为0.通过差异率计算轨迹xy之间的相似性:

$ {\rm{SI}}{{\rm{M}}_{x, y}} = 1-{d_{x, y}}. $ (5)

用户主导基站序列的相似度通过计算用户所有的基站序列之间的相似度得到.用户uv之间的相似度为

$ {\rm{USI}}{{\rm{M}}_{u, v}} = \frac{{\sum\limits_{p = 1}^{\left| {{T_u}} \right|} {\sum\limits_{q = 1}^{\left| {{T_v}} \right|} {{\rm{SI}}{{\rm{M}}_{x, y}}} } }}{{\left| {{T_u}} \right| \times \left| {{T_v}} \right|}}, $ (6)

式(6)中,|Tu|和|Tv|分别表示用户uv的主导基站序列中基站的数目.如果用户uv的相似度越大, 说明2个用户访问的主导基站序列越相似, 那么2个用户的生活习惯越相似.根据该相似度, 设置相应阈值便可筛选出相似用户.

4 可视化设计 4.1 用户痕迹可视化

如果简单地对用户长时间的移动轨迹进行可视化, 观察者只能得到用户达到该基站的热度及用户在基站之间转移的大致信息.由于轨迹点重复以及轨迹相交等原因, 易造成图元重叠, 致使很多有效信息被遮蔽.为了减少这种现象的发生, 应尽可能对线条的使用进行节制、对用户轨迹进行描述, 使用一种新的可视化隐喻对用户在基站上留下的痕迹进行可视化.如图 2所示, 多时间窗口聚集环(MWAR)分为3层, 分别为全局时间线、各小时热度、一周中各天热度, 在全局时间线中, 环状分布图描述了某个用户在此基站上全局时间内的使用热度, 小红点表示用户通话持续时间的异常值(通话时间大于平均值的2倍或者小于平均值的2倍), 小时热度折线图描述某用户在此基站上不同时间的使用热度.此外, 最内层为工作日通话次数比例弦图, 使用弦内角表示用户某天的通话热度占所有工作日的比例.由此, 使用MWAR对用户长时间的基站痕迹进行可视化, 还能够对用户的社会角色进行识别, 例如学生、职员、退休人员等, 会在多时间窗口聚集环中呈现出不同的模式, 系统用户能够相对容易地发现其社会角色.

图 2 多时间窗口聚集环(MWAR)模型 Fig. 2 Multi windows aggregation ring(MWAR)
4.2 用户行为对比

为了对比用户之间的行为模式以及轨迹的相似度, 需要构建一个对比窗口来支持用户选择特定的时间窗口以查询特定用户以及具有相似行为模式的用户, 并且允许用户根据轨迹、领域路径和MWAR对不同的用户行为进行动态对比.另一方面, 用户能够通过MWAR对比用户的行为模式.此外, 用户的时空距离、通话模式等特征可以用来发现用户的真实关系.本文使用改进的甘特图(见图 3)对2个用户的时空特征进行可视化, 用甘特图来描述用户位置的转移, Y轴表示用户到市中心的欧式距离, X轴表示时间, 每一条甘特线描述1次通话事件, 甘特线的起始位置表示通话开始时间, 终止位置表示下次通话的开始时间(如果使用通话结束时间作为甘特线的终止位置, 会导致绘制的图元太小,难以观察.因考虑其连续性, 选用下次通话的开始时间作为终止位置).使用不同颜色背景映射星期, 其中灰色曲线用来描述用户之间的地理距离.另外, 如果2个用户之间存在通话, 将这次通话用小圆标记在主叫用户行为线上, 小圆的半径映射通话持续时间的对数值.

图 3 用户行为甘特图 Fig. 3 The Gantt chart of user behavior
4.3 异常发现

异常行为对于描述用户行为有着不可或缺的价值.异常行为分2种:绝对异常和相对异常.绝对异常指用户的行为不符合普通人的模式, 这种异常很容易被发现.例如, 用户在24 h不停地规律地拨打电话, 对于普通人来讲这样的行为是不可能发生的, 定义为绝对异常.相对异常, 指用户相对于自己平时的模式发生了较大的变化, 这种行为模式就是用户的相对异常.绝对异常相对于相对异常更容易被发现, 通过MWAR能够在短时间内发现绝对异常, 而相对异常需要用户在迭代的过程中逐渐对用户行为模式进行挖掘和总结后才能被发现.

5 实验结果

基于以上理论与技术, 对M市某运营商2.5万用户进行了分析.由一对相似度最高的用户在10个显著基站上历时5个月产生的相似度数据绘制的统计箱式图如图 4(a)所示, 发现用户之间的相似度成指数分布.此外, 从结果中选择相似度最高的2个用户以及最常访问的10个基站计算使用模式相似度, 发现用户在不同时间段呈现较为稳定的相似度.图 4(a)为用计算结果绘制的箱式图, 描述了用户U45980和U10910在3—8月的相似度差异.

图 4 用户相似度分布 Fig. 4 The user similarity distribution

在此基础上, 构建了用户行为理解可视分析系统, 系统设计如图 5所示, 在系统的左边分别是MWAR参数调节窗口、相似用户推荐列表、基站推荐列表、用户热度时间线、用户轨迹地图以及用户通话行为甘特图.通过上文的用户相似度计算方法计算所有用户与分析者感兴趣的用户之间的相似度, 排序后在列表中显示, 在用户选择兴趣用户和对比用户之后, 更新基站列表, 列表由经当前兴趣用户和对比用户之间的基站相似度排序后的基站组成.

图 5 用户行为可视分析系统设计 Fig. 5 Prototype design of user behavior visual analytic system
5.1 社会角色的发现

通过观察与分析用户轨迹以及用户在特定基站上留下的痕迹, 从中判断用户的社会角色.如图 6(a)所示, 用户的轨迹相对比较规律, 在一个月内没有离开过M市, 查看他在这个月访问频率最高的2个基站的详细使用信息可以发现, 所有的通话时间都在工作日, 访问模式如图 6(b)所示, 很明显, 这里是该用户的上班地点.频率第2的基站如图 6(c)所示, 无论是工作日还是休息日都有类似的访问量, 并且大部分都是晚上访问, 于是可以推断这里是他的住所.

图 6 U67543用户2015年8月的轨迹以及该段时间在基站B3610和B1249上的详细使用模式 Fig. 6 The trace of user U67543 during August 2015, and the detailed usage patterns in this period at BSs B3610 and B1249
5.2 社交关系的发现

通过分析与目标用户相联系的关联用户, 能够推断用户之间的社交关系.如图 7所示, (a1)(a1)是2个用户的轨迹对比, 发现他们有一个频繁访问的共同基站, 对该基站进行详细分析, 发现这2个人都在工作时间对基站进行了大量访问(如图 7(b1)(b2)所示), 并且在工作时间还有少量电话交流, 可以初步判定他们是同事或者家人;再分析两者的甘特图, 发现2人晚上访问的基站并不同, 于是排除他们的家人关系, 确定他们为同事.

图 7 基站B65365使用模式相似度为0.67的2个用户 Fig. 7 A pair of users who have 0.67 similarity score in BS B65365
5.3 相似行为用户分析

拥有相似行为模式的用户能够通过本文的相似度算法进行识别.如图 8所示, (a)是分析者感兴趣的用户A, (b)、(c)分别呈现了与用户A相似度为0.87和0.65的用户B和C, 通过查看详细信息发现, 用户A和B之间有紧密的通话联系, 用户A和B虽然有相似的行为规律, 但彼此之间并无电话来往, 这尚不能排除他们之间无关系.

图 8 用户A以及与A相似度分别为0.87和0.65的用户B, C Fig. 8 The traces of users B, C who have similarity score 0.87 and 0.65 with A
6 结语

提出了一个用于描述移动用户行为以及社会关系分析和理解的方法, 并用新的方法计算用户之间的相关度, 在此基础上构建面向用户行为理解的可视分析系统, 该系统能够对用户关系、社会角色等进行交互式分析.最后,通过实验证明了此方法以及系统的可行性.

参考文献
[1] CHEN S, YUAN X, WANG Z, et al. Interactive visual discovering of movement patterns from sparsely sampled geo-tagged social media data[J]. IEEE Transactions on Visualization & Computer Graphics, 2016, 22(1): 270.
[2] KRVGER R, LOHMANN S, THOM D, et al. Using social media content in the visual analysis of movement data[J]. Research Microsoft Com, 2012, 97(11): 31–32.
[3] ANDRIENKO G, ANDRIENKO N, WROBEL S. Visual analytics tools for analysis of movement data[J]. ACM SIGKDD Explorations Newsletter, 2007, 9(2): 38–46. DOI:10.1145/1345448
[4] CHU D, SHEETS D A, ZHAO Y, et al. Visualizing hidden themes of Taxi movement with semantic transformation[C]//Visualization Symposium (PacificVis). Piscataway:IEEE Press, 2014:137-144.
[5] GONZÁLEZ M C, HIDALGO C A, BARABÁSI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779. DOI:10.1038/nature06958
[6] ZHU Y, ZHANG Y, SHANG W, et al. Trajectory enabled service support platform for mobile users' behavior pattern mining[C]//Mobile and Ubiquitous Systems:NETWORKING & Services. Piscataway:IEEE Press, 2009:1-10.
[7] 谭钧元, 宋国杰, 谢昆青, 等. 一种有效的基于生活熵的移动用户分类算法[J]. 计算机研究与发展, 2009, 46: 433–438.
TAN J Y, SONG G J, XIE K Q, et al. An effective mining method for mobile subscribers based on life entropy[J]. Journal of Computer Research and Development, 2009, 46: 433–438.
[8] SHAD S A. 移动用户轨迹与行为模式挖掘方法研究[D]. 合肥: 中国科学技术大学, 2013.
SHAD S A. Mobile User Trajectory and Profile Mining[D]. Hefei:University of Science and Technology of China, 2013. http://d.wanfangdata.com.cn/Thesis/Y2354279
[9] CALABRESE F, PEREIRA F C, LORENZO G D, et al. The geography of taste:Analyzing cell-phone mobility and social events[J]. Lecture Notes in Computer Science, 2010, 6030: 22–37. DOI:10.1007/978-3-642-12654-3
[10] PULSELLI R M, ROMANO P, RATTI C, et al. Computing urban mobile landscapes through monitoring population density based on cell-phone chatting[J]. International Journal of Design & Nature & Ecodynamics, 2008, 3(2): 121–134.
[11] READES J, CALABRESE F, SEVTSUK A, et al. Cellularcensus:Explorations in urban data collection[J]. IEEE Pervasive Computing, 2007, 6(3): 30–38. DOI:10.1109/MPRV.2007.53
[12] DE MONTJOYE Y A, HIDALGO C A, VERLEYSEN M, et al. Unique in the crowd:The privacy bounds of human mobility[J]. Scientific Reports, 2013, 3(6): 1376.
[13] WU W, XU J, ZENG H, et al. TelCoVis:Visual exploration of co-occurrence in urban human mobility based on telco data[J]. IEEE Transactions on Visualization & Computer Graphics, 2016, 22(1): 935.
[14] GONZÁLEZ M C, HIDALGO C A, BARABÁSI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779. DOI:10.1038/nature06958
[15] ANDRIENKO G, ANDRIENKO N, FUCHS G. Business Intelligence[M]. Berlin: Springer International Publishing, 2015: 39-59.
[16] ARIETTA S M, EFROS A A, RAMAMOORTHI R, et al. City forensics:Using visual elements to predict non-visual city attributes[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 2624–2633. DOI:10.1109/TVCG.2014.2346446