浙江大学学报(工学版), 2019, 53(9): 1768-1778 doi: 10.3785/j.issn.1008-973X.2019.09.016

计算机科学与人工智能

城市兴趣点演化规律的可预测性分析

吴奇龙,, 於志文,, 路新江, 郭斌

Analysis on predictability of urban point-of-interest evolution

WU Qi-long,, YU Zhi-wen,, LU Xin-jiang, GUO Bin

通讯作者: 於志文,男,教授,博导. orcid.org/0000-0002-5023-5508. E-mail: zhiwenyu@nwpu.edu.cn

收稿日期: 2018-12-17  

Received: 2018-12-17  

作者简介 About authors

吴奇龙(1995—),男,硕士生,从事普适计算相关研究.orcid.org/0000-0003-3570-1539.E-mail:2014302721@mail.nwpu.edu.cn , E-mail:2014302721@mail.nwpu.edu.cn

摘要

建立兴趣点生命周期可预测性模型来刻画城市兴趣点演化规律的可预测性. 该模型针对城市兴趣点在连续时间窗口的变化情况,给出其生命周期长度和生命周期状态的定义,分析兴趣点在演化过程中的可预测性. 为量化城市兴趣点演化规律的可预测性,将城市兴趣点的生命周期长度和生命周期状态的信息熵同Fano不等式相结合,基于信息论中信息的不确定性度量方法给出城市兴趣点生命周期长度和生命周期状态的可预测性计算方法,并结合7个城市的城市兴趣点数据,计算出不同粒度、不同类别的兴趣点的可预测性. 结果表明:城市兴趣点的生命周期是可预测的且不同类别兴趣点的可预测性差异较大;相对于稳定状态和爆发状态的兴趣点,处于消亡状态的兴趣点的可预测性更高.

关键词: 城市兴趣点 ; 可预测性 ; 信息熵 ; Fano不等式

Abstract

A PLCPA model was established to describe the predictability of urban point-of-interest evolution. Based on the change of urban interest points in continuous time window, a definition of the life cycle length and life cycle status was given and the predictability of point-of-interest evolution was analyzed. Fano’s inequality was combined with the life cycle length and status of urban point-of-interest to quantify the predictability of the evolution of urban point-of-interest. And the predictability calculation of life cycle length and status of urban point-of-interest was given based on the information uncertainty measure in the information theory. The predictability of different categories of point-of-interest with different levels of granularity was calculated according to the urban point-of-interest data of seven cities. Results show that the life cycle of urban interest points is predictable; the predictabilities of different categories of point-of-interest are quite different; the predictability of the points-of-interest in the decaying status is higher than that of the stable status and the booming status.

Keywords: urban point-of-interest ; predictability ; information entropy ; Fano’s inequality

PDF (1719KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴奇龙, 於志文, 路新江, 郭斌. 城市兴趣点演化规律的可预测性分析. 浙江大学学报(工学版)[J], 2019, 53(9): 1768-1778 doi:10.3785/j.issn.1008-973X.2019.09.016

WU Qi-long, YU Zhi-wen, LU Xin-jiang, GUO Bin. Analysis on predictability of urban point-of-interest evolution. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(9): 1768-1778 doi:10.3785/j.issn.1008-973X.2019.09.016

随着全球信息化水平的不断提高,计算机、网络和通信技术的不断发展以及技术创新热度的不断增加,信息化浪潮正深刻地影响着人们的生活[1]. 近年来,随着移动互联网、基于物联网的传感感知技术的不断发展,人们能够以多样化的方式了解和记录城市发展的脉络. 同时,基于位置的服务(location-based service,LBS)(如百度地图、谷歌地图等)可以帮助人们在日常生活中进行导航、定位,极大地便利了人们的生产生活,并且这些基于位置的服务设施在某种程度上记录了城市及周边地区的演化变迁过程,这为研究城市的发展变迁提供了可能.

城市兴趣点(point-of-interest,POI)是指电子地图上对人们有用的或者人们感兴趣的地理位置点,用以表示某一个地标、景点、商业点(商场、饭店、加油站等),主要是指与人们生活日益相关的地理实体,如学校、银行、饭店、超市等[2]. 在现代城市中,大量的兴趣点会呈现出从出现、成长、稳定一段时间后消亡的过程,这个过程称之为城市兴趣点的生命周期. 城市兴趣点的演化规律研究主要就是针对城市兴趣点的生命周期的研究. 如果可以获得一个城市的地理信息数据的微观演变历史,即城市特定区域的特定时刻的POI数据,就可以通过构建关于这座城市的在时间维度的地理快照,从而得到这个城市在其发展过程中的某一个时刻的详细的地理空间数据,进一步利用这些特定时刻的地理信息数据,分析该城市的POI的演化规律.

可预测性(Predictability)是指可以定性或定量地对系统状态进行正确预测的程度. 系统的可预测性范围的确定,有助于人们更加全面细致地理解系统,同时可用于评价针对系统的预测算法[3].

现阶段国内外针对POI所作的研究主要包括3个部分:1)POI的识别和推荐,2)基于POI数据的应用,3)POI生命周期的检测和识别.

POI的识别和推荐主要是采用基于位置的社交网络(location-based social networks,LBSN)和移动感知技术来得到大量用户有关于位置的日常活动信息,然后通过数据挖掘方法来识别现实世界的POI;在此基础上,通过对用户行为模式的挖掘并结合POI的类别信息等,实现基于用户偏好的POI推荐. 例如,Kennedy等[4]通过采集网络中具有代表性的图像使用无监督的方法来生成地标文本或者图像,实现对地理位置的标记. 针对POI的推荐方法研究可能是POI相关研究的最热门问题之一. 一些研究者通过对用户访问POI的轨迹进行分析,并结合其他地理或者时间因素,利用矩阵分解方法来提高POI推荐的准确性,减少相应计算的复杂度. 例如Lian等[5]通过使用加权矩阵分解方法提高针对POI的推荐性能; Cheng等[6]在此基础上提出了嵌入马尔科夫链和局部区域约束的新的矩阵分解方法,实现了基于LBSN的连续的个性化POI推荐服务.

此外,部分研究者着眼于开放的电子地图提供的丰富的POI数据,并基于这些数据研究针对于智慧城市的多种多样的应用. 其中有基于POI数据的城市功能区的识别,包括根据POI数据的空间分布和类别特征实现城市地区分层地标的提取[7]、针对POI数据使用核密度分析实现城市功能区以及POI热点分布的发现[8-9]. 一些工作者将城市地区的POI数据同其他移动感知数据和基于位置的社交网络数据结合,从而为用户提供更加丰富的服务. 其中包括将人群的流动模式同POI数据相结合,实现对人群运动语义学的刻画,进一步实现为出租车司机推荐载客地点,为乘客推荐候车地点[10]. Yu等[11]通过结合POI的时空结构来完成人类活动的早期识别,同时提出多级平衡随机森林结构来对人类活动进行预测.

POI从出现到消失的演变过程和其周围的POI分布有着密切的关系,POI的分布组合关系确定了该地区的区域类型,例如公司或者学校区域为面向消费型的区域,其中的商店、超市等将保持长期的生存. 对于POI生命周期的检测可以更加细致地把握城市发展过程,为城市规划和商业点选址、房地产评估等作出有价值的指导. Lu等[12-13]通过城市出租车轨迹数据来刻画城市中人员流动模式,将人员流动模式与POI数据相结合,提出POI生命周期预测(POLIP)模型实现对城市POI生命周期的刻画,并充分利用纽约市的多元异构数据,实现易失性POI的兴衰变化的预测.

对于可预测性的研究,Lorenz等[14]从基本原理阐释了可预测性的计算方法,并给出了相关参数的确定方法. 目前针对可预测性的相关研究主要从经济、气候和社会活动3个方面进行. 主要通过使用线性评估器来检测海平面气压、温度的可预测性,以及通过多元回归分析刻画股票市场收益的可预测性与经济风险的关系[15]. 在社会生活方面,Song等[16]通过测量用户的轨迹的真实熵来刻画人群流动的可预测性,并且发现人群流动性的可预测性与用户在特定时间窗内移动的范围在很大程度上是不相关的.

总的来说,国内外针对POI的相关研究主要是POI的识别和检测、根据POI数据进行城市功能区的识别以及城市发展过程建模研究,实现了选址推荐、土地利用分析、房地产评估等城市服务. 通过对POI生命周期的检测和识别,进一步细粒度地刻画城市发展的脉络,把握城市发展变迁过程,对城市POI兴衰演变分析、以及城市的可持续发展建设来说具有重要意义,然而目前并没有针对城市POI演化规律的可预测性方面的相关分析研究.

本研究通过城市POI的生命周期数据来研究城市POI演化规律的可预测性,包括对7个城市的POI数据的生命周期长度和生命周期状态的分析和定义,对POI演化规律的刻画,实现POI演化过程中演化规律可预测性的量化.

1. 系统框架与POI数据的采集分析

1.1. 系统框架

通过对从OpenStreetMap上采集到的POI数据进行分析,提出POI生命周期可预测性分析(POI lifecycle predictability analysis,PLCPA)模型. 如图1所示,本模型由POI数据采集与整合、POI生命周期建模和POI生命周期可预测性分析3个部分组成. 针对POI演化规律的可预测性分析,首先将问题形式化为POI生命周期长度和POI生命周期状态的可预测性分析,然后结合信息熵理论,基于Fano不等式实现POI演化规律的可预测性分析.

图 1

图 1   兴趣点生命周期可预测性分析模型

Fig.1   Point-of-interest (POI) life cycle predictability analysis model


1.2. POI数据的采集分析

为了能够获得较为完整、准确的城市POI演化数据,从OpenStreetMap(OSM)中采集城市POI数据. OSM是一个开源的在线地图网站,允许用户提供、更新、维护世界各地的小路、餐厅、学校、基础设施等多种数据. OSM目前提供的基于位置的服务正处于快速发展的阶段,尚不完善,只能提供全球的地图演化数据,无法直接获取某一个地区或者某一个城市的地图演化数据. 为了获得目标区域的地图数据,首先从OSM网站上采集全球2011—2017这7年的地图数据,然后使用Osmosis结合目标区域的ploys文件提取目标区域的地图数据.

为了刻画城市POI生命周期的可预测性,要求目标区域的POI数据较为丰富,过于稀疏的POI数据不利于反映POI的演变过程. 通过对比分析发现,东京、柏林、纽约、伦敦、巴黎、北京和上海的POI数据相对丰富,使用Osmosis结合北京、柏林、伦敦、纽约、巴黎、东京、上海7个城市的polys文件,提取出对应的城市地图数据. 采集对应城市地图快照数据的基本过程如图2所示.

图 2

图 2   特定地区的地图数据采集过程

Fig.2   Collection process of map data for specified area


经过上面的一系列采集过程,得到区域集合 R={北京,柏林,伦敦,纽约,巴黎,上海,东京},对应每一个城市 $i$ 的地图快照数据集合 ${{{M}}_{i}}= $ $\{{{{M}}_{i,1}},{{{M}}_{i,2}},\cdots,{{{M}}_{i,n}}\}$,其中 $i\in R$,且2个相邻的地图快照 ${{{M}}_{i,j}}$${{{M}}_{i,j+1}}$ 之间的时间间隔为1周. 原始OSM地图数据包含许多空节点,主要包括一些道路、桥梁和江河湖海等变化非常微弱的兴趣点和没有语义的节点,这些空节点一方面会造成处理过程中内存消耗过大,减慢处理速度,另一方面可能会对分析结果产生负面影响. 另外原始地图快照数据中包含丰富的类别信息,但是某些类别的POI的数量较少,分布较稀疏,难以刻画这些类别的POI的生命周期. 通过分析采集到的地图数据中的每一个类别POI的相应的数量和密度,保留了amenity,building,historic,leisure,shop,sport,tourism. 其中amenity类别的POI主要是只用于居民或者游客使用的公共设施,如餐馆和酒吧等饮食服务提供场所、学校和图书馆等教育服务提供场所、车站和车辆维修租借等交通服务相关场所、银行相关金融场所、医院等健康服务站;leisure类别的POI主要是用于休闲的场所,包括垂钓、溜冰场、公园等含有相关运动或者休闲设施的场所;与之接近的sport类别的POI主要指比较正式的体育运动场所,包括足球场,橄榄球场地,冰壶、网球等运动场所;Tourism类别的POI主要指游客特别感兴趣的地方,包括观光地点、住宿地点以及向游客提供信息和支持的地点,例如酒店、博物馆、主题公园、动物园等;可能与之混淆的historic类别的POI主要是用于描述各种历史名胜,例如:考古遗址、沉船、废墟、城堡和古建筑等. 对于像“圆明园”这类既包含历史遗迹,又包含其他观光游览性质的地点,将其归为tourism,而仅将“圆明园”中本身具有历史意义的地方归类为historic,如“西洋楼遗址”. 每个城市全部POI数据的统计数据如表1所示,其中historic、sport和building这3个类别的POI数量相对较少,因此后文不考虑这3个类别的POI信息.

表 1   每一个城市的主类别对应的POI数量

Tab.1  Number of POIs corresponding to main category of each city

类别 amenity building historic leisure shop sport tourism
北京 3 992 24 0 130 1 609 0 747
柏林 23 308 19 0 2 002 18 617 64 1 210
伦敦 24 364 42 0 982 14 905 61 981
纽约 13 191 27 0 1 848 4 167 24 368
巴黎 18 065 28 0 422 12 741 23 1 291
上海 3 092 18 0 279 1 432 12 322
东京 37 485 20 1 1 024 22 665 14 832

新窗口打开| 下载CSV


通过Osmosis工具将这些空节点过滤掉,最终得到这7个城市具有丰富语义信息的POI地图快照数据,其中城市 $i$ 的POI快照数据表示为 ${P_i} = \{ {P_{i,1}},{P_{i,2}},\cdots,{P_{i,n}}\} $,其中 $i \in R$,每一个POI数据可以看作是地图中的一个节点,其包含id、经纬度、更新的时间戳信息以及版本信息、类别信息和名称等.

对于快速发展的大城市 $i$,其相邻的2个POI快照 ${P_{i,j}}$${P_{i,j + 1}}$ 之间的差异很小,很难在2个快照之间体现出城市的发展变化,使用分箱技术来获得粗粒度的POI发展变迁情况. 首先对于城市 $i$,对于给定时间窗口 $\delta \;(\delta >$1周),可以获得时间窗口的开始时间和结束时间 ${{t}} = [{t_{\rm{s}}},{t_{\rm e}}]$ ; 而每一个POI快照之间的时间间隔为1周,在时间窗口 $\delta $ 内,都有一个POI集合 ${{{S}}_\delta }$,包含 $n$ 个POI快照,即 $S = \{ {P_1},{P_2},\cdots,{P_n}\} $,这样就能够获得分箱过后粗粒度的POI快照集合,即对于城市 $i \in R$ 的POI快照集: ${S_i} = \left\{ {{S_{i,1}},{S_{i,2}},\cdots,{S_{i,n}}} \right\}$.

2. POI生命周期建模

对城市POI数据进行整合,得到POI的快照集合. 对于给定地区 $i$${S_{i,j}} \in {S_i}$,将其中的每一个POI抽取出来,可以得到这个 ${S_i}$ 内所有POI的个体集合 $I$,将城市 $i$ 中所有的POI提取出来获得这个城市7 a中所有的POI个体. 而当采集了无限长时间的POI时可以得到任意一个POI的完整生命周期,下面对POI生命周期长度进行定义.

定义1 POI生命周期长度. 对于任意一个POI,其生命周期所对应的时间区间 ${{t}} = [{t_{\rm{s}}},{t_{\rm{e}}}]$ 可以离散化为 $n$ 个连续时间戳序列 $\{ {t_1},{t_2},\cdots,{t_n}\} $,并且该序列满足 ${t_{\rm{s}}} = {t_1},{t_{\rm{e}}} = {t_n}$,那么POI生命周期可以记为 $T = \{ {t_1},{t_2},\cdots,{t_n}\} $,其生命周期长度为 $l = {t_n} - {t_1}$. 由于只采集了7 a的POI数据,不是所有的POI都具有完整的生命周期,对于不具有完整生命周期的POI,假定其最后一次出现的时间戳为结束时间,其生命周期长度为 ${l_{{\rm{uc}}}} = {t_{{\rm last}}} - {t_1}$.

根据每一个POI是否具有明确的结束时间统计出每一个城市具有完整的生命周期的POI数量和不具有完整生命周期的POI数量的比例p,如图3所示. 从图中可以发现,每一个城市具有完整生命周期的POI数量远远低于不具有完整生命周期的POI数量. 计算每一个城市POI生命周期长度的累积分布(cumulative distribution function,CDF)情况,如图4所示为每一个城市POI生命周期长度的累积分布图. 对于所有的城市,超过90%的POI的生命周期长度少于80个月,也就是说基本上所有的POI的存活时间不超过6.7 a,说明这些城市的经济环境变化是动态的而且非常频繁. 因此关于POI推荐和商业选址等应用,在这些城市中是非常有价值的. 对于北京、上海来说,有超过90%的POI的生命周期长度少于45个月,这表明北京和上海的经济环境是非常活跃的,实际上自改革开放以来,北京地区第三产业取得长足发展且迅速成为北京的主导产业,对于经济发展的贡献率蹿升到了2016年的80.23%;而上海的经济发展水平也一直处于全国的前列[17]. 上海的POI的生命周期的长度整体要少于北京,这说明上海最近几年的经济环境相比于北京来说更加活跃,发展更加迅速.

图 4

图 4   POI生命周期长度的累积分布

Fig.4   Cumulative distribution of POI life length


图 3

图 3   POI数量的比例分布

Fig.3   Proportional distribution of POI


对于纽约等其他5个经济较为发达的城市来说,其POI生命周期长度的累积分布曲线较为平缓. 根据OSM对于POI的分类标准以及主类对应的POI数量(见表1),最终保留amenity、leisure、shop、tourism这4个主类的POI,而每一类的POI生命周期长度也存在差异,图5展示了纽约市从2011年到2017年所有具有完整生命周期不同类别POI的生命周期长度的累积分布,图中amenity和leisure的POI的生命周期长度通常长于shop和tourism的POI的生命周期长度.

图 5

图 5   纽约市不同类别POI生命长度的累积分布

Fig.5   Cumulative distribution of POI life lengths in different categories in New York City


POI在演变和发展过程中必然经历着从“出现”、“稳定发展”到最终“消亡”的生命状态的变化,并且在任意时刻,其生命周期状态只存在其中一种情况. 因此,在POI整个生命周期(包括上述的完整生命周期和不完整生命周期)中,必然存在1个时间窗口 ${{\delta}} $,使得其在这个时间窗口内只有1个生命状态,也就是说在这个时间窗口内该POI不存在完整的生命周期.

定义2 POI生命周期状态. 对于由不同时间戳组成的时间窗口 ${{\delta}} = \left[ {{t_{\rm{s}}},{t_{\rm{e}}}} \right]$,使得该POI在时间窗口 $\delta $ 内有且仅有1种生命周期状态 ${{{s}}_{{\rm{poi}}}} \in {\rm{STATUS}}$,则称在时间窗口 ${ \delta} $ 中,POI的生命周期状态为 ${{{s}}_{{\rm{poi}}}}$,这里 ${\rm{STATUS}}$ 包含稳定状态(stable)、兴起状态(booming)和消亡状态(decaying).

对于特定时间窗口 $ {{\delta}} $,其包含时间戳 $ {{\delta }} \!\!= \!\! \left\{ {{t_1} \!, \!{t_2} \!, \!\cdots \!, \!{t_n}} \right\} \!,$对于定义1中具有完整生命周期的POI,其生命周期的长度为 $l = {t_n} - {t_1}$;对于不具有完整生命周期的POI,其生命周期长度为 ${l_{{\rm uc}}} = {t_{\rm last}} - {t_1}$,那么对于时间窗口 $\delta $,POI个体的生命状态可按下式确定:

$ s=\left\{ \begin{array}{*{20}{l}} \rm{booming } ,& {{t}_{{\rm s}}}\leqslant t_{\rm{s}}^{\rm{c}} <{{t}_{\rm{e}}}\;||\;{{t}_{\rm{s}}}\leqslant t_{{\rm s}}^{\rm uc} <{{t}_{\rm{e}}}; \\ {\rm{decaying}}, & {{t}_{\rm{s}}}\leqslant t_{\rm{e}}^{\rm{c}} <{{t}_{\rm{e}}};\\ \rm{stable }, & \rm{ \text{其他} . } \end{array} \right. $

应当注意的是,时间窗口 $\delta $ 不应该太大,才能保证POI生命周期长度大于时间窗口长度;也就是说在任何一个时间窗口内,对于任意一个POI,其生命周期状态只有1个,可以通过式(1)来确定. 通过分析计算,将时间窗口分别确定为1、2、3、4、6个月进而判断每一个POI个体在响应时间窗口的生命周期状态情况. 图6(a)为不同时间窗口下不确定的生命周期状态的POI所占的比例,每一个时间窗口内都存在不确定的生命周期状态,观察数发现最短的生命周期长度为9 d,但是其占比不超过1‰。为尽可能体现不同时间段POI的变化情况同时保证POI生命周期状态可以唯一确定,设定时间窗口大小为3个月。如图6(b)所示为POI生命周期状态的分布,NPOI为每一个状态的POI的数量。每一个城市中生命周期状态分布不均匀,而booming状态的POI数量多于decaying状态的POI,可以说明该区域的经济水平活跃,总体经济在不断发展.

图 6

图 6   生命周期状态分布

Fig.6   Distribution of life cycle states


3. 可预测性分析建模

可预测性分析是用来描述能够对系统进行正确预测的定量或者定性描述的程度. 对于可预测性分析,国内外大多数学者都通过计算系统随时间变化的熵来刻画系统的可预测性[16, 18-20],在求解城市兴趣点生命周期可预测性之前,应先求解POI生命周期的熵,因为熵可能是捕获表征时间序列的可预测性程度的最基本的量[16, 20-21].

3.1. 熵与可预测性

熵起初用于衡量分子集合所依赖的大动力系统的无序性[22-24],在20世纪中叶,香农给出了熵与信息论之间的关系,指出了信息即为一种不确定性;使用熵来刻画这种不确定性,熵与不确定性成正比,熵越大,不确定性越高,熵越小,不确定性越小,这里使用信息熵:

$E = - \sum\limits_{}^{} {p{{\log }_2}\;(p)}.$

其中, $p$ 是每一种状态出现的概率. 熵是用来度量在过程完全了解的情况下由过程产生的下一个信息中保留的不确定性,是在预测过程中所面临的困难的度量尺度[20]. 可预测性的一个重要的度量标准是采用适当的算法能够正确预测系统下一个状态的概率 $p$,而概率 $p$ 受Fano不等式的限制,Fano不等式给出了每一类POI生命周期可预测性的上限π,对于类别 $i$,如果给定POI历史的生命周期分布Di,有 ${\pi_i} \leqslant {\pi _i}\left( {{E_i},D_i} \right)$.

3.2. 城市兴趣点生命周期可预测性定义

城市中的每一个POI个体都包含自身的位置关系、类别信息及其生命周期信息. 根据定义1和定义2,可以将POI演化规律分为2个方面进行描述,一种是POI的生命周期长度信息,另一种是POI生命周期状态信息,包括booming、stable、decaying三种状态. 对于POI的生命周期长度,设定其预测分析的问题如下:根据已知的某一类的POI在数据集中生命周期长度的分布(包括具有完整生命周期和不完整生命周期的POI),来预测该类POI的生命周期长度;将POI生命周期状态的可预测性分析问题定义如下:当已知前 $n - 1$ 个时间窗口的给定类的POI不同的生命周期状态所占比重的分布,来预测第 $n$ 个时间窗口这个类别的POI的某一确定生命周期状态对应的POI所占比重.

3.2.1. POI生命周期长度的可预测性

对于具有完整生命周期的POI,根据POI生命周期长度的定义,可以获得具有完整生命周期的POI在其生命周期内所跨越的时间长度 ${l_{\rm c}}$,粒度可以以天、周、月等为单位. 对于不具有完整生命周期的POI,将时间窗口的结束时间看作是POI生命周期的结束时间,可以得到不具有完整生命周期的POI的存活时间 ${l_{{\rm uc}}}$. 根据POI类别将POI个体进行组合,从而得到城市区域 $i$ 的POI类别 $j$ 的集合 $C_i^j = \left\{ {C_{i,1}^j,C_{i,2}^j,\cdots ,C_{i,n}^j} \right\},i \in R$,以及对应区域 $i$ 类别为 $j$ 的POI生命周期长度的集合 $L_i^j = \{ L_{i,1}^j,L_{i,2}^j, \cdots ,L_{i,n}^j\} $,定义 $N$ 为不同的生命周期长度的个数,根据信息熵的定义 $E = - \sum\limits_{}^{} {p{{\log }_2}}\, (p)$,求出其生命周期长度的熵 $E$,进而根据Fano不等式,计算出每一类POI生命周期长度的可预测性的上界 ${\pi} \leqslant {\pi}^{{\rm{Fano}}}(E,N)$,其中 $R_i^{{\rm{Fano}}}(E,N)$ 可由下式计算得出:

$\left. {\begin{array}{*{20}{c}}\begin{array}{l} {E = H\left( {{{\pi} ^{{\rm{Fano}}}}} \right) + (1 - {{\pi} ^{{\rm{Fano}}}}){{\log }_2}\,(N - 1)},\\ H\left( {{{\pi} ^{{\rm{Fano}}}}} \right) = - {{\pi} ^{{\rm{Fano}}}}{\log _2}\,({{\pi} ^{{\rm{Fano}}}}) - \\ \quad\quad\quad\quad\;\;\;(1 - {{\pi}^{{\rm{Fano}}}}){\log _2}\,(1 - {{\pi} ^{{\rm{Fano}}}}). \end{array} \end{array}} \right\}$

3.2.2. POI生命周期状态的可预测性

根据定义2,无论是对于具有完整生命周期的POI还是不具有完整生命周期的POI,都将其生命周期状态划分为booming、stable、decaying中的一个,而生命周期状态可以根据式(1)来确定. 同样根据POI类别将POI进行组合,得到每一个时间窗口每一类兴趣点的生命周期状态的集合{booming, stable, decaying},而对于每一个时间窗口,不同状态的POI所占比重不同,对于时间窗口 $i$,每一种状态所占比重的集合 ${w_i} = \{ {w_{i,1}},{w_{i,2}},{w_{i,3}}\} $,不同的POI生命周期状态所占比重代表着城市经济发展的状况和演化趋势,例如当decaying类别的POI所占比重远远大于stable和booming状态的POI时,意味着这个城市的经济正处于衰落状态,因此特定时间窗口不同状态POI所占比重的分析对于城市管理者和决策者来说非常重要,可以对城市的建设和城市规划提供有价值的参考.

确定了连续时间窗口内POI状态变化情况后,就可以将POI生命周期状态的可预测性分析形式化描述为:当已知某一个城市的POI在前 $n - 1$ 个时间窗口不同状态所占的比重,可以根据特定状态在前 $n - 1$ 个时间窗口所占比重的分布,与信息熵和Fano不等式相结合,从根据式(3)求解出第 $n$ 个时间窗口特定状态的POI所占比重的可预测性.

4. 城市POI生命周期可预测性分析

4.1. 城市POI生命周期长度的可预测性分析

城市POI的生命周期长度是随时间而不断演化发展的,熵是表征时间序列可预测性的最基本的量[19],使用POI生命周期的熵来表征随时间序列变化的量的可预测性. 定义2种信息熵,一种是随机熵:

$E_{{{\rm{rand}}}} = {\log _2}\,(N),$

另一个是信息熵E(见式(2)).当随机熵和信息熵相等时,可以认为POI生命周期长度的分布是完全随机的,也就是说能够正确预测其生命周期长度的概率为 $1/N$,对其进行可预测性分析是没有意义的.

图7所示为每一个城市中POI生命周期长度的熵值分布. 从图中可知,每一个城市POI生命周期长度的随机熵总是大于对应的信息熵,说明POI生命周期长度的分布并不是完全随机的,对于其生命周期的可预测性分析是有意义的.

图 7

图 7   POI生命周期长度的熵值分布

Fig.7   Entropy distribution of POI life cycle length


可预测性的一个重要指标是适当的算法能够正确预测某一类新出现的POI的生命周期的长度的概率,而这个概率受到Fano不等式的限制,也就是说对于给定的POI生命周期长度的熵和其历史POI生命周期长度的分布,可以计算出这一类的POI的生命周期长度的可预测性. 根据式(3)可以求出每一类POI生命周期长度的可预测性,即对于某一类POI,如果其 ${{\text{π}}_i} \leqslant {\text{π}} _i^{{\rm{Fano}}}$ $\left( {{ E},N} \right)$ =0.35,那么对于这一类的POI,新出现的POI的生命周期的长度至少有65%的概率是随机的,也就是说只有35%的概率来正确预测其生命周期的长度,也就是无论预测算法的性能多么好,预测这一类POI中新出现的POI生命周期长度的正确率不会超过35%,代表了每一类POI生命周期长度可预测性的基本限制.

图8所示分别为这7个城市具有完整生命周期和不具有完整生命周期的主类POI生命周期长度的可预测性,对于具有完整生命周期的POI,上海市的POI生命周期长度的可预测性最高,而伦敦市的POI生命周期长度的可预测性最低. 对于不具有完整生命周期的POI,纽约市的leisure类别的POI生命周期长度的可预测性最高,进一步分析数据,可以得到纽约市不具有完整生命周期的leisure类别的POI的生命周期长度的频次分布如图9所示,为对应POI的生命周期长度分布.

图 8

图 8   POI生命周期长度的可预测性

Fig.8   Predictability of long POI life cycle


图 9

图 9   leisure类别POI的生命周期长度频次分布

Fig.9   Frequency distribution of life cycle length of POI in leisure category


进一步分析每一个子类对应的POI生命周期的可预测性,如图10所示为巴黎地区所有的POI子类所对应的生命周期长度的可预测性,其中可预测性最高的类别为 “motel”类,可预测性为100%,原始数据中巴黎地区具有完整生命周期的属于“motel”类别的POI只有2个,并且其生命周期长度都为5个月. 进一步分析数据,发现每一个城市的每一个子类的POI数量分布极其不均匀,图11(a)是伦敦地区不同子类对应的POI的个数的分布. 其中不同子类对应的POI数量差距明显,而且在每一个城市中都存在语义相同的子类,例如纽约地区的“fitness”、“fitness center”、“fitness station”的语义都是相同的,却被分为不同的类别,这是不合理的,将对生命周期长度的可预测性分析造成干扰. 为了平衡不同类别的POI数量以及中和那些语义相同而划分为不同类别的POI,将子类按照语义相似性进行整合得到初级类. 如图11(b)是伦敦市初级类对应的POI的数量分布.

图 10

图 10   子类POI生命周期长度的可预测性

Fig.10   Predictability of subclass POI life cycle length


图 11

图 11   伦敦不同类别POI数量的分布

Fig.11   Distribution of different types of POIs in London


在对POI类别进行整合之后,根据定义的POI生命周期长度的可预测性分析方法,得到初级类对应的POI生命周期长度的可预测性. 如图12所示为伦敦地区初级类对应的POI生命周期长度的可预测性分布. 从图中可以发现基本上所有类别的具有完整生命周期的POI生命周期长度的可预测性都高于不具有完整生命周期的POI的初级类别. 通过分析每一个城市的初级类别的POI生命周期的可预测性,发现每一个城市的POI生命周期长度的可预测性也是不相同的. 对于北京地区来说,所有初级类别的POI的生命周期长度的可预测大于50%,高于伦敦地区的POI生命周期长度的可预测性.

图 12

图 12   初级类别POI生命周期长度的可预测性

Fig.12   Predictability of POIs life cycle length in primary categories


4.2. 城市POI生命周期状态的可预测性分析

根据定义2,每一个POI完整的生命周期都包括boomin、stable和decaying 3种状态。时间窗口的大小为3个月,每一个时间窗口对应的POI的生命周期状态都可由式(1)确定. POI生命周期的状态是随着时间不断演化的,在每一个时间窗口中都存在不同数量的booming, stable, decaying这3种状态的POI,各占有一定的比重,对于所有的时间窗口,可以得到3种状态在所有时间窗口所占比重的集合. 如图13所示为北京市不同状态POI在所有时间窗口所占比重的分布,其中横坐标为时间戳,可以计算出不同状态POI所占比重的集合:

图 13

图 13   北京市不同生命周期状态的POI所占的比例

Fig.13   Proportion of POIs in different life cycle states in Beijing


对于每一种生命状态,都可以求解其在全部时间窗口POI所占比重的熵,刻画在历史过程中该状态的POI所占比重的分布的规律性.

求解POI在前 $n - 1$ 个时间窗口内特定状态的POI所占比重的随机熵 $E_{rand}$ 和信息熵 $E$. 根据对POI生命周期状态的定义,POI的生命周期只有3种状态,在过去的 $n - 1$ 个时间窗口中,某生命周期状态的随机熵 $E_{\rm{rand}} = {\log _2}\,(N)$,表示在过去的时间窗口内,如果此生命周期状态对应的POI所占的比重以相等的概率分布,这一类POI在以后的时间窗口内生命周期状态的可预测性程度. 值得注意的是,这里的生命周期状态的可预测性程度是指处于该生命周期状态的POI所占比重的可预测性. 而对于POI生命周期状态的信息熵E = $ - \sum\limits_{}^{} {p{{\log }_2}\,(p)} $$p$ 为某时间窗口内某一个生命周期状态的POI所占比重出现的频率而当 $p = 1/N$ 时, $E = E_{\rm{rand}}$,可以认为对于POI生命周期状态的预测是没有意义的,即生命周期状态对应的POI所占比重的分布是随机的,没有规律性. 由于每一个时间窗口内POI的数量以及POI的生命周期状态都在发生变化,每一个时间窗口内不同生命周期状态的POI所占的比重基本不同. 当以3个月作为时间窗口时,只有28个POI生命周期的快照,数据较为稀疏,导致每一个窗口内该生命周期状态所占比重的概率很大程度上不相同, $E \approx $ $ E_{\rm{rand}}$. 为解决这个问题,引入容忍误差的生命周期状态可预测性分析.

通过对不同状态POI所占比重集合 $w$ 中的元素进行分析可知,同一生命周期状态的POI所占比重集中在某一个数字空间,图14(a)为北京市2011年到2017年所有时间窗口的POI所占比重的概率分布,在所有的时间窗口内stable状态的POI所占比重是非常接近的;对于生命周期状态为booming和decaying的POI所占的比重分布同样如此,当增大状态 $j$ 在时间窗口为 $i$ 时POI所占比重 ${w_{i,j}}$ 的误差时,必然会增大某一生命周期所占比重的概率分布. 当对 ${w_{i,j}}$ 引入1‰的误差时,集合中每一个元素出现的概率迅速增大、如图14(b)为北京市amenity类别生命周期状态为decaying的POI所占比重的概率分布,其中直线为原始的POI所占比重的概率分布,虚线为引入误差后的POI所占比重的概率分布,可以看出引入误差后的概率分布更有利于进行可预测性分析. 在现实中人们对连续变量进行预测的过程中同样存在着误差,因此可以认为引入误差的可预测性分析在现实生活中仍然是有意义的. 也就是说本问题为对连续时间窗口不同生命周期状态所占比重引入1‰ 的误差后,针对不同状态所占比重的概率分析不同生命周期状态所占比重的可预测性.

图 14

图 14   北京市不同类别POI所占比例

Fig.14   Proportion of different types of POIs in Beijing


对于连续时间窗口的POI生命周期状态所占比重的分布,根据式(2)可以得到POI状态的信息熵,同时N为某一状态在连续时间窗口中不同比重的个数,根据式(3)可以得到POI某一生命周期状态的可预测性。如图15所示为伦敦地区不同类别POI 3中状态下的可预测性。不同类别的POI对应的生命周期状态的可预测性不同,amenity类别的POI对应的stable和booming的生命周期状态的可预测性要高于另外的两个类别。同一类别不同状态的POI的可预测性不同,对于shop类别的POI,stable状态的可预测性远低于decaying状态的可预测性。

图 15

图 15   伦敦市不同类别、不同状态POI的可预测性

Fig.15   Predictability of POIs in different categories and different states in London


图16所示为东京地区4个主类别对应的时间窗口分别为1、2、3、4和6个月时生命周期状态为decaying的POI所占比重的可预测性大小. 可知,时间窗口越大,其对应的生命周期状态的可预测性越小,并且shop类别对应decaying状态的POI所占比重的可预测性最大,而leisure类别的可预测性最小.

图 16

图 16   不同时间窗口对应的POI生命状态的可预测性

Fig.16   Predictability of POI life state corresponding to different time windows


5. 结 语

本研究通过定义POI生命周期长度和生命周期状态,形式化表示POI的时间序列信息,并结合信息论的方法将POI时间序列数据同信息熵和Fano不等式结合,构建POI演化规律的可预测性分析模型. 计算出7个城市的POI生命周期长度和状态的可预测性,其中处于消亡状态的POI的可预测性超过80%,而占比较大的稳定状态的POI的可预测性小于处于消亡状态的POI,从理论上说明处于消亡状态的POI在时间上的分布更加稳定.

然而OSM上的POI数据过于稀疏,只占真实POI数据的4%左右. 在以后的工作中将结合其他在线地图的POI数据进一步分析POI演化规律的可预测性. 在POI生命周期状态划分过程中,在结合POI生命周期长度信息的同时,可以对城市不同区域进行划分,更加有针对性地对在不同区域且具有不同演化过程的POI的演化规律的可预测性进行分析,从而实现更细粒度的POI生命周期状态的可预测性分析. POI演化规律的可预测性表示了能够准确预测POI生命周期的上界,采用何种预测算法能够逼近甚至达到该上界是一个重要的研究问题.

参考文献

WANG J, LI C, XIONG Z, et al

Survey of data-centric smart city

[J]. Journal of Computer Research and De-velopment, 2014, 51 (2): 239- 259

[本文引用: 1]

YUAN Q, CONG G, MA Z, et al. Time-aware point-of-interest recommendation [C] // Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2013: 363–372.

[本文引用: 1]

吕琳媛

复杂网络链路预测

[J]. 电子科技大学学报, 2010, 39 (5): 651- 661

[本文引用: 1]

LV Lin-yuan

Link Prediction on complex networks

[J]. Journal of University of Electronic Science and Technology of China, 2010, 39 (5): 651- 661

[本文引用: 1]

KENNEDY L S, NAAMAN M. Generating diverse and representative image search results for landmarks [C] // Proceedings of the 17th International Conference on World Wide Web. Beijing: ACM, 2008: 297–306.

[本文引用: 1]

LIAN D, ZHAO C, XIE X, et al. GeoMF: joint geograph-ical modeling and matrix factorization for Point-of-Interest recommendation [C] // ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014: 831–840.

[本文引用: 1]

CHENG C, YANG H, LYU M R, et al. Where you like to go next: successive Point-of-Interest recommendation [C] // International Joint Conference on Artificial Intelligence. Beijing: IJCAI. 2013: 2605–2611.

[本文引用: 1]

ZHAO W, LI Q, LI B

Extracting hierarchical landmarks from urban POI data

[J]. Yaogan Xuebao: Journal of Remote Sensing, 2011, 15 (5): 973- 988

[本文引用: 1]

方斌, 张宪, 杨柳

基于 POI 数据的城市边界变化提取研究——以山西运城市城区为例

[J]. 现代测绘, 2017, 40 (5): 20- 22

[本文引用: 1]

FANG Bin, ZHANG Xian, YANG Liu

Study on urban boundary identification based on POI: a case study of Yuncheng City in Shanxi

[J]. Modern Surveying and Mapping, 2017, 40 (5): 20- 22

[本文引用: 1]

禹文豪, 艾廷华, 刘鹏程, 等

设施 POI 分布热点分析的网络核密度估计方法

[J]. 测绘学报, 2015, 44 (12): 1378- 1383

[本文引用: 1]

YU Wen-hao, AI Ting-hua, LIU Peng-cheng, et al

Network kernel density estimation for the analysis of facility POI hotspots

[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44 (12): 1378- 1383

[本文引用: 1]

YUAN J, ZHENG Y, ZHANG L, et al. Where to find my next passenger [C] // Proceedings of the 13th International Conference on Ubiquitous Computing. Beijing: ACM, 2011: 109–118.

[本文引用: 1]

YU G, YUAN J, LIU Z. Predicting human activities using spatio-temporal structure of interest points [C] // Proceed-ings of the 20th ACM International Conference on Multimedia. Nara: ACM, 2012: 1049–1052.

[本文引用: 1]

LU X, YU Z, SUN L, et al. Characterizing the life cycle of point of interests using human mobility patterns [C] // Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Heidelberg: ACM, 2016: 1052–1063.

[本文引用: 1]

LU X, YU Z, LIU C, et al. Forecasting the rise and fall of volatile point-of-interests [C] // 2017 IEEE International Conference on Big Data. Boston: IEEE, 2017: 1307–1312.

[本文引用: 1]

BIALEK W, NEMENMAN I, TISHBY N

Predictability, complexity, and learning

[J]. Neural Computation, 2001, 13 (11): 2409- 2463

[本文引用: 1]

ANG A, BEKAERT G

Stock return predictability:Is it there?

[J]. The Review of Financial Studies, 2006, 20 (3): 651- 707

[本文引用: 1]

SONG C, QU Z, BLUMM N, et al

Limits of predictability in human mobility

[J]. Science, 2010, 327 (5968): 1018- 1021

[本文引用: 3]

胡伟.改革开放40年中国工业经济发展的区域特征[J/OL].区域经济评论, 2019(1):1–15[2019-01-24]. Https://doi.org/10.14017/j.cnki.2095-5766.2019.0017.

[本文引用: 1]

HU Wei. Regional characteristics of China's industrial economic development in the 40 years of reform and openin up [J/OL]. Regional Economic Review, 2019(1): 1–15 [2019-01-24]. Https://doi.org/10.14017/j.cnki.2095-5766.2019.0017.

[本文引用: 1]

QIN S M, VERKASALO H, MOHTASCHEMI M, et al

Patterns, entropy, and predictability of human mobility and life

[J]. PLoS One, 2012, 7 (12): e51353

[本文引用: 1]

SINATRA R, SZELL M

Entropy and the predictability of online life

[J]. Entropy, 2014, 16 (1): 543- 556

[本文引用: 1]

NAVET N, CHEN S H. On predictability and profitability: would gp induced trading rules be sensitive to the observed entropy of time series? [M] // Natural Computing in Computational Finance. Berlin Heidelberg: Springer, 2008: 197-210.

[本文引用: 3]

AARONSON J, PARK K K. Predictability, entropy and information of infinite transformations [J]. arXiv preprint arXiv: 0705.2148, 2007.

[本文引用: 1]

DELSOLE T

Predictability and information theory. Part I: measures of predictability

[J]. Journal of the Atmospheric Sciences, 2004, 61 (20): 2425- 2440

[本文引用: 1]

BOLTZMANN L. Lectures on gas theory [M]. Chelmsford: Courier Corporation, 2012: 34.

GIBBS J W. Elementary principles in statistical mechanics [M]. Chelmsford: Courier Corporation, 2014: 146.

[本文引用: 1]

/