面向连续位置服务的位置感知隐私保护方案
Location-aware privacy protection scheme in continuous location-based service
通讯作者:
收稿日期: 2019-12-16
Received: 2019-12-16
作者简介 About authors
郑磊(1987—),男,硕士生,从事移动网络研究.orcid.org/0000-0002-1119-0618.E-mail:
为了增强在位置服务(LBS)中对用户个人隐私的保护,提出基于本地缓存的位置感知匿名选择算法(LaSA). 利用历史轨迹信息和缓存信息,以不依赖可信第三方(TTP)服务器的方式构建匿名区域. 在连续位置服务查询中,利用马尔可夫预测模型对未来可能查询的位置进行预判. 根据预测位置、缓存贡献度和数据新鲜度构建匿名区域,以覆盖用户所查真实区域. 结果表明,与已有方案相比,所提出的LaSA隐私保护方案能提供更高的缓存命中率,减少用户服务请求次数,保证用户位置数据的安全.
关键词:
A location-aware anonymous selection algorithm (LaSA) based on local cache was proposed in order to enhance the protection of users′ privacy in location-based service (LBS). Anonymous zones were constructed without relying on the trusted third-party (TTP) server, using historical track information and cache information. The Markov prediction model was used to select the possible query location in the future continuous location service query. The anonymous region was constructed to cover the region inspected by user based on predicted location, cache contribution, and data freshness. Results show that the proposed LaSA solution can provide a higher cache hit rate reduce the number of user service requests, and ensure the security of user′s location data with comparison with the existing schemes.
Keywords:
本文引用格式
郑磊, 张俊星.
ZHENG Lei, ZHANG Jun-xing.
近年来,无线通信技术取得了突飞猛进的发展,随之而来的是通讯成本的快速降低,智能手机的广泛普及. 位置服务(location-based services,LBS)使人们的生活更加舒适和方便,基于LBS研发的各类软件已经成为人们生活中的热门应用[1-2]. LBS是依赖于用户位置信息的服务,如路径导航,查找酒店、餐馆或加油站等目的地位置,用户通常使用移动设备获取这类服务[3-4]. 为了享受这些便利,移动用户须向不可信的位置服务提供商(location service provider,LSP)提交查询. 通过收集用户的请求数据,LSP可以推断用户的个人信息,如用户的位置、偏好、家庭背景等[5],LSP有可能向第三方披露用户的私人信息. 因此,在LBS中保护用户的个人隐私成为人们关注的焦点.
如何才能保护LBS中移动用户的个人隐私,有很多研究提出了解决方案. 其中,大多数解决方案依赖于包含可信第三方(trusted third-party,TTP)的架构,TTP的功能是构造匿名区[6-8]. 这些方案的问题是,方案将所有隐私信息都集中到TTP服务器,一旦TTP服务器被对手攻击导致信息泄露,用户的个人隐私将得不到保护. 另一些方案是利用TTP服务器的缓存来记录和查询数据. 虽然用户从缓存中获取所需的服务数据,可以减少与LSP的交互次数[9-11],但是这些方案未能充分利用缓存和历史数据来更好地保护用户的个人隐私. 为了提高对用户个人隐私的保护程度,同时提高对缓存数据的利用效率,本研究提出基于本地缓存的位置感知匿名隐私保护方案(location-aware anonymous selection algorithm, LaSA). 在本方案中,用户不依赖于TTP,而是利用移动终端的缓存构造匿名集. 当用户需要LBS查询服务时,用户先在本地移动终端的缓存中查询结果. 如果缓存中的数据能够满足用户需求,则用户无须再向LSP发起请求,用户的隐私信息不会被暴露给LSP. 如果缓存数据不能满足用户需求,方案将在本地移动终端构造一组可以覆盖其真实查询区域的匿名位置集,再把对匿名位置集的查询请求发送给LSP. 生成匿名集的过程是利用基于历史数据所建立的马尔可夫模型预测下一个可能查询的位置.
本方案将用户的查询结果缓存在移动终端中,可以通过缓存直接应答部分用户查询,降低用户将个人隐私信息暴露给LSP的机率. 利用匿名覆盖技术增强用户隐私. 根据用户需要查询范围,选取k个位置组成匿名集合,用匿名位置集合覆盖用户的真实查询区域,从而隐藏用户真实的位置. 该方案使用真实历史轨迹数据来构建马尔可夫模型,该模型在用户发送服务请求之前预测用户的未来位置. 为了进一步提高缓存命中率,根据预测位置、缓存贡献率和数据新鲜度形成覆盖真实位置的匿名区域,从而减少用户与LSP之间的交互次数.
1. 相关工作
1.1. 位置隐私保护架构
在LBS位置隐私保护中,主要有2种常用的架构:依赖TTP的架构[12]和不依赖TTP的架构.
1.2. 位置隐私保护技术
目前,在有关LBS的研究中已经提出了许多位置隐私保护技术. 通常将现有方案分为两大类:构建匿名区域技术和位置混淆技术. 另外,近年来缓存技术作为辅助手段也被应用到位置隐私保护技术中.
综上所述,在现有隐私保护方法中,TTP是系统瓶颈. 另外,没能充分利用历史信息和缓存数据. 本研究旨在提出基于历史信息和缓存数据的匿名区域形成方法,通过轨迹位置预测,提高缓存命中率,增强隐私保护效果.
2. 问题模型及相关定义
2.1. 系统模型
本研究的应用场景是连续LBS. 连续LBS是指在一段时间内,移动用户持续向服务器发起LBS请求,例如在导航、兴趣点(points of interests, POIs)查询以及其他须持续保持请求的服务中. 用户在这段时间内发起的请求可以是连续或间歇的.
本研究提出的LaSA方案采用不依赖TTP的架构,用户通过手机直接与LSP通信,以实现连续查询下保护用户位置隐私的目的. 如图1所示,该体系结构由2个主要部分组成:移动单元和LSP. 其主要功能描述如下。
图 1
1)移动单元. 每个移动单元都是携带智能终端的个人用户,其中智能终端是具有诸如信息处理、数据存储、全球定位单元和网络通信等基本功能的移动设备. 移动单元与服务器之间采用长期演进(long term evolution, LTE)通信方式. 利用智能终端的运算能力和存储能力,将生成K-匿名和缓存查询结果的任务也布置在智能终端上. 缓存数据可以根据预测模型来预测用户的下一个查询.
2)LSP. 所提方案假设不可信的LSP是竞争对手. LSP为移动单元提供POIs查询服务. 另一方面,通过监控用户发送的查询,LSP可以轻松获得所有查询的统计信息. 此外,它还了解该系统中所使用的位置隐私保护机制,以及已经缓存的数据. 基于这些数据,LSP可以进行推理攻击来推断和学习用户的位置信息.
2.2. 动机和基本思想
当移动用户需要LBS服务时,用户通过智能手机向不可信的LSP提交基于位置的相关查询,以获取和享受相应的服务(查询附近POIs),例如附近的可用停车位、酒店优惠或公交车站台信息等. 特别是当移动用户向LSP发起连续查询时,会增大轨迹识别的风险. 其次,不同的用户先后向LSP发起相同的查询请求,会增加用户隐私暴露风险以及通信开销.
针对用户向不可信LSP发送信息的问题,一般的方法是使用K-匿名来降低用户隐私暴露水平。然而,基于相关背景知识的数据挖掘攻击依然可以识别出隐藏于所选虚拟位置中的真实位置. 因此,如何选择合适的匿名位置是一个挑战. 针对不同用户重复查询的问题,为了提高对历史数据的利用效率,考虑一种允许用户直接从缓存中检索数据的方法,可以增强用户隐私安全并减少其通信开销,然而,如何提高缓存命中率是一个挑战. 为了解决上述问题,所提方案的基本思想是将缓存、马尔可夫预测模型和K-匿名技术相结合来保护用户隐私.
所提方案在移动终端缓存用户和匿名集先前在本地客户端上的查询数据. 在后续查询中先查询本地缓存,降低将用户信息暴露给LSP的风险. 为了进一步降低隐私暴露程度,本方案不将用户的真实位置发送到LSP. 如图2(a)所示,对匿名集合的查询结果进行组合(位置2、3、4)来获得真正的查询区域(位置1). 与随机选择匿名位置相比,本方案倾向于选择覆盖真实查询区域的位置. 为了提高缓存命中率,在连续的LBS查询中,考虑匿名位置的缓存贡献率和用户的移动趋势,并使用基于马尔可夫的位置预测模型来估计用户的后序位置. 如图2(b)所示,蓝色虚线表示真实轨迹,阴影网格表示该网格服务信息已经保存在缓存中. 虽然位置4的缓存贡献率高于位置2、3,但位置4不在用户的预测轨迹路径中. 本方案更倾向于选择位于用户预测路径中的候选位置,以形成匿名位置集.
图 2
2.3. 相关定义及位置隐私保护度量
背景信息是指用户在某一特定位置或特定区域发送查询请求的概率. 如在包含n2个基本单元的地图中,使用位置单元发起的查询数量ni与整个地图上的查询总数量m的比率作为位置单元li的查询概率qi. 查询概率公式定义为
式中:
如果不考虑背景信息,用户在匿名化后向LSP发送查询请求,对手能够推断出用户真实位置的概率为1/k,k为匿名化过程中位置集合的大小. 位置单元li是用户的实际位置的概率的表达式为
式中:
1)位置熵H. 对手推断用户真实位置信息的不确定度,表达式为
2)匿名集合Ca. 按照一定的规则从地图中选择|Ca|个位置单元形成匿名位置集.
3)缓存命中率γ. 移动单元通过查询缓存获取LBS服务的概率. 将缓存的服务响应记为Qcac,将LSP的服务响应记为Qser. 缓存命中率定义为
4)隐私度λ. 在使用缓存的方案中,系统的隐私保护能力定义如下:
式中:Hq为匿名集的位置熵. 从式(5)可知,有2种方式可以增强系统的隐私保护效果,即提高位置熵Hq或提高缓存命中率γ. 因此,想要更高的隐私保护程度,须选择拥有更大Hq和γ的匿名集合.
5)缓存贡献度δ. 用来判断位置单元li的服务数据是否已被缓存. 计算公式为δ = qi g. 对于已存在于缓存的位置单元li,将其添加至缓存列表并不能增加缓存命中率,则g = 0;反之,g = 1. 位置li的查询概率qi与其缓存贡献度δ成正比.
6)数据新鲜度F. 对于提交给LBS服务器的查询,当查询范围大于位置单元时,每个位置获取的服务数据覆盖该位置单元周围的多个单元格. 对于整体匿名集合的平均数据新鲜度可以定义为
式中:fi为单元格i的新鲜度,l为查询范围内的单元格数.
2.4. 马尔可夫预测模型
由于用户的移动具有一定规律性,使用马尔可夫模型根据历史轨迹预测用户的后序查询位置,并根据预测的位置选择k个单元形成空间K-匿名,从而提高用户的后续缓存命中率. 一般来说,基于马尔可夫的轨迹预测包括以下几个基本阶段:1)输入历史用户的轨迹数据;2)根据历史数据构造状态转移概率矩阵;3)根据用户的当前位置,查询状态转移概率矩阵,并预测用户下一时刻可能出现的位置.
假设一个轨迹被描述为
3. 所提方案
3.1. 系统概览
当用户请求LBS时,将优先查询智能手机的缓存系统. 如果没有匹配或匹配的服务数据不能满足其要求,则用户向LSP发送查询,请求位置集Ca所对应的服务数据. 用户不发送个人的真实位置,而是令k个匿名位置的查询结果覆盖其真实查询范围. 同时,所得匿名集的查询结果也包含用户未来可能查询的区域. 在向LSP发起查询结束后,所获取的服务数据将用于更新缓存. 如果缓存的服务数据能够满足用户的需求,则无须向LSP服务器发送查询. 当用户向LBS服务器提交查询时,其隐私安全受所提LaSA方案的保护;当向缓存发起查询时,隐私是通过缓存来保护的,因为在此情况下不必向LSP服务器发送查询.
3.2. 位置感知的匿名选择算法(LaSA)
本方案的目标是选择一组匿名位置来确保整体位置熵较高. 其查询区域可以覆盖真实的查询范围,并包括有最大概率的预测位置,另外可以对缓存命中率有更多的贡献. 当响应查询时,缓存无须具有查询范围内的所有单元格的服务数据. 具体来讲,每个用户都可以设置一个阈值τ,该阈值表示已缓存单元数量与所查询区域单元数量之比的最小值. 定义参数ξ表示在查询范围内实际缓存的单元格的百分比. 如果为ξ≥τ,则可以通过缓存回答用户的查询;如果ξ<τ,则用户必须向LSP发起查询. 通过优化τ,用户可以调整服务质量和隐私之间的权衡. 一组匿名位置对缓存的总贡献定义如下:
算法1详细描述了本研究所提方案. 基于实际位置Cr和查询半径Re,选择2k个单元形成候选集Cc,这些单元具有相近的q与Cr. 从Cc中找到满足覆盖度τ的子集构成Cs. 根据当前位置Cr和转移矩阵TM,计算可能在下一时刻的一组预测位置C''. 再从Cs中选取具有最大缓存贡献度的部分和集合C'求并集,最终得到所求匿名集合Ca.
算法1 位置感知的匿名选择算法
输入 Cr(真实位置),k(匿名度),Re(查询半径),τ(覆盖度),ε(预测度),s(候选数量),TM(预测转移矩阵)
输出 Ca(匿名位置集合)
1. Select (2Re+1)2 cells around Cr as constraint set Qs
2. choose s cells around Cr
3. Select 2k cells similar to Cr query probability as the candidate set
4. C = {C′| C′
5. For each C′ ∈ C do
6. compute De = C′ ∩ Qs
7. If |De
8. End
9. For each C′ ∈Cs do
10. compute
11. End
12. Search TM, select the first ε cells to form C''
13. Output
3.3. 隐私保护性能分析
当用户发起LBS请求时,用户先对本地缓存进行查询. 如果缓存中的数据能够满足用户需求,则用户可以直接获取服务数据. 缓存服务过程只存在于用户的移动终端,并不存在端到端的通信过程,因此该类服务是安全的. 另一方面,标准的加解密技术可以很方便地布置到本研究方案中,以抵御发生在用户和LSP之间无线信道上的窃听攻击.
LSP掌握整个地图的查询概率以及所有用户的历史查询信息,它可以根据这些信息进行推理攻击. 在该方案中,用户利用LaSA算法,选择一组能够覆盖当前和未来时间段的真实查询区域,并根据缓存贡献率和数据新鲜度选择满足条件的k个位置作为匿名位置集合. 用户使用该匿名集合发起查询请求. 在该集合中,不包括用户当前的真实位置,而是将真实查询区域分散隐藏到k − n个位置中. 即使预测的n个位置包含用户未来的真实位置,本方案也使用其他k − n个相似位置作为匿名区域. 因此,对于单次查询,对手推断用户实际位置的概率小于1/k.
LSP还可以利用不同位置的背景信息来推断用户的真实位置. 所创建的匿名集合包含具有相似背景信息的混淆位置和预测位置. 混淆位置集合中的元素与实际位置查询概率相近. 预测位置集合中的元素来自具有多个语义信息的真实历史轨迹. 因此,所提出的LaSA算法可以保证所有匿名区域单元具有相似的查询概率,并且LSP无法从提交的匿名区域中估计出用户的真实位置.
4. 实验与评估
4.1. 实验设置
轨迹数据集来自文献[29],包括由23 667 828个点组成的17 621条轨迹. 这个数据集包含5 a多来收集的约1 229 951英里的GPS数据. 这些数据由多种支持GPS的设备收集. 该数据集中的轨迹大部分分布在北京地区. 选取北京市区的12024个轨迹数据作为本实验使用的数据集. 将30 km×26 km的地图划分为200 m×200 m的单元网格. 每个网格的初始查询概率可以从Google Maps API获得. 在实验中,先用90%的轨迹数据建立马尔可夫转移矩阵. 使用剩余10%的轨迹来模拟连续的LBS查询. 设置用户发起连续LBS查询的时间间隔为2 min. 详细的实验参数表如表1所示. 表中,Nt为轨迹数量,(x1, y1)、(x2, y2)分别为起点(左下)、最大(右上)坐标。
表 1 实验参数
Tab.1
参数 | 取值 |
Nt | 12 024 |
(x1,y1)/ km | (0,0) |
(x2,y2)/ km | (30,26) |
Re/网格 | 2 |
k | 3~20 |
τ | 0.1~1.0 |
ε | 0~0.5 |
4.2. 实验结果
4.2.1. 匿名度k
图 3
4.2.2. 缓存命中率、预测度及覆盖度的关系
图 4
图 4 预测度和覆盖度对缓存命中率的影响
Fig.4 Influence of prediction and coverage on cache hit rate
5. 结 语
针对位置服务中用户的隐私安全问题,综合考虑用户位置的历史数据和背景信息,引入移动终端的缓存机制,并结合K-匿名技术和马尔可夫预测模型,提出基于本地缓存的位置感知匿名选择算法. 构造不依赖于可信第三方的隐私保护方案,减少用户与LBS服务器之间的交互次数,抵抗来自具有背景信息的对手的多重推理攻击. 安全性分析和实验评估结果进一步验证所提出方案的有效性,并分析了不同参数设置对方案性能的影响. 实验结果表明,所提方案可以提高缓存命中率,减少用户与LSP的交互次数,保护用户隐私数据.
未来研究将集中在2个方面,一方面将所提方案扩展到可穿戴设备的使用场景中,研究个人医疗隐私数据的保护问题;另一方面研究真实场景下隐私保护方案的部署问题,进一步提升方案的有效性和通用性.
参考文献
Privacy protector: privacy-protected patient data collection in IoT-based healthcare systems
[J].DOI:10.1109/MCOM.2018.1700364 [本文引用: 1]
Preserving privacy with probabilistic indistinguishability in weighted social networks
[J].DOI:10.1109/TPDS.2016.2615020 [本文引用: 1]
EPLQ: efficient privacy-preserving location-based query over outsourced encrypted data
[J].DOI:10.1109/JIOT.2015.2469605 [本文引用: 1]
A general framework for MaxRS and MaxCRS monitoring in spatial data streams
[J].
Privacy enhanced location sharing for mobile online social networks
[J].
User-defined privacy grid system for continuous location-based services
[J].
Hiding in the mobile crowd: locationprivacy through collaboration
[J].
The framework and algorithm for preserving user trajectory while using location-based services in IoT-cloud systems
[J].
STAMP: enabling privacy-preserving location proofs for mobile users
[J].DOI:10.1109/TNET.2016.2515119 [本文引用: 1]
基于Space Twist的k-匿名增量近邻查询位置隐私保护算法
[J].DOI:10.3969/j.issn.1001-3695.2016.08.035 [本文引用: 1]
Space twist-based k-anonymity incremental nearest neighbor query algorithm for location privacy protection
[J].DOI:10.3969/j.issn.1001-3695.2016.08.035 [本文引用: 1]
SocialHide: a generic distributed framework for location privacy protection
[J].
Dummy generation based on user-movement estimation for location privacy protection
[J].DOI:10.1109/ACCESS.2018.2829898 [本文引用: 1]
A novel time-obfuscated algorithm for trajectory privacy protection
[J].DOI:10.1109/TSC.2013.55 [本文引用: 1]
A trajectory privacy-preserving scheme based on query exchange in mobile social networks
[J].
Collaborative trajectory privacy preserving scheme in location-based services
[J].DOI:10.1016/j.ins.2016.08.010 [本文引用: 1]
Enhancing privacy through uniform grid and caching in location-based services
[J].
基于高效信息缓存的位置隐私保护方案
[J].
Achieving efficient location privacy protection based on cache
[J].
GeoLife: a collaborative social networking service among user location and trajectory
[J].
/
〈 |
|
〉 |
