基于个体记忆效应和距离效应的出行目的地识别

doi:10.3785/j.issn.1008-973X.2024.04.006

基于个体记忆效应和距离效应的出行目的地识别

郑思静^,, 陈勇, 朱奕璋, 陈喜群^,

1. 浙江大学工程师学院智能交通研究所，浙江杭州 310058

2. 浙江大学建筑工程学院智能交通研究所，浙江杭州 310058

Trip destination recognition based on individual memory effect and distance effect

ZHENG Sijing^,, CHEN Yong, ZHU Yizhang, CHEN Xiqun^,

1. Institute of Intelligent Transportation Systems, Polytechnic Institute, Zhejiang University, Hangzhou 310058, China

2. Institute of Intelligent Transportation Systems, College of Civil Engineering and Architecture, Zhejiang University, Hangzhou 310058, China

通讯作者: 陈喜群，男，教授. orcid.org/0000-0001-8285-084X. E-mail：chenxiqun@zju.edu.cn

收稿日期: 2023-02-13

基金资助:

国家自然科学基金资助项目（72171210）；浙江省自然科学基金资助项目（LZ23E080002）.

Received: 2023-02-13

Fund supported:

国家自然科学基金资助项目（72171210）；浙江省自然科学基金资助项目（LZ23E080002）.

作者简介 About authors

郑思静（1998—），女，硕士生，从事交通大数据分析研究.orcid.org/0000-0003-2059-9586.E-mail：sijingzheng@zju.edu.cn , E-mail：sijingzheng@zju.edu.cn

摘要

通过分析个体出行轨迹数据，挖掘个体出行历史记忆特征以及个体所处位置与潜在目的地的距离特征，建立新的出行目的地识别模型. 利用杭州市200个匿名个体62880次出行数据测试所建模型的效果. 对基于位置的服务（LBS）数据进行预处理，提取以活动为目的的分段出行数据片段，采用GeoHash网格编码方法得到网格化后的个体历史目的地集合. 利用随机缺失的个体出行历史轨迹数据构建训练集和测试集，采用非线性最小二乘法对模型进行参数标定. 结果表明，所建模型提升了出行目的地识别精度；对比不同模型的召回率、折扣累计收益和F1分数，所建模型优于马尔可夫模型、决策树模型以及随机森林模型；数据缺失率敏感性分析结果验证了所建模型的鲁棒性.

关键词： 智慧出行 ; 个体出行 ; 目的地识别 ; 记忆效应 ; 距离效应

Abstract

A new travel destination recognition model was established through analyzing individual travel track data, mining the characteristics of individual travel history memory and the distance between individual location and potential destination. The model was tested using 62880 trips of 200 anonymous individuals in Hangzhou. The location based service (LBS) data was preprocessed, the segmented travel data fragments were extracted for the purpose of activity, and the meshed individual historical destination set was obtained by GeoHash grid coding method. The training set and test set were constructed by using the random missing individual travel history track data, and the parameters of the model were calibrated by nonlinear least square method. Results show that the proposed model improves the recognition accuracy of travel destination. Comparing the recall rate, discount cumulative return and F1 score of different models, the proposed model was better than the Markov model, decision tree model and random forest model. The robustness of the proposed model was verified by the sensitivity analysis of data missing rate.

Keywords： smart mobility ; individual travel ; destination recognition ; memory effect ; distance effect

PDF (2793KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

郑思静, 陈勇, 朱奕璋, 陈喜群. 基于个体记忆效应和距离效应的出行目的地识别. 浙江大学学报(工学版)[J], 2024, 58(4): 708-717 doi:10.3785/j.issn.1008-973X.2024.04.006

ZHENG Sijing, CHEN Yong, ZHU Yizhang, CHEN Xiqun. Trip destination recognition based on individual memory effect and distance effect. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(4): 708-717 doi:10.3785/j.issn.1008-973X.2024.04.006

随着人工智能和大数据技术的发展，与个体出行相关的位置服务数据日益丰富，通过分析数据揭示微观个体出行行为机理，有助于理解宏观交通流的涌现规律和演化过程，为实时预测城市人群移动奠定理论基础. 出行目的地识别是个体行为分析的重要内容^[1]，有助于优化城市空间中的人群移动与交通疏导，还有利于个性化的用户推广^[2].

出行目的地识别方法主要分为2个大类：模型驱动和数据驱动. 在模型驱动方面，Qiao等^[3]通过构建混合马尔可夫模型来提高个体出行目的地识别精度，考虑出行数据的非高斯和时空特征来计算位置转移概率. 随着人口流动性研究的深入，引力模型、辐射模型及改进的辐射模型等被用于人类移动模式识别. Yan等^[4-5]提出识别城市人群移动量的人口权重机会模型以及同时识别个体和群体移动模式的统一模型. 上述模型驱动研究提出的模型均在宏观层面进行出行识别，未实现微观层面的个体出行目的地识别. 在数据驱动方面，大数据和人工智能算法被广泛应用于智慧交通领域. Feng等^[6]将多模态数据嵌入基于注意力机制的循环神经网络，通过联合嵌入控制人类移动的多种因素来捕获复杂的顺序转换，以规则的方式刻画多层次周期性，并利用周期性特征来增强循环神经网络的识别精度. 桂志鹏等^[7]提出结合长短时记忆模型和注意力机制的端到端出行目的地实时识别模型，该模型能够兼顾轨迹点的位置语义和重要性. 现有数据驱动方面的研究侧重于利用大量数据训练神经网络，大多数模型较为复杂，缺乏可解释性且泛化能力有限.

基于位置的服务（location based services，LBS）经地理位置坐标脱敏处理后，有助于向用户提供与位置相关的增值服务. 虽然LBS数据覆盖范围广，定位精度高，但存在数据质量参差不齐的问题^[8]，如手机定位关闭、信号中断导致的定位数据存在数据稀疏、信息缺失、位置偏移. 因此，基于局部可观测LBS数据识别出行目的地具有重要的理论和实际意义. 本研究提出基于个体记忆效应和距离效应的出行目的地识别（memory-distance effect，MDE）模型，通过研究出行者的历史出行行为习惯，识别出行目的地；利用杭州市LBS数据进行参数标定、性能评估、模型对比与敏感性分析.

1. 基于个体记忆效应和距离效应的出行目的地识别模型

1.1. 个体记忆效应

个体出行轨迹存在部分缺失的情况，为此通过挖掘个体出行行为特征，构建出行目的地识别模型. 记忆效应是个体连续移动行为中的重要特征^[9]，它使个体倾向于频繁返回访问过的地点. 例如，在探索优先返回（exploration and preferential return，EPR）模型^[10]中，假设个体访问新地点的概率$P_{\mathrm{N}}$满足$P_{\mathrm{N}} \propto {S^{ - \gamma }}$，其中$S$为个体已经访问过的地点总数，γ为模型参数（$\gamma \gt 0$）；个体访问之前地点的概率为$1 - P_{\mathrm{N}}$. 可以看出，个人访问的地点越多，探索新地点的概率就越小，即个体对在访问过的地点之间移动具有强烈偏好. 受EPR模型启发，考虑目的地对个体的吸引力受到个体记忆和目的地位置的影响. 若个人曾经访问过某个地点，便会对该地点产生记忆效应，从而提高未来访问该地点的概率. 由于人们对不同地点的访问频率分布服从齐普夫定律^[11]，本研究基于齐普夫定律量化个体记忆特征的影响，从个体出行行为角度刻画历史出行信息对于个体出行目的地决策的影响，具有可解释性.

如图1所示，对于从点$O$出发的某次出行，真实目的地位于点${D_m}$，由于手机定位信息缺失或者采样周期过长导致LBS数据缺失，产生截断目的地，记为${D'_m}$. ${D_1}$~${D_6}$为该个体历史出行中曾访问过的目的地. 定义$A$为某一地点对个人吸引力的影响^[5]，使用从点$O$出发到不同目的地的访问频率来表示地点排序：

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于个体记忆效应和距离效应的出行目的地识别模型示意图

Fig.1 Illustration of trip destination recognition model based on individual memory effect and distance effect

(1)$ {A_n} = \frac{\lambda }{{{r_n}}}. $

式中：$\lambda $为记忆效应强度表征参数；${r_n}$为地点${D_n}$在历史访问目的地集合中的排名. 例如，个体访问最常访问地点的概率为${A_1} = \lambda /1$，访问第二常访问地点的概率为${A_2} = \lambda /2$，依此类推.

1.2. 距离效应

引力模型又称重力模型^[12]：两地间的出行量与两地活力乘积成正比，与两地间距离的幂成反比，表达式为

(2)$ {T_{ij}} = \frac{{{M_i}{N_j}}}{{d_{ij}^\beta }}. $

式中：${T_{ij}}$为点$j$对点$i$的吸引力，${M_i}$为起点$i$的活力（通常为人口数），${N_j}$为终点$j$的活力，${d_{ij}}$为从点$i$到点$j$的空间距离，$\;\beta $为距离效应强度表征参数. 在出行目的地选择过程中（如上班、上学、就医、就餐、购物等），人们通常选择距离比较近、能够满足出行需求的目的地. 受引力模型启发，将距离效应引入出行目的地识别模型，表达式为

(3)$ {B_{mn}} = \frac{1}{{{{\left( {1+{d_{mn}}} \right)}^\beta }}}. $

式中：${B_{mn}}$为在距离影响下从点$O$出发选择点${D_n}$作为目的地的概率，${d_{mn}}$为从点$O$到点${D_n}$的空间距离. 为了消除距离为0的影响，若个体在当前位置不变，则分母上加1. 基于上述个体出行的历史记忆特征和距离效应特征，将式（1）和式（3）结合，构建MDE模型，表达式为

(4)$ {P}_{mn}\propto \frac{\lambda }{{r}_{n}}\cdot\frac{1}{{\left(1+{d}_{mn}\right)}^{\beta }} , $

式中：${P_{mn}}$为当个体位于位置点${D'_m}$时，选择候选目的地${D_n}$的概率.

1.3. 模型参数标定方法

由于个体出行特征存在异质性，采用随机缺失方法构建数据集，设定随机缺失率$\xi $，将真实目的地${D_m}$之前的轨迹点按照$\xi $进行随机剔除，得到截断目的地${D'_m}$. 依据个体目的地访问个数进行分层抽样，采用五折交叉验证，并使用非线性最小二乘法对识别模型进行参数估计. 模型输入为从当前点$O$出发到候选目的地点${D_n}$的访问排名${r_n}$、当前点${D'_m}$距候选目的地点${D_n}$地理距离${d_{mn}}$. 模型输出为${P_{mn}}$. 0/1为模型的真实标签，表示${D_n}$是否为真实目的地，${P_{mn}}$越接近100%表明目的地识别得越准确.

1.4. 计算流程

LBS数据记录出行者不同时刻的出行位置信息，通过分析LBS数据可以挖掘历史出行起讫点（OD）和活动轨迹信息从而识别出行者真实出行目的地，具体流程如图2所示. 1）对LBS数据进行预处理，提取以活动为目的的分段出行数据片段. 2）采用GeoHash网格编码方法^[13]对轨迹点进行网格编码，叠加历史出行轨迹得到用户的历史目的地集合. 3）利用部分个体出行轨迹观测数据识别真实出行目的地，建立MDE模型. 4）对预处理后的个体出行历史轨迹数据进行随机剔除，构建训练集和测试集，采用非线性最小二乘法进行模型参数标定. 由上述流程可知，所建模型具有2个特点：1）综合考虑个体记忆效应和距离效应，具有良好的可解释性；2）模型结构简洁，参数数量少，便于标定和迁移.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 出行目的地识别模型流程图

Fig.2 Flowchart of trip destination recognition model

2. 案例分析

2.1. 数据准备

采用2021年1月6日至2月5日杭州市200名匿名个体、62 800次出行的LBS数据进行实证分析. 通过删除重要特征值缺失的异常数据，设置速度阈值对噪声数据进行清洗，删除不合理的轨迹点，构造分类决策树来识别驻留点，将出行行程分段，得到包括用户ID、起讫点时间和经纬度、中间轨迹点时间和经纬度等信息的一次出行数据. 通过人工随机抽样部分出行轨迹来判断出行行程分段的合理性. 如图3所示为个体出行次数分布，s为用户出行次数. 除少量个体出行次数较多以外（如快递配送员），出行次数普遍位于300~500. 如图4所示为个体出行时间分布，$f_{\mathrm{s}}$为出发频率，$f_{\mathrm{e}}$为到达频率. 可以看出，用户出行时间覆盖全天，8:00—18:00的活跃度较高.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 个体出行次数降序排列

Fig.3 Descending ranking of number of individual trips

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 个体出行时间分布

Fig.4 Departure and arrival time distribution of individual trips

数据集所有轨迹点均由经纬度表示，若直接用于个体出行目的地表征，在数据量较大的情况下经纬度变化极大，容易造成维度灾问题，此时不仅训练模型困难，而且计算效率低下. 在诸如个性化服务推荐的实际应用中无须精准预测个体的经纬度信息. 与此同时，基于GeoHash的网格编码技术已被广泛应用于出行流动性挖掘研究^[14-15]，用GeoHash对轨迹数据进行编码能以较小网格表示目的地，对于出行目的地识别有较高的应用价值. 本研究采用GeoHash网格地理位置编码算法表示轨迹点的位置特征. 网格化编码精度与GeoHash编码长度有关，编码长度越长，网格划分越小^[15]. 网格划分过小会导致数据覆盖过于稀疏，不利于模型训练. 为此采用GeoHash6进行编码，所划分网格的长为1.22 km，宽为0.61 km.

通过对杭州市域范围进行GeoHash网格编码，将200个匿名个体共计62 800次出行的目的地与相应网格进行匹配和叠加，结果如图5所示. 可以看出，这200个匿名个体出行聚焦在主城区，城区的出行分布较为密集.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 个体出行目的地叠加分布

Fig.5 Overlay distribution of individual trip destinations

如图6所示为个体水平层面出行距离分布、出行目的地访问数量分布以及出行目的地访问频率分布情况，其中$P$为概率，$d$为出行距离，$n_{\mathrm{d}}$为出行目的地个数，$f$为访问频率. 图6（a）为所有个体历史所有出行的距离分布，由出行起点和出行终点的球面距离计算得到；图6（b）为访问目的地个数对应的个体数占总个体数的比例分布；图6（c）为目的地个体访问次数对应的出行目的地数量占所有个体目的地数量总和的概率分布. 可以看出，1）出行距离主要分布在0~10 km，随着出行距离增加，出行概率指数型下降；2）大多数个体出行目的地数量不超过20，与Alessandretti等^[16]的研究结果一致；3）个体出行在少数几个地点活跃度高（如家、工作地），大部分地点的出行访问频率较低.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 所有个体出行特征统计

Fig.6 Statistics of all individual trip characteristics

2.2. 模型识别结果分析

采用部分观测数据缺失的数据集训练模型，得到参数估计值λ=0.832, β=1.809. 为了直观展示测试集识别效果，识别出的测试集部分个体目的地分布如图7所示. 可以看出，模型识别结果与真实数据非常相近，表明市中心各目的地的出行人数都与实际值具有很好的吻合度.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 真实与识别目的地分布对比

Fig.7 Comparison of real and recognized destination distribution

2.3. 模型性能对比分析

为了量化评估模型识别性能并进行性能对比，将马尔可夫链^[17]（Markov chain，MC）模型、决策树（decision tree，DT）模型^[18]以及随机森林（random forest，RF）模型^[19]作为基准模型. 其中MC模型基于所有个体的历史出行记录来构建出行转移矩阵，并基于出行者当前所在位置来预测出行目的地；DT模型是经典的基于树的分类方法，能够通过学习样本发现个体出行的转移规律，并对新的数据做出正确分类；RF模型是集成多个决策树的分类器. 在对比实验中，各基准模型的输入与MDE模型的输入保持相同. MDE模型的输出为按照概率由大到小排序的位置列表，即top-$k$列表，其中$k$为目标个体最有可能选择的$k$个位置. 使用召回率$r_k$、折扣累计收益$g_k$、F1分数量化模型识别性能，这3个指标均位于0~1.0，数值越大说明模型识别精度越高. 相对于比二分类问题，多分类问题更重视识别列表中排名靠前的若干目的地，因此采用折扣累计收益衡量目的地识别模型精度，按照排序列表对识别效果进行加权评估，计算式^[20]为

(5)$ g_k = \sum\limits_{i = 1}^k {\frac{{{l_i}}}{{{{{\mathrm{lb}} }}\;(i+1)}}} . $

式中：若第$i$处识别准确，则${l_i} = 1$；否，则为0. F1为模型精确率和召回率的调和平均，计算式为

(6)$ {\text{F1 = 2}} \times \frac{{p \times r}}{{p +r}}. $

式中：$p$为精确率，$r$为召回率.

不同识别模型的性能对比结果如表1所示. 可以看出，$r_k$和$g_k$随k增大而增大. 在测试集中，当$k = 1$时，MDE模型的r₁=0.56，识别模型的识准率随着$ k $增大而提高，当$k = 5$时，r₅=0.89. 对比其他模型，MDE模型识别效果最好，在r₃指标上相比MC模型提升了20.9个百分点，在g₃指标上相比MC模型提升了12.8个百分点. 当$k = 1$时，在召回率和折扣累计收益指标方面，MDE模型相比于其他3种基准模型的识别提升效果不够明显，但随着$k$增大，MDE模型相比于其他3种基准模型的识别精度有大幅度提升，表明MDE模型具有较好的识别效果. 由表可知，MDE模型的识别性能较对比模型的识别性能好. 如图8所示为不同访问目的地个数下的F1分数，$n_{\mathrm{h}}$为历史目的地访问个数，由于存在个体异质性，出行选择具有较强的不确定性，多分类识别问题难度高于二分类问题. 可以看出，随着访问目的地个数即多分类问题的类型增多，模型依然能够保持稳定准确的识别性能.

表 1 不同目的地识别模型性能对比

Tab.1 Performance comparison of different trip destination recognition models

模型	训练集							测试集
模型	r₁	r₃	r₅	g₁	g₃	g₅	F1	r₁	r₃	r₅	g₁	g₃	g₅	F1
MDE	0.59	0.85	0.91	0.59	0.75	0.77	0.61	0.56	0.83	0.89	0.56	0.72	0.74	0.57
MC	0.54	0.60	0.61	0.54	0.58	0.58	0.38	0.55	0.62	0.62	0.55	0.59	0.59	0.39
DT	0.57	0.69	0.70	0.57	0.65	0.65	0.45	0.56	0.71	0.71	0.56	0.65	0.65	0.43
RF	0.57	0.69	0.70	0.57	0.65	0.65	0.45	0.56	0.71	0.72	0.56	0.65	0.65	0.43

新窗口打开| 下载CSV

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 不同访问目的地个数的F1分数

Fig.8 F1-score for different numbers of destinations visited

为了探究所提模型中距离效应和记忆效应的有效性，进行消融实验，实验结果如表2所示. 将只考虑个体记忆效应的出行目的地识别模型（memory effect，ME）和只考虑距离效应的出行目的地识别模型（distance effect，DE）作为对比模型，在实验中与MDE模型保持相同的输入输出. 可以看出，综合考虑个体记忆效应和距离效应的MDE模型比对比模型的识别效果好. MDE模型在r₁指标上相比DE模型提升了4个百分点，在r₃指标上相比DE模型提升了13个百分点，MDE模型在F1分数指标上相比ME模型提升了18个百分点，验证了双效应融合的必要性.

表 2 个体记忆效应和距离效应模型的消融实验

Tab.2 Ablation experiments of individual memory effect and distance effect models

模型	训练集							测试集
模型	r₁	r₃	r₅	g₁	g₃	g₅	F1	r₁	r₃	r₅	g₁	g₃	g₅	F1
MDE	0.59	0.85	0.91	0.59	0.75	0.77	0.61	0.56	0.83	0.89	0.56	0.72	0.74	0.57
ME	0.54	0.82	0.90	0.54	0.70	0.74	0.38	0.55	0.83	0.91	0.55	0.71	0.74	0.39
DE	0.56	0.74	0.82	0.56	0.66	0.70	0.60	0.52	0.70	0.79	0.52	0.62	0.66	0.43

新窗口打开| 下载CSV

2.4. 出行特征对比分析

为了进一步对比模型识别效果，从个体层面对比个体回转半径分布、访问频率分布. 定义个体回转半径为

(7)$ r_{\mathrm{g}} = \sqrt {\frac{1}{N}\sum\limits_{a = 0}^N {{{(r_a - r_{{\text{CM,}}a})}^2}} } . $

式中：$N$为总位移数；$r_a$为个体在$a$次位移后的位置；$r_{{\text{CM,}}a}$为个体的$a$次位移所得的质心，

(8)$ r_{{\text{CM,}}a} = \frac{1}{n}\sum\limits_{k = 0}^n {r_k} . $

访问频率为在一定时间内个体访问某个地点的次数. 如图9所示，${r_{\mathrm{g}}}$为个体回转半径，$f$为访问频率，MDE模型的个体回转半径分布以及访问频率分布均能与真实值匹配，MDE模型相较于基准模型能够更好地刻画个体出行访问频率特征. 特别是在90~110 km对个体回转半径的识别，MDE模型表现更佳.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 所有个体出行特征对比

Fig.9 Comparison of all individual trip characteristics

为了更直观地对比所有个体出行特征刻画效果，使用JS散度（Jensen-Shannon divergence，JSD）进行评价. JSD能够定量地度量2个概率分布的相似性^[21]，本质上是KL散度（Kullback-Leibler divergence，KLD）的变体，与KLD类似，若2种分布越相似，JSD越小. JSD的值域范围为[0,1.0]，完全相同为0，完全相反为1.0. 相较于KLD，JSD对相似度的判别更加确切. KLD的计算式为

(9)$ {D_{KL}}(U||V) = \int\limits_T {U(t){\mathrm{lb}} \frac{{U(t)}}{{V(t)}}} {\mathrm{d}}t \geqslant 0 . $

式中：$U$、$V$均为已知的概率分布. 当且仅当$U = V$时，式（9）取等号. 因此，KLD具有非对称性，无法准确地测量2个概率分布的实际差异. 为了解决这个问题，JSD构造平均概率分布来比较$U$与$V$的差异. JSD的计算式为

(10)$ \begin{gathered} {D_{JS}}(U||V) = \frac{1}{2}{D_{KL}}\left(U||\frac{{U+V}}{2}\right)+ \frac{1}{2}{D_{KL}}\left(V||\frac{{U+V}}{2}\right) \\ \end{gathered} . $

统计MDE模型、MC模型、DT模型以及RF模型下所有个体回转半径分布和访问频率分布的JSD的计算结果如表3所示. 可以看出，MDE模型的JS散度远小于其他3种基准模型，表明MDE模型能够更好地展现个体出行特征分布.

表 3 不同对比模型出行特征分布的JS散度

Tab.3 JS divergence of trip characteristic distribution of different comparison models

模型	r_g	f	模型	r_g	f
MDE	0.0150	0.0012	DT	0.0362	0.0023
MC	0.0297	0.0022	RF	0.0378	0.0022

新窗口打开| 下载CSV

从群体层面对比模型，识别结果如图10所示. 通过散点图直观对比模型出行量的识别值和实际值，出行量为2个GeoHash网格之间的移动量统计值，成对的灰色点表示模型识别值和真实值分布；空心点表示在不同分位数箱中识别结果的平均值；箱线图是可视化数据分布的方法，表示识别行程数在观测行程数的不同分位数箱中的分布，箱线图中的虚线代表中位数，下线为下四分位数（25%分位数），上线为上四分位数（75%分位数）. 箱线图的绘制方法：先找出1组数据的中位数和2个四分位数，然后连接2个四分位数画出箱体，中位数在箱体中间. 如果Y=X位于10%到90%置信区间之间，则用矩形标记框，否则用矩形叠加椭圆形标记框. 可以看出，MDE模型能够比基准模型更准确地识别出行目的地. 在出行次数为1~50时，MC模型、DT模型以及RF模型均低估了真实的出行次数，原因在于基准模型在影响个体出行目的地选择的因素上考虑不够全面，MDE模型通过考虑个体历史出行习惯及其对出行距离选择的影响来识别个体出行目的地，因此在识别效果上表现更佳. MC模型设每个状态只依赖前一个状态，不依赖过去的历史，这简化了计算和分析，但不能充分利用历史数据. DT模型可以较好地处理非线性关系，由于只考虑每个变量的影响，忽略了变量之间的相互关系，可能会导致模型的性能下降. RF模型的泛化能力较强，但是在解决回归问题时效果不是很好，不能做出超越训练集数据范围的识别，因此在测试集上训练出的结果较真实值低. 为了直观地对比群体层面的特征刻画效果，采用Sørensen相似性指数（Sørensen similarity index，SSI）来衡量各模型的识别效果. SSI是常用的统计工具，用于评估2个样本的相似度. Lenormand等^[22]使用修改版本的SSI来衡量流动性识别模型是否正确地再现真实出行量（平均），计算式为

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同模型的出行散点图对比

Fig.10 Comparison of travel scatter plot for different models

(11)$ {\text{SSI}} = \frac{1}{{{N^2}}}\sum\limits_o^N {\sum\limits_d^N {\frac{{2\min\; ({{T'_{od}}},{T_{od}})}}{{{{T'_{od}}}+{T_{od}}}}} } . $

式中：${T'_{od}}$为模型识别的从位置$o$到位置$d$的行程次数，${T_{od}}$为观测到的真实行程次数. 若${T'_{od}}$等于${T_{od}}$，则SSI=1；若识别值与实际值相差很多，则SSI接近于0. 如图10所示，MDE模型、MC模型、DT模型和RF模型的SSI分别为0.864、0.663、0.740和0.737. 可以看出，在参与对比的模型中，MDE模型的SSI最高，能够更好地识别两地之间的真实出行数量.

3. 敏感性分析

3.1. 缺失率敏感性分析

为了测试模型鲁棒性，对缺失率进行参数敏感性分析. MDE模型、MM模型、DT模型以及RF模型的精度指标随缺失率的变化情况如图11所示. 图中，精度指标包括r₁（g₁与r₁的数值相等）、r₃、r₅、g₃、g₅、F1分数. 相较于基准模型，MDE模型在低缺失率情况下有较好的识别效果. 在高缺失率情况下，决策树模型的识别效果更好，原因是MDE模型具有处理高度缺失值的能力，能够灵活处理数据，自动忽略不相关特征. 虽然LBS数据覆盖范围广，定位精度高，但存在由于手机定位关闭、信号中断等原因导致的数据稀疏、信息缺失等问题. 本研究提出研究基于尾部缺失LBS数据的出行目的地识别方法. 在这样的情境之下，MDE模型具有最好的识别效果和应用价值. 以F1分数为例，当缺失率处于[0，0.6)时，MDE模型的F1分数远高于其他3种基准模型，验证了所提模型对于尾部轨迹数据缺失情况下的微观个体出行目的地识别问题具有良好的适应性；随着缺失率的增加，MDE模型在[0.6，1.0)的性能有所下降，可能的原因是随着数据缺失率的增加，距离真实目的地的距离增大，导致距离效应的效用有所下降，其余对比模型受该影响相对较低.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 不同模型的缺失率敏感性分析

Fig.11 Sensitivity analysis of missing rate for different models

3.2. 数据集时间敏感性分析

为了测试模型鲁棒性，对数据集的日期类别进行敏感性分析. MDE模型的各指标评估值随时间的变化情况如图12所示. 可以看出，MDE模型在周一至周日、工作日和非工作日的性能保持稳定，无明显变化，证明MED模型对于数据集的日期类别不敏感.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 所提模型的时间敏感性分析

Fig.12 Sensitivity analysis of time for proposed model

4. 结　语

针对位置服务数据缺失情况下的微观个体出行目的地识别问题，建立基于个体记忆效应和距离效应的出行目的地识别模型，并采用真实数据标定和检验模型. 结果表明所建模型的准确率、召回率、精确度和F1分数优于马尔可夫模型、决策树模型以及随机森林模型的对应指标，且所建模型具有较高的鲁棒性. 开展个体出行记忆效应模块和距离效应模块的消融实验，验证了综合考虑个体记忆效应和距离效应的必要性. 所建模型采用GeoHash网格编码方法提高了个体出行目的地的空间分辨率，利用个体历史出行信息简化模型结构，从个体出行行为机理角度出发，具有可解释性，实现部分个体出行轨迹观测数据缺失情况下的出行目的地识别，同时结构简单，易于标定参数，能够在出行识别等领域得到较好应用. 未来研究可以考虑更多个体出行影响因素，如出行时间、出行成本，开发准确性更高的识别模型. 同时，由于LBS数据自身缺乏真值的问题，未来考虑采用更精细化的数据进一步提升出行目的地识别准确性以及模型验证的合理性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHENG C, FAN X, WANG C, et al. GMAN: a graph multi-attention network for traffic prediction [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S.l.]: AAAI, 2020, 34: 1234–1241.

[本文引用: 1]

[2]

ZHAO P, LUO A, LIU Y, et al

Where to go next: a spatio-temporal gated network for next POI recommendation

[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34 (5): 2512- 2524

[本文引用: 1]

[3]

QIAO Y, SI Z, ZHANG Y, et al

A hybrid Markov-based model for human mobility prediction

[J]. Neurocomputing, 2018, 278: 99- 109

DOI:10.1016/j.neucom.2017.05.101 [本文引用: 1]

[4]

YAN X Y, ZHAO C, FAN Y, et al

Universal predictability of mobility patterns in cities

[J]. Journal of The Royal Society Interface, 2014, 11 (100): 20140834

[本文引用: 1]

[5]

YAN X Y, WANG W X, GAO Z Y, et al

Universal model of individual and population mobility on diverse spatial scales

[J]. Nature Communications, 2017, 8: 1639

DOI:10.1038/s41467-017-01892-8 [本文引用: 2]

[6]

FENG J, LI Y, ZHANG C, et al. Deepmove: predicting human mobility with attentional recurrent networks [C]// Proceedings of the 2018 World Wide Web Conference . Loyn: [s.n.], 2018: 1459–1468.

[本文引用: 1]

[7]

桂志鹏, 杨乐, 丁劲宸, 等. 顾及路口转移偏好和当前移动模式的个体驾驶目的地预测方法[EB/OL]. (2022-03-29)[2024-01-10]. http://doi.org/10.13203/J.whugis20210555.

[本文引用: 1]

[8]

颜帅. 基于LBS数据的出行目的识别和轨迹预测研究[D]. 南京: 东南大学, 2020.

[本文引用: 1]

YAN Shuai. A research on travel purpose recognition and trajectory prediction based on LBS data [D]. Nanjing: Southeast University , 2020.

[本文引用: 1]

[9]

ZHAO Y M, ZENG A, YAN X Y, et al

Unified underpinning of human mobility in the real world and cyberspace

[J]. New Journal of Physics, 2016, 18: 053025

DOI:10.1088/1367-2630/18/5/053025 [本文引用: 1]

[10]

SONG C, KOREN T, WANG P, et al

Modelling the scaling properties of human mobility

[J]. Nature Physics, 2010, 6: 818- 823

DOI:10.1038/nphys1760 [本文引用: 1]

[11]

GONZÁLEZ M C, HIDALGO C A, BARÁBASI A L

Understanding individual human mobility patterns

[J]. Nature, 2008, 453: 779- 782

DOI:10.1038/nature06958 [本文引用: 1]

[12]

ANDERSON J E

The gravity model

[J]. Annual Review of Economics, 2011, 3 (1): 133- 160

DOI:10.1146/annurev-economics-111809-125114 [本文引用: 1]

[13]

周艺华, 李广辉, 杨宇光, 等

基于GeoHash的近邻查询位置隐私保护方法

[J]. 计算机科学, 2019, 46 (8): 212- 216

[本文引用: 1]

ZHOU Yihua, LI Guanghui, YANG Yuguang, et al

Location privacy preserving nearest neighbor querying based on GeoHash

[J]. Computer Science, 2019, 46 (8): 212- 216

[本文引用: 1]

[14]

洪文兴, 陈明韬, 刘伊灵, 等

基于GeoHash和HDBSCAN的共享单车停车拥挤区域识别

[J]. 厦门大学学报:自然科学版, 2022, 61 (6): 1030- 1037

[本文引用: 1]

HONG Wenxing, CHEN Mingtao, LIU Yiling, et al

Identification of crowded parking areas for shared bikes based on GeoHash and HDBSCAN

[J]. Journal of Xiamen University: Natural Science, 2022, 61 (6): 1030- 1037

[本文引用: 1]

[15]

JIANG F, LU Z N, GAO M, et al

DP-BPR: destination prediction based on Bayesian personalized ranking

[J]. Journal of Central South University, 2021, 28: 494- 506

DOI:10.1007/s11771-021-4617-x [本文引用: 2]

[16]

ALESSANDRETTI L, SAPIEZYNSKI P, SEKARA V, et al

Evidence for a conserved quantity in human mobility

[J]. Nature Human Behaviour, 2018, 2: 485- 491

DOI:10.1038/s41562-018-0364-x [本文引用: 1]

[17]

MATHEW W, RAPOSO R, MARTINS B. Predicting future locations with hidden Markov models [C]// Proceedings of the 2012 ACM Conference on Ubiquitous Computing . [S.l.]: ACM, 2012, 911–918.

[本文引用: 1]

[18]

KIM T, YUE Y, TAYLOR S, et al. A decision tree framework for spatiotemporal sequence prediction [C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . [S.l.]: ACM, 2015: 577–586.

[本文引用: 1]

[19]

ZHOU Y, YANG C, ZHU R

Identifying trip ends from raw GPS data with a hybrid spatio-temporal clustering algorithm and random forest model: a case study in Shanghai

[J]. Transportation Planning and Technology, 2019, 42 (8): 739- 756

DOI:10.1080/03081060.2019.1675309 [本文引用: 1]

[20]

DUPRET G, PIWOWARSKI B

Model based comparison of discounted cumulative gain and average precision

[J]. Journal of Discrete Algorithms, 2013, 18: 49- 62

DOI:10.1016/j.jda.2012.10.002 [本文引用: 1]

[21]

熊亚军, 谢林柏, 彭力

基于JS散度和潜在特征提取的多块PCA故障监测

[J]. 仪表技术与传感器, 2022, (5): 105- 110

[本文引用: 1]

XIONG Yajun, XIE Linbo, PENG Li

Multiblock PCA fault monitoring based on JS divergence and latent feature extraction

[J]. Instrument Technique and Sensor, 2022, (5): 105- 110

[本文引用: 1]

[22]

LENORMAND M, HUET S, GARGIULO F, et al

A universal model of commuting networks

[J]. PLOS ONE, 2012, 7 (10): e45985

DOI:10.1371/journal.pone.0045985 [本文引用: 1]

... 随着人工智能和大数据技术的发展，与个体出行相关的位置服务数据日益丰富，通过分析数据揭示微观个体出行行为机理，有助于理解宏观交通流的涌现规律和演化过程，为实时预测城市人群移动奠定理论基础. 出行目的地识别是个体行为分析的重要内容^[1]，有助于优化城市空间中的人群移动与交通疏导，还有利于个性化的用户推广^[2]. ...

Where to go next: a spatio-temporal gated network for next POI recommendation

2020

A hybrid Markov-based model for human mobility prediction

2018

... 出行目的地识别方法主要分为2个大类：模型驱动和数据驱动. 在模型驱动方面，Qiao等^[3]通过构建混合马尔可夫模型来提高个体出行目的地识别精度，考虑出行数据的非高斯和时空特征来计算位置转移概率. 随着人口流动性研究的深入，引力模型、辐射模型及改进的辐射模型等被用于人类移动模式识别. Yan等^[4-5]提出识别城市人群移动量的人口权重机会模型以及同时识别个体和群体移动模式的统一模型. 上述模型驱动研究提出的模型均在宏观层面进行出行识别，未实现微观层面的个体出行目的地识别. 在数据驱动方面，大数据和人工智能算法被广泛应用于智慧交通领域. Feng等^[6]将多模态数据嵌入基于注意力机制的循环神经网络，通过联合嵌入控制人类移动的多种因素来捕获复杂的顺序转换，以规则的方式刻画多层次周期性，并利用周期性特征来增强循环神经网络的识别精度. 桂志鹏等^[7]提出结合长短时记忆模型和注意力机制的端到端出行目的地实时识别模型，该模型能够兼顾轨迹点的位置语义和重要性. 现有数据驱动方面的研究侧重于利用大量数据训练神经网络，大多数模型较为复杂，缺乏可解释性且泛化能力有限. ...

Universal predictability of mobility patterns in cities

2014

Universal model of individual and population mobility on diverse spatial scales

2017

... 如图1所示，对于从点

$O$

出发的某次出行，真实目的地位于点

${D_m}$

，由于手机定位信息缺失或者采样周期过长导致LBS数据缺失，产生截断目的地，记为

${D'_m}$

${D_1}$

${D_6}$

为该个体历史出行中曾访问过的目的地. 定义

$A$

为某一地点对个人吸引力的影响^[5]，使用从点

$O$

出发到不同目的地的访问频率来表示地点排序： ...

... 基于位置的服务（location based services，LBS）经地理位置坐标脱敏处理后，有助于向用户提供与位置相关的增值服务. 虽然LBS数据覆盖范围广，定位精度高，但存在数据质量参差不齐的问题^[8]，如手机定位关闭、信号中断导致的定位数据存在数据稀疏、信息缺失、位置偏移. 因此，基于局部可观测LBS数据识别出行目的地具有重要的理论和实际意义. 本研究提出基于个体记忆效应和距离效应的出行目的地识别（memory-distance effect，MDE）模型，通过研究出行者的历史出行行为习惯，识别出行目的地；利用杭州市LBS数据进行参数标定、性能评估、模型对比与敏感性分析. ...

Unified underpinning of human mobility in the real world and cyberspace

2016

... 个体出行轨迹存在部分缺失的情况，为此通过挖掘个体出行行为特征，构建出行目的地识别模型. 记忆效应是个体连续移动行为中的重要特征^[9]，它使个体倾向于频繁返回访问过的地点. 例如，在探索优先返回（exploration and preferential return，EPR）模型^[10]中，假设个体访问新地点的概率

$P_{\mathrm{N}}$

满足

$P_{\mathrm{N}} \propto {S^{ - \gamma }}$

，其中

$S$

为个体已经访问过的地点总数，γ为模型参数（

$\gamma \gt 0$

）；个体访问之前地点的概率为

$1 - P_{\mathrm{N}}$

. 可以看出，个人访问的地点越多，探索新地点的概率就越小，即个体对在访问过的地点之间移动具有强烈偏好. 受EPR模型启发，考虑目的地对个体的吸引力受到个体记忆和目的地位置的影响. 若个人曾经访问过某个地点，便会对该地点产生记忆效应，从而提高未来访问该地点的概率. 由于人们对不同地点的访问频率分布服从齐普夫定律^[11]，本研究基于齐普夫定律量化个体记忆特征的影响，从个体出行行为角度刻画历史出行信息对于个体出行目的地决策的影响，具有可解释性. ...

Modelling the scaling properties of human mobility

2010

$P_{\mathrm{N}}$

满足

$P_{\mathrm{N}} \propto {S^{ - \gamma }}$

，其中

$S$

为个体已经访问过的地点总数，γ为模型参数（

$\gamma \gt 0$

）；个体访问之前地点的概率为

$1 - P_{\mathrm{N}}$

Understanding individual human mobility patterns

2008

$P_{\mathrm{N}}$

满足

$P_{\mathrm{N}} \propto {S^{ - \gamma }}$

，其中

$S$

为个体已经访问过的地点总数，γ为模型参数（

$\gamma \gt 0$

）；个体访问之前地点的概率为

$1 - P_{\mathrm{N}}$

The gravity model

2011

... 引力模型又称重力模型^[12]：两地间的出行量与两地活力乘积成正比，与两地间距离的幂成反比，表达式为 ...

基于GeoHash的近邻查询位置隐私保护方法

2019

... LBS数据记录出行者不同时刻的出行位置信息，通过分析LBS数据可以挖掘历史出行起讫点（OD）和活动轨迹信息从而识别出行者真实出行目的地，具体流程如图2所示. 1）对LBS数据进行预处理，提取以活动为目的的分段出行数据片段. 2）采用GeoHash网格编码方法^[13]对轨迹点进行网格编码，叠加历史出行轨迹得到用户的历史目的地集合. 3）利用部分个体出行轨迹观测数据识别真实出行目的地，建立MDE模型. 4）对预处理后的个体出行历史轨迹数据进行随机剔除，构建训练集和测试集，采用非线性最小二乘法进行模型参数标定. 由上述流程可知，所建模型具有2个特点：1）综合考虑个体记忆效应和距离效应，具有良好的可解释性；2）模型结构简洁，参数数量少，便于标定和迁移. ...

基于GeoHash的近邻查询位置隐私保护方法

2019

基于GeoHash和HDBSCAN的共享单车停车拥挤区域识别

2022

... 数据集所有轨迹点均由经纬度表示，若直接用于个体出行目的地表征，在数据量较大的情况下经纬度变化极大，容易造成维度灾问题，此时不仅训练模型困难，而且计算效率低下. 在诸如个性化服务推荐的实际应用中无须精准预测个体的经纬度信息. 与此同时，基于GeoHash的网格编码技术已被广泛应用于出行流动性挖掘研究^[14-15]，用GeoHash对轨迹数据进行编码能以较小网格表示目的地，对于出行目的地识别有较高的应用价值. 本研究采用GeoHash网格地理位置编码算法表示轨迹点的位置特征. 网格化编码精度与GeoHash编码长度有关，编码长度越长，网格划分越小^[15]. 网格划分过小会导致数据覆盖过于稀疏，不利于模型训练. 为此采用GeoHash6进行编码，所划分网格的长为1.22 km，宽为0.61 km. ...

基于GeoHash和HDBSCAN的共享单车停车拥挤区域识别

2022

DP-BPR: destination prediction based on Bayesian personalized ranking

2021

... [15]. 网格划分过小会导致数据覆盖过于稀疏，不利于模型训练. 为此采用GeoHash6进行编码，所划分网格的长为1.22 km，宽为0.61 km. ...

Evidence for a conserved quantity in human mobility

2018

... 如图6所示为个体水平层面出行距离分布、出行目的地访问数量分布以及出行目的地访问频率分布情况，其中

$P$

为概率，

$d$

为出行距离，

$n_{\mathrm{d}}$

为出行目的地个数，

$f$

为访问频率. 图6（a）为所有个体历史所有出行的距离分布，由出行起点和出行终点的球面距离计算得到；图6（b）为访问目的地个数对应的个体数占总个体数的比例分布；图6（c）为目的地个体访问次数对应的出行目的地数量占所有个体目的地数量总和的概率分布. 可以看出，1）出行距离主要分布在0~10 km，随着出行距离增加，出行概率指数型下降；2）大多数个体出行目的地数量不超过20，与Alessandretti等^[16]的研究结果一致；3）个体出行在少数几个地点活跃度高（如家、工作地），大部分地点的出行访问频率较低. ...

... 为了量化评估模型识别性能并进行性能对比，将马尔可夫链^[17]（Markov chain，MC）模型、决策树（decision tree，DT）模型^[18]以及随机森林（random forest，RF）模型^[19]作为基准模型. 其中MC模型基于所有个体的历史出行记录来构建出行转移矩阵，并基于出行者当前所在位置来预测出行目的地；DT模型是经典的基于树的分类方法，能够通过学习样本发现个体出行的转移规律，并对新的数据做出正确分类；RF模型是集成多个决策树的分类器. 在对比实验中，各基准模型的输入与MDE模型的输入保持相同. MDE模型的输出为按照概率由大到小排序的位置列表，即top-

$k$

列表，其中

$k$

为目标个体最有可能选择的

$k$

个位置. 使用召回率

$r_k$

、折扣累计收益

$g_k$

、F1分数量化模型识别性能，这3个指标均位于0~1.0，数值越大说明模型识别精度越高. 相对于比二分类问题，多分类问题更重视识别列表中排名靠前的若干目的地，因此采用折扣累计收益衡量目的地识别模型精度，按照排序列表对识别效果进行加权评估，计算式^[20]为 ...

$k$

列表，其中

$k$

为目标个体最有可能选择的

$k$

个位置. 使用召回率

$r_k$

、折扣累计收益

$g_k$

Identifying trip ends from raw GPS data with a hybrid spatio-temporal clustering algorithm and random forest model: a case study in Shanghai

2019

$k$

列表，其中

$k$

为目标个体最有可能选择的

$k$

个位置. 使用召回率

$r_k$

、折扣累计收益

$g_k$

Model based comparison of discounted cumulative gain and average precision

2013

$k$

列表，其中

$k$

为目标个体最有可能选择的

$k$

个位置. 使用召回率

$r_k$

、折扣累计收益

$g_k$

基于JS散度和潜在特征提取的多块PCA故障监测

2022

... 为了更直观地对比所有个体出行特征刻画效果，使用JS散度（Jensen-Shannon divergence，JSD）进行评价. JSD能够定量地度量2个概率分布的相似性^[21]，本质上是KL散度（Kullback-Leibler divergence，KLD）的变体，与KLD类似，若2种分布越相似，JSD越小. JSD的值域范围为[0,1.0]，完全相同为0，完全相反为1.0. 相较于KLD，JSD对相似度的判别更加确切. KLD的计算式为 ...

基于JS散度和潜在特征提取的多块PCA故障监测

2022

A universal model of commuting networks

2012

... 从群体层面对比模型，识别结果如图10所示. 通过散点图直观对比模型出行量的识别值和实际值，出行量为2个GeoHash网格之间的移动量统计值，成对的灰色点表示模型识别值和真实值分布；空心点表示在不同分位数箱中识别结果的平均值；箱线图是可视化数据分布的方法，表示识别行程数在观测行程数的不同分位数箱中的分布，箱线图中的虚线代表中位数，下线为下四分位数（25%分位数），上线为上四分位数（75%分位数）. 箱线图的绘制方法：先找出1组数据的中位数和2个四分位数，然后连接2个四分位数画出箱体，中位数在箱体中间. 如果Y=X位于10%到90%置信区间之间，则用矩形标记框，否则用矩形叠加椭圆形标记框. 可以看出，MDE模型能够比基准模型更准确地识别出行目的地. 在出行次数为1~50时，MC模型、DT模型以及RF模型均低估了真实的出行次数，原因在于基准模型在影响个体出行目的地选择的因素上考虑不够全面，MDE模型通过考虑个体历史出行习惯及其对出行距离选择的影响来识别个体出行目的地，因此在识别效果上表现更佳. MC模型设每个状态只依赖前一个状态，不依赖过去的历史，这简化了计算和分析，但不能充分利用历史数据. DT模型可以较好地处理非线性关系，由于只考虑每个变量的影响，忽略了变量之间的相互关系，可能会导致模型的性能下降. RF模型的泛化能力较强，但是在解决回归问题时效果不是很好，不能做出超越训练集数据范围的识别，因此在测试集上训练出的结果较真实值低. 为了直观地对比群体层面的特征刻画效果，采用Sørensen相似性指数（Sørensen similarity index，SSI）来衡量各模型的识别效果. SSI是常用的统计工具，用于评估2个样本的相似度. Lenormand等^[22]使用修改版本的SSI来衡量流动性识别模型是否正确地再现真实出行量（平均），计算式为 ...

〈

〉