大小模型协同优化的兴趣点轨迹预测框架

doi:10.3785/j.issn.1008-973X.2026.06.012

大小模型协同优化的兴趣点轨迹预测框架

魏蕴田^,, 金苍宏^,, 费峥东, 郑铜亚, 王晓亮, 宋明黎

1. 浙大城市学院计算机与计算科学学院，浙江杭州 310015

2. 浙大城市学院超大规模图数据高性能智能计算研究中心，浙江杭州 310015

3. 中国移动通信集团浙江有限公司，浙江杭州 310000

4. 浙江大学计算机科学与技术学院，浙江杭州 310027

Collaborative optimization framework of large and small model for POI trajectory prediction

WEI Yuntian^,, JIN Canghong^,, FEI Zhengdong, ZHENG Tongya, WANG Xiaoliang, SONG Mingli

1. School of Computer and Computer Science, Hangzhou City University, Hangzhou 310015, China

2. Very Large Scale Intelligent Graph Computing Research Center, Hangzhou City University, Hangzhou 310015, China

3. China Mobile Communications Group Zhejiang Limited Company, Hangzhou 310000, China

4. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China

通讯作者: 金苍宏，男，教授. orcid.org/0000-0002-9774-9688. E-mail：jinch@hzcu.edu.cn

收稿日期: 2025-07-31

基金资助:

浙江省自然科学基金资助项目(LMS26F020043, LZHS24F020001, LZ25F020012).

Received: 2025-07-31

Fund supported:

浙江省自然科学基金资助项目(LMS26F020043,LZHS24F020001,LZ25F020012).

作者简介 About authors

魏蕴田（2000—），男，硕士生，从事兴趣点轨迹预测研究.orcid.org/0009-0009-1857-150X.E-mail：2230101024@stu.hzcu.edu.cn , E-mail：2230101024@stu.hzcu.edu.cn

摘要

针对兴趣点(POI)预测任务中由于轨迹稀疏性与行为复杂性导致的时空信息表征与影响因素融合困难的挑战，提出大语言模型(LLM)与轻量模型协同优化的兴趣点轨迹预测框架(LLM-RFA)，对影响兴趣点轨迹行为的内、外部因素进行融合表达. 采用端到端轨迹预测方法生成候选POI集合，减少大模型的输入Token. 将历史轨迹混入噪声数据，通过时序图结构表征，设计历史轨迹点重排任务，引导LLM进行首轮预测. 预训练轻量级纠正小模型，从访问点类别偏好、轨迹语义一致性、群体行为影响角度引导LLM反思，通过大小模型协同，提升预测精确度. 模型在NYC、TKY、CA等3个公开数集上的实验表明，协同优化后模型的预测精度均有所提升，基于DeepSeek-R1模型的TOP1准确率超越现有基线方法0.3%~11%. 消融实验表明，内外因素及模型各组件均对预测结果存在不同程度的影响.

关键词： 行为时空表征 ; 兴趣点轨迹预测 ; 大语言模型(LLM) ; 纠错机制 ; 大小模型协同

Abstract

A point of interest (POI) trajectory prediction framework with collaborative optimization of large language model (LLM) and lightweight model, namely LLM-RFA, was proposed aiming at the challenge of difficult spatiotemporal information representation and fusion of influencing factor caused by trajectory sparsity and behavioral complexity in POI prediction task. Fused representation of internal and external factor affecting POI trajectory behavior was realized. An end-to-end trajectory prediction method was adopted to generate the candidate POI set, and input token of the large model was reduced. Noise data was mixed into historical trajectory. A historical trajectory point reordering task was designed by temporal graph structure representation in order to guide the LLM to complete the first-round prediction. A lightweight correction model was pre-trained. The model was applied to guide the LLM to conduct reflection from the perspective of access point category preference, trajectory semantic consistency and group behavior influence. Prediction accuracy was improved through the collaboration of large and small model. Experiments conducted on three public datasets including NYC, TKY and CA showed that the prediction accuracy of the model was improved after collaborative optimization. The TOP1 accuracy of the DeepSeek-R1-based model outperformed existing baseline methods by 0.3% to 11%. Ablation experiments showed that both internal and external factor and each component of the model exerted different degree of influence on the prediction result.

Keywords： behavioral spatiotemporal representation ; point of interest trajectory prediction ; large language model (LLM) ; error correction mechanism ; collaboration between large and small model

PDF (1516KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

魏蕴田, 金苍宏, 费峥东, 郑铜亚, 王晓亮, 宋明黎. 大小模型协同优化的兴趣点轨迹预测框架. 浙江大学学报(工学版)[J], 2026, 60(6): 1251-1260 doi:10.3785/j.issn.1008-973X.2026.06.012

WEI Yuntian, JIN Canghong, FEI Zhengdong, ZHENG Tongya, WANG Xiaoliang, SONG Mingli. Collaborative optimization framework of large and small model for POI trajectory prediction. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1251-1260 doi:10.3785/j.issn.1008-973X.2026.06.012

随着信息通信和数据采集技术如全球定位系统^[1]、位置社交网络服务^[2]的快速发展，用户在相关平台上的行为生成了大量包含时空信息的轨迹数据，这类数据为用户行为研究提供了关键洞察，被应用于提升城市规划能力、预测犯罪趋势、公共服务优化等场景^[3].

在兴趣点(point of interest，POI)预测任务中，可以将POI预测转换成时间序列预测问题^[4]，依靠循环神经网络和注意力机制来挖掘用户的访问模式^[5]. Xie等^[6]提出STAR-HiT，通过分层Transformer架构对签到序列中的多粒度时空上下文进行递归建模. Xu等^[7]利用堆叠多层Transformer，建模轨迹中非连续访问的时空关系. 这类方法在处理交互信息及全局POI关联时存在局限性，因此后续研究逐渐基于图神经网络(graph neural network，GNN)开展研究. GNN通过构建全局POI转换图和用户相似度图，采用图卷积方式提升用户和POI的表示能力^[8]，使模型能够同时捕捉访问路径和POI间的交互关系^[9-10]，但模型对计算和存储的需求较高. 为了解决资源问题，提出将GNN或GCN与注意力机制相结合^[11]. Luo等^[12]对连续兴趣点和非连续兴趣点采用双重注意力机制. Liu等^[13]通过自注意力机制专注于最相似和最重要的用户，以捕获更多个性化的偏好. Lim等^[14]融合空间、时间和用户偏好信息，引入图注意力机制.

近年来，随着大语言模型(large language model，LLM)在自然语言语义理解能力上的提高，学者们将LLM集成至POI预测系统^[15]. Tang等^[16]通过微调(fine turning)时空数据，将POI预测任务转换为问答任务. LLM上下文受限，难以精准地建模用户移动规律，且微调过程伴随着显著的计算成本和内存开销，在资源受限环境中效率低. 轨迹数据往往稀疏，易导致过拟合，难以充分利用样本信息.

近期，DeepSeek-R1推理模型在多场景中的应用，证明通过激发大语言模型自身的反思能力来提高任务预测精度是可行的^[17]. 本文提出融合大语言模型与轻量模型协同优化的兴趣点轨迹预测框架(LLM reflective fusion architecture，LLM-RFA). 该框架通过三阶段协同推理机制，实现高效、精准的兴趣点轨迹预测.

1. 方法设计

不同阶段的端到端的预测方法(见表1)对时空数据的编码能力在持续增强. FPMC^[18]、DeepMove^[19]这些早期方法多围绕历史轨迹与时间信息的基础维度展开，LSTPM^[20]、STAN^[12]方法逐步纳入空间信息以强化位置依赖建模，GETNext^[21]、STHGCN^[22]方法引入位置属性与社交关系，LLM4POI^[15]将影响因素转化为自然语言融入大语言模型，本研究对影响个体行为的所有因素进行有效表示.

表 1 POI预测方法的数据维度覆盖性对比

Tab.1 Comparison of data dimension coverage in POI prediction method

方法	历史轨迹	时间信息	空间信息	位置属性	群体影响
FPMC	☑	☑	☒	☒	☒
DeepMove	☑	☑	☒	☒	☒
LSTPM	☑	☑	☑	☒	☒
STAN	☑	☑	☑	☒	☒
Graph-Flashback	☑	☑	☑	☑	☒
GETNext	☑	☑	☑	☑	☒
STHGCN	☑	☑	☑	☑	☒
ROTAN	☑	☑	☑	☑	☒
LLM4POI	☑	☑	☑	☑	☑
LLM - RFA	☑	☑	☑	☑	☑

新窗口打开| 下载CSV

为了有效捕捉用户移动模式中的潜在行为意图，建立三阶段协同推理机制，实现高效精准的POI轨迹预测. 各个阶段依赖于POI的含义、用户历史轨迹、时间信息及群体对个体的影响. 整体框架如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 LLM-RFA的框架图

Fig.1 Framework of LLM-RFA

1.1. 访问点粗筛

为了生成高质量的候选POI集合，受到基于旋转的时序注意力网络(rotation-based temporal attention network, ROTAN)^[23]的启发，通过旋转操作(rotation operation)和时序注意力机制(temporal attention)捕捉用户行为中的时间特异性模式，提升预测精度. 旋转是通过单位复数建模的，给定嵌入向量$ \boldsymbol{f}\in {\bf{C}}^{d} $，时间信息旋转(TR)操作的数学定义如下：

(1)$ {\mathrm{TR}}(\boldsymbol{f},{{\boldsymbol{r}}}_{t})=\boldsymbol{f}\circ {{\boldsymbol{r}}}_{t};\;|{{\boldsymbol{r}}}_{t}|=1. $

式中：$ {{\boldsymbol{r}}}_{t}\in {\bf{C}}^{d} $表示与时间段$ t $相关的旋转，“$ \circ $”表示哈达玛乘积.

ROTAN通过旋转操作，将时间信息直接嵌入POI语义空间，避免了传统方法中时间特征与空间特征的拼接问题，为大语言模型决策发挥优势奠定了基础.

1.2. 多因素融合和上下文学习

为了使大语言模型可以更好地理解轨迹任务，在大语言模型推理之前构建时序图，让大语言模型学习用户的时序模式. 将用户轨迹视为图G(Node, Edge, Timestamp). 其中，节点Node是兴趣点 (POI)，属性包含id、类别、地理位置(经纬度). 边Edge是用户在不同时间点的移动轨迹，属性包含时间戳、停留时长. 时序维度Timestamp是通过时间戳构建边的顺序，形成序列. 打乱用户的历史访问兴趣点的顺序，并将轨迹图进行编码. 将图的特征与任务以提示词(Prompt)的形式输入大语言模型，分析该用户的时序模式. 图结构输入模式与时序模式学习提示词如下.

<Shuffled_pois>: Given that the user has visited the following POIs in their historical trajectory (with the order shuffled): T_S

<Trajectory rearrangement>:Please rearrange these POIs based on the time - series graph information and analyze the basis for ordering (such as time intervals, spatial distances).

<Trajectory Graph Input>:Detailed information of the trajectory graph: G_IN

Nodes (Time, Location, POI Info):(P_ID, P_C, coordinates: (L_A, L_O))

Edges: u -> v

Timestamp: T_C

Interval: T_IN

Number of Nodes: G_N

Feature Dimension: G_E

其中，T_S为被打乱的用户历史轨迹，G_IN为结构图输入的信息，P_ID为兴趣点ID，P_C表示兴趣点含义，L_A、L_O为兴趣点的经、纬度坐标，u→v表示2个点之间有边，T_C为访问兴趣点的时间戳，T_IN为两点之间的时间间隔，G_N为图的节点数量，G_E为图的维度信息.

González等^[24]指出，将行人作为生态系统中的一部分，能够提升预测的实时性和准确性. Mazzoli等^[25]提出群体运动模式模型，刻画个体在不同位置处的方向性运动和流动. 基于上述研究，将运动行为的影响因素划分为内部状态与外部因素：个体历史行为定义为内部状态，群体运动模式与区域关系归类为外部因素.

受到对比式语言-图像预训练(contrastive language-image pre-training, CLIP)^[26]的启发，将用户签到数据与时空数据这类异构信息转换为自然语言问答的形式，构建提示词的基础框架. 将原始数据中的关键要素，如时间、用户标识、兴趣点ID等，转化为场景化描述. 融合轨迹重排任务学习到的时序知识，形成基础信息与规律总结的双层输入结构. 采用长思维链(chain-of-thought, CoT)^[27]的小样本提示作为示例，在提示词中嵌入用户历史访问规律，引导模型生成首次预测结果. 提示词(prompt)与输入格式如图2所示. 其中，U_ID表示用户ID，T_MAX表示兴趣点最容易被访问的时间段，P_K表示上一步得到的时序知识.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 大语言模型提示与用户签到数据结构

Fig.2 Large language model prompt and user check-in data structure

1.3. 大小模型协同反思的优化

为了提升大语言模型(LLM)在轨迹预测任务中的鲁棒性与泛化能力，设计轻量级纠正模型协同优化框架. 如图1所示，基于文本聚类方法构建轻量级纠正模型的训练数据，利用纠正模型的输出作为反馈信号，驱动大语言模型进行反思修正，从而无须进行大语言模型微调就能提升预测准确性. 反思机制分为3个阶段，形成语言反馈闭环.

1）语言化反思生成阶段. 大语言模型基于首次预测生成可解释的反思文本，明确错误原因并通过聚类算法生成几类模板.

2）反馈解析阶段. 轻量级纠正模型输出判断转化为上述结构化语言.

3）反馈决策衔接阶段. 结构化语言作为大语言模型二次预测的引导提示，替代通用提示，确保调整规则被精确执行.

聚类算法通过三阶段优化，实现高维稀疏文本空间向低维紧致语义空间的映射. 采用改进的TF-IDF加权词袋模型与深度语义嵌入的联合表示：设文档集合为$ D=\{{d}_{1},{d}_{2},\cdots,{d}_{N}\} $，对于文档$ {d}_{i} $，其向量$ {\boldsymbol{v}}_{{i}} $表示为

(2)$ {\boldsymbol{v}}_{{i}}=\alpha \cdot {{{T}}}({{\bf{T}}}{{\bf{F}}}{\text{-}}{\bf{{I}{D}{F}}}({{d}}_{{i}}))+(1-\alpha )\cdot {\mathrm{{B}{E}{R}{{T}}}}_{{\mathrm{{C}{L}{E}}}}({{d}}_{{i}}). $

式中：$ \alpha \in [0,1.0] $为自适应权重参数，$ {{{{{T}}}({\bf{{T}{F}}}}}{{\text{-}}}{\bf{{I}{D}{F}}}({{d}}_{{i}})) $表示对TF-IDF向量进行维度变换，$ {\mathrm{{B}{E}{R}{{T}}_{{C}{L}{E}}}}({{d}}_{{i}}) $为文档$ {d}_{i} $的$ {\mathrm{BERT}} $语义表示. 构建语义相似矩阵$ {{\boldsymbol{S}}}\in {\bf{R}}^{{N}\times {N}} $：

(3)$ {{S}}_{{i}{j}}=\exp \left(-\frac{||{\boldsymbol{v}}_{\boldsymbol{i}}-{\boldsymbol{v}}_{\boldsymbol{j}}|{|}^{2}}{2{\sigma }^{2}}\right)\cdot \cos\;{\theta }_{{\mathrm{BERT}}}({{d}}_{{i}},{{d}}_{{j}}). $

式中：$ \sigma $为高斯核函数的带宽参数，控制相似度衰减的速度；$ \cos \;{\theta }_{{\mathrm{BERT}}}({{d}}_{{i}},{{d}}_{{j}}) $为文档之间语义表示的余弦相似度，用于增强语义一致性. 引入非负矩阵分解(GNMF)进行潜在语义挖掘：

(4)$ \underset{{\boldsymbol{W}},{\boldsymbol{H}}\geqslant {\boldsymbol{0}}}{\min }||\boldsymbol{X}-\boldsymbol{W}\boldsymbol{H}||_{{\mathrm{F}}}^{2}+\lambda {\mathrm{Tr}}({{\boldsymbol{H}}}^{{\mathrm{T}}}{\boldsymbol{LH}})+\gamma ||{\boldsymbol{H}}|{|}_{1}. $

式中：$ \boldsymbol{X} $为输入矩阵，每一列表示一个文档的向量表示；$ \boldsymbol{W} $为潜在语义空间中的基向量；$ \boldsymbol{H} $为文档在潜在语义空间中的低维表示；$ ||\boldsymbol{X}-\boldsymbol{W}{\boldsymbol{H}}||_{{\mathrm{F}}}^{2} $为重构误差的Frobenius范数，衡量分解后的矩阵与原始矩阵的差异；$ \lambda $为图正则化项的权重参数，控制流形结构的保留程度，$ {\mathrm{Tr}}({{\boldsymbol{H}}}^{{\mathrm{T}}}{\boldsymbol{LH}}) $表示图正则化项；$ \boldsymbol{L}=\boldsymbol{D}-\boldsymbol{S} $为图拉普拉斯矩阵，其中$ \boldsymbol{D} $为度矩阵，$ \boldsymbol{S} $为相似度矩阵；$\gamma $为稀疏正则化项的权重参数，控制系数矩阵的稀疏性. 选取前$ {k} $个特征向量构成正交空间，开展最终划分：

(5)$ {C}^{*}=\arg \underset{\{{C}_{1},\cdots,{C}_{k}\}}{\min }\sum\limits_{i=1}^{k}\sum\limits_{x\in {C}_{i}}||\boldsymbol{x}-{{\boldsymbol{\mu}} }_{i}|{|}_{{\mathrm{DWT}}}. $

式中：$ {C}^{*} $表示最优的聚类划分；$ \boldsymbol{x} $为文档在低维空间中的表示；$ {{\boldsymbol{\mu}} }_{i} $为第i个聚类簇的中心；DWT表示采用动态时间规整距离度量的方法来解决文本序列长度不一致的问题.

设计基于监督学习的轻量级纠正小模型，用于判别LLM预测结果的合理性. 输入数据包括大语言模型的输入及大语言模型预测结果. 输入通过BERT的分词器(Tokenizer)，将其编码为输入向量. 输入格式为：Input=Tokenize(Question,Top5,Predict). 其中，Question表示大语言模型的Question输入，Top5为粗筛POI列表，Predict为大语言模型的预测结果. 将编码后的输入向量输入BERT模型，提取文本特征：

(6)$ h={\mathrm{BERT}}({\bf{Input}}). $

式中：$ h $为BERT输出的池化特征. 在BERT输出的基础上，通过全连接层(Linear Layer)和Dropout层进行分类：

(7)$ y={\mathrm{Softmax}} (M\cdot {\mathrm{Dropout}}(h)+b). $

式中：$ M $和$ b $为可学习参数，$ y $为分类概率. 分类标签规则如下：

(8)$ y=\begin{cases} 1, & {y}_{{\mathrm{LLM}}}={y}_{{\mathrm{true}}};\\0, & {y}_{{\mathrm{LLM}}}\neq {y}_{{\mathrm{true}}}.\end{cases} $

式中：$ {{y}}_{\text{LLM}} $为利用大语言模型预测的真实值；$ {{y}}_{\text{true}} $为真实值. 若轻量级纠正模型判定首次预测正确，则以首次输出作为最终结果；反之，基于轻量级纠正模型的标签引导大语言模型重新推理，实现纠错目的.

损失函数采用交叉熵损失函数进行训练：

(9)$ L=-\sum\limits_{i=1}^{N}{y}_{i}\ln\; \hat y_{i}. $

式中：$ {y}_{i} $为真实标签，$\hat y_{i} $为模型预测概率分布.

LLM-RFA框架的整体伪代码如下所示.

输入：数据集D (NYC/TKY/CA)；End_to_end_model(传统端到端模型)；Corrector_model (BERT轻量级纠正模型)；LLM(大语言基座模型)

输出：用户下一个将要去的POI点Final_POI

1：计算特征：prob_time_slot(poi)(poi时段访问概率)、group_pattern (群体高频poi)

2：访问点粗筛

3：Emb = Embedding(poi.emb, poi.timestamp)

4：POI_candidates = End_to_end_model(Emb, u.history_trajectory，5)

5：LLM首次预测

6：构建用户轨迹图G = (Node, Edge, Timestamp)

7：shuffled_pois = Shuffle(u.history_trajectory.poi_sequence) //打乱用户历史POI序列

8：Traj_graph_str = Encode(G) //编码图结构

9：temporal_knowledge=LLM.Generate(prompt_pattern) //引导学习时序知识

10：编码内外因素：internal_factors（个体历史行为）、external_factors（群体/区域特征）

11：LLM_pred_initial = LLM.Generate(prompt_pred) //首次预测

12：大小模型协同优化

13：prompt_reflect = Text_clustering(error_reason) //语言化反思生成

14: Correction_result = Corrector_model(prompt_pred, POI_candidates, LLM_pred_initial)

15：if Correction_result == true

16：　 then Final_POP = LLM_pred_initial

17：else prompt_reflect = Corrector_model_Feedback(Correction_result) //反馈解析

18：LLM_pred = LLM.Generate(prompt_reflect) //反馈决策

19: Final_POI = LLM_pred

2. 性能评估

2.1. 实验准备

在Foursquare-NYC^[28]、Foursquare-TKY^[28]和Gowalla-CA^[29]3个真实数据集上进行对比实验，实验在配备4张NVIDIA GeForce RTX 4090显卡的硬件环境下完成. 3个数据集的统计信息如表2所示，时间分布如图3所示. 表2中，Users为用户数，POIs为兴趣点的数量，Check-ins为用户签到次数，Records为记录数. 图3中，P为时间段占全天时间的百分比.

表 2 3个真实数据集的统计数据

Tab.2 Statistics of three real data sets

数据集	Users	POIs	Check-ins	Records
NYC	1047	4937	80166	8347
TKY	2281	7821	306345	29610
CA	3951	9670	168922	15597

新窗口打开| 下载CSV

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 数据集中兴趣点的时间分布

Fig.3 Time distribution of interest point in dataset

数据集包含签到记录，这些记录包括用户id、POI_id、纬度、经度和时间戳，每个用户的签到记录按照时间戳的顺序排列成为每日序列. 从数据中进行数据统计，统计每个POI点被访问的时间段的概率以及用户历史访问POI点的规律，将粗筛结果与特征信息转化为自然语言描述，构建大语言模型决策与轻量级纠正模型的数据集.

采用基于排名的评价指标，Accuracy@1 (Acc@1). 设测试集中有$ N $个样本，每个样本包含用户的历史轨迹和实际访问的POI（用$ {l}_{{\mathrm{true}}} $表示）. 对于每个样本，模型预测的POI为$ {l}_{{\mathrm{pred}}} $. Acc@1的计算公式为

(10)$ {\mathrm{Acc}}@1=\frac{1}{N}\sum\limits_{i=1}^{N}(l_{{\mathrm{pred}}}^{(i)}=l_{{\mathrm{true}}}^{(i)}). $

在POI预测任务中，Acc@1越高，说明模型能够更准确地预测用户的下一个访问地点.

平均倒数排名(mean reciprocal rank, MRR)是排序任务中常用的评价指标，用于衡量模型对正确结果的排序能力，计算公式为

(11)$ {\mathrm{MRR}}=\frac{1}{Q}\sum\limits_{i=1}^{Q}\frac{1}{{{\mathrm{rank}}}_{i}}. $

式中：Q 为查询总数，$ {{\mathrm{rank}}}_{i} $为第 i 个查询的正确答案在排序结果中的位置.

在访问点初筛模块中已隐含ACC@5，表示真实的未来位置出现在模型给出的最有可能的5个预测结果中的概率的评估指标. 从表3可以看出，访问点初筛模块中ACC@5较ACC@1有非常大的提升，表明初筛模型已经具备良好的排序基础.

表 3 3个真实数据集上的位置预测结果

Tab.3 Location prediction result on three real data sets

方法	TKY			NYC			CA
方法	Acc@1	Acc@5	MRR	Acc@1	Acc@5	MRR	Acc@1	Acc@5	MRR
FPMC	0.1668	0.3852	0.2696	0.1231	0.1512	0.1136	0.0383	0.0702	0.0911
DeepMove	0.2386	0.4184	0.3660	0.1255	0.1580	0.1324	0.0625	0.1304	0.0982
LSTPM	0.2150	0.4650	0.3309	0.1188	0.1671	0.1301	0.0773	0.2015	0.1461
STAN	0.1963	0.3798	0.2852	0.1296	0.1991	0.1328	0.0891	0.2096	0.1869
Flashback	0.2058	0.4932	0.3530	0.1356	0.1939	0.1430	0.0946	0.2195	0.1963
Graph-Flashback	0.2222	0.4969	0.3541	0.1434	0.2312	0.1541	0.1319	0.2979	0.2169
GETNext	0.2154	0.4994	0.3453	0.1371	0.2294	0.1553	0.1301	0.2852	0.2103
STHGCN	0.2950	0.5187	0.3913	0.1905	0.2478	0.1653	0.1530	0.3329	0.2158
ROTAN	0.2308	0.4567	0.3358	0.3094	0.5255	0.4071	0.1965	0.3286	0.2608
LLM4POI	0.3035	—	—	0.3372	—	—	0.2065	—	—
LLM-RFA(Deepseek-R1)	0.3166	0.5187	0.4562	0.3259	0.5255	0.6239	0.3285	0.3329	0.5138
LLM-RFA(Qwen)	0.3050	0.5187	0.4316	0.2835	0.5255	0.5293	0.2900	0.3329	0.4550
LLM-RFA(Gpt-4o)	0.2800	0.5187	0.3245	0.3162	0.5255	0.4281	0.3125	0.3329	0.4448
LLM-RFA(Gpt-4)	0.2381	0.5187	0.3125	0.2222	0.5255	0.3931	0.2692	0.3329	0.3733

新窗口打开| 下载CSV

2.2. 基线方法

采用10个基线模型进行实验.

FPMC^[18]：结合矩阵分解和一阶马尔可夫链，捕捉用户的总体偏好和他们的序列行为.

DeepMove^[19]：结合门控循环单元和注意力机制来进行预测.

LSTPM^[20]：结合长期和短期的序列方法来进行预测.

STAN^[12]：这个双层注意力架构利用签到的时空信息，捕捉POI之间的相互依赖关系.

Flashback^[30]：基于RNN的方法，利用时空上下文进行回顾性位置预测，从而利用丰富的时空信息.

Graph-Flashback^[31]：将获取的POI转换图集成到基于RNN的框架中，增强对序列转换模式的理解.

GETNext^[21]：基于Transformer架构，利用用户轨迹图及POI转换概率图，改进下一个POI预测.

STHGCN^[22]：使用超图捕获用户内部和用户之间的轨迹，将超图结构编码与时空信息相结合.

ROTAN^[23]：通过旋转操作将POI嵌入映射到时间敏感的向量空间，结合时序注意力机制动态捕捉用户行为中的时间特异性模式.

LLM4POI^[15]：通过微调时空数据，将POI预测任务转换为问答任务. LLM4POI采用大语言模型的微调方法，训练参数量大，时间成本高，需要较大的硬件支持，无法按照原论文的参数复现结果，因此遵循原论文中的实验数据.

采用3种不同的大语言模型作为实验基座，分别是Qwen-turbo、GPT-4和DeepSeek-R1. 记录大语言模型直接预测的结果与纠错之后的结果，对比展示纠错模块的效果. 在纠错小模型的训练中，将批量大小设置为16，轮数设置为50. 为了进一步增强方法，使用Adam优化器，初始学习率为2×10⁻⁵，基础结构包含12层 Transformer 编码器，隐藏层维度为768. 模型的整体架构采用预训练模型加分类头的设计. 通过BERT模型提取文本特征，并使用pooler_output作为句子级表示. 通过dropout层(dropout率为0.1)进行正则化处理. 通过全连接层，将768维的特征映射到与标签类别数相等的输出维度，实现分类任务. 对于所有的基线模型，遵循原始论文中指定的默认超参数配置，确保每种方法都经历相同数量的训练周期.

2.3. 实验结果

如表3所示为3个数据集上基线方法和本文方法的性能，最佳结果用粗体表示，次佳结果用下划线表示. 为了达到最佳的预测结果，使用ACC@5最高的初筛模型(Rotan与STHGCN)生成初筛兴趣点，开展实验. 如图4所示为不同模型的Acc@1及MRR对比. 大语言模型的输出形式更聚焦利用语义理解与推理能力输出精准结果，因此不具备生成5个结果的条件. 从实验数据可以发现，DeepSeek-R1的实验结果普遍优于传统基线方法与其他模型方法. 在NYC数据集上，与最先进的基线方法(LLM4POI)相比略有差距，但优于其他基线模型. 经过分析发现，LLM4POI通过数据集特定微调，能够针对性优化热门地点的预测权重，而本文方法缺乏针对此类分布的自适应调整. 本研究在LLM-RFA(DeepSeek-R1)上新增头/长尾POI细分指标，取前20%标注为头部POI，后50%标注为长尾 POI，实验结果如表4所示. 可以看出，在NYC数据集上，头部POI的预测效果远优于尾部POI的预测效果，因此微调方法针对热门地点优化的优势将被放大. 尽管本框架缺乏热门POI自适应优化机制，但在整体中保持稳定的预测精度，在 TKY 与 CA 标准公开数据集上，较现有主流方法实现了预测性能的显著提升，体现了LLM-RFA框架对不同POI分布场景的泛化性.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 不同数据集下各方法的Acc@1和MRR对比

Fig.4 Comparison of Acc@1 and MRR of different method across different dataset

表 4 头/长尾 POI 细分指标的Acc@1实验数据

Tab.4 Experimental data of head/long tail POI subdivision index

方法	TKY		NYC		CA
方法	头	长尾	头	长尾	头	长尾
LLM-RFA (Deepseek-R1)	0.4931	0.2524	0.5349	0.2275	0.4207	0.2716

新窗口打开| 下载CSV

轻量级纠正模型的实验数据如表5所示. 其中，A为准确率. 轻量级模型基于GPT-4训练时的混淆矩阵如图5所示. 可以看出，轻量级纠正模型具备为大语言模型提供错误识别、偏差修正与生成优化指导的能力. Gpt-4系列模型在细粒度语义解析、时空关联捕捉上表现突出，因此性能较好. Deepseek-R1侧重逻辑链连贯性，但对数据分布相关的文本细节捕捉不足，性能稍弱. Qwen在时空轨迹领域的文本适配性上存在不足，导致轻量级模型获取的错误判断依据精度不足，整体性能最低^[32].

表 5 轻量级模型训练的准确率

Tab.5 Accuracy of lightweight model training

数据集	A
数据集	Qwen	Gpt-4o	Gpt-4	Deepseek-R1
TKY	0.8363	0.9571	0.9014	0.9235
NYC	0.8886	0.9047	0.8719	0.8585
CA	0.8658	0.9501	0.9474	0.9188

新窗口打开| 下载CSV

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 轻量级模型训练的混淆矩阵

Fig.5 Confusion matrix of lightweight model training

为了验证整体框架的实验效率，采用LLM4POI与LLM-RFA(DeepSeek-R1) 2种方法，分别统计每一轮的训练时间及推理延迟，计算框架中粗筛模块(Rotan)的训练时长，如表6所示. 从实验数据可见，虽然两者的推理延迟比较接近，但是LLM-RFA的训练效率远高于大模型微调方法. 在所需资源方面，LLM4POI需要若干A100显卡^[15]，而本研究配备4张NVIDIA GeForce RTX 4090显卡已在LLM-RFA框架上取得较好的效果.

表 6 训练消耗时长统计表

Tab.6 Statistical table of training duration

方法	推理延迟/s	训练时长/s
LLM4POI	1.3467	5760
Rotan	5.2500	37.09
LLM-RFA	0.7409	5.2137

新窗口打开| 下载CSV

为了验证轻量级纠正模型的作用，如表7所示为各种大模型基座下使用轻量级纠正模型纠错前、后的实验数据对比. 从实验数据可以看出，利用轻量级纠正模型，可以提升约4%~5%的预测准确率，能够有效提高大语言模型预测的准确率，同时训练参数量小，时间成本远低于大语言模型的微调.

表 7 纠错前、后的Acc@1对比

Tab.7 Comparison of Acc@1 before and after error correction

方法	TKY		NYC		CA
方法	纠正前	纠正后	纠正前	纠正后	纠正前	纠正后
LLM-RFA(Deepseek-R1)	0.2743	0.3166	0.2848	0.3259	0.2727	0.3285
LLM-RFA(Qwen)	0.2523	0.3050	0.2474	0.2835	0.2609	0.2900
LLM-RFA(Gpt-4o)	0.2379	0.2800	0.2776	0.3162	0.2174	0.3125
LLM-RFA(Gpt-4)	0.2167	0.2381	0.1836	0.2222	0.2173	0.2692

新窗口打开| 下载CSV

为了验证用户的社交关系以及群体影响信息对框架整体预测性能的影响，分别在Deepseek-R1上设计LLM-RFAS和LLM-RFAG 2组消融模型开展实验. LLM-RFAS不考虑用户的偏好，验证内部因素对模型性能的影响. LLM-RFAG不考虑群体对个体的影响，验证外部因素对模型性能的影响. 使用Acc@1作为预测性能的评价指标，实验结果如表8所示. 可以看出，LLM-RFA在3个数据集上的Acc@1大于其他2种消融模型，证明内部因素与外部因素对POI预测的最终效果是至关重要的.

表 8 内外因消融实验结果

Tab.8 Result of ablation experiment on internal and external factor

方法	TKY		NYC		CA
方法	Acc@1	MRR	Acc@1	MRR	Acc@1	MRR
LLM-RFA(Deepseek-R1)	0.3166	0.4562	0.3259	0.6239	0.3285	0.5138
LLM-RFAS	0.2855	0.3998	0.2778	0.5751	0.2692	0.3587
LLM-RFAG	0.2830	0.4003	0.2857	0.6172	0.2115	0.3360

新窗口打开| 下载CSV

为了进一步探索框架中各组件对结果的影响，设计2组消融实验，实验数据如表9所示. 其中，LLM-RFA(Deepseek-R1)-S表示替换粗筛方法为基线对比方法中的GETNext，LLM-RFA(Deepseek-R1)-N表示删除了其中的多因素融合和上下文学习部分中的用户轨迹重排任务.

表 9 各组件消融实验结果

Tab.9 Ablation test result of each component

方法	TKY		NYC		CA
方法	Acc@1	MRR	Acc@1	MRR	Acc@1	MRR
LLM-RFA(Deepseek-R1)	0.3166	0.4562	0.3259	0.6239	0.3285	0.5138
LLM-RFA(Deepseek-R1)-S	0.2982	0.3230	0.3098	0.4673	0.2982	0.3158
LLM-RFA(Deepseek-R1)-N	0.2957	0.3197	0.2784	0.4563	0.3076	0.3650

新窗口打开| 下载CSV

从表9可以看出，LLM-RFA(Deepseek-R1)框架在TKY、NYC、CA数据集的Acc@1和MRR指标上，均优于替换粗筛方法的 LLM-RFA(Deepseek-R1)-S与删除影响因素解构及用户轨迹重排的LLM-RFA(Deepseek-R1)-N. 这表明框架中的访问点粗筛方法、影响因素解构、用户轨迹重排等组件，对提升POI预测精度具有重要作用.

3. 结　语

提出融合大语言模型与轻量级纠正模型协同反思的轨迹预测方法 LLM-RFA. 实验结果表明，LLM-RFA在NYC、TKY、CA数据集上的Acc@1准确率上超越多数现有方法，且无须针对特定数据集微调即可实现高效融合，展现出对不同密度POI的高适配性、高资源利用率与强泛化性能. 未来可以进一步融合实时交通、天气、地形等多模态动态信息，优化长尾POI预测精度，推动算法在城市通勤优化、公共服务优化、犯罪行为预测等场景中的深度应用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MILNER G

What is GPS?

[J]. Journal of Technology in Human Services, 2016, 34 (1): 9- 12