浙江大学学报(理学版), 2023, 50(4): 508-520 doi: 10.3785/j.issn.1008-9497.2023.04.014

旅游学

基于最小二乘法赋权的ARIMA-LSTM模型预测入境旅游人数——以上海市为例

康俊锋,,1, 符悦1, 方雷,,2, 李咪咪3, 谢玉静2, 周朝阳4

1.江西理工大学 土木与测绘工程学院,江西 赣州 341000

2.复旦大学 环境科学与工程系,上海 200433

3.香港理工大学 酒店及旅游业管理学院,香港 999077

4.江西省国防科技信息和卫星应用中心,江西 南昌 330036

ARIMA-LSTM model based on least square weighting to predict number of inbound tourists: A case study of Shanghai

KANG Junfeng,,1, FU Yue1, FANG Lei,,2, LI Mimi3, XIE Yujing2, ZHOU Chaoyang4

1.School of Civil and Surveying & Mapping Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi Province,China

2.Department of Environmental Science and Engineering,Fudan University,Shanghai 200433,China

3.School of Hotel and Tourism Management,The Hong Kong Polytechnic University,Hong Kong 999077,China

4.Jiangxi Provincial Defense Science and Technology Information and Satellite Application Center,Nanchang 330036,China

通讯作者: ORCID: https://orcid.org/0000-0001-8902-1817,E-mail:fanglei@fudan.edu.cn.

收稿日期: 2022-08-22   修回日期: 2022-12-14   接受日期: 2022-12-20  

基金资助: 国家自然科学基金资助项目.  42261071.  41301423
上海市自然科学基金资助项目.  21ZR1407600

Received: 2022-08-22   Revised: 2022-12-14   Accepted: 2022-12-20  

作者简介 About authors

康俊锋(1978—),ORCID:https://orcid.org/0000-0002-9887-4632,男,博士,副教授,主要从事高性能GIS算法及应用研究,E-mail:junfeng.kang@jxust.edu.cn. , E-mail:junfeng.kang@jxust.edu.cn

摘要

为降低新冠病毒感染疫情大流行对旅游业的二次冲击,对疫情防控期间入境旅游市场的需求进行准确预测可为后期旅游业复苏提供科学依据。以上海市为研究区域,选取入境旅游人数、主要客源国、谷歌搜索指数、新增确诊病例数等数据,定量分析疫情前后入境旅游人数的空间变化特征及时间变化趋势,并用基于最小二乘法赋权的ARIMA-LSTM模型预测疫情后的入境旅游人数。结果表明:(1)疫情发生前后,亚洲客源市场一直占据入境旅游市场的核心地位,且传统入境游客与非传统入境游客的比例约为9∶1;(2)入境旅游人数与谷歌搜索指数存在长期正相关及格兰杰因果关系,与确诊病例数无明显相关性;(3)通过对比模型评价指标发现,当ARIMA-LSTM模型的R2大于0.8时,拟合较好,预测误差较单一模型小,预测精度较单一模型高,适用于疫情前、中、后期的旅游人数恢复预测;(4)对2021—2024年入境旅游人数进行恢复预测,发现该期间入境旅游人数呈明显的U形曲线。自2022年12月疫情全面放开后,旅游业逐步恢复,预计入境旅游人数在2024年12月恢复至疫情前水平,即需1.5 a的恢复期。

关键词: 新冠病毒感染 ; 上海旅游预测 ; ARIMA-LSTM模型 ; 最小二乘法 ; 谷歌搜索指数

Abstract

In order to reduce the secondary impact of the COVID-19 on the tourism industry, accurate prediction of the demand of inbound tourism market during the epidemic period can provide a scientific basis for later recovery and development of tourism. Taking Shanghai as the study area, the number of inbound tourists, major source countries, Google search index, confirmed cases of the epidemic and other data were selected to quantitatively analyze the spatial characteristics and the temporal trend of inbound tourism before and after the epidemic, the ARIMA-LSTM combination model weighted by the least square method was used to predict the number of inbound tourists after the epidemic. The results show that: (1) before and after the outbreak of the epidemic, the Asian tourists occupied the core position of the inbound tourism market, and the proportion of traditional inbound tourists and non-traditional inbound tourists is about 9∶1; (2) the number of inbound tourists demonstrates a long-term positive correlation and Granger causality with the Google search index, but there is no significant correlation with the confirmed cases of the epidemic; (3) by comparing the model evaluation indicators, it is found that when the R2 value of ARIMA-LSTM model is higher than 0.8, the model fits well, and the prediction error is smaller than that of a single model, and the prediction accuracy is higher, which means that the model can be uniformly applied to the recovery prediction of tourist numbers before, during and after the epidemic; (4) the number of inbound tourists from 2021-2024 is predicted, and it shows that the tourism trend during this period presents an obvious U-shaped change. After the comprehensive release of the epidemic in December 2022, the tourism industry began to gradually recover, and it is expected that the number of inbound tourists will return to the preepidemic tourism level by the end of 2024, that is, the recovery period is about one and a half years.

Keywords: COVID-19 ; Shanghai tourism forecast ; ARIMA-LSTM model ; least squares method ; Google index

PDF (4684KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

康俊锋, 符悦, 方雷, 李咪咪, 谢玉静, 周朝阳. 基于最小二乘法赋权的ARIMA-LSTM模型预测入境旅游人数——以上海市为例. 浙江大学学报(理学版)[J], 2023, 50(4): 508-520 doi:10.3785/j.issn.1008-9497.2023.04.014

KANG Junfeng, FU Yue, FANG Lei, LI Mimi, XIE Yujing, ZHOU Chaoyang. ARIMA-LSTM model based on least square weighting to predict number of inbound tourists: A case study of Shanghai. Journal of Zhejiang University(Science Edition)[J], 2023, 50(4): 508-520 doi:10.3785/j.issn.1008-9497.2023.04.014

0 引 言

随着旅游业的日益发展,高效准确预测目的地旅游人数及变化趋势对景区的科学管理与规划具有指导作用1。尤其是当公共危机发生时,合理评估危机对旅游业的影响,并预测旅游发展趋势及恢复路径具有重要的现实意义2

2020年以来,新冠病毒感染疫情造成了前所未有的公共卫生危机,旅游业是受影响最深的行业之一3。为避免旅游业陷入更大的危机,不少学者4-6开始研究危机影响下的旅游恢复管理。其中,旅游恢复预测能为政府及管理者提供相应的恢复措施和决策信息,帮助其更好地分配资源以满足新的配置需求,促进旅游业快速恢复和发展。

现有的预测方法有时间序列模型、计量经济学模型、人工智能模型和定性判断方法7等。时间序列模型,基于连续的历史数据进行预测,有自回归移动平均(autoregressive moving average,ARMA)模型8-9、自回归综合移动平均(autoregressive integral moving average,ARIMA)模型10、指数平滑(exponential smoothing,ES)模型11等。由于ARIMA模型构造简单,不必借助外生变量,只需要内生变量,且能够合理捕捉历史变化趋势,被广泛应用于旅游需求预测研究。本研究通过ARIMA模型捕捉旅游人数时间序列的线性特征,进行短期预测。计量经济学模型,旨在校准不同环境变量之间的因果关系,有自回归分布滞后模型12、向量自回归模型13等。然而,传统预测方法需要以固定的形式指定预测所需的观测时滞,且无法充分捕捉和挖掘解释变量与实际旅游量之间的复杂关系。人工智能模型,可以探索大型数据集的通用模式或相关性,做出更好的预测14,有随机森林15、支持向量机回归16-17、人工神经网络18、循环神经网络19等。其中,长短期记忆网络(long short-term memory,LSTM)20-21是一种深度学习算法,不仅可以捕捉解释变量与游客量之间的复杂关系,还可通过单元状态从数据集中学习时间依赖性。因此,LSTM是目前旅游需求预测的有力工具之一。

由于单一的预测模型难以同时预测旅游趋势的周期性与突变性,因此出现了将多种预测模型进行组合22-24的旅游预测研究。但已有的组合模型只是将2个模型简单串联或将预测结果相加,并未考虑权重的分配。而组合模型的核心就是确定单模型的权重。查阅文献25-26发现,最小二乘法在对不同模型赋权时,其权值分配稳定,且赋权后的模型预测精度较高,可用于组合模型对旅游人数趋势进行预测。

在大数据时代,搜索引擎已成为旅游需求预测中新数据的来源27-28。利用搜索引擎数据进行分析与建模,能更好地了解用户的关注度与行为29。在新冠病毒感染疫情背景下,通过引入搜索引擎数据准确预测旅游需求更具意义。然而,如何正确考虑并量化危机影响的不确定性,结合现有的搜索引擎数据,提出一种更系统、更可靠的预测方法,仍然是未来旅游预测研究面临的挑战。

本研究提出用基于最小二乘法赋权的ARIMA-LSTM模型预测上海市入境旅游人数。该模型将时间序列方法与深度学习方法相结合,同时考虑数据的周期性和非线性特征,在模型中引入历史旅游数据和谷歌搜索指数,将其作为解释变量,以减少预测误差。通过对比ARIMA模型、LSTM模型和ARIMA-LSTM模型的预测精度,发现ARIMA-LSTM模型的预测误差更小,精度更高,适用于疫情影响下的旅游趋势恢复预测。本研究结果可帮助政府和旅游组织深入了解新冠病毒感染疫情大流行造成的影响和损失,并采取适当的补救措施振兴旅游业。

1 研究区域及研究数据

上海市是我国第一大城市,也是世界最知名的国际化都市之一;位处东经120°52′~122°12′,北纬30°40′~31°53′;南濒杭州湾,北、西部与江苏、浙江两省相接,地理位置优越,旅游市场广阔,吸引全球各地游客慕名而来。

从上海市统计局(https://tjj.sh.gov.cn/index.html)的统计月报中获取上海市2017—2021年国外入境旅游人数。从谷歌趋势网站(https://trends.google.com/trends)获取2017—2021年与上海旅游相关关键词的全球网络搜索量及主要入境客源国的网络搜索量。从上海市公共数据开放平台(https://data.sh.gov.cn/index.html)获取2017—2020年入境游客客源国统计数据。从疫情实时大数据报告网站(https://voice.baidu.com/act/newpneumonia/newpneumonia)获取上海市2020 —2021年确诊病例、境外输入病例及主要客源国的确诊病例数据。各数据的统计信息如表1表2所示。

表1   上海市入境旅游人数及各谷歌搜索指数统计信息

Table 1  Statistics on the number of inbound tourists in Shanghai and the Google index

人数与指数均值中位数标准差方差最小值最大值
入境旅游人数/人次535 354713 658316 085.469.99×101017 047874 615
景点谷歌搜索指数42.8149.0023.09533.158.0078.00
酒店谷歌搜索指数55.9068.0024.85617.6413.0084.00
旅游谷歌搜索指数44.6452.0019.94397.7510.0072.00
天气谷歌搜索指数59.3269.0022.46504.5320.0090.00

新窗口打开| 下载CSV


表2   疫情相关数据统计信息

Table 2  Epidemic-related data statistics

类型均值中位数标准差方差最小值最大值
上海市境外输入病例106104492 35917177
上海市总计确诊病例1 3661 332613375 8425162 312
上海市新增确诊病例117105522 71520185
日本新增确诊病例54 44642 222532902.84×1091 946155 123
韩国新增确诊病例11 5327 566111791.25×10872342 064
美国新增确诊病例2 057 5531 458 5331 864 9093.48×1012213 3106 529 781

新窗口打开| 下载CSV


2 研究方法

2.1 ARIMA模型

ARIMA模型30是一种时间序列预测模型,根据时间序列过去的行为变化预测未来。ARIMA(pdq)模型的表达式为

1-i=1pϕiLi1-Ldxt=1+i=1qθjLiεt,

其中,p为自回归项数,ϕi为自回归系数,i=1,2,,p,L为滞后天数,d为差分次数,xt为旅游人数时间序列,q为移动平均项数,θj为移动回归系数,j=1,2,,q,εt为白噪声序列。首先,判断时间序列是否平稳,若不平稳需进行差分处理。其次,根据时间序列的自相关和偏相关函数确定模型中的pq。选择贝叶斯信息准则(Bayesian information criterions,BIC)作为模型参数优劣的评判标准。当BIC最小时,预测模型参数为ARIMA(1,1,1)。然后,将旅游人数按8∶2的比例划分为训练集和测试集,并向模型输入训练集数据进行训练。利用训练好的模型对测试集数据进行拟合,得到拟合值与真实值间的误差,误差越小,说明模型拟合效果越好。

2.2 LSTM模型

LSTM是基于递归神经网络(recurrent neural network,RNN)改进的循环神经网络,是一种长短期记忆结构31,用于处理长序列训练过程中出现的梯度消失和梯度爆炸。LSTM结构如图1所示,内部通过遗忘门、记忆门、输出门调节信息流。遗忘门决定上一时刻的细胞状态有哪些可以保留到当前时刻。并由激活函数sigmoid决定信息的保留和舍弃,函数值为1,表示完全保留信息;函数值为0,表示完全舍弃信息32

图1

图1   LSTM结构

Fig.1   LSTM structure


ft=σ(Wfht-1,xt+bf)

其中,ft为遗忘因子,σ为sigmoid激活函数,Wf为遗忘门的权重,ht-1为上一时刻输出的旅游人数,xt为当前时刻输入的谷歌搜索指数,bf为遗忘门的偏置项。

由记忆门决定在当前时刻的输入值中哪些可保存为单元状态,由sigmoid函数决定更新值,并通过tanh函数创建新的短时细胞状态。

it=σ(wiht-1,xt+bi)
c˜t=tanh (wcht-1,xt+bc)

其中,it为输入因子,c˜t为短时细胞状态。wiwc分别为输入门和短时细胞状态的权重,bibc分别为输入门和短时细胞状态的偏置项。

上一时刻的细胞状态乘以遗忘因子得到要舍弃的信息,短时细胞状态乘以输入因子得到新增信息,将两者相加得到新的细胞状态,当前时刻的细胞状态为

ct=ftct-1+itc˜t

输出门,由sigmoid函数确定需要输出的信息,由tanh函数确定最终的输出值。

ot=σ(woht-1,xt+bo)
ht=ottanh ct

其中,ot为遗忘因子,wo为输出门的权重,bo为输出门的偏置项,ht为输出的当前时刻的旅游人数。ht-1xt为核心变量,其他变量均为实现长短期循环神经网络的机器学习机制的中间变量。将xt作为特征值、ht作为目标值,构建xh的映射关系。将xtht-1作为输入变量,通过映射关系预测旅游人数ht

2.3 组合模型

通过调整最小二乘法权重系数,使得实际值与预测值的误差平方和最小。在机器学习中,经常将最小二乘法的误差平方和作为损失函数,损失函数最小化的模型预测精度较高。计算式为

E=i=0nei2=i=1nyi-ikwiy^2

其中,yi为真实值,y^为预测值,wi为权重,n为样本数,k为权重数。假设有m种预测方法,则m种预测方法的权重矩阵为W=[w1,w2,wm]T,且满足imwi=1。将m个预测模型得到的预测值进行组合排列,可得到预测矩阵 A,预测矩阵与权重矩阵的乘积为真实值矩阵 Y,因此通过矩阵运算可得到 W

A=y^11y^21y^12y^22y^n1y^n2,
AW=Y,
W=(ATA)-1ATY

其中,y^11y^21y^n1表示ARIMA模型得到的n个预测值,y^12y^22y^n2表示LSTM模型得到的n个预测值。

组合模型的构建流程如图2所示,将旅游人数和谷歌搜索指数预处理后,按8∶2的比例划分为训练集和测试集。首先将训练集数据分别输入ARIMA模型和LSTM模型进行训练,并将测试集数据分别输入相应模型进行拟合。然后用最小二乘法确认拟合值与真实值间的差,计算各模型的权重矩阵。最后将各模型的预测值赋权后相加,得到旅游人数的预测结果。

图2

图2   ARIMA-LSTM模型框架

Fig.2   ARIMA-LSTM model frame diagram


2.4 评价指标

在对时间序列预测模型进行评价时,可选取具有代表性的评价指标。在平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)、平方差之和(R2 )中,前3个指标值越小,表明预测值与实际值相差越小,预测结果越准确;R2越大,表明模型拟合效果越好。其中,

MAE=1ni=1ny^i-yi
MSE=1ni=1ny^i-yi2
RMSE=1ni=1ny^i-yi2
R2=1-i(yi^-yi)2i(yi¯-yi)2

其中,n为验证集样本数,y^i为第i个时刻的预测值,yi为第i个时刻的实际值。

3 实证研究

3.1 入境旅游人数与影响因素的趋势分析

3.1.1 入境旅游人数趋势及主要客源国变化分析

由于新冠病毒感染疫情后境外入沪游客较少,2020年4月后不再分开统计客源国信息,只有境外入沪游客总数信息。由图3可知,疫情前入沪游客主要来自日本、美国、韩国等发达国家,每月旅游人数在4万人以上,这与唐弘久等33的研究结论一致。其中2018年3月日本入沪游客突破10万人次,达到峰值。新冠病毒感染疫情发生后,入沪主要客源国并没有发生变化,但人数大幅下降,各国入沪人数均不足5 000人次,疫情前后总体入沪人数比为10∶1,即入沪人数减少了90%。其中2020年3月日本入沪人数最高,但也仅有4 236人次,这是因为疫情发生后,上海严格限制入境人数,采取非必要不入境的政策,入境的全为非传统游客,如留学、务工、探亲等。按此比例推测,疫情前上海的传统入境游客与非传统入境游客比例约为9∶1,且传统入境游客与非传统入境游客显著相关34。说明通过组织国际学术会议、商业讲座、留学推介等活动,可吸引更多非传统入沪游客,进而带动传统入境游,扩大入沪旅游规模。

图3

图3   上海市不同客源国入境游客变化

Fig.3   Changes of inbound tourists from different source countries in Shanghai


图4为2017—2020年上海市入境游客主要客源国占比。疫情发生前,亚洲客源市场占整体入境市场的53%,包括日本、菲律宾、新加坡、泰国、印度尼西亚、马来西亚、韩国等。北美客源市场占整体入境市场的22%,包括美国、加拿大等。欧洲客源市场占整体入境市场的19%,包括英国、法国、德国、俄罗斯、意大利等。大洋洲客源市场占整体入境市场的6%,包括澳大利亚、新西兰等。疫情发生后,亚洲客源市场占比仍高达56%,北美客源市场占比为21%,欧洲客源市场占比为17%,大洋洲客源市场占比为6%。亚洲客源市场占比提高了3%,北美、欧洲客源市场占比分别下降了1%和2%,大洋洲客源市场占比不变。这是因为亚洲客源国与上海市地理距离较近,比欧美国家游客入沪的时间成本与交通成本更低,而且中国文化等对周边国家的影响远大于其他地区。从整体看,无论疫情是否发生,亚洲客源市场依旧占上海入境旅游市场的主导地位;入境游的客源国占比没有因为疫情的发生而变化;由于疫情发生后入境的全部为非传统游客,所以传统入境游客与非传统入境游客的客源国占比也相对固定。这进一步验证了入境游传统游客与非传统游客显著相关的结论。

图4

图4   2017—2020年上海市入境游客主要客源国比例

Fig.4   Proportion of major source countries of inbound tourists in Shanghai from 2017 to 2020


疫情结束后,上海市在继续保持亚洲客源市场的同时,应以恢复北美、欧洲客源市场为重心,对北美、欧洲等国家出台入沪旅游优惠、购物免税等政策,提高入沪旅游的吸引力与竞争力。

将客源国按所属洲分类,统计各洲入沪旅游人数并根据年份进行排序。其中2020年仅统计前4个月的入沪旅游人数。从图5中可以看出,2017—2018年,四大洲的入沪旅游人数均有显著增长,其中,亚洲入沪旅游人数增长了32.8万人次,欧洲、大洋洲、北美洲分别增长了9.9万、3.5万、14.2万人次。亚洲增长幅度最大,是上海市最主要的入境客源市场。2018—2019年,波动幅度明显减小,其中,亚洲增长了15.2万人次,大洋洲仅增长了0.4万人次,北美洲与欧洲分别下降了8.2万和3.2万人次。由于2018年美国对中国发起了一系列贸易战,旅游经济也受较大影响。但从整体看,入沪旅游总人数仍有所上升。直到新冠病毒感染疫情暴发后的2020年,各洲入沪旅游人数均大幅下降,亚洲入沪旅游人数降至15.1万人次,其余各洲入沪旅游人数均低于10万人次,总体入沪人数仅为疫情前的1/17。对我国旅游业造成了重大打击,因此对疫情后的旅游进行恢复预测,并采取相关旅游振兴措施很有必要。

图5

图5   四大洲入沪旅游人数组成

Fig.5   Composition of the number of tourists entering Shanghai from four continents


3.1.2 入境旅游人数与谷歌搜索指数趋势分析

以“上海”为基准关键词,选择语义上与上海旅游近似,且将与上海入境旅游人数相关性较高的关键词(图6)用于建模预测。在图6中,红色圆圈表示基准关键词,橙色圆圈表示与上海旅游有关联性的关键词。橙色圆圈越靠近中心,说明该关键词与入境旅游人数相关性越高。圆圈的半径越大,表示搜索量越高。由此可知,“上海景点”“上海酒店”“上海旅游”“上海天气”等关键词与入境旅游人数的相关性较高,且搜索量较大,可选为预测关键词。

图6

图6   谷歌搜索关键词筛选

Fig.6   Google search keyword filter


图7为2017—2021年上海市入境旅游人数与关键词谷歌搜索指数的趋势变化图。由图7可知,2017—2019年入沪旅游人数呈较为平稳的周期性变化趋势,2020年1月后,由于新冠病毒感染疫情暴发,导致上海入境旅游人数骤减;此后国家严格管控,入境旅游人数长期处于低水平状态。由于谷歌搜索指数是入境旅游行为发生之前的旅游意愿的具体表现35,旅游意愿在疫情发生后锐减,对应的谷歌搜索指数也大幅度下降,下降幅度为疫情前的3/4,与入境旅游人数的下降趋势大体一致。从整体趋势看,疫情前,入境旅游高峰通常在3月和11月,低谷在2月和8月,这是因为上海属于亚热带季风气候,夏季炎热,冬季寒冷,春秋季更适合出游;疫情后,入境游客大幅度减少,且入境事由以留学、务工、探亲为主,因此入境人数并未呈现明显的季节性变化。疫情结束后的旅游恢复阶段,可在入境高峰期前(3月前和11月前)做好规划布局,开发更多冬、夏季旅游产品和服务,扩大入境旅游规模,加快旅游经济的恢复与发展。

图7

图7   2017—2021年上海市入境旅游人数与谷歌搜索指数趋势对比(归一化)

Fig.7   Comparison of the trend of the number of inbound tourists in Shanghai and the Google search index (normalized) from 2017 to 2021


3.1.3 入境旅游人数与确诊人数趋势分析

2020年3月至2021年7月,上海市疫情确诊人数与境外输入病例数的对比分析如图8所示,其中由于客源国新增确诊人数与入境旅游人数差距较大,进行了归一化处理;而上海市新增确诊病例与境外输入病例仍使用原始数据。由图8可知,上海市新增确诊病例趋势与境外输入病例趋势大致持平,且从2020年5月开始大幅提升(回国潮)。随后,上海市采取严格限制国外入境人数的防控措施,使得2021年1月后疫情得到有效控制。同时,不同客源国间的新增确诊病例发展趋势也较一致,前期增长速度缓慢,而在2020年10月后急剧增长,达到高峰,此时正值疫情在全球范围内爆发,各国确诊病例均快速增长。境外输入病例变化趋势较入境旅游人数滞后1个月左右,且趋势走向较一致,从境外输入病例的发展趋势中可推测,入境游客是境外输入病例的来源,而游客规模的变化受政策的影响,或许可用境外输入病例数预测入境旅游人数。

图8

图8   疫情确诊病例与境外输入病例变化趋势对比

Fig.8   Comparison of the trend of the number of confirmed cases and imported cases abroad


3.2 入境旅游人数预测研究
3.2.1 相关性检验分析

Pearson36相关系数用于度量2个变量之间的线性相关性。将关键词谷歌搜索指数、疫情确诊病例数分别与入境旅游人数做Pearson相关性分析,得到的结果如图9所示。从图9中可以看出,入境旅游人数与“上海景点”谷歌搜索指数的相关性最高,相关系数为0.96,且与其他关键词谷歌搜索指数的相关系数均在0.90以上,说明入境旅游人数与关键词谷歌搜索指数高度相关。而上海市入境旅游人数与境外新增确诊病例数的相关系数,最高为韩国0.59,最低为美国0.12,与本地新增确诊病例数的相关系数为0.23。说明虽然疫情是上海入境旅游人数锐减的最主要因素,但无论是境外新增确诊数还是上海本地新增确诊病例数均与入境旅游人数不存在规律性负相关。这由“熔断”政策决定,即无论上海本地确诊数多少都会对当地旅游市场进行封闭;而只要境外疫情尚未结束,就会继续严格执行限制境外客源国游客入境的政策。因此,认为疫情是旅游业萎缩的主要原因而简单地采用确诊病例数来表征疫情的严重程度,进而以此预测入境旅游人数的方法不能轻易采用。笔者发现,入境旅游人数与谷歌搜索指数存在长期正相关,无论是否有疫情,其都可用于旅游目的地入境旅游人数预测。

图9

图9   上海市入境旅游人数与关键词谷歌搜索指数、新增确诊病例数的相关系数

Fig.9   Correlation coefficient between the number of inbound tourists in Shanghai and the keyword Google search index and newly confirmed cases


3.2.2 因果关系检验分析

格兰杰因果关系检验37-38用于分析2个变量之间是否存在因果关系。本研究用以检验谷歌搜索指数、确诊病例数是否是入境旅游人数的格兰杰原因。根据施瓦兹准则(Schwarz criterion,SC)及赤池信息量准则(Akaike information criterion,AIC)确定不同变量对应的最优滞后阶数,检验结果如表3所示。当滞后阶数为5时,上海旅游关键词的统计值P为0.016 6,小于0.05,即原假设发生的概率小于5.00%,认为上海旅游关键词可以预测入境旅游人数。同理,上海酒店、上海景点、上海天气等关键词均可以预测入境旅游人数,这与前人利用百度指数预测国内游客数的研究结论一致。本地新增确诊病例数与境外新增确诊病例数的P值最小为0.100 1,大于0.05,认为疫情确诊病例数无法简单地从数值上预测入境旅游人数。同理,日本、韩国和美国的当地新增确诊病例数也无法简单地从数值上预测入境旅游人数。

表3   格兰杰因果关系检验结果

Table 3  Granger causality test results

原假设滞后阶数FP结论
上海旅游关键词不是入境旅游人数的格兰杰原因52.205 80.016 6拒绝原假设
上海酒店关键词不是入境旅游人数的格兰杰原因33.017 10.038 4拒绝原假设
上海景点关键词不是入境旅游人数的格兰杰原因53.004 30.020 3拒绝原假设
上海天气关键词不是入境旅游人数的格兰杰原因22.464 50.044 7拒绝原假设
上海本地新增确诊病例数不是入境旅游人数的格兰杰原因22.805 80.100 1接受原假设
日本新增确诊病例数不是入境旅游人数的格兰杰原因53.999 80.135 1接受原假设
韩国新增确诊病例数不是入境旅游人数的格兰杰原因53.058 10.478 0接受原假设
美国新增确诊病例数不是入境旅游人数的格兰杰原因51.843 90.505 4接受原假设

新窗口打开| 下载CSV


3.2.3 模型预测过程

首先对序列进行平稳性检验,经检验该序列不平稳,需进行一阶差分处理。然后通过序列的自相关与偏相关检验,确定自回归项数与移动平均项数均为1。最后得到ARIMA模型的结构参数为(1,1,1)。当LSTM模型设置3层神经网络进行迭代训练时,训练效果最好。设置优化器为“adam”,通过不断训练优化参数,使损失函数最小化,并根据损失函数的大小判断模型预测的准确度。

模型参数设置完成后,对数据集进行预处理,补充缺失值并归一化。将处理后的谷歌搜索指数作为特征值,入境旅游人数作为目标值。并将谷歌搜索指数与旅游人数均按8∶2的比例划分为训练集和测试集。将2016年9月至2020年7月的谷歌搜索指数、入境旅游人数作为训练集,2020年8月至2021年7月的谷歌搜索指数、入境旅游人数作为测试集。首先将训练集输入LSTM模型,构建谷歌搜索指数与入境旅游人数的映射关系,其次将测试集数据输入模型进行预测,判断模型的预测效果。ARIMA模型根据历史旅游人数序列进行预测,即输入2016年9月至2020年7月的入境旅游人数,对模型进行训练拟合,预测步长设为1,可预测2020年8月的入境旅游人数;输入2016年9月至2020年8月的入境旅游人数,可预测2020年9月的入境旅游人数,以此类推,最终可得到2020年9月至2021年7月的入境旅游人数。

然后,通过最小二乘法拟合计算不同模型赋予的权重,该权重使得真实值与预测值的误差平方和最小,可以有效提高ARIMA-LSTM模型的预测精度。最终得到LSTM的权重系数为0.8014,ARIMA的权重系数为0.198 6。

3.2.4 模型预测结果

将单模型预测值与赋权后的模型预测值进行对比,得到的预测效果如图10所示。其中,ARIMA模型虽然整体变化趋势与原始数据一致,但由于数据样本较少,导致模型泛化能力不强,预测值与真实值差距较大。LSTM模型整体预测精度较ARIMA模型高,但在峰值处存在过拟合现象,预测值略高于真实值。而ARIMA-LSTM模型的整体预测值最接近真实值,且能同时拟合旅游趋势的周期性和突发性变化特征,与入境旅游人数整体趋势保持一致。

图10

图10   疫情前后不同模型预测入境旅游人数效果

Fig.10   Effect of different models on predicting the number of inbound tourists before and after the epidemic


表4为LSTM、ARIMA和ARIMA-LSTM模型的预测评价结果。LSTM模型、ARIMA-LSTM模型的RMSE较疫情前分别降低了7.2%和3.0%。LSTM模型、ARIMA-LSTM模型的MAE较疫情前分别降低了15.0%和19.9%;ARIMA模型则相反,RMSE值和MAE值较疫情前分别增大了15.6%和17.6%。说明ARIMA-LSTM模型与LSTM模型对疫情后的预测精度均较疫情前高,而ARIMA模型由于无法较好地拟合非线性特征,对疫情后的预测精度有所下降。此外,各模型的R2均在0.800以上,其中,ARIMA-LSTM模型的R2最高,达0.994,较疫情前提升了6.5%,这说明ARIMA-LSTM模型的预测结果更接近实际情况。综合得到,ARIMA-LSTM模型与LSTM模型对疫情后的预测精度更高,ARIMA-LSTM模型与ARIMA模型对疫情前的预测精度更高。当时间序列呈稳定的周期性变化时,ARIMA模型预测效果更好,而LSTM模型发挥了其对非线性变化趋势的强预测能力。相比之下,ARIMA-LSTM模型融合了线性模型与非线性模型的优点,具有较强的学习和适应能力,预测精度更高。

表4   不同模型疫情前后预测精度评价结果

Table 4  Evaluation results of prediction accuracy of different models before and after the epidemic

模型疫情前疫情后
RMSEMSEMAER2RMSEMSEMAER2
LSTM0.2130.4630.6420.8570.1410.4000.4890.876
ARIMA0.1600.3870.4810.8190.3160.4870.6570.805
ARIMA-LSTM0.2700.4490.5900.9330.0290.3010.3910.994

新窗口打开| 下载CSV


3.2.5 未来旅游趋势预测

通过对比不同模型的预测结果,发现ARIMA-LSTM模型的预测精度较高,拟合效果较优。因此,可采用组合模型预测未来入境旅游变化趋势。即将现有月份的谷歌搜索指数和入境旅游人数输入ARIMA-LSTM模型,预测下个月的入境旅游人数;再通过单模型预测下个月的谷歌搜索指数(由于谷歌搜索指数较小,且时间序列平稳,故用ARIMA模型进行预测),将下个月的入境旅游人数与谷歌搜索指数组成新的输入数据,输出未来两个月的入境旅游人数……

(1) 2022—2023年疫情常态化管理期间的恢复预测。在疫情得到控制的情况下,对2021年8月至2023年6月入境的旅游人数进行预测。由图11可知,2022年旅游业呈低迷状态,月度入境旅游人数均低于10万人次。由于疫情反复,上海市多地采取非必要不外出政策,部分旅游景点关闭,入境游客隔离天数增加,一系列防疫措施导致旅游业萧条。经过一年的防疫,疫情得到有效控制,2023年入境旅游人数逐渐回升,并突破10万人次。然而,在疫情全面放开之前,入境游客人数很难大幅度上升,说明旅游市场有一定的恢复弹性,但该弹性不足以使旅游趋势恢复至疫情前的状态,需要通过干预实现旅游业复苏。

图11

图11   上海市2022—2024年入境旅游人数预测结果

Fig.11   Forecast results of the number of inbound tourists in Shanghai from 2022 to 2024


(2) 假设2023年6月、2023年12月疫情结束的恢复预测已在前文中做了分析,疫情发生后,谷歌搜索指数下降了75%;所以疫情结束后,谷歌搜索指数也按75%逐渐增至原搜索水平。由于2022年12月疫情全面放开,上海入境旅游也全面放开,根据2022年谷歌搜索指数,重新构建2023年、2024年的谷歌搜索指数(分别为疫情前的50%和100%),预测未来入境旅游人数。结果显示,入境旅游人数将在2023年6月突破30万人次,且一直保持增长趋势,即恢复至疫情前的47%。到2024年1月,入境旅游人数将突破50万人次,且重新出现周期性趋势。预计在2024年12月前入境旅游人数完全恢复至疫情前的周期性旅游水平,即需要1.5 a的恢复期。在此期间,可通过发展国内旅游实现旅游业的复苏。

3.2.6 有序恢复入境旅游的对策及建议

全面放开后的旅游市场将重新迎来高潮,游客迫切的出游及消费意愿将令旅游业进入新的转折点。为实现高效、有序恢复,旅游相关部门可采取:在互联网平台加强旅游资源的宣传与营销,提高上海旅游资源的知名度和吸引力;推出机票优惠、淡季降价等政策;推出特色旅游产品和旅游主题,刺激旅游消费增长;完善娱乐设施的质量和种类,实现多元化娱乐,通过提高游客体验感等吸引更多游客。

4 结 论

以上海市为例,对疫情影响下的入境旅游人数及客源国进行了时间及空间变化分析,并引入谷歌搜索指数,检验入境旅游人数与谷歌搜索指数、新增确诊病例数之间的相关性和因果关系。最后选取预测精度最高的ARIMA-LSTM模型对未来旅游趋势进行了恢复预测。得到:

(1) 由疫情前后上海市入境旅游客源市场变化规律可知,疫情发生后,亚洲客源市场占比由53%升至56%,仍为入境旅游市场的核心,而其他客源市场占比均有不同程度下降。由于亚洲客源国与上海市地理位置更近,相对其他客源国入境更方便。因此未来应注重发展一般客源市场,加强合作交流,出台更多入境优惠政策,以扩大入境游客的规模。

(2) 分析疫情后入境游客的组成,发现大部分为留学、务工、探亲等非传统游客,且传统入境游客与非传统入境游客的比例约为9∶1。从整体趋势看,入境旅游高峰期也发生了改变,由于入境游客大幅度减少,入境旅游趋势没有呈现明显的季节性变化。上海市应开发更多针对“非传统入境游客”驱动的活动,譬如举办国际学术会议、科技论坛、商务讲座等,以提高非传统旅游市场的吸引力和竞争力。

(3) 通过对比3种模型的预测精度,发现ARIMA-LSTM模型的RMSE较LSTM和ARIMA模型分别下降了14.5%和12.6%,且ARIMA-LSTM模型的R2在0.800以上,说明其预测精度优于单一模型。ARIMA-LSTM模型具有同时预测数据的线性与非线性特征,且只需要历史游客数据与互联网搜索数据,参数简单、数据获取方便,可统一应用于疫情前、中、后期的预测模拟。

(4) 通过预测2022—2024年的入境旅游人数,发现新冠疫情长期影响旅游趋势,形成了非常明显的U形曲线,符合长期旅游事件影响旅游业的规律。在2022年疫情持续的情况下,预测入境旅游人数仍处于低水平状态,2023年将有所提升。在疫情全面放开以后,预测在2024年12月入境旅游人数将恢复至疫情前水平,即需要1.5 a的恢复期。旅游目的地可首先通过恢复国内旅游市场,弥补入境旅游的损失。

(5) 有序恢复入境旅游的对策。全面放开政策发布后,入境旅游市场即将迎来转折,为此,应加强宣传营销,通过采取票价优惠、增强用户体验等措施,吸引游客出游,刺激消费增长,争取在较短时间内,安全高效地恢复旅游市场。

本研究还存在一些局限和不足。首先,仅选择入境旅游人数作为旅游需求指标,未来可增加旅游收入、酒店入住率等指标。其次,仅以上海市为例进行预测,存在区域的单一性和特殊性,未来可选择多个研究区域做对比分析。

http://dx.doi.org/10.3785/j.issn.1008-9497.2023.04.014

参考文献

任欢刘婷康俊锋.

一种基于百度指数的城市日游客规模预测方法

[J]. 浙江大学学报(理学版), 2020476): 753-761. DOI:10.3785/j.issn.1008-9497. 2020.06.014

[本文引用: 1]

REN HLIU TKANG J F.

A method for predicting the scale of daily tourists in cities based on Baidu index

[J]. Journal of Zhejiang University (Science Edition), 2020476): 753-761. DOI:10.3785/j.issn.1008-9497.2020.06.014

[本文引用: 1]

卢璐孙根年.

2008年至2018年我国大陆地区入境旅游的危机周期及市场归因

[J]. 浙江大学学报(理学版), 2021483): 377-390. DOI:10.3785/j.issn. 1008-9497.2021.03.014

[本文引用: 1]

LU LSUN G N.

The crisis cycle and market attribution of inbound tourism in mainland country from 2008 to 2018

[J]. Journal of Zhejiang University(Science Edition), 2021483): 377-390. DOI:10.3785/j.issn.1008-9497.2021.03.014

[本文引用: 1]

SHARMA G DTHOMAS APAUL J.

Reviving tourism industry post-COVID-19: A resilience-based framework

[J]. Tourism Management Perspectives, 202137100786. DOI:10.1016/j.tmp.2020.100786

[本文引用: 1]

VOLGGER MTAPLIN RAEBLI A.

Recovery of domestic tourism during the COVID-19 pandemic: An experimental comparison of interventions

[J]. Journal of Hospitality and Tourism Management, 202148428-440. DOI:10.1016/j.jhtm.2021.07.015

[本文引用: 1]

ZHANG HSONG HWEN Let al.

Forecasting tourism recovery amid COVID-19

[J]. Annals of Tourism Research, 2021874): 103149. DOI:10. 1016/j.annals.2021.103149

KUMAR AMISRA S CCHAN F T S.

Leveraging AI for advanced analytics to forecast altered tourism industry parameters: A COVID-19 motivated study

[J]. Expert Systems with Applications, 2022210118628. DOI:10.1016/j.eswa.2022.118628

[本文引用: 1]

SONG HQIU R T RPARK J.

A review of research on tourism demand forecasting: Launching the annals of tourism research curated collection on tourism demand forecasting

[J]. Annals of Tourism Research, 201975338-362. DOI:10.1016/j.annals.2018.12.001

[本文引用: 1]

GHU F L.

A fractionally integrated autoregressive moving average approach to forecasting tourism demand

[J]. Tourism Management, 2008291): 79-88. DOI:10.1016/j.tourman.2007.04.003

[本文引用: 1]

JANGHEE CSEUNG C DLEE T H.

Forecasting tourism demand of Jeju Island using GAM and ARMA

[J]. Korean Management Consulting Review, 2018182): 187-194.

[本文引用: 1]

CHEN JHUANG MFU J.

Comparison of China PR inbound tourism forecast methods-ARIMA-based model, BP neural network model and BP-ARIMA mixed model

[J]. Basic & Clinical Pharmacology & Toxicology, 202012796-96.

[本文引用: 1]

DEININGER MKOELLNER TBREY Tet al.

Towards mapping and assessing Antarctic marine ecosystem services:The Weddell sea case study

[J]. Ecosystem Services, 201622174-192. DOI:10. 1016/j.ecoser.2016.11.001

[本文引用: 1]

AYDIN M.

The impacts of political stability, renewable energy consumption, and economic growth on tourism in Turkey: New evidence from Fourier Bootstrap ARDL approach

[J]. Renewable Energy, 2022190467-473. DOI:10.1016/j.renene.2022. 03.144

[本文引用: 1]

CHATZIANTONIOU IFILIS GEECKELS Bet al.

Oil prices, tourism income and economic growth: A structural VAR approach for European Mediterranean countries

[J]. Tourism Management, 201336331-341. DOI:10.1016/j.tourman.2012. 10.012

[本文引用: 1]

LAW RLI GFONG D K Cet al.

Tourism demand forecasting: A deep learning approach

[J]. Annals of Tourism Research, 201975410-423. DOI:10.1016/j.annals.2019.01.014

[本文引用: 1]

ZHANG YTANG Z.

PSO-weighted random forest for attractive tourism spots recommendation

[J]. Future Generation Computer Systems, 2022127421-425. DOI:10.1016/j.future.2021.09.029

[本文引用: 1]

HONG W CDONG YCHEN L Yet al.

SVR with hybrid chaotic genetic algorithms for tourism demand forecasting

[J]. Applied Soft Computing, 2011112): 1881-1890. DOI:10.1016/j.asoc. 2010.06.003

[本文引用: 1]

FAN G FJIN X RHONG W C.

Application of COEMD-S-SVR model in tourism demand forecasting and economic behavior analysis: The case of Sanya city

[J]. Journal of the Operational Research Society, 2022737): 1474-1486. DOI:10.1080/01605682.2021.1915192

[本文引用: 1]

TEIXEIRA J PFERNANDES P O.

Tourism time series forecast different ANN architectures with time index input

[J]. Procedia Technology, 20125445-454. DOI:10.1016/j.protcy.2012.09.049

[本文引用: 1]

TASYUREK MCELIK M.

RNN-GWR: A geographically weighted regression approach for frequently updated data

[J]. Neurocomputing, 2020399258-270. DOI:10.1016/j.neucom.2020.02.058

[本文引用: 1]

FENG LHAO Y K.

Optimization algorithm of tourism security early warning information system based on long short-term memory (LSTM)

[J]. Computational Intelligence and Neuroscience, 202120219984003. DOI:10.1155/2021/9984003

[本文引用: 1]

MO K CSHIN S HHLEE Set al.

Online tourism review:Three phases for successful destination relationships

[J]. Asia Pacific Journal of Information Systems, 2015254): 746-762. DOI:10.14329/apjis.2015.25.4.746

[本文引用: 1]

SHERAFATIAN-JAHROMI ROTHMAN M SLAW S Het al.

Tourism and CO2 emissions nexus in Southeast Asia: New evidence from panel estimation

[J]. Environment Development and Sustainability, 2017194): 1407-1423. DOI:10.1007/s10668-016-9811-x

[本文引用: 1]

ASLANARGUN AMAMMADOV MYAZICI Bet al.

Comparison of ARIMA, neural networks and hybrid models in time series: Tourist arrival forecasting

[J]. Journal of Statistical Computation and Simulation, 2007771): 29-53. DOI:10.1080/10629360600564874

CHEN K Y.

Combining linear and nonlinear model in forecasting tourism demand

[J]. Expert Systems with Applications, 2011388): 10368-10376. DOI:10. 1016/j.eswa.2011.02.049

[本文引用: 1]

LEE J.

A reformulation of weighted least squares estimators

[J]. American Statistician, 2009631): 49-55. DOI:10.1198/tast.2009.0011

[本文引用: 1]

SUN CJI S.

The least squares estimator of random variables under sublinear expectations

[J]. Journal of Mathematical Analysis and Applications, 20174512): 906-923. DOI:10.1016/j.jmaa.2017.02.020

[本文引用: 1]

LI XLAW RXIE Get al.

Review of tourism forecasting research with internet data

[J]. Tourism Management, 202183104245. DOI:10.1016/j.tourman.2020.104245

[本文引用: 1]

SUN SWEI YTSUI K Let al.

Forecasting tourist arrivals with machine learning and internet search index

[J]. Tourism Management, 2019701-10. DOI:10.1016/j.tourman.2018.07.010

[本文引用: 1]

YANG YFAN YJIANG Let al.

Search query and tourism forecasting during the pandemic: When and where can digital footprints be helpful as predictors?

[J]. Annals of Tourism Research, 202293103365. DOI:10.1016/j.annals.2022.103365

[本文引用: 1]

WANG YGUO Y.

Forecasting method of stock market volatility in time series data based on mixed model of ARIMA and XGBoost

[J]. China Communications, 2020173): 205-221. DOI:10. 23919/jcc.2020.03.017

[本文引用: 1]

YU YSI XHU Cet al.

A review of recurrent neural networks: LSTM cells and network architectures

[J]. Neural Computation, 2019317): 1235-1270. DOI:10.1162/neco_a_01199

[本文引用: 1]

FRAME J MKRATZERT FRANEY Aet al.

Post-processing the national water model with long short-term memory networks for streamflow predictions and model diagnostics

[J]. Journal of the American Water Resources Association, 2021576): 885-905. DOI:10.1111/1752-1688.12964

[本文引用: 1]

唐弘久保继刚.

我国主要入境客源地游客的时空特征及影响因素

[J]. 经济地理, 2018389): 222-230. DOI:10.15957/j.cnki.jjdl.2018.09.026

[本文引用: 1]

TANG H JBAO J G.

The spatiotemporal characteristics and influencing factors of tourists from the main inbound tourist sources in my country

[J]. Economic Geography, 2018389): 222-230. DOI:10.15957/j.cnki.jjdl.2018.09.026

[本文引用: 1]

张国平刘晓鹰.

基于旅游目的分组的城镇居民国内旅游消费构成演变趋势探讨

[J]. 商业时代, 20142): 31-33. DOI:10.3969/j.issn.1002-5863.2014.02.012

[本文引用: 1]

ZHANG G PLIU X Y.

Discussion on the evolution trend of domestic tourism consumption composition of urban residents based on tourism purpose grouping

[J]. The Age of Business, 20142): 31-33. DOI:10. 3969/j.issn.1002-5863.2014.02.012

[本文引用: 1]

JIN X CQU MBAO J.

Impact of crisis events on Chinese outbound tourist flow: A framework for post-events growth

[J]. Tourism Management, 201974334-344. DOI:10.1016/j.tourman.2019.04.011

[本文引用: 1]

AREF F.

Sense of community and participation for tourism development

[J]. Life Science Journal-Acta Zhengzhou University Overseas Edition, 201181): 20-25.

[本文引用: 1]

KIM H JCHEN M HJANG S S.

Tourism expansion and economic development: The case of Taiwan

[J]. Tourism Management, 2006275): 925-933. DOI:10.1016/j.tourman.2005.05.011

[本文引用: 1]

WANG H.

A cointegration test and Granger causality of ocean tourism and marine economic growth

[J]. Journal of Coastal Research, 2020112(SP1):148-151. DOI:10.2112/jcr-si112-042.1

[本文引用: 1]

/