浙江大学学报(工学版), 2019, 53(9): 1759-1767 doi: 10.3785/j.issn.1008-973X.2019.09.015

计算机科学与人工智能

多源数据跨国人口迁移预测

汪子龙,, 王柱,, 於志文, 郭斌, 周兴社

Transnational population migration forecast with multi-source data

WANG Zi-long,, WANG Zhu,, YU Zhi-wen, GUO Bin, ZHOU Xing-she

通讯作者: 王柱,男,副教授. orcid.org/0000-0003-2368-8947. E-mail: wangzhu@nwpu.edu.cn

收稿日期: 2018-12-17  

Received: 2018-12-17  

作者简介 About authors

汪子龙(1996—),男,硕士生,从事普适计算和数据挖掘研究.orcid.org/0000-0003-4471-872X.E-mail:1977431951@qq.com , E-mail:1977431951@qq.com

摘要

针对跨国人口迁移预测所面临的数据代表性问题,利用多源数据分别构建3个预测模型:线性拟合模型、乘法分量模型和带有时间序列预测(WTSP)的线性拟合模型. 线性拟合模型用于刻画1年内的移民规律;乘法分量模型利用时间序列预测算法对未来迁移模式进行预测;WTSP线性拟合模型利用迁移模式的变化预测跨国人口迁移数量的未来趋势. 对比3个模型的预测结果可知,WTSP线性拟合模型可以有效预测未来的移民规律,相比经典线性拟合模型,WTSP线性拟合模型能体现迁移模式随时间变化的规律,预测准确率可至少提升3%;相比乘法分量模型,WTSP线性拟合模型能呈现更完整的迁移模式,有更强的可解释性.

关键词: 人口迁移预测 ; 回归分析 ; 时间序列预测 ; 线性拟合 ; 乘法分量模型 ; WTSP线性拟合模型

Abstract

Three prediction models were constructed by using multi-source data, including linear fitting model, multiplicative component model and WTSP (with time series prediction) linear fitting model, aiming at the problem of data representativeness in the prediction of transnational migration. A linear fitting model was constructed to describe the migration rule within one year; a multiplier component model was introduced to predict the future migration pattern by using time series prediction algorithm; and a WTSP linear fitting model was proposed to predict the future trend of transnational migration by using the change of the migration pattern. Compared with the results of the three models, WTSP linear fitting model can effectively predict future migration patterns. Compared with the classical linear fitting model, the WTSP linear fitting model can reflect the law of migration pattern changing with time, and the prediction accuracy can be improved by at least 3%. Compared with the multiplier component model, the WTSP linear fitting model can present a more complete migration model and has stronger interpretability.

Keywords: population migration prediction ; regression analysis ; time series prediction ; linear fitting ; multiplicative component model ; WTSP linear fitting model

PDF (925KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

汪子龙, 王柱, 於志文, 郭斌, 周兴社. 多源数据跨国人口迁移预测. 浙江大学学报(工学版)[J], 2019, 53(9): 1759-1767 doi:10.3785/j.issn.1008-973X.2019.09.015

WANG Zi-long, WANG Zhu, YU Zhi-wen, GUO Bin, ZHOU Xing-she. Transnational population migration forecast with multi-source data. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(9): 1759-1767 doi:10.3785/j.issn.1008-973X.2019.09.015

在交通越来越发达的当今社会,国家之间的联系愈发紧密,人口的流动也变得更加频繁. 跨国人口迁移研究是社会学中的一个重要课题. 人们对于优质生活的向往推动了移民行为. 由于地区资源相对有限,预先知道移民数量有助于更好地进行资源管理和建设规划. 换言之,移民预测能够有效帮助政府进行人口规划、出入境管理等方面的决策.

目前,学者们已开展了大量关于人口迁移预测问题(即移民预测)的研究. 例如,Bilsborrow等[1-2]利用人口普查、人口登记、出入境登记等数据进行预测,具有较高的准确率,但是所依赖的源数据采集代价较高或者获取渠道狭窄. James等[3]构建了用于移民预测的贝叶斯模型,但是模型中与迁移模式相关的参数相对固定,因而随着时间的推移,模型的性能出现下降.

针对上述问题,本研究利用易于获取的数据实现准确的移民预测,以低成本完成移民规律的探究,首先构建线性拟合模型,刻画1年之内的移民规律. 之后借鉴James等[3]的思想构建乘法分量模型,并改进其中的时间序列预测方法,实现对迁移模型系数变化趋势的预测. 最后融合上述2种模型,提出一种新的移民预测模型—WTSP线性拟合模型,该模型能够预测未来的线性拟合移民规律,且预测得到的规律可随时间发生趋势性改变.

1. 相关工作

1.1. 基于代表性数据集的移民预测

针对移民预测而言,最具代表性的数据来自于联合国积极推动的人口普查. 人口普查一般能够有足够强的排查力度,对于移民等类似人口流动的数据统计相对全面. 在这样的数据集中还会存在关于职业、年龄、教育水平等特征[1]的信息. 但是因为人口普查一般为每五年或每十年一次,对于研究而言频率太低,并且其本身代价很高,很难提升频率,所以这样的数据集慢慢被弃置.

在欧盟内,人口登记替代人口普查,成为欧盟境内最主要的人口信息来源. 人口普查转变为基于登记的人口记录[2]. 每年只需要在之前的记录中更新即可. 但是欧盟相对于单个国家而言是一个比较松散的体制,人口登记并不会覆盖所有公民(比如英国不参加人口登记),并且不少国家对移民定义的居住时间不同,导致了移民人数的不匹配[4]. 另外,在欧盟境内以人口登记数据作为移民数据实际上经常会有数据偏低的情况. 这是因为欧盟没有法律强制规定移民者登记,而作为移民者,本身仅仅是为了获得目标地的福利,没有直接切断故地联系的必要[1]. 针对人口登记的问题,James等[3]利用贝叶斯模型较好地处理了移民人数不匹配的问题. 通过在贝叶斯模型的后验中加入专家意见,修正了移民的定义标准,使得之后的人口登记数据可以与实际情况更加贴合. 本研究的真实数据就是来自于上述研究成果之后的欧盟统计局人口登记数据.

1.2. 基于非代表性数据集的移民预测

移民本质上是一种人口迁移,在监测迁移模式的过程中,研究者发现移民过程和跨国客流有较高的相关度. 由于英国和爱尔兰等国家不存在人口登记或者不对移民活动进行记录,通过国际旅客调查和劳动力调查等方式计算这些国家的移民人数成为一些研究的首选[5]. 但是,这样的数据即使在排除了其他方面的偏差之后,也仅仅是移民数据的一个样本,不能体现移民数据的所有特征.因此,从统计学的角度来看,以跨国客流量等数据进行移民预测造成的数据偏差很难消除.

由于西方近年来移民流动和移民网络学说的新起,也有不少研究者们致力于发掘国家间的迁移模式. Abel等[6~8]提出利用世界银行和联合国的移民数据的变化来对全球各国间迁移模式进行预测.

随着网络社交的不断普及,一些以前获取成本较高的数据有了新的获取渠道. 在国外通过类似Facebook、Twitter、Flicker等网站,可以获取一些用户在特定时刻共享在网络上的位置数据. 这样粒度的数据对于移民预测而言已经足够[9]. 相比未经整理的游客数据,这样的社交网络数据可能更容易获取. 但是这些数据也存在一定的问题. 首先,研究者只能针对一个社交网站进行处理,无法同时利用多个社交网站. 这是因为研究者无法获得用户的直接个人信息,导致不同网站的ID不能关联. 其次,获知的数据不够全面,很多数据关系到用户隐私问题,需要用户共享. 不过即使有多方面的限制,研究者们也取得了一定的成果. Lenormand等[10]将传统数据源人口普查数据和新数据源推特等网络社交数据通过交叉处理的方式分别进行研究. 结果证明:尽管这些数据的粒度不尽相同,但是在对于社会人口研究问题的可靠性上没有本质差别.

当前,非代表性数据在移民问题中的应用越来越广,有效处理非代表性数据带来的偏差也成了移民预测问题的关注重点. 在对于非代表性数据处理的研究中,使用的非代表性数据一般具有多种属性或特征. 例如在Wang等[11]的研究中,利用非代表性数据的特征将数据集划分成不同的单元,使用多级回归与事后加权恢复了数据代表性.

2. 问题定义与分析

2.1. 问题定义

本研究所采用的数据主要来自欧盟统计局官网数据库,其中包括2008—2013年的欧盟国家GDP数据、医疗水平数据、教育数据、劳动力市场失业率数据、旅游数据、人口数据、语种划分数据以及意大利对欧盟境内国家的移民人数. 为体现线性拟合模型的可行性,同时获取2013年的意大利对外通信数据.

基于上述数据,移民预测问题可以转换为经典的逻辑回归问题进行求解[12]. 具体地,将欧盟国家看作样本,将获取的国家经济等数据集作为样本的特征,拟合模型可以得到样本特征和移民数量之间的函数关系. 不妨将这样的函数关系定义为一种移民规律. 利用线性拟合模型就可以获取历年的移民规律. 因为未来的移民规律可能会出现变化,所以需要学习移民规律的变化趋势. 进一步构建乘法分量模型,并对其中的时间序列预测算法进行改进,利用过去移民模式预测未来移民模式. 由于乘法分量模型预测效果依赖于高代表性的数据,有违本研究的初衷,最后融合线性拟合模型和乘法分量模型的思想,构建WTSP线性拟合模型. 该模型利用时间序列预测算法,学习历史移民规律的变化趋势,以此预测未来的移民规律,实现基于非代表性数据的准确移民预测.

2.2. 问题分析

将移民预测问题定义为逻辑回归问题,对其进行精准建模和求解的关键在于如何选取与移民行为相关的数据和特征.

根据经典的推拉理论,移民活动取决于迁出地和迁入地之间的相互作用. 在目前的西方移民理论中,推拉理论仍是移民动力机制的基础. 推拉理论认为人们的移民决策存在规律可循[13],人们进行移民活动不是经济因素单独推动的结果,教育、医疗、劳动力市场、自然环境等因素也是影响移民决策的重要推力或者拉力[14]. 迁出地的消极因素会成为推力推动人们迁出居住地,而迁入地的积极因素会成为拉力,吸引人们迁入移民地. 西方的移民动力理论新提出了中间障碍因素,例如种族问题等. 即迁入地与迁出地之间存在壁垒,这样的中间障碍因素会提高迁移成本,影响移民决策. 因此,在考虑意大利对欧盟境内的移民问题时,本研究选取欧盟统计局中国家经济、教育、劳动力市场、人口、旅游、语种数据作为研究数据集,虽然无论是基于推拉定理还是基于常识,政治因素和自然因素也十分重要,但是这些因素难于量化,几乎没有统一可行的量化标准,本研究没有将这些因素纳入模型. 由于通信数据获取渠道较少,本研究仅获得2013年意大利对外通信数据,用 于验证线性拟合模型是否可以准确拟合移民规律.

3. 模型构建

3.1. 线性拟合模型

第2章将移民预测问题转变成了一个经典的回归问题. 线性回归模型是处理类似问题的有效方法[15],基础公式如下:

${a_m}\left( { X} \right) = {m_1}{x_1} + {m_2}{x_2} + \cdots + {m_n}{x_n} = \mathop \sum\nolimits_{j=1}^{n} {m_j}{x_j}.$

式中:X为一个完整样本,x1x2,···,xn为样本Xn个不同特征,m1m2,···,mn为对应特征的拟合系数. amX)为样本X的拟合值. 如果考虑到常数偏差,其中一个特征会以全“1”的形式出现. 线性回归实际上是将样本特征作为输入,试图寻找到一个函数使得输出结果(即回归预测值)与实际值A尽可能接近[16]. 研究数据很少存在完美的线性关系,因此需要有一个损失函数来表示拟合出的结果相对于真实数据的误差有多大. 将每个输出结果和实际值之间的偏差设为y,利用其平方和作为损失函数:

${Y_m} = {\left| {\left| {{a_m}\left( x \right) - { A}} \right|} \right|^2} = {\left| {\left| {{ M} { X }- { A}} \right|} \right|^2}.$

式中:M为拟合系数m1m2,···,mn构成的行向量. 优化拟合效果需要损失函数取得最小值,即求得M在导数为0时的取值,易推得当导数为0时,M的表达式为

${ M }= {({{ X}^{\rm{T}}}{ X})^{ - 1}}{{ X}^{\rm{T}}}{ A}.$

至此由式(3)可以获知当损失值最小时,对应特征的系数M的取值.

对线性拟合模型而言,每增加一个特征,拟合效果便会有所提升. 但是某些特征在模型中发挥的增益作用并不显著,需要进行特征筛选. 本研究使用t检验完成筛选. t检验用于计算特征系数是否被接受,其对应的p值为该项系数可以被抛弃的概率. 设定初始p的阈值,当新加入的特征使得t检验后的p值超过阈值时,则在现在已经加入的特征中选择一个特征剔除,保证剔除后的p值低于阈值. 重复上述过程至最后一个特征结束.

3.2. 乘法分量模型

3.2.1. 基础乘法分量模型和基本思想

在3.1节中提到的回归问题中,线性回归模型将移民数量量化为一个多元输入的线性公式,很好地解释了不同的因素对于移民的不同影响效果. 在乘法分量模型中,从c国转入d国的移民数量acd被定义为

${a_{cd}} = S \cdot {F_c} \cdot {T_d} \cdot {u_{cd}}.$

式中:S为所有的移民总数量,Fc为输出国c的总输出移民在总体移民的比例,Td为输入国d的总输入移民在总体移民的比例,而ucdcd两国在这个移民模型中的吸引系数.

对于式(4)的乘法分量公式,同样可以使用对数加法形式表示为

$\ln \;{a_{cd}} = \ln \;S + \ln \;{F_c} + \ln \;{T_d} + \ln \;{u_{cd}}.$

可以看到式(5)和对数线性模型很相似[17].

英国、德国和意大利3个国家之间的移民流动人数如表1所示. 把英国、德国和意大利3个国家放入模型,利用式(4)可得如表2所示的结果. 表2中数据为将3个国家的数据放入模型时所得到的当年迁移模式数据. 以英国到意大利的移民人数为例,表1中英国到意大利的移民人数为1 548,3个国家间的总移民人数为76 474. 英国作为移民输出国的输出总人数为25 122人,占3个国家移民总人数的32.85%,而意大利作为移民输入国的输入总人数为3 425,占移民总人数的4.48%. 依据乘法分量模型,1 548=76 474×0.328 5×0.044 8×1.375 4,其中1.375 4为表2中英国向意大利移民的吸引系数.

表 1   部分国家间的移民数量

Tab.1  Number of migrants between countries

c d acd /人
英国 德国 23 574
英国 意大利 1 548
德国 英国 18 659
德国 意大利 1 877
意大利 英国 10 733
意大利 德国 20 083

新窗口打开| 下载CSV


表 2   基于乘法分量模型的国家间吸引系数

Tab.2  Inter-country attraction coefficient based on multiplicative component model

c d ucd
英国 德国 1.643 7
英国 意大利 1.375 4
德国 英国 2.364 3
德国 意大利 2.040 2
意大利 英国 0.906 3
意大利 德国 1.141 5

新窗口打开| 下载CSV


式(4)中吸引系数可依据下式计算:

${u_{cd}} = \frac{{{a_{cd}}}}{{S \cdot {F_c} \cdot {T_d}}}.$

其代表了两地之间的吸引关系(在本研究中由于只进行意大利对其他国家移民流动的研究,不需要使用到所有的吸引系数,只需要取得意大利与其他26个欧盟国家之间的52个吸引系数即可). 在对移民的输入、输出有同样贡献的情况下,吸引系数越高,移民的数量也将会越多.

在乘法分量模型中,国家cd的移民数是由当年的总移民数,当年的输入国d、输出国c比例以及cd的吸引系数共同决定. 在此模型的预测过程中,假定这4个变量随时间的变化都是非随机的,即存在规律,这样就将移民人数切分成由4个特征构成的时间序列. 通过对4个时间序列进行预测,便可以得出任意两国之间的移民数.

3.2.2. 时间序列预测

长短期记忆(long short-term memory,LSTM)是神经网络的一种,适用于对时间序列的处理. 研究使用LSTM对跨国迁移模式进行预测. 移民的输入时间序列是以年为单位,因此将2008—2012年的数据作为神经网络的输入,输出2013年的迁移模式预测数据,计算获得2013年的预测移民数,与真实值进行比较. 下面简单介绍LSTM的具体思路.

LSTM是循环神经网络RNN的一种变形. 循环神经网络能够将前一个神经网络的信息传递至下一个神经网络. 每个神经网络之间是简单的链式关系. 信息在其中不断传递,虽然这样的网络可以很好地利用上一层信息,但是算法并不能连接到更远层的信息[18-19]. 这就是RNN算法的一个局限性. 但是如果在信息的传送中加入一个单元,使得信息能够永久驻留, 就能解决RNN的这一缺陷,这就是LSTM. 如图1所示,LSTM在单元中存在3个门,分别对应3个计算过程[20]. 输入门:选择需要的信息进入记忆细胞;输出门:通过输入信息和记忆细胞获得合适的输出结果;遗忘门:选择记忆细胞中不需要的信息踢出.

图 1

图 1   长短期记忆(LSTM)单元结构图

Fig.1   Structure of long and short term memory (LSTM) unit


在LSTM的计算过程中,一个新的训练过程记忆细胞发生的变化来自于输入门和遗忘门. 遗忘门决定了此次更新中记忆细胞需要丢弃的信息[21]. 如图1所示为长短期记忆单元结构图,设输入为XtXtt时刻的样本值,经过遗忘门作用,遗忘门输出影响了细胞单元. Xt经过一个 sigmoid 神经网络层,给出一个0~1.0的量,决定了可以通过的信息流的量. 再经过一个乘法操作将上个记忆细胞的数据选择性留下. 遗忘门的作用函数为

${f_{\rm{f}}}({X_t},{h_{t - 1}}) = {\rm{\sigma}} ({X_t},{h_{t - 1}}){C_{t{\rm{ - 1}}}}.$

输入Xt经过输入门时,首先会经过sigmoid得到需要更新的部分,输入Xt经过隐层算法(假定为tan),将两者获得的结果进行乘法操作.将乘积结果和之前的遗忘门最后结果相加就能获得本单元最后更新的记忆细胞状态. 输入门作用函数为

${f_{\rm{i}}}({X_t},{f_{\rm f}}({X_t},{h_{t - 1}})) = {f_{\rm f}}({X_t},{h_{t - 1}}) +{\rm{ \sigma}} ({X_t})\tan \;({X_t}).$

式中:ff为遗忘门函数,ht-1为上一个细胞的输出,Ct-1为上个细胞状态,σ函数为sigmoid函数,fi为输入门函数,fo为输出门函数.

最后更新完成的记忆细胞和输入Xt经过输出门处理得到输出结果,其中输入Xt经过sigmoid决定输出的部分,记忆细胞数据经过隐层得到所有结果,最后将结果与需要输出的部分整合,获得最终输出结果. 输出门的作用函数为

$\begin{array}{l} {f_{\rm{o}}}[{X_t},{f_{\rm{i}}}({X_t},{f_{\rm{f}}}({X_t},{h_{t - 1}}))] = \\ \quad\quad \quad {\rm{\sigma}} ({X_t})\tan \;{f_{\rm{i}}}({X_t},{f_{\rm{f}}}({X_t},{h_{t - 1}})).\end{array}$

算法最后得到的结果是之前所有输入数据的选择性处理. 在处理移民预测问题中,使用连续5 a的迁移模式对第6 a的数据进行预测,与RNN相比有一定增益.

3.3. WTSP线性拟合模型

从数学公式的角度出发,乘法分量模型就是将预测本身变成了对系数的预测. 将这样的思想运用到线性模型中,进一步提出带有时间序列预测(with time series prediction,WTSP)的线性拟合模型. 由于线性模型的系数本身作为影响力权重存在实际意义,即认为其规律可循,系数本身是可预测的. 满足时间序列预测的基本准则之后,未来的线性模型系数就可基于过去的系数拟合得出:

$ \begin{array}{*{20}{c}} \!\!\!{\left. \begin{array}{l} \!\!\!{a_{{m_T}}}({X_T}) \!=\! {m_{{T_1}}}{x_{{T_1}}} \!+\! {m_{{T_2}}}{x_{{T_2}}} \!+\cdots + {m_{{T_n}}}{x_{{T_n}}} \!=\! \displaystyle\sum\limits_{j = 1}^n {{m_{{T_j}}}{x_{{T_j}}}} ,\!\!\!\!\!\\ \!\!\! \quad \quad \quad \quad{F(x,{m_{{1_x}}},{m_{{2_x}}}, \cdots ,{m_{{T_x}}}) = {m_{{{(T + 1)}_x}}}}. \end{array} \right\}} \end{array} $

式(10)为式(1)从第1年到第T年的整合,之后利用历史的线性模型的系数求出第T+1年的模型系数,相较于式(1),式(10)中的mx都增加了时间维度, ${m_T}_{_n}$T时间下第n个特征的拟合系数, ${m_T}_{_x}$T时间下第n个特征的值.

WTSP线性拟合模型的误差主要来自两方面. 一方面是经过时间序列算法处理所得历年线性拟合结果的误差在当年的体现,即之前所有年份的线性拟合误差都会在一定权重下进入新的公式;另一方面是时间序列预测算法本身的误差. 若是以原线性拟合模型预测来年的移民人数问题,以本研究数据为例,在没有2013年真值的情况下,无法得到2013年的预测模型. 因此只能直接使用2012年的模型对2013年进行预测. 以这样的方法获得的结果也会有两方面的误差. 一方面和优化模型一样,会有当年的线性拟合结果的误差,另一方面的误差是源于2012年的移民规律和2013年的移民规律之间的差异. 第一部分的误差在线性拟合模型成立的情况下基本等同,但是对第二部分误差而言,WTSP线性拟合模型通过学习历年的规律变化趋势,理论上能够更贴近2013年的的移民规律,理论上误差会相对减小.

WTSP线性拟合模型考虑到了迁移规律随时间会出现变化.如果迁移规律出现了随时序变化的特点,WTSP线性拟合模型的性能相比于线性拟合模型将有较大提升.如果迁移规律并不随时间有明显变化,WTSP线性拟合模型的准确率就近似于线性拟合模型.

4. 模型验证

4.1. 线性拟合模型验证

将2013年欧盟所有相关数据作为备选特征,进行迭代计算,最终选择的线性模型即为针对意大利移民预测的经验模型. 在此模型中,系数能够较好地展现特征对结果的影响程度,除通信数据以外的输入数据成为偏差校正因素. 由此模型产生的针对移民数量的估计公式对其他年份的移民估计同样有指导作用.

将各国的GDP、教育数据、人口数据、旅游数据、劳动力市场数据和语种数据加入线性拟合模型. 通过逐步拟合,计算并得出需要被剔除的数据,最终的特征选择结果如表3所示. 经过9次迭代计算,剔除所有p值大于0.05的特征,如表3所示,被剔除的特征为电话打入、网络活动和语种. 由于欧盟民众一般需要学习多种外语,语种特征对移民的影响很小,语种特征也被抛弃.其原因在于邮件和电话都有接入和打出,两者在对于移民问题的相关性上难免存在冗余. 而在互联网发达的当今社会,意大利在2013年与每个国家之间的网络活动都很频繁,其对于最终拟合结果的贡献很大程度上被抵消,因此在特征选择下否定概率也较大.

表 3   线性拟合模型特征选择中不同特征的p值结果

Tab.3  p-value results for different features in feature section of linear fitting model

特征 p 特征 p
邮件收取 0 旅游 0
邮件发出 0 劳动力 0.038 4
电话打入 0.531 8 经济 0
电话打出 0 人口 0.000 8
网络活动 0.345 5 语种 0.255 9
教育 0.016 5

新窗口打开| 下载CSV


选择10个国家作为训练数据构建模型,剩下2个国家作为测试数据验证模型,k为国家序号,N为移民人数,结果如图2所示. 由图2可知,整体误差较小,用于验证的2个国家的预测误差小于15%. 从验证结果看,线性拟合模型能较好地反映当年的移民规律,但是无法对未来的移民规律作出预测.

图 2

图 2   2013年欧盟12国与意大利间移民人数的线性拟合模型的预测值与真实值对比

Fig.2   Comparison of predicted and true values of linear fitting model of the number of migrants between twelve EU countries and Italy in 2013


4.2. 乘法分量模型验证

通过模型获得的所有当年乘法分量模型的系数,如表4所示为2008—2012年的乘法分量模型系数(注:由于篇幅受限,此处只列出3个国家的数据).表4中的uIcucIc国与意大利(I)间的吸引系数. 验证过程以前3 a的数据为输入,使用LSTM预测下一年的取值,因为从统计学的角度看序列预测需要样本和预测宽度在3∶1或者以上,所以根据相关算法,使用5 a的数据可产生3个学习神经网络,会有比较好的效果.

表 4   2008—2012年基于乘法分量模型的部分国家间吸引系数

Tab.4  Inter-country Attraction Coefficient based on multiplier component model from 2008 to 2012

年份 c Fc Tc ucI uIc
2008 英国 0.044 0.143 0.234 0.680
德国 0.062 0.272 0.236 1.385
荷兰 0.029 0.045 0.112 1.091
2009 英国 0.042 0.164 0.338 1.001
德国 0.063 0.314 0.291 1.257
荷兰 0.034 0.040 0.114 0.955
2010 英国 0.041 0.152 0.318 1.172
德国 0.058 0.322 0.301 1.158
荷兰 0.035 0.046 0.116 0.840
2011 英国 0.038 0.170 0.361 1.122
德国 0.059 0.309 0.301 1.163
荷兰 0.035 0.048 0.108 0.806
2012 英国 0.041 0.167 0.359 1.089
德国 0.053 0.317 0.336 1.075
荷兰 0.036 0.051 0.108 0.847

新窗口打开| 下载CSV


基于乘法分量模型的预测可将移民流分成流入和流出,相比之前的模型粒度更细. 如图34所示分别为移民流入的预测结果和移民流出的预测结果. 图3中移入人数的预测值与真实值曲线贴合较紧密;图4中1号国家的移出人数预测准确率较低,其他国家结果较好. 观察英国移民人数历年的真实值,发现其在2013年确实出现了突变. 时间序列预测只能学习历年来的历史演变规律,无法预测当年的突变,因此并非是算法本身出现偏差. 综合12国的预测结果可知,相比于线性拟合模型,乘法分量模型不仅能将移民流分为流入和流出分别进行预测,而且模型本身也具有更好的适应性.

图 3

图 3   2013年欧盟12国移入意大利人数的乘法分量模型预测值与真实值对比

Fig.3   Comparison of predicted and true values of multiplication component model of the number of immigrants from twelve EU countries to Italy in 2013


图 4

图 4   2013年意大利移入欧盟12国人数的乘法分量模型预测值与真实值对比

Fig.4   Comparison of predicted and true values of multiplication component model of number of immigrants from Italy to twelve EU countries in 2013


通过与2013年真实数据对比发现,52个预测值中有21个值的误差小于10%,有31个值的误差小于20%. 其余一些由于2013年出现数据突变,存在一些理想情况之外的偏差. 这一点也是时间序列预测难以有效处理的地方.

相较于之前的线性拟合结果,乘法分量模型的整体性能更为稳定. 而线性拟合模型对人口规模较小国家的预测效果欠佳,这是因为线性拟合对于特异点的关注很少. 基于最小二乘法计算误差,线性拟合往往会放弃一些特异点以达到最小误差. 相反,乘法分量模型在整个欧盟范围内的适应性更强,而且区分了移入和移出的移民流,对于实际应用具有更高的价值.

4.3. WTSP线性拟合模型验证

使用WTSP线性拟合模型预测2013年的迁移模式. 于本研究没有2008—2012年的通信数据,只能使用通信数据之外的数据集来构建WTSP线性拟合模型. 需要特别指出的是,由于模型的构建缺少了通信数据,传统线性拟合模型本身的误差较大,但是从相对趋势上依旧可以体现出WTSP线性拟合模型的性能提升,如图5所示.

图 5

图 5   2013年欧盟12国与意大利间移民人数WTSP线性拟合模型预测效果与线性拟合模型预测效果对比

Fig.5   Comparison of forecasting results of linear fitting model with time series prediction and that for number of migrants between 12EU countries and Italy in 2013


经过计算,2013年线性拟合模型的计算结果与真实值的误差平方和为2.30×109. 与之,若是基于传统线性拟合思想,即拟合所得模型可以适用于后续所有年份,则2012年的模型与2013年的模型最为相近. 使用2012年的线性拟合模型预估2013年的移民人数,所得结果的误差平方和为2.39×109. 可见,即使与最相近年份的传统线性拟合模型相比,WTSP线性拟合模型亦可以使得误差下降3%左右. 由于通信数据缺失,线性拟合模型本身存在较大误差. 但正常情况下,一般认为线性拟合在当年具有较好的效果,如果历年的通信数据完整,则WTSP线性拟合模型的优化效果会更加显著.

下面将分析和讨论传统线性拟合模型产生的误差. 如图6所示,传统线性拟合模型本身的误差大概与WTSP线性拟合模型在同一数量级,因此根据之前的误差计算结果,WTSP线性拟合模型对迁移模式的时序变化部分的优化效果超过3%. 由于线性拟合模型本身的误差较大,在整体误差中占了很大比例,而且每年的误差都存在一定波动,很大程度上影响了引入时间序列预测算法后模型的优化效果.

图 6

图 6   2012年欧盟12国与意大利间移民人数的线性拟合模型预测值与真实值对比

Fig.6   Comparison ofpredictedand true values of the linear fit model of the number of migrantsbetween the 12 EU countries andItaly in 2012


相比于传统线性拟合模型,WTSP线性拟合模型考虑了迁移规律的随时间变化的特点.在移民预测问题中,移民规律仅具有一定的随时间变化的特定,没有明显的趋势性,因此WTSP线性拟合模型的优化效果有限.如果刻画的规律随时间的变化具有明显的趋势性,WTSP模型的性能优化将更高.

5. 结 语

基于多源数据的跨国人口迁移预测问题,本研究构建了线性拟合模型、乘法分量模型和WTSP线性拟合模型,针对不同的数据需求,给出了不同的解决方案. 所构建的3种模型各有千秋. 线性拟合模型和WTSP线性拟合模型的预测效果都和特征选择的效果息息相关,但是乘法分量模型并不依赖于特征的选择. 相比线性拟合模型,WTSP模型对于数据量的需求更高,训练时间更长,但是有较好的效果. 乘法分量模型只需要移民数据本身,不依赖于其他数据集,性能更加稳定. 从应用角度看,在单个数据源情况下,乘法分量模型的效果更优. 在多源数据处理的情况下,如果对精度的要求不高,可以考虑直接使用线性拟合模型,以减少训练成本. 如果是有较高的精度要求,需要使用WTSP线性拟合模型处理数据.

后续拟针对不同模型的特点开展下述几个方面的工作. 其一,由于乘法分量模型的误差与使用的时间序列预测算法直接相关,无法避免时间序列预测本身的误差,未来将进一步优化时间序列预测算法. 其二,相比线性拟合模型和乘法分量模型,WTSP线性拟合模型需要更大规模的数据支撑,以保证其性能提升并降低误差波动,后续拟收集规模更大、更为丰富的数据,以更加充分地验证该模型的性能.

参考文献

BILSBORROW R E, HUGO G, OBERAI A S

International migration statistics: guidelines for improving data collection systems

[J]. International Labour Office, 1997, 33 (1): 204

[本文引用: 3]

COLEMAN D

The twilight of the census

[J]. Population and Development Review, 2013, 38 (Suppl.1): 334- 351

[本文引用: 2]

JAMES R, ARKADIUSZ W, JONATHAN J, et al

Integrated modeling of European migration

[J]. Journal of the American Statistical Association, 2013, 108 (503): 801- 819

DOI:10.1080/01621459.2013.789435      [本文引用: 3]

KUPISZEWSKA D, WIŚNIOWSKI A

Availability of statistical data on migration and migrant population and potential supplementary sources for data estimation

[J]. Jornal Brasileiro de Patologia e Medicina Laboratorial, 2003, 43 (43): 235- 240

[本文引用: 1]

GROENEWOLD W G F, BILSBORROW R, BONIFAZI C, et al

Design of samples for international migration surveys: methodological considerations and lessons learned from a multi-country study in Africa and Europe

[J]. Imiscoe Research, 2008, 293- 312

[本文引用: 1]

ABEL G J

Estimating global migration flow tables using place of birth data

[J]. Demographic Research, 2013, 28 (2): 505- 546

[本文引用: 1]

ABEL G J

Estimates of global bilateral migration flows by gender between 1960 and 2015

[J]. International Migration Review, 2017, (11), 52 (3): 809- 852

ABEL G J, SANDER N

Quantifying global international migration flows

[J]. Science, 2014, 343 (6178): 1520- 1522

DOI:10.1126/science.1248676      [本文引用: 1]

HAWELKA B, SITKO I, BEINAT E, et al

Geo-located Twitter as proxy for global mobility patterns

[J]. Cartography and Geographic Information Science, 2014, 41 (3): 260- 271

DOI:10.1080/15230406.2014.890072      [本文引用: 1]

LENORMAND M, TUGORES A, COLET P, et al

Tweets on the road

[J]. PLoS One, 2014, 9 (8): e105407

DOI:10.1371/journal.pone.0105407      [本文引用: 1]

WANG W, DAVID R, SHARAD G, et al

Forecasting elections with non-representative polls

[J]. International Journal of Forecasting, 2015, 31 (3): 980- 991

DOI:10.1016/j.ijforecast.2014.06.001      [本文引用: 1]

RAYMER J, ABEL G, SMITH P W F

Combining census and registration data to estimate detailed elderly migration flows in England and Wales

[J]. Journal of the Royal Statistical Society: Series A (Statistics in Society), 2007, 170 (4): 891- 908

DOI:10.1111/rssa.2007.170.issue-4      [本文引用: 1]

DORIGO G, TOBLER W

Push-pull migration laws

[J]. Annals of the Association of American Geographers, 1983, 73 (1): 1- 17

DOI:10.1111/j.1467-8306.1983.tb01392.x      [本文引用: 1]

HU X, MANAGEMENT S O

Analysis on the motivation and obstruction of in-situ urbanization in China based on the push and pull theory

[J]. Journal of Hebei Normal University of Science and Technology, 2017, 16 (4): 38- 45

[本文引用: 1]

MARKOVSKY, IV AN, VAN H, et al

Overview of total least-squares methods

[J]. Signal Processing, 2013, 87 (10): 2283- 2302

[本文引用: 1]

ESCANCIANO J C

Goodness-of-fit tests for linear and nonlinear time series models

[J]. Publications of the American Statistical Association, 2006, 101 (474): 531- 541

DOI:10.1198/016214505000001050      [本文引用: 1]

ALI B N, DANNY H, LUIZ F C

Towards an early soft-ware estimation using log-linear regression and a multilayer perceptron model

[J]. The Journal of Systems and Software, 2013, 86 (1): 144- 160

DOI:10.1016/j.jss.2012.07.050      [本文引用: 1]

QIAO C, CHEN H B, JING W F, et al

Towards establishing a meaningful and practical dynamics results for the unified RNN model

[J]. Neurocomputing, 2015, 157: 315- 322

DOI:10.1016/j.neucom.2014.12.007      [本文引用: 1]

廖大强, 印鉴

基于多分支RNN快速学习算法的混沌时间序列预测

[J]. 计算机应用研究, 2015, 32 (2): 403- 408

DOI:10.3969/j.issn.1001-3695.2015.02.019      [本文引用: 1]

LIAO Da-qiang, YIN Jian

Chaotic time series of fast learning algorithm of multi branch prediction based on RNN

[J]. Application Research of Computers, 2015, 32 (2): 403- 408

DOI:10.3969/j.issn.1001-3695.2015.02.019      [本文引用: 1]

LI Y F, CAO H

Prediction for tourism flow based on LSTM neural network

[J]. Procedia Computer Science, 2018, 129: 227- 283

[本文引用: 1]

张亮, 黄曙光, 石昭祥, 等

基于LSTM型RNN的CAPTCHA识别方法

[J]. 模式识别与人工智能, 2011, 24 (1): 40- 47

DOI:10.3969/j.issn.1003-6059.2011.01.005      [本文引用: 1]

ZHANG Liang, HUANG Shu-guang, SHAO Zhao-xiang, et al

CAPTCHA recognition method based on RNN of LSTM

[J]. Pattern Recognition and Artificial Intelligence, 2011, 24 (1): 40- 47

DOI:10.3969/j.issn.1003-6059.2011.01.005      [本文引用: 1]

/