<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 提出的路况预测模型的流程图

Fig.1 Flow figure of proposed road prediction model

2.1. 数据预处理部分

数据预处理部分负责从原始交通流数据中提取各个时刻的车流量和车速信息，对因采集设备故障而缺失的数据采用历史趋势法和指数平滑法进行数据修补. 将处理后数据转变为时间序列数据，作为评价参数预测部分的输入. 目前的研究多将数据处理为时间间隔为30、10、5 min的时间序列数据. 越短的时间间隔越有实际应用价值，数据的稀疏性和预测难度越大^[21]. 过短的时间间隔会导致决策者来不及下达合理的决策. 综合考虑，以5 min为时间间隔处理交通流数据. 以车流量为例，设计的模型输入如下：

(1) $ \begin{array}{l} {{{{X}}}} = \left[ \begin{array}{l} {{{{{{x}}}}_1}} \\ {{{{{{x}}}}_2}} \\ \vdots \\ {{{{{{x}}}}_{{N}}}} \end{array} \right] = \\ \left[\!\!\! {\begin{array}{*{20}{c}} {{{x}}_1^{{{i}} - 7{{n}},{{j}}}}&{{{x}}_1^{{{i}} - {\rm{7}}{{n}}{\rm{ + 7}},{{j}}}}\!\!\!\!& \!\!\!\!\cdots\!\! &{{{x}}_1^{{{i}} - 7,{{j}}}}\\ {{{x}}_2^{{{i}} - 7{{n}},{{j}}}}&{{{x}}_2^{{{i}} - {\rm{7}}{{n}}{\rm{ + 7}},{{j}}}}&\!\!\!\! \cdots\!\!\!\! &{{{x}}_2^{{{i}} - 7,{{j}}}}\\ \vdots&\vdots&\;&\vdots\\ {{{x}}_{{N}}^{{{i}} - 7{{n}},{{j}}}}&{{{x}}_{{N}}^{{{i}} - {\rm{7}}{{n}}{\rm{ + 7}},{{j}}}}\!\!\!\!& \!\!\!\!\cdots &{{{x}}_{{N}}^{{{i}} - 7,{{j}}}} \end{array}\begin{array}{*{20}{c}} {{{x}}_1^{{{i}},{{j}} - {{m}}}}\!\!\!\!& \!\!\!\!\cdots &\!\!\!\!\!\!{{{x}}_1^{{{i}},{{j}} - 1}}&\!\!\!{{{x}}_1^{{{i}},{{j}}}}\\ {{{x}}_2^{{{i}},{{j}} - {{m}}}}\!\!\!\!& \!\!\!\!\cdots &\!\!\!{{{x}}_2^{{{i}},{{j}} - 1}}&\!\!\!{{{x}}_2^{{{i}},{{j}}}}\\ \vdots&\;&\vdots&\vdots\\ {{{x}}_{{N}}^{{{i}},{{j}} - {{m}}}}\!\!\!\!& \!\!\!\!\cdots &\!\!\!{{{x}}_{{N}}^{{{i}},{{j}} - 1}}&\!\!\!{{{x}}_{{N}}^{{{i}},{{j}}}} \end{array}} \!\!\!\right]. \end{array} $

式中： ${\left[ {{{x}}_1^{{{i}},{{j}}},{{x}}_2^{{{i}},{{j}}}, \cdots ,{{x}}_{{N}}^{{{i}},{{j}}}} \right]^{\rm{T}}}$为待预测的车流量， $i$为天数； $j$为时段； $N$为样本总数； ${\left[ {{{{x}}_{{{i}},{{j}} - {{m}}}},{{{x}}_{{{i}},{{j}} - {{m}} - 1}}, \cdots ,{{{x}}_{{{i}},{{j}} - 1}}} \right]^{\rm{T}}}$为第 $i$天内第 $j$时段的前 $m$个时段的车流量，体现数据的横向周期性； ${\left[ {{{{x}}_{{{i}} - {\rm{7}}{{n}},{{j}}}},{{{x}}_{{{i}} - {\rm{7}}{{n}}{\rm{ + 7}},{{j}}}}, \cdots ,{{{x}}_{{{i}} - 7,{{j}}}}} \right]^{\rm{T}}}$为前 $n$周内第 $i$天的第 $j$时段的车流量（即某一时刻的车流量应受到前 $n$周同一时刻车流量的影响），体现数据的纵向周期性； $m$通常被称为预测步长， $m$和 $n$都为正整数. 根据所用的实验数据，将 $m$设为10， $n$设为3. 预测车速的方法和车流量预测方法相同.

2.2. 评价参数预测部分

评价参数预测部分负责利用Spark集群高效地训练预测模型，预测未来时刻的车流量和车速信息，基于预测结果计算未来时刻的平均车速、路段饱和度和道路密度. 路段饱和度是指该路段实际交通流量与最大通行车流量的比值，反映道路的实际负荷能力. 路段饱和度的计算方法如下：

(2) $ S = {V_{\rm{r}}}/{C}. $

式中： $V_{\rm{r}}$为该道路的当前车流量， $C$为道路最大通行车流量.

交通流密度是指在单位时间内该条道路单位长度内的车辆数，计算方法如下：

(3) $ D = {f}/{v}. $

式中： $f$为车流量， $v$为平均速度.

2.3. 路况评价部分

路况评价部分负责通过熵值法和模糊综合评价法来评价未来时刻的路况. 考虑《道路通行能力手册》，将路况划分为6个级别：特别畅通、畅通、轻级拥堵、中级拥堵、重级拥堵和锁死.

设评价参数预测部分的结果为 ${{R}} = \left[ {{{R}}_{\rm{1}}},{{{R}}_{\rm{2}}}, \cdots , \right. $ $ \left.{{{R}}_{{i}}} \right]^{\rm{T}}$. 选取平均车速、道路饱和度和交通流密度3个指标作为路况评价参数，故 $i = 3$. ${{{R}}_{{i}}}$表示某个时间间隔对应的车流量、道路饱和度和交通流密度. 评价矩阵为

(4) $ {{{{R}}}} = \left[ \begin{array}{l} {{{{{R}}}}_{\rm{1}}}\\ {{{{{R}}}}_2}\\ {{{{{R}}}}_3} \end{array} \right] = \left[ {\begin{array}{*{20}{c}} {{{{r}}_{11}}}&{{{{r}}_{12}}}& \cdots &{{{{r}}_{16}}}\\ {{{r}}{}_{21}}&{{{{r}}_{22}}}& \cdots &{{{{r}}_{26}}}\\ {{{{r}}_{31}}}&{{{{r}}_{32}}}& \cdots &{{{{r}}_{36}}} \end{array}} \right]. $

式（4）的含义是对每个因素 $i$，通过隶属函数求得第 $j$个等级的隶属度 ${r_{ij}}$. 选用的梯形隶属函数如图2所示. 图中， $\left\{ {{u_1},{u_2}, \cdots ,{u_5}} \right\}$为每个因素指标的阈值范围， $\left\{ {{k_1},{k_2}, \cdots ,{k_{10}}} \right\}$为每个因素指标的临近阈值线性取值；纵坐标1表示属于该级别，0表示不属于该级别. 对于交通流密度和道路饱和度这类正向因素指标，函数从左到右的状态为特别畅通到锁死. 平均速度是负向指标，即平均速度越小越拥堵，故从左到右的状态为锁死到特别畅通. 根据隶属函数可知， ${r_{ij}}$的计算公式为

图 2

图 2 本文使用的隶属函数

Fig.2 Membership function used in this paper

(5) $ \!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!{r_{i1}} = \left\{ \begin{array}{l} {\rm{ }}0,\;\;\;x \leqslant {k_1} ; \\ \dfrac{{{k_2} - x}}{{{k_2} - {k_1}}},\;{k_1} < x < {k_2} ; \\ {\rm{ }}1,\;\;\;x \geqslant {k_2} . \\ \end{array} \right. $

(6) $ {r_{ij}}\left( {j = 2,3,4,5} \right) = \left\{ \begin{array}{l} {\rm{ }}0,\;\;\;x \leqslant {k_i}\;{\text{或}}\;x \geqslant {k_{i + 3}} ;\\ \dfrac{{x - {k_i}}}{{{k_{i + 1}} - {k_i}}},\;\;\;{k_i} < x < {k_{i + 1}} ;\\ {\rm{ }}1,\;\;\;{k_{i + 1}} \leqslant x \leqslant {k_{i + 2}} ; \\ \dfrac{{{k_{i + 3}} - x}}{{{k_{i + 3}} - {k_{i + 2}}}},\;\;\;{k_{i + 2}} < x < {k_{i + 3}} . \\ \end{array} \right. $

(7) $ \!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!{r_{i6}} = \left\{ \begin{array}{l} {\rm{ }}0,\;\;\;x \leqslant {k_{\rm{9}}} ; \\ \dfrac{{x - {k_{\rm{9}}}}}{{{k_{{\rm{10}}}} - {k_{\rm{9}}}}},\;{k_{\rm{9}}} < x < {k_{{\rm{10}}}} ; \\ {\rm{ }}1,\;\;\;x \geqslant {k_{{\rm{10}}}}. \\ \end{array} \right. $

利用熵值法求出平均车速、路段饱和度和道路密度的权重系数 ${{W}}{\rm{ = }}\left[ {{{{w}}_1},{{{w}}_2},{{{w}}_3}} \right]$. 由于高峰时段交通流和平常时段交通流存在显著差异，应求出2组权重系数 ${{{W}}_{{\rm{peak}}}}{\text{、}}{{{W}}_{{\rm{normal}}}}$，分别表示高峰时段和平常时段的3个指标权重. 通过模糊合成算子求得模糊综合评价向量，公式为

(8) $ {{B}} = {{W}} \circ {{R}} = \left[ {{{{b}}_1},{{{b}}_2}, \cdots ,{{{b}}_6}} \right]. $

使用 $M\left( { \cdot , \oplus } \right)$作为模糊合成算子. $M\left( { \cdot , \oplus } \right)$更能够体现权重的作用，且能够充分利用 ${{R}}$中的信息. 根据最大隶属度原则可知，若 ${b_1} = \max \left\{ {{{{b}}_1},{{{b}}_2}, \cdots ,{{{b}}_6}} \right\}$，则该时刻的路况为非常畅通.

3. SPGAPSO-CKRVM算法

3.1. RVM的组合核函数

传统的RVM大多采用单一的核函数完成特征空间的映射过程，包括线性核、多项式核、RBF核、Sigmoid核和Laplacian核. 其中，线性核和多项式核在单维和低维数据中的效果更好. RBF核和Sigmoid核在高维数据和分类问题中被广泛使用. 单一核函数在样本规模较大或样本在高维空间中分布不平坦时效果不佳^[22]. 针对该问题，将常用核函数进行组合，构建组合核函数，如下所示：

(9) $ f_1\left( {{{a}}_1,{{{a}}_2}} \right) \!=\! \exp\; \left( { - \dfrac{{{{\left\| {{{a}}_1 - {{{a}}_2}} \right\|}^2}}}{{2{\sigma ^2}}}} \right)\lambda \! +\! \left( {{\rm{1 - }}\lambda } \right)\left[ {\gamma {{\left( {{{a}}_1^{\rm{T}}{{a}}_2 + 1} \right)}^d} + c} \right], $

(10) $ f_2\left( {{{a}}_1,{{{a}}_2}} \right) \!=\! \exp \;\left( { - \dfrac{{\left\| {{{a}}_1 - {{{a}}_2}} \right\|}}{{2{\sigma ^2}}}} \right)\lambda + \left( {{\rm{1 - }}\lambda } \right)\left[ {\gamma {{\left( {{{a}}_1^{\rm{T}}{{a}}_2 + 1} \right)}^d} + c} \right]. $

式中： $\sigma $为核函数宽度； $\lambda $为权重系数，满足约束条件 $0 \leqslant \lambda \leqslant 1.0$. 由于RVM的核函数不需满足Mercer定理，不需要对组合核函数进行可用性证明. 组合核函数使得RVM不仅具有RBF核函数和Laplacian核的局部学习能力，而且具有多项式核函数较强的泛化能力.

3.2. 组合核RVM的参数寻优算法

组合核RVM的参数寻优问题和一般的RVM参数寻优问题不同，如式（9）、（10）中的 $\lambda $是需要优化的超参数. 针对组合核RVM，参数寻优问题的数学模型可以表示为

(11) $ P = \left\{ {\sigma {}_{{\rm{best}}},\lambda {}_{{\rm{best}}},d{}_{{\rm{best}}}} \right\}. $

基于GA和PSO，构建参数寻优算法. 随机初始化2个种群，分别进行GA操作和PSO操作. 在每次迭代中，通过计算个体适应度的方式来比较出两者中的较优值，将该较优值作为该次迭代的结果进入下次迭代. $\sigma $的更新如下所示：

(12) $ {\sigma _{{\rm{best}}}} = \left\{ \begin{array}{l} \sigma {}_{{\rm{gabest}}},{\rm{fitnes}}{{\rm{s}}_{{\rm{ga}}}} \geqslant {\rm{fitnes}}{{\rm{s}}_{{\rm{pso}}}} ; \\ \sigma {}_{{\rm{psobest}}},{\rm{fitnes}}{{\rm{s}}_{{\rm{ga}}}} \leqslant {\rm{fitnes}}{{\rm{s}}_{{\rm{pso}}}} . \\ \end{array} \right. $

$\lambda $和 $d$的更新与 $\sigma $类似. GA和PSO都拥有迭代寻优的共性，GA和PSO的混合算法可以在迭代中利用GA的搜索范围大和PSO快速收敛的能力. 采用RVM的MSE作为适应度函数. 将参数寻优得到的 $\left\{ {\sigma {}_{{\rm{best}}},\lambda {}_{{\rm{best}}},d{}_{{\rm{best}}}} \right\}$作为RVM的运行参数输入，可以求出RVM预测模型的准确率 $A$. 将 $A$定义为RVM参数寻优问题的目标函数，可以将RVM参数寻优问题描述为

(13) $\left. { \begin{array}{l} \max\; A = {\rm{RVM}}\left( P \right) ; \\ \begin{split} {\rm{s.t.}}\;\;\;\;& P = \left\{ {\sigma {}_{{\rm{best}}},\lambda {}_{{\rm{best}}},d{}_{{\rm{best}}}} \right\} , \\ & {{{\sigma _{\min }}}} \leqslant \sigma {}_{{\rm{best}}} \leqslant {{{\sigma _{\max }}}}, \\ & {d_{\min }} \leqslant d{}_{{\rm{best}}} \leqslant {d_{\max }} , \\ & 0 \leqslant \lambda {}_{{\rm{best}}} \leqslant 1.0. \\ \end{split} \\ \end{array} } \right\} $

式中： ${{{\sigma _{\min }}}}$和 ${{{\sigma _{\max }}}}$分别为 $\sigma $的最小值和最大值，一般分别取2⁻⁸和2⁸； ${d_{\min }}$和 ${d_{\max }}$分别为 $d$的最小值和最大值，一般分别取0和inf. 判断所得结果是否满足终止条件，当满足终止条件时，终止参数寻优算法的迭代. 终止条件如下所示：

(14) $ \min \left\{ {{\rm{fitnes}}{{\rm{s}}_{{\rm{ga}}}},{\rm{fitnes}}{{\rm{s}}_{{\rm{pso}}}}} \right\} \leqslant {\rm{fitnes}}{{\rm{s}}_{\min }}\;{\text{或}}\;T \leqslant {T_{\max }}. $

式中： ${\rm{fitnes}}{{\rm{s}}_{{\rm{min}}}}$为最小适应度，即可接受的最小误差； $T$为迭代次数； ${T_{\max }}$为最大迭代次数.

3.3. 参数寻优算法耗时分析

参数寻优算法中的GA和PSO均可以分为初始化种群、种群更新、计算适应度3部分，如图3所示.

图 3

图 3 参数寻优算法的结构

Fig.3 Structure of parameter optimization algorithm

如图3所示，初始化种群部分包括随机生成初始化种群和计算初始化种群适应度. 种群更新部分包括选择、交叉、变异、速度更新、位置更新和种群更新. 计算适应度部分负责遍历种群中的所有个体并计算个体适应度.

为了研究算法的各部分耗时，运行参数寻优算法20次，其中 ${T_{\max }}$为10，种群规模为10. 计算并记录各部分消耗时间的平均值. 运行结果如图4所示.

从图4可知，计算逻辑较复杂的种群更新部分耗时仅约占总耗时的0.1%. 计算适应度部分耗时最高，占据了总耗时的90%以上，这是因为计算适应度需要计算RVM的MSE. 如 ${T_{\max }}$为10，种群规模为10，则须重复训练RVM 100次. 即使在数据量小的情况下，参数寻优算法依然耗时很多. 这是现有并行化训练方法（如Cascade SVM^[23]、SP-SVM^[24]）无法解决的问题. 针对计算适应度耗时过长的问题，利用Spark对算法进行并行化处理来减少计算适应度的耗时，提高模型的训练效率.

图 4

图 4 参数寻优算法各部分耗时

Fig.4 Time consumed by each part in parameter optimization algorithm

3.4. 基于Spark的并行化设计

Spark 是专门为处理大规模数据而设计的通用计算引擎，因为可以将中间输出结果保存在内存中，Spark能够更好地运行要迭代的数据挖掘与机器学习算法^[25]. 提出的并行化算法主要依赖Spark所特有的数据格式——弹性分布式数据集（resilient distributed datasets，RDD），进行并行化设计. SPGAPSO-CKRVM的整体流程如图5所示.

图 5

图 5 SPGAPSO-CKRVM的算法流程图

Fig.5 Algorithm flow chart of SPGAPSO-CKRVM

1）初始化.

初始化Spark运行参数，关键的参数包括default.parallelism、executor.cores和num-executors，分别对应RDD默认并行度、每个executor占用CPU cores的数量和executors的总数. 从外部文件中读取实验数据，根据下式进行基于极值的归一化处理，将数据压缩至（0，1）.

(15) $ {X_{{\rm{norm}}}} = \dfrac{{X - {X_{\min }}}}{{{X_{\max }} - {X_{\min }}}}. $

式中： $X$为原始数据， ${X_{\max }}$和 ${X_{\min }}$分别为原始数据集的最大值和最小值. 随机生成 $m$组 $\left\{ {\sigma ,\lambda ,d} \right\}$作为初始种群，利用初始种群创建RDD. $m$一般被称为种群大小.

2）计算个体适应度.

将初始种群划分为 $n$个子种群，利用map函数并行计算每个子种群的个体适应度. 根据RDD的惰性机制，利用collect函数触发map函数中涉及的计算，将RDD类型的子种群转化为列表，即合并所有个体的适应度到一个list中. 让一部分子种群进行SPGA操作，另一部分进行SPPSO操作.

3）种群更新.

在SPGA操作中，根据个体适应度的计算结果和轮盘赌思想进行选择操作，即越优秀的个体被选中的概率越大. 对选择出的个体进行交叉操作和变异操作，以产生下一代种群. 在SPPSO操作中更新各粒子的速度及位置，以产生下一代种群. 重新计算个体适应度，比较2个下一代种群的个体适应度，保留最优值.

4）验证准确率.

将3）得到的结果解码为 $\left\{ {\sigma ,\;\lambda ,\;d} \right\}$，作为RVM的参数输入. 若满足式（14），则作为最终解 $\{ \sigma {}_{{\rm{best}}}, $ $ \lambda {}_{{\rm{best}}},d{}_{{\rm{best}}} \}$输出；若不满足，则返回3）.

4. 相关实验及结果分析

4.1. 实验数据

使用从加拿大Whitemud Drive公路1027号、1036号和1042号监测点的地感磁线圈收集到的交通流数据作为实验数据. 数据由加拿大阿尔伯塔大学智慧交通研究中心提供. 数据集中含有2015年8月6号到8月28号的交通流数据，收集频率为20 s/次. 其中8月28号的数据为测试集. 实验数据对应的监测点信息如表1所示.

表 1 Whitemud Drive公路实验数据信息

Tab.1 Information of experiment data in Whitemud Drive Road

数据集编号	道路	方向	监测点编号
数据集1	Whitemud Drive	向东	1027
数据集2	Whitemud Drive	向西	1036
数据集3	Whitemud Drive匝道	向西	1042

4.2. 实验环境及参数设置

通过虚拟机，搭建8个节点的Spark集群来验证SPGAPSO-CKRVM算法的性能. 集群的详细配置如下：CentOS-6.10-x64、Spark-2.1.1-bin-hadoop2.7、hadoop-2.7.2.tar、pyspark-2.3.2、py4j-0.10.8.1. SPGAPSO-CKRVM算法的参数设置如表2所示.

表 2 SPGAPSO-CKRVM算法的参数设置

Tab.2 Parameter setting of SPGAPSO-CKRVM

参数	参数值
种群大小 $m$	10
最大迭代次数 $T$	20
最小适应度 ${\rm{fitnes}}{{\rm{s}}_{{\rm{min}}}}$	0.000 1
交叉概率	0.6
变异概率	0.2
粒子群学习因子	1.5
粒子速度	[−0.2，0.2]
粒子位置	[−8，8]

在大量实验中发现，针对本文的应用和数据集，种群大小为10的GA和PSO经常在16~18代停止收敛. 将 $T$设为20.

4.3. 实验结果分析

4.3.1. RVM核函数的性能实验

在RVM核函数的性能实验中，使用准确率（1−MAPE）作为标准，评价核函数的性能. 实验结果如表3所示.

表 3 不同核函数的性能对比结果

Tab.3 Comparison of performance of different kernel function

编号	核函数	准确率
编号	核函数	数据集1	数据集2	数据集3
1	$\exp\; \left( { - \dfrac{ {\left\\| {{{a}}_1 - {{{a}}_2} } \right\\|} }{ { {\rm{2} }{\sigma ^{\rm{2} } } } } } \right)$	0.8084	0.7964	0.7131
2	$\exp\; \left( { - \dfrac{ { { {\left\\| {{{a}}_1 - {{{a}}_2} } \right\\|}^2} } }{ {2{\sigma ^2} } } } \right)$	0.8520	0.8355	0.7452
3	${{a}}_1^{\rm{T}}{{a}}_2$	0.8529	0.8310	0.7472
4	$\gamma {\left( {{{a} }_1^{\rm{T} }{{a} }_2 + 1} \right)^d} + c$	0.8514	0.8367	0.7544
5	$\exp\; \left( { - \dfrac{ {\left\\| {{{a}}_1 - {{{a}}_2} } \right\\|} }{ {2{\sigma ^2} } } } \right)\lambda + \left( { {\rm{1 - } }\lambda } \right)\left[ {\gamma { {\left( {{{a}}_1^{\rm{T}}{{a}}_2 + 1} \right)}^d} + c} \right]$	0.8529	0.8368	0.7554
6	$\exp \;\left( { - \dfrac{ { { {\left\\| {{{a}}_1 - {{{a}}_2} } \right\\|}^2} } }{ {2{\sigma ^2} } } } \right)\lambda + \left( { {\rm{1 - } }\lambda } \right)\left[ {\gamma { {\left( {{{a}}_1^{\rm{T}}{{a}}_2 + 1} \right)}^d} + c} \right]$	0.8503	0.8387	0.7555

从表3可知，所有核函数在数据集1和数据集2上的准确率都高于数据集3. 这是因为数据集3对应的匝道车流量随机性更强，预测难度更大. 编号为5和6的组合核函数性能普遍优于编号为1~4的单一核函数. 除了在数据集1中，编号为6的组合核函数准确率高于编号为5的组合核函数. 使用编号为6的组合核函数作为RVM的核函数，开展后续实验.

4.3.2. 评价参数预测实验

在评价参数预测实验中，利用RMSE、MAE 和MAPE作为评价指标，将提出的SPGAPSO-CKRVM与现有的机器学习和深度学习算法进行对比. 车流量预测的结果如表4所示.

表 4 不同算法模型预测车流量的对比

Tab.4 Comparison of traffic flow predicted by different algorithms and models

算法模型	数据集1			数据集2			数据集3
算法模型	MSE	RMSE	MAPE	MSE	RMSE	MAPE	MSE	RMSE	MAPE
PSO-SVM	564.06	23.75	0.1624	251.54	15.86	0.1724	48.86	6.99	0.2701
LSTM	493.13	22.21	0.1435	234.37	15.31	0.1689	82.88	9.10	0.2702
GRU	495.68	22.26	0.1432	233.978	15.29	0.1676	83.10	9.12	0.2733
CNN-LSTM	483.18	21.92	0.1438	235.89	15.36	0.1663	82.43	9.08	0.2659
CNN-GRU^[26]	487.46	22.07	0.1429	229.62	15.15	0.1648	82.44	9.08	0.2640
Bi-LSTM^[27]	481.34	21.94	0.1545	223.13	14.94	0.1811	81.58	9.03	0.2703
GA-CKRVM^[28]	433.53	20.82	0.1412	161.56	12.71	0.1616	62.24	7.76	0.2347
CNN-Bi-LSTM	477.35	21.84	0.1396	227.11	15.07	0.1622	81.79	9.04	0.2578
SPGAPSO-CKRVM	392.43	19.81	0.1383	161.1	12.69	0.1589	41.09	6.41	0.2232

GA-CKRVM是利用GA单独优化组合核RVM，但未考虑纵向周期性. 从表4可知，传统PSO-SVM的表现最差. LSTM、GRU、CNN-LSTM等基于RNN的深度学习算法表现优于PSO-SVM的算法. GA-CKRVM的表现略优于以上算法. SPGAPSO-CKRVM在3个数据集中的表现均优于其他对比算法. SPGAPSO-CKRVM的预测结果如图6所示. 图中， $f$为车流量.

图 6

图 6 利用SPGAPSO-CKRVM预测3个路段的车流量结果

Fig.6 Traffic flow prediction results in three stations by SPGAPSO-CKRVM

为了展现模型在处理数据纵向周期性和横向周期性方面的优势，增大了测试集，将最后一周的数据作为测试集. 预测结果如图7所示.

图 7

图 7 增大测试集后利用SPGAPSO-CKRVM预测3个路段的车流量结果

Fig.7 Traffic flow prediction results in three stations after increasing test set

为了开展路况预测的实验，利用SPGAPSO-CKRVM对车速数据进行预测. 车速的预测结果如表5所示.

表 5 不同算法模型预测车速的对比

Tab.5 Comparison of speed predicted by different algorithms and models

算法模型	数据集1			数据集2			数据集3
算法模型	MSE	RMSE	MAPE	MSE	RMSE	MAPE	MSE	RMSE	MAPE
PSO-SVM	6.0762	2.4650	0.0738	7.2539	2.6933	0.0768	7.1888	2.6812	0.0754
LSTM	5.1940	2.2790	0.0596	5.6122	2.3690	0.0625	5.5984	2.3661	0.0629
GRU	5.1532	2.2701	0.0583	5.6074	2.3681	0.0628	5.6164	2.3699	0.0632
CNN-LSTM	5.1726	2.2740	0.0582	5.3024	2.3027	0.0613	5.5418	2.3541	0.0622
CNN-GRU	5.0687	2.2514	0.0576	5.2964	2.3014	0.0612	5.5469	2.3552	0.0621
Bi-LSTM	5.1557	2.2706	0.0579	5.4228	2.3287	0.0627	5.5691	2.3599	0.0625
GA-CKRVM	4.8118	2.1936	0.0581	5.0895	2.2560	0.0603	5.5145	2.3483	0.0597
CNN-Bi-LSTM	5.0794	2.2538	0.0572	5.1734	2.2745	0.0599	5.5286	2.3513	0.0603
SPGAPSO-CKRVM	4.6656	2.1601	0.0570	4.9809	2.2318	0.0586	5.4214	2.3284	0.0589

从表5可以看出，车速预测和车流量预测的对比结果类似. 增大车速预测的测试集后，SPGAPSO-CKRVM在3个数据集中对应的MAPE为0.060 6、0.058 9和0.059 1，RMSE为2.187 2、2.248 2和2.317 4. SPGAPSO-CKRVM的表现均优于其他算法或模型，预测准确率可以满足路况预测的要求.

4.3.3. 算法可扩展性实验

算法可扩展性实验用于测试是否可以通过增加节点来提高算法运行速度，通过计算加速比来衡量并行化效果. 该实验基于单个节点、2个节点、4个节点和8个节点，运行SPGAPSO-CKRVM算法10次，记录实验结果并计算加速比. 加速比的计算方式如下：

(16) $ {S_n}= {{{T_{\rm{1}}}}}/{{{T_n}}}. $

式中： ${T_{\rm{1}}}$为算法串行运行时间， ${T_n}$为算法在 $n$个节点并行的运行时间. 实验结果如图8、9所示.

图 8

图 8 不同情况下的训练时间

Fig.8 Training time under different circumstances

图 9

图 9 不同情况下的加速比计算结果

Fig.9 Result of speedup under different circumstances

种群大小决定SPGAPSO-CKRVM的计算量. 从图8可以看出，随着计算量的逐步增大，运行时间呈线性增长. 当计算量小时，算法在单个节点、2个节点、4个节点和8个节点上的训练时间差别较小. 随着计算量的增大，8个节点的运行时间远远低于4个节点、2个节点和单个节点. 这是因为节点数越多，每个计算节点负责处理的计算量越小.

从图9可以看出，在计算量小的情况下，加速效果不明显. 这是因为集群的启动作业、划分任务和分配资源等基础操作的消耗时间较多，集群尚未发挥到理想的效果. 随着计算量的增大，并行计算的优势越来越明显，加速比呈增长趋势并逐渐趋于理想值. 实验结果验证了提出的SPGAPSO-CKRVM算法具有较好的可扩展性.

4.3.4. 路况预测结果

由于在进行车速预测时使用的数据为平均车速，不需进行平均车速的计算. 根据美国发行的《道路通行能力手册》计算出Whitemud Drive的最大道路通行能力约为单车道180 PCH，根据式（2）、（3）计算ID1027路段未来时刻的路段饱和度和交通流密度.

利用Matlab计算得到 ${{{W}}_{{\rm{peak}}}}{\rm{ = [0}}{\rm{.32,0}}{\rm{.454\;6,}} $ $ {\rm{0.225\;3]}}$和 ${{{W}}_{{\rm{normal}}}}{\rm{ = [0}}{\rm{.424,0}}{\rm{.193\;3,0}}{\rm{.382\;7]}}$，根据隶属度最大原则得到路况的预测结果. 实际路况利用测试集中真实的车流量和车速进行模糊综合评价，划分为6个等级，对比结果如图10所示. 图中， $b$为路况等级，“1~6”分别对应特别畅通、畅通、轻级拥堵、中级拥堵、重级拥堵和锁死路况.

图 10

DOI:10.3778/j.issn.1673-9418.2001029 [本文引用: 1]

图 10 路况预测结果

Fig.10 Result of road condition prediction

从图10可知，早高峰比晚高峰更拥堵，甚至已出现锁死路况. 晚高峰路况比早高峰路况缓和一些. 路况预测结果与实际路况基本吻合，共28个时刻存在误差，路况预测准确率为90.28%，证明了模糊综合评价路况的合理性.

5. 结　语

本文结合RVM、智能算法、Spark并行化技术和模糊综合评价，构建准确的路况预测模型. 利用加拿大Whitemud Drive公路的真实数据进行实验后可知，提出的模型在预测精度上优于其他方法，有效缩短了参数寻优的时间，能够准确地预测未来路况，准确率可以达到90.28%. 进一步的研究方向如下. 1）考虑更多的可能影响车流量的因素，例如平均车速、车道占用率和临近道路中的车流量情况等. 针对车速预测问题，设计针对性模型，利用图神经网络提高车速预测的准确率. 2）优化参数寻优算法. 大多数智能算法会在RVM的参数寻优中出现迭代前期收敛速度过快、迭代后期种群多样性降低的问题. 在后续的研究中，应尝试将RVM结合复杂的智能算法，如自适应遗传算法（adaptive genetic algorithm）和量子粒子群算法（quantum particle swarm algorithm）. 3）尝试将RVM结合深度学习. 利用LSTM、DBN、CNN等深度学习算法提取交通数据特征，利用RVM进行预测，构成深层预测模型. 4）尝试结合因果科学. 研究挖掘路况成因，结合更多的交通专业知识，构建路况因果图，将数据驱动的模型转变为因果驱动模型.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

林浩, 李雷孝, 王慧

支持向量机在智能交通系统中的研究应用综述

[J]. 计算机科学与探索, 2020, 14 (6): 901- 917

LIN Hao, LI Lei-xiao, WANG Hui

Survey on research and application of support vector machines in intelligent transportation system

[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14 (6): 901- 917

DOI:10.3778/j.issn.1673-9418.2001029 [本文引用: 1]

[2]

ZHENG C, LI L. The improvement of the forecasting model of short-term traffic flow based on wavelet and ARMA[C]// Proceedings of 2010 8th International Conference on Supply Chain Management and Information Systems. Hong Kong: IEEE, 2011: 1-4.

[3]

TAN M C, WONG S C, XU M C, et al

An aggregation approach to short-term traffic flow prediction

[J]. Intelligent Transportation Systems, 2009, 10 (1): 60- 69

[4]

CAO J, XU G H, HOU L, et al

Detection and estimation for the traffic flow based on Kalman filter

[J]. Journal of Beijing Institute of Technology, 2011, 20 (5): 271- 275

[5]

CAO C T, XU J M. Short-term traffic flow predication based on PSO-SVM[C]// 1st International Conference on Transportation Engineering. Chengdu: ASCE, 2007.

[6]

温峻峰, 李鑫, 张浪文

基于粒子群优化的支持向量回归车道饱和度预测

[J]. 自动化仪表, 2019, 40 (8): 38- 42

WEN Jun-feng, LI Xin, ZHANG Lang-wen

Traffic lane saturation prediction with the support vector regression based on particle swarm optimization

[J]. Process Automation Instrumentation, 2019, 40 (8): 38- 42

[7]

FU R, ZHANG Z, LI L. Using LSTM and GRU neural network methods for traffic flow prediction[C]// 31st Youth Academic Annual Conference of Chinese Association of Automation. Wuhan: IEEE, 2016.

[8]

LIU Q, WANG B, ZHU Y

Short-term traffic speed forecasting based on attention convolutional neural network for arterials

[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33 (11): 999- 1016

DOI:10.1111/mice.12417 [本文引用: 1]

[9]

LIU Y, ZHENG H, FENG X, et al. Short-term traffic flow prediction with Conv-LSTM[C]// 9th International Conference on Wireless Communications and Signal Processing. Nanjing: IEEE, 2017.

[10]

XIN J, XIAO F H

Financial assets price prediction based on relevance vector machine with genetic algorithm

[J]. Journal of Convergence Information Technology, 2012, 7 (5): 90- 96

DOI:10.4156/jcit.vol7.issue5.12 [本文引用: 1]

[11]

SHEN Z, WANG W, SHEN Q, et al

Hybrid CSA optimization with seasonal RVR in traffic flow forecasting

[J]. KSII Transactions on Internet and Information Systems, 2017, 11 (10): 4887- 4907

[12]

SHEN Z G, WANG W L, SHEN Q, et al

A novel learning method for multi-intersections aware traffic flow forecasting

[J]. Neurocomputing, 2020, 398 (7): 477- 484

DOI:10.3963/j.issn1674-4861.2016.03.001 [本文引用: 1]

[13]

王璐媛, 于雷, 孙建平, 等

交通运行指数的研究与应用综述

[J]. 交通信息与安全, 2016, 34 (3): 1- 9

WANG Lu-yuan, YU Lei, SUN Jian-ping, et al

An overview of studies and applications on traffic performance index

[J]. Journal of Transport Information and Safety, 2016, 34 (3): 1- 9

DOI:10.3963/j.issn1674-4861.2016.03.001 [本文引用: 1]

[14]

VAZIRI M

Development of highway congestion index with fuzzy set models

[J]. Transportation Research Record: Journal of the Transportation Research Board, 2002, 1802 (1): 16- 22

DOI:10.3141/1802-03 [本文引用: 1]

[15]

KONG X, YANG J, YANG Z. Measuring traffic congestion with taxi GPS data and travel time index[C]// 15th COTA International Conference of Transportation Professionals. Beijing: ASCE, 2015.

DOI:10.3969/j.issn.1001-7119.2016.09.040 [本文引用: 1]

[16]

LEVINSON H S, LOMAX T J

Developing a travel time congestion index

[J]. Transportation Research Record Journal of Transportation Research Board, 1996, 1564 (1): 1- 10

DOI:10.1177/0361198196156400101 [本文引用: 1]

[17]

宋顶利, 张昕, 于复兴

并行优化KNN算法的交通运输路况预测模型

[J]. 科技通报, 2016, 32 (9): 182- 186

SONG Ding-li, ZHANG Xin, YU Fu-xing

Forecasting model of road transportation based on parallel optimized KNN algorithm

[J]. Bulletin of Science and Technology, 2016, 32 (9): 182- 186

DOI:10.3969/j.issn.1001-7119.2016.09.040 [本文引用: 1]

[18]

晏雨婵, 白璘, 武奇生, 等

基于多指标模糊综合评价的交通拥堵预测与评估

[J]. 计算机应用研究, 2019, 36 (12): 3697- 3700

YAN Yu-chan, BAI Lin, WU Qi-sheng, et al

Traffic congestion prediction and assessment based on multi-index fuzzy comprehensive evaluation

[J]. Application Research of Computers, 2019, 36 (12): 3697- 3700

[19]

TIPPING M E

Sparse Bayesian learning and the relevance vector machine

[J]. Journal of Machine Learning Research, 2001, 1 (3): 211- 244

DOI:10.3969/j.issn.1007-2373.2001.02.012 [本文引用: 2]

[20]

王靖, 张金锁

综合评价中确定权重向量的几种方法比较

[J]. 河北工业大学学报, 2001, 30 (2): 52- 57

WANG Jing, ZHANG Jin-suo

Comparing several methods of assuring weight vector in synthetical evaluation

[J]. Journal of Hebei University of Technology, 2001, 30 (2): 52- 57

DOI:10.3969/j.issn.1007-2373.2001.02.012 [本文引用: 2]

[21]

SONG Z, GUO Y, WU Y, et al

Short-term traffic speed prediction under different data collection time intervals using a SARIMA-SDGM hybrid prediction model

[J]. PLOS ONE, 2019, 14 (6): 1- 19

[22]

DONG E, ZHOU K, TONG J, et al

A novel hybrid kernel function relevance vector machine for multi-task motor imagery EEG classification

[J]. Biomedical Signal Processing and Control, 2020, 60 (7): 1- 12

DOI:10.3969/j.issn.1000-386x.2015.03.040 [本文引用: 1]

[23]

张鹏翔, 刘利民, 马志强

基于MapReduce的层叠分组并行SVM算法研究

[J]. 计算机应用与软件, 2015, 32 (3): 172- 176

ZHANG Peng-xiang, LIU Li-min, MA Zhi-qiang

Research on cascade-grouping parallel SVM algorithm based on mapreduce

[J]. Computer Applications and Software, 2015, 32 (3): 172- 176

DOI:10.3969/j.issn.1000-386x.2015.03.040 [本文引用: 1]

[24]

刘泽燊, 潘志松

基于Spark的并行SVM算法研究

[J]. 计算机科学, 2016, 43 (5): 238- 242

LIU Ze-shen, PAN Zhi-song

Research on parallel SVM algorithm based on Spark

[J]. Computer Science, 2016, 43 (5): 238- 242

[25]

ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]// Proceeding of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley: USENIX Association, 2010: 1-10.

[26]

DU S D, LI T R, GONG X, et al

A hybrid method for traffic flow forecasting using multimodal deep learning

[J]. International Journal of Computational Intelligence Systems, 2020, 13 (2): 85- 97

[27]

温惠英, 张东冉

基于Bi-LSTM模型的高速公路交通量预测

[J]. 公路工程, 2019, 44 (6): 51- 56

WEN Hui-ying, ZHANG Dong-ran

Highway traffic volume prediction based on Bi-LSTM model

[J]. Highway Engineering, 2019, 44 (6): 51- 56