<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 径向基函数网络的结构

Fig.1 Structure of radial basis function network

根据网络的结构， RBFN的输出可以描述为

(1)$ {{\boldsymbol{y}}_j} = \sum\limits_{i = 1}^h {{{\boldsymbol{\varPhi}} _i}{{\boldsymbol{\omega}} _{ij}}} +{\boldsymbol{b}}{\text{.}} $

式中：y_j为第j个输出层节点的输出，h为隐含层节点数，Φ_i为第i个隐含层节点的核函数输出，ω_ij为第i个隐含层节点到第j个输出层节点之间的权值，b为网络中设置的偏置单元.

当训练RBFN时，一个非常重要的问题是如何选择隐含层节点数. 从式(1)可以看出，隐含层节点数越多，则训练RBFN所需要的计算次数越多，所消耗的时间越长. 模型的复杂度会随着隐含层节点数的增多而提高，当训练数据较少时，高复杂度的网络更容易产生过拟合现象^[24-25]. 反之，若隐含层节点数太少，则RBFN可能会无法学习.

Rastegar等^[26]的研究表明，对于某个特定的数据集而言，一定存在最佳的隐含层节点数，使得模型的训练效果最好. 目前还不存在通用的确定最佳隐含层节点数的方法. 一些尝试性的方法包括经验公式法^[27]、进化优化^[28]、引入神经网络^[29]等. 由于DDEA是强调搜索效率的算法，其中使用的策略不应太复杂.

1.2. 径向基函数网络的核函数

与其他3层神经网络相比， RBFN的主要区别是使用了径向基函数(radial basis function， RBF)作为核函数. RBF是一类实值函数，其取值只依赖于数据点到某个特定点的距离，该特定点一般被称为中心点. RBF的通式如下:

(2)$ \varPhi ({\text{dist}}) = \varPhi (\left\| {{\boldsymbol{x}} - {\boldsymbol{c}}} \right\|). $

式中：dist为数据点到中心点之间的欧氏距离，dist = ||x−c||.

在RBFN中，可使用的核函数有很多，其中较常见的是gaussian函数、逆多二次函数和逆sigmoid函数，它们的形式如下所示:

(3)$ \varPhi ({\text{dist}}) = \exp \left( - \frac{{{\text{dis}}{{\text{t}}^2}}}{{{\sigma ^2}}}\right), $

(4)$ \varPhi ({\text{dist}}) = \frac{1}{{\sqrt {{\sigma ^2}+{\text{dis}}{{\text{t}}^2}} }}, $

(5)$ \varPhi ({\text{dist}}) = \frac{1}{{1+\exp \left({{{\text{dis}}{{\text{t}}^2}}}/{{{\sigma ^2}}}\right)}}. $

式中：σ为RBF的拓展常数，有时被称为宽度， σ越大表示每个隐含层节点可控制的范围越大.

在同一个训练集上，使用不同核函数的RBFN的效果存在微小的差异^[7]，具体情况取决于训练数据的分布特性. 对于如何选择核函数，目前仍缺乏理论指导，比较流行的做法是根据经验选择单个固定的核函数. 一些学者通过组合多个不同核函数来训练通用性更强的模型，这种方法在许多基于多核学习的研究中被证实是有效的^[30-31].

2. DDEA-MKDS算法的设计

2.1. 算法总流程

DDEA-MKDS的算法流程如图2所示.

图 2

图 2 DDEA-MKDS的总流程图

Fig.2 Flow chart of DDEA-MKDS

DDEA-MKDS分为以下3个阶段.

1）算法结合经验公式与遍历搜索，找出针对离线数据集的最佳隐含层节点数，在后续训练RBFN时，参数按照该阶段的寻优结果进行设置.

2）算法采样决策空间中的大量无标签数据，使用基于离线数据集训练的3个不同核函数的RBFN模型预测它们的伪标签. 通过轮盘赌法按不确定度规则选择其中的部分数据，将选择的伪标签数据加入原数据集，形成合成数据集.

3）算法使用合成数据集，训练单个RBFN作为代理模型来代替遗传算法中的目标函数，开展个体评估.

与大多数离线的DDEA相同，该算法选择遗传算法作为优化器. 由于离线的DDEA中代理模型的作用仅是代替进化优化过程中的真实评估，算法可以根据实际问题的特性选择不同的EA，代理模型的构建方法是可以移植的.

DDEA-MKDS的伪代码如下所示.

算法1　DDEA-MKDS的总体框架

输入：离线数据集D、初始化种群pop、最大迭代次数G
输出：最优解s_best
1) 进行隐含层节点数寻优，得到基于D的最佳隐含层节点数h_B.
2) 使用D训练多核模型M^RBFN1、M^RBFN2、M^RBFN3，隐含层节点数为h_B.
3) 由多核数据合成，得到合成数据集D_S.
4) 由D_S训练新模型M^RBFN4，隐含层节点数为h_B.
5) 使用遗传算法对pop进行迭代寻优，以M^RBFN4对个体的预测值代替个体适应度. 迭代次数为G.
6) 记最后一代种群中的最优个体为s_best.
7) return s_best

2.2. 隐含层节点数寻优

DDEA-MKDS是针对数据量极小的情况设计的. 为了避免代理模型因小数据陷入过拟合，加快训练速度，通过隐含层节点数寻优的策略来简化RBFN的结构.

具体而言，该策略结合了经验公式与遍历搜索的思想. 当隐含层节点只有1个时， RBFN会失效，因此算法设置寻优区间为[2，h_T]，上限h_T由下面的经验公式^[27]计算得出：

(6)$ {h_{\text{T}}} = \sqrt {n+m} +1. $

式中：h_T为隐含层节点数的计算结果，n为输入层节点数，m为输出层节点数.

算法重复训练拥有不同隐含层节点数的RBFN，在验证数据上比较这些模型的误差，找出该参数的最佳设置.在小数据的条件下，每个数据对模型训练的影响都较大. 为了减少数据分割带来的干扰，算法每次训练前都从离线数据集中随机抽取仅1个数据作为验证数据. 模型误差按照下式计算：

(7)$ {e_i} = \left| {\frac{{{p_{{\text{pre}}}} - {p_{{\text{real}}}}}}{{{p_{{\text{real}}}}}}} \right|. $

式中：e_i为隐含层节点数为i时的预测误差; p_real为所抽取的验证数据的真实值; p_pre为模型对所抽取的验证数据的预测值; 特别地，若p_real = 0，则重新抽取验证数据. 算法最终会输出e_i最小时的i作为隐含层节点数寻优的结果.

本部分的伪代码如下所示.

算法2　DDEA-MKDS中的隐含层节点数寻优

输入：离线数据集D、输入层节点数n、输出层节点数m
输出：最佳隐含层节点数h_B
1) 由式(6)计算得到寻优区间上限h_T.
2) for i = 2 : h_T
　　从D中取出数据p_test(p_x，p_real)，若p_real = 0，则重新抽取. 将剩余数据集记为D_R.
　　使用D_R训练模型M_i^RBFN，M_i^RBFN为隐含层节点数为i的模型.
　　记M_i^RBFN对p_x的预测值为p_pre.
　　由式(7)计算e_i.
　end for
3) 记e_i最小时的i为i_s，令h_B = i_s.
4) return h_B

2.3. 多核数据的合成

小数据条件下代理模型难以获得理想的精度. 提出基于多核RBFN的伪标签数据合成策略，以达到补充数据量的目的.算法中无标签数据的采样量以相对于离线数据量的倍数d_m表示.

由于单个RBFN无法提供预测值的不确定度，为了在选择数据时有可靠的参考，DDEA-MKDS训练了3个RBFN模型来预测无标签数据的伪标签，将不确定度定义为预测值的标准差，如下所示：

(8)$ {\sigma _a} = \sqrt {\frac{1}{3}\sum\limits_{i = 1}^3 {{{(p_a^r - {y_a})}^2}} } ;\;r = 1,2,3. $

式中：σ_a为数据a预测值的标准差；p_a^r为模型r对数据a的预测值；y_a为3个模型预测值的均值，作为数据a的伪标签.

要使式(8)有效，3个模型的预测值在尽量准确的同时具有一定的差异，因此算法在训练这3个RBFN时使用了不同的核函数，分别为gaussian函数、逆多二次函数和逆sigmoid函数.

不确定度越低，即3个RBFN对该数据的预测值越接近，可以认为该伪标签是更可信的，所以应选择更多不确定度低的数据. 不确定度高的数据对模型训练有积极作用，这是由于RBFN的预测能力与距离相关，一般离真实数据越远，模型的预测能力越低，所以不确定度低的数据会紧密分布在真实数据的周围. 若只选择这部分数据，则模型的泛化能力会下降. 本算法使用轮盘赌选择法，根据下式对所有数据的不确定度进行归一化处理，将归一化后的值作为数据被选中的概率：

(9)$ {q_a} = 1 - \frac{{{\sigma _a} - {\sigma _{\min }}}}{{{\sigma _{\max }} - {\sigma _{\min }}+\varepsilon }}. $

式中：q_a为归一化值; σ_a为数据a的不确定度; σ_min与σ_max分别为所有数据的不确定度的最小值与最大值; ε设为10⁻⁵. 每一个数据都有机会被选中，不确定度越低，被选中的概率越大.

本部分的伪代码如算法3所示. 其中rand为随机生成的0~1.0的浮点数.

算法3　DDEA-MKDS中的多核数据合成

输入：离线数据集D、无标签数据采样量d_m
输出：合成数据集D_S
1) D_S = D.
2) 采样得到无标签数据集D_U{(x_a，·)， a=1， 2

$, \cdots , $

n}，数量为D的d_m倍.
3) 使用D训练模型M^RBFN1、M^RBFN2、M^RBFN3，模型分别使用式(3)~(5)所示的核函数.
4) 由模型预测得到伪标签数据集D_F{(x_a，y_a)， a=1，2

$, \cdots , $

n}，其中y_a为M^RBFN1、M^RBFN2、M^RBFN3对x_a预测值的平均值.
5) 利用式(8)、(9)得到带选择概率的数据集D_F^’{(x_a， y_a， q_a)， a=1， 2

$, \cdots , $

n}.
6) for a = 1 : n
　　if q_a > rand
　　　将数据(x_a，y_a)加入D_S.
　　end if
　end for
7) return D_S

3. 实验结果与分析

3.1. 对比实验的设计

将DDEA-MKDS与流行的离线DDEA在6个经典单目标测试问题^[6，32]上进行对比，分别为Ellipsoid、Rosenbrock、Ackley、Levy、Griewank与Rastrigin. 离线数据集由拉丁超立方在决策空间中采样得到，为了观察各算法在数据量极小时的表现，设置数据量为15. 问题的维度为10、30、50、100，在所有维度的问题上各算法都独立运行20次.

在DDEA-MKDS中，代理模型RBFN利用K-均值算法获取中心点，权重由伪逆法计算，拓展常数为中心点间平均距离的2倍，除多核数据合成阶段外，使用的核函数为gaussian函数，d_m设置为60.

对比算法为TT-DDEA^[11]、SRK-DDEA^[7]、CC-DDEA^[22]、CL-DDEA^[23]与DDEA-SE^[19]. 为了使算法在小数据时正常运行，DDEA-SE的模型隐含层节点数设置为离线数据量的算术平方根向下取整. 其余各算法的参数均按照原文献设置.

所有算法都使用遗传算法进行优化，种群大小为100，迭代次数为100，交叉与变异的概率各为1与1/d，其中d为问题的维度.

与其他同类研究中使用的方法相似，实验中最优个体的适应度是通过真实函数计算得到的，但真实函数仅用于算法的性能评估，不会对优化过程产生任何影响.

3.2. 对比实验结果

如表1所示为DDEA-MKDS与各对比算法在数据量为15时的优化结果，形式为均值±标准差，每个测试实例中的最优结果加粗显示. 可以看出，综合表现最好的是DDEA-MKDS，平均排名是最高的. 此外，所有实验结果均经过Wilcoxon匹配对符号秩检验，其中+/≈/−分别表示DDEA-MKDS显著优于/无显著差异于/显著差于对比算法. 在几乎所有的实例上， DDEA-MKDS都显著优于TT-DDEA、CL-DDEA和DDEA-SE. DDEA-MKDS中使用的隐含层节点数寻优能够有效地避免代理模型产生过拟合，通过多核数据合成的策略弥补了数据量不足的问题，算法在面对小数据时的表现较优秀. DDEA-SE通过数据抽样构建大量代理模型，当数据量本身很少时，每一个模型的精度都较差，这会导致算法的性能显著降低. TT-DDEA具有同样的问题，由于算法需要将数据集分割为3等份，这会使单个模型可依赖的数据量进一步减少，在这种情况下不准确的模型无法提供可信的伪标签数据. CL-DDEA中设计的孪生式对比网络需要依赖成对数据训练，当数据量匮乏时，对比网络无法达到理想的精度，这会使其在拓扑排序的过程中产生严重的误差，算法很难进行正常的选择操作，其在所有问题上的表现都很差. 从结果上来看，除DDEA-MKDS外，对比算法中表现较好的是SRK-DDEA和CC-DDEA，二者的平均排名相当. SRK-DDEA中使用基于多核学习训练的径向基函数网络作为代理模型，虽然当离线数据很少时模型精度不足，但随机排序的策略能够较好地平衡模型之间的误差. CC-DDEA中的全局模型是由多个局部模型集成形成的，这在一定程度上减小了数据量匮乏带来的影响，能够加强算法在高维度问题上的表现，算法在所有100维的问题上都是表现最好的. 除了Levy与Griewank外， CC-DDEA在其他多数10维、30维与50维的问题上都显著差于DDEA-MKDS，这意味着协同进化不适用于一些较低维度的问题的求解.

表 1 DDEA-MKDS与各对比算法在6个测试问题上的优化结果

Tab.1 Optimization result of DDEA-MKDS and other comparison algorithms on six test problems

问题	d	DDEA-MKDS	TT-DDEA	SRK-DDEA	CC-DDEA	CL-DDEA	DDEA-SE
Ellipsoid	10	0.79±0.73	4.52±6.36(+)	1.91±2.52(≈)	1.91±1.12(+)	114.41±97.15(+)	2.81±1.38(+)
	30	5.58±2.99	18.68±14.99(+)	11.40±11.59(+)	9.05±5.60(+)	451.17±394.59(+)	48.57±21.00(+)
	50	27.88±9.13	110.19±84.30(+)	23.99±14.62(−)	32.19±12.61(+)	1181.39±1035.79(+)	195.13±57.46(+)
	100	252.72±52.58	1380.95±1237.13(+)	269.84±54.97(≈)	49.60±22.66(−)	4908.28±5817.24(+)	1399.45±377.21(+)
Rosenbrock	10	16.22±7.00	20.84±10.33(≈)	23.90±12.02(+)	31.33±15.88(+)	941.78±796.76(+)	31.81±14.69(+)
	30	39.82±9.80	57.50±25.14(+)	65.48±29.53(+)	61.12±16.51(+)	1170.28±1082.81(+)	80.95±28.13(+)
	50	69.24±18.95	125.76±37.03(+)	85.74±20.65(≈)	104.91±51.58(+)	1298.44±1265.39(+)	217.48±61.36(+)
	100	209.61±36.64	373.37±68.49(+)	189.10±24.13(≈)	178.94±42.90(≈)	1907.06±1789.96(+)	714.23±121.78(+)
Ackley	10	5.78±1.73	9.71±4.75(+)	6.42±1.90(≈)	7.57±2.24(+)	10.27±4.71(≈)	6.35±1.63(≈)
	30	4.25±0.69	6.91±1.98(+)	6.10±2.17(+)	8.19±4.71(+)	16.19±2.45(+)	8.96±1.35(+)
	50	4.73±0.47	7.63±0.81(+)	5.94±1.65(≈)	5.73±1.98(≈)	11.51±3.09(+)	10.25±0.86(+)
	100	7.20±0.57	11.02±2.01(+)	7.28±0.60(≈)	4.95±0.85(−)	13.01±4.70(+)	11.59±0.52(+)
Levy	10	1.60±0.36	3.19±3.00(≈)	2.30±1.22(≈)	2.48±2.42(≈)	18.56±9.85(+)	2.95±2.53(≈)
	30	3.57±0.76	10.18±10.03(+)	4.39±1.33(≈)	4.02±0.87(≈)	51.71±39.59(+)	8.62±3.44(+)
	50	5.94±0.77	16.57±11.72(+)	6.01±1.06(≈)	10.30±4.54(+)	109.68±64.49(+)	20.91±6.25(+)
	100	13.70±3.59	106.97±66.70(+)	13.88±3.64(≈)	11.03±1.97(≈)	154.60±79.65(+)	73.42±17.79(+)
Griewank	10	1.21±0.28	3.51±3.64(+)	1.12±0.11(≈)	1.19±0.21(≈)	26.32±25.28(+)	2.26±0.54(+)
	30	3.32±1.00	5.72±3.12(+)	1.47±0.14(−)	1.70±0.33(−)	96.19±122.65(+)	12.34±4.19(+)
	50	6.24±1.81	9.23±6.83(≈)	3.04±0.51(−)	2.21±0.40(−)	136.93±114.01(+)	22.87±6.96(+)
	100	21.39±4.12	61.68±30.82(+)	18.56±3.96(≈)	3.61±0.74(−)	148.10±168.05(+)	90.66±20.69(+)
Rastrigin	10	42.23±26.46	58.47±28.90(≈)	64.47±35.35(+)	89.87±37.44(+)	138.64±34.53(+)	76.92±26.52(≈)
	30	95.41±61.47	242.85±162.46(+)	152.73±104.34(≈)	195.63±60.41(+)	322.84±68.42(+)	219.82±36.95(+)
	50	184.75±61.41	397.02±89.28(+)	245.34±101.93(+)	280.60±89.96(+)	570.56±47.71(+)	431.38±57.44(+)
	100	692.34±122.68	1061.33±190.85(+)	697.66±128.78(≈)	319.72±271.23(−)	1307.19±388.38(+)	953.94±51.30(+)
+/≈/−		NA	20/4/0	6/15/3	12/6/6	23/1/0	21/3/0
Friedman Rank		1.63	4.04	2.40	2.40	6.00	4.54

Ellipsoid和Rastrigin分别为单峰问题与多峰问题中的代表，如图3所示为各算法在这2个问题上的收敛曲线. 图中，N_i为迭代次数. 从图3可以看出，DDEA-MKDS有比较优秀的收敛速度.与性能最接近的SRK-DDEA和CC-DDEA相比， DDEA-MKDS的优势随着问题维度的增大有减小的趋势，这说明DDEA-MKDS在较低维问题中的表现更好.

图 3

图 3 DDEA-MKDS与各对比算法在Ellipsoid与Rastrigin问题上的收敛曲线

Fig.3 Convergence curves of DDEA-MKDS and other comparison algorithms on Ellipsoid and Rastrigin

离线DDEA常被用来求解昂贵优化问题，需要尽量减少时间成本，因此算法的效率是很重要的. 如图4所示为各算法在所有问题上的平均运行时间，测试使用的计算机CPU为Intel(R) Core i5-10400，算法运行环境为Python 3.9.13. 可以看出，由于离线数据数量较少，且是固定规模，不随维度而变化，各算法的运行时间因维度升高而增加的幅度均不明显. DDEA-MKDS在各维度的问题上均显著快于其他所有对比算法，差距是数量级级别的. 这主要得益于算法中的隐含层节点数寻优策略，通过减少模型隐含层节点数来简化RBFN的结构，能够显著加快训练速度. DDEA-MKDS最终用于指导进化过程的代理模型数量只有一个，不像其他算法需要训练多个模型，这进一步提升了算法的效率.速度最慢的是CL-DDEA，该算法训练对比网络时需要成对数据，实际上其训练数据量会增加到原始数据集的平方，因此对比网络的训练比传统的回归模型消耗更多的时间. 综合优化结果和运行时间来看， DDEA-MKDS是表现最好的算法.

图 4

图 4 DDEA-MKDS与各对比算法在所有问题上的平均运行时间

Fig.4 Average running time of DDEA-MKDS and other comparison algorithms on all problems

3.3. 策略有效性的分析

为了验证DDEA-MKDS中使用的策略的有效性，设计4种变体算法，与原算法进行实验对比. 变体算法的描述如下，除有说明外，算法的其余策略和参数与DDEA-MKDS保持一致.

DDEA-MKDS(h/n):不进行隐含层节点数寻优，节点数等于离线数据量.

DDEA-RBFN(h):不添加合成数据.

DDEA-MKDS(g):不使用轮盘赌法，选择合成数据时只选择不确定度最低的一半数据.

DDEA-RBFN:无任何特殊策略，仅用离线数据训练RBFN作为代理模型，节点数等于离线数据量.

如表2所示为DDEA-MKDS与各变体算法在Ellipsoid与Rastrigin 2个问题上的优化结果.实验中，所有算法均独立运行20次，离线数据量为15个，问题维度为10、30、50、100. 实验结果为均值±标准差的形式，且经过Wilcoxon匹配对符号秩检验，+/≈/−分别表示DDEA-MKDS在该实例上显著优于/无显著差异于/显著差于变体算法.

表 2 DDEA-MKDS与各变体算法在Ellipsoid与Rastrigin问题上的优化结果

Tab.2 Optimization result of DDEA-MKDS and other various algorithm on Ellipsoid and Rastrigin

问题	d	DDEA-MKDS	DDEA-MKDS(h/n)	DDEA-RBFN(h)	DDEA-MKDS(g)	DDEA-RBFN
Ellipsoid	10	0.79±0.73	60.57±35.39(+)	2.83±2.18(+)	3.10±1.97(+)	50.96±54.94(+)
	30	5.58±2.99	422.51±574.92(+)	10.23±5.03(≈)	36.28±14.82(+)	4506.62±3160.73(+)
	50	27.88±9.13	1317.62±1044.82(+)	44.91±29.69(≈)	63.95±26.79(+)	19728.63±3086.11(+)
	100	252.72±52.58	6072.01±2636.78(+)	377.01±240.00(≈)	370.92±133.13(+)	68220.71±5090.82(+)
Rastrigin	10	42.23±26.46	138.32±30.58(+)	70.23±29.99(+)	67.95±24.70(≈)	142.56±51.07(+)
	30	95.41±61.47	331.56±32.75(+)	233.53±93.44(+)	178.98±85.91(≈)	665.82±133.87(+)
	50	184.75±61.41	540.96±69.72(+)	393.08±159.99(+)	300.36±68.50(+)	1215.14±55.33(+)
	100	692.34±122.68	1255.65±147.53(+)	1120.25±492.24(+)	759.84±59.12(+)	2703.70±228.01(+)
+/≈/−		NA	8/0/0	5/3/0	6/2/0	8/0/0

从表2可以看出，DDEA-MKDS在全部8个实例上都大幅优于所有的变体算法.由于DDEA-MKDS(h/n)没有使用隐含层节点数寻优的策略，代理模型容易因小数据陷入过拟合，性能较差，这证明了隐含层节点数寻优是有效的. DDEA-RBFN(h)与DDEA-RBFN因为数据量匮乏的问题，无法训练更准确的代理模型，尤其是后者，当不进行任何处理时，仅依靠单个RBFN完全无法应对小数据的情况，表现最差，说明DDEA-MKDS中设计的数据合成策略能够显著增强算法的表现. 与原算法相比， DDEA-MKDS(g)仅选择了不确定度较低的数据加入离线数据集，这会导致代理模型的泛化能力变差，因此表现不佳，证明原算法中进行轮盘赌选择使所有伪标签数据均有机会被选择的策略是有效的.

如图5所示为DDEA-MKDS与变体算法在所有问题上的平均运行时间. 其中DDEA-MKDS、DDEA-RBFN(h)与DDEA-MKDS(g)使用隐含层节点数寻优的策略，代理模型的结构被简化，节省的训练时间多于进行隐含层节点数寻优的时间，因此这3种算法的运行时间短于其他算法. 与不进行数据合成及不使用轮盘赌选择法的DDEA-RBFN(h)和DDEA-MKDS(g)相比，DDEA-MKDS的运行时间没有明显差异，说明这2种策略不会消耗太多时间，策略的设计是合理的.

图 5

图 5 DDEA-MKDS与各变体算法在所有问题上的平均运行时间

Fig.5 Average running time of DDEA-MKDS and other various algorithm on all problems

3.4. 核函数对算法的影响

DDEA-MKDS中用于数据合成的RBFN使用了3个不同的核函数，对于具体该如何进行核函数的选择，目前尚无系统的研究. 设计相关实验，分析核函数的选择对算法性能的影响.

由于在DDEA-MKDS中，算法根据不同模型预测值的标准差选择合成数据，一般认为若数据少于2个，其标准差无统计学意义，因此核函数的数量应至少为3. 采用最常见的4种径向基核函数的不同组合，具体设置如下.

DDEA-MKDS: gaussian函数、逆多二次函数和逆sigmoid函数.

DDEA-MKDS(k3b): gaussian函数、逆多二次函数和多二次函数.

DDEA-MKDS(k3c): gaussian函数、多二次函数和逆sigmoid函数.

DDEA-MKDS(k3d): 多二次函数、逆多二次函数和逆sigmoid函数.

DDEA-MKDS(k4): gaussian函数、多二次函数、逆多二次函数和逆sigmoid函数.

多二次函数的形式如下：

(10)$ \varPhi ({\text{dist}}) = \sqrt {{\sigma ^2}+{\text{dis}}{{\text{t}}^2}} . $

如表3所示为使用不同核函数时DDEA-MKDS在Ellipsoid与Rastrigin 2个问题上的优化结果，实验中离线数据量为15个，在所有情况下算法均独立运行20次，问题维度为10、50、100，结果以均值±标准差的形式呈现. 从结果来看，表现最好的是原算法中的组合，但优势不明显，总体上不同的核函数组合之间的差距不显著，p为0.050.

表 3 使用不同核函数时DDEA-MKDS在Ellipsoid与Rastrigin问题上的优化结果

Tab.3 Optimization result of DDEA-MKDS with different kernel function on Ellipsoid and Rastrigin

问题	d	DDEA-MKDS	DDEA-MKDS(k3b)	DDEA-MKDS(k3c)	DDEA-MKDS(k3d)	DDEA-MKDS(k4)
Ellipsoid	10	0.79±0.73	0.87±0.74	0.62±0.40	1.35±1.54	1.02±1.08
	50	27.88±9.13	35.22±29.27	21.75±8.84	30.53±13.86	28.66±10.13
	100	252.72±52.58	265.44±34.73	314.06±123.93	270.38±60.79	307.81±86.81
Rastrigin	10	42.23±26.46	42.78±32.77	37.91±26.06	45.81±36.64	42.30±26.75
	50	184.75±61.41	180.45±88.49	190.50±110.37	225.95±108.19	221.98±107.42
	100	692.34±122.68	695.47±127.53	725.05±134.91	706.52±134.54	704.88±81.15
Friedman Rank		1.67	2.83	2.67	4.33	3.50

如表4所示为使用3个与4个核函数时算法在Ellipsoid与Rastrigin问题上的平均运行时间，在所有测试实例上使用3个核函数时的运行时间均较短.使用4个核函数意味着要多训练一个RBFN，且算法须花费更多的时间来计算标准差和选择数据.综合而言，原算法中的3个核函数组合是最优设置.

表 4 使用不同数量核函数时DDEA-MKDS的平均运行时间

Tab.4 Average running time of DDEA-MKDS with different number of kernel function

问题	d	DDEA-MKDS(k3)	DDEA-MKDS(k4)
Ellipsoid	10	2.67±0.20	2.81±0.22
	50	5.34±0.49	5.43±0.46
	100	8.31±0.68	8.63±0.69
Rastrigin	10	2.62±0.21	2.71±0.21
	50	5.23±0.42	5.43±0.48
	100	8.26±0.70	8.30±0.86

3.5. 参数敏感性实验

针对DDEA-MKDS中的特有参数d_m进行相应的敏感性分析. 如表5所示为当d_m分别取5、20、40、60、80、100与120时，DDEA-MKDS在10维、50维及100维的Ellipsoid与Rastrigin 2个问题上的优化结果. 如图6所示为优化结果的变化趋势. 在实验中，离线数据量为15个，所有情况下算法均独立运行20次.

表 5 d_m取不同值时DDEA-MKDS在Ellipsoid与Rastrigin问题上的优化结果

Tab.5 Optimization result of DDEA-MKDS on Ellipsoid and Rastrigin when d_m takes different values

问题	d	d_m=5	d_m=20	d_m=40	d_m=60	d_m=80	d_m=100	d_m=120
Ellipsoid	10	2.90±1.92	1.56±1.44	0.92±0.96	0.79±0.73	1.24±1.60	0.93±1.02	1.24±1.34
Ellipsoid	50	78.96±26.00	38.55±20.31	33.67±15.68	27.88±9.13	30.44±13.83	30.71±19.06	25.34±16.28
Ellipsoid	100	533.97±134.03	360.59±84.39	265.83±53.41	252.72±52.58	277.75±63.42	262.33±46.02	264.12±81.76
Rastrigin	10	80.36±24.35	46.61±31.06	40.37±29.60	42.23±46.46	49.75±35.83	40.66±28.60	30.73±21.73
Rastrigin	50	381.77±75.94	279.04±115.55	202.29±63.64	184.75±61.41	188.77±68.81	186.22±120.27	218.12±101.16
Rastrigin	100	857.95±112.39	811.04±131.71	777.63±161.02	692.34±122.68	670.59±108.23	684.92±108.10	675.76±126.05
Friedman Rank		7.00	5.83	3.67	2.17	3.75	2.83	2.75
p		0.000	0.003	0.229	NA	0.204	0.593	0.640

图 6

图 6 d_m取不同值时DDEA-MKDS的优化结果的变化趋势

Fig.6 Variation trend of optimization result of DDEA-MKDS when d_m takes different values

从结果来看，当d_m = 60时，DDEA-MKDS的表现最好. d_m越大，采样得到的无标签数据量越多，最终加入原数据集的伪标签数据也越多. 当d_m较小时，DDEA-MKDS的性能随着d_m的增大而提升，原因是在一定范围内合成数据量的增多会使代理模型的准确率更高. 在d_m超过60后，算法的表现变差，性能的变化不再有趋势性.这是因为伪标签数据的标签是由模型预测得到的，与真实值之间存在一定的差异，过多地加入伪标签数据会对进化过程及代理模型的训练产生误导，因此d_m的取值要在合理范围内进行选择.

4. 结　语

针对离线的DDEA在数据量极少时表现差的问题，本文提出基于多核数据合成的离线小数据驱动的进化算法DDEA-MKDS. 该算法使用结合经验公式与遍历法的隐含层节点数寻优策略，简化算法中使用的RBFN的结构，以避免模型因小数据产生过拟合，大幅加快训练速度. 该算法提出基于多核学习的数据合成策略和使用轮盘赌的数据选择方法，弥补离线数据量的不足. 将DDEA-MKDS与5种代表性的离线DDEA在6个基准测试问题上进行对比，结果表明，本文算法在小数据条件下的优化能力和效率显著优于对比算法.实验部分通过DDEA-MKDS与变体算法的对比，证明了原算法中所提策略的有效性，讨论了核函数的选择对算法性能的影响，对算法中的特有参数进行敏感性分析.未来将针对算法在高维小数据问题中的表现进行改善，提出更有效的数据合成策略，并将算法用于实际的昂贵优化问题的求解.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

JIN Y, WANG H, CHUGH T, et al

Data-driven evolutionary optimization: an overview and case studies

[J]. IEEE Transactions on Evolutionary Computation, 2019, 23 (3): 442- 458

DOI:10.1109/TEVC.2018.2869001 [本文引用: 2]

[2]

CHEN R, HE C, JIN Y, et al

Model-based evolutionary algorithms: a short survey

[J]. Complex and Intelligent Systems, 2018, 4 (4): 283- 292

DOI:10.1007/s40747-018-0080-1 [本文引用: 1]

[3]

HE C, TIAN Y, WANG H, et al

A repository of real-world datasets for data-driven evolutionary multiobjective optimization

[J]. Complex and Intelligent Systems, 2020, 6 (1): 189- 197

DOI:10.1007/s40747-019-00126-2 [本文引用: 1]

[4]

WANG H, JIN Y, JANSEN J O

Data-driven surrogate-assisted multiobjective evolutionary optimization of a trauma system

[J]. IEEE Transactions on Evolutionary Computation, 2016, 20 (6): 939- 952

DOI:10.1109/TEVC.2016.2555315 [本文引用: 1]

[5]

GUO D, CHAI T, DING J, et al. Small data driven evolutionary multi-objective optimization of fused magnesium furnaces [C]// IEEE Symposium Series on Computational Intelligence . Athens: IEEE, 2016: 1-8.

[6]

黄鹏飞. 离线数据驱动的进化优化研究[D]. 西安: 西安电子科技大学, 2021: 15-18, 46-47.

[本文引用: 4]

HUANG Pengfei. A study on offline data-driven evolutionary optimization [D]. Xi’an: Xidian University, 2021: 15-18, 46-47.

[本文引用: 4]

[7]

HUANG P, WANG H, MA W. Stochastic ranking for offline data-driven evolutionary optimization using radial basis function networks with multiple kernels [C]// IEEE Symposium Series on Computational Intelligence . Xiamen: IEEE, 2019: 2050-2057.

[本文引用: 4]

[8]

CHENG R, JIN Y, NARUKAWA K, et al

A multiobjective evolutionary algorithm using gaussian process-based inverse modeling

[J]. IEEE Transactions on Evolutionary Computation, 2015, 19 (6): 838- 856

DOI:10.1109/TEVC.2015.2395073 [本文引用: 1]

[9]

梁正平, 黄锡均, 李燊钿, 等

基于剪枝堆栈泛化的离线数据驱动进化优化

[J]. 自动化学报, 2023, 49 (6): 1306- 1325

LIANG Zhengping, HUANG Xijun, LI Shentian, et al

Offline data driven evolutionary optimization based on pruning stacked generalization

[J]. Acta Automatica Sinica, 2023, 49 (6): 1306- 1325

[10]

ZHOU Z, ONG Y S, NGUYEN M H, et al. A study on polynomial regression and gaussian process global surrogate model in hierarchical surrogate-assisted evolutionary algorithm [C]// IEEE Congress on Evolutionary Computation . Edinburgh: IEEE, 2005: 2832-2839.

DOI:10.1080/10426914.2016.1269923 [本文引用: 1]

[11]

HUANG P, WANG H, JIN Y

Offline data-driven evolutionary optimization based on tri-training

[J]. Swarm and Evolutionary Computation, 2021, 60: 100800

DOI:10.1016/j.swevo.2020.100800 [本文引用: 3]

[12]

CHUGH T, CHAKRABORTI N, SINDHYA K, et al

A data-driven surrogate-assisted evolutionary algorithm applied to a many-objective blast furnace optimization problem

[J]. Materials and Manufacturing Processes, 2017, 32 (10): 1172- 1178

[13]

LI J, ZHAN Z, ZHANG J

Evolutionary computation for expensive optimization: a survey

[J]. Machine Intelligence Research, 2022, 19 (1): 3- 23

DOI:10.1007/s11633-022-1317-4 [本文引用: 1]

[14]

CHUGH T, JIN Y, MIETTINEN K, et al

A surrogate-assisted reference vector guided evolutionary algorithm for computationally expensive many-objective optimization

[J]. IEEE Transactions on Evolutionary Computation, 2016, 22 (1): 129- 142

[15]

LIM D, ONG Y S, JIN Y, et al. A study on metamodeling techniques, ensembles, and multi-surrogates in evolutionary computation [C]// Proceedings of the 9th Annual Conference on Genetic and Evolutionary Computation . London: ACM, 2007: 1288-1295.

[16]

MEY A, LOOG M

Improved generalization in semi-supervised learning: a survey of theoretical results

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (4): 4747- 4767

DOI:10.1109/TPAMI.2022.3198175 [本文引用: 1]

[17]

GÖNEN M, ALPAYDIN E

Multiple kernel learning algorithms

[J]. The Journal of Machine Learning Research, 2011, 12 (7): 2211- 2268

DOI:10.1016/j.neucom.2022.12.011 [本文引用: 1]

[18]

MA X, LI X, ZHANG Q, et al

A survey on cooperative co-evolutionary algorithms

[J]. IEEE Transactions on Evolutionary Computation, 2019, 23 (3): 421- 441

DOI:10.1109/TEVC.2018.2868770 [本文引用: 1]

[19]

WANG H, JIN Y, SUN C, et al

Offline data-driven evolutionary optimization using selective surrogate ensembles

[J]. IEEE Transactions on Evolutionary Computation, 2018, 23 (2): 203- 216

[本文引用: 2]

[20]

ZHOU Z, LI M

Tri-training: exploiting unlabeled data using three classifiers

[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 (11): 1529- 1541

DOI:10.1109/TKDE.2005.186 [本文引用: 1]

[21]

GOSAIN A, SACHDEVA K

Materialized view selection for query performance enhancement using stochastic ranking based cuckoo search algorithm

[J]. International Journal of Reliability, Quality and Safety Engineering, 2020, 27 (3): 2050008

DOI:10.1142/S0218539320500084 [本文引用: 1]

[22]

GONG Y, ZHONG Y, HUANG H. Offline data-driven optimization at scale: a cooperative coevolutionary approach [EB/OL]. (2023-12-04)[2024-01-30]. https://doi.org/10.1109/TEVC.2023.3338693.

[本文引用: 2]

[23]

HUANG H, GONG Y

Contrastive learning: an alternative surrogate for offline data-driven evolutionary computation

[J]. IEEE Transactions on Evolutionary Computation, 2023, 27 (2): 370- 384

DOI:10.1109/TEVC.2022.3170638 [本文引用: 2]

[24]

WANG R, ZHU F, ZHANG X, et al

Training with scaled logits to alleviate class-level over-fitting in few-shot learning

[J]. Neurocomputing, 2023, 522: 142- 151

[25]

ROHLOFF C T, KOHLI N, CHUNG S

The impact of functional form complexity on model overfitting for nonlinear mixed-effects models

[J]. Multivariate Behavioral Research, 2023, 58 (4): 723- 742

DOI:10.1080/00273171.2022.2119360 [本文引用: 1]

[26]

RASTEGAR R, HARIRI A

A step forward in studying the compact genetic algorithm

[J]. Evolutionary Computation, 2006, 14 (3): 277- 289

DOI:10.1162/evco.2006.14.3.277 [本文引用: 1]

[27]

王嵘冰, 徐红艳, 李波, 等

BP神经网络隐含层节点数确定方法研究

[J]. 计算机技术与发展, 2018, 28 (4): 31- 35

DOI:10.3969/j.issn.1673-629X.2018.04.007 [本文引用: 2]

WANG Rongbing, XU Hongyan, LI Bo, et al

Research on method of determining hidden layer nodes in BP neural network

[J]. Computer Technology and Development, 2018, 28 (4): 31- 35

DOI:10.3969/j.issn.1673-629X.2018.04.007 [本文引用: 2]

[28]

MAO Y, LIU C, XIAO D, et al

Study of the magnetic properties of haematite based on spectroscopy and the IPSO-ELM neural network

[J]. Journal of Sensors, 2018, 2018 (1): 1- 9