基于加速扩散模型的缺失值插补算法
Missing value imputation algorithm based on accelerated diffusion model
通讯作者:
收稿日期: 2024-06-4
Received: 2024-06-4
作者简介 About authors
王圣举(1999—),男,硕士生,从事深度学习研究.orcid.org/0009-0008-4078-3026.E-mail:
为了解决表格数据中数据缺失对后续任务产生的不利影响,提出使用扩散模型进行缺失值插补的方法. 针对原始扩散模型在生成过程中耗时过长的问题,设计基于加速扩散模型的数据插补方法(PNDM_Tab). 扩散模型的前向过程通过高斯加噪方法实现,采用基于扩散模型的伪数值方法进行反向过程加速. 使用U-Net与注意力机制相结合的网络结构从数据中高效提取显著特征,实现噪声的准确预测. 为了使模型在训练阶段有监督目标,使用随机掩码处理训练数据以生成新的缺失数据. 在9个数据集中的插补方法对比实验结果表明:相较其他插补方法,PNDM_Tab在6个数据集中的均方根误差最低. 实验结果证明,相较于原始的扩散模型,反向过程使用扩散模型的伪数值方法能够在减少采样步数的同时保持生成性能不变.
关键词:
To address the adverse effects of missing data in tabular data on subsequent tasks, a method for imputation using diffusion models was proposed. An accelerated diffusion model-based imputation method (PNDM_Tab) was designed aiming at the problem that the original diffusion models being time-consuming during the generation process. The forward process of the diffusion model was realized through Gaussian noise addition, and the pseudo-numerical methods derived from diffusion models were employed to achieve acceleration of the reverse process. Using a network structure combining U-Net with attention mechanisms, significant features were extracted efficiently from the data to predict noise accurately. To provide supervised targets during the training phase, random masking of the training data generated new missing data. Comparative experiments were conducted in nine datasets, and the results showed that PNDM_Tab achieved the lowest root mean square error in six datasets compared to other imputation methods. Experimental results demonstrate that, compared to the original diffusion models, the use of pseudo-numerical methods in the reverse process can reduce the number of sampling steps while maintaining equivalent generative performance.
Keywords:
本文引用格式
王圣举, 张赞.
WANG Shengju, ZHANG Zan.
数据在收集、处理、存储或传输过程中会因为各种原因出现缺失值,而处理缺失的输入数据是深度学习应用面临的主要挑战. 处理缺失数据数据集的常见方法是舍弃包含缺失数据的样本,这样做不仅会使有价值信息大量浪费,还可能降低深度学习模型的泛化性能. 在表格数据方面的研究和应用中,更好的处理方法是采用有效的缺失数据补全策略,以充分利用可用数据并提高模型的性能.
出现缺失值的原因很多,Van Buuren[1]定义了3种缺失机制:1)完全随机缺失(missing completely at random,MCAR),每一个值的缺失概率与观测值或缺失值都无关;2)随机缺失(missing at random,MAR),每个值的缺失概率取决于观测值;3)非随机缺失(missing not at random,MNAR):每个值的缺失概率取决于观测值和缺失值. 日常生活中符合MCAR机制的场景比较多,本文研究MCAR机制的插补工作. 现有的插补方法可以分为2类:判别式和生成式. 判别式插补方法如MissForest[2]、链式多重插补[3](multiple imputation by chained equations,MICE)和矩阵补全[4]等,利用特征之间的条件分布来估计缺失值. 生成式插补方法如生成对抗插补网络(generative adversarial imputation nets,GAIN)[5]和缺失数据重要性加权自编码器(missing data importance-weighted autoencoder,MIWAE)[6],利用深度生成模型的能力来估计所有特征的联合分布并估计缺失值.
扩散模型是当前生成领域表现较好的模型,表格数据条件分数扩散模型(conditional score-based diffusion models for tabular data,TabCSDI)[7]将扩散模型应用到表格数据插补当中,提升了插补性能,而传统的扩散模型需要较多生成步骤来确保性能. 本研究在模型的生成阶段采用扩散模型的伪数值方法[8](pseudo numerical methods for diffusion models,PNDM),提出基于加速扩散模型的数据插补方法(PNDM_Tab). 对训练数据进行随机掩码处理,生成新的缺失数据,为模型在训练阶段提供监督目标;当模型完成训练后,将加速扩散模型的方法用于插补过程;在多个数据集中开展不同插补方法的性能对比实验,验证所提方法的数据插补效果.
1. 相关工作
1.1. 数据插补
用于缺失数据插补的方法主要有基于统计学习方法的插补和基于机器学习方法的插补. 其中统计学习方法的插补分为单一插补和多重插补. 单一插补方法使用同一列观测值,从统计学的角度估算缺失值,如平均值、中位数和众值[9]. 多重插补方法考虑缺失值的不确定性,基本思想是为缺失值推断出多个估计插补值,并产生多个完整数据集进行综合分析,确定最终的估计插补值. 随着机器学习的广泛应用,基于机器学习方法的插补应运而生. Malarvizhi等[10]通过K最近邻 (K-nearest neighbors,KNN) 插补算法确定距离具有缺失值样本最近的K个样本,通过对这些样本的特征值进行加权平均来估计样本的缺失值. 当K=1时,可以将最近邻插补算法视作热卡插补[11]. GAIN [5]通过对抗训练不断提高模型的插补性能. Mattei等[6]提出使用加权的自编码器MIWAE,通过最大化下界,对具有缺失值的数据集进行近似最大似然训练. Zheng等[7]使用扩散模型对表格数据进行插补,为了处理好分类特征和数值特征,使用了多种特征处理技术.
1.2. 扩散模型
去噪扩散概率模型[12](denoising diffusion probabilistic models,DDPM)是基于深度生成模型的方法,由加噪过程和去噪过程组成. 加噪过程通过不断加入高斯噪声来逐步破坏数据的原有信息,去噪过程学习此逆过程以生成样本. 用于扩散噪声的时间步数影响生成的图像质量. DDPM的优点是能够生成高度逼真的图像,缺点是DDPM反向过程依赖马尔可夫链假设导致采样耗费的时间步数多. 去噪扩散隐式模型(denoising diffusion implicit models,DDIM)[13]不依赖DDPM反向过程的马尔可夫链假设,能够使用更少的采样步数来加速反向过程. Liu等[8]认为DDPM 应被视为求解流形上的微分方程,在这样的视角下,提出PNDM,以高阶的数值方法求解反向过程的方式减少采样时间.
2. 基于加速扩散模型的数据插补方法
2.1. 扩散模型基本原理
DDPM的前向过程在不同的时间步
式中:
式中:
式中:
当模型完成训练后,从先验分布中采样,由式(4)得到从
通过不断去噪,最后生成符合原始数据分布的
式中:
上述连续扩散过程的逆过程也是随机微分方程,通过反向SDE进行建模:
2.2. 加速扩散模型
概率流常微分方程(ordinary differential equation,ODE)是支持确定性过程的连续时间ODE,与 SDE 具有相同的边际概率密度. 任何类型的扩散过程都可以导出为特殊形式的ODE[15]. 式(9)的概率流ODE为
此时反向过程没有随机项,通过各种高阶的ODE数值方法来加速从
式中:
在欧拉法的计算中,计算
文献[13]中将DDPM的生成过程改写为
式中:
当
Salimans等[16]指出,使用高阶数值方法的效果并不比DDIM强,这些方法带来了明显的噪声. 文献[8]分析直接使用数值方法效果不好的原因,给出解决方案. 1) 网络模型
式(17)作为传递部分,
2.3. 插补模型框架
为了对具有
实际观测到的数据
用于数据插补的扩散模型的反向过程为
目标是根据给定的条件生成插补值. 实际的缺失值是不可知的,须解决如何从训练样本中采样
图 1
图 1 基于加速扩散模型的数据插补方法的训练过程
Fig.1 Training process for accelerated diffusion model-based imputation method
当模型完成训练后,对含有缺失值的原始数据进行插补,插补过程如图2所示. 在含有缺失值的位置上从高斯噪声中采样得到
图 2
图 2 基于加速扩散模型的数据插补方法的插补过程
Fig.2 Imputation process for accelerated diffusion model-based imputation method
对应方差
算法1 插补算法的前向过程
输入:原始数据
输出:训练好的预测噪声网络
1:for
2:
3:
4:
5:end for
与DDPM的反向过程不同,本研究采用二阶亚当姆斯的伪数值方法来加速生成过程,二阶亚当姆斯的计算要用到前两项的梯度,
对于第
算法2 插补算法的反向过程
输入:原始数据,表示
输出:完成插补的数据
1:原始数据
2:
3:for
4:
5: end for
6: for
7:
8: end for
9: return
2.4. 模型网络结构
U-Net[19]是扩散模型中常用的网络结构,将其与注意力机制结合可进行噪声预测[20]. 为了适配表格数据特征维度较小的特点,调整U-Net适应性,使用较浅的下采样深度,网络结构如图3所示. 网络的输入包含条件观测数据
图 3
图 3 基于加速扩散模型的数据插补方法的结构图
Fig.3 Architecture diagram of accelerated diffusion model-based imputation method
如图4所示为U-Net中残差块的网络结构,由于解码器中存在跳跃连接,输入通道和输出通道不相同,输入经过上方的卷积层后与
图 4
图 4 U-Net中残差块的网络结构图
Fig.4 Network structure diagram of residual blocks in U-Net
自注意力机制[21]在深度学习领域中大放异彩,由它能够得到内部特征之间的关联性,使模型关注更为重要的信息. 自注意力机制的计算分为2个过程,先计算查询
多头注意力建立在自注意力的基础上,是提高模型性能的同时又不会增加注意力计算量的技术. 多头注意力将注意力计算分解为由注意力头数量h确定的多个注意力计算,计算过程如图5所示. 在多头注意力中,输入数据
图 5
如表1所示为PNDM_Tab的网络参数配置,包括U-Net、初始层和输出层,其中K为卷积核大小、S为步长,P为填充的大小,Cout为卷积层的输出通道数、H为多头注意力机制中的注意力头数. 在编码器中,如果是最后一个层级的特征提取块中,下采样块不会进行特征降维. 解码器与之类似,在最后一个层级的特征提取块中,上采样块不会进行特征升维. 模型的训练和采样都要加入时间步
表 1 基于加速扩散模型的数据插补方法的网络参数
Tab.1
模块阶段 | 模块名称 | K | S | P | Cout | H |
初始层 | 卷积层 | 3×3 | 1 | 1×1 | 16 | — |
编码器 | 残差块 | 3×3 | 1 | 1×1 | 16 | — |
3×3 | 1 | 1×1 | 16 | — | ||
残差块 | 3×3 | 1 | 1×1 | 16 | — | |
3×3 | 1 | 1×1 | 16 | — | ||
自注意力块 | — | — | — | — | 4 | |
下采样块(非最后一个层级) | 5×5 | 2 | 1×1 | 128 | — | |
下采样块(最后一个层级) | 3×3 | 1 | 1×1 | 128 | — | |
中间层 | 残差块 | 3×3 | 1 | 1×1 | 128 | — |
3×3 | 1 | 1×1 | 128 | — | ||
自注意力块 | — | — | — | — | 4 | |
残差块 | 3×3 | 1 | 1×1 | 128 | — | |
3×3 | 1 | 1×1 | 128 | — | ||
解码器 | 残差块 | 3×3 | 1 | 1×1 | 128 | — |
3×3 | 1 | 1×1 | 128 | — | ||
3×3 | 1 | 1×1 | 128 | — | ||
残差块 | 3×3 | 1 | 1×1 | 128 | — | |
3×3 | 1 | 1×1 | 128 | — | ||
3×3 | 1 | 1×1 | 128 | — | ||
自注意力块 | — | — | — | — | 4 | |
上采样块(非最后一个层级) | 2×2 | 1 | 1×1 | 128 | — | |
上采样块(最后一个层级) | 3×3 | 1 | 1×1 | 16 | — | |
nn.Upsample(scale_factor = 2) | ||||||
输出层 | 卷积层 | 1×1 | 1 | 0 | 1 | — |
式中:
3. 实验与分析
3.1. 实验环境与实验数据集
实验设备搭载8核16线程的 Intel(R) Core(TM) i7-12700K CPU@ 2.10 GHz、显存大小为12 GB的Nvidia RTX 3060,RAM大小为32 GB,操作系统为Windows 10, Python版本为3.7.13,Pytorch版本为1.11.0. 实验数据集均为公共数据集,包括心电图数据集(heart disease,Heart)、一阶定理证明数据集(first-order theorem proving,FIR)、混凝土抗压强度数据集(concrete compressive strength,CO)、天秤座运动数据集(libras movement,Libras)、德国信用数据集(German credit,GC)、循墙机器人导航数据集(wall-following robot navigation,WR)、成人收入数据集(adult income,AD)、预测学生辍学和学业成功(predict students’ dropout and academic success,Students)和威斯康星州乳腺癌数据集(breast cancer wisconsin,Breast),均从UCI数据库中获得,基本信息如表2所示.
表 2 插补方法性能对比实验的数据集信息
Tab.2
数据集 | 样本数 | 特征数量 | 分类特征数 | 数值特征数 |
Heart | 1 025 | 13 | 8 | 5 |
FIR | 6 118 | 51 | 0 | 51 |
CO | 1 030 | 9 | 0 | 9 |
Libras | 360 | 91 | 0 | 91 |
GC | 1 000 | 24 | 0 | 24 |
WR | 5 456 | 24 | 0 | 24 |
AD | 10 000 | 14 | 8 | 6 |
Students | 1 000 | 37 | 27 | 10 |
Breast | 699 | 10 | 0 | 10 |
3.2. 对比方法
3.3. 评价指标与实验设置
插补结果的评价指标为均方根误差RMSE和错误率RE. 缺失特征属于数值特征时,使用RMSE评价插补结果;属于分类特征时,使用RE评价插补结果.
式中:
图 6
3.4. 实验结果分析
使用五折交叉验证的方法开展对比实验,实验结果取5次实验在测试集上的RMSE的均值和标准差,对于含有分类特征的数据集添加RE的均值和标准差. 对比实验结果如表3和表4所示,每个数据集上的最佳插补结果加粗显示. 平均值插补方法是最简单和传统的插补方法,缺点是忽略了特征间的相关性,在各个数据集上的表现均不理想. MIWAE在多个数据集上表现最差,这可能与超参数的选取有关,MIWAE使用Hyperimputer包的默认超参数. ICE和EM在多个数据集上的效果相当,其中EM在GC数据集上的效果最佳. GAIN是基于生成对抗网络的插补方法,插补效果较一般. MissForest利用随机森林来预测缺失值,它在Heart数据集上的分类特征插补效果最佳,且在这个数据集上的数值特征插补性能仅次于PNDM_Tab. TabCSDI是基于扩散模型的插补方法,相较于传统的插补方法效果明显提升,但生成过程耗费时间,需要多个采样步数才能保持较好的结果. 可以看出,PNDM_Tab在7个数据集中的RMSE最佳,在分类特征上的插补效果仅次于MissForest. PNDM_Tab利用扩散模型强大的生成能力来拟合复杂的数据分布,U-Net与注意力机制相结合的网络结构能够有效地提取数据特征,实现对噪声的精确预测. 因此PNDM_Tab在数据插补任务中表现优秀. 在众多对比方法当中,所提方法与TabCSDI相似,2种方法除了网络结构的差别外,PNDM_Tab在扩散模型的反向过程中使用了加速采样的方法,极大地减少了模型采样的时间,而TabCSDI使用原始扩散模型的反向过程. 在扩散模型前向过程不变的情况下,不同的反向过程方法的性能对比结果如表5所示. DDPM_Tab为反向过程使用DDPM[12]的方法,训练(前向)过程与PNDM_Tab一致. 由于表格数据集的特征维度较小,设置的前向扩散步数step=150. 可以看出,在前向过程不变的情况下,使用DDPM的反向过程只有在step=150的时候效果才好,当使用较小的步数时,模型性能明显下降. 使用基于PNDM反向过程的插补模型时,只要step=10就能达到较好的效果. 在Breast数据集中,当PNDM_Tab的step=20时,效果没有提升,原因是采样步数的增加通常能带来模型性能的提升,也会带来更大的误差积累[25]. 因此有时候随着采样步数的增加,模型的性能没有提升.
表 3 不同插补方法在纯数值特征数据集中的均方根误差
Tab.3
方法 | RMSE | |||||
Breast | Libras | CO | FIR | GC | WR | |
平均值 | 0.251±0.012 | 0.103±0.003 | 0.225±0.008 | 0.135±0.004 | 0.210±0.006 | 0.239±0.002 |
ICE | 0.145±0.005 | 0.029±0.003 | 0.152±0.006 | 0.042±0.005 | 0.232±0.004 | 0.191±0.003 |
EM | 0.146±0.006 | 0.027±0.008 | 0.153±0.006 | 0.043±0.005 | 0.189±0.002 | 0.192±0.003 |
GAIN | 0.177±0.010 | 0.050±0.007 | 0.220±0.005 | 0.086±0.003 | 0.249±0.009 | 0.227±0.005 |
MissForest | 0.148±0.003 | 0.036±0.002 | 0.167±0.006 | 0.057±0.004 | 0.206±0.005 | 0.180±0.002 |
MIWAE | 0.481±0.022 | 0.654±0.007 | 0.245±0.006 | 0.146±0.004 | 0.275±0.007 | 0.257±0.003 |
TabCSDI | 0.152±0.005 | 0.010±0.001 | 0.135±0.012 | 0.051±0.004 | 0.214±0.004 | 0.197±0.004 |
PNDM_Tab | 0.143±0.006 | 0.008±0.000 | 0.124±0.005 | 0.028±0.004 | 0.192±0.006 | 0.175±0.003 |
表 4 不同插补方法在混合特征数据集中的性能对比结果
Tab.4
方法 | AD | Heart | Students | |||||
RMSE | RE | RMSE | RE | RMSE | RE | |||
平均值 | 0.131±0.003 | 0.628±0.010 | 0.164±0.006 | 0.487±0.021 | 0.231±0.007 | 0.531±0.014 | ||
ICE | 0.122±0.003 | 0.571±0.011 | 0.145±0.005 | 0.391±0.024 | 0.186±0.011 | 0.432±0.013 | ||
EM | 0.122±0.003 | 0.564±0.006 | 0.145±0.006 | 0.393±0.010 | 0.187±0.010 | 0.414±0.010 | ||
GAIN | 0.135±0.002 | 0.637±0.007 | 0.158±0.003 | 0.403±0.019 | 0.257±0.002 | 0.488±0.014 | ||
MissForest | 0.118±0.003 | 0.560±0.005 | 0.140±0.004 | 0.336±0.026 | 0.169±0.006 | 0.414±0.013 | ||
MIWAE | 0.136±0.004 | 0.500±0.003 | 0.185±0.013 | 0.477±0.040 | 0.305±0.009 | 0.528±0.007 | ||
TabCSDI | 0.107±0.004 | 0.393±0.006 | 0.147±0.002 | 0.389±0.032 | 0.221±0.013 | 0.402±0.010 | ||
PNDM_Tab | 0.111±0.003 | 0.391±0.002 | 0.139±0.004 | 0.351±0.027 | 0.190±0.009 | 0.343±0.012 |
表 5 不同反向过程模型在2个数据集中的均方根误差
Tab.5
数据集 | 模型 | RMSE | ||
step=10 | step=20 | step=150 | ||
Breast | DDPM_Tab | 0.309±0.019 | 0.229±0.013 | 0.141±0.008 |
PNDM_Tab | 0.143±0.006 | 0.143±0.006 | 0.140±0.006 | |
GC | DDPM_Tab | 0.344±0.009 | 0.296±0.007 | 0.191±0.006 |
PNDM_Tab | 0.192±0.006 | 0.190±0.006 | 0.187±0.006 |
循环次数epoch是深度学习的重要超参数,如图7所示为在Breast数据集上不同的循环次数对插补性能的影响情况. 当循环次数增加到一定程度时,模型的RMSE没有显著的下降. 这表明模型在有限的训练轮次中趋近于收敛,在短时间内可以达到不错的性能,训练效率有所提升.
图 7
图 7 在Breast数据集上循环次数对均方根误差的影响
Fig.7 Impact of number of cycles on root mean square error in Breast dataset
所提方法在训练阶段须对特征使用掩码,以模拟新的缺失值情况. 掩码比率即缺失率
表 6 模型训练阶段不同缺失率的均方根误差
Tab.6
数据集 | RMSE | |||
Breast | 0.148±0.005 | 0.140±0.007 | 0.145±0.008 | 0.143±0.006 |
Libras | 0.010±0.001 | 0.020±0.004 | 0.029±0.007 | 0.008±0.000 |
表3、表4、表5及图7的实验结果是在测试集缺失率为0.2时进行的,为了评估插补方法在不同数据缺失情况下的表现,在WR、FIR和AD数据集上进行测试集缺失率分别为0.1、0.3和0.5的方法性能对比实验,结果如表7和表8所示. 平均值插补方法基本不受缺失率的影响,原因是平均值插补方法基于数据集中非缺失部分的平均值进行插补,具有一定的稳定性,因此得到的插补值变化不大. MIWAE也表现出相似的稳定性,相比之下,当缺失率达到0.5时,GAIN的插补性能显著下降. 当缺失率变化时,ICE和EM在WR和AD数据集上的RMSE相似,在FIR数据集中,当缺失率从0.3升至0.5时,ICE的RMSE变化幅度相对较大. MissForest在WR和FIR数据集上受到缺失率的影响与PNDM_Tab相近,在AD数据集上,随着缺失率的增加,性能下降幅度相对较小. TabCSDI在AD数据集上表现出色,且在WR和FIR数据集上,随着缺失率上升,其性能下降相对平缓. 综合3个数据集的实验结果来看,PNDM_Tab的插补性能在不同缺失率下的表现都是最佳的,因此在处理具有不同缺失率的数据集时,所提方法是值得考虑的插补方法.
表 7 不同缺失率下不同插补方法在2数据集中的均方根误差
Tab.7
方法 | RMSEWR | RMSEFIR | |||||
平均值 | 0.238±0.002 | 0.238±0.001 | 0.238±0.001 | 0.133±0.002 | 0.136±0.004 | 0.135±0.003 | |
ICE | 0.188±0.004 | 0.194±0.002 | 0.202±0.001 | 0.036±0.002 | 0.047±0.005 | 0.059±0.003 | |
EM | 0.188±0.004 | 0.194±0.002 | 0.202±0.001 | 0.039±0.009 | 0.050±0.004 | 0.057±0.002 | |
GAIN | 0.233±0.004 | 0.232±0.004 | 0.268±0.003 | 0.080±0.001 | 0.098±0.005 | 0.188±0.003 | |
MissForest | 0.175±0.003 | 0.184±0.001 | 0.195±0.001 | 0.052±0.002 | 0.061±0.004 | 0.070±0.003 | |
MIWAE | 0.257±0.002 | 0.255±0.002 | 0.256±0.001 | 0.145±0.003 | 0.147±0.005 | 0.147±0.004 | |
TabCSDI | 0.193±0.004 | 0.198±0.003 | 0.204±0.003 | 0.047±0.003 | 0.054±0.005 | 0.060±0.004 | |
PNDM_Tab | 0.170±0.003 | 0.178±0.002 | 0.190±0.002 | 0.022±0.002 | 0.032±0.004 | 0.042±0.003 |
表 8 不同缺失率下不同插补方法在AD数据集中的性能对比结果
Tab.8
方法 | ||||||||
RMSE | RE | RMSE | RE | RMSE | RE | |||
平均值 | 0.132±0.006 | 0.629±0.013 | 0.131±0.002 | 0.629±0.008 | 0.131±0.003 | 0.627±0.006 | ||
ICE | 0.124±0.006 | 0.577±0.009 | 0.123±0.001 | 0.578±0.009 | 0.126±0.003 | 0.581±0.008 | ||
EM | 0.124±0.006 | 0.567±0.007 | 0.123±0.001 | 0.572±0.007 | 0.126±0.003 | 0.578±0.007 | ||
GAIN | 0.135±0.006 | 0.629±0.007 | 0.137±0.002 | 0.650±0.004 | 0.205±0.032 | 0.668±0.006 | ||
MissForest | 0.118±0.006 | 0.560±0.010 | 0.119±0.002 | 0.566±0.006 | 0.123±0.003 | 0.573±0.006 | ||
MIWAE | 0.137±0.007 | 0.500±0.010 | 0.137±0.002 | 0.499±0.007 | 0.137±0.004 | 0.499±0.006 | ||
TabCSDI | 0.104±0.008 | 0.388±0.010 | 0.109±0.003 | 0.403±0.008 | 0.115±0.004 | 0.419±0.005 | ||
PNDM_Tab | 0.110±0.007 | 0.384±0.009 | 0.113±0.003 | 0.401±0.005 | 0.119±0.004 | 0.423±0.005 |
表 9 所提方法在不同规模数据集上的插补时间对比
Tab.9
数据集 | 数据集大小 | 批次大小 | timp/s |
Breast | 699 | 16 | 107 |
FIR | 512 | ||
AD | 512 | 899 |
表 10 不同方法在Breast数据集上的插补时间对比
Tab.10
方法 | timp/s | 方法 | timp/s | |
平均值 | 0.026 | MissForest | 53.400 | |
ICE | 7.330 | MIWAE | 5.120 | |
EM | 1.510 | TabCSDI | 792.000 | |
GAIN | 6.470 | PNDM_Tab | 107.000 |
4. 结 语
针对表格数据存在缺失值的问题提出基于加速扩散模型的插补方法,将扩散模型与U-Net相结合,有效提高了数据插补的性能. 相比其他插补方法,所提方法在多个数据集上达到最优水平,并且能在性能保持不变的情况下减少生成过程的时间. 尽管在模型的生成阶段使用了加速扩散模型的方法,但它比其他生成模型慢,在实时性的需求上有所欠缺,未来将探索更高效的采样策略. 本研究使用条件引导的扩散模型,如何使模型更充分的利用条件将是未来研究的方向.
参考文献
MissForest: non-parametric missing value imputation for mixed-type data
[J].DOI:10.1093/bioinformatics/btr597 [本文引用: 2]
Multiple imputation by chained equations for systematically and sporadically missing multilevel data
[J].DOI:10.1177/0962280216666564 [本文引用: 1]
Spectral regularization algorithms for learning large incomplete matrices
[J].
K-nearest neighbor in missing data imputation
[J].
缺失数据插补处理方法的比较研究
[J].
A comparative study on missing data interpolation methods
[J].
Interacting particle solutions of Fokker–Planck equations through gradient–log–density estimation
[J].DOI:10.3390/e22080802 [本文引用: 1]
Pattern classification with missing data: a review
[J].DOI:10.1007/s00521-009-0295-6 [本文引用: 1]
/
〈 |
|
〉 |
