<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于加速扩散模型的数据插补方法的训练过程

Fig.1 Training process for accelerated diffusion model-based imputation method

当模型完成训练后，对含有缺失值的原始数据进行插补，插补过程如图2所示. 在含有缺失值的位置上从高斯噪声中采样得到$ {\boldsymbol{x}}_T^{{\mathrm{ta}}} $，以条件观测数据$ {\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}} $和缺失索引$ {\boldsymbol{m}} $为条件输入训练好的网络$ {{\boldsymbol{\varepsilon }}_\theta } $中，不断迭代去噪过程，得到插补目标$ {\boldsymbol{x}}_0^{{\mathrm{ta}}} $. PNDM_Tab模型的前向加噪过程采用余弦式的噪声策略^[18]，计算式为

图 2

图 2 基于加速扩散模型的数据插补方法的插补过程

Fig.2 Imputation process for accelerated diffusion model-based imputation method

(22)$ {\bar \alpha _t} = \dfrac{{f(t)}}{{f(0)}},\quad f(t) = \cos {\left( {\dfrac{{{t}/{T}+s}}{{1+s}} \cdot \dfrac{{\text{π}} }{2}} \right)^2}. $

对应方差$ {\beta _t} $的计算式为

(23)$ {\beta _t} = 1 - {\bar \alpha _t}/{\bar \alpha _{t - 1}}. $

$ s $是小偏移量，防止扩散开始时的一些步数中方差过小. 方差过小，将不利于神经网络对噪声的预测，本研究取$ s = 0.008 $. 基于加速扩散模型的插补算法的前向过程如算法1所示.

算法1　　插补算法的前向过程

输入：原始数据${{\boldsymbol{x}}^{{\mathrm{ori}}}}$与掩码矩阵${\boldsymbol{n}}$结合，得到条件观测数据${\boldsymbol{x}}_0^{{\mathrm{co}}}$和插补目标${\boldsymbol{x}}_0^{{\mathrm{ta}}}$、算法迭代次数$N$、噪声水平序列$ \left\{ {\bar a} \right\} $

输出：训练好的预测噪声网络${{\boldsymbol{\varepsilon}} _\theta }$

1：for $i = 1$ to $N$ do

2：　 $t\sim {\text{Uniform}}\left( {\left\{ {1,\cdots,T} \right\}} \right)$

3：　 ${\boldsymbol{\varepsilon}} \sim {N}\left( {0,{\boldsymbol{I}}} \right)$

4:　 ${\nabla _\theta }||\left( {{\boldsymbol{\varepsilon}} - {{\boldsymbol{\varepsilon}} _\theta }\left( {{\boldsymbol{x}}_t^{{\mathrm{ta}}} = \sqrt {{{\bar a}_t}} {\boldsymbol{x}}_0^{{\mathrm{ta}}}+\sqrt {1 - {{\bar a}_t}} {\boldsymbol{\varepsilon}} ,t|{\boldsymbol{x}}_0^{{\mathrm{co}}},{\boldsymbol{n}}} \right)} \right)||$执行梯度下降

5：end for

与DDPM的反向过程不同，本研究采用二阶亚当姆斯的伪数值方法来加速生成过程，二阶亚当姆斯的计算要用到前两项的梯度，

(24)$ \left. {\begin{array}{*{20}{l}} {{\boldsymbol{e}}_t^1 = {{\boldsymbol{\varepsilon}} _\theta }\left( {{x_t},t} \right),} \\ {{\boldsymbol{x}}_t^1 = \phi \left( {{{\boldsymbol{x}}_t},{\boldsymbol{e}}_t^1,t,t - \delta } \right),} \\ {{\boldsymbol{e}}_t^2 = {{\boldsymbol{\varepsilon}} _\theta }\left( {{\boldsymbol{x}}_t^1,t - \delta } \right),} \\ {{\boldsymbol{e}}_t^\prime = \left( {{\boldsymbol{e}}_t^1+{\boldsymbol{e}}_t^2} \right)/2,} \\ {{{\boldsymbol{x}}_{t - \delta }} = \phi \left( {{{\boldsymbol{x}}_t},{\boldsymbol{e}}_t^\prime ,t,t - \delta } \right).} \end{array}} \right\} $

对于第$T$步的去噪过程采用式（24）改进欧拉法（improved Euler，IE）进行计算. 采用基于条件生成的扩散模型，将式（18）和（24）分别记为$ {{\boldsymbol{x}}_{t - \delta }},{\boldsymbol{e}}_t^{} = {\text{Adams}}\left( {{{\boldsymbol{x}}_t},{{\left\{ {{{\boldsymbol{e}}_p}} \right\}}_{p > t}},t,t - \delta ,{\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}},{\boldsymbol{m}}} \right) $和 $ {{\boldsymbol{x}}_{t - \delta }},{{\boldsymbol{e}}_t} = {{\mathrm{IE}}} ( {{\boldsymbol{x}}_t}, t,t - \delta , {\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}},{\boldsymbol{m}} ) $，插补算法的反向过程如算法2所示.

算法2 　　插补算法的反向过程

输入：原始数据，表示${{\boldsymbol{x}}^{{\mathrm{ori}}}}$的缺失索引${\boldsymbol{m}}$、训练好的预测噪声网络${{\boldsymbol{\varepsilon }}_\theta }$、采样步数$T$

输出：完成插补的数据${\boldsymbol{x}}_0^{{\mathrm{ta}}}$

1：原始数据${{\boldsymbol{x}}^{{\mathrm{ori}}}}$作为条件观测数据${\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}}$

2：${\boldsymbol{x}}_T^{{\mathrm{ta}}}\sim {N}\left( {0,{\boldsymbol{I}}} \right)$，${\boldsymbol{x}}_T^{{\mathrm{ta}}}$的值与${\boldsymbol{m}}$相关联，${\boldsymbol{m}}$表示哪些位置是需要做插补的

3：for $ t = T - 1 $ do

4:　 $ {\boldsymbol{x}}_t^{{\mathrm{ta}}},{e_t} = {\text{IE}}\left( {{\boldsymbol{x}}_{t+1}^{{\mathrm{ta}}},t+1,t,{\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}},{\boldsymbol{m}}} \right) $

5: end for

6: for $ t = T - 2,\cdots,1,0 $ do

7:　 $ {\boldsymbol{x}}_t^{{\mathrm{ta}}},{{\boldsymbol{e}}_t} = {\text{Adams}}\left( {{\boldsymbol{x}}_{t+1}^{{\mathrm{ta}}},{{\left\{ {{{\boldsymbol{e}}_p}} \right\}}_{p > t}},t+1,t,{\boldsymbol{x}}_{{\mathrm{ori}}}^{{\mathrm{co}}},{\boldsymbol{m}}} \right) $

8: end for

9: return ${\boldsymbol{x}}_0^{{\mathrm{ta}}}$

2.4. 模型网络结构

U-Net^[19]是扩散模型中常用的网络结构，将其与注意力机制结合可进行噪声预测^[20]. 为了适配表格数据特征维度较小的特点，调整U-Net适应性，使用较浅的下采样深度，网络结构如图3所示. 网络的输入包含条件观测数据${\boldsymbol{x}}_0^{{\mathrm{co}}}$、加噪后的数据${\boldsymbol{x}}_t^{{\mathrm{ta}}}$、时间步$t$和缺失索引${\boldsymbol{n}}$. 这里将${\boldsymbol{x}}_0^{{\mathrm{co}}}$与${\boldsymbol{x}}_t^{{\mathrm{ta}}}$拼接，得到${{\boldsymbol{x}}_t}$. 由于表格数据是一维变量，网络当中所有的卷积层都采用一维卷积. 编码器中每一个层级的特征提取块都是按残差块、残差块、自注意力块的顺序连接组成，除了最后一个层级外，其余的特征提取层都会连接下采样层. 在下采样层中将数据进行降维，同时提高数据的通道数，避免在下采样层中因降维导致数据的信息丢失. 中间层提取数据更高级的特征信息并输入解码器进行解码，按残差块、自注意力块、残差块的顺序连接组成，不改变数据的特征维数和通道数. 解码器的结构与编码器基本对称，除了特征提取块，解码器中还有上采样层和跳跃连接组件. 上采样层逐步增加数据的特征维数，直至恢复到原始数据的特征维数大小，同时降低数据的通道数. 跳跃连接让解码器中的每一层都与编码器中相应的层连接，有助于将底层和高层的特征信息结合在一块，辅助解码器学习.

图 3

图 3 基于加速扩散模型的数据插补方法的结构图

Fig.3 Architecture diagram of accelerated diffusion model-based imputation method

如图4所示为U-Net中残差块的网络结构，由于解码器中存在跳跃连接，输入通道和输出通道不相同，输入经过上方的卷积层后与$f\left( X \right)$相加得到输出. 当输入通道和输出通道相同时，输入直接与$f\left( X \right)$相加得到输出.

图 4

图 4 U-Net中残差块的网络结构图

Fig.4 Network structure diagram of residual blocks in U-Net

自注意力机制^[21]在深度学习领域中大放异彩，由它能够得到内部特征之间的关联性，使模型关注更为重要的信息. 自注意力机制的计算分为2个过程，先计算查询${\boldsymbol{Q}}$与键${\boldsymbol{K}}$的相关性，得到权重系数，再根据权重系数与值$ {\boldsymbol{V}} $进行加权求和：

(25)$ {{\mathrm{Attention}}} \;({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {{\mathrm{softmax}}} \left( {\frac{{{{\boldsymbol{QK}}^{\mathrm{T}} }}}{{\sqrt d }}} \right){\boldsymbol{V}}. $

多头注意力建立在自注意力的基础上，是提高模型性能的同时又不会增加注意力计算量的技术. 多头注意力将注意力计算分解为由注意力头数量h确定的多个注意力计算，计算过程如图5所示. 在多头注意力中，输入数据$X$（同时充当${\boldsymbol{Q}}$、${\boldsymbol{K}}$和$ {\boldsymbol{V}} $）通过与权重$ {\boldsymbol{W}}_i^{\boldsymbol{Q}} \in {{{\bf{R}}}^{{d_q} \times {d_q}/h}} $、$ {\boldsymbol{W}}_i^{\boldsymbol{K}} \in {{{\bf{R}}}^{{d_k} \times {d_k}/h}} $、$ {\boldsymbol{W}}_i^{\boldsymbol{V}} \in {{{\bf{R}}}^{{d_v} \times {d_v}/h}} $相乘，得到$ {\boldsymbol{W}}_i^{\boldsymbol{Q}}{\boldsymbol{Q}} $、${\boldsymbol{W}}_i^{\boldsymbol{K}}{\boldsymbol{K}}$、$ {\boldsymbol{W}}_i^{\boldsymbol{V}}{\boldsymbol{V }}$，i∈[1, h]. 在$ {\boldsymbol{W}}_i^{\boldsymbol{Q}}{\boldsymbol{Q}} $、${\boldsymbol{W}}_i^{\boldsymbol{K}}{\boldsymbol{K}}$、$ {\boldsymbol{W}}_i^{\boldsymbol{V}}{\boldsymbol{V}} $上执行第i个注意力操作，再将这h个矩阵拼接起来得到最后的输出. 由缩放点积注意力式（25）给出的个注意力运算的理论复杂度与${\boldsymbol{Q}}$和${\boldsymbol{K}}$的维度$d$成正比. 对原始向量进行的多头注意力计算与对原始向量进行的单头注意力计算具有相同的理论复杂度. 直观上，多头注意力的优点是将向量分成多个头，形成多个子空间，使模型关注不同方面的信息.

图 5

图 5 自注意力机制的结构示意图

Fig.5 Structure schematic of self-attention mechanism

如表1所示为PNDM_Tab的网络参数配置，包括U-Net、初始层和输出层，其中K为卷积核大小、S为步长，P为填充的大小，C_out为卷积层的输出通道数、H为多头注意力机制中的注意力头数. 在编码器中，如果是最后一个层级的特征提取块中，下采样块不会进行特征降维. 解码器与之类似，在最后一个层级的特征提取块中，上采样块不会进行特征升维. 模型的训练和采样都要加入时间步$t$，原因是在训练过程中，不同时间步数据添加的噪声大小不同，提供时间步可以让网络预测出的噪声更加准确. 本研究将时间步转换为正弦嵌入，使模型能够有效地利用和学习时间步进行位置编码，得到时间步嵌入${{\boldsymbol{t}}_{{\mathrm{emb}}}}$；同时，将提供数据的缺失索引$ {\boldsymbol{n}} $作为辅助信息，使模型更容易分辨出须进行插补操作的数据，以提高模型插补的准确性，进行缺失索引嵌入，得到$ {{\boldsymbol{n}}_{{\mathrm{emb}}}} $. 为了将${x_t}$和转换后的时间步嵌入以及缺失索引嵌入合并到模型中，采用自适应组归一化^[20]的方法添加条件，生成新的${x_t}$表示：

表 1 基于加速扩散模型的数据插补方法的网络参数

Tab.1 Network parameter of accelerated diffusion model-based imputation method

模块阶段	模块名称	K	S	P	C_out	H
初始层	卷积层	3×3	1	1×1	16	—
编码器	残差块	3×3	1	1×1	16	—
	残差块	3×3	1	1×1	16	—
	残差块	3×3	1	1×1	16	—
	残差块	3×3	1	1×1	16	—
	自注意力块	—	—	—	—	4
	下采样块（非最后一个层级）	5×5	2	1×1	128	—
	下采样块（最后一个层级）	3×3	1	1×1	128	—
中间层	残差块	3×3	1	1×1	128	—
	残差块	3×3	1	1×1	128	—
	自注意力块	—	—	—	—	4
	残差块	3×3	1	1×1	128	—
	残差块	3×3	1	1×1	128	—
解码器	残差块	3×3	1	1×1	128	—
		3×3	1	1×1	128	—
		3×3	1	1×1	128	—
	残差块	3×3	1	1×1	128	—
		3×3	1	1×1	128	—
		3×3	1	1×1	128	—
	自注意力块	—	—	—	—	4
	上采样块（非最后一个层级）	2×2	1	1×1	128	—
	上采样块（最后一个层级）	3×3	1	1×1	16	—
	上采样块（最后一个层级）	nn.Upsample(scale_factor = 2)
输出层	卷积层	1×1	1	0	1	—

(26)$ {\text{AdaGN}}\left( {z,t,{\boldsymbol{n}}} \right) = {{\boldsymbol{t}}_{\mathrm{emb}}}{\text{GroupNorm}}\left( {\boldsymbol{z}} \right)+{{\boldsymbol{n}}_{\mathrm{emb}}} .$

式中：$ {\boldsymbol{z}} $为${x_t}$经过残差块中第1个卷积层的输出.

3. 实验与分析

3.1. 实验环境与实验数据集

实验设备搭载8核16线程的 Intel(R) Core(TM) i7-12700K CPU@ 2.10 GHz、显存大小为12 GB的Nvidia RTX 3060，RAM大小为32 GB，操作系统为Windows 10， Python版本为3.7.13，Pytorch版本为1.11.0. 实验数据集均为公共数据集，包括心电图数据集（heart disease，Heart）、一阶定理证明数据集（first-order theorem proving，FIR）、混凝土抗压强度数据集（concrete compressive strength，CO）、天秤座运动数据集（libras movement，Libras）、德国信用数据集（German credit，GC）、循墙机器人导航数据集（wall-following robot navigation，WR）、成人收入数据集（adult income，AD）、预测学生辍学和学业成功（predict students’ dropout and academic success，Students）和威斯康星州乳腺癌数据集（breast cancer wisconsin，Breast），均从UCI数据库中获得，基本信息如表2所示.

表 2 插补方法性能对比实验的数据集信息

Tab.2 Dataset information for performance comparison experiments of imputation methods

数据集	样本数	特征数量	分类特征数	数值特征数
Heart	1 025	13	8	5
FIR	6 118	51	0	51
CO	1 030	9	0	9
Libras	360	91	0	91
GC	1 000	24	0	24
WR	5 456	24	0	24
AD	10 000	14	8	6
Students	1 000	37	27	10
Breast	699	10	0	10

3.2. 对比方法

将本研究所提方法与7种插补方法进行比较：1）平均值，使用逐列平均值来估算缺失值的方法；2）ICE，基于正则化线性回归的插补方法；3）基于期望最大化优化的插补方法（expectation-maximization，EM）^[22]；4）GAIN^[5]，使用生成对抗网络进行缺失数据插补，训练判别器以元素判别的方式对生成器的输出进行分类；5）MissForest^[2]，基于随机森林的插补方法；6）MIWAE^[6]，通过优化变分界限来拟合缺失数据的自编码器模型；7）TabCSDI^[7]，基于扩散模型的插补方法.

3.3. 评价指标与实验设置

插补结果的评价指标为均方根误差RMSE和错误率R_E. 缺失特征属于数值特征时，使用RMSE评价插补结果；属于分类特征时，使用R_E评价插补结果.

(27)$ {\mathrm{RMSE}} = \sqrt {\frac{1}{{N_{{\text{num}}}}}\mathop \sum \limits_{i = 1}^n \mathop \sum \limits_{j = 1}^m {{\left( {{{\tilde X}_{ij}} - {X_{ij}}} \right)}^2}} , $

(28)$ R_{\mathrm{E}} = \frac{1}{{N_{{\text{cat }}}}}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{F_{\left[ {{{\tilde X}_{ij}} \ne {X_{ij}}} \right]}}} } . $

式中：$ N_{{\mathrm{num}}} $为数值特征缺失的数据量；$ {X_{ij}} $为真实值；$ {\tilde X_{ij}} $为预测值；$ N_{{\text{cat }}} $为分类特征缺失的数据量；$ F $为指示函数，如果条件成立返回1，不成立返回0. 除了TabCSDI，其余的对比方法分类特征插补后的值四舍五入变成整数. RMSE和R_E越小，表明插补的值越准确. 扩散模型在生成数值特征方面比分类特征表现好，在表格数据中通常存在分类特征，为此在含有分类特征的数据集上，采用如图6所示的FT-Transformer^[23]中的特征嵌入方式，将数值特征和分类特征都映射到新的变量空间当中，插补完成后，再从嵌入中恢复数值特征和分类特征^[7]. 实验中使用带有MultiStepLR的Adam优化器，在循环次数的25%、50%、75%和90%处，学习率衰减为原来的10%. 多头注意力的头数为4，由于Libras数据集的特征数量为91，采用3个层级的U-Net，其余的数据集采用1个层级的U-Net. MIWAE、EM和GAIN等插补方法使用Hyperimpute^[24]包中的实现方式；TabCSDI使用文献[7]中的源代码和超参数，对含有分类特征的数据集使用特征嵌入的方式进行处理. 将验证集和测试集的缺失率设置为0.2，训练集的缺失率设置为0~1.0的随机数，每个批次训练时的缺失率均随机. 在各个数据集中设置前向过程步数为150，反向过程步数在纯数值特征数据集为10，在混合特征数据集为15.

图 6

图 6 FT-Transformer的特征嵌入模块

Fig.6 Feature embedding module of FT-Transformer

3.4. 实验结果分析

使用五折交叉验证的方法开展对比实验，实验结果取5次实验在测试集上的RMSE的均值和标准差，对于含有分类特征的数据集添加R_E的均值和标准差. 对比实验结果如表3和表4所示，每个数据集上的最佳插补结果加粗显示. 平均值插补方法是最简单和传统的插补方法，缺点是忽略了特征间的相关性，在各个数据集上的表现均不理想. MIWAE在多个数据集上表现最差，这可能与超参数的选取有关，MIWAE使用Hyperimputer包的默认超参数. ICE和EM在多个数据集上的效果相当，其中EM在GC数据集上的效果最佳. GAIN是基于生成对抗网络的插补方法，插补效果较一般. MissForest利用随机森林来预测缺失值，它在Heart数据集上的分类特征插补效果最佳，且在这个数据集上的数值特征插补性能仅次于PNDM_Tab. TabCSDI是基于扩散模型的插补方法，相较于传统的插补方法效果明显提升，但生成过程耗费时间，需要多个采样步数才能保持较好的结果. 可以看出，PNDM_Tab在7个数据集中的RMSE最佳，在分类特征上的插补效果仅次于MissForest. PNDM_Tab利用扩散模型强大的生成能力来拟合复杂的数据分布，U-Net与注意力机制相结合的网络结构能够有效地提取数据特征，实现对噪声的精确预测. 因此PNDM_Tab在数据插补任务中表现优秀. 在众多对比方法当中，所提方法与TabCSDI相似，2种方法除了网络结构的差别外，PNDM_Tab在扩散模型的反向过程中使用了加速采样的方法，极大地减少了模型采样的时间，而TabCSDI使用原始扩散模型的反向过程. 在扩散模型前向过程不变的情况下，不同的反向过程方法的性能对比结果如表5所示. DDPM_Tab为反向过程使用DDPM^[12]的方法，训练（前向）过程与PNDM_Tab一致. 由于表格数据集的特征维度较小，设置的前向扩散步数step=150. 可以看出，在前向过程不变的情况下，使用DDPM的反向过程只有在step=150的时候效果才好，当使用较小的步数时，模型性能明显下降. 使用基于PNDM反向过程的插补模型时，只要step=10就能达到较好的效果. 在Breast数据集中，当PNDM_Tab的step=20时，效果没有提升，原因是采样步数的增加通常能带来模型性能的提升，也会带来更大的误差积累^[25]. 因此有时候随着采样步数的增加，模型的性能没有提升.

表 3 不同插补方法在纯数值特征数据集中的均方根误差

Tab.3 Root mean square error of different imputation methods in purely numerical feature datasets

方法	RMSE
方法	Breast	Libras	CO	FIR	GC	WR
平均值	0.251±0.012	0.103±0.003	0.225±0.008	0.135±0.004	0.210±0.006	0.239±0.002
ICE	0.145±0.005	0.029±0.003	0.152±0.006	0.042±0.005	0.232±0.004	0.191±0.003
EM	0.146±0.006	0.027±0.008	0.153±0.006	0.043±0.005	0.189±0.002	0.192±0.003
GAIN	0.177±0.010	0.050±0.007	0.220±0.005	0.086±0.003	0.249±0.009	0.227±0.005
MissForest	0.148±0.003	0.036±0.002	0.167±0.006	0.057±0.004	0.206±0.005	0.180±0.002
MIWAE	0.481±0.022	0.654±0.007	0.245±0.006	0.146±0.004	0.275±0.007	0.257±0.003
TabCSDI	0.152±0.005	0.010±0.001	0.135±0.012	0.051±0.004	0.214±0.004	0.197±0.004
PNDM_Tab	0.143±0.006	0.008±0.000	0.124±0.005	0.028±0.004	0.192±0.006	0.175±0.003

表 4 不同插补方法在混合特征数据集中的性能对比结果

Tab.4 Performance comparison results of different imputation methods in mixed feature datasets

方法	AD		Heart		Students
方法	RMSE	R_E	RMSE	R_E	RMSE	R_E
平均值	0.131±0.003	0.628±0.010	0.164±0.006	0.487±0.021	0.231±0.007	0.531±0.014
ICE	0.122±0.003	0.571±0.011	0.145±0.005	0.391±0.024	0.186±0.011	0.432±0.013
EM	0.122±0.003	0.564±0.006	0.145±0.006	0.393±0.010	0.187±0.010	0.414±0.010
GAIN	0.135±0.002	0.637±0.007	0.158±0.003	0.403±0.019	0.257±0.002	0.488±0.014
MissForest	0.118±0.003	0.560±0.005	0.140±0.004	0.336±0.026	0.169±0.006	0.414±0.013
MIWAE	0.136±0.004	0.500±0.003	0.185±0.013	0.477±0.040	0.305±0.009	0.528±0.007
TabCSDI	0.107±0.004	0.393±0.006	0.147±0.002	0.389±0.032	0.221±0.013	0.402±0.010
PNDM_Tab	0.111±0.003	0.391±0.002	0.139±0.004	0.351±0.027	0.190±0.009	0.343±0.012

表 5 不同反向过程模型在2个数据集中的均方根误差

Tab.5 Root mean square error of different reverse process models in two datasets

数据集	模型	RMSE
数据集	模型	step=10	step=20	step=150
Breast	DDPM_Tab	0.309±0.019	0.229±0.013	0.141±0.008
Breast	PNDM_Tab	0.143±0.006	0.143±0.006	0.140±0.006
GC	DDPM_Tab	0.344±0.009	0.296±0.007	0.191±0.006
GC	PNDM_Tab	0.192±0.006	0.190±0.006	0.187±0.006

循环次数epoch是深度学习的重要超参数，如图7所示为在Breast数据集上不同的循环次数对插补性能的影响情况. 当循环次数增加到一定程度时，模型的RMSE没有显著的下降. 这表明模型在有限的训练轮次中趋近于收敛，在短时间内可以达到不错的性能，训练效率有所提升.

图 7

图 7 在Breast数据集上循环次数对均方根误差的影响

Fig.7 Impact of number of cycles on root mean square error in Breast dataset

所提方法在训练阶段须对特征使用掩码，以模拟新的缺失值情况. 掩码比率即缺失率${p_{{\mathrm{mis}}}}$，控制重新掩码特征的数量，如表6所示，训练阶段缺失率对RMSE有较大影响. 在不同的数据集中，最佳缺失率不同，这可能跟数据集的特征数量有关（Brest和Libras数据集的特征数量分别为10和91）. 对特征进行高比率的掩码能带来足够的监督信号，但高比率的掩码意味着大量数据点的信息不可用. 当缺失值过多时，模型可能无法从剩余的数据中学习到特征内部潜在的关系，导致模型性能下降，因此难以选择恰当的缺失率，将缺失率设置为随机值是个不错的选择.

表 6 模型训练阶段不同缺失率的均方根误差

Tab.6 Root mean square error for different missing rates in model training phase

数据集	RMSE
数据集	${p_{{\mathrm{mis}}}} $=0.2	${p_{{\mathrm{mis}}}} $=0.5	${p_{{\mathrm{mis}}}} $=0.8	${p_{{\mathrm{mis}}}} $为随机值
Breast	0.148±0.005	0.140±0.007	0.145±0.008	0.143±0.006
Libras	0.010±0.001	0.020±0.004	0.029±0.007	0.008±0.000

表3、表4、表5及图7的实验结果是在测试集缺失率为0.2时进行的，为了评估插补方法在不同数据缺失情况下的表现，在WR、FIR和AD数据集上进行测试集缺失率分别为0.1、0.3和0.5的方法性能对比实验，结果如表7和表8所示. 平均值插补方法基本不受缺失率的影响，原因是平均值插补方法基于数据集中非缺失部分的平均值进行插补，具有一定的稳定性，因此得到的插补值变化不大. MIWAE也表现出相似的稳定性，相比之下，当缺失率达到0.5时，GAIN的插补性能显著下降. 当缺失率变化时，ICE和EM在WR和AD数据集上的RMSE相似，在FIR数据集中，当缺失率从0.3升至0.5时，ICE的RMSE变化幅度相对较大. MissForest在WR和FIR数据集上受到缺失率的影响与PNDM_Tab相近，在AD数据集上，随着缺失率的增加，性能下降幅度相对较小. TabCSDI在AD数据集上表现出色，且在WR和FIR数据集上，随着缺失率上升，其性能下降相对平缓. 综合3个数据集的实验结果来看，PNDM_Tab的插补性能在不同缺失率下的表现都是最佳的，因此在处理具有不同缺失率的数据集时，所提方法是值得考虑的插补方法.

表 7 不同缺失率下不同插补方法在2数据集中的均方根误差

Tab.7 Root mean square error of different imputation methods under different missing rates in two datasets

方法	RMSE_WR			RMSE_FIR
方法	${p_{{\mathrm{mis}}}}$=10%	${p_{{\mathrm{mis}}}}$=30%	${p_{{\mathrm{mis}}}}$=50%	${p_{{\mathrm{mis}}}}$=10%	${p_{{\mathrm{mis}}}}$=30%	${p_{{\mathrm{mis}}}}$=50%
平均值	0.238±0.002	0.238±0.001	0.238±0.001	0.133±0.002	0.136±0.004	0.135±0.003
ICE	0.188±0.004	0.194±0.002	0.202±0.001	0.036±0.002	0.047±0.005	0.059±0.003
EM	0.188±0.004	0.194±0.002	0.202±0.001	0.039±0.009	0.050±0.004	0.057±0.002
GAIN	0.233±0.004	0.232±0.004	0.268±0.003	0.080±0.001	0.098±0.005	0.188±0.003
MissForest	0.175±0.003	0.184±0.001	0.195±0.001	0.052±0.002	0.061±0.004	0.070±0.003
MIWAE	0.257±0.002	0.255±0.002	0.256±0.001	0.145±0.003	0.147±0.005	0.147±0.004
TabCSDI	0.193±0.004	0.198±0.003	0.204±0.003	0.047±0.003	0.054±0.005	0.060±0.004
PNDM_Tab	0.170±0.003	0.178±0.002	0.190±0.002	0.022±0.002	0.032±0.004	0.042±0.003

表 8 不同缺失率下不同插补方法在AD数据集中的性能对比结果

Tab.8 Performance comparison results of different interpolation methods under different missing rates in AD dataset

方法	${p_{{\mathrm{mis}}}}$=10%		${p_{{\mathrm{mis}}}}$=30%		${p_{{\mathrm{mis}}}}$=50%
方法	RMSE	R_E	RMSE	R_E	RMSE	R_E
平均值	0.132±0.006	0.629±0.013	0.131±0.002	0.629±0.008	0.131±0.003	0.627±0.006
ICE	0.124±0.006	0.577±0.009	0.123±0.001	0.578±0.009	0.126±0.003	0.581±0.008
EM	0.124±0.006	0.567±0.007	0.123±0.001	0.572±0.007	0.126±0.003	0.578±0.007
GAIN	0.135±0.006	0.629±0.007	0.137±0.002	0.650±0.004	0.205±0.032	0.668±0.006
MissForest	0.118±0.006	0.560±0.010	0.119±0.002	0.566±0.006	0.123±0.003	0.573±0.006
MIWAE	0.137±0.007	0.500±0.010	0.137±0.002	0.499±0.007	0.137±0.004	0.499±0.006
TabCSDI	0.104±0.008	0.388±0.010	0.109±0.003	0.403±0.008	0.115±0.004	0.419±0.005
PNDM_Tab	0.110±0.007	0.384±0.009	0.113±0.003	0.401±0.005	0.119±0.004	0.423±0.005

如表9所示为所提方法在不同规模数据集下的插补时间${t_{{\mathrm{imp}}}}$. 由表可知，不仅数据样本的数量，而且特征的数量对插补时间也会产生显著的影响. 如表10所示为不同方法在Breast数据集上的插补时间. 相较于基于统计的插补方法和基于机器学习的插补方法，使用扩散模型的插补方法虽然插补时间稍长，但插补精度得到提升，而PNDM_Tab的插补时间远低于TabCSDI.

表 9 所提方法在不同规模数据集上的插补时间对比

Tab.9 Imputation time comparison of proposed method in datasets of different sizes

数据集	数据集大小	批次大小	t_imp/s
Breast	699	16	107
FIR	6118	512	1619
AD	10000	512	899

表 10 不同方法在Breast数据集上的插补时间对比

Tab.10 Imputation time comparison of different methods in Breast dataset

方法	t_imp/s	方法	t_imp/s
平均值	0.026	MissForest	53.400
ICE	7.330	MIWAE	5.120
EM	1.510	TabCSDI	792.000
GAIN	6.470	PNDM_Tab	107.000

4. 结　语

针对表格数据存在缺失值的问题提出基于加速扩散模型的插补方法，将扩散模型与U-Net相结合，有效提高了数据插补的性能. 相比其他插补方法，所提方法在多个数据集上达到最优水平，并且能在性能保持不变的情况下减少生成过程的时间. 尽管在模型的生成阶段使用了加速扩散模型的方法，但它比其他生成模型慢，在实时性的需求上有所欠缺，未来将探索更高效的采样策略. 本研究使用条件引导的扩散模型，如何使模型更充分的利用条件将是未来研究的方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

VAN BUUREN S. Flexible imputation of missing data [M]. [S. l. ]: CRC Press, 2018.

DOI:10.1093/bioinformatics/btr597 [本文引用: 2]

[2]

STEKHOVEN D J, BÜHLMANN P

MissForest: non-parametric missing value imputation for mixed-type data

[J]. Bioinformatics, 2012, 28 (1): 112- 118

[3]

RESCHE-RIGON M, WHITE I R

Multiple imputation by chained equations for systematically and sporadically missing multilevel data

[J]. Statistical Methods in Medical Research, 2018, 27 (6): 1634- 1649

DOI:10.1177/0962280216666564 [本文引用: 1]

[4]

MAZUMDER R, HASTIE T, TIBSHIRANI R

Spectral regularization algorithms for learning large incomplete matrices

[J]. Journal of Machine Learning Research, 2010, 11: 2287- 2322

[5]

YOON J, JORDON J, SCHAAR M. GAIN: missing data imputation using generative adversarial nets [C]// Proceedings of the 35th International Conference on Machine Learning. Stockholm: ACM, 2018: 5689–5698.

[本文引用: 3]

[6]

MATTEI P A, FRELLSEN J. MIWAE: deep generative modelling and imputation of incomplete data sets [C]// Proceedings of the 36th International Conference on Machine Learning. Long Beach: ACM, 2019: 4413–4423.

[本文引用: 3]

[7]

ZHENG S, CHAROENPHAKDEE N. Diffusion models for missing value imputation in tabular data [EB/OL]. (2023–03–11)[2023–07–12]. https://arxiv.org/pdf/2210.17128.

[本文引用: 5]

[8]

LIU L, REN Y, LIN Z, et al. Pseudo numerical methods for diffusion models on manifolds [EB/OL]. (2022–10–31)[2023–08–19]. https://arxiv.org/pdf/2202.09778.

[本文引用: 3]

[9]

MCKNIGHT P E, MCKNIGHT K M, SIDANI S, et al. Missing data: a gentle introduction [M]. [S. l. ]: Guilford Press, 2007.

[10]

MALARVIZHI R, THANAMANI A S

K-nearest neighbor in missing data imputation

[J]. International Journal of Engineering Research and Development, 2012, 5 (1): 5- 7

[11]

庞新生

缺失数据插补处理方法的比较研究

[J]. 统计与决策, 2012, 28 (24): 18- 22

PANG Xinsheng

A comparative study on missing data interpolation methods

[J]. Statistics and Decision, 2012, 28 (24): 18- 22

[12]

HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. [S. l. ]: Curran Associates Inc. , 2020: 6840–6851.

[本文引用: 2]

[13]

SONG J M, MENG C L, ERMON S. Denoising diffusion implicit models [EB/OL]. (2022–10–05)[2023–08–23]. https://arxiv.org/pdf/2010.02502.

[本文引用: 2]

[14]

SONG Y, SOHL-DICKSTEIN J, KINGMA D P, et al. Score-based generative modeling through stochastic differential equations [EB/OL]. (2021–02–10)[2023–08–25]. https://arxiv.org/pdf/2011.13456.

[15]

MAOUTSA D, REICH S, OPPER M

Interacting particle solutions of Fokker–Planck equations through gradient–log–density estimation

[J]. Entropy, 2020, 22 (8): 802

DOI:10.3390/e22080802 [本文引用: 1]

[16]

SALIMANS T, HO J. Progressive distillation for fast sampling of diffusion models [EB/OL]. (2022–06–07)[2024–01–23]. https://arxiv.org/pdf/2202.00512.

[17]

TASHIRO Y, SONG J, SONG Y, et al. CSDI: conditional score-based diffusion models for probabilistic time series imputation [C]// Proceedings of the 35th International Conference on Neural Information Processing Systems. [S.l.]: Curran Associates Inc. , 2021: 24804–24816.

[18]

NICHOL A. Q, DHARIWAL P. Improved denoising diffusion probabilistic models [C]// Proceedings of the 38th International Conference on Machine Learning. Vienna: ACM, 2021: 8162–8171.

[19]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention. [S. l. ]: Springer, 2015: 234–241.

[20]

DHARIWAL P, NICHOL A. Diffusion models beat gans on image synthesis [C]// Proceedings of the 35th International Conference on Neural Information Processing Systems. [S. l.]: Curran Associates Inc. , 2021: 8780–8794.

[本文引用: 2]

[21]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31th International Conference on Neural Information Processing Systems. [S. l.]: Curran Associates Inc. , 2017: 6000–6010.

[22]

GARCÍA-LAENCINA P J, SANCHO-GÓMEZ J L, FIGUEIRAS-VIDAL A R

Pattern classification with missing data: a review

[J]. Neural Computing and Applications, 2010, 19 (2): 263- 282

DOI:10.1007/s00521-009-0295-6 [本文引用: 1]

[23]

GORISHNIY Y, RUBACHEV I, KHRULKOV V, et al. Revisiting deep learning models for tabular data [C]// Proceedings of the 35th International Conference on Neural Information Processing Systems. [S. l. ]: Curran Associates Inc., 2021: 18932–18943.

[24]

JARRETT D, CEBERE B C, LIU T, et al. Hyperimpute: Generalized iterative imputation with automatic model selection [C]// Proceedings of the 39th International Conference on Machine Learning. Baltimore: ACM, 2022: 9916–9937.

[25]

NING M, SANGINETO E, PORRELLO A, et al. Input perturbation reduces exposure bias in diffusion models [EB/OL]. (2023–06–18)[2024–03–11]. https://arxiv.org/pdf/2301.11706.