现实世界的数据集常会存在数据随机缺失(MAR,Missing At Random)的问题,且样本数据缺失会大大降低分析算法的有效性。现有的处理缺失数据还原的方法大致分为两类:第一类是直接删除含有缺失值的样本点,这种方法简单易操作,但是会造成原有数据集信息的丢失;另一种方法是对缺失值进行插值,这种方法分为基于统计技术的方法和基于样本聚类技术的方法。基于统计技术的方法即常见的均值插值、众数插值等。基于样本聚类技术的方法是通过找到与缺失值样本相似的样本,再通过一定的算法进行插值。早期的方法常见的有K近邻、决策树等
[1]。
近年来,将深度生成模型应用于缺失数据处理逐渐成为研究的热点。该模型是一种基于贝叶斯网络的深度学习网络模型,通过一种无监督的方式学习任何类型的数据分布。在该模型中,通过定义观测数据和潜在变量的联合分布,用极大似然估计的方式去拟合观测数据分布。然而,推理隐变量的真实后验分布是十分困难的,所以,采用了基于变分推断理论的深度生成模型——变分自编码器(VAE, Variational Auto-Encoder)
[2],该模型可以通过隐变量学习观测数据集的分布,并在生成网络中将缺失数据推理出来。现有的VAE推理缺失数据方法通常将隐变量的先验分布设置为单高斯分布,并将数据的缺失位置当作掩码变量一同作为观测数据输入
[3]。这种设置可以降低算法的复杂度,但是,由于设置了单一先验高斯分布,将会在一定程度上损失观测数据的部分信息,且变分推断证据下界收敛较慢。
针对以上问题,本文提出了一种新的贝叶斯推理模型——位置索引高斯混合变分自编码器(Index—GMVAE, Index—Gaussian Mixture Vatiational Auto-Encoders),将隐变量的先验分布设置为高斯混合分布,可以使隐变量更好地学习观测数据的先验分布,从而提高随机缺失数据推理生成的有效性
[4,5],并将缺失位置掩码
[6]作为一种变量建立了观测数据、隐变量、缺失掩码变量及高斯混合类别变量的四元联合概率分布,推导出了新的变分推断证据下界。该算法在Mnist手写数字数据集和UCI-Adult异构数据集上做了对比验证,实验结果表明,该算法在两种数据集上均显著提高了模型的证据下界收敛速度和推理效果及置信度。将缺失数据还原平均准确率提升10%左右,具有良好的鲁棒性。