Review: Gain: Missing Data Imput
2019-11-18 本文已影响0人
24_5901
ICML 2018 DOI: [1806.02920] GAIN: Missing Data Imputation using Generative Adversarial Nets
Github: GitHub - jsyoon0823/GAIN: Generative Adversarial Imputation Networks (GAIN)
Abstruct:
作者提出了基于GAN的数据补全方法。
Back Ground:
数据的缺失是一个很普遍的现象,有时因为数据本身就很难获得,有时是因为各种原因而造成了数据的丢失。
缺失的数据可以分为以下的三大类:
MCAR:数据的缺失完全是随机的,它不依赖于任何的变量
MAR:数据的缺失不完全是随机的,仅依赖于可以观察到的变量
MNAR:数据的缺失不是随机的,它依赖于目前可以观察到的变量,同样也依赖于未观察的变量,我们无法通过可以观察到的变量来掌握数据的情况
The Mile Stone in This Field:
再这篇文章之前数据不全的方法可以分为2类,一类是 Discriminative 另一类是Generative.
Discriminative: MICE
目前的 Generative 方法存在一些缺陷,比如 DAE 需要完整的数据用于训练。但在实际应用中,这一条件对缺失数据是苛刻的。其他的方法也存在这样的问题,比如 Allen 将Convolutional Gan 用于图像数据补全,但是他们的方法依然需要完整的数据。 Gondara's DAE 训练中由缺失数据的存在, 但是他们的方法只能够利用到未缺失项的信息用于训练模型。