利用大量无标注样本提升小数据标注集的效果

2019-07-15 本文已影响0人小小兰哈哈

本文中介绍使用无标注样本提升小数据标注集合的效果，也就是一种数据增强的思想。

一般来说，目前在nlp中，使用比较普遍效果公认的数据增强方法，一是eda，另一种是回译；EDA是将一个样本用同义词替换，随机插入，随机删除等方式在不改变语义的情况下，变换表达的方式；回译是将同一文本翻译成另一种语言，然后回翻，也是达到变换表达的方式，可以得到更多的数据信息。本文中的数据增强思想与其他两种都不一样。是利用大量无标注样本，获取文本的结构假设分布，再通过标注数据，训练p(y|x)的过程，是一种贝叶斯的思想。

注：本文的思想借鉴《two-view feature genration model for semi-supervise》的思想。本文主要是解读里面的算法思想。

该思想的创新之处在于，基于两种特征空间的假设。假设文本的特征有如下性质：

$P(z_{1},z_{2})|y)=P(z_{1}|y)P(z_{2}|y)$

两种特征空间是相互独立的。

1.解释独立假设空间的概念。在标注样本空间中，假设 $P(x,y|a)$ 为样本的联合分布，训练的过程就是求解a，使 $P(x,y|a)$ 最大的过程。而在非标注空间中，并没有y的存在，需要描述一种分布D，替代y值的表示。

先验的a的求法如下：

$P_{unlabeled}(a)\propto \prod_{j=1}^mP(x_{j}|a)P(a)$

后验的a的分布可以如下表示：

$P_{post}(a)\propto P_{unlabeled} \prod_{i=1}^n P(Y_{i}|X_{i},a)$ ，这代表着无标注数据的作用，就是定义一种先验的a分布，通过a，便可以使用P(Y|x,a)，估计后验的a值了。可以退出，unlabeled的a分布，可以作为一个正则约束在似然函数中出现: