利用大量无标注样本提升小数据标注集的效果
本文中介绍使用无标注样本提升小数据标注集合的效果,也就是一种数据增强的思想。
一般来说,目前在nlp中,使用比较普遍效果公认的数据增强方法,一是eda,另一种是回译;EDA是将一个样本用同义词替换,随机插入,随机删除等方式在不改变语义的情况下,变换表达的方式; 回译是将同一文本翻译成另一种语言,然后回翻,也是达到变换表达的方式,可以得到更多的数据信息。本文中的数据增强思想与其他两种都不一样。是利用大量无标注样本,获取文本的结构假设分布,再通过标注数据,训练p(y|x)的过程,是一种贝叶斯的思想。
注:本文的思想借鉴《two-view feature genration model for semi-supervise》的思想。本文主要是解读里面的算法思想。
该思想的创新之处在于,基于两种特征空间的假设。假设文本的特征有如下性质:
两种特征空间是相互独立的。
1.解释独立假设空间的概念。在标注样本空间中,假设为样本的联合分布,训练的过程就是求解a,使
最大的过程。而在非标注空间中,并没有y的存在,需要描述一种分布D,替代y值的表示。
先验的a的求法如下:
后验的a的分布可以如下表示:
,这代表着无标注数据的作用,就是定义一种先验的a分布,通过a,便可以使用P(Y|x,a),估计后验的a值了。可以退出,unlabeled的a分布,可以作为一个正则约束在似然函数中出现:
2. 本算法的设计思想:假设存在两个相互独立的特征空间,满足:
我们的目标是使用基于无标注的数据设计的生成模型使得差异性学习有效化。
该生成模型的实现见第3部分。
条件约束:
假设:为z1值的m维特征映射,每个维度l对应{0,1}.
基于以上假设,可以得到线性子空间模型:(Linear Subspace Model),
平方目标函数:
Y可以通过映射到K维特征空间。
对数线性混合模型(Log-linear Mixture Model)的思想与线性子空间模型相似,相当于做了一个指数等价变换。
同理,条件约束可以变换成:
可以推理得到训练过程的极大似然可以表示为:
3.无标注数据的生成模型:
一句话概括,生成模型就是求解最接近的子空间映射,使得
最小,用深度学习的思想,就是
求z_{1}的hidden_layer与z_{2}的hidden_layer最接近的过程。