19ic_SPEAKER VERIFICATION USING
使用端到端的对抗语言自适应进行说话人验证
解决问题:说话人识别语料库之间语言不匹配的问题
解决方法:end-to-end DA method for x-vectors based on Wasserstein GANs,将两个不同的域投影到一个公共子空间中,以消除域不匹配。
使用数据集:NIST SRE16和SRE18
在本文中,我们研究了对抗域适应的使用,以解决说话人识别语料库之间语言不匹配的问题。
在说话人验证的背景下,对抗域适应方法旨在最小化话语层次特征所遵循的分布(i.e.说话者嵌入)在从源域和目标域(i.e.语言)中提取时的某些差异,同时保持其识别说话者的能力。用于提取话语级别表示的神经架构使我们能够以端到端的方式应用对抗性自适应方法,并且与标准交叉熵损失一起训练网络。
我们检查了几种配置,例如在目标域上使用(伪)标签以及在特征提取器中使用域标签。
1. 18ic_UNSUPERVISED DOMAIN ADAPTATION VIA DOMAIN ADVERSARIAL TRAINING FOR SPEAKER RECOGNITION
解决问题: out-domain
解决方法:域对抗性训练学习
当domain相似的时候,i-vector方法已经有很好的效果。但现实应用中,往往不匹配。本文提出通过域对抗性训练学习领域不变和说话者辨别力的语音表示来解决此问题。 具体来说,使用域对抗性训练方法,我们使用梯度反转层来移除域变体并将不同的域数据投影到同一子空间中。
训练:
我们建议将两个不同的域投影到一个公共子空间中,以消除域不匹配。
上图所示的GRL,Gradient reversal layer特征提取器和域标签预测器之间的层,用来搜索说话人标签分类器和域分类器之间的鞍点。在反向传播期间,该梯度反转层乘以某个λ。 λ是一个正的超参数,用于在实践中权衡两个损失。梯度反转层确保两个域上的特征分布相似,这样我们就可以得到域不变和说话者区别的特征。
domain adaptation的应用中有两个域:一个包含大量的标签信息,称为源域(source domain);另一个只有少量的甚至没有标签,但是却包含我们要预测的样本 ,称为目标域(target domain)。所以,按照常理,我们可以在源域上通过一般的机器学习方法来训练得到判别模型。但是由于源域和目标域上的dataset bias,这个判别模型不能直接移植到目标域。如何在尽量不损失判别模型的条件下将判别模型由源域迁移到目标域,就是domain adaptation要解决的问题,也称为迁移学习(transfer learning)。关于这个问题,一般有shared-classifier假设:如果可以在源域和目标域上,学习到一个公共的特征表示空间,那么在这个特征空间上,源域特征上学到的判别模型也可以用到目标域的特征上。所以domain adaptation问题往往转换为寻找公共特征表示空间的问题,也就是学习域不变特征(domain invariant feature)。本文就是利用对抗网络的框架来学习域不变特征。
the training is carried out as in a mix of supervised (speaker) and unsupervised (domain) manner.
实际上在训练domain classifier的时候要求它的分类损失最小化,而要求得到不变特征,要求分类损失最大化,这是一个互相对抗的要求,可以表示如下:
其中theta_f表示特征提取的参数,theta_y表示label classifier的分类器,theta_d表示domain classifier的参数,L_y表示label classifier的分类器,L_d表示domain classifier的分类器。N代表所有样本的数目,d_i代表域标签,0代表源域。