【论文】DID论文

2018-07-14 本文已影响0人原来是酱紫呀

20180710 qzd

1. Convolutional Neural Networks and Language Embeddings for End-to-End Dialect Recognition (2018)

摘要：方言识别（DID）是一般语言识别（LID）的一个特例，但由于方言之间的语言相似性，这是一个更具挑战性的问题。在本文中，我们提出了一个端到端的DID系统和一个Siamese神经网络来提取语言嵌入。我们在阿拉伯语方言语音数据集上使用声学和语言特征进行DID任务：多类型广播3（MGB-3）。使用三种声学特征训练端到端DID系统：梅尔频率倒谱系数（MFCC），对数梅尔级滤波器组能量（FBANK）和谱图能量。我们还研究了一种数据集扩充方法，以通过有限的数据资源实现稳健的性能。我们的语言特征研究侧重于使用Siamese网络学习方言之间的相似性和相异性，这样我们就可以减少特征维度并提高DID性能。使用单一特征集的最佳系统达到73％的准确度，而使用多种特征的融合系统在由5种方言组成的MGB-3方言测试集上产生78％。实验结果表明，FBANK的特性比MFCC略好。通过速度扰动的数据集增强似乎为系统增加了显着的鲁棒性。尽管具有语言嵌入的Siamese网络没有达到与端到端DID系统一样好的结果，但这两种方法在融合系统中组合在一起时具有良好的协同作用。
网络结构：
we used four 1-dimensional CNN (1d-CNN) layers (40�5 - 500�7 - 500�1- 500�1 filter sizes with 1-2-1-1 strides and the number of filters is 500-500-500-3000) and two FC layers (1500-600) that are connected with a Global average pooling layer which averages the CNN outputs to produce a fixed output size of 3000�1. After global average pooling, the fixed length output is fed into two FC layers and a Softmax layer.
The four CNN layers span a total of 11 frames, with strides of 2 frames over the input. For Arabic DID, the Softmax layer size is 5.
We examined the FBANK, MFCC and spectrogram as acoustic features. Filter size on first CNN layer changes to 200�5 when we use Spectrogram. The Softmax output was used to compute similarity scores of each dialect for identification.
The SGD learning rate was 0.001 with decay in every 50000 mini-batches with a factor of 0.98. ReLUs were used for activation nonlinearities.
For acoustic input, the FFT window length was 400 samples with a 160 sample hop which is equivalent to 25ms and 10ms respectively for 16kHz audio.A total of 40 coefficients were extracted for MFCCs and FBANKs, and 200 for spectrograms. All features were normalized to have zero-mean and unit variance.
参考文献：
【1】【2】【3】通过组合i-vector和DNN在说话者和语言识别（LID）方面取得了重大进展。
【4】使用具有瓶颈特征的i-vector框架实现了任务的DID基准
【5】【6】【7】使用诸如单词和字符之类的语言特征导致与通过基于卷积神经网络（CNN）的后端的声学特征获得的性能类似的性能
【5】他们使用交叉熵目标函数和网络的softmax输出，探索了CNN后端的语言特征。
【6】将提取的文本序列转换为向量空间模型（VSM）, VSM将每个话语表示为固定长度，序列级别，高维稀疏向量u
【6】【5】【8】【9】【10】融合语言特征空间与声学特征空格。
【11】【12】【13】【14】许多基于DNN-e2e和speaker embedding方法已经取得了令人印象深刻的文本独立说话人识别和LID的结果。[14,13]报告CNN和全局汇集层FC的组合从文本独立和可变长度语音输入获得说话者表示的最佳结果。[13, 14, 11]发现随机分割在短话语中产生更好的表现
【9】Siamese神经网络通常应用于端到端系统的验证任务，但之前的研究表明，这种方法也可以应用于识别任务，使原始特征更加稳健
【15】对于语言嵌入，我们采用Siamese神经网络[15]模型，使用余弦相似度量来学习基于文本的语言特征的方言嵌入空间
【1】【16】【2】【5】【6】除了基本的i-vector方法，从ASR声学模型中提取的瓶颈（BN）特征成功应用于LID
【1】【16】可以从具有BN层的第二DNN中提取堆叠的BN特征，并且其输入是具有上下文扩展的第一BN层的输出。
【17】【18】不匹配确实对说话人识别任务很重要
【19】ASR系统，如时间延迟神经网络（TDNN）
【20】【21】【22】【23】虽然ASR系统和基于声学特征的说话人识别或LID / DID系统容易受到域不匹配条件的影响[20,21,22,23]，但高级语言空间中的受影响结果将是不同的。因此，基于语言特征的方法可以补充基于声学特征的方法以产生优异的融合结果。
【24】VGG
【25】用于ASR中增强的另一种技术是在速度方面扰动原始数据集

2. Deep Neural Network Embeddings for Text-Independent Speaker Verification（2017）

摘要：本文研究用从前馈深度神经网络中提取的embeddings来替换用于文本无关的说话者验证的i-vector。通过在输入语音上聚合的时间池层在网络中捕获长期说话者特征。这使得网络能够被训练以区分来自可变长度语音段的 speakers。在训练之后，话语被直接映射到固定维度扬声器嵌入，并且使用基于PLDA的后端对embeddings对进行评分。我们将NIST SRE 2010和2016上的传统i-vector基线的性能进行了比较。我们发现在短语音段上embeddings优于i-vector，并且在长时间测试条件下具有竞争力。此外，这两种表示是互补的，并且它们的融合在所有操作点处在基线上得到改善。类似的系统最近在非常大的专有数据集上训练时显示出有希望的结果，但据我们所知，这些是在公开可用的语料库上训练和测试时报告的辨别辨别神经网络的最佳结果。
索引术语：说话人识别，说话人验证，深度神经网络

3. Exploiting convolutional neural networks for phonotactic based dialect identification (2018)

在本文中，我们研究了阿拉伯语广播语音中方言识别（DID）的不同方法。方言在音韵片段的库存上有所不同。本文提出了一种新的基于语音的特征表示方法，该方法能够区分具有不同phone持续时间和概率统计的相同电话n-gram的不同事件。为了进一步提高准确性，我们使用了多语种phone识别器，分别使用阿拉伯语，英语，捷克语，匈牙利语和俄语进行培训。我们在整个研究过程中使用支持向量机（SVM）和卷积神经网络（CNN）作为后端分类器。与传统的语音DID相比，最终的系统融合导致24.7％和19.0％的相对误差率降低，以及具有瓶颈特征的i-vector。
索引术语：方言识别，语音学，CNN

【论文】DID论文

1. Convolutional Neural Networks and Language Embeddings for End-to-End Dialect Recognition (2018)

2. Deep Neural Network Embeddings for Text-Independent Speaker Verification（2017）

3. Exploiting convolutional neural networks for phonotactic based dialect identification (2018)

猜你喜欢

热点阅读