会议-说话人

2019-11-06  本文已影响0人  原来是酱紫呀

20190420

一、paralinguistic speech attribute recognition

  1. General framework
    speech signals ---> feature extraction ---> representation ---> variability compensation ---> backend classification ---> result

语音短时平稳信号:20ms-30ms近乎平稳
不定长语音信号--->不定长语音特征

文本不同,不能直接ali起来。--->生成模型拟合数据

  1. End-to-end framework
    feature extraction ---> representation ---> backend classifier

不定长---> Encoding layer OR RNN layer

早期:语音切分进行帧级别的dnn,或拼接成几十帧级别的dnn,然后在得分级别进行average。

现:句子级别:pooling层。需要比较好的loader

等。。。

二、基于深度学习的短时声纹识别技术

声纹识别难点:短时、跨信道

三、基于深度学习的说话人识别方法

  1. 帧级特征--->段级特征--->相似度度量--->说话人识别

  2. 典型系统:i-vector、x-vector

  3. x-vector:
    frame-level nn module --->聚类映射模块aggregation ---> loss function
    CNN-C-D2

  4. 深度神经网络结构中,不同网络层输出存在分辨率和语义的渐变过程:

  1. 特征融合

四、对抗学习

problem: training-testing mismatch

problem:adversarial examples

五、基于对抗多任务学习的抗噪鲁棒性说话人识别

六、normalization for speaker embedding

  1. starting from gmm-ubm

  2. neural-based embedding

  3. properties of neural embeddings (different from I-vector)

  1. why discriminative embeddings need discriminative back-end ?
    because of normalization...

  2. why lda+plda works?
    lda makes the conditional embeddings more gaussian, hence suitable for plea

  3. pca also works

  1. lda/pca does not work for ivector+plda
  1. problem of pca/lda normalization
  1. vae

七、recent advances in deep embedding learning for speaker identification and spoofing detection

  1. GAN: data augmentation for speaker embeddings

Extend: VAE for data augmentation

  1. Knowledge distillation for speaker embedding

八、基于结构化度量学习的声纹识别研究

度量学习:

problem: 度量学习是否可以直接优化评价指标?
可以,结构化损失函数(创新点)+ 合适的相似度量(适配创新点)

  1. 基于余弦相似度的度量学习算法---优化EER

  2. 基于马氏距离的度量学习算法---优化pAUC

九、内容和说话人联合识别研究

  1. 内容和说话人相互影响

总结:语音内容和说话人信息被听者共同感知,知悉一个维度的信息对另一个维度信息的识别与理解有显著提升

  1. 内容和说话人联合识别
  1. 粗力度内容对齐,细粒度说话人识别比较好

  2. 说话人自适应主要技术路线

  1. 文本相关说话人识别

总结:(1)内容对说话人,说话人对内容的影响,尺度不同
(2)方法差异大

十、简洁的说话人识别及语音识别

上一篇 下一篇

猜你喜欢

热点阅读