GMM-HMM语音识别模型2

2017-11-16 本文已影响0人诸葛村姑

有人总结了语音识别就分为三步：第一步，把帧识别成状态（难点）。第二步，把状态组合成音素。第三步，把音素组合成单词。第一步可以当做gmm做的，后面都是hmm做的。如果你能把单词识别出来，那句子也就很简单了。当然，识别句子就会有语言模型的作用。

以下放上这段时间浏览博客的网址：

1.kaldi语音识别的资料

http://blog.csdn.net/sheshou199/article/details/53260369

给出了几个学习语音识别的网址。

2.GMM-HMM语音识别模型原理篇

http://blog.csdn.net/abcjennifer/article/details/27346787?utm_source=tuicool

这篇博客讲解了GMM-HMM模型，识别和训练的方法、原理以及基本推导公式，看完这篇博客，会有很多地方都不懂，再去看一篇英文论文A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition，入门必读。

3.GMM-HMM语音识别简单理解

http://blog.csdn.net/mingtsang/article/details/11024705

这篇博客的特点主要是给出了语音识别与训练的细节，包括步骤中的输入输出等。

这时，GMM-HMM框架原理基本了解一些，输入输出也了解一些，但还是感觉如同雾里看花，总感觉最重要的东西没有抓住，更别提做实验了，准备下一步看speech recognition process，以及kaldi手册，周末准备自己推一下所有流程，以做到心中有数，不虚。

思考：GMM高斯混合模型是对谁建立的？对每一个隐状态吗？每个隐状态又是对应什么？多个观察序列？就是多个39维MFCC特征？？？

GMM-HMM语音识别模型2

猜你喜欢

热点阅读