2019-05-20 语音识别的流程
2019-05-21 本文已影响0人
Hie_9e55
参考文章
https://www.cnblogs.com/thefirstfeeling/p/5614420.html
https://blog.csdn.net/abcjennifer/article/details/27346787
如https://blog.csdn.net/abcjennifer/article/details/27346787
这篇博客所说,网上关于语音识别与HMM、GMM的资料非常之少,我也不知道我能不能学下去,努力吧!
本文想要讲的语音识别分为两个部分
- 训练
- 识别
识别过程
首先想一下过程,我们能收集到的最原始的语音信号一定是一串看起来没有什么规律的波
这是个原始的声波,按理说我们应该对它做一些预处理,比如降噪之类
对降噪后的波,我们要将其切割多个等长片段,每个片段称之为frame,之后我们需要对每个frame提取feature
提取feature有两种方法
- 线性预测倒谱系数(LPCC)
- Mel 倒谱系数(MFCC)
提取出来的特征我们可以用GMM算法来计算它属于每个状态的概率值(看清楚是每个状态)
根据每个单词的HMM状态转移概率a计算每个状态sequence生成该frame的概率,哪个词的HMM 序列跑出来概率最大,就判断这段语音属于该词