重读R.Rabbinner数字语音信号处理—Chap2 The

这章主要讲一下 Phonetic representation 以及production of speech


  1. phonemes 音素,有限的集合,大部分语言来说,phoneme的数量大概在32-64之间。
  2. 英语的话有ARPAbet表 / allophonic 变音,比如glottal(声门的停顿或者停止)
    • 这个表和第一章给出的一个图有点像,用英语的24个字母来表示这些,不需要其他的字母。
    • diphthongs 双元音,glides 喉音, nasals 鼻音, stops/plosives 爆破音,fricatives 擦音, affricates 塞擦音
    • 很多时候,phonemes在频域上都不一样,尽管SH 和 S 看起来像随机的噪声,但是元音的话,/UH/, /IY/ 和/EY/在结构上都是highly structures 而且是quasi-periodic(准周期的)
    • 有时间可以稍微入门一下,纠正一下发音以及理解语音。

Speech Production的模型

原书的图实在太过于简陋,在Voice Acoustics: an introduction[1]扒了张图下来,同时发现…这个入门网站将的东西还不错.

Source Filter Model

More Refined Models

  1. 上面的介绍的模型,虽然适用于大部分语音处理的场景,但是based on many approximations, 有很多近似化处理,包括声源和这个系统是不相干的,是线性系统,离散连续时域声道能被近似为一个离散线性时不变(distributed continuous-time vocal tract system can be modeled by discrete linear time-invarient system).
  2. Fluid mechanics(流体力学)和acoustic wave propagation theory are fundamental physical principles.
  3. 后面还有很多人,对glottal flow, interaction of the glottal source and vocal tract in production, nonlinearities that enter into the sound generation and transmission.
  4. 还包括一些X-ray, MRI 的imaging 分析也是最近speech science的一部分


  1. 短时间内比如说10ms内,语音信号可以看成是不变的
  2. voice sound的比如元音,鼻音,liquids,glides的周期性的开和关
  3. Plosive sound 是突然关闭的
  4. unvoiced sound glottal 是关闭的,激励是random noise
  5. Formant,resonance 和articulator比如舌,上颚牙齿之类的有关。
  6. 我们把语音信号和语音传输系统近似是线性时不变的,以及假设是没有interact的。
  7. 总体来说没有什么大问题,如果要拓展的话可以再把数字信号处理学一遍。


