第34周+《AI入门系列 - 语音合成》+林灿业+新学霸社群

2019-08-18 本文已影响2人林灿业

在语音交互过程中，用户说话后得到机器的语音回答，就像和人在对话一样，机器能和你说话，不同的机器说话的声音也不尽相同，那么机器的声音从哪里来？如何发声的？这就是“语音合成（TTS）”技术做的事情，将文本转化成声波，并播放出来，就形成了机器也能说话了，

目前较为成熟的语音合成技术有参数法和拼接法，简介如下：

1、拼接法

从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；

2、参数法

根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。主要分为3个模块：前端处理、建模和声码器。

TTS技术较新的技术方向是“波形统计语音合成”、“端到端语音合成”，前者如谷歌DeepMind的WaveNet，后者如百度的Deep Voice 。