第34周+《AI入门系列 - 语音合成》+林灿业+新学霸社群
2019-08-18 本文已影响2人
林灿业
一、语音合成(TTS)简介
在语音交互过程中,用户说话后得到机器的语音回答,就像和人在对话一样,机器能和你说话,不同的机器说话的声音也不尽相同,那么机器的声音从哪里来?如何发声的?这就是“语音合成(TTS)”技术做的事情,将文本转化成声波,并播放出来,就形成了机器也能说话了,
二、较成熟的TTS技术
目前较为成熟的语音合成技术有参数法和拼接法,简介如下:
1、拼接法
从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;
2、参数法
根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。主要分为3个模块:前端处理、建模和声码器。
三、最新前沿的TTS技术
TTS技术较新的技术方向是“波形统计语音合成”、“端到端语音合成”,前者如谷歌DeepMind的WaveNet,后者如百度的Deep Voice 。