声纹技术:让智能语音助手真正“认得”自己
9年前,苹果公司发布了当年最新的智能手机iPhone 4S,其搭载的智能语音助手 Siri一经发布,便立即吸引了全世界范围的关注。Siri 的背后,凝聚着音频处理、语音识别和自然语言处理等多个领域数十年的研究成果。
它的出现,让语音技术首次进入了普通大众的视野。
紧接着,2014年亚马逊Echo横空出世,开启了家用插电式智能音箱的全新场景,让语音技术走进了成千上万的家庭。
多种多样的智能音箱尽管语音技术为人们提供了一种与智能设备交互的全新方式,但在人们使用该技术的过程中也诞生了一些新的问题——无论是手机还是音箱,人们希望智能语音助手能够真正“认得”自己,能根据说话人的身份,提供个性化的回答,并决定是否提供较为隐私的用户信息。
在这样的背景下,声纹技术受到了业界前所未有的重视。
什么是声纹
说起“指纹”,大家都不会感到陌生。凭着每个人的指纹都不一样的特性,指纹识别技术获得了广泛的利用。
而声音,虽然不具备真正意义上的“纹理”。但每个人的发音器官,包括声带、声管等,在大小和形状上会有所差异。使得不同的人,也有着不一样的声音。
广义上讲,所有可以将一个人的声音,与其他人的声音区分开来的特征,都称之为“声纹”。而正是因为有着这样一些特征的存在,声纹才得以像指纹一样,衍生出各种实用的技术。
●
声纹技术中最为核心的一项便是声纹识别技术。
和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。
2017年,谷歌将声纹识别技术部署到了智能音箱Google Home上,使其能够根据不同用户的身份,提供不同的响应方式。
例如,当用户提出“播放音乐”的请求时,智能语音助手便会先从音频信号中识别用户的身份,然后提取对应用户的音乐偏好,并以此选取音乐进行播放。通过这种方式,当家里有多个家庭成员时,每个成员都可以通过同一个设备获得截然不同的使用体验。
●
除了声纹识别之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。
以语音合成为例,目前最先进的语音合成系统只需要来自特定说话人不到5秒的语音,便能克隆出该说话人的声音,并以其声音合成任意语音内容。
谷歌公司于 2018 年发表的论文中认为,声纹克隆本质上是一种从声纹识别任务到多说话人语音合成任务的迁移学习(transfer learning)。
能够合成任意说话人声音的端到端语音合成模型框架模型框架中的声纹编码器模块,将目标说话人音频转换为声纹嵌入码,而该声纹嵌入码与语音合成编码器的输出进行逐帧拼接,作为语音合成解码器的新的输入,从而使解码器能够利用到目标说话人的声纹信息。
声纹技术学习宝典
《声纹技术:从核心算法到工程实践》一书是谷歌公司声纹识别与语言识别团队负责人王泉老师在声纹领域深耕多年后,为国内读者打造的一部技术宝典。
本书从20 世纪 60 年代的早期技术讲起,回顾了声纹技术数十年发展历程中最具代表性的方法,并重点介绍了深度学习时代的声纹技术及其广泛应用,其中包含了大量发表于2019和2020年的前沿研究成果。
此外,作者根据其多年的工程经验积累,开创性地在本书中加入了专门探讨声纹技术工程部署的章节,详细阐述了声纹技术在工程部署中常会遇到的各种问题,以及各种解决方案的优劣。为进一步结合实践,还配备了大量编程案例以及思考练习题。
▊ 本书特色
• 本书内容不仅涵盖了 20 世纪 60 年代的最早期声纹识别方法,还介绍了大量 2019年和 2020 年发表的论文,紧随业界最新发展。
• 本书除了介绍学术内容,还有专门的章节(第 4 章)介绍工程部署,覆盖了声纹技术部署的诸多实际课题(如版本控制、分布式计算等)。这也是业内独一无二的。
• 本书配备了很多动手实践,教读者使用常用的 Python 工具包构建实例,进行实验,避免纸上谈兵。
• 本书为每一章配备了思考和练习题,因此本书也十分适合作为大学教材。
▊ 专家推荐
字节跳动应用机器学习研究组负责人王崇认为:
“本书是这个领域一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步快速普及和发展起到积极的推动作用,吸引更多的人才从事语音及声纹技术的研究和开发。”
此外,邓力、何晓冬、戴琼海、梁家恩等多位领域专家、行业大咖同样对本书极力推荐。
- 邓力,加拿大工程院院士,Citadel首席人工智能官,IEEE Fellow
- 何晓冬,京东集团副总裁,京东人工智能研究院常务副院长,IEEE Fellow
- 戴琼海,中国工程院院士,清华大学信息学院院长
- 梁家恩,云知声董事长
最后,引用科幻作家、雨果奖得主郝景芳对本书的评价:
“本书所介绍的声纹技术前沿进展,包括声纹克隆和人声分离等令人印象深刻的应用,让我不禁对其未来展开无限的遐想。相信不久之后,能与人们自然地对话,并通过声音来分辨我们每一个人的人工智能将成为现实。更令我期待的是,在人类步入宇宙时代并能够与地外文明进行交流的未来,声纹技术又会在其中发挥怎样的作用。”