CCAI 2019|聂再清:用智能语音交互改变未来生活
2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于在9月21日-22日在青岛胶州召开。阿里巴巴研究员聂再清将出席大会并担任人工智能创新应用论坛共同主席。
聂再清博士现任阿里巴巴人工智能实验室北京研发中心负责人,语音助手首席科学家,教育部人工智能专家咨询组专家。曾是微软学术搜索、人立方、以及企业智能助理EDI的发起人和负责人,是互联网信息集成和知识挖掘的知名专家。加入阿里AI Labs之后,聂再清博士带领团队旨在通过远场语音识别、自然语言理解、个性化推荐等语音助手领域关键算法突破和创新,全面提升人机自然语音交互能力,打造智联网时代的个人助手全新体验。
下一代人机交互模式会是什么?
在信息化时代的初级阶段,人们是使用键盘输入信息来进行命令行式的人机交互的,之后大家开始使用图形界面Windows,鼠标一点就可以来追踪信息。到近些年来,多数人是使用手机来接受信息,进行人机交互,也就产生了一代“低头族”,这是很不健康的。聂再清博士认为,在智联网时代人们应该使用更自然交互方式,用嘴、耳朵和眼睛来进行交互,培养人们更好的交互习惯。阿里巴巴开发的天猫精灵就是这样一个智能语音交互的范例。
聂再清博士为我们描绘未来使用天猫精灵语音助手的场景:比如早上起床后可以通过语音命令开灯开窗帘;可以收听天气预报以及新闻;中午或晚上可以通过语音订外卖,到了晚上睡觉前可以听着最喜欢的轻音乐入睡。在一天24小时里,人们可以在很多的场景中使用语音助手获得更好的生活体验。
掌握了语音的入口,就是智联网时代的赢家
聂再清博士表示,如果说PC时代的搜索引擎成就了谷歌,那么在即将到来的智联网时代,谁先用现象级产品掌握了语音的入口,谁就将成为这个时代的赢家。国外的厂商如亚马逊、谷歌,国内的如阿里巴巴、小米、百度甚至喜马拉雅都在抢占智能音箱的市场。
聂再清认为,为了快速建立起智能语音交互的相关生态,布局到更多的产业上,就要降低开发门槛,让任何一个开发者不需要有很高的语音识别和自然语言理解方面的专业知识,也不需要是一个机器学习的专家,就能够有很好的语音交互的技能。阿里巴巴人工智能实验室发布的AliGenie开发者平台就是在向这个方向努力。聂再清表示:“在这里我们能提供各种各样的服务,比如说语音唤醒服务,语音识别服务,声纹识别服务,还有语音合成服务。如果一个开发者进来,其实只需要调用我们这些服务,就能很容易地接入到我们天猫精灵的入口。AliGenie开发者平台还能赋予硬件接入智联网,并获得语音交互能力。”
语音助手的未来发展方向
尽管当前各大企业都在奋力布局智能语音交互生态,但是由于当前知识图谱、语音识别、自然语言处理、用户画像和个性化推荐等语音助手关键技术的发展现状,还是有许多研究领域值得继续去探索与发展。聂再清博士总结了以下四点对策,来实现未来相关领域的更多突破:
1.随着智联网时代的到来,基于语音、文本、图像和图像序列的多模态内容理解会变得越来越重要。对智联网中麦克风、摄像头、和输入的文字内容理解的联合优化,会大大提升人机自然交互体验。
2.随着语音助手进入千家万户,机器在与用户的日常沟通中判断主人的喜好,通过深度强化学习算法进行不断的自主学习和迭代。海量的用户交互必然会导致语音助手的多模态理解更加准确和个性化。
3.要从公开大数据中挖掘和积累更多的可替换词典和语义模板,让生态中的开发人员可以在冷启动阶段方便地生成语义理解模型的训练语料。这样能够很好的解决冷启动阶段语义理解的歧义性和多样性问题。
4.建立一个知识图谱的生态平台,让大量的开发人员和我们一起建立一个与我们生活中的人和物一一对应的知识图谱。使用积累的知识图谱,不断扩大知识图谱在常识性和专业性方面的积累,促进语音助手的知识面和多模态理解能力。