语音副语言信息识别与多模态行为信号分析
报告摘要:
作为语言的声音表现形式,语音不仅包含了语言语义信息,同时也传达了说话人,语种,性别,年龄,情感,信道,嗓音,病理,生理,心理等多种丰富的副语言语音属性信息。把以上这些副语言语音属性识别问题整体来看,其核心都是针对不定时长文本无关的句子层面语音信号的有监督学习问题,只是要识别的属性标注有不同。我将从特征提取,建立模型,鲁棒性处理,分类器设计等几个步骤介绍我们近期的研究,然后也将介绍我们最近基于端到端深度学习框架去开展多种不同的副语言语音属性识别的研究。最后,我将介绍我们组在多模态行为信号分析与理解方面的工作。我们联合多模态信号处理与机器学习对表情,动作,语音,眼动,生理等数据进行联合分析,将医生主观的行为观察转化为客观的可量化的描述指标,用于孤独症辅助诊断以及疗效评估。
报告人简介:
李明,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座教授。2005年获南京大学通信工程专业学士学位,2008年获中科院声学所信号与信息处理专业硕士学位,2013年毕业于美国南加州大学电子工程系,获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院,副教授,博士生导师。研究方向包括音频语音信息处理,多模态行为信号分析等多个方向。已发表学术论文80 余篇,其中SCI期刊论文19篇。曾担任多个知名学术会议的科学委员会成员(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多个知名学术期刊的审稿人(IEEE TPA
MI,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),担任Interspeech2016及2018说话人识别领域主席。荣获了2009年Body Computing Slam Contest 第一名,IEEE DCOSS 2009 会议最佳论文奖。指导学生获得ISCSLP2016最佳学生论文奖,于2011年和2012年连续两次获得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。
![](https://img.haomeiwen.com/i5753562/860322db998abce3.jpg)
![](https://img.haomeiwen.com/i5753562/65ebd40b18c0a3f5.jpg)
![](https://img.haomeiwen.com/i5753562/9e90bbc7d88895aa.jpg)
![](https://img.haomeiwen.com/i5753562/618d2ee7e9fb9b0d.jpg)
![](https://img.haomeiwen.com/i5753562/1aef5fce31e05811.jpg)
![](https://img.haomeiwen.com/i5753562/578615da8d704117.jpg)
![](https://img.haomeiwen.com/i5753562/95421396017efb60.jpg)
![](https://img.haomeiwen.com/i5753562/7a1d582a9234094c.jpg)
![](https://img.haomeiwen.com/i5753562/0e15fbd6247cf7ba.jpg)
![](https://img.haomeiwen.com/i5753562/9b56a2758d6f0878.jpg)
![](https://img.haomeiwen.com/i5753562/9f65b6524f103c04.jpg)
总结:
目前随着人工智能、大数据,机器学习的发展,多使用神经网络来处理,做成端到端(黑箱),即放进原始数据,输出结果,这种方式也能达到经典的统计模型方法,但神经网络具体原理,目前还没能解释的令人满意。
人脸识别一般用开源的caffe和TensorFlow来搭建
数据很值钱,有的企业专门卖数据,比如录的语音的标记(有些地方需要人工标记)