“萨曼莎”距离我们还有多远? —— 向机器人的情感化迈进
引
在2013年引起广泛热议的电影《Her》中,人工智能系统“萨曼莎”能与人类交流、理解人类并读懂人类情绪,这种“近人类”、理解人类情感的机器人让我们对未来充满了无限遐想……
“萨曼莎”何时才能出现
在电影《Her》中,“萨曼莎”是一个能听从你、理解你、懂得你,还拥有自主思想的一个对话系统。影片以主人公因收到妻子离婚协议还陷入在对过去的回忆中的不舍为开端,当“萨曼莎”的出现让主人公的心态有了很大的转变。后来的他们互相了解和陪伴双双的产生了对彼此的爱意。
对于人们来说带有情感理解的人工智能机器人似乎看似遥远,但总是出现在我们生活的各个文化作品中。在我们对未来幻想的画面中,人工智能不仅能帮助我们完成生活中的各种体力劳动、服务于我们,还能感受人的情感并与之产生共鸣。被赋予情感和情绪理解的机器人可以像我们的家人一样在你遇到困难的时候关怀你开导你,可以像亲密无间的朋友一样欢声笑语无话不谈,或者还可以像“萨曼莎”那样产生爱的幻想。
人类社会究竟何时才能进步到可以制造出能理解人类情感的机器人,我们不得而知,但无疑研究者们正为此努力克服一个又一个技术难题。不难理解的是,要想真正地将人类的能力复制到机器人身上,弄明白人类之间究竟是通过何种方式理解对方情感的一定会具有重大意义,而我们也就先从这一点上来展开。
人类之间的情绪表现及传递
情绪既是主观感受,又是客观生理反应,具有目的性,也是一种社交表达。
人们的这些情绪化表现其实都是在受到一定刺激后产生的,无论是外在的直接影响还是内在的潜意识,都会影响着我们。这使得我们的各种生理表现也会有所反应,如心跳加速、汗液增多、面部表情、动作幅度和音调高低等等。
首先,观察表情。在大多数时候当人们心情不好时并不会说很多话,但是神情形态是不会说谎的,面部表情和身姿形态会不自觉的流露出特定的表现。难过的时候,人会流泪;开心的时候,嘴角会上扬;惊讶的时候,你会“目瞪口呆”……无疑,通过肉眼对其他人的面部表情观察是一种人类之间非常重要的感受相互情感的途径。
其次,人与人之间在交谈时,彼此从听觉的角度感受对方说话时的语气和语调也是一种重要的方式。例如生气时人们往往会提高说话分贝,同时语速变快;而反之,害羞时不但音量会比正常说话时低,同时语速也会变慢。当双方在交谈时,作为聆听者的一方从话语间听出另一方对某件事的不满,这时作为聆听者可以积极地引导和给出意见性的帮助,以让对方快速走出不满的心境。这就是通过聆听说话内容并感受语气来实现的情绪识别。
此外,不通过当面交流就无法得知对方情绪了吗?并不是这样,在社交网络被人们当做生活必需品的时代,我们是否能基于社交网络去了解对方的情绪理解呢,人们通过社交软件交流、浏览对方社交账号等线上活动能从另一面了解到对方最近的个人状态,感知对方在聊天中所使用的的词句,这种侧面的,从对方泄露出的“内容”出发,进行判断所得到的情感信息同样能帮助我们了解对方的情感状况,能帮助我们在之后与对方的交流中有效地避开对方不喜欢的话题,以及调整适当的相处方式,这便是一种基于了解生活状态进行联想而实现的情感识别。
可以说人类是情感丰富的动物,情感表达和情绪变化是多种多样的,人与人之间通过相互的眼神交流、面部表情、肢体动作、语气语调、言行举止来传递情感和情绪表达。正如上所述,开心时手舞足蹈笑容盈盈;与人发生冲突或矛盾时,语气嚣张神态激昂挥拳踢脚;分别和离开让心情低落抑郁不振失魂落魄……可以说人类获取对方情感信息的手段也是多种多样的。
智能情绪理解的现状
说到机算计情绪识别,其实在人工智能领域已经发展了很多年。正如我们所述,如果我们想与机器人进行互动或者是舒适地生活在一起,机器理解人类的情绪并适当地对这些情绪做出反应是最为关键的因素。
不出所料的是,对人与人之间情感传递的研究确确实实为人工智能的情绪化发展提供了巨大的价值的,以至于能让机器像我们人一样“能看到、能听见和能理解”。
“能看到”——面部识别
看,广义上被称为计算机视觉,计算机视觉是用各种成象系统代替视觉器官作为读取手段,用机器来代替大脑完成处理和解释。计算机视觉的研究目标就是使计算机能像人眼一样的视觉观察和理解世界,且具有自主适应环境的能力。
在过去的几十年里,科学家们已经打造出了与人眼相匹配甚至在某种程度上超越人眼视觉的传感器和图像处理器。
技术的突破尤为重要,但是机器视觉系统的处理技术还要依赖于对图像的处理方法。它包括图像增强、平滑、边缘锐化、分割、特征抽取、与理解等内容。经过这些方法处理,对图片质量做相当程度的效果改善以便于计算机对图像进行分析、处理和识别。
虽然科学家们打造出了超越人眼的传感器和图像处理器,但是在对人脸识别的技术上看,特别是对动态人脸识别上还存在很多的技术不足。
动态人脸表情丰富、变化和移动速度快并且不固定,人们在观察事物和受到刺激时脸部做出的表情变化大到夸张小到细微,而这些细微的表情,才能真正地反应出人的隐含情绪。
由于人脸表情变换的高频次,使得机器无法快速精确地人脸跟踪。而计算机要想做到精确识别面部细微肌肉变化,是需要通过大量的表情数据集、面部微动作和眼球运动数据集积累训练才能做到精准的识别。
然而以现在的技术来看,由于面部情绪识别还需要大量的数据集训练和快速的人脸表情捕捉技术才能真正有效地实现,这也是导致面部识别在对人脸情绪识别的技术上一致未达到的关键点。但是在未来这将是一个指日可待的过程。
“能听见”——语音识别
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。让机器听明白我们说的内容,就像机器有了听觉系统。
在会话场景中,当说话人处于某种情绪,如愤怒时音调会变高、说话速率会变快,这种明显的变化在声音特征中被称为韵律。从声学分析出发,时长、幅度、基频和频谱等语音特征是一种可测量的物理量。而目前针对情绪的研究,就主要集中在基频、强度、时长、特征等方法上。
虽然能通过韵律和物理量分析情绪,但情绪识别对于声音和周围环境的要求十分苛刻,这让情绪分析在语音识别上的难度也就不断加大。由于噪音、方言口音、发音习惯、多人说话、身体状况等因素再加上现有设备、技术的不成熟和难准确分辨等问题,导致了现在语音情绪分析的进展缓慢。
但值得一提的是,基于情绪识别的语音库规模正在不断地扩充,并且目前国内的技术水平已经基本上与国外同步。并且有着自己特点与优势的汉语语音识别技术,也同样达到了国际先进水平。在这种好的趋势下,我们仍需要保持一颗坚持不懈的信心。
“能理解”——文本识别
比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。自机器诞生,就开始有了对人工智能的研究,而人工智能最早的研究方向之一就是自然语言处理。自然语言处理是研究人与计算机在交际中的语言问题,也就是让计算机能够理解、处理和运用人类语言(如中文、英文等)。
自然语言处理是人工智能研究领域的重要课题之一,也是目前最前沿的科技研究热点之一。这里我们重点研究的就是其中和文本分析相关的技术:中文自动分类、词性标注、文本分类、机器翻译等等,当然也包含基于文本的情绪分析技术。
文本情绪分析是基于自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原内容中的主观信息。一般而言,情绪的表达分为显性和隐性。显性情绪表达是直观的, 主要呈现在语言形式上,而隐性情绪表达则是暗藏的, 它存在于语言表述的深层涵义中, 有时是说话者不经意地 “言不由衷” 表述下掩盖的真实情绪,在不同的语境中所体现的语义是不同的.。而要想获取这样的隐含信息,不得不利用机器学习方法以及大量标注数据进行模型训练,好在当下高速发展的神经网络及深度学习技术已渐渐地让精准的情绪识别成为了可能。
相比于语音识别和面部识别,基于文本的情绪识别虽然对数据源有着特殊的要求,然而其同样可以基于当下最前沿的机器学习方法来实现。同时,文本识别的数据形式相对来说更容易被机器所“学习”,它既不会随着时间高速更新迭代(虽然也因此缺少了实时性,但增加了准确率),同时也不受噪音、口音等因素的影响,所以文本情绪识别在目前的技术研究上避开了很多不必要的困扰。
现实中的情绪识别技术的应用
不得不承认的是,距离人工智能情绪识别及生成技术成熟到能够支持如“萨曼莎”的样的机器人诞生来说,我们仍然有很长的路要走,但科学技术的进步亦然让我们体验到了一个又一个惊喜。接下来我们就来聊聊目前智能情绪分析的三个应用方向:舆情分析、质检分析、对话机器。
舆情是“舆论情况”的简称,企业管理者通过情绪舆情分析可以了解大众对热门事件的情感倾向,掌握舆论导向,从而更及时有效的进行监控。除了舆情监控,评论分类可以让制片人了解用户对节目的喜好及评论,进而有针对性的设计对应的剧情桥段等。人物口碑追踪,了解大众对某一人物或公众明显的喜好程度。
质检,应用于聊天对话、客服对话、任务型对话等。针对一段或多段对话文本,能自动识别出当前会话者所表现出的情绪。特别是在客服质检中,识别用户在客服咨询中的情绪,在自动回复系统下,如检测出用户负面不满情绪,则触发人工客服介入。在人工客服场景下,可以判断客服服务中客户的情绪反应也可用于监控客服人员的服务态度。而现在市面上,例如语忆科技等一些企业,已经能基于人工智能技术提供较完善的客服智能质检及管理服务。
机器被赋予情感理解一直作为人工智能发展的长远目标,而我们现实中的人工智能产品“微软小冰”和“竹间小影”就在不断地朝着这个方向靠近。
“微软小冰”是微软(亚洲)互联网工程院2014年建立的情感计算框架,小冰可作为对话式人工智能机器人、智能语音助手、人工智能创造内容提供者,还能为一些垂直领域提供解决方案。
初代小冰除了智能对话之外,还兼具群提醒、百科、天气、星座、交通指南、餐饮点评等实用技能。到现在的第六代小冰,不仅有贴近于人类自然交互行为的高级感官,还与万得资讯和华尔街见闻在金融领域合作。
竹间小影——个人助理机器人,是一个能读懂、看懂、听懂、有记忆、自学习,懂你的情感人工智能伴侣。它能近似于我们人一样,理解谈话者说话时的情感、情绪与意图。通过自主学习用户的喜好和习惯,能为用户提供行程规划、酒店预定等 30多项功能与服务。
展望未来
科技的进步往往能给这个世纪带来颠覆式改变,像“小冰”和“小影”,他们的技术性突破让我们对未来的幻想越来越靠近,然而情绪识别的应用空间是不可估量,或许在未来的某一天机器会被赋予像人类一样有情感和对人类情绪的理解能力,并不再是一个冰冷的机器而是能做一个有“体温”机器给予我们陪伴。
—— 专注于大数据与人工智能http://yuyidata.com