进击的人工智能:产品视角解析“对话机器人”
探讨对话机器人的本质需求、场景和价值;来自嘉宾@赵帅的分享,(优护家联合创始人,前微软小冰初创团队产品经理)的,在编辑整理成万字长文,值得AI产品经理们细细品味~
序言
任何一款产品的出现,都是源自用户需求。要么是已经存在的存量需求,要么是正在规模化的增量需求,对话机器人也不例外。当我们在谈论“对话机器人”产品时,我们该如何看待它背后的需求呢?
本文,我将试图站在纯产品的视角,去分析作为一款产品,对话机器人背后的需求和产品逻辑。文中我无意去对比各家对话机器人的优劣,也不讨论某款对话机器人的产品观或方法论。
1探索“对话”行为背后的需求
首先,我们试图探索“对话”这一行为的场景与背后的需求。
在《人类简史》一书中,认为语言能力是智人区别于其他猿类最重要的特质和能力,因为语言能力,智人可以互相通过对话而形成更丰富的交互,从而才有了协作和后来的文明。
人类有三种最直接的方式来使用语言:“一对零”、“一对多”、“一对一”。
“一对零”是自我内化的反思、总结、沉淀,不向外做交互和分享。“一对多”是广播式的宣讲和相对单向的输出,譬如开大会或者发号施令。“一对一”是对话,群聊也是由许多的“一对一”构成的,所以我认为不存在真正意义上的“多对多”对话。我认为对话是我们人与外界进行交互的最直接即时的途径(注意“即时”很重要)。
所谓对话,一定是一个双方交互行为,并且互为I/O(input / output)的过程。比如两个人对话,每个人所说的话,对于自己而言是输出,对于对方而言是输入。原则上,对话可以永远持续下去。但我们几乎从未见过两个人会永远在对话,那是因为,如果需要对话持续下去,双方都需要保持参与,任何一方觉得疲劳或者无价值感了,对话就会终止。
对话的场景更加贴近我们的生活行为,它频次最高,且环境开放多变,分析它背后的需求并不容易。现在,我们需要回答两个问题。
1.1 对话为什么能够开始?
我认为人在对话中存在三个层面的需求。
第一层,是基础问答的需求,可以描述为:我有一个问题,请你回答我。二次追问的问题,属于新问题,这个过程,非常类似于我们今天所使用的搜索引擎。
第二层,是任务流程协作的需求,以达成某种目的为止,可以描述为:我想请你帮我买一张明天下午14:00-18:00出发,北京到上海的机票,经济舱,尽可能便宜,最好是东航的。我们和朋友相约去逛街,拜托同事帮忙预定会议室,接受闺蜜的请求明早叫她起床,这些都是任务流程协作的需求。
第三层,是共同的情感建立,无论喜怒哀乐。聊天的目标很难定量量化,我们更多是尝试定性地去制定聊天的目标。可能是心情不好需要人陪,也可能是好事情需要向好朋友分享,我们需要对话来表达进行最直接即时的表达。我并不认为只有孤独的情感才需要对话,人作为拥有万年发展历程的群居动物,与他人进行情感分享是早已刻入基因的特质。只是,我们建立的情感在不同人之间会有所不同,对于信任之人的情感建立会很深刻,而对于点头之交则会保留许多。
开启一段对话一定源自上述的某种需求,而开启的契机则是一个相对明确的话题,哪怕只是一句“我饿了”。
1.2 对话为什么会持续?
对话能够持续,是有两个层面的原因。
第一个原因,是至少一方的需求没有得到满足。比如我去提问题,对方回答我不满意,我就会持续追问。两个女生在一起聊八卦,听的人很入神,讲的人才有成就感能继续讲下去。
第二个原因,是双方相对平等。如果我提了个问题,或者请对方帮个忙,但是对方始终是一种高姿态不搭理我,那我就很容易放弃,不想聊了。反过来,如果对方对我过分尊敬,总在说一些没有营养的恭维拍马屁的话,时间久了,我也会变得更虚荣,而且会觉得很无聊。所以,人不会和自己阶层或者品味相差太多的人聊天,绝大多数人更不会和宠物长时间聊天。
对话会终止,最根本的原因是,双方都放弃了这轮对话。感性一些来描述对话终止的原因,可以认为是双方都觉得“疲惫”了,也就是这一轮对话的能耗消耗殆尽,哪怕是情侣之间说甜言蜜语,聊个两三千句也会觉得累了,也会在十几个回合的互道“晚安”中结束本次对话。
所以,对话总会终止,能耗殆尽就会终止。
2“对话机器人”产品的发展
源自搜索引擎
在我以前的文章《进阶之路:站在高视角看产品是一种怎样的体验》中,讲述过一个概念,叫做“知识诅咒”,简单说,现在我明白一件事情,但是要完整清楚的讲授给你,是很难的,因为我们所拥有的知识背景不同,我们对同一件事情的理解不同。这也就解释了,为什么很多老师在上课的时候索然无味,很多人做Presentation的时候显得苍白无力,这其实是知识诅咒在起作用。
知识诅咒带来一个很大的问题,就是每当我们接触到一个陌生事物时,都会和自己的背景知识进行类比,譬如对于长发飘飘的素颜美女,在我所知中,这类美女一般都是家境不错,待人温柔,家教优良,所以当我再次见到一个类似的美女时,我会做相似的第一印象类比。
不只是美女,我们几乎所有的认知都源自于过往的背景知识。
在人类发展的历史上,对于即时的问答需求几乎时时刻刻都存在,最早大家是询问部落中最年长的智者,后来大家互相都有了知识储备,就可以通过对话来进行基本的问答和辩论,这一个过程持续了千万年。同一个问题,最早时只能去问一个人,得到一个答案,到后来,可以去问很多人,得到许多答案,然后“择其善者而从之”。如果我能把所有人都问一遍,可能会得到一个巨大的答案集合,我需要过滤、排序、取舍,你发现,这个过程就是“搜索引擎”。我们使用搜索引擎时,是通过一个“输入框”输入想问的问题或者关键词,然后搜索引擎会丢给我一个经过相关性排序和优化的答案集合。
但我认为两个原因,会导致搜索引擎会逐渐向对话机器人演变。
其一,精准答案的需求愈发旺盛
搜索引擎从简单的信息集合展示,逐渐向精准答案给予,这个已经持续了好几年。“百度阿拉丁”就是这方面的典型,譬如当你问“北京天气”,百度搜索结果页第一项是经过精心设计的天气卡,会通过丰富的UI展示天气相关的信息。在头部热门搜索词中,阿拉丁已经可以覆盖大多数,但是对于腰部需求和长尾需求,随着信息爆炸,人们对于翻多页进行搜索的忍耐度会越来越低,对于“快”“准”的需求只会越来越大。
其二,搜索场景下输入能耗太大
从能耗体验的角度来说,搜索的输入框远高于对话聊天的输入框,即使是同一个话题的持续输入,对话聊天的疲劳感也会明显低于搜索。如果今天人们每天平均提问的次数是N,那么几年后会迅速到10N,体验不升级会很难让用户满意。而回归对话的方式,是一种很好的体验优化,可以抵消需求的增长。
文后续内容,详细请点击:https://t.zsxq.com/6iaauFa