人机对话简述
1、人机对话系统的交互形式和应用场景
1、聊天。典型代表是小冰,它包括问候和寒暄,其特点是没有明确目的,而且不一定回答用户的问题。聊天在现有的人机对话系统中主要是起到情感陪伴的作用。
2、问答。它要对用户的问答给出精准的答案。这些问题可以是事实性的问题,如“姚明有多高”,也可能是其他定义类,描述类或者比较类的问题。问答系统可以根据问答的数据来源分为基于常见问题-答案列表的FAQ问答,基于问答社区数据的CQA问答,基于知识库的KBQA问答。
3、操控。只是解析出它的语义,来供第三方执行,最典型的操控是打开空调、打开台灯,或者播放某一首歌。
4、任务式对话。它是一个目的性很强的对话,目标是收集信息,以完成某个填表单式的任务,最常见的像订外卖、订酒店、订机票,这种方式通过对话来做。
5、主动对话。让机器主动发起话题,不同的是,前面的交互都是让人来主动发起这个交互。
2、人机对话技术架构
人机对话系统技术架构人机对话系统从学术界来讲,它的研究历史非常悠久,可能 AI 提出以后,在七八十年代就开始研究。它的技术分为五大部分:
1、语音识别:主要解决复杂真实场景噪声、用户口音多样的情况下,把人说的话转成文字,即做到“听得清”。
2、语义理解:主要是把用户说的话转成机器能理解执行的指令或查询,即做到“听得懂”。
3、对话管理:维护对话状态和目标,决定系统应该怎么说、怎么问下一句话,也就是生成一个应答的意图。
4、自然语言生成:就是根据系统应答的意图,用自然语言把这个应答意图表达出来。
5、语音合成: 用机器合成的语音把这句话播报出来。
这样形成一个完整人机对话的闭环。
3、语音识别场景演进
语音识别场景演进鸡尾酒会问题:
鸡尾酒会问题是在计算机语音识别领域的一个问题。
当前语音识别技术已经可以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。
该问题给定混合信号,分离出鸡尾酒会中同时说话的每个人的独立信号。
4、人机对话系统中的机器角色演进
人机对话系统中的机器角色演进在人机对话里面机器的角色有个演进的过程:最早人机对话很简单,可以看成是个遥控器的替代品,用户通过固定句式或者单句指令来控制这个系统。
Siri、Amazon Echo 是一种助手的形态,也就是说,你可以通过自然语言交互,且对话是多轮的,甚至可以让机器有些情感。
但是下一个阶段是它会变成专家的角色,特别是面向行业或者特定领域时,当我们跟音箱对话时,希望这个音箱同时也是一个音乐专家,它可以跟你聊音乐的问题,可以跟你聊古典音乐,甚至教你一些音乐知识。我们跟儿童教育机器人对话时,希望这个机器人是一个儿童教育专家,我们跟空调对话时希望后面是个空调专家。这时它的特点是需要有这个领域的知识,而且能够帮你做推荐、做决策。
刘升平,AI 科技大本营在线公开课,基于知识图谱的人机对话系统