语音识别及交互

2021-01-14  本文已影响0人  stoolman

基础概念

ASR(Automatic Speech Recognition):语音识别,声音到文字
NLU(Natural Language Understanding):自然语言理解,理解意图
DM(Dialog Management):对话管理
NLG(Natural Language Generation):自然语言生成
TTS(Text To Speech):语音合成

语音识别

NLU

自然语言理解 Natural Language Understanding,目的是让机器能理解人类语言中的意图,输入来源可以是ASR的文本结果 ,也可以是纯粹的文本。在整个的语音交互中,NLU起到承上启下的作用,只有完全理解了会话的意图,机器才能给出精准的反馈。而由于人类语言的多样性和复杂性,NLU一直是人工智能领域的硬骨头,本章将重点介绍其中的难点,技术原理,关键指标。

对话管理

ASR让机器听见,而NLU让机器听懂,再然后就应该是听懂之后怎么做,而这些则是对话管理的工作。为了获得获得接近甚至等同于人的交互体验,对话管理非常重要,在不同的系统中,对于对话管理有不同的翻译,有的称作对话引擎Conversation Engine,这里我们统一称为对话管理DM(Dialog Management)。
DM根据用户的输入获得任务,然后明确出任务所需要的信息,对接业务平台完成任务,或者要求用户进一步输入更多信息,直到能够完成任务,最后将任务执行结果返回给用户。
可以这么说,ASR和NLU决定了语音交互的下限,而DM则决定了语音交互的上限。DM就像是语音交互的大脑,灵魂,是业务能力的载体,决定着交互逻辑的下一步状态,下一个动作。

自然语言生成

NLU将文本转化为语义表征,而NLG将语义表征转化为文本,是一个逆向的NLU过程。NLU本质上来说是一个文本分类器,而NLG则对应的是一个文本泛化器。传统上,将输入数据转换为输出文本的NLG问题通过将其分解为多个子问题来解决, 一般可以将这些问题分为以下六类:

1.内容确定(Content determination):决定在建文本中包含哪些信息,
2.文本结构(Text structuring):确定将在文本中显示的信息,
3.句子聚合(Sentence aggregation):决定在单个句子中呈现哪些信息,
4.词汇化(Lexicalisation):找到正确的单词和短语来表达信息,
5.引用表达式生成(Referring expression generation):选择单词和短语以识别域对象,
6.语言实现(Linguistic realisation):将所有单词和短语组合成格式良好的句子。
其中内容确定在语音交互的结构中通常已经由DM决定了,剩余部分可以划分为两个部分,一部分为句子规划,另一部分为句子实现。

上一篇 下一篇

猜你喜欢

热点阅读