设计产品交互设计Aidesign

语音用户界面(VUI)—与我们设备交流的基本原则#译文

2018-11-30  本文已影响50人  线框BOY

原文链接:Voice User Interfaces (VUI) — The Ultimate Designer’s Guide
作者:Justin Baker
翻译:线框BOY

Xfinity Remote by Juan C. Angustia

“把我的闹钟调到早上7:45”
——“好的,打电话给塞尔玛·马丁”
“不是!把我的闹钟调到早上7:45”
——“对不起。我帮不了你。”
叹气~然后手动设置闹钟。

我们的声音是多样、复杂和多变的。即使是人与人之间的沟通,语音命令的处理都会出现问题,更别说计算机了。我们梳理思维的方式、交流文化的方式、使用俚语和推断含义的方式,这些所有方式之中的细微差别都会影响我们对词语的解释和可理解性。

那么,设计师和工程师又是如何应对这一挑战的呢?如何培养人与人工智能之间的信任?这就是语音用户界面(VUI)发挥作用的地方。

VUI是支持人和设备之间语音交互的主要或补充的视觉、听觉和触觉界面。简单来说,VUI可以是任何东西,从一听到你的声音就会闪烁的灯到汽车的娱乐中控制台。请记住,视觉界面并不是VUI的必备元素,VUI可以完全是由听觉或触觉(例如震动)构成的。

虽然VUI的范围很广,但它们需要一套通用的UX规范来保证可用性的统一。我们将探索这些基本原理,以便作为用户时你可以剖析日常的VUI交互,而作为设计师时你可以构建出更好的体验。

Dannniel

探索——约束、依赖关系、用例

我们与外部世界互动的方式受到技术、环境和社会的限制。例如我们处理信息的速度,我们把信息转化成行动的准确定,我们用来交流数据的语言/方言,以及行动的接受者(无论是我们自己还是别人)。

在我们深入做交互设计之前,我们必须首先定义构建语音交互的上下文环境。

确定设备类型

设备类型会影响语音交互类型和范围下的模式和输入。


TV — Android Voice UI
手机
可穿戴设备
固定连接设备
非固计算设备(非手机)

创建一个用例矩阵

语音交互的主要、次要和第三重要用例是什么?设备是否有一个主要用例(比如健身追踪器)?或者它有一个折衷的用例组合(比如智能手机)?

创建用例矩阵非常重要,它将帮助你识别用户为什么要与设备进行交互。他们主要的交互模式是什么?次要交互模式是什么?什么是最好的交互模式?什么是必不可少的交互模式?

你可以为每一种交互模式创建一个用例矩阵。当应用于语音交互时,该矩阵将帮助您了解您的用户当前如何使用或希望如何使用语音去与产品进行交互——包括他们将在什么地方使用语音助手:

对交互模式排序

如果你正在通过用户研究来获得你的用例信息(或者使用定量/定性研究),那么通过对交互模式进行排序来使你的分析合理是非常重要的。

如果有人告诉你:“天哪,如果我能跟我的电视聊聊,告诉它换个频道,那该有多好啊”,这时候你就需要去深入挖掘了。他们会真的使用它吗?他们知道有哪些约束吗?他们是否真的知道他们自己倾向于使用那个功能?

例如,假设我们正在观察用户是否有可能使用语音与他们的电视进行交互。在这种情况下,可以放心的假设语音交互是众多可能的交互模式之一。

用户可以通过使用其他设备去进行交互,例如遥控器、已经配对的智能手机、游戏手柄,或者一个已经连接的物联网设备。因此语音不一定会成为默认的交互模式。它只是众多交互模式中的一种。

所以问题就变成了:用户依赖语音交互作为主要交互模式的可能性有多大?如果不是主要的,那么它会是次要的吗?还是第三重要的?这些将成为未来你的推论和用户体验假设的限制。

列举技术约束

将我们的语音转化成行动是一项极其困难的技术挑战。在有了无限的时间、带宽和训练之后,经过优化的计算引擎可以方便的接收我们的语音并触发适当的操作。

不幸的是,我们生活在一个没有无限带宽的世界里(即无所不在的千兆互联网),我们也没有无限的时间。我们希望我们的语音交互和传统的方式一样:可视和可触摸——尽管语音引擎需要经过复杂的计算和建模。

下面是一些例子,展示了想让我们的对话被正确识别,必须去做些什么:

AMI Voice Engine

正如我们所看到的,有许多模型需要经过不断地训练来处理我们的词语、语调和会变化的音调等等。

Automatic Speech Recognition

每个语音识别平台都有一组独特的技术限制。在构建语音交互的用户体验时,必须遵循这些约束条件。

分为以下类别:

非线性交互

此外,我们还应该考虑到用户可以和设备进行非线性的交互。例如,我想在一个网站上预订机票,那么我就不得不遵循网站的渐进式任务流:选择目的地、选择日期、选择机票数量、查看选项等等。

但是VUI会面临更大的挑战。用户可以说:“我们想坐商务舱飞往旧金山”。这时,VUI就必须从用户那里提取所有相关信息,以便利用现有的机票预订接口。由于对话逻辑和实际的功能逻辑可能有偏差,因此VUI有责任从用户那里提取相关信息(通过语音或者视觉补充)。

语音输入的用户体验

既然我们已经探索了VUI的约束、依赖关系和用例,我们就可以开始更深入地实际研究语音用户体验了。首先,我们将探索设备如何知道什么时候该听我们说话。

对于一些添加的上下文,下图演示了一个基本的语音用户体验流程。

这可以表现为:

Garvey Smith

触发类型

触发语音输入有四种类型:

作为一个设计师,你必须了解哪些触发类型与你的用例相关,并将这些触发因素从可能相关到不相关进行排序。

主要提示

通常,当一个设备被触发去聆听语音时,会有听觉、视觉或者触觉的提示。

The Wirecutter
Google Assistant

这些提示应该遵循以下可用性原则:

反馈的用户体验

反馈对于语音界面用户体验的成功至关重要。它允许用户得到一致的和即时的确认,即他们的词语正在被该设备读取和处理。反馈还可以让用户采取纠正或者肯定的操作。

Samborek Cortana

下面是一些能够提供有效VUI反馈的用户体验原则:

结束提示

结束提示出现时意味着设备停止接收用户的语音并开始处理命令。许多主要提示的原则也适用于结束提示(即时的、短暂的、清晰的、一致性、独特性)。然而,还有一些适用的额外原则:

对话的用户体验

像“打开我的闹钟”这样简单的命令并不需要长时间的对话,但是更复杂的命令需要。语音交互与传统的人机交互不同,人机交互需要额外的确认、冗余和校正。

更复杂的命令或多轮对话通常需要多的语音和选项验证来确保准确性。更复杂的是,用户常常不知道该问什么或如何问。因此,VUI的工作就是解读消息并允许用户说明额外的上下文环境。

人格化的用户体验

赋予语音交互类似于人类的特征,可以在人与设备之间建立一种关系。这种人格化可以通过不同的方式表现出来:如灯光的图案、有弹性的形状、抽象的球形图案、计算机生成的语音和声音。

Olly

这种关系在用户和机器之间培养了一种更亲密的联系,这种联系也可以跨越拥有类似操作平台的产品(比如谷歌的Assistant、亚马逊的Alexa和苹果的Siri)。

端到端的动作体验

语音交互应该是流动的和动态的。当我们面对面交谈时,我们通常会用到无数的面部表情、语调的变化、肢体语言和动作。在数字化环境中捕捉这些流动的交互是一项很大的挑战。

如果可能的话,整个语音交互体验应该是一种有奖励性质的交互。当然,像“关灯”这样稍纵即逝的互动并不一定需要一段完整的关系。然而,任何一种更复杂的互动都需要长时间的交谈,比如与虚拟助理一起做饭。

Aurélien Salomon
TinoFan

一个有效的语音动作体验将会从以下原则中收益:

Natural AI inside AGI automotive dashboard by Gleb Kuznetsov✈

结论和资源

VUI具有多面性且极其复杂,通常是交互的混合体。但事实上,并没有一个包罗万象的定义。需要记住的重要一点是,一个日益数字化的世界意味着我们可能实际花在设备上的时间比花在彼此身上的时间还要多。VUI会最终成为我们与世界互动的主要方式吗?我们期待这一天的到来。

同时,你是否希望构件一个系统级别的VUI?以下是一些有用的资源:

上一篇下一篇

猜你喜欢

热点阅读