语音用户界面（VUI）—与我们设备交流的基本原则#译文

2018-11-30 本文已影响50人线框BOY

原文链接：Voice User Interfaces (VUI) — The Ultimate Designer’s Guide
作者：Justin Baker
翻译：线框BOY

Xfinity Remote by Juan C. Angustia

“把我的闹钟调到早上7:45”
——“好的，打电话给塞尔玛·马丁”
“不是！把我的闹钟调到早上7:45”
——“对不起。我帮不了你。”
叹气~然后手动设置闹钟。

我们的声音是多样、复杂和多变的。即使是人与人之间的沟通，语音命令的处理都会出现问题，更别说计算机了。我们梳理思维的方式、交流文化的方式、使用俚语和推断含义的方式，这些所有方式之中的细微差别都会影响我们对词语的解释和可理解性。

那么，设计师和工程师又是如何应对这一挑战的呢？如何培养人与人工智能之间的信任？这就是语音用户界面（VUI）发挥作用的地方。

VUI是支持人和设备之间语音交互的主要或补充的视觉、听觉和触觉界面。简单来说，VUI可以是任何东西，从一听到你的声音就会闪烁的灯到汽车的娱乐中控制台。请记住，视觉界面并不是VUI的必备元素，VUI可以完全是由听觉或触觉（例如震动）构成的。

虽然VUI的范围很广，但它们需要一套通用的UX规范来保证可用性的统一。我们将探索这些基本原理，以便作为用户时你可以剖析日常的VUI交互，而作为设计师时你可以构建出更好的体验。

Dannniel

探索——约束、依赖关系、用例

我们与外部世界互动的方式受到技术、环境和社会的限制。例如我们处理信息的速度，我们把信息转化成行动的准确定，我们用来交流数据的语言/方言，以及行动的接受者（无论是我们自己还是别人）。

在我们深入做交互设计之前，我们必须首先定义构建语音交互的上下文环境。

确定设备类型

设备类型会影响语音交互类型和范围下的模式和输入。

TV — Android Voice UI

手机

iPhones，Pixels，Galaxies
连接——蜂窝网络、wifi、配对设备
环境上下文对语音交互有很大的影响
用户习惯于使用语音交互
允许通过视觉、听觉和触觉反馈进行交互
交互方法在模型之间是相当标准化的

可穿戴设备

通常针对特定用例，如手表、健身手环或智能跑鞋
连接——蜂窝网络、wifi、配对设备
用户可能已经习惯了使用语音交互，但是这种交互在不同设备之间是非标准化的
一些可穿戴设备允许通过视觉、听觉和触觉反馈进行交互——尽管有一些设备是比较被动，没有明确用户交互的。
通常依赖于用于连接用户交互和数据消费的设备

固定连接设备

台式电脑、带屏幕的家电、恒温器、智能家居中心、音响系统、电视
连接——有线网络、wifi、配对设备
用户通常在相同的位置和习惯的设置下使用这些设备
类似设备类型之间语音交互的准标准化方法（桌面电脑vs连接的家居中心，如Google Home/Amazon Alexa vs 智能恒温器）

非固计算设备（非手机）

笔记本电脑、平板电脑、收发器、汽车信息娱乐系统
连接——无线网络、有线连接（不常见）、wifi、配对设备
主要的输入模式通常不是语音
上下文环境对语音交互有很大的影响
设备类型之间通常有非标准化的语音交互方法

创建一个用例矩阵

语音交互的主要、次要和第三重要用例是什么？设备是否有一个主要用例（比如健身追踪器）？或者它有一个折衷的用例组合（比如智能手机）？

创建用例矩阵非常重要，它将帮助你识别用户为什么要与设备进行交互。他们主要的交互模式是什么？次要交互模式是什么？什么是最好的交互模式？什么是必不可少的交互模式？

你可以为每一种交互模式创建一个用例矩阵。当应用于语音交互时，该矩阵将帮助您了解您的用户当前如何使用或希望如何使用语音去与产品进行交互——包括他们将在什么地方使用语音助手：

对交互模式排序

如果你正在通过用户研究来获得你的用例信息（或者使用定量/定性研究），那么通过对交互模式进行排序来使你的分析合理是非常重要的。

如果有人告诉你：“天哪，如果我能跟我的电视聊聊，告诉它换个频道，那该有多好啊”，这时候你就需要去深入挖掘了。他们会真的使用它吗？他们知道有哪些约束吗？他们是否真的知道他们自己倾向于使用那个功能？

例如，假设我们正在观察用户是否有可能使用语音与他们的电视进行交互。在这种情况下，可以放心的假设语音交互是众多可能的交互模式之一。

用户可以通过使用其他设备去进行交互，例如遥控器、已经配对的智能手机、游戏手柄，或者一个已经连接的物联网设备。因此语音不一定会成为默认的交互模式。它只是众多交互模式中的一种。

所以问题就变成了：用户依赖语音交互作为主要交互模式的可能性有多大？如果不是主要的，那么它会是次要的吗？还是第三重要的？这些将成为未来你的推论和用户体验假设的限制。

列举技术约束

将我们的语音转化成行动是一项极其困难的技术挑战。在有了无限的时间、带宽和训练之后，经过优化的计算引擎可以方便的接收我们的语音并触发适当的操作。

不幸的是，我们生活在一个没有无限带宽的世界里（即无所不在的千兆互联网），我们也没有无限的时间。我们希望我们的语音交互和传统的方式一样：可视和可触摸——尽管语音引擎需要经过复杂的计算和建模。

下面是一些例子，展示了想让我们的对话被正确识别，必须去做些什么：

AMI Voice Engine

正如我们所看到的，有许多模型需要经过不断地训练来处理我们的词语、语调和会变化的音调等等。

Automatic Speech Recognition

每个语音识别平台都有一组独特的技术限制。在构建语音交互的用户体验时，必须遵循这些约束条件。

分为以下类别：

带宽级别——设备是否能够保持与网络的连接？
处理速度——用户的语音是否需要实时处理？
分析精度——精确度和速度之间的权衡是什么？
对话模型——我们目前的模型训练是否有效？他们是否能够处理完整的句子或简单的单词？
备用方案——如果对话不能够被识别，有没有备用的技术方案？用户是否还有其他交互模式可选？
不精确的结果——一个经过处理后的不精确命令是否会导致不可逆的操作？我们的语音识别引擎是否足够成熟到能够避免严重错误？
环境测试——语音引擎是否在多个环境中测试过？例如，假设我们正在构建一个汽车信息娱乐系统，那么我们受到的背景干扰将会比一个智能恒温器更多。

非线性交互

此外，我们还应该考虑到用户可以和设备进行非线性的交互。例如，我想在一个网站上预订机票，那么我就不得不遵循网站的渐进式任务流：选择目的地、选择日期、选择机票数量、查看选项等等。

但是VUI会面临更大的挑战。用户可以说：“我们想坐商务舱飞往旧金山”。这时，VUI就必须从用户那里提取所有相关信息，以便利用现有的机票预订接口。由于对话逻辑和实际的功能逻辑可能有偏差，因此VUI有责任从用户那里提取相关信息（通过语音或者视觉补充）。

语音输入的用户体验

既然我们已经探索了VUI的约束、依赖关系和用例，我们就可以开始更深入地实际研究语音用户体验了。首先，我们将探索设备如何知道什么时候该听我们说话。

对于一些添加的上下文，下图演示了一个基本的语音用户体验流程。

这可以表现为：

Garvey Smith

触发类型

触发语音输入有四种类型：

语音触发——用户说出一个短语，提示设备开始处理语音（例如：“Ok Google”）
触觉触发——按下按钮（物理或虚拟的）或切换控制（例如一个麦克风图标）
动作触发——在传感器前会挥动手臂
设备自触发——一个事件或预先确定的设置将设备触发（发生车祸或者提示你确认的任务提醒）

作为一个设计师，你必须了解哪些触发类型与你的用例相关，并将这些触发因素从可能相关到不相关进行排序。

主要提示

通常，当一个设备被触发去聆听语音时，会有听觉、视觉或者触觉的提示。

The Wirecutter

Google Assistant

这些提示应该遵循以下可用性原则：

即时的——当设备被触发后，应该尽快进行提示，即时这意味着打断当前的任务（只要被打断的那个任务不会带来破坏性的结果）
短暂的——提示应该是瞬间的，尤其是对于习惯使用的设备来说。例如：两个明确的“哔哔”声比“好的，贾斯汀，你想让我现在做什么”要更有效率。主要提示时间越长，用户的对话与设备提示冲突的可能性就越大。这个原则也适用于视觉提示。当设备被触发后，屏幕应该立即转为监听状态。
清晰的开始——用户应该知道他们的对话被开始录音的确切时间
一致性——提示应该是始终相同的。声音或视觉反馈的差异性会让用户感到困惑。
独特性——提示应该与设备正常的声音和视觉效果不同，并且永远不应该在其他任何场景中重复使用。
补充提示——如果允许的话，可以用多种交互媒介来丰富提示（例如，两个“哔哔”声、一个灯光变化和一个屏幕对话）
初始提示——对于第一次使用的用户，或者当用户遇到问题时，你可以显示初始提示或建议，以方便语音通信。

反馈的用户体验

反馈对于语音界面用户体验的成功至关重要。它允许用户得到一致的和即时的确认，即他们的词语正在被该设备读取和处理。反馈还可以让用户采取纠正或者肯定的操作。

Samborek

Cortana

下面是一些能够提供有效VUI反馈的用户体验原则：

实时响应的视觉效果——这种视觉反馈在本地语音设备（例如手机）中最为常见。它可以在多个声音维度如音高、音色、音量和持续时间上产生即时的认知反馈，而且这些维度都可以用来实时响应颜色和模式的变化。
音频回放——用一个简单的回放来确认语音的解释。
实时文本——在用户实时说话的过程中逐步显示文本反馈。
输出文本——在用户已经说完话时，文本反馈就要完整转换和修改。在确认音频或者将其转换为动作之前，请将文本反馈视为处理纠正的第一步。
非屏幕视觉提示（光、光的模式）——以上提到的视觉反馈不仅仅局限于数字屏幕。这些视觉响应还可以体现在简单的LED光或者光的模式。

结束提示

结束提示出现时意味着设备停止接收用户的语音并开始处理命令。许多主要提示的原则也适用于结束提示（即时的、短暂的、清晰的、一致性、独特性）。然而，还有一些适用的额外原则：

足够的时间——确保用户有足够的时间来完成他们的命令。
自适应的时间——提示的时间应该适应用例和预期的响应。例如，如果用户被问到一个“是”或“不是”的问题是，那么在结束提示最后一个音节后应该有一个合理的停顿。
合理的暂停——在用户最后一个词语被记录之后，是否已经经过了合理的时间？这个非常难以去计算，并也依赖于对话上下文的交互用例。

对话的用户体验

像“打开我的闹钟”这样简单的命令并不需要长时间的对话，但是更复杂的命令需要。语音交互与传统的人机交互不同，人机交互需要额外的确认、冗余和校正。

更复杂的命令或多轮对话通常需要多的语音和选项验证来确保准确性。更复杂的是，用户常常不知道该问什么或如何问。因此，VUI的工作就是解读消息并允许用户说明额外的上下文环境。

肯定——当AI确实理解了用户的指令，它应该以肯定的信息回应，并且确认指令。例如，人工智能可以不说“当然”，而是说“当然，我要关灯”，或者说“你确定你想让我关灯吗?”
纠正——当AI无法理解用户的意图时，它应该使用纠正选项进行响应。这允许用户选择另一个选项或完全重启对话。
同理心——当AI无法满足用户的要求时，它应该为理解缺失而承担责任，然后为用户提供纠正选项。同理心对于建立一种更讨人喜欢的关系很重要。