语音交互可能会产生平台级公司

2019-06-06 本文已影响20人 kla_kla

为什么语音交互没有取代图形界面交互形式？

没有最好的交互形式，只有适合的交互形式

其实相比于命令行界面更加友好的图形用户界面，图形界面也并没有取代命令行这种模式，现在在一些特定领域，尤其在IT领域，命令行还有大量的人在使用，因为在这些工作领域中，命令行要比图形用户界面效率高太多了。智能手机诞生以后，点、触、滑的交互方式也并没有取代电脑的键盘和鼠标，因为手机始终无法成为生产力工具，除了屏幕小的原因，就是交互方式限制了它成为生产力工具的可能。
新的交互方式并不一定优于旧的交互方式，只是因为技术的进步，人类多掌握了一种和机器交流的方式而已。没有最好的交互方式，只有适合的交互方式。其实就是使用场景不同。

不同的设备形态有不同的适合交互形式

现在的智能设备，有多种形态，未来可能会更多。拿苹果举例，AppleTV，Mac ，iPad，iPhone和AppleWatch。五个端都有相应的操作的系统(WWDC 2019,苹果刚刚发布了iPad OS)。为什么会有这么多的端？可能是通用设备正在分化，以前的通用设备只有电脑，后来人们发现，虽然通用设备什么都能做，但是体验并不是那么好。例如电脑不方便携带，手机易于携带但屏幕太小，手机便于携带，但是不适用于运动场景，通用设备又开始向专业化发展。Mac用来做生产和工具，iPad用来做学习笔记，iPhone用来做通信工具，Apple Watch用来做运行和健康管理。
专业化的设备具有天生的最合适的交互方式。电脑最适合键盘、鼠标；iPad最适合Apple pencil；iPhone最适合直接上手；语音最适合HomePod。

语音交互的难点

语音交互的过程包括，语音识别>语义理解>下达指令>返回结果。
语音识别解决用户说了什么的问题，语义理解解决用户说的内容表达什么意图的问题。语音识别据说准确率现在已经达到98%，现在难点在语义理解。现在的语音交互主要还是在人类适应机器，也就说人类需要主动适应机器所能接受的固定模式语音内容，而不是机器适应人类说的话。因为自然语言太复杂，表达同样的意图，不同的人说的话可能就不一样，没有标准，虽然语言的语法是语言的标准，但是真实的环境下并不是这样，人类并不都是按照标准的语法标准进行交流的。

语音交互的输出

人机交互包含输入和输出的过程，通过语音进行输入后，还要进行输出，输出就需要输出设备，而输出内容决定了输出的设备载体。音频内容，需要音频设备，文字、图片和视频需要显示屏幕，显然输出设备无法离开图形用户界面。这应该就是智能音箱后来加上屏幕的原因。

从空间角度看语音交互的场景

我们把空间分成四种，家、车、办公室和公共场合。
家和车的场景有一个共同特点，就是在这种两种空间下，用户的双手是非“空闲的”。在车上，需要开车。在家里，可能正在切菜，可能由于距离太远，无法触达。此时语音是更合适的交互方式，也就是说，当用户从其他空间转移到家和车的空间的时候，用户希望把手上的事情移交给嘴来说，解放自己的双手去做别的事情，同时设备也从手机切换到智能音响，因为智能音箱是智能家具的中心节点。
办公室显然是一个生产力的空间，和用户进行交互的设备是电脑，电脑最合适的交互形式是键盘和鼠标。这让我想起了老罗的TNT，这时的语音交互并不一定比手的效率高，并且办公室也不是一个适合说话的场景。
公共场合的特点，用户的双手时空闲的，用户可能时移动的，用户的环境可能时嘈杂的。这种空间目前最适合的设备就是手机，环境嘈杂，双手空闲，自然最合适的交互就是使用双手。例如在地铁上，用户基本不会使用语音交互，环境嘈杂，并且在公众场合，这也会让其他人感觉很奇怪。但是当用户处在移动的状态时，双手的交互形式并不友好，此时AirPods加上语音交互是一个更好的交互方式。

充满“想象”的语音交互

虽然语音交互并不会取代以前的交互形式，但是仍然会带来巨大的业态变化，智能手机让用户从Web转向了App。Web是开放的，App相对于Web是封闭的，所以产生了App平台，而最大的两个App平台就是苹果和安卓。
如果将来随着技术的成熟，更加适合语音交互的内容会从现有的Web和App形式中分离，从而产生一种语音交互形式的“前端形态”。
而由于自然语言的多样性和难以形成标准的特点，意味着语音技术很难是一个向Web那样的开放平台，而具有核心语义理解的能力可能会催生出语音应用领域的平台型企业。