语音输入的使用场景推理与归纳

2016-11-03 本文已影响473人张兆超

什么是语音输入？

广义上来讲有三种：
第一层，一种信息存储方式，将声音保存为数字文件。
第二层，一种输入法，以近期大热的讯飞输入法为代表，将语音转换为文字。
第三层，一种交互方式，以 Siri、Cortana 以及 Google Assistant 为代表。代替点按屏幕、敲击键盘的传统交互，直接用语音对智能设备发出指令，完成某个事件，比如打电话、叫外卖、查地图等等。

第一层的技术早已成熟，第三层目前看来远未达到大规模、广泛使用的阶段。因此，这篇文章只探讨语音输入第二层——作为一种输入法——的语音转文字使用场景。语音技术做的最好的是讯飞，目前有两款 app：讯飞输入法和讯飞语记。无论是识别速度还是准确度，都远超同行。我分别体验了讯飞（输入法+语记）和搜狗输入法，粗略估计讯飞比搜狗快一倍以上。因此，从本质上来说，语音输入更多的是技术驱动型产品。

下面是语音输入使用场景的推理与归纳。

从使用场合看

不同于传统的交互方式——点触屏幕、键盘输入——语音输入对使用场合存在更多的限制。考虑到说话会打扰他人，同时也需要周围保持安静，因此对环境有较高的要求。使用场合大致可以分为：家、公司、上下班（公交车、地铁、私家汽车）、休闲娱乐场所（咖啡厅、餐厅、电影院）以及专业场合（会议大厅、专业论坛现场）等。

从使用用户看

语音输入有着极其广泛的用户群，对用户的唯一要求就是会讲普通话。即便如此，我们还是可以对用户群做粗略的分类。
核心用户：有着大量文本输入的需求。一类是写作者，比如在家进行写作；另一类是速记员，比如在会议、论坛上进行演讲稿整理。
普通用户：日常 IM 沟通。比如在家里、在上下班途中，使用微信与好友聊天，使用语音输入转文字来代替文本输入。

从使用诉求看

对于核心用户来说，对于语音输入有着强烈的需求，毕竟键盘输入无论怎样，都赶不上语音输入快。
对于普通用户来讲，可以发送文本消息、语音消息，但是语音形式对消息接收者极不友好（尤其是在群聊中）。普通用户为了提高自己的「打字效率」、节省时间，因此会选择语音输入。

不足与限制

语音输入有着与生俱来的限制，核心是两点：对周围环境要求较高、用户尚未养成语音输入的习惯。

对周围环境要求较高：一是不能打扰他人，二是周围环境的声音不能影响语音识别效果，三是如果在公共场合，如果聊天涉及到隐私内容，显然会对用户使用语音输入造成一定程度上的心理阻碍，也就进一步限制了使用场景。

用户尚未养成语音输入的习惯：如果不是事先准备好的发言稿，人们在说话的时候会带上很多的口头语，如「嗯」、「啊」、「然后」等。直接转换成文字，无论是日常聊天，还是专业性的文本输入，都显然不合适。如果语音输入不能对文本进行一定的预处理，就会在后期提高二次修改处理的成本。

小结

通过以上的使用场景推理，可以发现语音输入最适合的场景还是大量文本输入。对于普通用户而言，如果不能在产品设计上突破创新，发掘更多的使用场景，那就只能成为一时爆红的现象级产品。

语音输入的使用场景推理与归纳

从使用场合看

从使用用户看

从使用诉求看

不足与限制

小结

猜你喜欢

热点阅读