讯飞，与它承诺给我们的那个万物有灵的未来

2016-11-29 本文已影响0人不存在日报

编者按：曾经在合肥的时候，该市的朋友总会给我讲些关于中科大的诡异传说——

“哎，你看见没，你得绕着那个楼走，那是核物理所，里面好几个反应堆呢，你手里有个盖革计数器现在指针就狂跳了。”

“知道中科大为什么没放在北京上海，给搁在这么一个二线城市么？中科大物理其实比中科院牛多了，好多国外的实验都得拿过来做。没准哪天加速器突然搞出个黑洞就把合肥给吃了。”

不知真假。

之前对科大唯一的认知是，科大的食堂……实在太好吃，就是没有校园卡吃不了。

直到做手机的罗永浩老师展示了和讯飞语音的合作，我才真正知道了有【科大讯飞】这家其实已经成立了17年的公司。

然而，那时候的认知，也只是以为，讯飞是个做输入法的。

🕹

AlphaGo，其实也是个超级强化版的

看着AlphaGo 干脆利落地结果了李世乭九段，你也跟风转发了朋友圈，四处搜寻复盘分析文章，感叹人工智能即将取人类而代之，拉了《终结者》《黑客帝国》和《西部世界》这样的片单？

其实大可不必。

▲ Google DeepMind 围棋挑战赛，韩国棋手李世乭 vs AlphaGo

▲相似的一幕：1997年5月11日，国际象棋世界冠军卡斯帕罗夫对阵IBM 电脑Deep Blue

类似的“人类被机器打败”的担忧，我们远不是第一次见到。1997年，国际象棋历史上最伟大的棋手之一，俄罗斯棋手卡斯帕罗夫以1胜2负3和的总比分败给IBM 电脑“深蓝”。

在棋牌这类可以通过穷举运算的、规则明确的游戏中，摩尔定律让电脑不断倍增的浮点运算能力发挥了最大的作用。而在围棋这种无法简单穷举的策略里，通过更加复杂的概率运算、局面分析和策略学习机制形成复合系统，用来制定最佳的策略。

而让机器如何抛弃纯粹逻辑的底层，真正像人一样思考，或者说，“拟人”地思考，这正是讯飞面对的课题。

🤖

人工智能？抱歉，它们还比较笨

我们常在国外的游行示威里看到这样的对话：

- What do we want?

- Peace!!!

- When do we want it?

- Right now!!!

而AI从业者将其改成了一个笑话，用来讽刺现在自称“人工智能”的语义判断逻辑：

- What do we want?

- Chatbots!

- When do we want them?

- Sorry, I didn't understand that request.

这个笑话，即是讽刺人工智能对于上下文和语义环境不能进行识别，即人工智能领域常说的context——语义、上下文、语境、背景、环境、文化氛围……无数复杂的微信息都融汇在这里。对于context 内容的智能分析，是一个极为复杂的领域。

人类在6岁之前就具备了常识逻辑和基本的判断能力。回想你从6岁到20岁的痛苦求学经历，其实满打满算也就是几块硬盘的知识量，电脑可以轻易地全部掌握。而人类潜意识中并行加工、发散的“常识模式”，却是电脑最难掌握的。我们会直觉地明白“妈妈”的定义，然而你如何用逻辑来解释“妈妈”？这起码得垫几篇伦理学和医学论文吧。

就如同我们经常调戏的Siri 一样。在Siri 的对话库中存在大量的模板。这些模板确定了Siri 对于所有常见问题的反应。这些模板一部分来自于实时的搜索，一部分则是内置的“段子”。这类看似“智能”的AI 助理产品，其实只是通过“语音抓取+模板库”的机制，为你营造日常应用里“智能”的感觉。日常使用里，模板可以cover 掉绝大多数的问题，而如果你存心刁难Siri，它肯定会露出马脚。

道理很简单，套路是不能长久的，云套路也不行。

🎤

语音交互——带上TA的声带

讯飞的突然走红，很大程度要感谢罗永浩老师在发布会上演示的语音输入——完全口语化，几乎0错误率，甚至加入了语气匹配的标点符号。

语音输入的概念并不新鲜。至少在2011年10月，Siri 的正式发布就为全球智能手机用户科普了这一概念。然而在中文识别领域，Siri 一直做的不甚理想，身边不少朋友的Siri 都是英文版本，用以完成上闹钟、叫车和导航等等简单的服务。和别人扯着京片子时突然说Siri，take me to the nearest gas station 也是一件颇为奇怪的事。

讯飞在语音识别领域显然更为“接地气”。除了普通话外，我还在列表里看到了粤语、四川话、河南话、贵州话、客家话等十几种方言。此功能强大到什么程度呢？就是某些同事装了输入法后完全不好好用，只是拿着手机完全当成是方言识别器，天南海北各种会与不会的方言乱说一气，然后戴着耳机露出奇怪的傻笑。

平时，听着uber 司机手机放出的“前方300米出口驶出主路，请并入右侧车道”“前方有限速摄像，请减速慢行”的机械女声，毫无人情味可言，令人不禁怀念曾经车内循环交通广播和不孕不育广告的年代。而罗老师演示的另一个功能，则是讯飞作为技术支持，老罗录制+语音合成而形成的语音导航。讯飞通过语音合成技术，提取老罗声音中的特征进行语音合成，为他专门制作一个“个性化音库”，这个相比“方言识别”一类的耕耘，显得更“黑科技”一些。

▲嗯，其实，我想的是，什么时候我的手机里能装这个东西……（电影《Her》）

在首批加入讯飞AI的人中，也有我局成员的身影。未来事务管理局局长姬少亭在讯飞的录音棚里待了足足4小时，成为“讯飞个性化音库”的首批体验者。据说，局长当天录制了上万字的语音素材，而且整个录制过程异常辛苦，不仅需要咬字清晰，语速均匀，而且要“不带感情地读”，以避免成为抑扬顿挫的“朗诵腔”。

至于局长的个性化音库会被做成什么，讯飞方面还没有透露给我局。但我的脑洞是，过两年中国投拍的类似“西部世界”的故事里，没准会有一个美少女形象，提着左轮手枪，用平时熟悉的催稿腔调说出——

“这是我这辈子最爽的两个星期。”

💻

当我们说图灵测试时，我们为啥跑去做Winograd 测试

从《模仿游戏》这部与史诗差别其实蛮大的电影中，许多人认识了阿兰·麦席森·图灵这位计算机与信息技术先驱（当然，也包括津津乐道他的同性恋身份与吃氰化钾苹果自杀的悲惨经历）。

1950年，图灵提出了图灵测试的基本准则：如果一台机器能够与人类展开对话而不能被辨别出其机器身份，那么称这台机器具有智能。具体操作模式是，被试的人类在单盲的情况下提问，由机器作答。如果70%的人类认为无法判断答题者是人还是机器，则认为图灵测试通过。

▲ Alan Mathison Turing, 1912-1954

严格意义上来说，图灵测试更多是哲学层面思维实验，而非严谨的、科学的测试方法。不同提问者的提问策略完全随机，而结果也完全是主观判断。这就让实验产生了很大的随机性。而在云计算和搜索速度飞速发展的时代，统计意义上70%的通过标准，也显得太过宽松了。

甚至很多AI在设计时，会通过一些取巧的方式规避提问策略，从而迷惑主观判断的人。比如，人会对重复的问题产生厌烦，或者对不礼貌的问题拒绝回答。而这些计算机策略会给人。最终，图灵测试从“计算机能否拥有智能”具体化为了“计算机能否骗过提问者”。

而对于人工智能领域，相对来说更具有可操作性，更可量化的测试，即Winograd 测试。它将计算机对语义的理解程度，具体化为“代词消歧义”的正确性。

“爸爸抱不起儿子，因为他太重了。”

“爸爸抱不起儿子，因为他太虚弱了。”

简单举例，上文中两个“他”在任何具有阅读能力的人看来，都有明确的指代——第一句指代儿子，第二句指代父亲。但计算机识别这个代词所指，则需要根据上下文进行常识性判断。当然，这是简单的句子，相当于语文考试前面的拼音送分题。更复杂的句子比如——

“主编发现这篇《不存在日报》里有5个错别字，于是骂了责编一顿。他很愧疚，因为他惹他生气了。他知道他喜欢吃胡萝卜，于是他掏出他的钱包，买了三斤胡萝卜送给他，讨好他一下让他不要再生他的气。”

好的，请指出上面每个“他”分别指谁。大家记住，这是一个鉴别AI的好方法。身边的一个同事耳朵里冒出了青烟，伴着一股焦糊味，估计他的CPU已经烧了。

🕳

Winograd、KBP 与“讯飞超脑”

2016年春，科大讯飞•约克大学联合实验室获得了Winograd Schema Challenge 的世界第一，嗯，鼓掌。

掌声为什么稀稀落落的？因为WSC 以目前全世界的人工智能，还没有人能达到60分及格分。对，即便是在比赛中得到世界第一的讯飞，也没有及格。

这就像你这次数学考试得了全年级第一名，但这次估计是老师错印了大学复变函数的卷子，所有人都没及格。你拿着55分的卷子，要不要回家跟你爹报喜呢？

于是讯飞挠挠头，就低调处理了。

就在几个月之后，一个比Winograd历史更悠久、业界影响力更大，名字也更长的比赛——NIST TAC Knowledge Base Population Entity Discovery and Linking Track，讯飞的两个团队包揽了本届赛事的冠亚军。TAC KBP已经举办了八届，是当前业界影响力最大、参赛队伍最多、水平最高的知识库构建相关比赛。Entity Discover & Linking（实体发现与链接简称EDL）作为KBP比赛的核心任务，要求从中文，英文，西班牙文三语种文本中自动发现实体并连接到知识库上。

至于这个“包揽前两名”的含金量如何，不如看看该赛事的往届参赛者阵容——IBM、卡内基梅隆大学、伦斯勒理工大学、伊利诺伊大学香槟分校等。在人工智能领域，有头有脸的公司、学院和研究机构，都是该赛事的熟面孔。

而讯飞带去的两支队伍，一支由科大讯飞研究院独立参赛，另一支由科大讯飞研究院和加拿大约克大学江辉教授团队联合组队。国内外学者一番通力合作，分别捧回了EDL任务的冠亚军奖杯，顺便刷新了该任务的历史最好记录。实际上，两个团队不只在中文任务上表现出色。还记得比赛是三语种吗？讯飞在英文，西班牙文上的表现也受到了主办方高度赞扬。

嗯，所以这次讯飞终于拿着满分卷子，回家报喜了。

要不是罗永浩屡次在手机发布会上可劲儿安利讯飞，没准很多人现在还不知道这么个做人工智能和智能语音的上市公司。它只是app store 里面几个不起眼的应用图标，一支代码为002230的股票。

说到底，我们试图创造“智能”，但我们对“智能”是什么，仍然没有清晰的定义与边界。AlphaGo 或许能赢过所有的棋手，但它并不真正地“会”下围棋。它只是在努力逼近“会下围棋”的边界而已。

这也是讯飞的目标，2014年，他们推出了“讯飞超脑”计划，计划用更科学的算法，更完善的语义识别，更全面的上下文分析，逼近人类大脑的认知、经验、情绪构建的并行架构。

科大讯飞与中国科大、中科院声学所、中国社科院语言所、哈尔滨工业大学、西藏大学等都成立了联合实验室，在海外也与约克大学联合创建的“讯飞神经计算与深度学习实验室”（iFLYTEK Laboratory For Neural Computing And Machine Learning，简称iNCML）作为科大讯飞在北美洲成立的首个研究机构，该实验室今后将专注于神经计算、深度学习及人工智能领域的研究，这些中国的科技力量将共同来推进人工智能领域前瞻研究。

至于“讯飞超脑”是什么，我也不知道。更高的识别正确率？更准确的语义判断？更丰富的语气和明星语音包？还是，像它所承诺的那样——让机器人真的拥有一颗“能上大学的大脑”？

😀

我们会在什么地方与讯飞相遇？

▲ 电影《月球》中的机器人Gerty，凯文·史派西配音

总之，我就等着讯飞给我做一个Gerty了。至少，是一个听到你说“买三个西红柿，如果有西瓜，就买一个”之后，不会给你买回来一个西红柿的机器人。

人工智能+语音交互，随着硬件水平提升与网络环境优化，已经从几年前的概念，进展到了如今“基本可用”的状态。虽然Siri 偶尔会给你导航3000公里外的加油站吧……

机器码、程序代码、命令行、视窗操作系统、触控屏幕操作与手势操作、简单语音交互，计算机的交互形式正在逐渐向着人类生理与本能的行为不断进步。而讯飞做的工作之一，正是这个环节的最后一步，也是最为复杂的部分——让计算机“理解”，或者在绝大部分时候“理解”人类语言。

更智能的家居，更安全的自动驾驶与泊车系统，更聪明的语音助理，更便捷的操作感应，更符合你心情的音乐算法，用语音安排生活的一切，甚至包括写下这篇《不存在日报》……我们听到了无数次对“万物有灵”智能时代的描述。未来的某一天，所有交互都可以用语音完成，我们可以不用按按钮，点屏幕，而是说一段话后，放心地解放双手，去握住更重要的东西……我们未来的人机交互，或许就是和整个智能的世界，不停地聊天儿。

咦？什么？你说想和机器谈恋爱？为什么总有这么没出息的人……那你要看讯飞对这部分的语义识别有没有优化过了。鉴于人类在恋爱状态下的超低智商状态和套路漫天的对话模式，我倒是觉得《Her》里面的云女友更容易实现。

对于讯飞在未来几年具体怎么飞，嗯，我充满期待。

第一次码完稿子之后，感觉从颈椎和手腕酸痛变成了口干舌燥，哼，都是讯飞语音输入的锅。我拿过我的手机，决定听首歌放松一下。

- Hey, Sing me the song called "Daisy Bell".

- Sorry. I didn't get that.

📝责编：船长

📝作者：高小山，大龄犰狳，性温和，喜床。西坝河畔文字工作者，淡粉色爱的战士。

讯飞，与它承诺给我们的那个万物有灵的未来

猜你喜欢

热点阅读