讯飞,与它承诺给我们的那个万物有灵的未来
编者按:曾经在合肥的时候,该市的朋友总会给我讲些关于中科大的诡异传说——
“哎,你看见没,你得绕着那个楼走,那是核物理所,里面好几个反应堆呢,你手里有个盖革计数器现在指针就狂跳了。”
“知道中科大为什么没放在北京上海,给搁在这么一个二线城市么?中科大物理其实比中科院牛多了,好多国外的实验都得拿过来做。没准哪天加速器突然搞出个黑洞就把合肥给吃了。”
不知真假。
之前对科大唯一的认知是,科大的食堂……实在太好吃,就是没有校园卡吃不了。
直到做手机的罗永浩老师展示了和讯飞语音的合作,我才真正知道了有【科大讯飞】这家其实已经成立了17年的公司。
然而,那时候的认知,也只是以为,讯飞是个做输入法的。
🕹
AlphaGo,其实也是个超级强化版的
看着AlphaGo 干脆利落地结果了李世乭九段,你也跟风转发了朋友圈,四处搜寻复盘分析文章,感叹人工智能即将取人类而代之,拉了《终结者》《黑客帝国》和《西部世界》这样的片单?
其实大可不必。
▲ Google DeepMind 围棋挑战赛,韩国棋手李世乭 vs AlphaGo ▲相似的一幕:1997年5月11日,国际象棋世界冠军卡斯帕罗夫对阵IBM 电脑Deep Blue类似的“人类被机器打败”的担忧,我们远不是第一次见到。1997年,国际象棋历史上最伟大的棋手之一,俄罗斯棋手卡斯帕罗夫以1胜2负3和的总比分败给IBM 电脑“深蓝”。
在棋牌这类可以通过穷举运算的、规则明确的游戏中,摩尔定律让电脑不断倍增的浮点运算能力发挥了最大的作用。而在围棋这种无法简单穷举的策略里,通过更加复杂的概率运算、局面分析和策略学习机制形成复合系统,用来制定最佳的策略。
而让机器如何抛弃纯粹逻辑的底层,真正像人一样思考,或者说,“拟人”地思考,这正是讯飞面对的课题。
🤖
人工智能?抱歉,它们还比较笨
我们常在国外的游行示威里看到这样的对话:
- What do we want?
- Peace!!!
- When do we want it?
- Right now!!!
而AI从业者将其改成了一个笑话,用来讽刺现在自称“人工智能”的语义判断逻辑:
- What do we want?
- Chatbots!
- When do we want them?
- Sorry, I didn't understand that request.
这个笑话,即是讽刺人工智能对于上下文和语义环境不能进行识别,即人工智能领域常说的context——语义、上下文、语境、背景、环境、文化氛围……无数复杂的微信息都融汇在这里。对于context 内容的智能分析,是一个极为复杂的领域。
人类在6岁之前就具备了常识逻辑和基本的判断能力。回想你从6岁到20岁的痛苦求学经历,其实满打满算也就是几块硬盘的知识量,电脑可以轻易地全部掌握。而人类潜意识中并行加工、发散的“常识模式”,却是电脑最难掌握的。我们会直觉地明白“妈妈”的定义,然而你如何用逻辑来解释“妈妈”?这起码得垫几篇伦理学和医学论文吧。
就如同我们经常调戏的Siri 一样。在Siri 的对话库中存在大量的模板。这些模板确定了Siri 对于所有常见问题的反应。这些模板一部分来自于实时的搜索,一部分则是内置的“段子”。这类看似“智能”的AI 助理产品,其实只是通过“语音抓取+模板库”的机制,为你营造日常应用里“智能”的感觉。日常使用里,模板可以cover 掉绝大多数的问题,而如果你存心刁难Siri,它肯定会露出马脚。
道理很简单,套路是不能长久的,云套路也不行。
🎤
语音交互——带上TA的声带
讯飞的突然走红,很大程度要感谢罗永浩老师在发布会上演示的语音输入——完全口语化,几乎0错误率,甚至加入了语气匹配的标点符号。
语音输入的概念并不新鲜。至少在2011年10月,Siri 的正式发布就为全球智能手机用户科普了这一概念。然而在中文识别领域,Siri 一直做的不甚理想,身边不少朋友的Siri 都是英文版本,用以完成上闹钟、叫车和导航等等简单的服务。和别人扯着京片子时突然说Siri,take me to the nearest gas station 也是一件颇为奇怪的事。
讯飞在语音识别领域显然更为“接地气”。除了普通话外,我还在列表里看到了粤语、四川话、河南话、贵州话、客家话等十几种方言。此功能强大到什么程度呢?就是某些同事装了输入法后完全不好好用,只是拿着手机完全当成是方言识别器,天南海北各种会与不会的方言乱说一气,然后戴着耳机露出奇怪的傻笑。
平时,听着uber 司机手机放出的“前方300米出口驶出主路,请并入右侧车道”“前方有限速摄像,请减速慢行”的机械女声,毫无人情味可言,令人不禁怀念曾经车内循环交通广播和不孕不育广告的年代。而罗老师演示的另一个功能,则是讯飞作为技术支持,老罗录制+语音合成而形成的语音导航。讯飞通过语音合成技术,提取老罗声音中的特征进行语音合成,为他专门制作一个“个性化音库”,这个相比“方言识别”一类的耕耘,显得更“黑科技”一些。
▲嗯,其实,我想的是,什么时候我的手机里能装这个东西……(电影《Her》)在首批加入讯飞AI的人中,也有我局成员的身影。未来事务管理局局长姬少亭在讯飞的录音棚里待了足足4小时,成为“讯飞个性化音库”的首批体验者。据说,局长当天录制了上万字的语音素材,而且整个录制过程异常辛苦,不仅需要咬字清晰,语速均匀,而且要“不带感情地读”,以避免成为抑扬顿挫的“朗诵腔”。
至于局长的个性化音库会被做成什么,讯飞方面还没有透露给我局。但我的脑洞是,过两年中国投拍的类似“西部世界”的故事里,没准会有一个美少女形象,提着左轮手枪,用平时熟悉的催稿腔调说出——
“这是我这辈子最爽的两个星期。”
💻
当我们说图灵测试时,我们为啥跑去做Winograd 测试
从《模仿游戏》这部与史诗差别其实蛮大的电影中,许多人认识了阿兰·麦席森·图灵这位计算机与信息技术先驱(当然,也包括津津乐道他的同性恋身份与吃氰化钾苹果自杀的悲惨经历)。
1950年,图灵提出了图灵测试的基本准则:如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。具体操作模式是,被试的人类在单盲的情况下提问,由机器作答。如果70%的人类认为无法判断答题者是人还是机器,则认为图灵测试通过。
▲ Alan Mathison Turing, 1912-1954严格意义上来说,图灵测试更多是哲学层面思维实验,而非严谨的、科学的测试方法。不同提问者的提问策略完全随机,而结果也完全是主观判断。这就让实验产生了很大的随机性。而在云计算和搜索速度飞速发展的时代,统计意义上70%的通过标准,也显得太过宽松了。
甚至很多AI在设计时,会通过一些取巧的方式规避提问策略,从而迷惑主观判断的人。比如,人会对重复的问题产生厌烦,或者对不礼貌的问题拒绝回答。而这些计算机策略会给人。最终,图灵测试从“计算机能否拥有智能”具体化为了“计算机能否骗过提问者”。
而对于人工智能领域,相对来说更具有可操作性,更可量化的测试,即Winograd 测试。它将计算机对语义的理解程度,具体化为“代词消歧义”的正确性。
“爸爸抱不起儿子,因为他太重了。”
“爸爸抱不起儿子,因为他太虚弱了。”
简单举例,上文中两个“他”在任何具有阅读能力的人看来,都有明确的指代——第一句指代儿子,第二句指代父亲。但计算机识别这个代词所指,则需要根据上下文进行常识性判断。当然,这是简单的句子,相当于语文考试前面的拼音送分题。更复杂的句子比如——
“主编发现这篇《不存在日报》里有5个错别字,于是骂了责编一顿。他很愧疚,因为他惹他生气了。他知道他喜欢吃胡萝卜,于是他掏出他的钱包,买了三斤胡萝卜送给他,讨好他一下让他不要再生他的气。”
好的,请指出上面每个“他”分别指谁。大家记住,这是一个鉴别AI的好方法。身边的一个同事耳朵里冒出了青烟,伴着一股焦糊味,估计他的CPU已经烧了。
🕳
Winograd、KBP 与“讯飞超脑”
2016年春,科大讯飞•约克大学联合实验室获得了Winograd Schema Challenge 的世界第一,嗯,鼓掌。
掌声为什么稀稀落落的?因为WSC 以目前全世界的人工智能,还没有人能达到60分及格分。对,即便是在比赛中得到世界第一的讯飞,也没有及格。
这就像你这次数学考试得了全年级第一名,但这次估计是老师错印了大学复变函数的卷子,所有人都没及格。你拿着55分的卷子,要不要回家跟你爹报喜呢?
于是讯飞挠挠头,就低调处理了。
就在几个月之后,一个比Winograd历史更悠久、业界影响力更大,名字也更长的比赛——NIST TAC Knowledge Base Population Entity Discovery and Linking Track,讯飞的两个团队包揽了本届赛事的冠亚军。TAC KBP已经举办了八届,是当前业界影响力最大、参赛队伍最多、水平最高的知识库构建相关比赛。Entity Discover & Linking(实体发现与链接简称EDL)作为KBP比赛的核心任务,要求从中文,英文,西班牙文三语种文本中自动发现实体并连接到知识库上。
至于这个“包揽前两名”的含金量如何,不如看看该赛事的往届参赛者阵容——IBM、卡内基梅隆大学、伦斯勒理工大学、伊利诺伊大学香槟分校等。在人工智能领域,有头有脸的公司、学院和研究机构,都是该赛事的熟面孔。
而讯飞带去的两支队伍,一支由科大讯飞研究院独立参赛,另一支由科大讯飞研究院和加拿大约克大学江辉教授团队联合组队。国内外学者一番通力合作,分别捧回了EDL任务的冠亚军奖杯,顺便刷新了该任务的历史最好记录。实际上,两个团队不只在中文任务上表现出色。还记得比赛是三语种吗?讯飞在英文,西班牙文上的表现也受到了主办方高度赞扬。
嗯,所以这次讯飞终于拿着满分卷子,回家报喜了。
要不是罗永浩屡次在手机发布会上可劲儿安利讯飞,没准很多人现在还不知道这么个做人工智能和智能语音的上市公司。它只是app store 里面几个不起眼的应用图标,一支代码为002230的股票。
说到底,我们试图创造“智能”,但我们对“智能”是什么,仍然没有清晰的定义与边界。AlphaGo 或许能赢过所有的棋手,但它并不真正地“会”下围棋。它只是在努力逼近“会下围棋”的边界而已。
这也是讯飞的目标,2014年,他们推出了“讯飞超脑”计划,计划用更科学的算法,更完善的语义识别,更全面的上下文分析,逼近人类大脑的认知、经验、情绪构建的并行架构。
科大讯飞与中国科大、中科院声学所、中国社科院语言所、哈尔滨工业大学、西藏大学等都成立了联合实验室,在海外也与约克大学联合创建的“讯飞神经计算与深度学习实验室”(iFLYTEK Laboratory For Neural Computing And Machine Learning,简称iNCML)作为科大讯飞在北美洲成立的首个研究机构,该实验室今后将专注于神经计算、深度学习及人工智能领域的研究,这些中国的科技力量将共同来推进人工智能领域前瞻研究。
至于“讯飞超脑”是什么,我也不知道。更高的识别正确率?更准确的语义判断?更丰富的语气和明星语音包?还是,像它所承诺的那样——让机器人真的拥有一颗“能上大学的大脑”?
😀
我们会在什么地方与讯飞相遇?
▲ 电影《月球》中的机器人Gerty,凯文·史派西配音总之,我就等着讯飞给我做一个Gerty了。至少,是一个听到你说“买三个西红柿,如果有西瓜,就买一个”之后,不会给你买回来一个西红柿的机器人。
人工智能+语音交互,随着硬件水平提升与网络环境优化,已经从几年前的概念,进展到了如今“基本可用”的状态。虽然Siri 偶尔会给你导航3000公里外的加油站吧……
机器码、程序代码、命令行、视窗操作系统、触控屏幕操作与手势操作、简单语音交互,计算机的交互形式正在逐渐向着人类生理与本能的行为不断进步。而讯飞做的工作之一,正是这个环节的最后一步,也是最为复杂的部分——让计算机“理解”,或者在绝大部分时候“理解”人类语言。
更智能的家居,更安全的自动驾驶与泊车系统,更聪明的语音助理,更便捷的操作感应,更符合你心情的音乐算法,用语音安排生活的一切,甚至包括写下这篇《不存在日报》……我们听到了无数次对“万物有灵”智能时代的描述。未来的某一天,所有交互都可以用语音完成,我们可以不用按按钮,点屏幕,而是说一段话后,放心地解放双手,去握住更重要的东西……我们未来的人机交互,或许就是和整个智能的世界,不停地聊天儿。
咦?什么?你说想和机器谈恋爱?为什么总有这么没出息的人……那你要看讯飞对这部分的语义识别有没有优化过了。鉴于人类在恋爱状态下的超低智商状态和套路漫天的对话模式,我倒是觉得《Her》里面的云女友更容易实现。
对于讯飞在未来几年具体怎么飞,嗯,我充满期待。
第一次码完稿子之后,感觉从颈椎和手腕酸痛变成了口干舌燥,哼,都是讯飞语音输入的锅。我拿过我的手机,决定听首歌放松一下。
- Hey, Sing me the song called "Daisy Bell".
- Sorry. I didn't get that.
📝责编:船长
📝作者:高小山,大龄犰狳,性温和,喜床。西坝河畔文字工作者,淡粉色爱的战士。