读吴军 |《数学之美》2:从规则到统计
吴军老师是人工智能、语音识别和互联网搜索领域的专家,在《数学之美》中吴老师讲述了数学在互联网技术和人工智能中的应用。
虽然吴老师的写作能力很强、书的可读性很高,但对于一个学文的、还是个学艺术的人来说,理解起来还是有一定难度的,总是需要反复读几遍才能理解大概。
不过,我并不从事这一行业,未来也没有这方面的打算,能够理解大概、扩展一下自己对世界的认知已经足够了。
今天的题目是「从规则到统计」,主角是「自然语言处理」,它是计算机科学领域与人工智能领域的一个重要方向,现在我们生活中的很多方面都可以接触到它的应用,比如说Siri、智能音响、网络翻译等,都是自然语言处理在应用层的体现。
1、语言的数学本质
之前在文中讲到,语言的出现是为了人类之间的通信。
字母、文字和数学实际上是信息编码的不同单位,任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。
我们把一个要表达的意思用一句话说出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。只要对方懂得这门语言,他就可以利用这门语言的解码方法获得这串文字中的信息。
这就是语言的数学本质。
2、早期的鸟飞派
对科技多少有点兴趣的人,对“鸟飞派”这个词应该不陌生,在人类想要飞上蓝天的早期,人们期望通过模仿鸟的飞翔来制造飞机,始终未能如愿,直到乔治·凯利提出空气动力学才迎来了转机。
研究自然语言处理的早期科学家,也经历了类似鸟飞派的弯路,它们试图让计算机通过模仿人的大脑来理解自然语言的含义,结果导致从上世纪50年代到70年代的研究成果几乎为零。
人类学习一门语言靠的语法规则,而真正理解一句话的意思,常常要考虑上下文的意思和常识,而人类的语法规则众多,再加上语言的多义性,这样通过概括文法规则让计算机学会自然语言处理就变的很困难。
总之,计算机通过文法规则只能分析没有上下文的简单句子,否则计算的计算量会大的惊人,而且并不能保证语义的准确。
3、从规则到统计
1970年以后统计语言学的出现让自然语言处理发生了转机,推动这个技术转变的关键人物是弗里德里克·贾里尼克和他领导的IBM华生实验室。
上世纪70年代,贾里尼克为了解决语音识别的问题,用一个简单的统计模型解决了这个问题,他的出发点很简单:一个句子是否合理,不需要再分析语法和语义了,只看它的可能性大小就可以了。
这样,自然语言分析就变成了一个简单的数学问题,一个统计模型——统计语言模型。
关于统计语言模型,我们下回分析……
(未完待续……)
祝春安。