日课014|概率、组块与自然语言处理
2018-03-29 本文已影响0人
青蛙杨
晚上摘录《原则》原文,时不时就要输错一个字,非常恼火输入法太不智能了,怎么就不能理解我的意思,然后准确无误地输入呢?
回来想了想,不能怪输入法,因为自然语言处理的方法就是这样的,从来不会去理解一句话的含义,而是更多地依赖统计学,去猜测前后文应该是什么词。
比如 zheng jing xue yuan 这组拼音,有时候我们想表达政经学院,也有时候表达正经学员。一个是物,一个是人,前后文肯定大不相同,让我们人类来处理,一定会阅读前后文然后做判断的对吧?
可机器不这么干。如果只是输入 zheng jing xue yuan,那机器就返回出现频率最高的四个字,也即“政经学院”,换句话说,如何组词,完全根据统计学。当然啦,要是之前在这个输入法里有过历史输入,那也会被计入统计,而且会赋予其一个高权重,下次出现的概率也就越大。
这就是“词”的由来,同时“词”也构成了组块,后续在“理解”句子时,不再需要一个字一个字来处理了,而是变成了组块(词)之间的统计——哪个词更有可能出现在另一个词后面?
当然,真实情况远不止这么简单,首先要面对的是,我怎么知道第一第二个字是一个词,第三第四个字是一个词,而不是第二第三个字是一个词呢?依然是依赖于统计,如果(1,2),(3,4)的出现概率高,那就第一种,否则就是第二种。
总之,目前自然语言处理的方法主要依赖于统计学,所以如果想运用这种技术,记得说话时中规中矩一些,否则可能会出错哦。