日课014|概率、组块与自然语言处理

2018-03-29 本文已影响0人青蛙杨

晚上摘录《原则》原文，时不时就要输错一个字，非常恼火输入法太不智能了，怎么就不能理解我的意思，然后准确无误地输入呢？

回来想了想，不能怪输入法，因为自然语言处理的方法就是这样的，从来不会去理解一句话的含义，而是更多地依赖统计学，去猜测前后文应该是什么词。

比如 zheng jing xue yuan 这组拼音，有时候我们想表达政经学院，也有时候表达正经学员。一个是物，一个是人，前后文肯定大不相同，让我们人类来处理，一定会阅读前后文然后做判断的对吧？

可机器不这么干。如果只是输入 zheng jing xue yuan，那机器就返回出现频率最高的四个字，也即“政经学院”，换句话说，如何组词，完全根据统计学。当然啦，要是之前在这个输入法里有过历史输入，那也会被计入统计，而且会赋予其一个高权重，下次出现的概率也就越大。

这就是“词”的由来，同时“词”也构成了组块，后续在“理解”句子时，不再需要一个字一个字来处理了，而是变成了组块（词）之间的统计——哪个词更有可能出现在另一个词后面？

当然，真实情况远不止这么简单，首先要面对的是，我怎么知道第一第二个字是一个词，第三第四个字是一个词，而不是第二第三个字是一个词呢？依然是依赖于统计，如果（1,2）,（3,4）的出现概率高，那就第一种，否则就是第二种。

总之，目前自然语言处理的方法主要依赖于统计学，所以如果想运用这种技术，记得说话时中规中矩一些，否则可能会出错哦。