计算机如何进行中文分词

2020-01-12  本文已影响0人  影重月

阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。

中文分词

问题起因,中文以及一些亚洲语言,词之间没有明确的分界符,目前无法直接进行自然语言处理,需要对句子进行分词后再处理。

分词方法,最简单的方法--查字典(梁教授提出):对句子从左到右扫描,遇到字典中的词就标识,遇到复合词就取字典中最长词匹配,遇到不认识的词就分割成单字。随后,王博士将查字典方法理论化,提出最少词数的分词理论(一句话分成数量最少的词串)。

上述方法的不足之处在于无法解决分词的二义性问题,因此,郭博士提出统计语言模型解决分词的二义性问题。该方法简单来说,就是选择最有可能出现(概率最大)的分词方法。

总的来说,分词问题属于已经解决的问题,并已被应用到西方语言的手写体识别中。

上一篇 下一篇

猜你喜欢

热点阅读