第四章 谈谈分词

2019-01-08  本文已影响0人  Chasingcar_501

1.中文分词方法的演变
“查字典”:把句子从左至右扫描一遍,遇到字典里有的就标识出来,遇到复合词就找到最长的词匹配,遇到不认识的就分割成单字词。这个简单方法可以解决七八成分词问题,但是遇到稍复杂的问题就无能为力了。
“查字典”优化:一句话应分成数量最少的词串。但是当遇到有二义性的分割就没办法了。另外,并非所有的最长匹配都一定正确。
利用统计语言模型分词的方法:不同的分词方法结果可能会产生不同数量的词串,最好的分词方法应该保证分完词后这个句子出现的概率最大,因此只要找到概率最大的就能找到最好的分词方法。
2.如何衡量分词的结果
运用了统计语言模型后,不同的分词产生的结果差异远小于不同的人之间的差异,这时简单的依靠人工分词的结果比较来衡量分词器的准确性就很难。
只要运用统计语言模型,效果都差不到哪里去,提高的空间微乎其微而且要耗费巨大成本。
人工分词的不一致性主要在于人们对词的颗粒度认识问题。
针对不同的应用,我们可以构造不同的分词器,但这样不仅浪费且没必要。更好的做法是让一个分词器同时支持不同层次的词的切分,也就是说“清华大学”既可以被看成一个整体也可以被切开,然后由不同的应用自行决定切分的粒度。

上一篇下一篇

猜你喜欢

热点阅读