英文分词的关键:词性还原和词干提取

2020-10-20  本文已影响0人  企通查

人工智能时代,能让计算机自动化进行文字语义理解非常重要,因此,进行语义理解的第一步——如何正确地根据语义完成词语切分(即分词)就是一个非常具有挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍。

在上篇文章中,我们讲到了中文分词的相关内容,本文将对英文分词的关键:词性还原和词干提取进行介绍。

——

我们知道,在现代汉语中能够清晰表达完整含义的最小单位是词而不是字,而且在每句话中不存在分隔符。与之相对的,英文单词之间则通过空格来进行分隔,因此在进行英文文本处理时,可以非常容易的通过空格来切分单词。

虽然通过空格就能将句子拆分并获取单词,让英文单词的提取比中文简单的多,但相比较于中文,英文还有一个特有的现象——即单词存在丰富的变形变换。

为了应对这些复杂的变换,英文分词过程相比中文还存在一些独特的处理步骤——词形还原(Lemmatization)和词干提取(Stemming)。

什么是词形还原(Lemmatization)和词干提取(Stemming)

 

词干还原

 

因为英文单词有丰富的单复数、主被动、时态变换等情况,在语义理解时需要将单词“恢复”到原始的形态从而让计算机更方便地进行后续处理。

词形还原不是简单地将前后缀去掉,而是基于词典,将单词的复杂形态转变成最基础的形态。

例如“does,done,doing,did”,需要通过词性还原统一恢复为“do”,方便后续计算机进行语义分析。

英文中也存在一词多义的情况,因此词形还原通常还需要配合词性标注一起进行以确保还原准确度,避免歧义发生。例如calves,即可以作为calf(名词,牛犊)的复数形式,也可以是calve(动词,生育小牛)的第三人称单数。所以词形还原也有两种选择,需要按实际所表示的词性来挑选合适的还原方法。

词干提取

词干提取是英文中另一项独有的处理技术。

在英文中,单词虽然是句子中的基础表义单元,但并非是不可再分的。英文单词内部都是由若干个词素构成的。词素又分为词根和词缀(前缀或后缀),而词根的原形称为词干。例如单词disability,dis-就是表示否定意思的常用前缀,-lity是名词常用后缀,able是表示“能力”的词干,这些词素合并在一起就构成了单词的含义。词干提取是去除单词的前后缀得到词根的过程。

英文的词素种类非常多,提取词素对理解英文单词的含义起着非常重要的作用,例如semiannually这个单词,可能我们并不认识,但通过词素拆分来看:前缀semi-表示“一半”的意思,词干annul表示年,-ly是副词后缀,semiannually这个单词的含义是“每半年进行一次的”。

相比英文,中文里是没有词干的概念的,也无需进行词干提取。但在中文里有一个相近的概念是偏旁部首。和英文中“单词不懂看词干”类似,中文里“汉字不识看偏旁”。例如“猴、狗、猪、猫、狼”这些汉字,显然都是动物名词。当出现汉字“狁”时,即使不认识也能通过部首“犭”猜出这是一个动物名称,且发音类似“允”字。

为什么要做词干提取和词形还原?

举个例子,当我们在搜索“play basketball”时,playing basketball可能也符合我们的查询需求,但对计算机来说,play和 playing 是 2 种完全不同的东西,所以我们需要将 playing 转换成 play。

词干提取和词形还原的目的就是将长相不同,但是含义相同的词统一起来,这样方便后续的处理和分析。

词干提取和词形还原的异同点

1.4个相似点

1)目标一致。词干提取和词形还原的目标均为将词的派生形态简化归并为词干或原形的基础形式,都是对词的不同形态统一归并的过程。

2)结果部分交叉。词干提取和词形还原不是互斥关系,其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。

3)主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则、词典映射来提取词干或获得词的原形。

4)应用领域相似。主要应用于信息检索和文本、自然语言处理等方面。

2.5个不同点

1)原理不同。词干提取主要是采用“缩减”的方法,将词转换为词干,如将“effective”处理为“effect”。而词形还原主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”。

2)复杂度不同。词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。

3)实现方法不同。虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成,其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词。

4)反馈结果不同。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“ailiner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。

5)应用侧重点不同。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,用于扩展检索,粒度较粗。词形还原则更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达。

上一篇下一篇

猜你喜欢

热点阅读