大数据相关

学习《文本分析》之分词、词性标注及语法树

2019-01-11  本文已影响2人  oneape15

前提概述

上一章我们讲了一些文本分析中一些基本概念,如果未看过的点击这里,了解一下文本分析涉及到的一些技术和方法。

句子的切分和分词

为了对文本进行分析,我们首先需要把文本切分成一个一个的句子。完成这个功能的软件叫着切分器(Sentence Detector,也叫Chunker)。然后我们要把句子进行分词,完成该功能的软件叫分词器(Tokenizer)

词性标注

词性标注(Part-of-Speech Tagger, 简称POS Tagger)软件分析某种语言的文本,然后针对每个词赋予POS标记。比如名词、动词、形容词等。
这里以斯坦福大学开源的POS Tagger(Stanford Log-linear POS Tagger)为例,它使用了条件对数线性模型(Conditional Loglinear Model)实现词性的标注。这个软件已经为英语训练好了词性标注模型,还提供了阿拉伯语、中文、法语、德语等语言的词性标注模型。

语法树

在自然语言处理中,语法解析器(Parser)接收语句,并且对句子的语法结构进行分析,输出语法解析树(Parser Tree). Parser首先对句子的文本进行分词,然后进行POS标注(POS tagging)。
根据POS标注结果以及句子成分信息,构建句子的语法解析树。
比如句子:I ran into Tom and Jack and then we went shopping. 解析成一棵语法树如下图:


语法树

实现语法树分析的具体技术包括:

上一篇下一篇

猜你喜欢

热点阅读