学习《文本分析》之分词、词性标注及语法树

2019-01-11 本文已影响2人 oneape15

前提概述

上一章我们讲了一些文本分析中一些基本概念，如果未看过的点击这里，了解一下文本分析涉及到的一些技术和方法。

句子的切分和分词

为了对文本进行分析，我们首先需要把文本切分成一个一个的句子。完成这个功能的软件叫着切分器（Sentence Detector，也叫Chunker）。然后我们要把句子进行分词，完成该功能的软件叫分词器（Tokenizer）

词性标注

词性标注（Part-of-Speech Tagger, 简称POS Tagger)软件分析某种语言的文本，然后针对每个词赋予POS标记。比如名词、动词、形容词等。
这里以斯坦福大学开源的POS Tagger(Stanford Log-linear POS Tagger)为例，它使用了条件对数线性模型(Conditional Loglinear Model)实现词性的标注。这个软件已经为英语训练好了词性标注模型，还提供了阿拉伯语、中文、法语、德语等语言的词性标注模型。

语法树

在自然语言处理中，语法解析器(Parser)接收语句，并且对句子的语法结构进行分析，输出语法解析树(Parser Tree). Parser首先对句子的文本进行分词，然后进行POS标注(POS tagging)。
根据POS标注结果以及句子成分信息，构建句子的语法解析树。
比如句子：I ran into Tom and Jack and then we went shopping. 解析成一棵语法树如下图：

语法树

实现语法树分析的具体技术包括：

概率型上下文无关语法分析技术（PCFG - Probabilistic Context-Free Grammar）
移位归约语法分析技术（Shift-Reduce Constituency Parser）;
基于神经网络的语法分析技术（Neural Network Dependency Parser);
以上的这些技术已经非常成熟，都能够获得准确的分析结果。

学习《文本分析》之分词、词性标注及语法树

前提概述

句子的切分和分词

词性标注

语法树

猜你喜欢

热点阅读