NLTK之文本结构解析

2019-04-29 本文已影响0人 writ

文本结构解析

1.1 CFG || PCFG（概率性上下文无关语法）

浅解析（shallow parsing）是一种面向给定文本的，对其语法信息部分所进行的有限解析任务适用于信息提取和文本挖掘之类的应用
深解析（deep parsing）是一种适合于对话系统和文本综述之类的应用

1.2 两种解析方法

基于规则的方法：该方法包含了CFG和基于表达式的解析器的自上而下的利用规则和语法来进行文本分析的方法。该方法需要利用语法概念编撰语法规则手册。
基于概率的方法：该方法包含了PCFG和Stanford解析器的自下而上的利用概率模型来学习规则和语法的文本分析方法。该方法主要利用所观测到的语言特征出现的概率来分析。

1.3 解析原因

词性标注的目的就是让我们知道给定单词所属的类别；
语法解析器会有一定的机率在语法上形成一些毫无意义的句子。

1.4 不同的解析器类型

递归下降解析器自上而下的处理过程
移位-归约解析器自下而上的解析器
图表解析器动态规划保存中间结果然后在适当时候重新启用它们，以提高效率
正则表达式解析器在完成词性标注的字符串之上构建而成的；该解析器将使用这些正则表达式来解析给定的句子，并为它们生成相应的解析树。

1.5 依存性文本解析（DP）

DP的主要概念是将各个语法单元用定向链路串联起来，这些链路称为语法上的依存关系。

1.6 语块分解

名词短语（NP）动词短语（VP）

1.7 信息提取

屏幕快照 2019-05-02 下午21.44.40 下午.png

1.命名实体识别（NER）
2.关系提取