通过NLTK.tree对stanford nlp parser结

2019-01-07 本文已影响0人京漂的小程序媛儿

项目需求

将stanford nlp parser结果可视化为tree，然后对tree进行解析，得到每个叶子结点的全路径。

1.stanford nlp parser

结果是str，通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。

2.nltk.tree.Tree

有很多函数可以使用，API查看：http://www.nltk.org/_modules/nltk/tree.html

例如draw()可以将树可视化，label()是该树(当前树木，并不只是原树)的跟结点的值，len(tree)可以得到这棵树的孩子个数(例如二叉树，那孩子个数最多是2)。

3.关于树的遍历

接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处：

1.关于左右孩子的访问。

我们传统意义上定义的树有左右孩子结点，如下：

关于tree的定义

这样我们在访问的时候就很简单，用node.left和node.right即可，但怎耐我们要用nltk定义的tree结构啊，所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样，主要是把一些对应的函数给换了，但在这里我就卡了四五个小时。

nltk.tree.Tree数据结构中没有left_child和right_child，而tree[0]就代表第一个孩子，tree[1]就代表第二个孩子，但是在使用之前，防止数组越界访问，我们要先用len(tree)来判断孩子个数。

2.关于叶子结点的判断。

在传统意义上的tree访问时，我们通过判断该node同时没有左右结点来认定其是否是叶子结点，判断条件如下：

node.left is None and node.right is None

但是我们nltk.tree.Tree没有左右结点概念，所以我们可以通过两种方式来判断：

其1:type(node)

当type(node)==str时，说明是叶子结点，否则type一定是nltk.tree.Tree，则不是叶子结点。这一点也是研究了好久才发现。例如：

解析树

上图所示，清华这个node的type就是str，print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree，print的结果是“NR 清华”，就是说它还是一个子树，而叶子结点就是一个str了。这一点困惑了很久，无奈nltk就是这么定义的。当你不明白这一点时，盲目使用node.label()去得到node的值时，就会报错：

'str' object has no attribute 'label'

2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的，因为正如上面所说，当前node是叶子结点时，len(node)得到的是字符串长度，而不是子结点个数。所以还是用第一种方法。

综上，我们给出用stanford nlp解析一段中文，并用nltk可视化，解析，打印其每个叶子结点的全路径的完整代码：（ps:解析树是多叉树，不一定是二叉树，所以用左右结点来定义也不合适。）

# -*- coding: utf-8 -*-

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from stanfordcorenlpimport StanfordCoreNLP

from nltk.treeimport *

def MultiTreePaths(root):

def helper(root, path, res):

if type(root)==str:

res.append(path +str(root))

return

l=len(root)

for I in range(l):

if len(root)>=i:

if root[i]:

helper(root[i], path +str(root.label()) +'->', res)

if root is None:

return []

l = []

helper(root, '', l)

return l

nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')

sentence ='清华大学位于北京。'

treestring=nlp.parse(sentence)#依存句法分析

tree=Tree.fromstring(treestring)

r=MultiTreePaths(tree)#打印每个叶子结点的全路径

print(r)

tree.draw()#可视化

格式有点乱，截图如下：

stanford nlp+NLTK+tree

运行结果如下：

解析结果

关于树叶子结点的路径打印，参考代码如下：

树的定义以及二叉遍历叶子结点路径

调用：

调用

通过NLTK.tree对stanford nlp parser结

项目需求

1.stanford nlp parser

2.nltk.tree.Tree

3.关于树的遍历

猜你喜欢

热点阅读