通过NLTK.tree对stanford nlp parser结
项目需求
将stanford nlp parser结果可视化为tree,然后对tree进行解析,得到每个叶子结点的全路径。
1.stanford nlp parser
结果是str,通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。
2.nltk.tree.Tree
有很多函数可以使用,API查看:http://www.nltk.org/_modules/nltk/tree.html
例如draw()可以将树可视化,label()是该树(当前树木,并不只是原树)的跟结点的值,len(tree)可以得到这棵树的孩子个数(例如二叉树,那孩子个数最多是2)。
3.关于树的遍历
接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处:
1.关于左右孩子的访问。
我们传统意义上定义的树有左右孩子结点,如下:
关于tree的定义这样我们在访问的时候就很简单,用node.left和node.right即可,但怎耐我们要用nltk定义的tree结构啊,所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样,主要是把一些对应的函数给换了,但在这里我就卡了四五个小时。
nltk.tree.Tree数据结构中没有left_child和right_child,而tree[0]就代表第一个孩子,tree[1]就代表第二个孩子,但是在使用之前,防止数组越界访问,我们要先用len(tree)来判断孩子个数。
2.关于叶子结点的判断。
在传统意义上的tree访问时,我们通过判断该node同时没有左右结点来认定其是否是叶子结点,判断条件如下:
node.left is None and node.right is None
但是我们nltk.tree.Tree没有左右结点概念,所以我们可以通过两种方式来判断:
其1:type(node)
当type(node)==str时,说明是叶子结点,否则type一定是nltk.tree.Tree,则不是叶子结点。这一点也是研究了好久才发现。例如:
解析树上图所示,清华这个node的type就是str,print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree,print的结果是“NR 清华”,就是说它还是一个子树,而叶子结点就是一个str了。这一点困惑了很久,无奈nltk就是这么定义的。当你不明白这一点时,盲目使用node.label()去得到node的值时,就会报错:
'str' object has no attribute 'label'
2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的,因为正如上面所说,当前node是叶子结点时,len(node)得到的是字符串长度,而不是子结点个数。所以还是用第一种方法。
综上,我们给出用stanford nlp解析一段中文,并用nltk可视化,解析,打印其每个叶子结点的全路径的完整代码:(ps:解析树是多叉树,不一定是二叉树,所以用左右结点来定义也不合适。)
# -*- coding: utf-8 -*-
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from stanfordcorenlpimport StanfordCoreNLP
from nltk.treeimport *
def MultiTreePaths(root):
def helper(root, path, res):
if type(root)==str:
res.append(path +str(root))
return
l=len(root)
for I in range(l):
if len(root)>=i:
if root[i]:
helper(root[i], path +str(root.label()) +'->', res)
if root is None:
return []
l = []
helper(root, '', l)
return l
nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')
sentence ='清华大学位于北京。'
treestring=nlp.parse(sentence)#依存句法分析
tree=Tree.fromstring(treestring)
r=MultiTreePaths(tree)#打印每个叶子结点的全路径
print(r)
tree.draw()#可视化
格式有点乱,截图如下:
stanford nlp+NLTK+tree运行结果如下:
解析结果关于树叶子结点的路径打印,参考代码如下:
树的定义以及二叉遍历叶子结点路径调用:
调用