自然语言处理

通过NLTK.tree对stanford nlp parser结

2019-01-07  本文已影响0人  京漂的小程序媛儿

项目需求

将stanford nlp parser结果可视化为tree,然后对tree进行解析,得到每个叶子结点的全路径。

1.stanford nlp parser

结果是str,通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。

2.nltk.tree.Tree

有很多函数可以使用,API查看:http://www.nltk.org/_modules/nltk/tree.html

例如draw()可以将树可视化,label()是该树(当前树木,并不只是原树)的跟结点的值,len(tree)可以得到这棵树的孩子个数(例如二叉树,那孩子个数最多是2)。

3.关于树的遍历

接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处

1.关于左右孩子的访问。

我们传统意义上定义的树有左右孩子结点,如下:

关于tree的定义

这样我们在访问的时候就很简单,用node.left和node.right即可,但怎耐我们要用nltk定义的tree结构啊,所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样,主要是把一些对应的函数给换了,但在这里我就卡了四五个小时。

nltk.tree.Tree数据结构中没有left_child和right_child,而tree[0]就代表第一个孩子,tree[1]就代表第二个孩子,但是在使用之前,防止数组越界访问,我们要先用len(tree)来判断孩子个数。

2.关于叶子结点的判断。

在传统意义上的tree访问时,我们通过判断该node同时没有左右结点来认定其是否是叶子结点,判断条件如下:

node.left is None and node.right is None

但是我们nltk.tree.Tree没有左右结点概念,所以我们可以通过两种方式来判断:

其1:type(node)

当type(node)==str时,说明是叶子结点,否则type一定是nltk.tree.Tree,则不是叶子结点。这一点也是研究了好久才发现。例如:

解析树

上图所示,清华这个node的type就是str,print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree,print的结果是“NR 清华”,就是说它还是一个子树,而叶子结点就是一个str了。这一点困惑了很久,无奈nltk就是这么定义的。当你不明白这一点时,盲目使用node.label()去得到node的值时,就会报错:

'str' object has no attribute 'label'

2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的,因为正如上面所说,当前node是叶子结点时,len(node)得到的是字符串长度,而不是子结点个数。所以还是用第一种方法。

综上,我们给出用stanford nlp解析一段中文,并用nltk可视化,解析,打印其每个叶子结点的全路径的完整代码:(ps:解析树是多叉树,不一定是二叉树,所以用左右结点来定义也不合适。)

# -*- coding: utf-8 -*-

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from stanfordcorenlpimport StanfordCoreNLP

from nltk.treeimport *

def MultiTreePaths(root):

    def helper(root, path, res):

        if type(root)==str:

            res.append(path +str(root))

            return

        l=len(root)

        for I in range(l):

                if len(root)>=i:

                    if root[i]:

                        helper(root[i], path +str(root.label()) +'->', res)

    if root is None:

        return []

    l = []

    helper(root, '', l)

    return l

nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')

sentence ='清华大学位于北京。'

treestring=nlp.parse(sentence)#依存句法分析

tree=Tree.fromstring(treestring)

r=MultiTreePaths(tree)#打印每个叶子结点的全路径

print(r)

tree.draw()#可视化

格式有点乱,截图如下:

stanford nlp+NLTK+tree

运行结果如下:

解析结果

关于树叶子结点的路径打印,参考代码如下:

树的定义以及二叉遍历叶子结点路径

调用:

调用
上一篇下一篇

猜你喜欢

热点阅读