penn2malt
2016-10-25 本文已影响0人
zenRRan
penn2malt介绍
penn2malt
总的来说,就是把短语句法树转成依存树。


这是终端调用的参数 (上面那个链接描述很详细了):

使用
里面苦恼的应该是找 rule了。不同的标准语句库大致相同,rule也查不到哪里出去。没有的评论我给你。基本长这样:

这是我批处理运行文件内容(windows .bat linux .sh):

其中第一行是我对原语句的处理(如果运行penn2malt不成功的话就得一步一步修改大语料库的细节-------改语料库是真的费劲...) 接下来的是运行penn2malt (3个分别是 训练语句,开发语句,测试语句)
最终每次运行penn2malt就会生成3个文件:

.tab就是生成的依存树文本格式。

理解起来很简单:比如第一列 上海 后面的 2 ,就表示它是依存于第二个词 浦东 的。
0表示根节点也就是中心词
NR N/V-MOD...专业人士都懂,不做解释。
这就是其中一个句子的依存树。
再说一个注意的点: penn2malt 中文语料库是ANXI格式的!我竟然不知道一开始,还弄了一天格式转换和windows linux平台转换。。