Spark中使用HanLP分词

2018-10-30 本文已影响0人 lanlantian123

1.将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：

root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口：

3.设置IoAdapter，创建分词器：

然后，就可以在Spark的操作中使用segment进行分词了。

文章来源于云聪的博客

上一篇下一篇

猜你喜欢

热点阅读