solr安装IK中文分词器

2017-05-24  本文已影响192人  先生_吕

solr默认是不支持中文分词的,这样就需要我们手工配置中文分词器,在这里我们选用IK Analyzer中文分词器。
IK Analyzer
下载地址:https://code.google.com/p/ik-analyzer/downloads/list

【安装】
1:解压下载的IKAnalyzer_2012_FF_hf1.zip压缩包,把IKAnalyzer2012FF_u1.jar拷贝到tomcat/webapps/solr/WEB-INF/lib目录下

(如果不用tomcat启动,而是用solr脚本则在此配置)tomcat/webapps/solr-4.10.3/example/solr-webapp/webapp/WEB-INF/lib目录下

2:在solr-4.10.3/example/solr-webapp/webapp/WEB-INF目录下创建目录classes,然后把IKAnalyzer.cfg.xml和stopword.dic拷贝到新创建的classes目录下即可。

3:修改solr core的schema文件,默认是solr-4.10.4/example/solr/collection1/conf/schema.xml,添加如下配置

<fieldType name="text_ik"class="solr.TextField">
   <!--索引时候的分词器-->
    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    <!--查询时候的分词器-->
    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

4:重启tomcat访问solr主页 http://hadoop:8081/solr

不分词:

不分词.png

其他分词:

其他分词.png

IK分词:

IK分词.png

5:自定义词库
(1)修改tomcat/solr/webapp/WEB-INF/classes目录下的IKAnalyzer.cfg.xml配置文件,添加如下配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic;</entry>
        <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">stopword.dic;</entry>
</properties>

(2)新建ext.dic文件,在里面添加如下内容(注意:ext.dic的编码必须是Encodein UTF-8 without BOM,否则自定义的词库不会被识别)

(3):重启tomcat

2017-05-24_172700.png
上一篇下一篇

猜你喜欢

热点阅读