solr安装IK中文分词器

2017-05-24 本文已影响192人先生_吕

solr默认是不支持中文分词的，这样就需要我们手工配置中文分词器，在这里我们选用IK Analyzer中文分词器。
IK Analyzer
下载地址：https://code.google.com/p/ik-analyzer/downloads/list

【安装】
1：解压下载的IKAnalyzer_2012_FF_hf1.zip压缩包，把IKAnalyzer2012FF_u1.jar拷贝到tomcat/webapps/solr/WEB-INF/lib目录下

（如果不用tomcat启动，而是用solr脚本则在此配置）tomcat/webapps/solr-4.10.3/example/solr-webapp/webapp/WEB-INF/lib目录下

2：在solr-4.10.3/example/solr-webapp/webapp/WEB-INF目录下创建目录classes，然后把IKAnalyzer.cfg.xml和stopword.dic拷贝到新创建的classes目录下即可。

3：修改solr core的schema文件，默认是solr-4.10.4/example/solr/collection1/conf/schema.xml,添加如下配置

<fieldType name="text_ik"class="solr.TextField">
   <!--索引时候的分词器-->
    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    <!--查询时候的分词器-->
    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

4：重启tomcat访问solr主页 http://hadoop:8081/solr

不分词：

不分词.png

其他分词：

其他分词.png

IK分词：

IK分词.png

5：自定义词库
（1）修改tomcat/solr/webapp/WEB-INF/classes目录下的IKAnalyzer.cfg.xml配置文件，添加如下配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic;</entry>
        <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">stopword.dic;</entry>
</properties>

（2）新建ext.dic文件，在里面添加如下内容(注意：ext.dic的编码必须是Encodein UTF-8 without BOM,否则自定义的词库不会被识别)

（3）：重启tomcat

2017-05-24_172700.png

solr安装IK中文分词器

猜你喜欢

热点阅读