Solr学习笔记(三):分词

2016-11-14  本文已影响202人  63e29c663713

Analyzer(分析器)

https://cwiki.apache.org/confluence/display/solr/Understanding+Analyzers,+Tokenizers,+and+Filters

分词器就是将句子分成单个的词,过滤器就是对分词的结果进行筛选,例如中文中将“的”“呀”这些对句子主体意思影响不大的词删除,英语中类似的就是"is","a"等等。

分析器包括两个部分:tokenizer(分词器)和filter(分词过滤器,它们将按照所列的顺序发生作用)。for example:

<fieldType name="text_ik_analysis" class="solr.TextField" sortMissingLast="true"  omitNorms="true" autoGeneratePhraseQueries="false">
        <analyzer type="index">
                <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
                <filter class="solr.LengthFilterFactory" min="2" max="20" />
                <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        </analyzer>
        <analyzer type="query">
               <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
               <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
               <filter class="solr.LengthFilterFactory" min="2" max="20" />
               <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        </analyzer>
</fieldType>

Tokenizer(分词器)

常见的分词器有:

Filter(过滤器)

常见的过滤器:

上一篇下一篇

猜你喜欢

热点阅读