ElasticSearch入门玩转大数据大数据 爬虫Python AI Sql

四十、Elasticsearch初识搜索引擎-内置分词器

2017-07-09  本文已影响1099人  编程界的小学生

1、什么是分词器
切分词语,给你一段句子,然后将这段句子拆分成一个个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转单,大小写转换等等),提升recall召回率。

2、什么是normalization?
分词器

3、什么是recall?
召回率,搜索的时候,增加能够搜索到的结果的数量

4、分词相关的几个关键字段解释
(1)character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello</span> --> hello,& --> and,I&you --> I and you等等

(2)tokenizer:分词,hello you and me -->hello,you,and,me

(3)token filter:大小写,去掉无用单词,时态,同义词等,比如:dogs --> dog, liked-->like, Tom-->tom,去掉a/the/an这些无用单词,mother-->mom,small-->little等

一个分词器很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

5、ES内置分词器简单介绍
比如有段话:
Set the shape to semi-transparent by calling set_trans(5)

(1)standard analyzer:标准分词器(默认是这种)
set,the,shape,to,semi,transparent by,calling,set_trans,5

(2)simple analyzer:简单分词器
set, the, shape, to, semi, transparent, by, calling, set, trans

(3)whitespace analyzer:空白分词器。大小写,下划线等都不会转换
Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

(4)language analyzer:(特定语言分词器,比如说English英语分瓷器)
set, shape, semi, transpar, call, set_tran, 5

若有兴趣,欢迎来加入群,【Java初学者学习交流群】:458430385,此群有Java开发人员、UI设计人员和前端工程师。有问必答,共同探讨学习,一起进步!
欢迎关注我的微信公众号【Java码农社区】,会定时推送各种干货:


qrcode_for_gh_577b64e73701_258.jpg
上一篇下一篇

猜你喜欢

热点阅读