再次学习ES--3--查询DSL

2018-12-06 本文已影响0人 lionel880

说一千，道一万，我们最终使用ES还是要使用es的查询功能

1 Lucene是如何评分的

文档得分，就是文档和查询匹配的程度，Lucene的默认评分机制是 TF/IDF（词频/逆文档频率）算法
不管什么评分机制，最基本的因子在底层是不变的
评分因子有：
文档权重（document boost），字段权重（field boost），协调因子（coord），逆文档频率（inverse document frequency），长度范数（length norm），词频（term frequency）查询范数（query norm）
比较容易理解的概念有文档权重，字段权重
其他几个需要一定的理解

协调因子（coord）：基于文档中词项命中个数的协调因子，一个文档命中了查询中的词项越多，得分越高
逆文档频率（inverse document frequency）：一个基于词项的因此，用来告诉评分公式，该词项是多么的罕见，频率越低，越罕见，这样公式可以通过此因子对罕见词项的文档进行加权
长度范数（length norm）：在索引期计算得基于词项个数的归一化因子，词项越多，因子权重越低，即Lucene更喜欢包含更少词项的字段
词频（term frequency）;基于词项的因子,词频越高，得分越高
查询范数（query norm）：基于查询的归一化因子，词项权重的平方和，让不同查询的得分可以互相比较，但通常是困难且不可行的

2.TF/IDF评分公式

忽略理论，直接看实际的公式
score(q,d) =queryNorm(q) · coord(q,d)
· ∑ ( tf(t in d) · idf(t)² · t.getBoost()· norm(t,d) )
(t in q)

3.查询改写

参考文档《深入理解ElasticSearch》，当时是根据版本0.9写的书，很多东西可能过时了，但我觉得这些查询改写等思想，其实是后续版本优化对人不可见了。本质上并没有变
查询改写就是出于性能的考虑，对查询进行优化，把原始的查询改写为性能更高的查询类型

4.关于缓存

ES的缓存，有索引级和节点级，由于分片的存在，因此索引级的缓存不建议，默认是节点级

ES的缓存主要分为过滤缓存和字段数据缓存

过滤缓存
缓存的配置主要包括容量，过期时间，淘汰策略等
字段数据缓存
这个就是ES设计字段数据排序或切面计算时使用，ES做的就是加载相关字段全部数据到内存中。但这非常消耗性能，尤其是某个字段拥有大量不同的词项

但字段缓存支持过滤功能，以减轻硬件负担
过滤策略主要有3种：基于词频，基于正则表达式以及两者的组合。这些是在创建mapping的时候指定的字段属性

词频：基于词频过滤的结果是指加载哪些高于指定频率的词项，太低频率的词项过滤结果就不缓存了
实际举例：tag字段保存文档数不小于100的索引段，且词频在0.01到0.2之间

"book":{
"properties":{
"tag":{
 "type":"string",
 "fielddate":{
  "fielter":{
  "frenquency":{
  "min":"0.01",
  "max":"0.2",
"min_segment_size":100
}}}}}}

再次学习ES--3--查询DSL

1 Lucene是如何评分的

2.TF/IDF评分公式

3.查询改写

4.关于缓存

猜你喜欢

热点阅读