elasticsearch玩转大数据elasticsearch

二十五、Elasticsearch向量空间模型算法

2017-07-18  本文已影响77人  编程界的小学生

1、boolean model

类似and这种逻辑操作符,先过滤出包含指定的term的document。

query “hello world” --》过滤--》hello / world / hello & world
bool -》must/must not/should --》过滤--》包含/不包含/可能包含
doc --》不打分数--》 正或反 true or false --> 为了减少后续要计算的doc的数量,提升性能

2、TF/IDF

单个term在doc中的分数

query:hello world --》doc.content

doc1: java is my favourite programming language, hello world !!!
doc2: hello java, you are very good, oh hello world!!!

hello对doc1的评分

TF:term frequency
找到hello在doc1中出现了几次,会根据出现的次数给个分数。
一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

IDF:inversed document frequency
找到hello在所有的doc中出现的次数。
一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

length norm
hello搜索的那个field的长度,field的长度越长,给的相关度评分越低,field长度越短,给的相关度评分越高。

最后会将hello这个term,对doc1的分数,综合TF、IDF、length norm,计算出一个综合性的分数。

hello world--》doc1--》hello对doc1的分数,world对doc1的分数--》但是最后hello world query要对doc1有一个总的分数--》vector space model

3、vector space model

多个term对一个doc的总分数
hello world --》ES会根据hello world在所有doc中的评分情况。计算出一个query vector,query向量

假设:
hello这个term,给的基于所有doc的一个评分是2。
world这个term,给的基于所有doc的一个评分是5。

[2,5]

再假设:
doc vector。3个doc,一个包含1个term,一个包含另一个term,一个包含2个term

doc1:包含hello --》[2,0]
doc2:包含world --》[0,5]
doc3:包含hello world --》[2,5]

会给每一个doc,拿每个term计算出一个分数来,hello有一个分数,world有一个分数,在拿所有term的分数组成一个doc vector

画在一个图中,取每个doc vector对query vector的弧度,给出每个doc对多个term的总分数

Paste_Image.png

每个doc vector计算出对query vector的弧度,最后基于这个弧度给出一个doc相对于query中多个term的总分数,弧度越大,分数越低,弧度越小,分数越高。

如果是多个term,那么就是线性代数来计算,无法用图表示。。。。

若有兴趣,欢迎来加入群,【Java初学者学习交流群】:458430385,此群有Java开发人员、UI设计人员和前端工程师。有问必答,共同探讨学习,一起进步!
欢迎关注我的微信公众号【Java码农社区】,会定时推送各种干货:


qrcode_for_gh_577b64e73701_258.jpg
上一篇 下一篇

猜你喜欢

热点阅读