大数据应用场景-搜索引擎概述

2018-01-07 本文已影响44人 GuangHui

就是如下图所示的三段式结构:

image.png

image.png

此时产生的是正排索引结构,比如:

关于三亚的旅游网页url  -->  三亚,旅游,阳光,沙滩等索引

就是将上面的对应关系进行反转:

三亚    -->  关于三亚的旅游网页url1
旅游    -->  关于三亚的旅游网页url1
阳光    -->  关于三亚的旅游网页url1
沙滩    -->  关于三亚的旅游网页url1

一个索引可以指向多个url网页,所以需要进行合并操作,而合并操作时就涉及到快速判重的问题.

针对大数据量的快速判重这里有一种很好的解决方案就是布隆过滤器(Bloom Filter).

布隆过滤器使用BitMap算法,它由一个很长的二进制向量和一系列随机映射函数组成,可以用于检索一个元素是否在一个集合中.当数据量大且密集时,该方法的空间效率和查询效率都远超一般的算法.

image.png