分布式存储

LevelDB 完全解析(6):Filter

2020-05-05  本文已影响0人  linjinhe

前文回顾

Bloom Filter

LevelDB 可以设置通过 bloom filter 来减少不必要的读 I/O 次数。

1970 年,Burton Howard Bloom 在论文 Space/Time Trade-offs in Hash Coding with Allowable Errors 提出了 bloom filter。

BloomFilter

Bloom filter 的实现一般由一个或多个 bitmap 和多个哈希函数组成,可以用于检索一个元素是否在一个集合中。

假设 m 为 bitmap 的长度,n 是元素的总数,k 是哈希函数的个数,则平均每个 key 消耗的内存 bits_per_key = m / n。
对于给定的 bits_per_key,要使误识别率最低,则 k 的取值为 bits_per_key * ln2。<br />
如果我们希望误识别率为 e,则


比如当 e = 0.01 时,可以通过公式简单计算得到 bits_per_key ~= 9.567。也就是说,一个 key 消耗不到 10 bits 就能将误识别率控制在 1% 左右。

具体的数学推导过程可以参考 bloom filter 的维基百科

实现

LevelDB 中的 bloom filter 的实现是 BloomFilterPolicy,它继承了 FilterPolicy 抽象类,实现了两个接口:

  1. CreateFilter - 根据 key 列表创建 filter。
  2. KeyMayMatch - 判断一个 key 是否可能存在。如果 key 存在,一定返回 true。如果 key 不存在,可能返回 true 也可能返回 false。
上一篇下一篇

猜你喜欢

热点阅读