数据去重方法

2018-09-01  本文已影响71人  努力护肤的程序媛

根据原理主要可以分为两类:循环和哈希。

循环

以python为例,比如可以用for循环、也可以利用python的内置函数reduce特性实现去重。
python的内置函数reduce能对序列中的数据实现累积。reduce的参数有两个,一个是一个函数,一个序列,reduce函数首先是对元素中的第一个元素、第二个元素利用传入的函数进行操作,再将获得的结果与第三个元素进行操作,以此类推,最后,获得结果。

image

哈希

哈希函数是指可以将任意大小的数据转换成特定大小的数据的函数,转换后的数据成为哈希值或哈希编码。
由于哈希表消耗的内存很大,当数据量非常大的时候就无法使用它来去重。因此就出现了布隆过滤器(bloom filter)。

上一篇 下一篇

猜你喜欢

热点阅读