redis HyperLogLog 结构
2021-12-11 本文已影响0人
行万里路GOGO
Redis HyperLogLog 是用来做基数统计的算法,它的优点是 在输入元素的数量或者体积非常大时,计算基数所需的空间总是固定的且很小的。
每个 HyperLogLog 键只需要花费12KB内存,就可以计算接近 2的64次方个不同元素的基数。
HyperLogLog 只会根据输入元素来计算基数,不会储存输入元素本身。
(1)什么是基数?
一个集合中不重复元素的个数。
例如: 数据集{1,3,5,7,5,7,8} ,它的基数集为 {1,3,5,7,8} , 基数为5
(2)php redis HyperLogLog 操作示例
1. pfAdd - 添加指定元素到 HyperLogLog 中
//成功时返回1,失败返回0
$redis->pfAdd('pkey', [1,3,5,7,5,7,8]);
2. pfCount - 返回给定 HyperLogLog 的基数估算值
// 成功时返回基数; 如果键不存在返回0
$count = $redis->pfCount('pkey');
3. pfMerge - 将多个 HyperLogLog 合并为一个 HyperLogLog
$redis->pfAdd('pkey2', [1,3,5,7,5,7,8]);// 5
$redis->pfAdd('pkey3', [11,12,13,14,15]); // 5
$redis->pfMerge('pk', ['pkey', 'pkey2', 'pkey3']);
$count = $redis->pfCount('pk'); // 返回10
(3)应用场景
用于计算日活、7日活、3月活
思路:
使用 `pfAdd` 命令把 ip 信息(或用户id)按天添加入 Redis HpyerLogLog 中,计算某一天的日活时 执行`pfCount` 操作就可以了。
每个月的第一天执行 pfMerge
将上一个月的所有数据合并成一个 HyperLogLog