clickhouse

clickhouse数据模型之用户路径分析

2020-09-09  本文已影响0人  郭彦超

为什么要有路径分析,举个最简单的例子,你的领导想要知道用户在完成下单前的一个小时都做了什么?绝大多数人拿到这个需求的做法就是进行数据抽样观察以及进行一些简单的问卷调参工作,这种方式不但费时费力还不具有代表性,那么这个时候你就需要一套用户行为路径分析的模型作为支撑,才能快速帮组你找到最佳答案

前言

clickhouse是我见过最完美的OLAP数据库,它不仅将性能发挥到了极致,还在数据分析层面做了大量改进和支撑,为用户提供了大量的高级聚合函数和基于数组的高阶lambda函数。

企业中常用的路径分析模型一般有两种:

关键路径分析

因为我们接下来要通过sequenceCount完成模型的开发,所以需要先来了解一下该函数的使用:

sequenceCount(pattern)(timestamp, cond1, cond2, ...)

该函数通过pattern指定事件链,当用户行为完全满足事件链的定义是会+1;其中time时间类型或时间戳,单位是秒,如果两个事件发生在同一秒时,是无法准确区分事件的发生先后关系的,所以会存在一定的误差。

pattern支持3中匹配模式:

例如,boos要看在会员购买页超过10分钟才下单的用户数据 那么就可以这么写

SELECT 
    count(1) AS c1,
    sum(cn) AS c2
FROM 
(
    SELECT 
        u_i,
        sequenceCount('(?1)(?t>600)(?2)')(toDateTime(time), act = '会员购买页', act = '会员支付成功') AS cn
    FROM app.scene_tracker
    WHERE day = '2020-09-07'
    GROUP BY u_i
)
WHERE cn >= 1

┌──c1─┬──c2─┐
│ 102 │ 109 │
└─────┴─────┘

## c1是满足条件的用户数,c2是满足条件的用户行为总数

根据上面数据可以看出完成支付之前在会员购买页停留超过10分钟的用户有100多个,那么是什么原因导致用户迟迟不肯下单,接下来我们就可以使用智能路径针对这100个用户展开分析,看看他们在此期间都做了什么。

智能路径分析

智能路径分析模型比较复杂,但同时支持的分析需求也会更加复杂,如分析给定期望的路径终点、途经点和最大事件时间间隔,统计出每条路径的用户数,并按照用户数对路径进行倒序排列
虽然clickhouse没有提供现成的分析函数支持到该场景,但是可以通过clickhouse提供的高阶数组函数进行曲线救国,大致SQL如下:

方案一
 SELECT
  result_chain,
  uniqCombined(user_id) AS user_count
FROM (
  WITH
    toDateTime(maxIf(time, act = '会员支付成功')) AS end_event_maxt,  #以终点事件时间作为路径查找结束时间
    arrayCompact(arraySort(  #对事件按照时间维度排序后进行相邻去重
      x -> x.1,
      arrayFilter(  #根据end_event_maxt筛选出所有满足条件的事件 并按照<时间, <事件名, 页面名>>结构返回
        x -> x.1 <= end_event_maxt,
        groupArray((toDateTime(time), (act, page_name)))
      )
    )) AS sorted_events,
    arrayEnumerate(sorted_events) AS event_idxs,  #或取事件链的下标掩码序列,后面在对事件切割时会用到
    arrayFilter(  #将目标事件或当前事件与上一个事件间隔10分钟的数据为切割点
      (x, y, z) -> z.1 <= end_event_maxt AND (z.2.1 = '会员支付成功' OR y > 600),
      event_idxs,
      arrayDifference(sorted_events.1),
      sorted_events
    ) AS gap_idxs,
    arrayMap(x -> x + 1, gap_idxs) AS gap_idxs_,  #如果不加1的话上一个事件链的结尾事件会成为下个事件链的开始事件
    arrayMap(x -> if(has(gap_idxs_, x), 1, 0), event_idxs) AS gap_masks,  #标记切割点
    arraySplit((x, y) -> y, sorted_events, gap_masks) AS split_events  #把用户的访问数据切割成多个事件链
  SELECT
    user_id,
    arrayJoin(split_events) AS event_chain_,
    arrayCompact(event_chain_.2) AS event_chain,  #相邻去重
    hasAll(event_chain, [('pay_button_click', '会员购买页')]) AS has_midway_hit,
    arrayStringConcat(arrayMap(
      x -> concat(x.1, '#', x.2),
      event_chain
    ), ' -> ') AS result_chain  #用户访问路径字符串
  FROM (
    SELECT time,act,page_name,u_i as user_id
    FROM app.scene_tracker
    WHERE toDate(time) >= '2020-09-30' AND toDate(time) <= '2020-10-02'
    AND user_id IN (10266,10022,10339,10030)  #指定要分析的用户群
  )
  GROUP BY user_id
  HAVING length(event_chain) > 1
)
WHERE event_chain[length(event_chain)].1 = '会员支付成功'  #事件链最后一个事件必须是目标事件
AND has_midway_hit = 1   #必须包含途经点
GROUP BY result_chain
ORDER BY user_count DESC LIMIT 20;

实现思路:

image.png
方案二

不设置途经点,且仅以用户最后一次到达目标事件作为参考

 SELECT
  result_chain,
  uniqCombined(user_id) AS user_count 
  FROM (
        select
          u_i as user_id,
          arrayStringConcat(  #获取访问路径字符串
           arrayCompact(   #相邻事件去重
            arrayMap(
              b - > tupleElement(b, 1),
              arraySort(   #对用户事件进行排序得到用户日志的先后顺序
                y - > tupleElement(y, 2),
                arrayFilter(
                  (x, y) - > y - x.2 > 3600  #找到目标节点前1小时内的所有事件   
                  arrayMap(
                    (x, y) - > (x, y),
                    groupArray(e_t),
                    groupArray(time)
                  ), 
                  arrayWithConstant(
                    length(groupArray(time)),
                    maxIf(time, e_t = '会员支付成功')  #设置目标节点
                  )
                )
              )
            )
           ),
          '->'
         ) result_chain
        from
          bw.scene_tracker
        where
          toDate(time) >= '2020-09-30' AND toDate(time) <= '2020-10-02' AND user_id IN (10266,10022,10339,10030)
        group by
          u_i
  ) tab 
  GROUP BY result_chain
  ORDER BY user_count DESC LIMIT 20;

简单说一下上面用到的几个高阶函数:

SELECT arrayJoin([1, 2, 3, 4]) AS data

┌─data─┐
│    1 │
│    2 │
│    3 │
│    4 │
└──────┘
SELECT uniqCombined(data)
FROM 
(
    SELECT arrayJoin([1, 2, 3, 1, 4, 2]) AS data
)

┌─uniqCombined(data)─┐
│                  4 │
└────────────────────┘

SELECT arrayCompact([1, 2, 3, 3, 1, 1, 4, 2]) AS data

┌─data──────────┐
│ [1,2,3,1,4,2] │
└───────────────┘

SELECT arraySort(x -> (x.1), [(1, 'a'), (4, 'd'), (2, 'b'), (3, 'c')]) AS data

┌─data──────────────────────────────┐
│ [(1,'a'),(2,'b'),(3,'c'),(4,'d')] │
└───────────────────────────────────┘

SELECT arrayFilter(x -> (x > 2), [12, 3, 4, 1, 0]) AS data

┌─data─────┐
│ [12,3,4] │
└──────────┘

SELECT 
    a.2,
    groupArray(a.1)
FROM 
(
    SELECT arrayJoin([(1, 'a'), (4, 'a'), (3, 'a'), (2, 'c')]) AS a
)
GROUP BY a.2

┌─tupleElement(a, 2)─┬─groupArray(tupleElement(a, 1))─┐
│ c                  │ [2]                            │
│ a                  │ [1,4,3]                        │
└────────────────────┴────────────────────────────────┘

SELECT arrayEnumerate([1, 2, 3, 3, 1, 1, 4, 2]) AS data

┌─data──────────────┐
│ [1,2,3,4,5,6,7,8] │
└───────────────────┘

SELECT arrayDifference([3, 1, 1, 4, 2]) AS data

┌─data──────────┐
│ [0,-2,0,3,-2] │
└───────────────┘

SELECT arrayMap(x -> concat(toString(x.1), ':', x.2), [(1, 'a'), (4, 'a'), (3, 'a'), (2, 'c')]) AS data

┌─data──────────────────────┐
│ ['1:a','4:a','3:a','2:c'] │
└───────────────────────────┘

SELECT arraySplit((x, y) -> y, ['a', 'b', 'c', 'd', 'e'], [1, 0, 0, 1, 0]) AS data

┌─data──────────────────────┐
│ [['a','b','c'],['d','e']] │
└───────────────────────────┘

## 遇到下标为1时进行分割,分割点为下一个 数组的起始点;注意,首项为1还是0不影响结果
SELECT has([1, 2, 3, 4], 2) AS data

┌─data─┐
│    1 │
└──────┘
SELECT hasAll([1, 2, 3, 4], [4, 2]) AS data

┌─data─┐
│    1 │
└──────┘

 --- 

SELECT hasAll([1, 2, 3, 4], [0, 2]) AS data

┌─data─┐
│    0 │
└──────┘

SELECT arrayStringConcat(['a', 'b', 'c'], '->') AS data

┌─data────┐
│ a->b->c │
└─────────┘

SELECT arrayWithConstant(4, 'abc') AS data

┌─data──────────────────────┐
│ ['abc','abc','abc','abc'] │
└───────────────────────────┘

【相关文章】

clickhouse数据模型之留存分析

clickhouse数据模型之用户路径分析

clickhouse数据模型之有序漏斗分析

clickhouse数据模型之session分析

上一篇 下一篇

猜你喜欢

热点阅读