大数据大数据,机器学习,人工智能大数据 爬虫Python AI Sql

数据驱动的环节

2019-12-31  本文已影响0人  愤怒的谜团

一、数据采集与埋点

作为整个数据驱动环节的第一步,数据采集实施的质量会直接影响到后续环节的产出。目前企业数据的来源主要是线上数据库的数据,还有一个app和pc端产生的流量日志,记录的是用户在产品上的浏览行为。按照数据源来划分数据采集,分别有线上数据库的数据采集,流量日志的数据采集。按照时效性来划分,又有离线数据采集和实时数据采集。

1.1、 线上数据库的数据采集(离线/实时)

其实实施方案有很多种,不同的企业会有不同方法,比如阿里开源的dataX就是一款接入数据源的工具,可以将多种数据库的数据抽取到我们大数据hive当中,当然也有很多其他的方案,比如sqoop,或者企业自研的方案,之前也有分享过对接mysql的binlog,来实现数据源接入的,使用这种方式可以实现数据库数据的实时采集。当然这里就不讨论具体的实施方案了,不管采用哪种方式采集数据,都需要考虑以下几点:
1:是全量抽取还是增量抽取
2:抽取从库的稳定性是需要关注的
3:做好数据采集的质量监控,比如唯一值,数据量阈值等等
4:线上数据库元数据变更,能否及时感应到
5:老分区的数据发生变更,重刷历史分区数据的情况,这个情况在实际是经常发生的,比如一个月前的订单,用户发起评价,这个时候我们就需要更新一个月前分区的数据。
6:数据源的权限管理,因为这一步采集过来的数据,都是最底层的数据,是整个数据建模的基石,其重要不言而喻,所以权限管控非常必要。
7:数据源的生命周期管理
当然要实现以上几点,需要企业有完备的元数据系统,任务调度系统,任务质量监控,还要遵循一定的数据开发标准,这一步也是整个数据治理至关重要的一步。

1.2、流量数据的数据采集(离线/实时)

流量数据天然就具有流式数据的特点,本身就是实时产生的,所以兼具离线和实时采集的方案。说起流量数据,有两个事情不得不提,分别是埋点和event模型。

1.2.1、埋点

埋点这个问题往往是企业老大难的问题,每个企业多多少少都会存在埋点的问题,从实际的实践来看,笔者觉得主要原因是因为这是一个跨多个部门协作的事情,会涉及到前端,后端,BI,数仓工程师,产品等,每个人对埋点的认识都是不一样的,在埋点方案实施的时候,很可能由于标准执行不到位,最后导致埋点质量低下,造成埋点混乱,埋错,漏埋,要知道埋点是数据产生的源头,一旦发生错误,将造成不可逆的结果。而且公司都是比较注重产品的迭代速度,对数据的关注度往往不够,导致数据的建设工作跟着产品迭代走,往往是比较滞后的。

常见的埋点方式如下:

1.2.2、spm(super position model 超级位置模型)埋点

这是一种新型的埋点方式,来源于淘宝页面每个url后面都有带有SPM埋点代码,SPM的组成其实就是x.x.x.x.x.x.x(x一般表示成一个数字),从第一位到最后一位,分别表示应用.业务.页面.子页面.区块.区块位置.区块内icon的id。这样的埋点方式,可以将用户的操作行为精细化到区块的位置点击,非常细致,符合大数据之'细'的要求,方便后续进行多维度,精细化的分析。

1.2.3、event模型

流量数据如何实现结构化,是一个很大的问题,因为产品迭代非常的快,功能也会日趋复杂,所以流量数据应该也要跟数据库的数据一样,以结构化的形式保存起来,event模型就是来解决这个事情的,该模型是事件形式驱动的。笔者对电商领域比较了解,就以电商app举例子,使用event_type来区分事件类型,比如我在APP点击一下,可以使用event_click来表示,页面曝光一次可以使用page_start来表示,每个事件下面也可以使用其他字段来表示不同的属性,比如使用item_id来表示商品,不确定属性,可以单独用一个字段比如kv来表示,该字段是一个json字符串,或者一个map数组。使用event模型有如下好处:

二、数据建模

数据建模这个过程是整个数据驱动的至关重要的一步,完成了数据的采集,采集过来的数据都是一些原始数据,很难被上层应用直接使用起来的,所以需要对数据进行建模,目前国内互联网使用kimball建模方式比较常见(以阿里的onedata体系为主),当然也有其他方式。关于建模这话题(包含维度表和事实表的设计),笔者有其他文章介绍。

三、数据分析方法

基于多维事件模型,会形成一些常见的数据分析方法。在用户行为领域,对这些数据分析方法的科学应用进行理论推导,能够相对完整地揭示用户行为的内在规律。基于此帮助企业实现多维交叉分析,让企业建立快速反应、适应变化的敏捷商业智能决策。接下来我们将为大家逐一介绍常见的数据分析方法。值得强调的是,每一种数据分析方法都针对不同维度的数据研究。各分析模型存在相互依赖的关系,精益数据分析是数据分析方法交叉应用的结果。

3.1、行为事件分析模型

行为事件分析涉及事件、维度和指标三个概念。而事件、维度和指标是可以灵活自定义的。行为事件分析是上节内容讲到的Event实体的可视化展现。在实际分析当中可以将事件和维度作为分组和筛选的条件。行为事件分析法具有强大的筛选、分组和聚合能力,逻辑清晰且使用简单,已被广泛应用。行为事件分析法一般经过事件定义与选择、多维度下钻分析、解释与结论等环节。

例子:我想分析浙江省的男性用户,加购XX牌子衣服的次数,从指标就可以分析出事件:加购,维度:浙江省,男性,XX牌子的衣服,指标:次数。其实维度属性还可以更加丰富,支持更多维度的下钻分析。

3.2、漏斗分析模型

漏斗分析是一套流程分析,它能够科学反映用户的行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。这里需要注意的是,我们跟踪整个漏斗的转化过程,是以用户为单位将步骤串联起来,并不是只把每个步骤的发生次数做一个简单的计数,进入到后续步骤中的用户,一定是完成了所有前序步骤。

3.2.1、漏斗分析模型的特点与价值

对于业务流程相对规范、周期较长、环节较多的流程分析,漏斗分析能够直观地发现和说明问题所在。值得强调的是,漏斗分析模型并非只是简单的转化率呈现,科学的漏斗分析模型能够实现以下价值。

3.2.2、漏斗分析模型属性关联的重要性

何为属性关联,举个简单的例子,用户A浏览了商品A的商详页,但是却加购了商品B,那么这种是不能够算作商详页到加购的转换的。这里的属性关联指的就是商品id,在整个交易漏斗模型的不同层级都要保证是同一个商品id,不然就不能算作是正确的转换。

3.3、留存分析模型

如今互联网获取一个新客成本日趋变高,所以企业将新客发展成自己的粘性用户是至关重要的,即用户的留存率。但是单单看一个当天活跃用户数,这个指标过于粗,无法区分新用户还是老用户,也无法跨多个时间段进行比较。这当然也要根据不同的app单独分析,比如微信月活分析,如果一个用户一个月只登陆25次,那么就认为是低活跃用户了,或者说是易流失用户了,但是淘宝一个月能登陆几次,也算作活跃用户了,因为人们不可能每天都在买东西。

3.3.1、留存分析模型的特点

3.3.2、留存分析模型特点与价值

科学的留存分析模型具有灵活条件配置的特点——根据具体需求筛选初始行为或后续行为的细分维度,针对用户属性筛选合适的分析对象。那么,留存分析有哪些价值呢?

1.留存率是判断产品价值最重要的标准,揭示了产品保留用户的能力。留存率反映的是一种转化率,即由初期不稳定的用户转化为活跃用户、稳定用户、忠诚用户的过程。随着统计数字的变化,运营人员可看到不同时期用户的变化情况,从而判断产品对客户的吸引力。

2.宏观把握用户生命周期长度及定位产品可改善之处。通过留存分析,我们可以查看新功能上线之后,对不同群体的留存是否带来不同效果?判断产品新功能或某活动是否提高了用户的留存率?结合版本更新、市场推广等诸多因素,去除使用频率低的功能,实现快速迭代验证,制定相应的策略。

3.4、分布分析模型

分布分析是用户在特定指标下的频次、总额等的归类展现。它可以展现出单用户对产品的依赖程度,分析客户在不同地区、不同时段所购买的不同类型的产品数量、购买频次等,帮助运营人员了解当前的客户状态,以及客户的运转情况。举个例子,比如XX属性客户,在XX时间段,平均购买的商品数量/平均商品单价等。

3.4.1、分布分析模型的价值

3.5、点击分析模型

从用户的角度出发,当用户面对一个页面,感兴趣的才会点击,那么换个角度来分析,一个页面,有被点击的多的模块,也有被点击的少的模块,其实这就是可以进行优化的地方。点击分析模型,帮助运营人员或管理者评估网页设计的科学性,达到精细化网站运营的目的。结合之间介绍的spm埋点,点击分析模型可以精准到页面中一个区块位置的粒度。

3.5.1、点击分析模型的价值

3.6、页面/区块流量引导交易模型

与交易漏斗模型有点类似,只不过漏斗模型关注的是不同层级之间的转化率,页面/区块流量引导交易模型关注的是不同页面和区块对产生交易的贡献价值。比如用户A浏览了页面A,在页面A加购了该商品,然后下单支付了,最后这个这笔交易就算在页面A上,关于交易的指标有很多,比如交易金额,订单的数量,购买商品的数量等。这种引导属于直接引导,当然还有间接引导。其实这个算法模型比之前的模型都要复杂,关于如何实现这里就不详述了,笔者以后有机会可以单独分享。

3.6.1、页面/区块流量引导交易模型的价值

四:指标体系构建

4.1、第一关键指标法

第一关键指标法的概念出自《精益数据分析》(Lean Analytics )一书,即在企业发展的每个阶段,都有一个当前阶段高于一切、需要集中全部精力注意的一个数据,这个数据就是“第一关键指标”。当然,随着业务的发展,这个指标会发生变化。第一关键指标可外延出更多指标,比如一个成熟的电商平台,第一关键指标一定是销售额,而销售额能够衍生访问量、转化率、客单价,新增会员数等多指标。企业运营人员或产品经理需要通过对衍生指标的优化,来促进第一关键指标的增长。因此,企业应该基于第一关键指标及衍生指标来衡量发展情况。让全企业员工明确当前阶段的核心目标,以此来制定与规划清晰任务。第一关键指标法和绩效管理中的KPI的理念比较接近,就是要寻找当前阶段整个公司最需要关注的指标,以此来集中火力向目标前进。

4.2、海盗指标法

第一关键指标法简单有效,但对于实际的产品运营来说,我们需要全方位地做出监测,这时海盗指标法就派上用场了。海盗指标法分别是Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(营收)和Referral(引荐),简称AARRR。每一环节
都有需要衡量的指标。相比第一关键指标法,海盗指标法的阶段划分更加清晰


海盗指标.png

4.2.1、获取

获取用户,通过各种各样的方式获取到新用户,想一想你每天收到的垃圾短信、垃圾邮件、骚扰电话,虽然这些都不是本意。但是这些都是获取新用户的方式,只是这些方式都不太礼貌而已。
相关的指标:点击率、uv、pv

4.2.2、激活

提升用户活跃度,当我们获取客户之后是需要用户去使用我们的产品,或者参与到产品中来,这里的激活是指用户一定要体验到产品的核心功能,比如如果是电商app的话,则需要下单,如果是视频网站的话,则需要观看视频等,并不是说完成注册就是激活了,没有体验到产品的核心功能的用户,还是很容易流失的。
相关的指标:注册人数、注册量、订阅量、关注人数等

4.2.3、留存

当你在一个app上完成激活以后,时不时的会受到一些消息的推送的,比如XX商品降价了,XX出新款了,这些都是平台为了防止用户流失做的事情。
相关的指标:日活、月活、距离上次登录的时间、流失率、复购率等等

4.2.4、营收

聚集这么多用户在平台上当然是为了要盈利的,只是时间先后。如滴滴、共享单车可以前期直接跨过盈利,疯狂砸钱增加用户量,在形成市场影响力之后再考虑营收的问题。
相关指标:客户终生价值、客单价、购买量、广告点击营收等

4.2.5、引荐

当我们有了第一批用户之后,通过用户进行分享、自传播的方式拓展产品的覆盖人群,进一步增加用户量以提升市场占有率。通过推荐的方式回到第一步形成新用户的引入,周而复始,生生不息。
相关指标:点赞、转发、邀请、分享等

下图是根据海盗指标法划分的每个过程,以及各个过程需要实施的方案:

image.png

参考链接:
1:https://www.growthhk.cn/product/9287.html?mip
2:https://qingzhuti.com/55/
3:《数据驱动:从方法到实践》

上一篇 下一篇

猜你喜欢

热点阅读