产品经理数据分析入门指南
转载至杜小龙
这篇文章一共会分为四个部分进行讲解。
认识数据通过这部分我们可以知道什么是数据,数据与产品之间的关系等。
获取数据这里我们可以了解到一些数据指标的含义,获取数据的常用工具以及常见网站的核心数据指标的确立。
分析数据这部分我们可以了解到一些基本数据分析的方法,以及使用数据时需要注意的事项。
利用数据这里我们可以知道在做产品的时候,使用数据的一些场景和利用数据驱动产品的思维方式。
一、认识数据
1.1 什么是数据?
简单来说数据是一种量化事物的手段,就像身高、体重、三围一样,它们都是一个数字指标,代表了事物现实存在的客观情况。
数据最大的特征就是客观性,无论我们是否触碰它,它就在那里。在面对海量数据的时候,身为产品经理的我们要更像一个「求知者」,如果我们希望在数据中找到答案,我们更应该带着一个「求证」的态度去读取,去分析,去解读。
1.2 数据与产品的关系
数据可以用来帮助我们验证产品假设是否正确,也可以帮助我们发现产品的问题。
通常情况下,一个完整的数据需求包括:
功能设计方案
功能目的和目标
功能上线后需要跟踪的数据指标
这里举个例子说明下,网站注册流程功能的数据统计需求:
注册流程的完整方案设计文档
做这个功能的意义:让所有新用户快速完成注册流程,并正确提供所需要的个人信息
所需指标及定义。围绕2中的目标,设计所需要的数据指标,思考哪些数据指标,可以描述目标完成情况;比如:每一个注册环节的用户跳出率,每一个注册填写字段的出错率,各类注册错误的出现频次分布等。
二、获取数据
2.1 网站的数据指标与分析工具
2.1.1 数据获取工具
免费的网站排名工具:Alexa、中国网站排名、网络媒体排名免费的网站检测工具:Google Analytics、百度统计、CNZZ网站分析
2.1.2 关键指标
访问量访问量就是 一段时间的访问量就是这段时间的内的会话次数。什么是会话,如下图:
访客数也称独立访客数(UV),就是访问网站的人数。
如何识别一个用户?
在网站分析系统中,会依据用户的浏览器,设备型号等信息为用户分配一个编号,这个编号称为Cookie。访客数就是访问网站的Cookie数。如果同一个人换了浏览器或者设备访问网站,那么它的Cookie也发生了变化。
浏览量常被称为PV(PageViews),就是浏览页面的数量。
页面停留时长访客一次访问在某个页面的停留时间。计算方法:页面停留时长 = 这个页面的总停留时长 / 这个页面的访问量
网站停留时长访客一次会话的时间长度计算方法:网站停留时长 = 网站的总停留时长 / 网站的访问量
跳出率网站的所有会话中,来到网站之后没有任何动作就离开的比例。计算方法:跳出率 = 只访问了落地页面的访问量 / 总访问量
退出率无论从哪个页面进入网站,最终从这个页面退出的比例。计算方法:退出率 = 从一个页面的退出次数 / 总访问量
转化率计算方法:转换率 = 达成某种目标的访问量 / 总访问量
2.1.3 对网站的宏观分析
网站的数据有很多,我们可以通过先对网站进行宏观的分析对网站有个大体的把握,避免一上来就陷入数据的细节中,通常我们可以通过回答以下几个问题来大体的了解网站:
有多少访客访问网站,访问深度怎么样?查看「受众群体」概览页来了解网站的访客数和访问深度。
这些访客从哪里来,以及效果怎么样?查看「流量获取」的概览页来了解网站的流量从哪里来。一般有:引荐网站、直接进入、自然搜索、付费搜索、付费流量广告
访客在网站上做了什么?查看流量最大的着陆页的相关数据,着重优化,降低跳出率;查看流量最大的页面的相关数据,并与预期相比,发现差异;查看页面点击热图;查看主要流程的转化漏斗。
2.2 移动应用类数据指标
2.2.1 数据获取工具
国外分析工具
国内分析工具
Crash分析工具
2.2.2 关键指标
用户获取
下载量
安装激活量
激活率
新增用户数
用户获取成本
用户活跃与参与
数量指标
日活跃用户数
月活跃用户数
质量指标
活跃系数它等于:活跃用户数 / 月活跃用户数
平均使用时长
功能使用率使用某功能的用户数占活跃用户数的比例
用户留存率
次日留存率
7日留存率
30日留存率
用户转化
付费用户比例付费用户占免费用户的比例,建议将付费用户和免费用户区别对待,因为他们在行为上差异挺大的。
首次付费时间用户激活多久后才会开始付费。
用户平均每月营收一个月的收入除以月活跃用户数
付费用户平均每月营收一个月的收入除以月付费用户数
获取收入
收入金额
付费人数
2.2.3 版本迭代时,如何利用以上指标去评估版本迭代的效果?
注:在利用指标去评估版本迭代的效果时,尽量使用新用户的数据,因为老用户会存在忠诚度等因素影响数据。
我们在评估新版本的迭代的效果时,可以看以下几个数据指标
新用户的留存率新版本发布后,新版本发布前14天内的新用户次日留存率。留存数据整体提高,表明移动端版本迭代的效果较好。
核心功能的使用率同比:旧版本发布后14天环比:新版本发布前14天通过同比和环比14天的数据观察核心功能的使用率是否有提升。
新功能的使用率,继续使用率和新功能的核心贡献在新的版本中,增加了功能A
需要查看功能A的使用率
功能A的继续使用率
功能A的核心贡献:使用过功能A的听歌人数比例 - 未使用过功能A的听歌人数比例
通过观察以上指标基本上就可以大概的判断这个版本改版的效果了。
2.3 电商类数据指标
2.3.1 关键指标名词解释
销售额这里是指电商网站的收入,这是电商网站最重要的指标。由于移动互联网的崛起,这里还需要统计下移动端占比。
购买客户数(按照账号去重计算)
老客户数当天之前就购买过商品的用户数,表示网站的粘性
新客户数统计当天首次购买的用户数,表示网站客户增长速率
客单价每个客户购买的金额,等于销售额/购买客户数
购买转化率访客中购买了商品的比例,等于购买客户数/访客数
UV访客数,来到网店的人数
详情页UV访问商品详情页的人数
订单数订单数关系到支付压力和仓库发货的任务量
妥投及时率妥投到客户的订单中,按照约定时间妥投的比例,它是个非常重要的用户体验指标。现在京东的一个很好的优势就在于它的物流。
重点商品缺货率爆款缺货的比例。有时候用户想购买的物品缺货,容易导致客户的流失。
2.3.2 如何将销售额和其他的数据关联起来,辅助我们去发现问题?
我们前面说到,销售额是电商网站中最关键的指标,没有之一。
销售额 = UV 转化率 客单价。
那我们接下来一个一个的分析这三个因素
1. 流量变化的因素
分析流量的变化就需要从流量的来源上来入手。
分析思路大致是,先按照终端细分,先看下PC端、App端、Wap端分别变化了多少;然后在细分对应的终端流量是从哪里来的PC端和Wap端可以细分到媒体,App端又分Android端和iOS端,Android端可以从渠道包中来区分来源,iOS端可以用一些跟踪工具或者IDFA来跟踪。
具体可以看下图:
2. 客单价变化的原因下面我们来看下客单价的公式
客单价 = 人均购买件数 * 件单价
人均购买件数是指每个客户购买几件商品,这个指标也经常用来衡量关联销售的效果,也就是关联销售效果越好,人均购买件数就会越多。
件单价是指商品的平均价格,等于销售额除以销售量,这个指标用来衡量网站上的商品价格高低。
客单价的变化经常会与促销活动有关系。如下图,客单价变化因素:
3.转换率增长因素 - 转化漏斗 正所谓一图胜千言,看下面这张转化漏斗图大家应该就可以明白了,
2.3 UGC 类数据指标
首先解释下什么是UGC,UGC就是以用户创造内容为主的应用,比如博客,微博,朋友圈等UGC产品的关键指标就是「用户参与度」用户参与度指标
访客数
停留时长
产出内容(比如:点赞、评论、发表文章等)不同的产品关注的产出内容关键点也不一样,比如:微博关注的是转发微博、发表微博;朋友圈关注的是朋友圈发表状态;博客关注的是发表的博客数。
举个例子:轻博客的参与度指标
活跃用户规模
访客数访问网站或者打开App的人数,等于web端访客数+移动端访客数
登录访客数及占比登录的访客数以及占总访客的比例
留存以及访问深度
沉默用户数及占比超过7天未访问的账号数占总账号的比例
平均停留市场总停留时长除以访客数
核心功能使用情况
点赞访客数及占比点赞的访客 / 登录访客数
推荐访客数及占比点击推荐的访客 / 登录访客数
分享访客数及占比点击分享的访客 / 登录访客数
创作访客数及占比创作访客数 / 登录访客数
文字、图片、音乐、视频创作访客数及占比
另外UGC产品还特别依赖于优质内容的产出,那如何去筛选优质内容了?
首先我们要对优质内容建一个评分模型,比如微博的优质内容模型为:
热度 = 转发 + 评论 + 点赞
然后可以对各个指标定义下所占比例,这样就可以凭借热度这个指标去筛选优质内容了。
三、分析数据
3.1 基本分析方法
3.1.1 横向对比
横向对比就是和自己对比。
举个例子,改版的App发布后,想看下改版后的效果,这个时候就需要用到横向对比了,和上一个版本进行对比,横向对比
3.1.2 纵向对比
纵向对比就是和竞品对比。
举个例子,微信支付和支付宝在除夕这天的一些数据对比(数据纯属虚构),纵向对比:
3.1.3 象限分析
象限法指根据数据中的(质量、数量等)的两个重要属性作为分析的依据,进行分类分析。
比如对App的渠道分析,我们可以用「质量」和「数量」两个维度来进行,如的象限分析图:
3.1.4 交叉分析
交叉分析的主要作用就是从多个维度细分数据,它的作用主要是从中发现最为相关的维度来探索数据变化的原因。
举个例子,统计一款App的新增用户数,我们采取交叉分析法,把终端、时间和渠道三个维度结合到一起,交叉分析法示例图:
3.2 AARRR数据分析框架
AARRR是Acquisition、Activation、Retention、Revenue、Refer,这个五个单词的缩写,分别对应这一款移动应用生命周期中的5个重要环节,具体模型如下图:
那产品经理应该可以利用AARRR模型来做什么了?
它提供很好的精细化数据分析思路,能够将整个是数据链打通,而不会仅限于某个具体的指标。
下面我们举个具体的例子来说明:
某App通过渠道A引入了100000个用户,单个用户成本为3元。通过渠道B引入了50000个用户,单个用户成本为10元。
如果我们不通过AARRR模型来分析,这样就很简单的判断是渠道A效果会更好,但是我们如果通过AARRR模型来看。
渠道A的AARRR模型:
渠道B的AARRR模型
通过上面两张图我们可以看出其实是渠道B的效果会更好一些的。
3.3 逻辑拆解分层框架
什么是逻辑拆解分层框架?
对于一个产品来说,它的数据指标非常的多,对于产品经理来说,我们不可能时时关注每个指标,通知我们需要重点关注最核心的指标。
举个例子来说:
对于网易考拉海购来说,最重要的指标就是销售额
对于梦幻西游这个游戏来说,最重要的指标就是ARPU(用户平均收入)
对于网易新闻Web端的,最重要的指标就是UV(网站访问人数)当我们关注核心指标的变化时,是什么原因导致这些核心指标的变化了?我们需要怎样去解释这些变动了?
这里我们举个电商的例子,电商的核心指标是销售量,我们对销售量这个指标进行逻辑分层,得到下面这张图:
得到这张图后,我们通过分析销售量的指标的变化,就可以更精确的去定位是什么原因的导致的了。
3.4 漏斗模型分析框架
漏斗模型,就是从起点到终点有多个环节,每个环节都会产生用户流失,依次递减,每一步都会有一个转化率。
比如很典型的商品购买流程:
我们通过这张图就可以很清楚的知道用户在哪个步骤流失的最多,然后我们就可以针对该步骤进行优化。
3.5 使用数据时需要注意的事项
3.5.1 数据图形的欺骗
我们先来看下下面这两张图:
这两张图其实表达的数据是一样的,但是看第一张图会感觉活跃用户增长趋势比第二张图好很多。
那怎么避免这种问题了,答案是给这套曲线增加一个公式,用公式来表现曲线的斜率。
3.5.2 数据抽取样本的问题
举个现实生活中的例子:
在2008年奥运会上,姚明的三分投篮命中率为100%,科比的三分投篮命中率为32%。
那么我们是不是说姚明的三分投篮命中率要比科比高了?显示不能这么说,因为那届奥运会,姚明只投了一个三分,科比投了53个三分。
决定样本量大小的因素有:
总体大小
总体内部差异程度。
所以在抽取样本的时候,尽可能的多覆盖,尽可能的找差异程度大的用户。
3.5.3 数据被平均
这里先举个例子说明下:
对于一个新推广的的网站:
网站平均访问时长:55秒;用户平均访问页面2.16个。
这个是不是就可以说明用户主动浏览其他页面,但是我们这时候看下页面浏览和访问时长的分布图:
这个时候你就会发现你被平均数带到坑里去了。
那么问题来了,什么时候平均数可以代表整体的情况了?
答案是当数据为正态分布时,就可以用平均数代表整体的情况了。当数据的分布为长尾分布时,我们可以选取数据比较集中的部分进行分析。
3.5.4 辛普森悖论
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
下面举个具体的例子来说明下:
当产品经理看到上面这组数据时,是不是就可以决定要先从电脑版开始开发了?
我们接下来再看另一组数据:
从这组数据来看是不是和上面那组数据得到的结论完全相反了。
3.5.5 忽略沉默用户
用户迫切需要的需求 != 产品的核心需求
有时候我们所听到的需求,或许只是少部分用户迫切需求,而大部分用户并不在乎。
举个微信的例子:
很多用户都反馈说为什么不给消息加个消息状态,这样我就可以知道对方有没有看我的消息了。说实话刚开始看到这个需求的时候,我就想到了陌陌和WhatsApp,他们都做了消息的状态功能。然后就想当然的觉得微信其实也应该加一个。
后来我看到这样Allenzhang的回答:
如果我们针对需求一个人去满足,你可能获取了这部分用户,但是得罪了另外一部分用户。有人就挺不喜欢把我的已读状态暴露给别人,你想这样的话,如果你的上级找你,你看了然后你又不回,就很麻烦。我们要给人撒谎的机会,我们说人性是什么?给他撒谎的机会,说我没有看到。你看短信不太准确,我们经常会说,你那个短信丢了,我们没有看到。如果我们把人都像机器一样约束起来不一定是好事。
我们为什么不做已送达的状态?因为我们觉得未来的系统是绝对可靠的,我们有这个信心,肯定会送达,除非他关机了,我们不会再专门做一个是不是已送达,只有不自信的系统才会做这样一个状态。而且你每发一个消息还有个已送达或者发送中,那很丑陋的,多了一个东西在那里。所以这也是一种态度。对于这种用户要什么就给什么,其实这是考验产品经理水准的东西,因为我满足需求很容易,但是你怎么找到理由拒绝他,或者说找到什么方式实现它这个非常难。
微信对人性的把握太精准了。
所以说很多时候我们要站在更高的角度去考虑问题,不能听到用户的声音的时候就立马做出决策,而忽略了产品大部分目标用户的核心需求。
3.5.6 过分依赖数据
我们观察我们生活中的很多的伟大的产品都不是通过分析数据得出了。比如,当年汽车诞生的时候,我们通过分析马车的相关数据,只能得出用户需要一匹更快的马车。
所以说,产品经理还需要把自己的理性思维和感性思维更好的结合在一起。
3.5.7 错判因果关系
什么是因果关系?
就是A的发生,导致了B的发生。比如醉酒驾驶导致交通事故,那么醉酒就是交通事故的原因之一。
什么是相关关系?
就是A和B两件事情的出现,都是出自同一个原因,数据上显示火锅消费高峰期和冰淇淋消费低谷期总是同一个阶段出现,而这两件事情都有同样一个原因,即天气变冷,气温下降。
有时候我们在分析数据时常常把相关关系错判为因果关系。
这里我们举几个现实生活中的例子:
吸烟真的是短命的原因吗?
玩网游让学生成绩变差?
打篮球让人长高?
所以说,我们在面对数据的时候要时刻保持独立思考的状态,要多问几个为什么,要多好奇心 。
四、利用数据
4.1 数据应用的场景
4.1.1 需求层面
需求一般有两个来源,一个是用户层面,一个是公司层面,数据在面对这两个方面的需求所起到的作用是不一样的,下面我们分别看下这两个层的需求来源。
用户层面。一般来说用户层面的需求一般来自普通用户或者产品经理自身。这个时候数据主要是用来「去伪存真」。
有时候用户会基于自身层面提出很多需求,但是这些需求都非常的主观,我们这时候就可能需要利用数据来验证这些需求了。
比如说,有时候一个用户说,你们这个网页打不开啊!产品经理就是个垃圾。
这个时候我们可以自己使用下,看下问题是否能复现,如果不能的话。再看下这个页面的退出率是否存在异常,如果没有,这个问题也可能是网络、设备等原因引起的。
公司层面面对高层需求,从数据入手,验证观点,并提供合理化建议。
高层的需求通常是基于公司战略目标提出来的,这个目标可能会与用户体验有一些冲突,这个时候产品经理就可以利用数据来验证并提供合理化建立。
4.1.1 产品设计阶段
设计前通过数据分析发现问题,确定行之有效的量化标准。
比如:网站首页的改版,可以看到各个模块的点击率,转化率等。看下是否需要调整模块的位置。
设计中辅助决策,判断思路
比如:我们在购物网站中,优惠券的有效时间设置多长比较合适了?1小时?12小时?1天?3天?
这个时候其实就可以利用数据来分析下用户之前使用优惠券的时间分布图,最后确定时间的长度。另外还可以使用A/B Test来测试。
设计后这个阶段主要是数据来验证方案是否符合预期。
4.2 数据驱动产品的方法
数据驱动产品最重要的保持数据驱动产品的思维方式(具体见下图),可以看出,利用数据,产品可以不断的进行优化。
4.3 如何培养数据分析的能力
首先我们有一个好奇的心,保持自己的求知欲望。这些是引领我们前进的内在动力。我们在生活中就可以发现很多数据,如果我们有足够好奇心的话,其实可以发现很多有趣的问题的。
比如,分析在春节时候的自己朋友圈转发文章的阅读数、点赞数等一些数据。你会发现哪些文章的转发率高,自己朋友圈的一些特征等。
其次我们要有正确的数据驱动产品的思维方式。
然后我们要非常熟悉我们所在产品的业务,我们要重视数据,保存对数据的敏感程度。