数据驱动设计（一）

2017-04-23 本文已影响372人 ux2017

数据驱动设计——我对用户数据的一些看法

用户在应用/网站中产生的数据很多，从不同的角度可以分析出不同的内容。比如，运营会比较重视用户量相关的数据，如DAU、新用户数、流失用户数、用户转化率等，这是结果性的数据，有利于我们了解目标的完成情况，或者某个市场运营活动的效果。这大概也是产品经理最关注的数据，需要以此了解产品的整体发展状况。但是这些数据对于设计师来说意义却不是太大，因为用户量不仅跟体验设计有关，在很大程度上也取决于市场环境、竞争对手动作和内部的市场运营活动。我们需要一些真正能够指导设计的数据。可以把用户数据简单地分为两类：驱动增长型的数据和驱动设计型的数据。前者更宏观，往往着眼于结果，可以指向产品发展趋势、验证战略方向；后者更微观，需要能够揭示细节体验的数据，用以了解设计上存在的问题。

对UR（而非运营和产品）来说，对于数据的关注更多是从驱动设计的角度，整个UX团队其实都需要能够具体指导设计的数据。结果性的数据对于设计师来说固然也是重要的，但是它们很难真正反映出设计问题。正如Avinash Kaushik提出的那个验证数据分析有效性的经典问题：“So what”。

“这个月平均DAU比上月下降了10%”

“So what？”——下降是因为什么，产品难用？推广不给力？我们应该做什么？

“新版本上线后，XX功能的使用率持续下降。”

“So what？”——看来XX功能的改版并不理想，但是究竟哪里不理想？我们应该做什么？

如果数据只能告诉你结果，不能告诉你理由，我们与真相之间永远隔着一层神秘的面纱，我知道它涨了，我知道它跌了，so what？如果不知道为什么，如果数据不能给出建议，我们仍旧像是在碰运气似的不断试错。

能够驱动设计的数据，需要更加具体。具体到流程，具体到页面，具体到页面元素。我们需要知道用户的点击流数据，每个页面的停留时间，页面之间是如何跳转的，关键页面元素的点击量如何，每个页面的跳出率多高……如果我们提供的产品希望用户进入后去完成某个目标，那么可以分析，用户在进入应用/网站后都做了些什么，使用会在哪里中断，哪些地方跳出率最高，最终有多少用户成功达成了目标。这个其实类似于关键流程转化率的分析，转化率只是抽取了流程中的几个关键节点计算到达的用户数，但若能提取到更加丰富的数据，可以做更加细致的分析。

学习资源

目前只了解了网站数据分析的常用方法，但是我们做的是App，更需要的是跨平台的数据。移动端、PC端、web端都是需要分析的。用户在网站中进行的操作大多数是要向服务器发起请求的，有请求就有记录，所以即使没有主动埋点，这些数据也存储在了日志之中，只需要花点时间去提取，就会有丰富的数据供分析。但是原生应用不同，除了一些数据拉取、同步的的操作外，用户的很多操作都可以在本地完成，不需要经过服务器，如果不主动埋点就不会留存数据，比如我要知道新用户进来后，有多少人点击了“我”页面，这个数据是无法在服务器日志中找到的。所以对于原生应用来说，需要越丰富的数据就需要埋越多点，实施成本也就越高。

网站数据分析方法相对比较成熟，能够找到比较多的资料；而针对于移动互联网原生应用的数据分析资料暂时没有找到，所以我会从网站数据方法论开始，后续再慢慢补充移动应用的分析方法。

网站数据分析

数据来源

日志：日志是最原始的数据获取方式，主要在服务器端完成。网站对服务器发起的请求都会记录在服务器日志中，数据较为全面，但是筛选的成本比较高。服务器日志有规范的格式，最常见的是Apache日志格式。在统计分析中常用的信息包括：访问终端IP（可用于判断独立用户或者用户地址，但是不准确）、访问时间戳（访问的时间点，包括日期、时间、时区，用于分析页面访问的先后顺序）、访问地址（一般是相对路径）、访问来源（来源网址，用Referral字段记录，若是直接访问或者数据缺失，会显示“-”）等。Apache可以自定义日志输出信息，通常可以增加域名、cookie等信息。

埋点：网页上可采用JS页面标记的形式，当用户访问页面时，JS记录所需信息，并将数据以URL参数的形式附在图片请求地址的后面，然后向服务器请求图片。这种方式获取到的数据也是存储在日志文件中，但是可以与一般的日志文件区分开。使用JS页面标记的方法可以获取到原始日志无法获取到的某些页面操作信息，但是存在用户禁用JS的风险。

业务数据：保存的用户信息、交易情况等结果性数据，即上面所提到的“驱动增长型数据”。

ABtest：用户数据可以通过实验的方式获得，在网站上最常见的方法是ABtest。

行业与竞品数据：通过Alexa、Google Trends、百度指数等数据平台获取竞品数据。

常用指标

IP：曾被用来作为独立用户的识别标志，但是由于伪IP、代理等情况存在，IP统计数据不太准确。可以用来作为用户地理位置的识别，但也会受到数据不准确的影响。

PV（Page View）：一个页面被加载的总次数。

UV（Unique Visitor）：独立访客数，一般使用cookie确定。

Visits：访问数，指用户从进入网站到离开网站的过程，介于PV和UV之间——一个访客可以产生多个visit，一个visit可以包含多个PV。通常用session来标识visit，同一用户从访问网站，到离开网站或者静默时间超过给定值（如GA给的定义是30分钟）时，记为一个session。

Time on page（Tp）：在一个页面中的停留时间，通常只能获取页面的访问时间，所以会使用下一个页面的访问时间作为上一页面的离开时间，以此计算页面的停留时间。

Time on site（Ts）：在整个网站中的停留时间。目前大多数分析工具采用的计算方法是将所有的Tp加起来，即用网站中最后一个页面请求的时间减去第一个页面请求的时间。这样计算的Ts存在必然的误差——最后一个页面的访问时间不被记录，所以这个数据一般低于实际值。可以通过某种方式获取用户关闭标签页或者浏览器的时间内，但是不多见，目前不太清楚有哪些工具使用这种方法。

Bounce rate（跳出率）：一个页面的跳出率是指只访问了此页面就离开的用户所占比例，页面的跳出量/visits（GA和Omniture算法相同）。

Exit rate（退出率）：一个页面的退出率是指从此页面离开的用户所占比例，页面的退出量/PV（这是GA的算法，Omniture的算法是退出量/visits）。

分析方法

点击流

对于日志中离散的请求数据，可以用点击流的形式加以整理，方便后期分析。点击流即是将同一session中的请求记录按照时间和页面的先后关系串联起来，可揭示用户的浏览路径和每个页面的停留时长。

对原始数据进行整理，可以得到两个数据表：visit表和PV表。visit表的一条记录是一个session，包含session开始时间、结束时间、开始页面、离开页面、访问页面数、cookie等信息；PV表的一条记录是一个PV，包含所在session、停留时长、在session中的第几步等信息。两张数据表结合起来即可获得点击流的信息。

点击流模型

数据清洗

作为数据分析的第一步，每当获取到数据后，都需要进行数据的清洗。首先如一般的统计分析，需要先处理异常值和缺失值。缺失值一般使用同一变量的均值、中位数、众数等进行填充。异常值一般舍去。网页数据分析中常见的异常值类型是在数值型变量中出现字符串、或者数值极端值。另外由于网站数据来源的多样性，不同来源可能会对同样的变量使用不同的变量名，因此需要检查是否存在不同变量名实质为同一变量的情况，是否存在重复记录的情况，是否存在违反基本逻辑的情况。——分析数据之前先对数据进行清洗是一个好习惯，如果数据质量不高即使分析再细致也会得出误导性的结果。

趋势分析

网站数据分析中最常用的分析方法是趋势分析。往往我们获得数据就是为了了解变化趋势甚至根据趋势对未来的情况作出预测。趋势分析不需要太多统计分析基础，用excel即可完成。

增长率：对于很多结果性变量，我们往往比较关注其增长率，这也是网站数据分析中最常见的数据处理方式之一。增长率有三种类别：同比增长率（比如今年11月份/去年11月份，排除周期性波动带来的影响）、环比增长率（比如今年11月份/今年10月份，反应数据连续变化的趋势）、定基比增长率（选择一个有代表性的基线值进行比较）。

拟合曲线：寻找某种可以反映数据变化趋势的曲线，找到了最为贴合数据实际趋势的曲线，就可以根据此曲线对未来的数据做出预测。除了拟合曲线之外，还比较常用的预测方法是移动均值法，即用前n个周期的均值作为第n+1个周期的预测值，可以使用加权平均调整不同时期数据在预测中所占的权重。

对比分析

当使用对比分析时，首先需要确定用什么指标进行对比比较合适。比如说我们可能想比较两个电商网站哪个更能吸引用户下单，若不周全考虑，可能会觉得可以使用一定时间内网站的成交量进行比较，但是若实际的数值是：A站访问量十万，成交量1000，B站访问量2000，成交量200，则会发现使用最终成交量进行比较并不合适：B站成交量小有很大一部分原因是访客数少，因此使用购买转化率作为比较变量可能更加合适。这也是处理影响较大的协变量的一种方法。

确定指标后，需要进行对比，这个可以使用统计分析方法进行对比，如t检验，卡方检验等，看差异是否显著。——商务报告与学术报告不同，并不太重视显著性这个东西，更多的是看重如何用可视化的方式将数据趋势呈现出来。但是如果能够加上统计分析的方法，至少可以帮助我们了解什么程度的差异才是有意义的，有一些看似存在的趋势或者差异可能都不比测量误差大。这也是一种避免报告数据产生误导性结果的方法，尤其是对于小样本数据，若两组差异没有很大的话，一般是很难达到显著水平的。

细分分析

可以使用不同的维度对数据进行细分分析，通过在关键变量上的拆解可以了解数据背后的分布结构，了解不同群体、不同地域、不同年龄、不同职业等等的特征。对多个变量进行交叉分析比起单个变量的分析更能给我们提供丰富的信息。

分析内容参考

了解了数据源和分析方法，接下来可以对特定课题做一些具体的分析。比如：

页面参与度：总目标价值/页面的UV。用以记录不同的页面在完成网站目标的过程中起到的作用。

页面热力图：将页面不同区域的点击数量可视化，反应用户的点击趋势。

转化与漏斗：一种常见的网站数据分析方式，通过进入同一流程不同页面的用户数量计算每个节点的转化率。可以对同一功能不同路径的漏斗进行比较了解不同路径的转化率。

后续学习要点：移动应用如何做用户行为数据分析；行为数据分析如何具体映射到设计。