内外数据整合的一点心得
最近几个月一直在折腾内外数据整合,稍微写点心得。
先做个“不内外整合“的铺垫,传统的“基于内部数据的优化”,大概分为如下步骤
-
获取自己的每一步的内部转化率
-
通过调研竞品,熟人打听之类,得到标杆
-
选择内部转化率最差的步骤改进,ab测试
参考我以前的文章
这种方式的优点是:容易上手,缺点是:依赖标杆、流于表面,大部分市场上的竞品互相抄袭,最后同行业做到差不多的转化率,就是这么来的。
本文想讨论的是,在内部数据基础上,引入外部数据,我之前的文章有类似:
内外整合的数据分析,增加了更多的信息量和不确定性,如果说基础优化只需要中学数学的话,这个步骤需要一点点本科的概率论,大概可分为如下步骤:
-
分析内部数据,尝试解释波动和做优化。这时遇到了无法解释的波动,和完全不符合预期的结果。
-
抓取直觉上觉得有关(且抓的到)的外部数据,选择合理的颗粒度和内部数据关联。例如每天某商品价格对比,和当天该商品销量。
-
尝试引入单个外部数据,解释纯内部数据无法解释的波动;尝试将外部数据组合起来,关联内部数据做解释和预测。
不难发现,这已经是在玩计量经济学了,实际上整天考虑成本、取舍、效益、进度管理之类的,产品运营这个岗位本来就很经济学,只不过现在更加强调数据,门槛大大提高了而已
(有个梗是这样,传统的需求可以说,我需要这个按钮产生低价排序,而大数据时代,如果提个需求是,我需要这个按钮产生客人需要的排序,这个岗位就是废的,实际的需求还是要有人来提)。
在数据内外整合的落地方面,我个人理解有三点心得。
一、定量的习惯
现在网上教程动辄祭出“机器学习”,然后问题就解决了,实际工作里,这些关起门来的分析对于业务的帮助大部分很小。多大程度上将业务的定性语言,定量地描述出来,以扩大数据分析的范围,这一步远远比后续套模型、调参数,来得重要。
所谓的数据驱动,我理解分为两部分,第一个部分是,假如现实世界的所有问题是一个空间,数据能解决的问题是一个子空间,我们需要努力扩大这个比例。第二个部分是,在数据能解决的子空间里,有相当部分是限于计算资源,或方法过于原始,导致理论上能解决而实际无法(在有生之年)解决的,这部分是算法科学家和硬件科学家努力的方向。
我想说,第二部分和我们互联网业者是没有半毛钱关系的(除了那些整天要公司花几百万买设备的数据大拿们,虽然他们没错,但是第二部分的投入效益极低,只有大公司和烧钱的可以玩),大家只需要关注第一部分就足够了。而第一部分是完全可以通过习惯养成来潜移默化推进的。
例如说我面试一个小朋友,问他如何评估一个新闻对近期转化率的影响,可能有两种回答:
1、我觉得大部分人不会关心新闻,所以看看销量有无变化就好,其实就算有,也不一定是因为新闻。
2、可能看看搜索指数在各个分类的起伏,看看品牌搜索是否在没有活动情况下起伏,新客的来源结构是否有变化(以及和搜索指数抖动是否形似),被访问的热门内容是否有变化,留存率是否有变化。
显然如果一个团队里都是第一种的话,数据驱动的那个子空间就非常非常小,可能就天天抄抄竞品,在其他支持组能支持的数据范围内,追追ab对比,就完事儿可以等年终奖了(大部分打工心态的互联网公司都是这样,不然创业公司怎么有机会呢);
而第二种团队里,数据驱动的空间就大很多,可以轻易发现很多“低悬的果实”,缺点是得到成果很不稳定,而且看起来比第一种团队要不务正业的多—这也是为什么说,数据驱动要从管理层开始的道理之一,呵呵。
二、倒推的习惯
很多人都知道搜索引擎最初的ranking原理就是,越多某个话题指向的网站,越相关于某个话题,这显然是一种“倒推”,“倒推”是统计学思想的精髓。
无论是分析历史数据,还是对预测的未来数据进行回顾,我们看到的都是一大堆的“结果”,有些根据内部数据得到的预测和结果完全不符的,引入外部数据以后,有可能会呈现出某种规律性,这就是我们在追寻的。
第一批外部数据的选择,肯定是拍脑袋,正如前面的几篇博客提到,价格对比、覆盖率对比、多样性等,属于根据直觉,就觉得可能会影响转化率的外部数据,玩一下以后你会发现,的确能解决一些问题,但还有大量无法解释的结果,也就是还有大量的特征等待你去发掘。
怎么找特征也有大量的充满术语的可怕文章,用一个简单的类比,当以色列特工潜入非洲拯救人质的时候,他们用以色列语大喊趴下,然后射杀所有站着的人,这就是一个最简单的、用于分开人质和恐怖分子的数据离散分析,用excel也完全可以做到,就是这么简单。
有时也会有funny的收获,例如有些输入输出是毫无道理的,像是价格变贵、覆盖变少,但是销售变好了,当然了这肯定说明你漏了什么重要的因素没有考虑,但是在找到之前,如果数据显示真的足够离散,不需要去追究为什么,因为你现在可能正在以你没想到的方式影响那个隐藏特征,先用起来再说。
三、工具也需要优化
内部数据可以用非常原始的方法去分析,至今有很多手算转化率的日常工作,但是加入外部数据以后,由于数据结构的复杂,分析的耗时指数增长,原来的方法和工具不再适用,这时候才会诞生大量的指标、指数、可视化。
虽然金融行业早就已经达到了这个水平,但其他行业还都是刚刚开始,对于颗粒度、周期隔断的摸索还很初步,可能大部分人对自己每天看的指标,应该如何离散化,都不如家里炒股票的父母对各种k线分类的掌握。
当数据多到一定程度的时候,你可能会感觉到,只有相关性、数量级数才是有意义的,具体的数字反而没有感觉了,例如说某行业转化率应该是淡季2%,旺季5%,这种传统经验会变得毫无意义。
如果到达这个境界的话,可能会感觉到我这篇文章想表达的一种,怎么说呢,焦虑和期望吧。
谢谢阅读。