小数据程序员@产品

记一次好玩的hackathon

2017-08-28  本文已影响238人  scvhuang

引子

七月份参加了一次公司hackathon,虽然早已经内部分享过了,但是对外的到现在才想起来写一下,事先声明,不会提到任何数据,完全是方法。

从评委点评聊起

公司hackathon和kaggle的学生玩具比赛最大的区别是,我们是玩真的,包括需求、痛点、物料,都是real的,说那个点,直接hive拉的。

从点评不难发现,有如下几个关键要素,作为下文的铺垫:

  1. 指标设定
  2. AB测试
  3. 可视化

分工、思路和玩法

我们队的组成,一个全栈,两个BI,一个打杂的我,由于日常工作和题目相关,我实际上主要负责两件事情:

全栈兄弟是用的node+php,前后端一起搞定,直接出可交互的数据可视化界面。

BI兄弟一个ETL并且协调整组工作(不得不说,24小时的数据项目,最佳控场就是ETL角色),一个用python做算法,例如处理源数据的AB测试显著性分析等。

整个过程很简单:

  1. 寻找离散程度大的变量
    能否找到信息量大的特征,决定了后面的一切。
    这期间需要很多沟通工作,和引入外部数据,注意学校比赛往往禁止扩大数据源,个人认为这是非常愚蠢的。

  2. 数学归纳法
    首先猜一个答案,比如说如果变量A提高到某个节点以上,我们认为最后产量可以提高;然后用已有数据验证,循环这个过程。
    并且,可视化界面的交互要支持这种循环验证操作。

  3. 写成几分钟可以讲完的ppt,没了。

  4. 顺便一提产出物
    我们得到一个可以直接从hive原始数据转化到有两重统计验证的ABT支持的pricing相关的数据可视化界面,对用户没有任何的技能要求--当然中学数学还是要会。

有什么收获

当然了首先是奖品,挺帅的vr眼镜,戴起来觉得周围的人都是战斗力5。

言归正传,玩hackathon的最大收获,本质上是毫无负担地体验了一把“在小有规模的企业里不受束缚的工作”的感觉。

精益数据分析这本书给我唯一留下印象的地方是,他专门开辟一章说了内部创业,提到和外部相比,最大的障碍是第零步:获得授权。

遗憾的是,现实里太多人在第零步做完(或一直要费心维持)的时候已经忘记了初心,所以还是看看没有这一步的hackathon是如何的吧:

看到这里不知道你有没有这种感觉:
赢不赢无所谓,玩一把挺爽的。

谢谢阅读。

上一篇下一篇

猜你喜欢

热点阅读