产品经理进阶产品数据分析产品经理

浅谈数据产品经理之 ETL

2018-03-08  本文已影响99人  1ku

上篇文章,我们一起学习了数据产品经理日常中接触最多的“数据仓库”的一些基本概念和常见的一些专用名词,他们都是数据产品经理成长,学习和实操中不可或缺的重要一环。
在数据仓库中,我们第一步要面临并且要完成的就是数据“处理”。这里的处理是个广义的词,包含所有和数据相关的一系列操作,专业名词就是 ETL。

本文的结构如下

什么是 ETL

首先我们看一下ETL的英文全称,ETL(Extract-Transform-Load),很明显哈,这是一个流程:抽取(Extract)-转换(Transfrom)-储存(Load)。所以数据的一切有关抽取、转换、储存的任务都属于 ETL,这就类似产品经理常做的一件事:需求调研。客户调研、用户画像、竞品分析、市场数据收集等等任务都属于需求调研,这是做产品的第一步也是最重要的一步,如果把产品和技术明确的划分开来,这里的技术大佬做得 ETL 就相当于产品经理做的需求调研。(其实岗位本没有界限,这只是为了方便理解概念的一个比喻)
这是*勾de ETL 工程师的 BD


ETL 的实际应用

上篇文章我们已经有一个明确的思维,所有的数据分析都是建立在业务之上,旨在为企业的业务提供管理决策上的依据、运维的数据可视化、产品迭代更新的方向指引等等,既然数据最后的服务回归到业务和产品,那么在 ETL 阶段,所有的流程、设计、细节都应该为后面的工作做好铺垫,这样会让后面的工作进行得更顺利、产出更符合老板“口味”、数据视角更加尖锐等等。
ETL 的设计,大概可以分为5个步骤进行,当然不同的公司可能不同。
1.确定目标。
2.确定度量。
3.确定数据颗粒度。
4.确定维度。
5.创建事实表。
接下来,我们把这5个流程分别介绍一下,你可以对照我举的例子,一起来联想思考自己的业务,这样就能达到即学即用。

ETL 常见的工具

抽取:Sqoop、Kettle、Flume等
储存:Hive、HDFS、Hbase等
转换其实每个过程都会涉及一些,每个步骤根据不同的要求,都会调整一些参数或者执行一段 SQL。
这是一个工具在实际案例中使用时的截图


image

总结

任何一个方法论都不是万能的,也没有一个企业可以开源一套“包治百病”的工具出来,工具没有好坏之分,只有在特定的业务场景下,谁能发挥更大的作用之别。掌握这些方法就是让你在使用过程中有一个参考标准和约束条件,ETL 是建立数据仓库的重要一环,无论是产品还是技术,这个过程都应该下工夫,磨刀不误砍柴工就是这个道理,当一切准备就绪,接下来就是见证奇迹的时刻。

上一篇 下一篇

猜你喜欢

热点阅读