大数据平台产品经理入门手册-前言二
一千个人眼中有一千个哈莫雷特。当我要说起大数据平台的时候,从哪里说起。在我眼中又是什么样的。
用户是谁
当要写这个大数据平台的时候,第一件事情,就是确定一个大数据平台都给谁用。
刚好前一阵子参加了DAMA考试,里面有一个句话给了我思路。①
🔑 通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据。支持业务分析所必须得数据。
2)技术。支持数据存储和迁移的后端系统及流程。
3)商务智能工具。数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件
其中数据消费者给我已启发,可以扩展一下,整个数据流程中,可以有三类角色。数据生产者、数据加工者、数据消费者。
- 数据生产者
大数据平台不会产生数据,所有的数据都来自业务系统,业务系统在日常的业务进展过程中会收集各种数据。这些数据就是大数据平台中的将要处理加工的数据。
- 数据加工者
将数据生产者产生的数据,同步抽取到大数据平台,在大数据平台内部进行加工、转换、管理、治理等等,这个是数据加工者的主要工作内容。也是是大数据平台主要用户。
- 数据消费者
数据加工者加工好数据之后,用户需要从数据中获取洞察,这些用户就是数据消费者。这些数据消费者也是大数据平台的用户。也就是一个完成的大数据平台不仅仅能够很好的满足数据加工,还需要很好的满足数据消费。
大数据平台有哪些模块
大数据平台可以做的很复杂、也可以做的很简单。简单的仅仅使用开源系统就能够跑起来一个大数据开发流程,这个流程就像是游击队作战,小团队时候还可以。如果是大规模的作战的话,就需要正规军了。这个正规军就会比较复杂。
“采、存、管、用”。如果将数据开发的整个阶段进行精简的话,可以使用这四个字来概括。采:数据的采集。存:数据的开发与存储。管:数据的管理与治理。用:数据的使用。这四个阶段不可能在一个产品模块中实现,所以大数据平台是分模块的。
分成哪些模块划分很主观,可以根据加工流程,可以根据不同用户的不同阶段,可以根据现有的部门人力结构,在实践中不同模块可能会组合为在一起,也可能一个模块中包含几个不同部分。下面是我的一个分法,主要依据一个数据开发使用流程,后续也会依据这个流程来总结下我理解的大数据平台。
- 数据集成:将业务系统数据抽取到大数据平台,是整个大数据平台数据加工的起点。
- 数据管理:管理平台中的元数据和数据源。是大数据平台的一个中心。
- 离线开发:进行离线任务的开发。
- 实时开发:进行实时任务的开发。
- 服务开发:进行数据服务的开发。
- 任务治理:对开发的任务进行治理。
- 数据治理:数据治理的一个模块。
- 数据运营:将数据推广宣传出去。
用户和模块的对应关系
这些模块和上面说的用户有怎样的对应关系那。数据生产者不会使用大数据平台,列举下数据加工者和数据消费者主要使用的模块。
模块 | 用户 |
---|---|
数据集成 | 数据加工者 |
数据管理 | 数据加工者 |
离线开发 | 数据加工者 |
实时开发 | 数据加工者 |
服务开发 | 数据加工者\数据消费者 |
任务治理 | 数据加工者 |
数据治理 | 数据加工者 |
数据运营 | 数据消费者 |
可以看到主要使用的都是数据加工者,这个数据加工者可能是ETL工程师、可能是数据仓库建模、可能就叫做大数据开发、可能是数据管理人员、可能是数据运营人员等等。
而数据消费者里面,技术能力强的可能会进行服务开发,主要还是使用数据运营模块中的内容。这些数据消费者可能是数据分析人员、业务分析人员、业务人员甚至于是业务系统。
后续也将按照这些模块,从上到下的进行介绍。这些介绍有通过自己工作经验,总结出来自己的理解,不保证是完全正确的,但一定有自己的思考。也有看到的个人觉得很有道理的文章。总之,希望通过这些介绍能让你入门大数据平台产品经理。
好了,让我们开始吧。
①《DAMA数据管理知识体系指南(原书第2版)》302页