第三课:数据仓库

2018-09-11  本文已影响12人  追寻者的小憩书铺

一、数仓特点

面向主题的:特定目的

集成的:整合多个来源

随时间变化的:可以有状态变化

信息相对稳定的:数据入库后,查询频率远大于修改

二、技术要求

1 构建思想

    自上而下:建立一个统一的数据中心,从中挖掘业务

    自下而上:根据实际业务需求,构建数据仓库

2 ETL

    用户从数据源抽取出所需数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

    数据仓库中最重要的概念之一,需要花费整个项目一半以上的时间。    

3 存储和表设计原则

    包括表和路径命名原则和数据生命周期管理

三、相关概念

1 原数据

    表的定义数据,表的属性表。包含表名、路径、行列信息等。

2 OLAP-联机分析处理

    一种软件技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

    主要概念包括:多维观察、数据钻取、cube运算

多维观察

    维度:分析角度,即变量X集合。

    度量:度量指标,事实。即所要观察的Y值。

cube运算

    切片:固定某个维度,来对数据进行分析(比如只分析4月份)

    切块:同时限制多个维度来分析(如4月份的北京)

    钻取:同一纬度上放大缩小范围。

        向上钻取:到高纬度查看抽象(如从月份数据到年份数据)

        向下钻取:到低纬度看细节(如从月份数据到天份数据)

    旋转:改变观察角度(自变量的XY轴)

3 数据库设计模型

    星型:关系型设计思想,尽量只发散一级关系

    雪花模型:多级关系数据库

四、技术架构

1 好架构设计的标准

    结构层次清晰、数据质量有保障、易扩展、易用

2 功能架构

    自下而上:采集中心(采集、校验等)、存储与计算中心(计算、建模、流处理)、服务中心(数据共享)、应用中心(用户画像、位置服务)、访问中心(WEB、APP),全程的管控中心(运营、数据、系统)

3 数据架构

    自下而上:原数据(结构化、非结构化、流式)、采集中心(ETL)、存储与计算中心(对数据的存储和计算)、服务中心(数据加密、脱敏等)、数据访问(报表、实时分析)

4 技术架构

     自下而上:采集中心(爬虫、日志等)、存储与计算中心(批处理平台、流处理平台)、服务中心(API)、应用中心(webservice)、访问中心(CLI、html5),全程的管控中心(yarn)

上一篇 下一篇

猜你喜欢

热点阅读