大数据,机器学习,人工智能大数据

大数据

2021-02-20  本文已影响0人  八爪鱼下水

cloudera manager:

简介: cloudera manger管理平台是cloudera公司推出的一款集中化管理可视化监控平台, 此平台主要是用于对cloudera推出CDH版本大数据软件进行统一化监控管理工作;

特点:

  1. 节点在五个以上使用
  2. 专业的大数据公司使用
  3. 运维工作不繁琐
  4. 免费版本不支持弹性升级

架构简介:

  1. 信号检测机制,每隔15秒报告一次,如果状态发生改变报告频率加快.
  2. 改配置会重启(有提示手动重启)
  3. 增加主机简单.
  4. 还可以管理服务器的资源

数据仓库特点

4个V

  1. 面向主题, 分析需求
  2. 集成性,资源丰富
  3. 非易失性,数据不可修改
  4. 时变性,应对数据分析方案经常需要改变.

维度分析

维度:

维度是事物的特征,分析问题的角度.

  1. 定性维度: 地区 时间 商品
  2. 定量维度: 订单在100-300之间
  3. 维度的分层,分级.
  4. 维度的上卷 和下钻: 下卷力度更细

指标:

衡量事物的标准,度量

  1. 绝对数值: count sum max min avg topn ....
  2. 相对数值: 计算比率问题,转化率,涨幅.

数仓建模

三范式建模 (OLTP系统)

关系型数据库,业务型数据库,避免冗余,一个表有一个主键

维度建模 (OLAP)

分析型数据库,更方便分析,怎么容易分析怎么来

维度建模

  1. 事实表 :
    要分析的主题是什么 , 事实表就是对应主题的表
    一般事实表都是由一坨主键(其他表)聚集组成的
    -事实表的三大分类:
事务事实表:
周期快照事实表:
累积快照事实表:
  1. 维度表:
    在分析事实表的时候, 可以需要结合其他表来进行分析, 而其他的表就是维度表
    维度表的分类:

维度建模数据模型

缓慢渐变维

简介:如何处理变化的数据
SCD1: 直接覆盖, 不保存历史变更数据, 用于错误数据的处理
SCD2: 采用拉链表方案, 建表时需要多出两个字段(起始时间和结束时间)

SCD3:
当发生数据变更后,在表中新增一个字段, 用于记录最新变更数据即可
好处:尽可能避免冗余
弊端:维护复杂, 不利于维护多个历史版本效率降低
适用于保存少量历史版本, 而且磁盘空间不足的情况下

上一篇 下一篇

猜你喜欢

热点阅读