《大数据与机器学习》读书笔记(一) 数据与数据平台

2017-03-12  本文已影响0人  卷福不卷

数据环境与数据形态

对于企业经营中产生的数据有三种形态:

数据仓库平台

数仓本质是解决大批量数据的入口与出口问题,为分析与应用提供支持。该书作者认为能稳定提供“顺滑”数据服务的数仓需要注下面两点:

  1. 更新规则:

    分全量更新与增量更新两种方式。更新过程中要注意“部分提交”与“数据断档”问题,可行的解决方案是<u>增加中间表</u>,如图

    20170212_1.jpg
  2. 存储规则:

    分析发现,数仓用户使用的交易数据90%集中在近三个月,60%的作业仅集中在近一个月。所以可行的办法是“<u>大表拆小表,小表组视图</u>”,提高访问效率。

大数据平台

之前一直把Hive与Hbase的概念混淆,趁此机会搞清楚。

Hbase Hive
基于HDFS的非关系型数据库(KV型) 关系型数据结构,是用SQL替代写MR的编程框架
物理表,适合存放非结构化的数据 纯逻辑表,本身不存储数据,完全依赖于HDFS和MR
处理数据是基于列的模式 基于MR处理数据,而MR是基于行的模式
HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统
适合实时查询 适合查询分析统计
上一篇 下一篇

猜你喜欢

热点阅读