我爱编程

大数据平台基础架构和常用处理工具

2016-11-07  本文已影响308人  jackLee

主要包括如下部分内容:

数据流

数据的收集-->数据的传输-->数据的处理--->数据的处理

大数据在线分析处理

其中数据的处理一般设计数据的聚合,数据处理和展现都是秒级或毫秒级

针对这些问题目前形成了Flume+kafka+stom/Spark+habse/redis的技术架构解决方案。

Hadoop V1到Hadoop V2
  • Hive介绍

    • Hive是一种以SQL风格进行任何大小数据分析的工具,其特点是采取类似关系数据库的SQL命令。其特点是通过SQL处理Hadoop的大数据,数据规模可以伸缩扩展到100PB+,数据形式可以是结构或非结构数据。
    • Hive是一种数据仓库,而Hbase是一种分布式的数据库
    • Hive组织数据包含四种层次:DataBase --> Table --> Partition --> Bucket,对应在HDFS上都是文件夹形式
    • HQL最终转换为MapReduce执行
  • Hive架构图1 Hive架构图2

    参考资料

    上一篇下一篇

    猜你喜欢

    热点阅读