工作生活

框架:Hadoop Storm Spark Flink

2019-07-01  本文已影响0人  咩咩的毛球
一、大数据系统的处理框架
  1. 仅批处理框架:Hadoop
    仅流处理框架:Storm、Samza
    混合框架:Spark、Flink
    均 Apache
  2. 框架与引擎

引擎:负责处理数据操作的组件, 框架:承担类似作用的一系列组件。
eg:Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架,spark 可以纳入 hadoop 取代 MR


二、批处理与流处理
  1. 批处理系统:
    • 当一条数据被处理完成后,序列化到缓存中,不立刻通过网络传输到下一个节点。当缓存写满,就持久化到本地硬盘上,当所有数据都被处理完成后,再将处理后的数据通过网络传输到下一个节点。
    • 大容量静态数据,数据集有边界
    • 极海量数据集的唯一处理方法
  1. 流处理系统:
    • 当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。
    • 实时,通过系统传输的每个数据项,数据集无边界
  1. 混合处理系统:流+批
    • 主要是 spark 和 flink 实现
    • 功能重点在于两种不同处理模式如何进行统一,以及要对固定、不固定数据集之间关系的假设

参考文章:
https://www.infoq.cn/article/hadoop-storm-samza-spark-flink
https://www.digitalocean.com/community/tutorials/hadoop-storm-samza-spark-and-flink-big-data-frameworks-compared

上一篇 下一篇

猜你喜欢

热点阅读