Storm和Hadoop的区别

2019-04-21 本文已影响16人裘马轻狂大帅

首先整体认识：

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；

Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。
原理角度来讲

Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。

Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

1.数据来源

HADOOP处理的是HDFS上TB级别的数据(历史数据)，STORM是处理的是实时新增的某一笔数据(实时数据)；

2.处理过程

HADOOP是分MAP阶段到REDUCE阶段，STORM是由用户定义处理流程，流程中可以包含多个步骤，每个步骤可以是数据源(SPOUT)或处理逻辑(BOLT)；

3.是否结束

HADOOP最后是要结束的，STORM是没有结束状态，到最后一步时，就停在那，直到有新数据进入时再从头开始；

4.处理速度

HADOOP是以处理HDFS上TB级别数据为目的，处理速度慢，STORM是只要处理新增的某一笔数据即可，可以做到很快；

5.适用场景

HADOOP是在要处理批量数据时用的，不讲究时效性，STORM是要处理某一新增数据时用的，要讲时效性。