Mapreduce shuffle过程

2017-03-14  本文已影响0人  磊宝万岁

MapReduce 编程模型是Hadoop的核心部分,具有很强的分布式计算能力,主要包含互相独立的两部分Map阶段和Reduce阶段。

参与Mapping工作的机器可以完全独立工作而不需要知道其他机器上有什么数据;参与Reducing步骤的机器,由于数据之前已经按照key进行了分组,因此其他机器上有什么数据与他毫无关系。参与计算的机器都是互相独立,完全不依赖其他机器的数据,这样就可以很方便写代码,因为所有参与Mapping工作的机器使用一模一样的代码,所有参与Reducing工作的机器也使用一模一样的代码。

MapReduce 中各个阶段过程图

MapReduce 中各个阶段过程图

已上图为例,了解执行过程

shuffle过程详解:####

Map端的shuffle过程

Map端的shuffle过程

Reduce端的shuffle过程

Reduce端的shuffle过程
上一篇 下一篇

猜你喜欢

热点阅读