为什么MapReduce计算模型需要Shuffle过程

2018-08-15  本文已影响0人  咪雅先森

我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分 发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。

上一篇下一篇

猜你喜欢

热点阅读