2 MapReduce

2017-04-20  本文已影响11人  阿健在长安

1.MapReduce概述

1.设计理念

Paste_Image.png

把代码拷贝到节点上,而不是拷贝数据。

2.计算框架

Paste_Image.png

数据来源于HDFS的block。

Paste_Image.png

解读:图为统计文本中单词出现次数

3.Shuffler

Paste_Image.png

其框架如下:

Paste_Image.png Paste_Image.png Paste_Image.png

主要考点:partition/sort/combiner,combiner可以没有。
上面统计单词个数的框架中,map阶段就可以使用combiner,使第2个map中的(car,1)(car,1)变成(car,2)。
下图为reduce的工作流程:

Paste_Image.png

过程如上上图所说,reduce从task tracker拷贝数据,存入内存缓冲区中,満了就溢写到disk中,再合并成一个大文件(合并规则是按照键进行合并),然后作为reduce的输出。

4.split

split为把block切割成一个个片段。

Paste_Image.png

上图前3行为说明,最后一行为计算split大小的算法:先取max.split和block的最小值,再取min.split和刚才得到的最小值的最大值。

5.JobTracker和TaskTracker

Paste_Image.png
上一篇下一篇

猜你喜欢

热点阅读