map reduce
2016-09-26 本文已影响24人
cammsia
map reduce1的任务处理流程
- 输入数据
- 数据分片
- map处理
-
map shuffle(混淆)
collector -> 缓冲区 ->到达阈值就sortAndSpill磁盘 ->merge
5 combine(本地的reduce, 不是什么统计都能用combine)
map reduce - reduce shuffle
复制map输出(先复制到内存,超过阈值就flush磁盘)->排序合并
map reduce - reduce
- 输出数据