153、Spark内核原理进阶之reduceByKey算子内部实

2019-01-24 本文已影响0人 ZFH__ZJ

先看原理图

reduceByKey.png

reduceByKey，跟groupByKey有一些异同之处

不同之处：reduceByKey，多了一个rdd，MapPartitionsRDD，存在于stage0的，主要是代表了进行本地数据归约之后的rdd。所以，要网络传输的数据量，以及磁盘IO等，会减少，性能更高。
相同之处：后面进行shuffle read和聚合的过程基本和groupByKey类似。都是ShuffledRDD，去做shuffle read。然后聚合，聚合后的数据就是最终的rdd。wordCounts rdd。

上一篇下一篇

猜你喜欢

热点阅读