Spark中reduceByKey()和groupByKey()
2017-12-15 本文已影响30人
AlstonWilliams
我们都知道,在Spark当中,分组操作时,提供了这么两个函数。那么,这两个方法有什么区别呢?我们应该使用哪一个呢?
我们用WordCount程序来举例。
val words = Array("one", "two", "two", "three", "three", "three")
val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))
val wordCountsWithReduce = wordPairsRDD
.reduceByKey(_ + _)
.collect()
val wordCountsWithGroup = wordPairsRDD
.groupByKey()
.map(t => (t._1, t._2.sum))
.collect()
这两种做法的结果都是正确的。
但是,在大的数据集上,reduceByKey()的效果比groupByKey()的效果更好一些。因为reduceByKey()会在shuffle之前对数据进行合并。
下面一张图就能表示reduceByKey()都做了什么。
而当我们调用reduceByKey()的时候,所有的键值对都会被shuffle到下一个stage,传输的数据比较多,自然效率低一些。