Spark在简书Spark深入学习大数据&云计算

MapReduce过程、Spark和Hadoop以Shuffle

2015-08-13  本文已影响3447人  popsheng

mapreduce与Spark的map-Shuffle-reduce过程




  • 对于不需要进行排序的Shuffle操作来说,如repartition等,如果文件数量不是特别巨大,HashShuffleManager面临的内存问题不大,而SortShuffleManager需要额外的根据Partition进行排序,显然HashShuffleManager的效率会更高。
  • 而对于本来就需要在Map端进行排序的Shuffle操作来说,如ReduceByKey等,使用HashShuffleManager虽然在写数据时不排序,但在其它的步骤中仍然需要排序,而SortShuffleManager则可以将写数据和排序两个工作合并在一起执行,因此即使不考虑HashShuffleManager的内存使用问题,SortShuffleManager依旧可能更快。
上一篇 下一篇

猜你喜欢

热点阅读