python机器学习爬虫

Spark--Spark Shuffle细节掌握(面试类)问题

2019-04-01  本文已影响69人  李小李的路

Spark Shuffle Read阶段是如何读取数据的

Spark shuffle reducer的结果是如何存储的?

Spark中不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快?

Spark中的HashShufle的有哪些不足?

1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;
2).容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的化,容易出现OOM;
3)容易出现数据倾斜,导致OOM。

Spark中Sort-based shuffle的缺陷?

上一篇下一篇

猜你喜欢

热点阅读