Spark 数据倾斜调优

2017-08-06  本文已影响0人  Java旅行者

1.使用Hive ETL预处理数据

2.过滤少数导致倾斜的key

SampleOperator

sample算子的使用:nameRDD.sample(false,0.75),false代表不放回的抽样,0.75代表从整体中抽多少数据。

3.提高shuffle操作的并行度

4.双重聚合

DoubelReduceByKey

5.将reduce join转为map join

6.采样倾斜key并分拆join操作

7.使用随机前缀和扩容RDD进行join

上一篇 下一篇

猜你喜欢

热点阅读