ms

Spark宽依赖与窄依赖

2017-04-11  本文已影响0人  不圆的石头

Spark中RDD的高效与DAG(有向无环图)有很大的关系,在DAG调度中需要对计算的过程划分Stage,划分的依据就是RDD之间的依赖关系。RDD之间的依赖关系分为两种,宽依赖(wide dependency/shuffle dependency)和窄依赖(narrow dependency)

1.窄依赖

窄依赖就是指父RDD的每个分区只被一个子RDD分区使用,子RDD分区通常只对应常数个父RDD分区,如下图所示【其中每个小方块代表一个RDD Partition】

窄依赖.png

窄依赖有分为两种:

2.宽依赖

宽依赖就是指父RDD的每个分区都有可能被多个子RDD分区使用,子RDD分区通常对应父RDD所有分区,如下图所示【其中每个小方块代表一个RDD Partition】

宽依赖.png

3.窄依赖与窄依赖比较

分区丢失.png

4.宽依赖,窄依赖函数

上一篇 下一篇

猜你喜欢

热点阅读