sparkspark学习Spark在简书

Spark在提交多个作业时Stage划分的小思考

2018-04-04  本文已影响38人  找不到工作的_Ngone

本文要求读者了解DAGScheduler如何划分一个作业的stages。本文主要内容是作者个人关于spark在提交多个作业时,stage划分的一些小思考。

假设我们有如下图所示的rdd依赖图:


spark-job-submit.png

NOTE:rdd3、rdd6、rdd5分别为job0、job1、job2的final rdd。我们以job0、job1、job2的顺序依次提交这3个作业,得到如图所示的stage划分。(或许你可以自己尝试一下stage划分,看看划分的结果是不是和图中一样。)

关于这张图,简单说两点:

注:此文对stage abort的描述过于简单,具体abort过程请看我的另一篇文章《Spark之abort stage》

上一篇下一篇

猜你喜欢

热点阅读