Spark 任务调度之 Driver 发送 Task 到 Exe

2018-05-13 本文已影响0人博弈史密斯

Driver 发送 Task 到 Executor

SparkContext初始化完毕后，执行用户编写代码

SparkPi中调用RDD的reduce，reduce中
调用 SparkContext.runJob 方法提交任务，SparkContext.runJob方法调用DAGScheduler.runJob方法

DAGScheduler中，根据rdd的Dependency生成stage，stage分为ShuffleMapStage和ResultStage两种类型，根据stage类型生成对应的task，分别是ShuffleMapTask、ResultTask，最后调用 TaskScheduler 的 submitTasks提交任务，submitTasks 是接口方法，最终实现是在 TaskSchedulerImpl 中实现。
TaskSchedulerImpl 方法中最终调用 backend.reviveOffers()，backend 的子类为 CoarseGrainedSchedulerBackend。其实现了 reviveOffers 方法，最终执行 launchTasks(taskDescs)

查看 launchTasks(taskDescs) 如下：

//从 executorDataMap 中取 executorData，executorData 中保存了 Executor的连接方式 RpcEndpointRef
val executorData = executorDataMap(task.executorId)
executorData.freeCores -= scheduler.CPUS_PER_TASK

executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))

executorDataMap中保存了Executor的连接方式，关于Executor如何注册到executorDataMap中，参考Spark 任务调度之创建Executor。

Executor接收Task:
Worker节点的CoarseGrainedExecutorBackend进程接收Driver（其实是 TaskScheduler，DAGScheduler、TaskScheduler 都是通过 SparkContext启动的，用户的jar包也就是用户写的程序都是属于 Driver）发送的task，交给Executor对象处理，如下