Spark任务输出追踪器MapOutputTracker详解

2019-07-01  本文已影响0人  叫我不矜持
一.什么是shuffle

MapOutputTrancker用于跟踪map任务的输出状态,此状态便于reduce任务定位到map输出结果所在的节点地址,进而获取中间输出结果,每个map任务或者reduce任务,都会有其唯一的标识,分别为mapid和reduceid,每个reduce任务的输入可能是多个map任务的输出,因为reduce可能会到多个map任务所在的节点上去拉取Block,这一过程叫做shuffle,每次shuffle的过程都有其唯一的标识shuffleid.

二.MapOutputTrancker的创建方式

在Driver端和Executor端启动的同时,都会创建MapOutputTracker的实例,不同的是Driver端创建的是MapOutputTrackerMaster,Executor端创建的是MapOutputTranckerWoker。

三.MapOutputTrancker的属性
四.获取mapStatus的流程

1.首先 从当前Executor中的MapOutputTracker的mapStatuses缓存中,获取MapStatus数组,如果没有则向远端Driver中的MapOutputTranckerMaster去获取任务状态信息。

2.然后 判断fetching中是否已经存在要获取的shuffleid,如果有,这就说明有其他线程对此shuffleid的数据进行远程拉取了,这样就等待其他线程拉取完毕,直到fetching中不存在要取的shuffleid,这时就从mapStatuses中再次获取mapStatus集合。

3.如果还获取不到,则说明其他线程拉取失败了,则需要自己去拉取数据,首先将shuufleid加入fetching集合中,表示当前shuffleid的任务状态信息,已经有线程在拉取了,之后会调用ackTracker方法,向MapOutputTrackerMasterEndpoint发送消息去获取map任务的状态信息。

4.之后 MapOutputTrackerMaster接受到该消息之后,将请求包装成MapOutputMessage消息,放入到消息队列,异步的去处理该消息。

5.最后 返回任务状态信息mapStatus数组。

6.注意 MapOutputTrancker中会有线程池,区别于Dispatcher中的线程池,同时还有MessageLoop,和Dispatcher中非常相似。

五.ShuffleReader如何使用mapStatus

1.在ShuffleRDD的compute方法中,会获取BlockStoreShuffleReader,然后在BlockStoreShuffleReader中,会调用mapOutputTracker.getMapSizesByExecutorId方法获取一组二元组序列Seq[(BlockManagerId, Seq[(BlockId, Long)])],第一项代表了BlockManagerId,第二项描述了存储于该BlockManager上的一组shuffle blocks。

2.getMapSizesByExecutorId会调用getStatuses方法获取MapStatus集合,然后最后返回MapStatus集合。

3.最后根据执行的分区范围[startPartition, endPartition]将返回的结果Array[MapStatus]转换成Seq[(BlockManagerId, Seq[(BlockId, Long)])]。

4.利用这个Seq[(BlockManagerId, Seq[(BlockId, Long)])],去指定的BlockManager中去拉取对应的Block块的数据用来迭代计算。

上一篇下一篇

猜你喜欢

热点阅读