spark

1.2 Spark-RDD弹性的七大特性

2019-07-05  本文已影响0人  不羁之后_

1.自动进行内存和磁盘存储的切换

spark会优先将数据存储在内存中,如果内存放不下,才把数据写入磁盘,不但能计算内存中的数据,也能计算内存放不下的数据。

2.基于Lineage(血统)高容错机制

Lineage是基于spark的依赖关系来完成,每个操作只关联父操作,各分片之间的数据互不影响,出现错误的时候只需要恢复单个的split特定部分。

常规容错方式有两种:

数据检查点

通过数据中心的网络连接各台机器,如果发生checkPoint的时候就需要复制数据,复制是要通过网络传输的,因此网络宽带是分布式的瓶颈,对存储的资源也是很大的消耗。

记录数据的更新

当有数据更新的时候,就需要记录数据,这种方式不需要复制数据集。

3.Task失败会进行特定次数的重试

默认重试次数是4次。TaskSchedulimpl的源码如下:

  def this(sc: SparkContext) = {
    this(
      sc,
      sc.conf.get(config.MAX_TASK_FAILURES),
      TaskSchedulerImpl.maybeCreateBlacklistTracker(sc))
  }

  private[spark] val MAX_TASK_FAILURES =
    ConfigBuilder("spark.task.maxFailures")
      .intConf
      .createWithDefault(4)

4.Stage失败,会自动进行特定次数的重试

Stage可以跟踪多个StageInfo(存储SparkListener监听到的所有Stage信息,将Stage信息传递给Listeners或web UI)。重试默认次数是4次,且可以直接运行计算失败的阶段,只计算失败的数据分片,具体Stage源码如下:

private[spark] object DAGScheduler {
  // The time, in millis, to wait for fetch failure events to stop coming in after one is detected;
  // this is a simplistic way to avoid resubmitting tasks in the non-fetchable map stage one by one
  // as more failure events come in
  val RESUBMIT_TIMEOUT = 200

  // Number of consecutive stage attempts allowed before a stage is aborted
  val DEFAULT_MAX_CONSECUTIVE_STAGE_ATTEMPTS = 4
}

5.checkpoint和persist(检查点和持久化),可以主动或被动触发

checkpoint是对RDD进行的标记,会产生一系列的文件,且所有父依赖都会被删除,是整个依赖的终点。checkpoint是lazy级别的。
persist后,RDD的每个分片会保存在内存或磁盘中,下一次使用相同RDD进行其他action计算的时候,就可以重用。

6.数据调度弹性、DAGSchedule、TaskSchedule调度和资源调度无关

spark讲执行模型抽象成有向无环图(Stage),各个Stage之间可以串行或这并行,从而不需要把Stage的中间结果输出到HDFS中,当节点发生故障时,其他节点可以替代该节点运行。

7.数据分片的高度弹性

上一篇 下一篇

猜你喜欢

热点阅读