大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据

Spark学习笔记三《图解Spark核心技术与案例实战》阅读之R

2019-10-29  本文已影响0人  BitGuo

之前的集群容错处理模型比如MapReduce,Dryad等,都是将计算转换为一个DAG,是的模型能有效的恢复DAG中的故障和慢节点执行的任务,但是没有提供除了文件系统之外的其他存储方式,导致在网络上要频繁的数据复制,造成IO压力。
RDD提供一种粗粒度的变换如(map,filter,join等)接口,这些接口将相同的操作应用到多个数据集上,这样便使得它们可以记录创建数据集的血统 Lineage,而不需要存储真正的数据,从而达到高容错性。

Spark之RDD类型

Spark开发者首先需要编写一个Driver程序来连接到各个Worker节点,Driver定义一个或多个RDD以及相关的行动操作,driver同时记录RDD的继承关系即血统,而worker是一直运行的进程,它将经过一系列操作后的RDD分区数据保存在内存中。
Spark中的操作大致分为4类,(Spark其实只划分了2类,但是这本书的作者认为存在4类)。
前两种是官方文档定义的两类操作:

Spark之RDD实现

作业调度
当对RDD进行转换操作时,调度器根据RDD血统来构建调度阶段stage,划分的依据是RDD之间的宽依赖窄依赖,同一个stage中只存在窄依赖,遇到宽依赖则要切割成前后两个stage。

Spark的Scala解析器

也就是spark的shell
Scala的shell解析器处理过程一般为:

  1. 将用户的每一行变异为一个类
  2. 将该类载入到JVM中去
    例如用户在第一行输入以下:
var x =5

shell将会定义一个叫做Line1的类,该类包含x。

  1. 调用该类的某个函数,在该类中包含一个单例对象,对象中包含当前行的变量或函数,在初始化方法中包含处理该行的代码。
    例如用户在第二行输入以下:
println(x)

该行被编译为println(Lineq.getInstance().x)

RDD内存管理

Spark的三种RDD持久化策略

Spark对内存使用LRU的回收算法。

CheckPoint

血统提供了很方便的RDD错误恢复机制,但是当血统链太长的时候,恢复耗时长。通常情况下,会对包含宽依赖的长血统设置checkpoint

RDD的转换操作 transformations

基础操作

重新分区

RDD的行动操作 actions

在spark shell中使用saveAsTextFile将一个rdd对象存入hdfs中,然后查看。




保存的形式是一个文件夹,里面包含三个文件,一个_SUCCESS文件,两个part文件,因为我们的在建立rdd1的时候是指定的两个分区。


上一篇 下一篇

猜你喜欢

热点阅读