【Spark学习笔记】详解RDD

2019-07-22  本文已影响0人  不可能打工

1.Driver program

包含程序的main()方法,RDDs的定义和操作。它管理很多节点,我们称为executors


image.png

2.SparkContext

3.RDDs

4.RDDs血统关系图

Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。
Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。


image.png

5.延迟计算(Lazy Evaluation)

6.RDD.persist()

默认每次在RDDs上面进行action操作时,Spark都重新计算RDDs。如果想重复利用一个RDD
,可以使用RDD.persist() unpersist()方法从缓存中移除

RDD.persist(MEMORY_ONLY)
RDD.persist(MEMORY_ONLY_SER) 序列化消耗CPU
RDD.persist(DISK_ONLY)

上一篇 下一篇

猜你喜欢

热点阅读