《Spark技术内幕》读书笔记——RDD源码
2022-01-02 本文已影响0人
抬头挺胸才算活着
-
主要属性
1、Partition
RDD将数据分成多个分区,交给不同的Task计算,Partition记录了不同分区的数据的地址。每个分区的数据为一个Block,由BlockManager管理
2、一个计算每个分区的函数
3、RDD之间的依赖关系Lineage
4、分片函数
5、一个存储每个Partition的优先位置的列表。以“移动数据不如移动计算”的原则,这个列表可以在Spark计算某个Partition的时候,在存储Partition的节点上计算。 -
RDD之间的关系可以从两个角度理解:
1、父parent是谁?
2、依赖父parent哪些partition,从这个角度依赖可以分为宽依赖和窄依赖,具体可以看下《Spark大数据处理》读书笔记——容错机制