《Spark技术内幕》读书笔记——RDD源码

2022-01-02 本文已影响0人抬头挺胸才算活着

主要属性
1、Partition
RDD将数据分成多个分区，交给不同的Task计算，Partition记录了不同分区的数据的地址。每个分区的数据为一个Block，由BlockManager管理

2、一个计算每个分区的函数
3、RDD之间的依赖关系Lineage
4、分片函数
5、一个存储每个Partition的优先位置的列表。以“移动数据不如移动计算”的原则，这个列表可以在Spark计算某个Partition的时候，在存储Partition的节点上计算。
RDD之间的关系可以从两个角度理解：
1、父parent是谁？
2、依赖父parent哪些partition，从这个角度依赖可以分为宽依赖和窄依赖，具体可以看下《Spark大数据处理》读书笔记——容错机制

上一篇下一篇

猜你喜欢

热点阅读