一些Spark知识点记录
2023-01-21 本文已影响0人
某张三
Spark
RDD: 弹性分布式数据集 (Resilient Distributed DataSet)
RDD的三个基本特性:分区、不可变、并行操作
1、分区
每一个 RDD 包含的数据被存储在系统的不同节点上。
在物理存储中,每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ,其实这个数据块
就是每个 task 计算出的数据块,它们可以分布在不同的节点上。
RDD 只是抽象意义的数据集合,分区内部并不会存储具体的数据,只会存储它在该 RDD 中的 index,
通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号,然后通过底层存储层的接口提取到数据进行处理。
2、不可变
每个 RDD 都是只读的,它所包含的分区信息是不可变的。
由于已有的 RDD 是不可变的,所以我们只有对现有的 RDD 进行转化 (Transformation) 操作,
才能得到新的 RDD ,一步一步的计算出我们想要的结果。
3、并行操作
因为 RDD 的分区特性,所以其天然支持并行处理的特性。
即不同节点上的数据可以分别被处理,然后生成一个新的 RDD。
RDD的结构:
a.Partitions
b.SparkContext
c.SparkConf
d.Partitioner
e.Dependencies
f.Checkpoint
g.Preferred Location
h.Storage Level
i.Iterator