DataAn

一些Spark知识点记录

2023-01-21  本文已影响0人  某张三

Spark

RDD: 弹性分布式数据集 (Resilient Distributed DataSet)

RDD的三个基本特性:分区、不可变、并行操作

1、分区

每一个 RDD 包含的数据被存储在系统的不同节点上。

在物理存储中,每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ,其实这个数据块

就是每个 task 计算出的数据块,它们可以分布在不同的节点上。

RDD 只是抽象意义的数据集合,分区内部并不会存储具体的数据,只会存储它在该 RDD 中的 index,

通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号,然后通过底层存储层的接口提取到数据进行处理。

2、不可变

每个 RDD 都是只读的,它所包含的分区信息是不可变的。

由于已有的 RDD 是不可变的,所以我们只有对现有的 RDD 进行转化 (Transformation) 操作,

才能得到新的 RDD ,一步一步的计算出我们想要的结果。

3、并行操作

因为 RDD 的分区特性,所以其天然支持并行处理的特性。

即不同节点上的数据可以分别被处理,然后生成一个新的 RDD。

RDD的结构:

a.Partitions

b.SparkContext

c.SparkConf

d.Partitioner

e.Dependencies

f.Checkpoint

g.Preferred Location

h.Storage Level

i.Iterator

上一篇下一篇

猜你喜欢

热点阅读