Spark概念

2020-03-16  本文已影响0人  今天比昨天努力

RDD

是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度。

RDD的算法分为两类:一类是Transformation(lazy)、一类是Action(触发任务执行)

RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入了什么函数)

创建RDD方式:

  1 通过外部的存储系统创建RDD;

  2 将Driver的Scala集合通过并行化的方式编程RDD(试验、测试);3 调用一个已经存在的RDD的Transformation,会生成一个新的RDD

 RRD的Transformation特点

  1 lazy

  2 shengchengxinde RDD

上一篇 下一篇

猜你喜欢

热点阅读