1 RDD

2018-07-11 本文已影响0人 Achaichai

SparkContext

Driver programs 通过SparkContext对象访问Spark
SparkContext对象代表和一个集群的连接
在Shell中SparkContext自动创建好了，就是sc

RDDs

Resilient distributed datasets(弹性分布式数据集，简写RDDs）
这些RDDs，并行的分布在整个集群中。
RDDs是Spark分发数据和计算的基础抽象类
一个RDD是一个不可改变的分布式集合对象
Spark中，所有的计算都是通过RDDs的创建，转换，操作完成的
一个RDD内部由许多partitions（分片）组成

分片

每个分片包括一部分数据，partitions可在集群不同节点上计算
分片是Spark并行处理的单元，Spark顺序的，并行的处理分片

RDDs的创建方法

1 把一个存在的集合传给SparkContext的parallelize()方法，测试用

val rdd = sc.parallelize(Array(1,2,2,4),4)

第1个参数：待并行化处理的集合，第2个参数：分区个数
2 加载外部数据集

val rddText = sc.textFile("helloSpark.txt")

上一篇下一篇

猜你喜欢

热点阅读