1 RDD
2018-07-11 本文已影响0人
Achaichai
SparkContext
- Driver programs 通过SparkContext对象访问Spark
- SparkContext对象代表和一个集群的连接
- 在Shell中SparkContext自动创建好了,就是sc
RDDs
- Resilient distributed datasets(弹性分布式数据集,简写RDDs)
这些RDDs,并行的分布在整个集群中。 - RDDs是Spark分发数据和计算的基础抽象类
- 一个RDD是一个不可改变的分布式集合对象
- Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的
- 一个RDD内部由许多partitions(分片)组成
分片
- 每个分片包括一部分数据,partitions可在集群不同节点上计算
- 分片是Spark并行处理的单元,Spark顺序的,并行的处理分片
RDDs的创建方法
1 把一个存在的集合传给SparkContext的parallelize()方法,测试用
val rdd = sc.parallelize(Array(1,2,2,4),4)
第1个参数:待并行化处理的集合,第2个参数:分区个数
2 加载外部数据集
val rddText = sc.textFile("helloSpark.txt")