1 RDD

2018-07-11  本文已影响0人  Achaichai

SparkContext

RDDs

分片

RDDs的创建方法

1 把一个存在的集合传给SparkContext的parallelize()方法,测试用

val rdd = sc.parallelize(Array(1,2,2,4),4)

第1个参数:待并行化处理的集合,第2个参数:分区个数
2 加载外部数据集

val rddText = sc.textFile("helloSpark.txt")
上一篇下一篇

猜你喜欢

热点阅读