Spark学习笔记2

2016-02-27  本文已影响276人  wangmin

Overview

Initializing Spark

SparkConf conf = new SparkConf.setAppName(appName).setMaster(url);
JavaSparkContext sc = new JavaSparkContext(conf); 

Resilient Distributed Datasets (RDDs)

在并行数组中一个很重要的参数是partitions,它来描述数组被切割的数据集数量。Spark会在每一个partitions上运行任务,这个partitions会被spark自动设置,一般都是集群中每个CPU上运行2-4partitions,但是也可以自己设置,可以通过parallelize (e.g. sc.parallelize(data, 10)),在有些地方把partitions成为 slices。

External Datasets

textFile也可以设置partitions参数,一般都是一个block一个partitions,但是也可以自己设置,自己设置必须要不能少于block的数量。

针对Hadoop的其他输入格式,你能用这个JavaSparkContext.hadoopRDD方法,你需要设置JobConf和输入格式的类。也可以使用JavaSparkContext.newAPIHadoopRDD针对输入格式是基于“new”的MapReduceAPI

RDD Operations

RDD的操作可以分成两类:

1. transformations 
2. actions
上一篇 下一篇

猜你喜欢

热点阅读