Spark计算引擎

2018-03-05  本文已影响378人  溯水心生

一、Spark简介

二、Spark特点

三、Spark核心概念-RDD

1.RDD操作

RDD操作

2.RDD操作示例

rdd1.map(_+1).saveAsTextFile("hdfs://node01:9000/")

RDD输出

3.Transformation与Action对比

4.Transformation Lazy Execution

懒惰执行

5.程序执行流程

val rdd1 = sc.textFile("hdfs://192.168.183.101:9000/data/wc/in")
val rdd2 = rdd1.flatMap(_.split("\t"))
val rdd3= rdd2.map((_,1))
val rdd4 = rdd3.reduceByKey(_ + _)
rdd4.saveAsTextFile(“hdfs://192.168.183.100:9000/data/wc/out”)

Spark程序执行流程

6.RDD Dependency依赖

窄依赖
宽依赖

7.RDD Cache缓存

val rdd = sc.textFile(inputArg)
rdd.cache()//实际上是调用了rdd.persist(StorageLevel.MEMORY_ONLY)
//data.persist(StorageLevel.MEMORY_AND_DISK)

RDD缓存

四、Spark程序架构

五、Spark运行模式

1.Spark Local模式

local:只启动一个线程运行executor
local[n]:启动n个线程运行executor
local[*]:启动跟cpu数目相同的executor

2.Spark Standalone模式

3.YARN程序运行流程

Yarn执行流程

4.Spark YARN模式

Spark on yarn

5.Spark内部执行流程

Spark 内部执行流程
sc.textFile(inputArg)
.flatMap(_.split("\t"))
.map((_,1))
.reduceByKey(_ + _)
.saveAsTextFile(outArg)

逻辑查询计划

六、Spark调度模块

1.Spark任务类型和Job划分

上一篇下一篇

猜你喜欢

热点阅读