spark RDD

2019-10-13  本文已影响0人  Phoebe_Liu

job由stage构成,stage由task构成。
job:一个action就是一个job
job-划分->stage:当遇到宽依赖,则划分一个stage。
stage-划分->task:task对等partition概念。

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的.

RDD:不可变、只读的,可被分区的数据集

RDD特性:

RDD分区及分区与工作节点的分布关系

图 1 RDD 分区及分区与工作节点的分布关系

RDD基本操作:transformation + action

transformation:惰性、实际没有执行、直到action操作才真正运行
表 1 RDD转换操作(rdd1={1, 2, 3, 3},rdd2={3,4,5})

action操作:行动操作接受 RDD,但是返回非 RDD,即输出一个值或者结果

     val wordCounts = textFile.flatMap(line => line.split(" ")) //flatmap:  将一行文本 split 成多个单词
           .map(word => (word, 1))
          .reduceByKey((a, b) => a + b)
(python)
    data = [('tom',90),('jerry',97),('luck',92),('tom',78),('luck',64),('jerry',50)]
    rdd = sc.parallelize(data)
    print rdd.groupByKey().map(lambda x: (x[0],list(x[1]))).collect()
   # 输出:
   [('tom', [90, 78]), ('jerry', [97, 50]), ('luck', [92, 64])]
        // reduceByKey,按照相同的key进行reduce操作
        List<String> list = Arrays.asList("key1", "key1", "key2", "key2", "key3");
        JavaRDD<String> stringRDD = javaSparkContext.parallelize(list);
        //转为key-value形式
        JavaPairRDD<String, Integer> pairRDD = stringRDD.mapToPair(k -> new Tuple2<>(k, 1));
        List list1 = pairRDD.reduceByKey((x, y) -> x + y).collect();
        System.out.println(list1)

RDD依赖类型:血缘关系的依赖分为窄依赖和宽依赖。

窄依赖是指父 RDD 的每个分区 最多 会被1个子 RDD 的分区所使用。
宽依赖是指父 RDD 的每个分区 会被多个子分区所依赖。

map、filter、union 等操作是窄依赖,而 groupByKey、reduceByKey 等操作是宽依赖。

join 操作有两种情况,如果 join 操作中使用的每个 Partition 仅仅和固定个 Partition 进行 join,则该 join 操作是窄依赖,其他情况下的 join 操作是宽依赖。

所以可得出一个结论,窄依赖不仅包含一对一的窄依赖,还包含一对固定个数的窄依赖,也就是说,对父 RDD 依赖的 Partition 不会随着 RDD 数据规模的改变而改变。

  1. 窄依赖
    1)子 RDD 的每个分区依赖于常数个父分区(即与数据规模无关)。
    2)输入输出一对一的算子,且结果 RDD 的分区结构不变,如 map、flatMap。
    3)输入输出一对一的算子,但结果 RDD 的分区结构发生了变化,如 union。
    4)从输入中选择部分元素的算子,如 filter、distinct、subtract、sample。

  2. 宽依赖
    1)子 RDD 的每个分区依赖于所有父 RDD 分区。
    2)对单个 RDD 基于 Key 进行重组和 reduce,如 groupByKey、reduceByKey。
    3)对两个 RDD 基于 Key 进行 join 和重组,如 join。

Spark 的这种依赖关系设计,使其具有了天生的容错性,大大加快了 Spark 的执行速度。RDD 通过血缘关系记住了它是如何从其他 RDD 中演变过来的。当这个 RDD 的部分分区数据丢失时,它可以通过血缘关系获取足够的信息来重新运算和恢复丢失的数据分区,从而带来性能的提升。

相对而言,窄依赖的失败恢复更为高效,它只需要根据父 RDD 分区重新计算丢失的分区即可,而不需要重新计算父 RDD 的所有分区。而对于宽依赖来讲,单个结点失效,即使只是 RDD 的一个分区失效,也需要重新计算父 RDD 的所有分区,开销较大。

常用算子

上一篇下一篇

猜你喜欢

热点阅读