数据科学家首页投稿(暂停使用,暂停投稿)程序员

Spark源码解析:RDD

2017-05-21  本文已影响2150人  2453cf172ab4

0x00 前言

本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。

本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。

文章结构

  1. 先回顾一下RDD的一些特征以及几个基本概念
  2. RDD源码分析,整体的源码设计
  3. 举一个例子,通过这个例子来一步步地追踪源码。

0x01 概念

什么是RDD

RDD(Resilient Distributed Dataset):弹性分布式数据集。

我们可以先大致这样理解RDD:RDD是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来处理这些数据。

注意:RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。

RDD的5个特征

下面是源码中对RDD类的注释:

Internally, each RDD is characterized by five main properties:

  • A list of partitions
  • A function for computing each split
  • A list of dependencies on other RDDs
  • Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
  • Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

也是说RDD会有5个基本特征:

  1. 有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。

  2. 有一个函数计算每一个分片,这里指的是下面会提到的compute函数。

  3. 对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖。

  4. 可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce。

  5. 可选:每一个分片的优先计算位置(preferred locations),比如HDFS的block的所在位置应该是优先计算的位置。

宽窄依赖

这里有必要稍微解释一下窄依赖(narrow dependency)和宽依赖(wide dependency)。

如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。

例如map操作会产生narrow dependency,而join操作则产生wide dependency。

如图,两种依赖的区别:

微信公众号
上一篇 下一篇

猜你喜欢

热点阅读