大数据

2018-10-24 本文已影响0人茶尽

HDFS 分布式文件系统

按块存储
- 支持大规模文件存储
- 简化系统设计
- 数据备份
名称节点，整个HDFS集群的管家。
- FsImage和editlog
- 通过shell命令，从上述两个地方最新的元数据，创建一个新版的FsImage（名称节点），创建一个空的　editlog(editlog依然会变大)
- 第二名称节点（帮助解决editlog过大＆冷备份）
  - 冷备份过程：第二名称节点与名称节点定期通信，过大叫停，名称节点创建edit.new，第二名称节点把FsImage和editlog拷贝到本地合并成一个新的FsImage，名称节点将edit.new改为editlog
数据节点，负责存储实际数据。
体系结构：hdfs读写先通过名称节点，去读取数据节点．
- 命名空间　目录＋文件＋块
存储原理，冗余数据保存
- 加快传输速度
- 容易检查错误
- 保证可靠性
数据读取
- 打开文件，生成fsDataInput Stream输入流，封装了distribution filesystem类对象。
- 获取数据块信息，与名称节点沟通，将文件数据块地址信息返回。
- 读取数据，输入流执行read，从距离客户端最近的数据节点开始读。关闭连接。
- 再次获取数据块信息并读取数据。关闭文件。
写数据
- 创建文件请求，生成FSDataOutputStream封装一个distribution filesystem类对象。
- 创建文件元数据，调用名称节点，名称节点进行检查。
- 写数据，流水线复制。把数据分成包，放入输出流。数据节点形成一个管道，分包依次发放，客户端发到第一个，第一个发到第二个（复制）……，确认包从最后一个数据节点往前传，传到客户端。
- 关闭文件。

MapReduce

一种分布式变成框架。计算向数据靠拢，将应用程序分发到数据所在的机器。map函数输入是一个键值对，输入是一堆键值对。reduce函数输入是一个<key,value-list>，输出是一个<key,value>。
体系结构。

client客户端
jobtracker 作业跟踪
tasktracker 任务调度执行jobtracker发送的命令
slot是一个任务调度单位（资源单位，2.0已经取消），分为map类型和reduce类型。task也分为map类型和reduce类型。

工作流程。from hdfs对大规模数据集进行分片操作（split，逻辑上），生成很多map任务（由分片数量决定），对每一个map分成多个reduce任务（shuffle），输出到hdfs。

map任务和reduce任务之间不进行通信。

shuffle过程。

输入数据进行分片处理，map之后输入处理结果（一堆键值对），写入缓存，满了之后溢写到磁盘中。通过reduce任务取走，经过归并，合并输入到reduce函数，输出到hdfs。

写到缓存是因为：减少寻址开销，一次寻址批量写入
溢写包括：分区，排序，合并
map端的shuffle：分区，分区给不同的reduce任务，按照key排序，合并是为了减少溢写到磁盘的数量（如果不经过combine，结果是key-value list，经过的话，结果是key-value n）。
-reduce端的shuffle：从多个map任务拷贝到reducer，归并数据，写入磁盘。

Spark

spark与hadoop对比

hadoop表达能力有限，磁盘io开销大（都写到hdfs里），延迟高，任务之间的连接涉及io开销，难以胜任复杂/多阶段的任务。
提供了多种数据集操作，提供了内存计算效率更高，DAG迭代机制。

架构
优点：利用多线程执行任务，减少任务启动开销。executor有一个blockmanager存储模块，将内存和磁盘作为存储设备，较少io开销。

一个application有一个driver和多个job，一个job包含多个stage，一个stage包括多个task。执行一个application，driver向集群管理器申请资源，启动executor，执行task，结束后把结果返回。
流程