Spark-为什么比MR快

2022-06-04 本文已影响0人 Eqo

spark简介

将数据封装到rdd集合当中调用集合当中的函数处理数据
类似mr 计算引擎,针对大规模数据计算引擎,统一分析引擎,支持多种数据源

image.png

Spark Core
sprak最核心最基础的模块 ,包括 RDD 弹性分布式数据集, 任务调度、内存管理、错误恢复、与存储系统交互等 RDD和共享变量( 累加器广播变量)
Spark Sql
使用最多模块,可以使用SQL或Hive的HQL来查询数据，并可以与RDD的操作相结合使用
Sprak Streaming
spark当中做实时流处理的
Graophx
机器学习

第一 spark在处理数据时,可以将中间数据存储在内存当中
而mapreduce当中存在shuffle,频繁的跟磁盘进行io

image.png

第二 Spark Job调度方式，以DAG方式调度（作业Job，划分程很多部分：Stage阶段），并且任务Task线程方式运行。省略任务运行时频繁启动和销毁进程时间
mr都是启动一个进程去执行

image.png

第三 spark当中是把数据封装到rdd当中,调用rdd的算子去分析数据,且rdd之间有依赖性,容错率高而mr是启动一个mr到磁盘当中读取数据使用MR去处理

image.png