Spark-为什么比MR快
2022-06-04 本文已影响0人
Eqo
spark简介
将数据封装到rdd集合当中 调用集合当中的函数 处理数据
类似mr 计算引擎,针对大规模数据计算引擎,统一分析引擎,支持多种数据源
Spark的各个组件
image.png- Spark Core
sprak最核心 最基础的模块 ,包括 RDD 弹性分布式数据集, 任务调度、内存管理、错误恢复、与存储系统交互等 RDD和共享变量( 累加器 广播变量) - Spark Sql
使用最多模块,可以使用SQL或Hive的HQL来查询数据,并可以与RDD的操作相结合使用 - Sprak Streaming
spark当中做实时流处理的 - Graophx
机器学习
第一 spark在处理数据时,可以将中间数据存储在内存当中
而mapreduce当中存在shuffle,频繁的跟磁盘进行io
第二 Spark Job调度方式,以DAG方式调度(作业Job,划分程很多部分:Stage阶段),并且任务Task线程方式运行。省略任务运行时频繁启动和销毁进程时间
mr都是启动一个进程去执行
image.png
第三 spark当中是把数据封装到rdd当中,调用rdd的算子去分析数据,且rdd之间有依赖性,容错率高 而mr是 启动一个mr到磁盘当中读取数据 使用MR去处理