Spark-为什么比MR快

2022-06-04  本文已影响0人  Eqo

spark简介

将数据封装到rdd集合当中 调用集合当中的函数 处理数据
类似mr 计算引擎,针对大规模数据计算引擎,统一分析引擎,支持多种数据源

Spark的各个组件

image.png

第一 spark在处理数据时,可以将中间数据存储在内存当中
而mapreduce当中存在shuffle,频繁的跟磁盘进行io

image.png

第二 Spark Job调度方式,以DAG方式调度(作业Job,划分程很多部分:Stage阶段),并且任务Task线程方式运行。省略任务运行时频繁启动和销毁进程时间
mr都是启动一个进程去执行


image.png

第三 spark当中是把数据封装到rdd当中,调用rdd的算子去分析数据,且rdd之间有依赖性,容错率高 而mr是 启动一个mr到磁盘当中读取数据 使用MR去处理

总结

image.png
上一篇下一篇

猜你喜欢

热点阅读