大数据

Spark概述(入门必看)

2021-12-31  本文已影响0人  Data跳动

Spark系列 的文章将对Spark技术进行一个梳理和总结,在介绍知识点时尽可能地以通俗易懂的方式来展开,希望能够给正要学习Spark的小伙伴们在理解上带来帮助。

本篇学习目标

  • 初步认识Spark

背景

Spark作为一个用来快速实现大规模数据计算的通用分布式大数据计算引擎,是大数据开发工程师必备的一项技术栈。Spark相对Hadoop具有较大优势,但Spark并不能完全替代Hadoop。实际上,Spark已经很好地融入了Hadoop家族,作为其中一员,主要用于替代Hadoop中的MapReduce计算模型。

Spark的优势

Spark拥有Hadoop MapReduce所具备的优点,但不同的是,Hadoop每次经过job执行的中间结果都会存储在HDFS上,而Spark执行job的中间过程数据可以直接保存在内存中,无需读写到HDFS磁盘上。因为内存的读写速度与磁盘的读写速度不在一个数量级上,所以Spark利用内存中的数据可以更快地完成数据的计算处理。

此外,由于Spark在内部使用了弹性分布式数据集(Resilient Distributed Dataset,RDD),经过了数据模型的优化,即便在磁盘上进行分布式计算,其计算性能也是高于Hadoop MapReduce的。

Spark的特点


以上是本期分享,如有帮助请大家记得 点赞+关注+在看 支持下哦~
下期讲解Spark的模块组成。

前期回顾
1 - Spark 概述(入门必看)

在这里插入图片描述
上一篇 下一篇

猜你喜欢

热点阅读