作为大数据开发中最重要技术,spark需要掌握哪些技能呢
图一
Spark一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。
欢迎小伙伴们评论、转发和收藏,了解更多大数据知识可以点击“了解更多”
作为大数据开发中最重要的技术点,为了达到工作中的需求,应该学习哪些技术呢?
1、Spark介绍
a、Spark与MR的对比
b、Spark运行模式以及区别
c、RDD的五大特性
2、Spark代码开发流程
a、transformation类算子
b、action类算子
c、统计每一个单词出现的次数 WordCount
d、持久化类算子的原理以及使用方式
3、Spark集群搭建
a、Spark集群的架构,Master Wokrer的作用
b、集群搭建
c、client cluster两种提交任务的方式的区别以及应用场景
d、提交命令 各个选项的作用
4、Spark资源调度原理
a、什么是资源调度
b、资源调度的流程
c、资源调度的源码分析
5、Spark任务调度
a、RDD的宽窄依赖
b、DAGScheduler切割job的原理
c、TaskScheduler的调度以及重试原理
d、什么是推测执行,推测执行的必要条件
6、Spark案例
a、计算topN
b、分组取TopN
c、统计页面的PV UV 最热门的板块,以及最热门的板块下最活跃的top10用户...
7、Spark中两种最重要shuffle
a、什么shuffle
b、shuffle的原理
c、sortShuffle hashShuffle的执行原理以及区别
d、shuffle调优
8、Spark高可用集群的搭建
a、高可用集群的原理
b、搭建步骤
c、Spark WEBUI详解
9、SparkSQL介绍
a、什么是SparkSQL SparkSQL的优势
b、SparkSQL中的DataFrame与RDD的区别
c、SparkSQL支持的数据源
10、SparkSQL实战
a、Spark读取parquet格式的文件
b、SQL语句处理RDD数据
c、数据保存的方式
d、自定义UDF UDAF函数
e、开窗函数的使用
11、SparkStreaming介绍
a、SparkStreaming介绍
b、SparkStreaming的应用场景
c、SparkStreaming运行原理
12、SparkStreaming实战
a、算子讲解
b、有状态的算子(updateStateByKey reduceByKeyAndWindow)
c、SparkStreaming与kafka整合步骤
以上技术点只是简明扼要的进行一个总结和梳理,这些东西是大家在学习中必要理解和掌握的。