为何Spark是数据科学家的统一平台，清华大佬讲解Spark视频

2020-04-13 本文已影响0人 Java架构领域

前言：

今天为大家分享的是：为什么Spark将成为数据科学家的统一平台以及，清华毕业20年大佬为大家讲解的Spark学习视频以及随堂笔记，供大家学习，希望大家能够喜欢。

为何Spark是数据科学家的统一平台

Spark 是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。

数据科学是一个广阔的领域。我自认是一个数据科学家，但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营，而我正处于第二阵营。

统计科学家使用交互式的统计工具（比如 R）来回答数据中的问题，获得全景的认识。

与之相比，数据工程师则更像一名程序员，他们在服务器上编写代码，创建和应用机器学习模型，熟悉 C++和 Java 等系统级语言，经常需要和企业级数据中心的某些组件打交道，比如 Hadoop。而有的数据科学家专注于更细的领域，就像精通 R 但从未听说过 Python 或者 scikit-learn（反之亦然），即便两者都提供了丰富的统计库。

由于文章篇幅限制，所以小编就不做过多的介绍了，需要这份PDF以及文章中源码的小伙伴，可以转发此文关注小编，私信小编“学习”来得到获取方式吧~~~

清华毕业20年大佬分8章讲解Spark视频，代码，资料及随堂笔记

1.初识Spark,Spark编程核心RDD,Spark算子类别详解，Spark算子Java+Scala 版本实现

目录：

1.1Spark 初始

1.2Spark 核心RDD

1.3Spark-Scala算子

1.4Spark-Java算子

笔记：

2.Spark持久化算子，Spark集群搭建，Spark基于Yarn任务提交，Spark基于Standalone+Yarn任务提交流程详解

2.1持久化算子cache+persist

2.2持久化算子-checkpoint

2.3Spark Standalone集群搭建

2.4Spark基于standalone 和基于Yarn 任务提交

2.5Spark java算子 distinct+corgroup

笔记：

3.SparkRDD的宽窄依赖，pipeline计算模型,资源调度与任务调度过程，PVUV案例，Spark任务提交参数详解

1.1RDD的宽窄依赖

1.2Spark计算模式+stage

1.3Spark 任务切分+task发送

1.4Spark 资源调度和任务调度+算子

1.5Spark Submit 提交任务参数

笔记：

4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度

目录：

4.1Spark Submit 提交任务向Master申请启动Driver

4.2Spark Driver 启动向Master注册Application

4.3Spark Master为当前application划分资源.

4.4Spark Master发送消息启动Executor

笔记：

5.广播变量，累加器原理，SparkWEBUI,SparkMasterHA搭建，Spark日志管理配置，SparkShuffle详解

目录：

5.1广播变量+累加器.

5.2Spark WEBUI

5.3Spark 历史日志服务器配置

5.4SparkMaster切换验证+pipelline验证+资源调度结论验证

5.5Spark Shuffle源码

笔记：

6.初识SparkSQL，SparkSQL加载DataFrame方式，Spark on Hive配置，UDF函数

目录:

6.1SparkSQL 初始+SparkSQL读取json格式的文件

6.2SparkSQL 读取json格式的数据注意点

6.3SparkSQL 读取json格式的DataSet加载成DataFrame

6.4SparkSQL 读取普通RDD加载DataFrame+读取parquet格式数据+读取MySQL数据加载DataFrame

6.5SparkSQL UDF函数

笔记：

7.SparkSQL之UDAF函数详解，开窗函数，初始SparkStreaming，SparkStreaming读取数据详细过程原理及算子操作

目录：

7.1UDAF

7.2over开窗函数

7.3SparkStreaming初始

7.4SparkStreaming 读取socket数据 +注意点+foreachRDD算子

7.5updateStateByKey+reduceByKeyAndWindow

8.Kafka分布式消息系统原理，SparkStreaming与Kafka整合的问题及策略，手动维护kafka 消费者offset

目录：

8.1Kakfa 介绍

8.2Kafka 使用

8.3SparkStreaming+kafka Receiver 模式

8.4SparkStreaming + Receiver模式代码+SparkSteaming + Direct模式代码

8.5SparkStreaming 手动维护消费者偏移量 + 配置参数

从上面可以很清晰的看到为什么Spark是将成为数据科学家的统一平台以及清华毕业20年大佬为大家讲解的Spark的视频及随堂笔记，小编都为大家准备好了，如果大家需要的话，可以转发此文关注小编，私信小编“学习”来得到获取方式吧。

结束语

为了感谢大家这么长时间的关注与支持，特此奉上一份清华大学出版的《实时大数据分析——基于Storm、Spark技术的实时应用》，大家可以私信小编“学习”来得到这份pdf的获取方式，感谢大家的支持~

为何Spark是数据科学家的统一平台，清华大佬讲解Spark视频

前言：

清华毕业20年大佬分8章讲解Spark视频，代码，资料及随堂笔记

结束语

猜你喜欢

热点阅读