大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据

为何Spark是数据科学家的统一平台,清华大佬讲解Spark视频

2020-04-13  本文已影响0人  Java架构领域

前言:

今天为大家分享的是:为什么Spark将成为数据科学家的统一平台以及,清华毕业20年大佬为大家讲解的Spark学习视频以及随堂笔记,供大家学习,希望大家能够喜欢。

为何Spark是数据科学家的统一平台

Spark 是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。

数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。

统计科学家使用交互式的统计工具(比如 R)来回答数据中的问题,获得全景的认识。

与之相比,数据工程师则更像一名程序员,他们在服务器上编写代码,创建和应用机器学习模型,熟悉 C++和 Java 等系统级语言,经常需要和企业级数据中心的某些组件打交道,比如 Hadoop。而有的数据科学家专注于更细的领域,就像精通 R 但从未听说过 Python 或者 scikit-learn(反之亦然),即便两者都提供了丰富的统计库。

由于文章篇幅限制,所以小编就不做过多的介绍了,需要这份PDF以及文章中源码的小伙伴,可以转发此文关注小编,私信小编“学习”来得到获取方式吧~~~

清华毕业20年大佬分8章讲解Spark视频,代码,资料及随堂笔记

1.初识Spark,Spark编程核心RDD,Spark算子类别详解,Spark算子Java+Scala 版本实现

目录:

1.1Spark 初始

1.2Spark 核心RDD

1.3Spark-Scala算子

1.4Spark-Java算子

笔记:

2.Spark持久化算子,Spark集群搭建,Spark基于Yarn任务提交,Spark基于Standalone+Yarn任务提交流程详解

目录:

2.1持久化算子cache+persist

2.2持久化算子-checkpoint

2.3Spark Standalone集群搭建

2.4Spark基于standalone 和基于Yarn 任务提交

2.5Spark java算子 distinct+corgroup

笔记:

3.SparkRDD的宽窄依赖,pipeline计算模型,资源调度与任务调度过程,PVUV案例,Spark任务提交参数详解

目录:

1.1RDD的宽窄依赖

1.2Spark计算模式+stage

1.3Spark 任务切分+task发送

1.4Spark 资源调度和任务调度+算子

1.5Spark Submit 提交任务参数

笔记:

4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度

目录:

4.1Spark Submit 提交任务向Master申请启动Driver

4.2Spark Driver 启动向Master注册Application

4.3Spark Master为当前application划分资源.

4.4Spark Master发送消息启动Executor

笔记:

5.广播变量,累加器原理,SparkWEBUI,SparkMasterHA搭建,Spark日志管理配置,SparkShuffle详解

目录:

5.1广播变量+累加器.

5.2Spark WEBUI

5.3Spark 历史日志服务器配置

5.4SparkMaster切换验证+pipelline验证+资源调度结论验证

5.5Spark Shuffle源码

笔记:

6.初识SparkSQL,SparkSQL加载DataFrame方式,Spark on Hive配置,UDF函数

目录:

6.1SparkSQL 初始+SparkSQL读取json格式的文件

6.2SparkSQL 读取json格式的数据注意点

6.3SparkSQL 读取json格式的DataSet加载成DataFrame

6.4SparkSQL 读取普通RDD加载DataFrame+读取parquet格式数据+读取MySQL数据加载DataFrame

6.5SparkSQL UDF函数

笔记:

7.SparkSQL之UDAF函数详解,开窗函数,初始SparkStreaming,SparkStreaming读取数据详细过程原理及算子操作

目录:

7.1UDAF

7.2over开窗函数

7.3SparkStreaming初始

7.4SparkStreaming 读取socket数据 +注意点+foreachRDD算子

7.5updateStateByKey+reduceByKeyAndWindow

8.Kafka分布式消息系统原理,SparkStreaming与Kafka整合的问题及策略,手动维护kafka 消费者offset

目录:

8.1Kakfa 介绍

8.2Kafka 使用

8.3SparkStreaming+kafka Receiver 模式

8.4SparkStreaming + Receiver模式代码+SparkSteaming + Direct模式代码

8.5SparkStreaming 手动维护消费者偏移量 + 配置参数

从上面可以很清晰的看到为什么Spark是将成为数据科学家的统一平台以及清华毕业20年大佬为大家讲解的Spark的视频及随堂笔记,小编都为大家准备好了,如果大家需要的话,可以转发此文关注小编,私信小编“学习”来得到获取方式吧。

结束语

为了感谢大家这么长时间的关注与支持,特此奉上一份清华大学出版的《实时大数据分析——基于Storm、Spark技术的实时应用》,大家可以私信小编“学习”来得到这份pdf的获取方式,感谢大家的支持~

上一篇下一篇

猜你喜欢

热点阅读