为何Spark是数据科学家的统一平台,清华大佬讲解Spark视频
前言:
今天为大家分享的是:为什么Spark将成为数据科学家的统一平台以及,清华毕业20年大佬为大家讲解的Spark学习视频以及随堂笔记,供大家学习,希望大家能够喜欢。
为何Spark是数据科学家的统一平台
Spark 是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。
数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。
统计科学家使用交互式的统计工具(比如 R)来回答数据中的问题,获得全景的认识。
与之相比,数据工程师则更像一名程序员,他们在服务器上编写代码,创建和应用机器学习模型,熟悉 C++和 Java 等系统级语言,经常需要和企业级数据中心的某些组件打交道,比如 Hadoop。而有的数据科学家专注于更细的领域,就像精通 R 但从未听说过 Python 或者 scikit-learn(反之亦然),即便两者都提供了丰富的统计库。
由于文章篇幅限制,所以小编就不做过多的介绍了,需要这份PDF以及文章中源码的小伙伴,可以转发此文关注小编,私信小编“学习”来得到获取方式吧~~~
清华毕业20年大佬分8章讲解Spark视频,代码,资料及随堂笔记
1.初识Spark,Spark编程核心RDD,Spark算子类别详解,Spark算子Java+Scala 版本实现
目录:
1.1Spark 初始
1.2Spark 核心RDD
1.3Spark-Scala算子
1.4Spark-Java算子
笔记:
2.Spark持久化算子,Spark集群搭建,Spark基于Yarn任务提交,Spark基于Standalone+Yarn任务提交流程详解
目录:
2.1持久化算子cache+persist
2.2持久化算子-checkpoint
2.3Spark Standalone集群搭建
2.4Spark基于standalone 和基于Yarn 任务提交
2.5Spark java算子 distinct+corgroup
笔记:
3.SparkRDD的宽窄依赖,pipeline计算模型,资源调度与任务调度过程,PVUV案例,Spark任务提交参数详解
目录:
1.1RDD的宽窄依赖
1.2Spark计算模式+stage
1.3Spark 任务切分+task发送
1.4Spark 资源调度和任务调度+算子
1.5Spark Submit 提交任务参数
笔记:
4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度
目录:
4.1Spark Submit 提交任务向Master申请启动Driver
4.2Spark Driver 启动向Master注册Application
4.3Spark Master为当前application划分资源.
4.4Spark Master发送消息启动Executor
笔记:
5.广播变量,累加器原理,SparkWEBUI,SparkMasterHA搭建,Spark日志管理配置,SparkShuffle详解
目录:
5.1广播变量+累加器.
5.2Spark WEBUI
5.3Spark 历史日志服务器配置
5.4SparkMaster切换验证+pipelline验证+资源调度结论验证
5.5Spark Shuffle源码
笔记:
6.初识SparkSQL,SparkSQL加载DataFrame方式,Spark on Hive配置,UDF函数
目录:
6.1SparkSQL 初始+SparkSQL读取json格式的文件
6.2SparkSQL 读取json格式的数据注意点
6.3SparkSQL 读取json格式的DataSet加载成DataFrame
6.4SparkSQL 读取普通RDD加载DataFrame+读取parquet格式数据+读取MySQL数据加载DataFrame
6.5SparkSQL UDF函数
笔记:
7.SparkSQL之UDAF函数详解,开窗函数,初始SparkStreaming,SparkStreaming读取数据详细过程原理及算子操作
目录:
7.1UDAF
7.2over开窗函数
7.3SparkStreaming初始
7.4SparkStreaming 读取socket数据 +注意点+foreachRDD算子
7.5updateStateByKey+reduceByKeyAndWindow
8.Kafka分布式消息系统原理,SparkStreaming与Kafka整合的问题及策略,手动维护kafka 消费者offset
目录:
8.1Kakfa 介绍
8.2Kafka 使用
8.3SparkStreaming+kafka Receiver 模式
8.4SparkStreaming + Receiver模式代码+SparkSteaming + Direct模式代码
8.5SparkStreaming 手动维护消费者偏移量 + 配置参数
从上面可以很清晰的看到为什么Spark是将成为数据科学家的统一平台以及清华毕业20年大佬为大家讲解的Spark的视频及随堂笔记,小编都为大家准备好了,如果大家需要的话,可以转发此文关注小编,私信小编“学习”来得到获取方式吧。
结束语
为了感谢大家这么长时间的关注与支持,特此奉上一份清华大学出版的《实时大数据分析——基于Storm、Spark技术的实时应用》,大家可以私信小编“学习”来得到这份pdf的获取方式,感谢大家的支持~