实时数据相关python机器学习爬虫大数据挖掘工厂

Spark面试题整理

2019-01-31  本文已影响126人  hakase_nano

整理来源:《Spark面试2000题》

目录
Spark section-0 基础 (3)
Spark section-1 Spark运行细节 (13)
Spark section-2 Spark 与 Hadoop/MapReduce 比较 (7)
Spark section-3 RDD (4)
Spark section-4 RDD操作 (13)
Spark section-5 大数据问题 (7)
Spark section-6 机器学习算法 (4)
Spark section-7 Hive (2)

Spark section-0 基础(3)

1. spark的有几种部署模式,每种模式特点?

2. Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

3. spark有哪些组件

Spark section-1 Spark运行细节(13)

1. spark工作机制

2. Spark应用程序的执行过程

3. driver的功能是什么?

4. Spark中Work的主要工作是什么?

5. task有几种类型?2种

6. 什么是shuffle,以及为什么需要shuffle?

7. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

8. Spark并行度怎么设置比较合适

9. Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

10. Spark中数据的位置是被谁管理的?

11. 为什么要进行序列化

12. Spark如何处理不能被序列化的对象?

13. Spark提交你的jar包时所用的命令是什么?

Spark section-2 Spark 与 Hadoop/MapReduce 比较(7)

1. Mapreduce和Spark的相同和区别

2. 简答说一下hadoop的mapreduce编程模型

3. 简单说一下hadoop和spark的shuffle相同和差异?

4. 简单说一下hadoop和spark的shuffle过程

5. partition和block的关联

6. Spark为什么比mapreduce快?

7. Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?

Spark section-3 RDD(4)

1. RDD机制

2. RDD的弹性表现在哪几点?

3. RDD有哪些缺陷?

4. 什么是RDD宽依赖和窄依赖?

Spark section-4 RDD操作(13)

**1. cache和pesist的区别 **

2. cache后面能不能接其他算子,它是不是action操作?

3. 什么场景下要进行persist操作?
以下场景会使用persist

4. rdd有几种操作类型?三种!!

5. reduceByKey是不是action?

6. collect功能是什么,其底层是怎么实现的?

7. map与flatMap的区别

8. 列举你常用的action?
collect,reduce,take,count,saveAsTextFile等

9. union操作是产生宽依赖还是窄依赖?

10. Spark累加器有哪些特点?

11. spark hashParitioner的弊端

12. RangePartitioner分区的原理

13. Spark中的HashShufle的有哪些不足?

Spark section-5 大数据问题(7)

1. 如何使用Spark解决TopN问题?(互联网公司常面)
https://blog.csdn.net/oopsoom/article/details/25815443

2. 如何使用Spark解决分组排序问题?(互联网公司常面)
https://blog.csdn.net/huitoukest/article/details/51273143

3. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

4. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词。

5. 现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取某天出访问百度次数最多的那个IP。
分而治之+Hash
1)IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2)可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3)对于每一个小文件,可以构建一个IP为key,出现次数为value的Hashmap,同时记录当前出现次数最多的那个IP地址;
4)可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;

6. 在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

7. 腾讯面试题:给40亿个不重复的unsignedint的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?

Spark section-6 机器学习算法(4)

**1. mllib支持的算法? **

2. kmeans算法原理

3. 朴素贝叶斯分类算法原理
对于待分类的数据和分类项,根据待分类数据的各个特征属性,出现在各个分类项中的概率判断该数据是属于哪个类别的。

4. 关联规则挖掘算法apriori原理

Spark section-7 Hive(2)

**1. Hive中存放是什么? **

**2. Hive与关系型数据库的关系? **

Spark服务端口

Spark Job 默认的调度模式 - FIFO
RDD 特点 - 可分区/可序列化/可持久化
Broadcast - 任何函数调用/是只读的/存储在各个节点
Accumulator - 支持加法/支持数值类型/可并行
Task 数量由 Partition 决定
Task 运行在 Workder node 中 Executor 上的工作单元
master 和 worker 通过 Akka 方式进行通信的
默认的存储级别 - MEMORY_ONLY
hive 的元数据存储在 derby 和 MySQL 中有什么区别 - 多会话
DataFrame 和 RDD 最大的区别 - 多了 schema

上一篇 下一篇

猜你喜欢

热点阅读