大数据工程师（开发）面试系列（7）

2017-03-19 本文已影响1571人司小幽

MapReduce

1. 不指定语言，写一个WordCount的MapReduce

我：最近刚学了scala，并且就有scala版本的WordCount，刚好学以致用了一下：

wordcount
补：至于java版本，虾皮博主的一篇文章讲解的非常细致：
Hadoop集群（第6期）_WordCount运行详解

2. 上述写的程序中`.map((_,1))`的输出结果是什么

我：通过flatMap将其扁平化，而.map((_,1)) 则是每个出现单词，1这样的形式展现，此时还没归并。

3. 你能用SQL语句实现上述的MapReduce吗？要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

我：基于某个字段——决定了要用group By，频次要用count聚合，倒序自然少不了desc。
补：框架搭好就是往里塞了：

D表数据

基于id维度频次倒序

4.给你一份乱序的100万个数字的文件，你如何来排序？

我：先拆分成若干小的，然后再排(思路是从希尔排序出发的)
补：内部排序算法：希尔排序

Spark

1. 说一说Spark程序编写的一般步骤？

我：初始化，资源，数据源，并行化，rdd转化，action算子打印输出结果或者也可以存至相应的数据存储介质
补：具体的可看下图：

spark编程模型

2. Spark有哪两种算子？

我：Transformation（转化）算子和Action（执行）算子。

3. Spark提交你的jar包时所用的命令是什么？

我：submit。
面试官：spark-submit？
我：嗯，spark-submit。

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？

我：aggeragate
面试官：还有呢？
我：记不清了。。。
面试官：还有你刚刚写的那个groupByKey哈
补：

在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

5. 你所理解的Spark的shuffle过程？

我：spark shuffle处于一个宽依赖，可以实现类似混洗的功能，将相同的Key分发至同一个Reducer上进行处理。
补：详细探究Spark的shuffle实现

6. 你如何从Kafka中获取数据？

我：topic
补：分布式消息系统：Kafka

7. 对于Spark中的数据倾斜问题你有什么好的方案？

我：可以先分析基数大造成数据倾斜的维度，将其适当的拆分。
补：Spark性能优化指南：高级篇

编程

1.如果我有两个list，如何用Python语言取出这两个list中相同的元素？

我：list(set(list1).intersection(set(list2))),通过set 的intersection取交集的函数实现相同元素的提取。

2.请你给出在Python中较快获取一个元素的数据结构，并且说出其时间复杂度以及它的缺陷是什么？

我：因为之前也在做一些leetcode上的题目，多多少少重温了下数据结构，当时脑海里呈现的是数组方便查找，队列和栈方便插入删除，所以一听到较快获取果断数组了。
面试官：dict（字典）
我：厉害！！
面试官：那它的时间复杂度你晓得嘛？
我：不是特别了解，O（1），常数时间复杂度？
面试官：嗯，那你知道它的缺陷吗？
我：（中午吃撑了，TradeOff哈）不晓得
面试官：空间复杂度较高哈
补：
反思了一下，之所以说错，可能和以前学习算法时，起承转合的过度，并未将栈、队列和map，或者dict直接比较，而是从数组切换到队列和栈，所以就和之前的那个PUT和POST差不多，训练逻辑正确，确实数组查询记录方便，但训练广度有些多样性不够。

数组
算法备忘录——基础数据结构与复杂度
常用数据结构和算法操作效率的对比总结

3. 做几道OJ的题目（英文的），说一说这个问题的要求和注意点，以及可以获得正确结果的你的思路？

恢复IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations.
Example
Given "25525511135", return
[
"255.255.11.135",
"255.255.111.35"
]
Order does not matter.

我：思考了一会儿，没想出来，只能想出个不通用的思路。
面试官：给你个提示，尝试用树这个数据结构。
补：此处埋一个坑，学完树的数据结构再回来解决。

快乐数

Write an algorithm to determine if a number is happy.
A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers.
Example
19 is a happy number
1^2 + 9^2 = 82
8^2 + 2^2 = 68
6^2 + 8^2 = 100
1^2 + 0^2 + 0^2 = 1

我：思路是模拟过程法，即按照它验证一个数是否是快乐数的方式进行模拟，当然也有些取巧的方式，如果某个中间结果曾出现过，妥妥滴死循环嘛，即刻跳出。
面试官：思路是对的
我：我觉得这会TLE，肯定有取巧的方法（这道题目之前好像接触过）
补：回去搜了一下，发现之前一直求助的一个大神的博客通过模拟过程用Python实现的：
Happy Number (之前的怀疑有更巧方法在于时常保持偷懒的思维也是必要的)

4. 你常用的IDE有哪些？

我：Java：Eclipse；Python：PyCharm；Scala：IntelliJ IDEA；Shell：VIM

5. 你了解设计模式吗？

我：不了解，但以后回去买本O'Really的《设计模式》
补：封面如下：

设计模式

6. 什么是Restful API？

我：由于对Restful的了解只停留在使用层面，给我的感觉像是一种资源的提交获取，GET获取，POST/DELETE/PUT都可以看作是一种提交操作
补：

【专业定义】：一种软件架构风格，设计风格而不是标准，只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。

RESTful百度百科

Options

Devops

1. 数据库读写分离的目的是什么？

我：①减轻负载；②权限控制
补：读写分离的作用
看了上面的文章，减轻负载是首要目的，至于权限控制，更像是一种实现方式，不像目的。

2. ZooKeeper是什么？非大数据领域，我们可以用ZooKeeper来做些什么？

我：ZooKeeper是分布式协调组件，非大数据领域，可以用ZooKeeper来做HA或者存储数据，比如配置信息啥的。(Znode)
补：ZooKeeper 典型应用场景一览

大数据工程师（开发）面试系列（7）

MapReduce

1. 不指定语言，写一个WordCount的MapReduce

2. 上述写的程序中`.map((_,1))`的输出结果是什么

3. 你能用SQL语句实现上述的MapReduce吗？要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

4.给你一份乱序的100万个数字的文件，你如何来排序？

Spark

1. 说一说Spark程序编写的一般步骤？

2. Spark有哪两种算子？

3. Spark提交你的jar包时所用的命令是什么？

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？

5. 你所理解的Spark的shuffle过程？

6. 你如何从Kafka中获取数据？

7. 对于Spark中的数据倾斜问题你有什么好的方案？

编程

1.如果我有两个list，如何用Python语言取出这两个list中相同的元素？

2.请你给出在Python中较快获取一个元素的数据结构，并且说出其时间复杂度以及它的缺陷是什么？

3. 做几道OJ的题目（英文的），说一说这个问题的要求和注意点，以及可以获得正确结果的你的思路？

4. 你常用的IDE有哪些？

5. 你了解设计模式吗？

6. 什么是Restful API？

Devops

1. 数据库读写分离的目的是什么？

2. ZooKeeper是什么？非大数据领域，我们可以用ZooKeeper来做些什么？

猜你喜欢

热点阅读

大数据工程师（开发）面试系列（7）

MapReduce

1. 不指定语言，写一个WordCount的MapReduce

2. 上述写的程序中.map((_,1))的输出结果是什么

3. 你能用SQL语句实现上述的MapReduce吗？要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

4.给你一份乱序的100万个数字的文件，你如何来排序？

Spark

1. 说一说Spark程序编写的一般步骤？

2. Spark有哪两种算子？

3. Spark提交你的jar包时所用的命令是什么？

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？

5. 你所理解的Spark的shuffle过程？

6. 你如何从Kafka中获取数据？

7. 对于Spark中的数据倾斜问题你有什么好的方案？

编程

1.如果我有两个list，如何用Python语言取出这两个list中相同的元素？

** 2.请你给出在Python中较快获取一个元素的数据结构，并且说出其时间复杂度以及它的缺陷是什么？**

3. 做几道OJ的题目（英文的），说一说这个问题的要求和注意点，以及可以获得正确结果的你的思路？

4. 你常用的IDE有哪些？

5. 你了解设计模式吗？

6. 什么是Restful API？

Devops

1. 数据库读写分离的目的是什么？

2. ZooKeeper是什么？非大数据领域，我们可以用ZooKeeper来做些什么？

猜你喜欢

热点阅读

2. 上述写的程序中`.map((_,1))`的输出结果是什么

2.请你给出在Python中较快获取一个元素的数据结构，并且说出其时间复杂度以及它的缺陷是什么？