2018年--阿里大数据面试题（部分精选）

2018-04-10 本文已影响169人 5f1df32e8c44

1.简述如何安装配置apache 的一个开源的hadoop

2.列出hadoop 集群中的都分别需要启动哪些进程它们分别是作用是什么？

3.简述mapreduce的运行原理

4.hive中内部外部表的区别

5.mapreduce中的combiner 和partition的区别

6.说说你对yarn 的理解

7.Redis性能优化，单机增加CPU核数是否会提高性能

8.采集数据为什么选择kafka

9.项目中遇到什么难题，有没有数据丢失，怎么解决

10.RDD中reduceBykey与groupByKey的区别

11.kafka 重启是否会导致数据丢失

12.讲一讲checkpoint

13.datax的架构，为什么不用sqoop

14.跨集群数据同步distcp的原理

15.描述mapreduce的过程，中间有几次写磁盘

16.ORC、Parquet等列式存储的优点

17.hive倾斜原因，怎么解决，mapjoin

18.ArraryBlockingQueue的实现

19.调度系统的实现，开源调度系统Azkaban

20.zookkeeper HA原理

21.大顶堆、小顶堆；堆的建堆过程，调整过程

22.排序算法

23.二分法以及变种

24.JVM参数调优经验

PS：

关注微信公众号“程序员OfHome”，发送“领取资料”可以免费领取视频资料。

对大数据感兴趣的朋友可以加入到我们的程序员OfHomeQQ群：610535338 群里有都是从事或者在学习大数据的朋友，在此我也邀请你进群一起学习，群内没有广告，也是禁止打广告的，大家也可以关注一下我的微信公共号“程序员OfHome”下方扫扫可关注。