2018-06-22

2018-06-22  本文已影响0人  CrUelAnGElPG

1.hadoop的褒义狭义

    狭义指hadoop,广义指hadoop生态圈

2.hadoop三大组件,分别做什么?官网地址是什么

    hdfs,mr,yarn,hadoop.apache.org

3.hdfs的块默认大小,副本数默认多少?哪个参数控制会找吗?

    128M,3

4.hdfs进程有哪些?按启动顺序

    nn dn snn

5.谈谈对jps命令的理解

    显示java进程信息的一个命令

6.谈谈对pid文件的理解

    保存进程号的文件

7.说说你们会的hdfs哪些shell命令

    hdfs dfs -ls -mkdir -text -cat -mv -cp

8.NN,DN,SNN节点分别做什么的?

    NN存储元数据

    DN存储数据

    SNN默认一小时的冷备

9.浅谈副本放置策略

    首先就近dn,然后考虑当前机柜不同dn,再不同机架dn,最后考虑跨数据中心dn

10.(面试题)hdfs读写流程,mr提交到yarn流程  这三块,博客有没有文档了?

    

11.yarn的调优参数那两篇,你们博客上有没有?

12.谈谈你们对shuffle的初步理解    

    预先reduce,减少reduce的复杂度

13.hive里哪种SQL会执行mr job?

    聚合,join

    insert ... as select

14.hive的元数据和数据分别存储在哪?

    mysql,hdfs

15.你们的博客有hive的 分区 作业吗?做了没

16.你们的博客有hive的 udf函数 作业吗?做了没

17.你们的博客有sqoop从MySQL抽取到hdfs或者hive作业吗?做了没

上一篇下一篇

猜你喜欢

热点阅读