程序员

第十一章_大数据_2019-03-31

2019-03-31  本文已影响5人  雨住多一横

大数据介绍

面试中关于大数据的题目有些是和采样结合的题目,其实更适合放在概率的章节,但值得注意的是越来越大的题更注重对map-reduce的理解和掌握,Map-reduce和Hadoop逐渐成为面试的热门。

介绍哈希函数

哈希函数又叫散列函数,哈希函数的输入域可以是非常大的范围,但是输出域是固定范围。假设为s。
哈希函数的性质:
1、典型的哈希函数都拥有无限的输入值域。
2、输入值相同时,返回值一样。
3、输入值不同时,返回值可能一样,也可能不一样。
4、不同输入值得到的哈希值,整体均匀的分布在输出域s上。(重要)
MD5与SHA1算法都是经典的哈希函数算法,了解即可,面试时不要求掌握。

map-reduce

1、Map阶段→把大任务分成子任务。
2、Reduce阶段→子任务并发处理,然后合并结果。
注意点:
1、备份的考虑,分布式存储的设计细节,以及容灾策略。
2、任务分配策略与任务进度跟踪的细节设计,节点状态的呈现。
3、多用户权限的控制。

常见的海量数据处理技巧

1、分而治之。通过哈希函数将大任务分流到机器,或分流成小文件。
2、常用的hashMap或bitmap。
难点:通讯、时间和空间的估算。

经典题

上一篇下一篇

猜你喜欢

热点阅读