BigData

2020-02-03 本文已影响0人 coderjiege

解法：哈希表？

1GB = 2^10MB = 2^20KB = 2^30B > 10亿B

最优解：哈希函数 + 哈希表
把一个大的集合通过哈希函数分配到多台机器中，或者分配到多个文件里（分批次处理），这种技巧是处理大数据面试题时最常用的技巧之一。但是到底分配到多少台机器，分配到多少文件，在解题时一定要确定下来。

把包含20亿个数的大文件用哈希函数分成16个小文件，同一种数会被哈希到同一个文件上，每个小文件的数一定不会大于2亿种，先取得每个小文件中出现次数最多的数，再将这16个小文件出现次数最多的数取第一名即可。

常用的hash函数是选一个数m取模（余数），这个数在课本中推荐m是素数，但是经常见到选择m=2^{n，因为对2}n求余数更快

哈希函数 -> 多台机器/小文件 -> 哈希表
哈希表遍历，每个小文件都有自己的小根堆（词频top100）
对不同机器top100再进行外排序或者小根堆，最终求出百亿数据top100

对于topK问题，除哈希函数分流和用哈希表做词频统计之外，还经常用堆结构和外排序进行处理