数据流中的中位数

2019-03-07  本文已影响0人  Max_7

题目描述

如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。

思路

第一种思路,把全部元素存下来,排序,取中位数。如果数据量太大的情况下,效率较低。
第二种思路,使用最大堆和最小堆来解决。
首先构建一个最大堆和一个最小堆,
随后不断接收数据流里的数据,每接收一个,将其插入到堆里面。同时调整两个堆里元素的数量,保证两个堆的数据差在一个之内。
python里有内置的heapq可以使用,但是这个heap是最小堆,所以还要创建一个最大堆。这里最大堆的创建方法在GitHub上学到了一个小技巧,把应该加入最大堆的元素取相反数,然后加入到最小堆。那么这个装满相反数的最小堆就可以看成一个最大堆。很巧妙的一个方法。

代码

class Solution:
    def __init__(self):
        self.left = []
        self.right = []
    def Insert(self, num):
        from heapq import heappush, heappop
        #left 大堆 right 小堆
        if len(self.right) == 0 or num > self.right[0]:
            heappush(self.right, num)
        else:
            # push num的相反数进去,虽然left还是最小堆,但是里面的值都是相反数,反过来就是最大堆
            heappush(self.left, -num)
        # 不断调整两个堆,保证左右两个堆里元素的数量平衡
        while len(self.left) - len(self.right) > 1:
            data = -heappop(self.left)
            heappush(self.right, data)
        while len(self.right) - len(self.left) > 1:
            data = heappop(self.right)
            heappush(self.left, -data)

    def GetMedian(self,xxx):
        if len(self.left) == len(self.right):
            if len(self.right) == 0:
                return 0
            min_heap = self.right[0]
            max_heap = -1*self.left[0]
            media = (min_heap+max_heap)/2.0
            return media
        elif len(self.left) > len(self.right):
            media = -1*self.left[0]
            return media
        else:
            return self.right[0]
上一篇下一篇

猜你喜欢

热点阅读