数据结构与算法之美-堆的应用

2021-05-27  本文已影响0人  沉江小鱼

前言:本篇文章只是记录王争的数据结构与算法之美的学习笔记,写下来能强迫自己系统的再过一遍,加深理解。这门课以实际开发中遇到的问题为例,引入解决问题涉及到的的数据结构和算法,但不会讲的太细,最好结合一本实体书进行学习。

1. 堆的概念

堆是一种特殊的树,需要满足下面两点:

大顶堆小顶堆就是根据第二条区分的:

如下图:


image.png

2. 堆的实现

2.1 堆的存储

上面说堆是一个完全二叉树,完全二叉树比较适合用数组来存储。用数组存储完全二叉树节省内存空间,单纯的通过数组下标,就可以找到一个节点的左右子节点父节点,如下图所示:

image.png

从上图中可以看到:

2.2 堆中插入一个元素

如果把新插入的元素放到堆的最后,如果不符合堆的特性,就需要调整,调整的过程称为堆化。如下图所示:

image.png

堆化就是顺着节点所在的路径,向上或者向下,对比,然后交换,所以堆化分为两种:

以从下往上为例,堆化的过程就是让新插入的节点和父节点对比大小,如果不满足子节点小于等于父节点的关系,就互换两个结点,一直重复这个过程,直到满足,如下图所示:

image.png

代码实现如下:


public class Heap {
  private int[] a; // 数组,从下标1开始存储数据
  private int n;  // 堆可以存储的最大数据个数
  private int count; // 堆中已经存储的数据个数

  public Heap(int capacity) {
    a = new int[capacity + 1];
    n = capacity;
    count = 0;
  }

  public void insert(int data) {
    if (count >= n) return; // 堆满了
    ++count;
    a[count] = data;
    int i = count;
    while (i/2 > 0 && a[i] > a[i/2]) { // 自下往上堆化
      swap(a, i, i/2); // swap()函数作用:交换下标为i和i/2的两个元素
      i = I/2;
    }
  }
 }
2.3 删除堆顶元素

堆顶元素就是堆中数据的最大值或者最小值

删除操作过程:把最后一个节点放到堆顶,然后利用同样的父子节点对比方法,对于不满足父子节点大小关系的,互换两个节点,并且重复此过程,直到父子节点之间满足大小关系为止。

这就是从上往下的堆化方法,如下图所示:

image.png

代码如下:


public void removeMax() {
  if (count == 0) return -1; // 堆中没有数据
  a[1] = a[count];
  --count;
  heapify(a, count, 1);
}

private void heapify(int[] a, int n, int i) { // 自上往下堆化
  while (true) {
    int maxPos = I;
    if (i*2 <= n && a[i] < a[i*2]) maxPos = I*2;
    if (i*2+1 <= n && a[maxPos] < a[i*2+1]) maxPos = i*2+1;
    if (maxPos == i) break;
    swap(a, i, maxPos);
    i = maxPos;
  }
}

一个包含 n 个节点的完全二叉树,树的高度不会超过log2n,堆化的过程是顺着节点所在路径比较交换的,所以堆化的时间复杂度是 O(logn)。插入一个元素和删除堆顶元素的主要逻辑就是堆化,时间复杂度都是O(logn)

3. 基于堆实现排序

基于堆这种数据结构实现的排序算法叫做堆排序,时间复杂度非常稳定,是 O(nlogn),并且还是原地排序算法

堆排序的过程大致分为 两个步骤:建堆排序

3.1 建堆

首先需要将数组原地建成一个堆,有两种思路:

第二种实现思路的分解图:


image.png image.png

实现代码:


private static void buildHeap(int[] a, int n) {
  for (int i = n/2; i >= 1; --i) {
    heapify(a, n, i);
  }
}

private static void heapify(int[] a, int n, int i) {
  while (true) {
    int maxPos = I;
    if (i*2 <= n && a[i] < a[i*2]) maxPos = I*2;
    if (i*2+1 <= n && a[maxPos] < a[i*2+1]) maxPos = i*2+1;
    if (maxPos == i) break;
    swap(a, i, maxPos);
    i = maxPos;
  }
}

代码中只对下标从1到 n/2的数据进行了堆化,因为对于完全二叉树来说,下标从n/2 + 1 到 n 的节点都是叶子结点

完全二叉树中最后一个节点的下标为 n,那么其父节点就是最后一个非叶子结点,下标为 n/2 ,之后的节点都是叶子结点了,也就是n/2 + 1 到 n 的节点都是叶子节点

建堆的时间复杂度:
堆排序的建堆过程的时间复杂度是 O(n)。

推导过程:
叶子节点不需要堆化,所以需要堆化的节点从倒数第二层开始,每个节点堆化的过程中,需要比较和交换的节点个数,跟这个节点的高度 k 成正比。

下图把每一层的节点个数和对应的高度画了出来,我们只需要将每个节点的高度求和,得出的就是建堆的时间复杂度:


image.png

将每个非叶子节点的高度求和,就是下面的公式:


image.png image.png

最终的结果就是:


image.png

因为 h = log2n,带入公式,得到 S = O(n),所以建堆的时间复杂度就是 O(n)

3.2 排序

排序主要使用了类似“删除堆顶元素”的操作,因为数组中第一个元素就是堆顶,也是最大的元素,把堆顶元素放到下标为 n 的位置,然后再通过堆化方法,将剩下 n - 1个元素重新构建成堆。堆化完成之后,我们再取堆顶的元素,放到下标是 n−1 的位置,一直重复这个过程,直到最后堆中只剩下标为 1 的一个元素,排序工作就完成了。如下图:

image.png

代码如下:


// n表示数据的个数,数组a中的数据从下标1到n的位置。
public static void sort(int[] a, int n) {
  buildHeap(a, n);
  int k = n;
  while (k > 1) {
    swap(a, 1, k);
    --k;
    heapify(a, k, 1);
  }
}
3.3 堆排序分析

堆排序是原地排序算法,只需要极个别临时存储空间。
堆排序包括建堆排序两个操作,建堆的时间复杂度是 O(n),排序的时间复杂度是O(nlogn),所以,堆排序整体的时间复杂度是 O(nlogn)。

堆排序不是稳定的排序算法,因为在排序的过程,存在将堆的最后一个节点跟堆顶节点互换的操作,所以就有可能改变值相同数据的原始相对顺序

为什么快排要比堆排序性能好?

4. 堆的应用

4.1 优先级队列

一个堆就可以看作一个优先级队列,往优先级队列中插入一个元素,就相当于往堆中插入一个元素,从优先级队列中取出优先级最高的元素,就相当于取出堆顶元素。

4.1.1 合并有序小文件

场景:有 100 个小文件,大小都是 100MB,存储的都是有序的字符串,想将这些 100 个小文件合并成一个有序的大文件。

就需要用到优先级队列,也可以说是堆。先从 100 个文件中,各取第一个字符串,然后构建一个小顶堆,堆顶的元素也就是优先级队列队首的元素,就是最小的字符串。将这个字符串放入到大文件中,然后将其从堆中删除。然后再从那个小文件中取出下一个字符串,放入到堆中,循环这个过程就可以了。

4.1.2 高性能定时器

场景:有一个定时器,维护了很多定时任务,每个任务都设定了一个要触发执行的时间点。定时器每过一个很小的单位时间(比如 1 秒),就扫描一遍任务,看是否有任务到达设定的执行时间。如果到达了,就拿出来执行。

image.png

这样每隔 1 秒就扫描一遍任务列表比较低效。我们可以使用优先级队列来解决:

4.2 利用堆求 Top K

求 Top K 的问题可以抽象成两类:

针对于一个 n 个数据的数组,要查找前 K 大数据

遍历数组的时间复杂度为 O(n),堆化的时间复杂度为 O(logK),所以最坏的时间复杂度就是O(nlogK)

针对于动态数据求 Top K 就是实时获取 TopK,其中有两个操作,一个是添加数据,另一个获取当前的前 K 大数据
可以一直维护一个 K 大小的小顶堆,当有数据被添加到集合中时,和堆顶的元素进行对比,进行堆化

4.3 求中位数

就是求动态数据集合中的中位数,如下图:


image.png

针对于静态数据:

针对于动态数据:

如果有 n 个数据:

  • n 是偶数,从小到大排序,前 n/2 个数据存储在大顶堆中,后n/2个数据存储在小顶堆中,大顶堆中的堆顶元素就是中位数
  • n 是奇数,大顶堆存储 n/2 + 1 个元素,小顶堆存储 n/2个数据
image.png

当有数据要加入的时候,需要调整两个堆:

image.png

时间复杂度分析:

5. 思考题

假设现在我们有一个包含 10 亿个搜索关键词的日志文件,如何能快速获取到热门榜 Top 10 的搜索关键词?场景限定为单机,可以使用的内存为 1GB。

6. 练习

上一篇 下一篇

猜你喜欢

热点阅读