数据结构与算法之美-排序(二)

2021-04-19  本文已影响0人  沉江小鱼

前言:本篇文章只是记录王争的数据结构与算法之美的学习笔记,写下来能强迫自己系统的再过一遍,加深理解。这门课以实际开发中遇到的问题为例,引入解决问题涉及到的的数据结构和算法,但不会讲的太细,最好结合一本实体书进行学习。

冒泡排序、插入排序、选择排序时间复杂度都是O(n^2),适合小规模数据的排序。归并排序和快速排序,适合大规模的数据排序,时间复杂度为O(nlogn),它们都用到了分治思想,可以借鉴这个思想,解决排序问题,比如:如何在 O(n)的时间复杂度内查找一个无序数组中的第 K 大元素?

1. 归并排序

1.1 介绍

核心思想:如果要排序一个数组,先把数组从中间分成前后两个部分,然后对前后两部分分别排序,再将排好序的两部分合并在一起,这样整个数组就有序了。

image.png

分治思想就是将一个大的问题分解成小的子问题来解决,小的问题都解决了,大的问题也就解决了。
分治算法一般都是用递归来实现的,分治是一种解决问题的处理思想,递归是一种编程技巧。

1.2 实现

之前在学习递归时,就是需要先分析得出递推公式,然后找到终止条件,最后将递推公式翻译成递归代码,所以要想写出归并排序,需要先写出归并排序的递推公式:


递推公式:
merge_sort(p…r) = merge(merge_sort(p…q), merge_sort(q+1…r))

终止条件:
p >= r 不用再继续分解

merge_sort(p…r)表示,给下标从p 到 r之间的数组排序,将这个问题转化成两个子问题:merge_sort(p…q),merge_sort(q+1…r),其中下标 q 等于 p 和 r 的中间位置,也就是(p+r)/2,当下标从p 到 q 和从q+1到 r这两个子数组都排好序之后,再将两个有序的子数组合并在一起,这样下标从p 到 r 之间的数据也就排好序了。

伪代码如下:


// 归并排序算法, A是数组,n表示数组大小
merge_sort(A, n) {
  merge_sort_c(A, 0, n-1)
}

// 递归调用函数
merge_sort_c(A, p, r) {
  // 递归终止条件
  if p >= r  then return

  // 取p到r之间的中间位置q
  q = (p+r) / 2
  // 分治递归
  merge_sort_c(A, p, q)
  merge_sort_c(A, q+1, r)
  // 将A[p...q]和A[q+1...r]合并为A[p...r]
  merge(A[p...r], A[p...q], A[q+1...r])
}

merge 函数的作用就是合并两个有序数组,这里就不做介绍了。

1.3 性能分析
T(a) = T(b) + T(c) + K (K 为合并子问题所消耗的时间)

不仅递归求解的问题可以写成递推公式,递归代码的时间复杂度也可以写成递推公式。

归并排序的时间复杂度的计算公式是:

T(1) = C; n=1时,只需要常量级的执行时间,表示为 C
T(n) = 2 * T(n/2) + n; n > 1

// 分解计算过程

T(n) = 2*T(n/2) + n
     = 2*(2*T(n/4) + n/2) + n = 4*T(n/4) + 2*n
     = 4*(2*T(n/8) + n/4) + 2*n = 8*T(n/8) + 3*n
     = 8*(2*T(n/16) + n/8) + 3*n = 16*T(n/16) + 4*n
     ......
     = 2^k * T(n/2^k) + k * n
     ......

最终得到 T(n) = 2^kT(n/2^k)+kn。当 T(n/2^k)=T(1)时,也就是 n/2^k=1,我们得到 k=log2n 。我们将 k 值代入上面的公式,得到T(n)=Cn+nlog2n 。如果我们用大 O 标记法来表示的话,T(n) 就等于 O(nlogn)。所以归并排序的时间复杂度是 O(nlogn)

归并排序的执行效率和排序的原始数组的有序程度无关,所以其时间复杂度很稳定,都是 O(nlogn)

2. 快速排序

核心思想:如果要排序数组中下标p 到 r之间的一组数据,可以选择p 到 r之间的任意一个数据作为 pivot(分区点)

遍历 p 到 r 之间的数据,将小于 pivot 的放到左边,将大于 pivot的放到右边,将 pivot 放到中间。经过这一步之后,数组 p 到 r 之间的数据被分成了 3 个部分,前面p 到 q-1 之间都是小于 pivot的,中间是 pivot,后面的q+1到 r之间是大于 pivot 的:

image.png

根据分治、递归的处理思想,可以用递归排序下标从p 到 q-1之间的数据和下标从q+1到 r 之间的数据,直到区间缩小为 1,说明所有的数据都有序了。递推公式如下:


递推公式:
quick_sort(p…r) = quick_sort(p…q-1) + quick_sort(q+1… r)

终止条件:
p >= r

伪代码如下:


// 快速排序,A是数组,n表示数组的大小
quick_sort(A, n) {
  quick_sort_c(A, 0, n-1)
}
// 快速排序递归函数,p,r为下标
quick_sort_c(A, p, r) {
  if p >= r then return
  
  q = partition(A, p, r) // 获取分区点
  quick_sort_c(A, p, q-1)
  quick_sort_c(A, q+1, r)
}

partition 分区函数就是随机选择一个元素作为pivot(一般情况下可以选择 p 到 r 区间的最后一个元素),然后对 A[p...r]分区,函数返回pivot的下标。

如果不考虑空间消耗的话,partition()分区函数可以很简单,申请两个临时数组,将小于和大于 pivot 的元素分别放入这两个数组中:

image.png

但是这样一来,快速排序就不是原地排序算法了,需要很多额外的空间,所以需要改进,伪代码如下:


partition(A, p, r) {
  pivot := A[r]
  i := p
  for j := p to r-1 do {
    if A[j] < pivot {
      swap A[i] with A[j]
      i := I+1
    }
  }
  swap A[i] with A[r]
  return I

这里类似于选择排序,通过游标 i 将 A[p...r-1]分成两部分A[p...i-1]的元素都是小于 pivot 的,暂时称为“已处理区间”,A[i...r-1]为“未处理区间”,每次都从未处理的区间 A[i...r-1]中取一个元素 A[j],与 pivot 对比,如果小于 pivot,则将其加入到已处理区间的尾部,也就是 A[i]的位置。这里只需要将 A[i]与 A[j]交换,就可以在 O(1)时间复杂度内将 A[j]放到下标为 i 的位置:

image.png

分区的过程涉及交换操作,所以快速排序不是一个稳定的排序算法。

2.1 性能分析

快排也是用递归实现的,如果每次分区操作,都能正好把数组分成大小接近相等的两个小区间,那快排的时间复杂度递推求解公式和归并是相同的,都是O(nlogn)


T(1) = C;   n=1时,只需要常量级的执行时间,所以表示为C。
T(n) = 2*T(n/2) + n; n>1

但是,公式成立的前提是每次分区操作,选择的 pivot 都很合适,正好能将大区间对等的一分为二,实际上这个很难实现。

如果数组中已经是有序了,比如 1 2 5 6 8 ,如果选择将最后一个元素 8作为 pivot,那么每次分区得到的两个区间都是不均等的,需要进行大约 n 次分区操作,每次分区需要扫描大约 n/2个元素,这种情况下,快排的时间复杂度就从 O(nlogn)退化成了 O(n^2)。

快速排序在大部分情况下的时间复杂度都可以做到 O(nlogn),只有在极端情况下,才会退化到 O(n2)。

3. 归并排序和快速排序区别

image.png

归并排序的处理过程是由下到上的,先处理子问题,然后再合并。
快速排序的处理过程是由上到下的,先分区,然后再处理子问题。
归并排序虽然稳定,但是为非原地排序算法,而快速排序虽然不稳定,但是可以实现快速排序,解决了归并排序占用太多内存的问题。

4. 练习

上一篇 下一篇

猜你喜欢

热点阅读