Crack the Fxxking QuickSort

2017-01-22  本文已影响0人  AlanGuo

做题做到 QuickSelect,结果感觉已经有点记不清 QS 了……在此用力复习一下 QS。

本文解答所有关于 QS 的疑难杂症。

首先上代码,来自 Sedgewick 的 Algorithm:

public class Quick
{
    public static void sort(Comparable[] a)
    {
        StdRandom.shuffle(a);          // Eliminate dependence on input.
        sort(a, 0, a.length - 1);
    }

    private static void sort(Comparable[] a, int lo, int hi)
    {
        if (hi <= lo) return;
        int j = partition(a, lo, hi);    // Partition (see page 291).
        sort(a, lo, j - 1);              // Sort left part a[lo .. j-1].
        sort(a, j + 1, hi);              // Sort right part a[j+1 .. hi].
    }

    private static int partition(Comparable[] a, int lo, int hi)
    {  // Partition into a[lo..i-1], a[i], a[i+1..hi].
        int i = lo, j = hi + 1;          // left and right scan indices
        Comparable v = a[lo];            // partitioning item
        while (true)
        {  // Scan right, scan left, check for scan complete, and exchange.
            while (less(a[++i], v)) if (i == hi) break;
            while (less(v, a[--j])) if (j == lo) break;
            if (i >= j) break;
            exch(a, i, j);
        }
        exch(a, lo, j);    // Put v = a[j] into position
        return j;          // with a[lo..j-1] <= a[j] <= a[j+1..hi].
    }
}

1. QuickSort 的总体思路:

在要排序的序列中选定一个 pivot(这里选最左边的元素),将序列进行 partition,使得所有位于pivot 左边的元素都小于 pivot,位于右边的元素都大于 pivot,但此时左右两部分被视为无序状态:

[……(无序的左边部分)……],[(pivot)],[……(无序的右边部分)……]

这样还不足以排序, 但我们发现,只要分别 sort 一下左边和右边部分,整个序列就有序了:

function sort(a[])
{
  partition(a[]);
  sort(a[]左边部分);
  sort(a[]右边部分);
}

到此QuickSort 已经结束了,EOF

——“然鹅,sort 左边部分和右边部分不还是要 sort 吗?我们还是没有实现 sort 啊!”

不过可能你已经发现了,上面那个 function sort(a[]) 是一个递归函数!也就是说,每次我们分成左右两个子序列,都要进行 parttition,直到这个子序列只有一个元素!这样仅靠 partition,我们就完成了排序,sort()函数作为递归体,不断调用 partition()来处理子序列

2. partition()

到此,我们已经知道 partition 要达到什么目的,只需要再实现 partition 的功能:首先先要选取一个 pivot,关于 pivot 的选取至关重要,因为会极大地影响复杂度,稍后详细分析时间复杂度。

public class QuickSort
{
    public static int partition(int[] a, int low, int high)
    {
        int pivot = int[low];
        int i = low, j = high + 1;
        while(true)
        {
            while(a[++ i] < pivot)  // pointer i keeps going if pointed element is less than pivot
            {
                if(i >= high)   break;
            }
            while(a[-- j] > pivot)  // pointer j keeps going if pointed element is larger than pivot
            {
                if(j <= low)    break;
            }
            if(i >= j)  // if two pointer cross
                break;
            swap(a, i , j);
        }
        swap(a, low, j);    // put pivot between two partitions
        return j;           // return the index of pivot
    }

    public static void sort(int[] a, int low, int high)
    {
        int pivotIndex = partition(a, low, high);
        sort(a, low, pivot - 1);
        sort(a, pivot + 1, high);
    }
}

*为什么与 pivot 比较的时候是“<”、">"?为什么还要交换两个相同的元素?
理想状态下我们希望每次切分都得到两个规模相同的子序列,也就是说 i,j 两个指针能停下来的时候就停下来,从而使最后 Pivot 的位置保持一个比较靠中间的位置。否则,pivot 最终的 index 过于偏向一边,就会增大递归的深度(best case是logN,而 worst case 则是 N)。

3. 3-way-partition

如果元素大量重复,上述办法则还有可以提高的空间,因为我们交换了大量重复的元素,还可以压榨这部分的复杂度:

Sedgewick 配图相当好,注意 lt 、gt 和 i 三个指针的位置(相当精确);灰色部分是当前还没扫描到的部分

对于每次切分:从数组的左边到右边遍历一次,维护三个指针,其中lt指针使得元素(arr[0]-arr[lt-1])的值均小于切分元素;gt指针使得元素(arr[gt+1]-arr[N-1])的值均大于切分元素;i指针使得元素(arr[lt]-arr[i-1])的值均等于切分元素,(arr[i]-arr[gt])的元素还没被扫描,切分算法执行到i>gt为止。每次切分之后,位于gt指针和lt指针之间的元素的位置都已经被排定,不需要再去处理了。之后将(lo,lt-1),(gt+1,hi)分别作为处理左子数组和右子数组的递归函数的参数传入,递归结束,整个算法也就结束。

public class Quick3way
{
     private static void sort(Comparable[] a, int lo, int hi)
     {  
        if (hi <= lo) return;
        int lt = lo, i = lo+1, gt = hi;
        Comparable v = a[lo];
        while (i <= gt)
        {
           int cmp = a[i].compareTo(v);
           if      (cmp < 0) exch(a, lt++, i++);
           else if (cmp > 0) exch(a, i, gt--);
           else              i++;
        }  // Now a[lo..lt-1] < v = a[lt..gt] < a[gt+1..hi].
        sort(a, lo, lt - 1);
        sort(a, gt + 1, hi);
     }
}

这里就没有一个单独的 partition(),而是将其整合进了 sort() 里面。

4. pivot 的选取

pivot 的选取至关重要,理想状态是每次都取到位于中间的 pivot,这样就能保证递归深度为 LogN。如果对一个一定程度上有序的序列使用这种快排,复杂度则是 O(n)。

改进:虽然我们每次都取最左边的当 pivot,但只要在取之前对 array 进行 shuffle,将有序性去除,就能很好的避免掉进 O(N)递归深度的坑里。

至于 shuffle 的方式有好几种,比如 kunth-shuffle 等等,another story。我们也可以直接用 API。

5. 复杂度分析

(鸽)

上一篇下一篇

猜你喜欢

热点阅读