求子串位置算法 -- KMP算法

2018-07-24  本文已影响70人  半亩房顶

所看这一节标题是 串的模式匹配算法
数据结构C语言版,第四章第三节

目的:求子串位置

首先,最容易想到的就是暴力算法,不废话,直接上代码

int Index(SString S, SString T, int pos){
    i = pos; j=1;
    while(i <= S[0] && j <= T[0]){
        if(S[i] == T[j]) {i++; j++;}
        else{i = i-j+2; j=1}//回退指针中-2需要注意
    }
    if(j > T[0]) return i-T[0];
    else return 0;
}

这个算法可以很好的完成他的功能,这个没有问题。时间复杂度最好为 O(n+m),最坏时候则为O(n*m),问题就在这里了,时间复杂度不可能一直都是最好情况,最坏时候的复杂度我们不满意,那好,优化开始。

这个时候KMP算法就出来了。
暴力算法对复杂度影响最大的,是主串的回退,而KMP其优化思路就是,其实我们可以每次出现匹配失败的时候,主串不回退,适当的回退子串,然后继续进行匹配的。
这个功能成立的条件就是我们对于子串足够的了解。假设我们已经非常熟悉子串,这时可以知道,子串是有一定的重复的,当匹配失败的时候,我们可以让子串回退到一个位置,这个位置不一定是起点,但是主串已经满足了子串这一点之前的字符的成功匹配,这个时候,我们就可以不回退主串,基于我们对于子串的了解,继续进行匹配。说多容易晕,看代码。

代码中我们引入一个next数组,它记录了子串匹配失败时回退的位置,如何得到next数组,后续会说

int Index_KMP(SString S, SString T, int pos){
    i = pos; j = 1;
    while(i <= S[0] && j <= T[0]){
        if(j==0 || S[i] == T[j]){i++; j++;}
        else{ j = next[j]; }
    }
    if(j > T[0]) return i-T[0];
    else return 0;
}

此算法时间复杂度就稳了,O(m+n),不错,挺满意的。当然大家会说,你还需要生成next数组啊,这也是计算啊,那好,我们来看看这个生成next数组的算法

void get_next(SString T, int next[]){
    i=1;next[1] = 0;j=0;
    while(i < T[0]){
        if(j==0 || T[i]==T[j]){i++;j++;next[i]=j;}
        else j = next[j];
    }
}

时间复杂度O(m),感觉可以接受的工作量,呆胶布~

然而,KMP没这么简单的,它还能优化,由此,我们需要先看一个特殊情况:
子串‘aaaab’和主串'aaabaaaab'相遇时候,会发生什么?对next数组足够了解的小伙伴一眼就看出来了,你这不得一步步退回到起点么,干嘛不直接回退到起点?
好,那我们就让它能直接回退到起点来优化它。
新的next算法

void get_nextval(SString T, int nextval[]){
    i=1; j=0; nextval[1]=0;
    while(i < T[0]){
        if(j==0 || T[i]==T[j]){
            ++i;++j;
            if(T[i] != T[j]) nextval[i] =j;
            else nextval[i] = nextval[j];
        }
        else j = nextval[j];
    }
}

emmm,没啥好说的了,手打好累,,,,

上一篇下一篇

猜你喜欢

热点阅读