KMP算法学习记录

2021-03-14  本文已影响0人  youyuge

题解:
https://leetcode-cn.com/problems/implement-strstr/solution/zhe-ke-neng-shi-quan-wang-zui-xi-de-kmp-8zl57/

image.png

若j回溯到一个位置,坏字符匹配上了,那j++,i++继续循环。这是我们想看到的情况,即匹配的最优解,j只回溯了几次,i就继续开始动了,且j也无需回溯到头。且我们的证明也保证了无遗漏case。

若j回溯到头,还是没匹配上,那就i++,从j=0开始重新匹配了。尽管和暴力看似一样,但是实际这一步,i直接跳过了之前匹配上的子串长度,且j回溯的非常快。

伪代码

求pattern的最长公共前后缀

外层循环是O(N),那么我们希望里层的循环是常数时间复杂度,即需要事先对pattern构建一个next数组,next[i]代表了前i+1个字符串中最长公共前后缀的前缀末位的index。如下图所示,next[4]=2即代表bcbcb的最长公共前后缀的前缀末位index=2,即长度=3=bcb。

image.png

由于next数组的构建只与pattern有关,因此可以提前构建一次,从而应对各个txt。
我们希望构建的时间复杂度是O(M)。构建next的过程其实就是对next的每个前缀子串计算最长快乐前缀位置的过程。即leetcode另一题:https://leetcode-cn.com/problems/longest-happy-prefix/solution/ni-zhen-de-li-jie-kmpma-jiao-ni-xun-su-zhang-wo-bi/
而我们这里构建的next数组就是这一题的增强版。这一题哪怕暴力计算一个字符串的最长公共前后缀,时间复杂度也是线性的。但是计算next数组就不是了,因此不能暴力求解。

next[0]=-1表示无公共的。之后就是一个dp问题。即知道了next[i-1]及其之前的值,推算当前的,而非暴力遍历。

这里我们可以证明:next[i]字符串的最长公共前后缀-1位(下图中Y绿),是next[i-1]字符串的某个公共前后缀。
因为若新加了一位数,构成了最大公共前缀,那么其前缀-1=后缀-1=原子串的某公共前后缀的后缀。因为一定是原子串的某个公共前后缀。而通过之前的证明可得,一定是其最大公共前后缀的最大公共前后缀的…………某一个。


image.png

因此,求next[i]只需要不停回溯,比较pattern[i]与blue的公共前后缀的前缀后一位是否相等。否的话继续往前回溯。是的话就找到了填入前缀的index。

上一篇 下一篇

猜你喜欢

热点阅读