KMP算法学习记录

2021-03-14 本文已影响0人 youyuge

题解：
https://leetcode-cn.com/problems/implement-strstr/solution/zhe-ke-neng-shi-quan-wang-zui-xi-de-kmp-8zl57/

重点： KMP算法的重点在txt字符串的指针不停往后跳+1，而pattern指针可以回溯。我们希望而当出现坏字符的时候，txt指针不回溯，pattern指针往前回溯距离最短，耗时最低。

image.png
问题来了，如何使txt指针i稳定前进，pattern指针j跳跃回溯最少？j回溯最少即pattern往后移动最多几个格子不会出现遗漏case？涉及到了字符串的公共最长前后缀。使用该前后缀，即可快速知道pattern整体后移多少，j跳跃多少。如上图所示，pattern后移2格是下一步最优解。为何？因为此时bcb重合。若只移动一格则不匹配。而匹配这个条件就等价于匹配的子串是最长公共前后缀bcb。因此最多移动2格。有没有可能遗漏？比如移动一格就匹配了？移动一格若匹配则说明子串是公共前后缀，此时才是真正的最长公共前后缀，与假设的移动2格最长不符。那能不能移动更多？不能，那样会有遗漏case。因此移动2格是最优解。
- 即j移动到bcb后面一格。而若该步发现还是txt[i] != pattern[j]，那么需要pattern继续后移动，即j继续往前回溯。即需要找到当前子串的第二长的公共前后缀。而第二长的公共前后缀就是最长公共前后缀本身的最长公共前后缀，
- 这里我们来证明这一定理：假设pattern的最长公共前后缀是x，那么pattern的第二长公共前后缀y一定是x的最长公共前后缀。根据这一推论可轻松推广到第N长的情况。这是kmp算法非常重要的一个定理，没有它KMP就失去了高效性。通过这个定理就可以非常快地回溯找到字符串的第N长公共前缀。证明如下图所示：

image.png

若j回溯到一个位置，坏字符匹配上了，那j++，i++继续循环。这是我们想看到的情况，即匹配的最优解，j只回溯了几次，i就继续开始动了，且j也无需回溯到头。且我们的证明也保证了无遗漏case。

若j回溯到头，还是没匹配上，那就i++，从j=0开始重新匹配了。尽管和暴力看似一样，但是实际这一步，i直接跳过了之前匹配上的子串长度，且j回溯的非常快。

伪代码

一个for循环体内：
- 若txt[i] == pattern[j] ，则i++，j++，若j==len(pattern)则说明找到了，否则进入下一个循环体。
- 若txt[i] != pattern[j] pattern指针j跳跃到子串最长公共前后缀的前缀后一个位置。而txt指针i不变，再次进行比较，若不同，则j继续回溯到当前子串（当前子串=上一个子串的最长公共前后缀）的最长公共子串（=上一个子串的第二长最长公共后缀）的前缀位置+1……如此回溯直到找到txt[i]==pattern[j]或没找到。找到则i++，j++，否则j移动到0，只有i++。之后进入下一个循环体。

求pattern的最长公共前后缀

外层循环是O(N)，那么我们希望里层的循环是常数时间复杂度，即需要事先对pattern构建一个next数组，next[i]代表了前i+1个字符串中最长公共前后缀的前缀末位的index。如下图所示，next[4]=2即代表bcbcb的最长公共前后缀的前缀末位index=2，即长度=3=bcb。

image.png

由于next数组的构建只与pattern有关，因此可以提前构建一次，从而应对各个txt。
我们希望构建的时间复杂度是O(M)。构建next的过程其实就是对next的每个前缀子串计算最长快乐前缀位置的过程。即leetcode另一题：https://leetcode-cn.com/problems/longest-happy-prefix/solution/ni-zhen-de-li-jie-kmpma-jiao-ni-xun-su-zhang-wo-bi/
而我们这里构建的next数组就是这一题的增强版。这一题哪怕暴力计算一个字符串的最长公共前后缀，时间复杂度也是线性的。但是计算next数组就不是了，因此不能暴力求解。

next[0]=-1表示无公共的。之后就是一个dp问题。即知道了next[i-1]及其之前的值，推算当前的，而非暴力遍历。

这里我们可以证明：next[i]字符串的最长公共前后缀-1位（下图中Y绿），是next[i-1]字符串的某个公共前后缀。
因为若新加了一位数，构成了最大公共前缀，那么其前缀-1=后缀-1=原子串的某公共前后缀的后缀。因为一定是原子串的某个公共前后缀。而通过之前的证明可得，一定是其最大公共前后缀的最大公共前后缀的…………某一个。

image.png

因此，求next[i]只需要不停回溯，比较pattern[i]与blue的公共前后缀的前缀后一位是否相等。否的话继续往前回溯。是的话就找到了填入前缀的index。

KMP算法学习记录

伪代码

求pattern的最长公共前后缀

猜你喜欢

热点阅读