KMP算法

2020-08-29  本文已影响0人  sakura579

什么是KMP算法?
快速地从一个主串中找出一个相同的字串


黄色的叫模式串
蓝色的叫主串
快速地从上面的主串中找出一段与之相同的字串
注意强调 快速地


可以发现:



①箭头左边地部分 上下 模式串和主串 完全匹配


②模式串左右两端 有两个子串 它们是完全匹配的
左右两端都有AB子串 它们两个称为模式串的 公共前后缀

KMP核心:

直接移动模式串,使得其公共前后缀里 原先的前缀 直接移动到 后缀原先的位置

这样移动可以保证 当前比较指针 所在的位置 它左边的串 上下是匹配的


为什么呢?
因为公共前后缀是匹配的 移动之前指针左边的串上下是匹配的
所以把前缀移到后缀的位置 上下也是匹配的

❌标识的那个位置字符 与 主串 不匹配

这个时候 只需要找到❌之前的串 当中的 公共前后缀 , 然后往前移动 模式串 使得前缀 来到原来 后缀的位置

如果模式串中 有多对公共前后缀 , 要取最长的一对


找公共前后缀



只有这一对 且是最长的



发现模式串 已经 超过主串的范围了

判定 匹配失败 ,主串中不含有和 模式串 相同的 子串

找公共前后缀 : 找最长的 且长度要小于 比较指针左端长度的公共前后缀




在这个移动过程中 根本就不需要看主串



KMP算法
只研究模式串就够了
把模式串相关信息挖掘出来之后,用它就可以和任何 主串 进行匹配


注意: 模式串是从 数组下标1 开始存储的 0位置什么都没有存

当然也可以从数组下标0开始存(原理一样 , 只是 结果值相差一个位置)

这部分从1开始存的学校比较多
就采取了这种大多数人比较习惯的方式

假设可以和任何主串进行KMP算法,每一个位置都可能发生不匹配


假如第一个位置就发生不匹配,


假设第二个位置发生不匹配,



箭头左边的子串长度只有1
公共前后缀的长度要求小于子串的长度
那么公共前后缀的长度只能为0

类比公共前后缀不为0的情况
移动之后指针左边的长度 就是公共前后缀的长度

这里呢公共前后缀长度是0,移动之后落在模式串中指针左边的子串就为0

比较指针所指的位置 就是主串中发生不匹配的位置 我们叫它 当前位置

这种情况下: 拿模式串的1号位 与 主串中 当前位置进行比较

next数组 (下一步数组)

这个数组 指示了 如果发生不匹配时下一步该干什么

上一篇下一篇

猜你喜欢

热点阅读