模式匹配算法

2019-08-13 本文已影响0人 lx_jian

1. 模式匹配

模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。

假设P是给定的子串，T是待查找的字符串，要求从T中找出与P相同的所有子串，这个问题成为模式匹配问题。P称为模式，T称为目标。如果T中存在一个或多个模式为P的子串，就给出该子串在T中的位置，称为匹配成功；否则匹配失败。

2. 常见模式匹配算法

2.1 朴素的模式匹配算法

假设我们要从主串s="goodgoogle"找到t="google"这个子串的位置，我们需要下列步骤：

（1）主串s的第1位开始，s与t前三个字符都匹配成功，第四个字符不匹配（竖线表示相等，闪电状弯折表示不想等）.

（2）主串s的第2位开始，匹配失败

（3）主串s的第3位开始，匹配失败

（4）主串s的第4位开始，匹配失败

（5）主串s的第5位开始，s与t，6个字符全部匹配成功

对主串s的每一个字符作子串t开头，要与匹配的字符串t进行匹配。对主串s作大循环，每一个字符开头作t长度的小循环，直到匹配成功或者全部遍历完为止。

图1

时间复杂度：

最好情况：如"googlegood"中找"google"，第一个开始位置就匹配，时间复杂度为O(1).

其次：比如"abcdefgoogle"中找"google"，时间复杂度O(n+m)，其中n为主串长度，m为子串长度，根据等概率原则，平均（n+m）次查找，时间复杂度为O(n+m)

最坏的情况，每次不成功都发生在串t的最后一个字符，比如子串t="0000000001"，9个"0"和一个"1"，主串s="00000000000000000000000000000000000000000000000001"，49个"0"和一个"1"时间复杂度为O((n-m+1)*m)

2.2 KMP匹配算法

（1）假设主串s="abcdefgab"，t="abcdex"。"abcdex"的首字符"a"与后面的串"bcdex"中任何一个字符都不相等，子串t与主串s的前5个字符分别相等，意味着子串t的首字符"a"不可能与s串的第2位到第5位的字符相等。

图2

（2）假设s="abcababca"，t="abcabx"。子串t中有重复字符。第一步，前5个字符相等，第6个字符不相等，根据前面的经验，t的首字符"a"与t中第二位、第三位字符均不等，不需要判断。子串t中第1位与第4位相等，第2位与第5位相等；主串s中第4位，第5位分别与子串t中第4位，第5位相等，意味着子串的第1位与第2位分别与主串第4位与第5位相等，不需要判断。

图3

总结：i值不回溯，j值的变化只与子串有关，取决于t串中的结构中是否有重复的字符串。我们把t串各个位置的变化定义为一个数组next，next的长度就是t串的长度。

图4

图5

时间复杂度：对于get_next来说，t的长度为m，由于只涉及到简单循环，其时间复杂度为O(m)；i的值不回溯，主串的长度为n，while循环的时间复杂度为O(n)，因此整个代码的数减复杂度为O(n+m)

(3)KMP模式匹配算法改进

KMP匹配算法还是有缺陷的，比如子串s="aaaabcde"，子串t="aaaaax"，子串t的next为012345.

图6

我们发现②③④⑤步骤是多余的。由于子串t中第2、3、4、5个位置上的字符串和守卫上的字符串相等，那么可以用首位next[1]来代替后续与它相等的字符后续的next[j]，由于子串t中第2、3、4、5个位置上的字符串和首位上的字符串相等，那么可以用首位next[1]来代替后续与它相等的字符后续的next[j]。

2.3 BM匹配算法

Boyer-Moore（BM）算法是一种基于后缀匹配的模式串匹配算法，后缀匹配就是模式串从右到左开始比较，但模式串的移动还是从左到右的。字符串匹配的关键就是模式串的如何移动才是最高效的，Boyer-Moore为了做到这点定义了两个规则：坏字符规则和好后缀规则，下面图解给出定义：