正则贪婪模式vs非贪婪模式详解

2016-12-26 本文已影响270人春木橙云

正则表达式贪婪与非贪婪模式

作为开始，我们看看下面的正则：

 var str = 'a "witch" and her "broom" is one';
 str.match( /".*"/g);

我们本来预想上面会匹配得到 witch和 broom两个字符串，运行上面的例子，却发现结果只匹配到 "witch" and her "broom" 一个字符串。
之所以出现这个结局，是因为正则的贪婪模式在起作用。查找算法首先我们假设自己是正则引擎，来模拟搜索实现的过程。正则引擎先从字符串的第0位开始搜索。 1. 第一个查找字符是 " ，正则引擎在第三个位置匹配到了它：

之后，引擎尝试匹配正则的剩余部分，第二个字符是 . ,它代表任意字符。隐藏匹配到了 w:

. 代表任意字符重复一次到多次，因此正则引擎匹配到所有字符

当文本结束后，点的匹配停止了，但仍然有剩余的的正则需要匹配，即："
因此，正则引擎开始倒过来回溯，换句话说，就是一个字符一个字符缩减匹配。

当匹配缩减后，它开始尝试匹配剩余的正则，但 " 没有匹配上字符 e。

因此正则继续缩减 . 所重复的字符，再继续尝试。

引号 " 没用匹配上 n ，又失败了~~，继续…正则引擎继续回溯，一次一次缩减 . 重复的字符个数，直到剩余的正则都匹配上：

现在 " 终于匹配上了。如果正则是global的，正则引擎会从上次匹配结果之后继续查找更多结果。

再看一个例子：

 var str = 'a "witch" and her "broom" is one';
 str.match( /".*" a/g);  //输出结果为:[""witch" a"]

在这个例子中，因为 * 的存在，使得正则表达式具有贪婪属性，操作模式同上，先匹配第一个 " 找到了witch前的 "，第二步匹配 . ，因为可以代表除了行结束符和换行符号的所有符号，因此直接跳到文本结尾 e，接下来匹配 " ,找到 m 后面的 " ,接着匹配 " 后的空格，在匹配空格后的 a ，此时发现没有，则失败，重新寻找 "；最终匹配到 "witch" a。
总结：在贪婪（默认）模式下，正则引擎尽可能多的重复匹配字符
非贪婪模式
非贪婪模式和贪婪模式相反，可通过在代表数量的标示符后放置 ? 来开启非贪婪模式，如 ? 、+? 甚至是 ?? 。

 var str = 'a "witch" and her "broom" is one';
 str.match(/".*?"/g ) // "witch", "broom"

我们来看看非贪婪模式 .? 是怎么运转的。

第一步和上面类似，引号 " 被匹配上

第二步一样， . 被匹配上

下面是二者的重要区别。正则引擎尝试用最小可能的重复次数来进行匹配，因此在 . 匹配了 w 后，它立即尝试 " 的匹配

可惜没有匹配上，因为 t != " 。. 重复更多的字符，再进行尝试。

又没匹配上，继续~~

下面终于匹配上了

因为正则是global的，所以正则引擎继续后面的匹配，从引号后面的 a 字符开始。后面有匹配到第二个字符串

总结：在非贪婪模式下，正则引擎尽可能少的重复匹配字符

（本文引用若愚老师博客，仅用于学习使用，特此声明！）

正则贪婪模式vs非贪婪模式详解

正则表达式贪婪与非贪婪模式

猜你喜欢

热点阅读