正则贪婪模式vs非贪婪模式详解
正则表达式贪婪与非贪婪模式
作为开始,我们看看下面的正则:
var str = 'a "witch" and her "broom" is one';
str.match( /".*"/g);
我们本来预想上面会匹配得到 witch
和 broom
两个字符串,运行上面的例子,却发现结果只匹配到 "witch" and her "broom"
一个字符串。
之所以出现这个结局,是因为正则的贪婪模式在起作用。查找算法首先我们假设自己是正则引擎,来模拟搜索实现的过程。 正则引擎先从字符串的第0位开始搜索。 1. 第一个查找字符是 "
,正则引擎在第三个位置匹配到了它:
之后,引擎尝试匹配正则的剩余部分,第二个字符是
.
,它代表任意字符。隐藏匹配到了 w
:.
代表任意字符重复一次到多次,因此正则引擎匹配到所有字符
当文本结束后,点的匹配停止了,但仍然有剩余的的正则需要匹配,即:"
因此,正则引擎开始倒过来回溯,换句话说,就是一个字符一个字符缩减匹配。
"
没有匹配上字符 e
。
因此正则继续缩减 .
所重复的字符,再继续尝试。
引号
"
没用匹配上 n
,又失败了~~, 继续…正则引擎继续回溯,一次一次缩减 .
重复的字符个数,直到剩余的正则都匹配上:现在 "
终于匹配上了。 如果正则是global的,正则引擎会从上次匹配结果之后继续查找更多结果。
再看一个例子:
var str = 'a "witch" and her "broom" is one';
str.match( /".*" a/g); //输出结果为:[""witch" a"]
在这个例子中,因为 *
的存在,使得正则表达式具有贪婪属性,操作模式同上,先匹配第一个 "
找到了witch前的 "
,第二步匹配 .
,因为可以代表除了行结束符和换行符号的所有符号,因此直接跳到文本结尾 e
,接下来匹配 "
,找到 m
后面的 "
,接着匹配 "
后的空格,在匹配空格后的 a
,此时发现没有,则失败,重新寻找 "
;最终匹配到 "witch" a
。
总结:在贪婪(默认)模式下,正则引擎尽可能多的重复匹配字符
非贪婪模式
非贪婪模式和贪婪模式相反,可通过在代表数量的标示符后放置 ?
来开启非贪婪模式,如 ?
、+?
甚至是 ??
。
var str = 'a "witch" and her "broom" is one';
str.match(/".*?"/g ) // "witch", "broom"
我们来看看非贪婪模式 .?
是怎么运转的。
- 第一步和上面类似,引号
"
被匹配上
第二步一样,.
被匹配上
下面是二者的重要区别。 正则引擎尝试用最小可能的重复次数来进行匹配,因此在 .
匹配了 w
后,它立即尝试 "
的匹配
可惜没有匹配上,因为
t
!= "
。.
重复更多的字符,再进行尝试。又没匹配上,继续~~
下面终于匹配上了
因为正则是global的,所以正则引擎继续后面的匹配,从引号后面的 a
字符开始。后面有匹配到第二个字符串
总结:在非贪婪模式下,正则引擎尽可能少的重复匹配字符
(本文引用若愚老师博客,仅用于学习使用,特此声明!)