Python初学者笔记(四):白话讲正则的“贪婪与懒惰”,你看不
什么是正则(规则)的“贪婪与懒惰”?每当入门的小白看到新术语,就会上火,在说什么啊?完全听不懂,能不能先举个生活化例子?别急,先免费给你和懒汉王二小每人一个发财的机会,看到下面的金条了吗?因为上面有黑点成了废品,但是还是值很多钱,现在可以把两个黑点之间的金条白送给你。
王二小是个懒汉,看到A和B是两个黑点,就切了一小块金字。
可你一看,A和E也符合“两个黑点之间”的条件,所以你就要了A和E中间的一大块金子,所以你就发财了。
贪婪模式:就是在条件允许的前提下,尽可能找更长的金条。
懒惰模式:就是在条件允许的前提下,找到第一段符合条件的金条就行,你说有多懒吧。
现在,大概原理我们懂了,接下来看看代码,是不是这样执行的。
以“*”星号为例,它就是贪婪模式的代表,
而“*?”就是懒惰模式的代表。
下面开始让它们干活了,运行下面的程序。先有一个叫demotext的字符串,你就当是村里的人员名单。我们的两个员工开始干活,一个叫贪婪tanlan,一个叫懒惰landuo,工作内容是从头找到“张字开头,李字结尾”的内容。
import re demotext = '''''张三李四王二麻子张三的爹李四的爹王二麻子的爹'''
tanlan = re.match('张.*李', demotext)
landuo = re.match('张.*?李', demotext)
print(tanlan)
print(landuo)
执行结果如下:
<_sre.SRE_Match object; span=(0, 13), match='张三李四王二麻子张三的爹李'> <_sre.SRE_Match object; span=(0, 3), match='张三李'>
勤劳的贪婪找到了好长一根,并且符合条件“张字开头,李字结尾”。而懒惰只找到了三个字,勉强完成任务了。
这就是两种模式的对比,那是不是懒惰一定不勤劳呢?还要看你这个老板的命令,刚才我们用的命令是macth,就是比较,现在我们再换个命令,findall,就是“在大字符串demotext内找到全部符合条件的结果”,再看一下是什么结果。
import re demotext = '''''张三李四王二麻子张三的爹李四的爹王二麻子的爹'''
tanlan = re.findall('张.*李', demotext)
landuo = re.findall('张.*?李', demotext)
print(tanlan)
print(landuo)
输出结果:
['张三李四王二麻子张三的爹李']
['张三李', '张三的爹李']
看到没,因为查找命令不同,懒惰还是找到了两段,反而比贪婪还多干了不少活。
那么在实际应用中,应该使用哪种模式呢?
对于一些简单的需求,使用两种模式都可以。相对来说,在日常应用中,我们要找的内容大多是懒惰模式找到的固定内容,而贪婪模式的内容通常并不是我们所需要的。只能根据实际需要来做选择了。