python学习笔记-tip56(re模块)
引言
上一篇列举了一些「正则表达式」的规则,本篇文章提一下 python 中的 「re模块」
其实「re模块」就是 python 为我们提供的方便操作正则表达式的模块。
因为 python 中也有转义,所以我们如果在 python 中写「正则表达式」的时候,需要这么写
s=‘abc\\_123’
这样才能表示是
abc\_123
的正则表达式
但是如果我们使用了 「re模块」的话,那么只需要在前面加 r
即可
s=r'abc\_123'
即可表示
abc\_123
这样就能够解决我们书写的麻烦。
使用「re模块」的一个小案例,一个匹配电话号码的正则表达式
如图,即使用到了「re模块」,正则表达式还是要用滴,哈哈
使用正则+re模块 进行字符串的分割
我们知道,对字符串可以使用 split() 方法完成字符串的分割,如下
一般的字符串处理,我们直接这样使用
字符串.split(分隔符)
就能够实现了
但是请看下方案例
如图可见,如果我们处理了稍微复杂一点的字符串的时候,普通的分割符就不好用了,这个时候,我们需要用到「正则表达式」和「re模块」。
请看
瞧,是不是很方便?
除了字符串分割,还可以通过「re模块」中的match 方法完成「分组」功能
我们还是举个例子来说,比如我们现在想对电话号码进行匹配
电话号码是010-888888
那么其实可以对这个电话分一下组,一组为区号010
,一组为电话号码888888
那么我们就可以定义「正则表达式」:r‘\d{3}\-\d{3,8}’
然后我们通过re.match()
方法对字符串进行匹配,如果匹配成功,则返回一个Match对象
,如果匹配失败则返回None
。
那么Match对象
可以通过group(索引)
获得字串
,索引为0的子串永远为原始字符串
,剩下的则按照匹配规则进行分配。
正是通过上述的方法,完成字符串分组的功能。
我们把上面的案例,写成代码,大家来参考一下,注意在实现分组功能的时候,需要使用()
对需要分组的正则进行包裹,这样才能达到分组的效果。
贪婪匹配
#有一点我们需要注意,正则表达式其实是贪婪匹配的
,即在匹配规则范围内,尽可能多的去匹配数据
举个例子,还是用分组来举例,现在想把一个比较大的数的 尾部的0和前边的数分离开来,比如
123000
这个数,分离成为123
、000
这两组,我们先使用我们以前的思路去匹配
上图可见,我们的正则表达式
(\d+)(0*)
第一组会尽可能多的去匹配字符串,导致达不到预期,这个时候,我们需要采用#非贪婪模式即可
只需要在表达式后方添加一个?
就好了
需要注意的是:
如果想正确的匹配数据,建议加上头部限制和尾部限制
「re模块」的优化
「re模块」在使用的时候,python会做两件事
- 编译正则表达式,如果正则表达式本省有错误,那么会报错
- 用编译后的正则表达式去匹配
所以,每次使用「re模块」的时候都会执行上面两个过程,效率不是很高,所以我们可以使用下面的方法去提高效率。
在程序中先对 正则表达式进行预编译,接下来使用「re模块」就不会再进行编译,直接能使用了
只需要通过compile()方法
即可
看一下示例代码
通过这个方法可以提高「re模块」的效率,推荐使用。
总结
我们利用正则表达式能够完成很多操作字符串的问题,大家可以试试去匹配不一样的东西,比如邮箱,价格,邮编等等,只有去匹配不同的东西,才能锻炼自己写正则的熟练度~