python爬虫-16-python之正则表达式,以最快的速度获
2022-05-31 本文已影响0人
运维家
老话说得好:世界上分为两种人,一种是会正则的,一种是不会正则的。
1、介绍
又称规则表达式。(英语:Regular Expression
,在代码中常简写为regex、regexp
或RE
),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在python
l中就内建了一个功能强大的正则表达式引擎re
,我们现在就开始该模块的学习。
![](https://img.haomeiwen.com/i19471386/91d50a161cd197ce.png)
2、pyhton匹配某个字符串
从指定字符串第一个字符开始匹配,如果第一个字符没有匹配的就会报错。
方法:
直接写匹配内容即可
示例:
import re
Jier = 'yunweijia'
Suner = re.match('yun', Jier)
print(Suner.group())
输出结果如下:
yun
3、python从字符串头匹配
方法:
match
示例:
import re
Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner.group())
输出结果如下:
Traceback (most recent call last):
File "C:\Users\22768\Desktop\python\python爬虫\004-正则.py", line 11, in <module>
print(Suner.group())
AttributeError: 'NoneType' object has no attribute 'group'
因为当它从字符串第一个字符开始匹配的时候没有匹配到,故而报错了,我们可以将他print
出来,如下:
import re
Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner)
输出结果如下:
None
4、python从头开始递归整个字符串匹配
方法:
search
search(pattern, string, flags=0)
# flags是可选的,他的可选参数如下:
# re.I 忽略大小写
# re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
# re.M 多行模式
# re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
# re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
# re.X 为了增加可读性,忽略空格和 # 后面的注释
示例:
import re
Jier = 'yunweijiaunun'
Suner = re.search('un', Jier)
print(Suner.group())
输出结果如下:
un
5、pyhton匹配任一字符串
方法:
. # 不能匹配到换行符哈,需要注意
示例:
import re
Jier = 'yunweijia'
Suner = re.match('yu.w', Jier)
print(Suner.group())
输出结果如下:
yunw
6、pyhton匹配任意的数字
方法:
\d
示例:
import re
Jier = 'yunweijia0909'
Suner = re.search('\d{4}', Jier) # 匹配4个连续的数字
print(Suner.group())
输出结果如下:
0909
7、pyhton匹配任意的非数字
方法:
\D
示例:
import re
Jier = 'yunweijia0909'
Suner = re.search('\D{4}', Jier) # 匹配4个连续的非数字
print(Suner.group())
输出结果如下:
yunw
8、pyhton匹配空白字符
空白字符包括但不限于下面的内容:
\n, \t, \r 空格
方法:
\s
示例:
import re
Jier = 'yunweijia\t0909'
Suner = re.search('\s', Jier)
print(Suner)
print(Suner.group())
输出结果是空的,但是并不是没有,只是输出是空的,看不到罢了。
<re.Match object; span=(9, 10), match='\t'>
9、pyhton匹配的是a-z和A-Z以及数字和下划线
方法:
\w
示例:
import re
Jier = '09yunweijia0909'
Suner = re.search('\w{3}', Jier)
print(Suner.group())
输出结果如下:
09y
10、pyhton不匹配a-z和A-Z以及数字和下划线
方法:
剩余内容请转至VX公众号 “运维家” ,回复 “178” 查看。------ “运维家” ,回复 “178” ------
------ “运维家” ,回复 “178” ------
------ “运维家” ,回复 “178” ------
linux系统下,mknodlinux,linux目录写权限,大白菜能安装linux吗,linux系统创建文件的方法,领克linux系统怎么装软件,linux文本定位;
ocr识别linux,linux锚定词尾,linux系统使用记录,u盘有linux镜像文件,应届生不会Linux,linux内核64位,linux自启动管理服务;
linux计算文件夹大小,linux设备名称有哪些,linux能用的虚拟机吗,linux系统进入不了命令行,如何创建kalilinux,linux跟so文件一样吗。