python爬虫-16-python之正则表达式，以最快的速度获

2022-05-31 本文已影响0人运维家

老话说得好：世界上分为两种人，一种是会正则的，一种是不会正则的。

1、介绍

又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在pythonl中就内建了一个功能强大的正则表达式引擎re，我们现在就开始该模块的学习。

2、pyhton匹配某个字符串

从指定字符串第一个字符开始匹配，如果第一个字符没有匹配的就会报错。

方法：

直接写匹配内容即可

示例：

import re

Jier = 'yunweijia'
Suner = re.match('yun', Jier)
print(Suner.group())

输出结果如下：

yun

3、python从字符串头匹配

方法：

match

示例：

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner.group())

输出结果如下：

Traceback (most recent call last):
  File "C:\Users\22768\Desktop\python\python爬虫\004-正则.py", line 11, in <module>
    print(Suner.group())
AttributeError: 'NoneType' object has no attribute 'group'

因为当它从字符串第一个字符开始匹配的时候没有匹配到，故而报错了，我们可以将他print出来，如下：

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner)

输出结果如下：

None

4、python从头开始递归整个字符串匹配

方法：

search
search(pattern, string, flags=0)
# flags是可选的，他的可选参数如下：
    # re.I 忽略大小写
    # re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    # re.M 多行模式
    # re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
    # re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    # re.X 为了增加可读性，忽略空格和 # 后面的注释

示例：

import re

Jier = 'yunweijiaunun'
Suner = re.search('un', Jier)
print(Suner.group())

输出结果如下：

un

5、pyhton匹配任一字符串

方法：

. # 不能匹配到换行符哈，需要注意

示例：

import re

Jier = 'yunweijia'
Suner = re.match('yu.w', Jier)
print(Suner.group())

输出结果如下：

yunw

6、pyhton匹配任意的数字

方法：

\d

示例：

import re

Jier = 'yunweijia0909'
Suner = re.search('\d{4}', Jier)  # 匹配4个连续的数字
print(Suner.group())

输出结果如下：

7、pyhton匹配任意的非数字

方法：

\D

示例：

import re

Jier = 'yunweijia0909'
Suner = re.search('\D{4}', Jier)  # 匹配4个连续的非数字
print(Suner.group())

输出结果如下：

yunw

8、pyhton匹配空白字符

空白字符包括但不限于下面的内容：

\n, \t, \r 空格

方法：

\s

示例：

import re

Jier = 'yunweijia\t0909'
Suner = re.search('\s', Jier)
print(Suner)
print(Suner.group())

输出结果是空的，但是并不是没有，只是输出是空的，看不到罢了。

<re.Match object; span=(9, 10), match='\t'>

9、pyhton匹配的是a-z和A-Z以及数字和下划线

方法：

\w

示例：

import re

Jier = '09yunweijia0909'
Suner = re.search('\w{3}', Jier)
print(Suner.group())

输出结果如下：

09y

10、pyhton不匹配a-z和A-Z以及数字和下划线

方法：

剩余内容请转至VX公众号 “运维家” ，回复 “178” 查看。

------ “运维家” ，回复 “178” ------

linux系统下，mknodlinux，linux目录写权限，大白菜能安装linux吗，linux系统创建文件的方法，领克linux系统怎么装软件，linux文本定位；

ocr识别linux，linux锚定词尾，linux系统使用记录，u盘有linux镜像文件，应届生不会Linux，linux内核64位，linux自启动管理服务；

linux计算文件夹大小，linux设备名称有哪些，linux能用的虚拟机吗，linux系统进入不了命令行，如何创建kalilinux，linux跟so文件一样吗。

python爬虫-16-python之正则表达式，以最快的速度获

1、介绍

2、pyhton匹配某个字符串

方法：

3、python从字符串头匹配

方法：

4、python从头开始递归整个字符串匹配

方法：

5、pyhton匹配任一字符串

方法：

6、pyhton匹配任意的数字

方法：

7、pyhton匹配任意的非数字

方法：

8、pyhton匹配空白字符

方法：

9、pyhton匹配的是a-z和A-Z以及数字和下划线

方法：

10、pyhton不匹配a-z和A-Z以及数字和下划线

方法：

猜你喜欢

热点阅读