linux运维

python爬虫-16-python之正则表达式,以最快的速度获

2022-05-31  本文已影响0人  运维家

老话说得好:世界上分为两种人,一种是会正则的,一种是不会正则的。

1、介绍

又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexpRE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在pythonl中就内建了一个功能强大的正则表达式引擎re,我们现在就开始该模块的学习。

2、pyhton匹配某个字符串

从指定字符串第一个字符开始匹配,如果第一个字符没有匹配的就会报错。

方法:

直接写匹配内容即可

示例:

import re

Jier = 'yunweijia'
Suner = re.match('yun', Jier)
print(Suner.group())

输出结果如下:

yun

3、python从字符串头匹配

方法:

match

示例:

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner.group())

输出结果如下:

Traceback (most recent call last):
  File "C:\Users\22768\Desktop\python\python爬虫\004-正则.py", line 11, in <module>
    print(Suner.group())
AttributeError: 'NoneType' object has no attribute 'group'

因为当它从字符串第一个字符开始匹配的时候没有匹配到,故而报错了,我们可以将他print出来,如下:

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner)

输出结果如下:

None

4、python从头开始递归整个字符串匹配

方法:

search
search(pattern, string, flags=0)
# flags是可选的,他的可选参数如下:
    # re.I 忽略大小写
    # re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    # re.M 多行模式
    # re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
    # re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    # re.X 为了增加可读性,忽略空格和 # 后面的注释

示例:

import re

Jier = 'yunweijiaunun'
Suner = re.search('un', Jier)
print(Suner.group())

输出结果如下:

un

5、pyhton匹配任一字符串

方法:

. # 不能匹配到换行符哈,需要注意

示例:

import re

Jier = 'yunweijia'
Suner = re.match('yu.w', Jier)
print(Suner.group())

输出结果如下:

yunw

6、pyhton匹配任意的数字

方法:

\d

示例:

import re

Jier = 'yunweijia0909'
Suner = re.search('\d{4}', Jier)  # 匹配4个连续的数字
print(Suner.group())

输出结果如下:

0909

7、pyhton匹配任意的非数字

方法:

\D

示例:

import re

Jier = 'yunweijia0909'
Suner = re.search('\D{4}', Jier)  # 匹配4个连续的非数字
print(Suner.group())

输出结果如下:

yunw

8、pyhton匹配空白字符

空白字符包括但不限于下面的内容:

\n, \t, \r 空格

方法:

\s

示例:

import re

Jier = 'yunweijia\t0909'
Suner = re.search('\s', Jier)
print(Suner)
print(Suner.group())

输出结果是空的,但是并不是没有,只是输出是空的,看不到罢了。

<re.Match object; span=(9, 10), match='\t'>
 

9、pyhton匹配的是a-zA-Z以及数字和下划线

方法:

\w

示例:

import re

Jier = '09yunweijia0909'
Suner = re.search('\w{3}', Jier)
print(Suner.group())

输出结果如下:

09y

10、pyhton不匹配a-zA-Z以及数字和下划线

方法:

剩余内容请转至VX公众号 “运维家” ,回复 “178” 查看。

------ “运维家” ,回复 “178”  ------

------ “运维家” ,回复 “178”  ------

------ “运维家” ,回复 “178”  ------

linux系统下,mknodlinux,linux目录写权限,大白菜能安装linux吗,linux系统创建文件的方法,领克linux系统怎么装软件,linux文本定位;

ocr识别linux,linux锚定词尾,linux系统使用记录,u盘有linux镜像文件,应届生不会Linux,linux内核64位,linux自启动管理服务;

linux计算文件夹大小,linux设备名称有哪些,linux能用的虚拟机吗,linux系统进入不了命令行,如何创建kalilinux,linux跟so文件一样吗。

上一篇下一篇

猜你喜欢

热点阅读