python进阶课 Python3入门笔记及知识点整理 python3

Python入门之正则表达式

2019-07-19 本文已影响128人我的袜子都是洞

正则表达式语法

匹配单个字符

字符	匹配
`.`	匹配任意字符(除了`\n`)
`[...]`	匹配字符集
`\d`/`\D`	匹配数字/非数字
`\s`/`\S`	匹配空白/非空白字符
`\w`/`\W`	匹配单词字符[a-zA-Z0-9]/非单词字符

匹配多个字符

字符	匹配
`*`	匹配前一个字符0次或者无限次
`+`	匹配前一个字符1次或者无限次
`?`	匹配前一个字符0次或者1次
`{m}`/`{m,n}`	匹配前一个字符m次或者m到n次
`*?`/`+?`/`??`	匹配模式变为非贪婪（尽可能少匹配字符）

匹配边界

字符	匹配
`^`	匹配字符串开头
`$`	匹配字符串结尾
`\A`/`\Z`	指定的字符串必须出现在开头或结尾

字符	匹配
`/`	匹配左右任意一个表达式
`(ab)`	括号中表达式作为一个分组
`\<number>`	引用编号为num的分组匹配到的字符串
`(?P<name>)`	分组起一个别名
`(?P=name)`	引用别名为name的分组匹配字符串

re正则模块的常用方法

match: 从起始位置开始匹配，一次匹配
search: 从任何位置开始查找，一次匹配
findall: 全部匹配，返回列表
sub: 替换
finditer: 全部匹配，返回迭代器
split: 分割字符串，返回列表

flags标志位

编译标志位，用于指定正则表达式的匹配方式
通常不用，一旦使用则非常方便

常用标志	含义
rs.S(DOTALL)	"."匹配所有字符，包括换行
re.I(IGNORECASE)	对大小写不敏感
re.M(MULTILINE)	多行匹配（每行匹配一次）
re.L(LOCALE)	做本地化识别
re.X(VERBOSE)	更灵活的格式
re.U	根据Unicode字符集解析字符

re.match方法

判断字符串的开头是否能匹配正则表达式
一次匹配
匹配失败返回None
语法：

re.match(pattern, string, flags=0)

示范：

import re

pattern = r'sp\w+'
s = '1spider2dog3cat'
m = re.match(pattern,s)
print(m)

s2 = 'spider2dog3cat'
m = re.match(pattern,s2)
print(m)

输出：

None
<re.Match object; span=(0, 14), match='spider2dog3cat'>

re.search方法

在字符串的任何位置查找字符串
其余与re.match相同
语法：

re.search(pattern, string, flags=0)

re.findall方法

匹配所有符合条件子字符串，以列表形式返回结果
语法：

re.findall(pattern, string, flags=0

重点体会
- 跨行匹配
- flags为re.DOTALL,或者re.S

re.sub方法

字符串替换
语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern: 匹配规则
repl: 替换字符串
string: 被替换字符串
count: 替换的最大次数

re.split方法

根据匹配分割字符串，返回分割字符串组成的列表
语法：

re.split(pattern, string, maxsplit=0, flags=0)

正则表达式的使用方式

生成正则表达式的对象，适用于大同一个正则规则需要用很多次的情况

import re
p = re.complie(r'imooc')
p.match('aimooc')

一次规则就用一次的情况

import re
re.match(pattern, string, flags=0)

上一篇下一篇

猜你喜欢

热点阅读