正则（下）

2018-06-29 本文已影响8人一块大番薯

主要是 re 模块常见方法

re.match(pattern, string)

起始位置开始检查，只要起始位置不匹配，则匹配失败。
一旦匹配，就立刻停止往后找，哪怕字符串中还有可匹配的子字符串
匹配成功返回 Match 对象，失败返回 None

re.seach(pattern, string)

起始位置开始检查，一直尝试往后检查，直到匹配为止。
其余与 match 方法相同

re.fullmatch(pattern, string)

完全匹配

print(re.fullmatch(r'.', "aa"))   # None

re.findall(pattern, string)

一旦匹配，继续往后找其他可匹配的子字符串
返回 list（元素为 str 类型，），即使匹配失败，仍然返回空列表
如果使用分组，则元素是返回的第一个分组

re.finditer(pattern, string)

返回的对象是由 Match 对象组成的迭代器
其余与 findall 方法类似

re.split(pattern, string)

与 str.split 方法类似，将 str 转化成 list

a = re.split(r'\W+', 'this is a string.')
print(a)   # ['this', 'is', 'a', 'string', '']
b = list(filter(lambda x: x, a))
print(b)   # ['this', 'is', 'a', 'string']

re.sub(pattern, repl, string)

将符合 pattern 正则的 string 用 repl 代替，与 findall 方法类似，不断匹配尽可能多的子字符串

rex = r'\w+@\w+.\w+'
print(re.sub(rex, 'good', 'aef52@126.com ad6@qq.com')) # good good

flag 参数

以上方法都有一个 flag 参数。其值有（括号内的单词为全拼，两种方式都支持）：

re.I(IGNORECASE):：忽略大小写
re.S(DOTALL)：（dot all）改变’.’的行为，默认 . 只能匹配除换行之外的字符，加上它就可以匹配换行了
re.M(MULTILINE)：多行模式，改变’^’和’$’的行为
当目标字符串含有\n，且正则中含有^或$的时候，re.M 才有作用。
默认：（整体匹配）^ 与字符串的开始位置相匹配，而 $ 与字符串的结束位置相匹配。
re.M：（每行匹配）^ 与字符串开始位置以及“\n”或“\r”之后的位置相匹配，而“$”与字符串结束位置以及“\n”或“\r”之前的位置相匹配。

rex = r'^a.'

print(re.match(rex, 'Aa', re.I).group()) # 匹配

print(re.match(rex, 'a\n'))  # 不匹配
print(re.match(rex, 'a\n', re.DOTALL))  # 匹配，支持全拼

print(re.search(rex, '\nab'))  # 整体匹配，a 不在开头，故不匹配
print(re.search(rex, '\nab', re.M))  # 每行匹配，a 在某行开头，故匹配