Regex

2019-02-25 本文已影响0人兔子不会武

常用的匹配规则

模式	描述
\w	匹配字母、数字、下划线,等价于[a-zA-Z0-9_] \w可以匹配汉字(python)
\W	匹配不是字母、数字、下划线的其他字符
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配数字，等价于[0-9]
\D	匹配任意不是数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符\n
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符(tab)
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符在内的任意字符
[…]	用来表示一组字符，单独列出，比如[amk]匹配a、m或k
[^…]	匹配不在[]里面的字符，比如[^abc]匹配除a,b,c以外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式。比如(.*?)表示尽可能少地匹配字符
{n}	精确匹配n个前面的表达式，如\d{5}表示匹配5个数字
{n,m}	匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或者b
( )	匹配括号内的表达式，也表示一个组

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响^和$
re.S	使.匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响\w、\W、\b和\B
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

在网页匹配中，较为常用的有re.S和re.I

使用()括号将想提取的字符串括起来

.* 贪婪匹配

.*？非贪婪匹配

当遇到用于正则匹配模式的特殊字符时，在前面加反斜线转义一下即可。