4. Python 正则表达式

2018-06-25 本文已影响0人柄志

正则表达式

正则表达式是一个特殊的字符序列，用于检查字符串是否与某种模式匹配

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符在内的任意字符
[...]	用来表示一组字符，单独列出
[^...]	不在[]中的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
？	匹配0个或1个前面的正则表达式定义的片段
{n}	精确匹配n个前面的表达式
{n,m}	精确匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
()	匹配括号内的表达式，也表示一个组

[\u4e00-\u9fa5]

[^\x00-\xff]

\n\s*\r

[a-zA-z]+://[^\s]*

re.match('匹配正则表达式',待匹配字符串[,修饰符])

正则表达式可指定可选标志修饰符控制匹配模式

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响^和$
re.S	使.匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符，影响\w、\W、\b、\B
re.X	该标志通过给予更灵活的格式以便将正则表达式写得更容易理解

content = re.sub('被修改字符串'，'替换字符串','原字符串')