【读书笔记】_正则表达式
1、正则表达式使用的特殊符号和字符
1.1、用管道符号( | )匹配多个正则表达式模式,即或,匹配多个表达式。
例:at|home 匹配at,home
1.2、匹配任意一个单个的字符( . ),但是除了换行符。如果要匹配.号本身,那需要转义字符,即\..net,匹配.net
例:A.B 匹配ACB,A1B,A+B
1.3、从字符串的开头或结尾或单词边界开始匹配( ^,/$ ,/\b, /\B )
例:正则表达式模式 匹配的字符串
^From :匹配任何以 From 开始的字符串
/bin/tcsh$ :匹配任何以 /bin/tcsh 结束的字符串
^Subject: hi$: 匹配仅由 Subject: hi 组成的字符串
\bthe: 任何以"the"开始的字符串
\Bthe 任意包含“the”但不以“the”开头的单词
1.3.1、“matching”是试图从整个字符串的开头进行匹配,而 “searching” 则可从一个字符串的任意位置开始匹配
1.4、创建字符类( [ ] ),使用方括号的正则表达式会匹配方括号里的任何一个字符
例:b[aeiu]t :bat, bet, bit, but
[cr][23][dp][o2] :一个包含 4 个字符的字符串: 第一个字符是“r” 或“c”, 后面是“2”或 “3”,再接下来是 “d” 或 “p”,最后是 “o” 或 “2“
1.5、指定范围 ( - ) 和 否定( ^ ),方括号里一对符号中间的连字符(-)用来表示一个字符的范围;如果在左方括号后第一个字符是上箭头符号(^),就表示不匹配指定字符集里的任意字符。
例:z.[0-9] :字符"z",后面跟任意一个字符,然后是一个十进制数字,如za2
[^ab]: 除a,b之外的任意一个字符。
1.6、使用闭包操作符 ( *, +, ?, {} ) 实现多次出现/重复匹配
1.6.1、星号或称星号操作符匹配它左边那个正则表达式出现零次或零次以上的情况
1.6.2、加号(+)操作符匹配它左边那个正则表达式模式至少出现一次的情况
1.6.3、问号操作符( ? )匹配它左边那个正则表达式模式出现零次或一次的情况
1.6.4、花括号操作符({ }),如,{N},则表示匹配 N 次出现;如果是一对值,即,{M, N},就表示匹配 M 次到 N 次出现
举例:[dn]ot? :字符"d"或"o", 后面是一个"o", 最后是最多一个字符"t", 即, do, no, dot,not
[0-9]{15,16} :15 或 16 位0到9的数字表示,例如:信用卡号码
1.7、特殊字符表示字符集
1.7.1、“0–9”这个范围表示十进制数字,而改用简写“\d”表示;
1.7.2、“\w” 可用来表示整个 字符数字的字符集,即相当于“A-Za-z0-9_”的简写形式;
1.7.3、特殊字符“\s” 代表空白字符。
re模块集合2、re 模块: 核心函数和方法
2.1、匹配对象 和 group(), groups() 方法
group()方法或者返回所有匹配对象或是根据要求返回某个特定子组。groups()则很简单,它返回一个包含唯一或所有子组的元组。如果正则表达式中没有子组的话, groups() 将返回一个空元组,而 group()仍会返回全部匹配对象。
2.2、用 match()匹配字符串
re.match()函数尝试从字符串的开头开始对模式进行匹配。如果匹配成功,就返回一个匹配对象,而如果匹配失败了,就返回 None
m = re.match('foo', 'foo')
if m is not None:
m.group() --->'foo'
2.3、search() 在一个字符串中查找一个模式
>>m = re.match('foo', 'seafood') # no match 匹配失败
>>m = re.search('foo', 'seafood') 匹配到了‘foo’
2.4、匹配多个字符串( | )
bt = 'bat|bet|bit'
>>m = re.match(bt, 'bat') #匹配失败
>>m = re.search(bt, 'He bit me!') #匹配成功
2.5、用 findall()找到每个出现的匹配部分
findall()总返回一个列表。如果 findall()没有找到匹配的部分,会返回空列表;如果成功找到匹配部分,则返回所有匹配部分的列表(按从左到右出现的顺序排列)
正则表达式仅有一个子组时,findall()返回子组匹配的字符串组成的列表;如果表达式有多个子组,返回的结果是一个元组的列表,元组中每个元素都是一个子组的匹配内容
>>re.findall('car', 'carry the barcardi to the car')
['car', 'car', 'car']
2.6、用 split()分割(分隔模式)
re 模块和正则表达式对象的方法 split()与字符串的 split()方法相似, 前者是根据正则表达式模式分隔字符串,后者是根据固定的字符串分割,
>>> re.split(':', 'str1:str2:str3')
['str1', 'str2', 'str3']