python3爬虫--入门篇1--正则表达式
2019-01-07 本文已影响2人
布口袋_天晴了
1.1 ^ 开头 "^b.*" 以b开头的字符串
1.2 $ 结尾 ".*3$" 以3结尾的字符串
1.3 * 任意多个 限定词,前面字符出现的任意多次
1.4 ? 非贪婪匹配,从左边开始匹配,遇到要找的第一个字符即停止
1.5 + 出现至少一次 "b.+b",任意字符至少出现一次 限定词,前面字符出现的次数
1.6 {2} 出现2次 限定词
1.7 {2,} 出现2次及其以上 限定词
1.7 {2,5} 出现2~5次 限定词
1.8 | 或 "123|wer" 满足123可以,满足wer也可以
2.1 [] 中括号里的满足求其一,都可以。 "[abcd]1233", 第一个字符为a b c d都可以,eg电话号码"1[3879][0-9]{9}"
2.2 [^] 不等于 "[^1]"不为1的字符都可
2.3 [a-z] 区间 "[0-9]"0~9这个区间的任一字符都可以 "[.*]"中括号里的. *都没有任何特殊含义了。
2.4 . 任意一个字符
3.1 \s 空格 "(你\s好)"=="你 好"
3.2 \S 非空格 "(你\S好)"=="你很好"
3.3 \w == [A-Za-z0-9_] 数字+字母+下划线
3.4 \W 非[A-Za-z0-9_]
4.1 [\u4E00-\u9FA5] 任意一个汉字 ".*?([\u4E00-\u9FA5]+大学)" xx大学
4.2 () 元组,提取子字符串
4.3 \d 数字