python爬虫攻防

python3爬虫--入门篇1--正则表达式

2019-01-07  本文已影响2人  布口袋_天晴了

1.1 ^ 开头  "^b.*" 以b开头的字符串

1.2 $ 结尾  ".*3$" 以3结尾的字符串 

1.3 * 任意多个   限定词,前面字符出现的任意多次

1.4 ? 非贪婪匹配,从左边开始匹配,遇到要找的第一个字符即停止

1.5 + 出现至少一次  "b.+b",任意字符至少出现一次   限定词,前面字符出现的次数

1.6 {2} 出现2次  限定词

1.7 {2,} 出现2次及其以上  限定词

1.7 {2,5} 出现2~5次   限定词

1.8 | 或  "123|wer" 满足123可以,满足wer也可以


2.1 [] 中括号里的满足求其一,都可以。 "[abcd]1233", 第一个字符为a b c d都可以,eg电话号码"1[3879][0-9]{9}"

2.2 [^] 不等于  "[^1]"不为1的字符都可   

2.3 [a-z] 区间  "[0-9]"0~9这个区间的任一字符都可以   "[.*]"中括号里的. *都没有任何特殊含义了。

2.4 . 任意一个字符


3.1  \s  空格  "(你\s好)"=="你 好"

3.2 \S 非空格 "(你\S好)"=="你很好"

3.3 \w  == [A-Za-z0-9_]  数字+字母+下划线

3.4 \W 非[A-Za-z0-9_]


4.1 [\u4E00-\u9FA5] 任意一个汉字  ".*?([\u4E00-\u9FA5]+大学)"  xx大学

4.2 () 元组,提取子字符串

4.3 \d 数字


上一篇 下一篇

猜你喜欢

热点阅读