爬虫再学习_正则

2021-01-20  本文已影响0人  黄yy家的jby

以上正则匹配语言都是用,python正则库为re
常用功能函数
re.search() 搜索正则第一个位置,返回match对象
re.match()
re.findall() 返回全部能匹配的子串
re.split() 按照正则进行分割,返回列表类型
re.sub()替换所有匹配正则的自传,返回替换后的字符串

匹配模式
re.I 匹配对大小写不敏感
re.S 使.(点)匹配包括换行在内的所有字符

import re

pat = re.compile('a') #a是正则表达式,用来验证其他字符
m = pat.search('cba')#search字符串被校验的内容

m = re.search('a','cba') #前面是规则,后面是校验的对象
re.sub('a','A','abcdefg') #找到a用A替换,在第三个字符串中查找a
#建议在正则表达式中,被比较的字符串前面加上r,不用担心转移字符的问题
soup = BeautifulSoup(html,'html.parser')

for item in soup.find_all('div',class_='item'):
    data = []
    item = str(item)

    findlink = re.compile(r'<a href="(.*?)">')
    link = re.findall(findlink,item)[0] # 用re库来通过正则表达式查找指定的字符串
上一篇下一篇

猜你喜欢

热点阅读