有些文章不一定是为了上首页投稿每周500字简书面面观

爬虫基础系列urllib(2)

2019-05-03  本文已影响8人  猛犸象和剑齿虎
u=2998242485,1841996514&fm=27&gp=0.jpg

html页面的解码

reponse=request.urlopen(url).read().decode() #解码---(编码encode())

只需要将读取的信息decode一下就能转换成字符串形式的数据,然后用正则表达式获取。

简单的正则表达式采集数据

pat=r"<title>(.*?)</title>"
#import urllib.request
from urllib import request
import re

url=r"http://www.baidu.com/"

#发送请求.获取响应信息
reponse=request.urlopen(url).read().decode() #解码---(编码encode())
print(reponse)

pat=r"<title>(.*?)</title>"

data=re.findall(pat,reponse)


print(data)

返回的信息为:

['百度一下,你就知道']

爬虫基础系列urllib(1)
爬虫基础系列urllib(3)

上一篇下一篇

猜你喜欢

热点阅读