爬虫基础系列urllib(2)
2019-05-03 本文已影响8人
猛犸象和剑齿虎
u=2998242485,1841996514&fm=27&gp=0.jpg
html页面的解码
- 从页面中直接获取的数据是二进制形式的数据,我们平时接触到的大多是字符串形式的数据,那么就涉及到将二进制形式的数据转换成字符串形式的数据,在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”,就是使用它能达到效果和目的就行。
reponse=request.urlopen(url).read().decode() #解码---(编码encode())
只需要将读取的信息decode一下就能转换成字符串形式的数据,然后用正则表达式获取。
简单的正则表达式采集数据
- 首先引人正则表达式的包,正则表达式是内置模块 import re
- 想采集数据首先要分析页面,获取到的二进制页面,分析想要的信息在<title>键值对中。
pat=r"<title>(.*?)</title>"
- 完整代码
#import urllib.request
from urllib import request
import re
url=r"http://www.baidu.com/"
#发送请求.获取响应信息
reponse=request.urlopen(url).read().decode() #解码---(编码encode())
print(reponse)
pat=r"<title>(.*?)</title>"
data=re.findall(pat,reponse)
print(data)
返回的信息为:
['百度一下,你就知道']