有些文章不一定是为了上首页投稿简书面面观每周500字

爬虫基础系列urllib——构造请求头(3)

2019-05-04  本文已影响2人  猛犸象和剑齿虎
u=2998242485,1841996514&fm=27&gp=0.jpg

爬虫与反爬虫

反扒机制1

应对办法

#伪装浏览器的爬虫
from urllib import request
import re

url="http://www.baidu.com/"

#构造请求头信息
header={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
req=request.Request(url,headers=header)
#发送请求.获取响应信息
reponse=request.urlopen(req).read().decode() #解码---(编码encode())
pat=r"<title>(.*?)</title>"
data=re.findall(pat,reponse)
print(data[0])#由于data返回的是列表形式的数据用data[0]直接取值

运行返回的结果为:

百度一下 你就知道

这里会发现数据外没有了[]。


图片来自网络.png

爬虫基础系列urllib(2)

上一篇下一篇

猜你喜欢

热点阅读