python-爬虫案例6-伪装成浏览器来进行爬虫-破解网站设置的
2019-04-02 本文已影响0人
我最有才
打开一个要爬取的网页,如下:摁下 F12 出现右边的数据
F12找到信息: user-agent 和后面的东西
具体伪装爬取如下:
完成运行 如下:
结果展示如下:
原网页:
嗯嗯嗯 爬取的 连上网就是这样了。。。。
可复制 代码如下:
import re
import urllib.request
url="http://blog.csdn.net/CSDNedu/article/details/88842461"
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
opener=urllib.request.build_opener() ##创建表头空壳
opener.addheaders=[headers] ##将表头 加进去
data=opener.open(url).read() ###伪装表头数据爬取
file=open("E:/py/data/伪装浏览器爬取.html","wb") ##建立空文件夹
file.write(data)
file.close()