Python 爬虫技巧
2019-01-27 本文已影响12人
苍简
构造 Request Headers
通过 fake_useragent 生成随机UserAgent
from fake_useragent import UserAgent
ua = UserAgent(verify_ssl=False)
headers = {"User-Agent": ua.random}
robots.txt
有些网站的robots.txt文件会保存一些sitemap,可能会有你想要的数据
例:https://www.douban.com/robots.txt 下的sitemap保存了豆瓣头一天新产生的影评,书评,帖子等等
编辑cookie
EditThisCookie
image爬虫和反爬虫就是一场没有硝烟的拉锯战,你永远不知道对方会给你埋哪些坑,比如对Cookies动手脚。这个时候你就需要它来辅助你分析,通过Chrome安装EditThisCookie插件后,我们可以通过点击右上角小图标,再对Cookies里的信息进行增删改查操作,大大提高对Cookies信息的模拟
自动生成selenium代码
用Chrome的插件Katalon Recorder
image.pngimage.png