Python 爬虫技巧

2019-01-27  本文已影响12人  苍简

构造 Request Headers

https://curl.trillworks.com/

通过 fake_useragent 生成随机UserAgent

from fake_useragent import UserAgent

ua = UserAgent(verify_ssl=False)
headers = {"User-Agent": ua.random}

robots.txt

有些网站的robots.txt文件会保存一些sitemap,可能会有你想要的数据
例:https://www.douban.com/robots.txt 下的sitemap保存了豆瓣头一天新产生的影评,书评,帖子等等

编辑cookie

EditThisCookie

image

爬虫和反爬虫就是一场没有硝烟的拉锯战,你永远不知道对方会给你埋哪些坑,比如对Cookies动手脚。这个时候你就需要它来辅助你分析,通过Chrome安装EditThisCookie插件后,我们可以通过点击右上角小图标,再对Cookies里的信息进行增删改查操作,大大提高对Cookies信息的模拟

自动生成selenium代码

用Chrome的插件Katalon Recorder

image.png
image.png
上一篇下一篇

猜你喜欢

热点阅读