Python实现爬虫套路

2019-02-08  本文已影响0人  天空中的Aaron

一、准备url

  1. 准备start_url
  1. 准备url_list

二、发送请求,获取响应

  1. 添加随机的User-Agent,反反爬虫
  2. 添加随机的代理ip,反反爬虫
  3. 在对方判断出我们是爬虫之后,应该添加更多的headers字段,包括cookie
  4. cookie的处理可以使用session来解决
  5. 准备一堆能用的cookie,组成cookie池
    - 准备刚开始能能够成功请求对方网站的cookie,即接受对方网站设置在response的cookie
    - 下一次请求的时候,使用之前的列表中的cookie来请求
     - 准备多个账号
     - 使用程序获取每个账号的cookie
     - 之后请求登录之后才能访问的网站随机的选择cookie

三、提取数据

四、保存

上一篇下一篇

猜你喜欢

热点阅读