爬虫笔记（六） - 关于 Cookie 的分析（Postman

2017-05-10 本文已影响1295人 Spareribs

本次教程涉及到的软件包括：

Chrome浏览器
Chrome的插件Postman
Python的Request

假设你已经熟悉使用一切，我们直接告诉你结果：

Python的Request
所有的请求信息在代码本身，不会调用到浏览器的Cookie信息，如果请求中需要验证Cookie需要添加到Hearders中
Chrome的插件Postman
每次请求可能会调用浏览器保存的Cookie，所以如果想分析Request请求需要携带什么Cookie，需要先删除浏览器的Cookie

如果看不懂结论，可以接下来的照步骤来学习分析，主要包含几个要点：

如何清除浏览器的Cookie
Postman快速获Chrome取浏览器产生的请求
Postman分析Headers中需要验证的内容（Cookie只是其中之一）
Postman导出Request代码
Selenium获取cookie的方法

清理浏览器Cookie

Chrome打开某个网站后你会看到左上角有一个小锁，点击后删除所有Cookie信息，如下面的GIF所示：

Chrome清理cookie

F12开发者模式获取浏览器的请求信息

在访问某个网站过程中，会附带很多请求，包括js、ajax、api接口的请求等

F12开发者模式

要点：

注意勾选Preserve log，不然每次页面刷新，记录会被删除
可以尝试使用Filter那个框的功能，在Preserve log的最左边附近

首次登陆和非首次登陆的分析

基本了解删除Cookie和F12开发者模式后，我们来分析下首次登陆和第二次登陆的区别
按删除步骤删除Cookies后，关闭浏览器，再目标网站观察下：

首次访问

要点：

小锁中的Cookie信息又恢复了（图中有19个，具体怎么来有兴趣自己可以分析下）
Request请求中没有Cookie信息，Response回应中右Set-cookie的信息
出现了选择一个城市（这个信息是记录再Cookie中的）

再次提醒：勾选Preserve log后，再次访问目标网站，通过filter过滤需要的信息

两次请求的对比

要点（对比两次请求的区别）：

第一次：Request没有cookie，Response中有Set-cookies
第二次：Request有cookie，Response没有Set-cookies

结论：我们首次访问网站，网站会发一个set-cookie的回应，让我们第二次访问的时候带上身份信息去请求目标网站，往往很多时候我们的想要的数据不在目标网站的首页，可能是一个API接口的请求，可能是目标网站的某个子目录，虽然访问首页会带一个set-cookie的回应给你，但是非首页的请求就没有那么友善了，给你的可能是一个空回应甚至把你的请求拒之门外（往下看会有分析）

Postman快速获Chrome取浏览器产生的请求

这个功能是为了快速获取我们的请求（包括Headers和Cookies），不需要手动到Postman去添，首先我们看看功能按键在哪里，然后将它们开启（如果不知道软件在哪里安装自己Google一下就可以了）。

通过Interceptor获取请求

要点：

图中标识的两个位置记得设置为on
如果记录太多影响分析，删除下历史记录

浏览器直接访问目标网站，你会看到所有的请求都会出现到History的标签中，通过筛选按钮获取你想要的请求，为了更好分析上面所说的拦截问题，我拿了一个API接口的请求作为本次分析的目标。
这个链接是我多次分析目标网站后，发现每次搜索python工作岗位时候，浏览器向服务器发送的一个请求，Response回应中的是岗位的详细信息（Json格式）。如图：

Postman获取请求分析

要点：

使用过滤获取到自己想要的网址

Postman分析Headers中需要验证的内容

接下来正式开始，我做一个大胆的测试，删掉所有的Headers，看看请求的结果

删除Headers

要点：

你要相信你的眼睛，没错结果还是请求成功了

当你在懊恼为什么的时候，我又要来一个Gif了
循环播放的，简单说下Gif操作步骤和预期结果：

直接访问发送API请求（成功返回数据）
删除浏览器中记录的Cookies，再次发送发送API请求（没有数据，或者是拦截网站）
复制URL到浏览器中，查看结果（拦截网站）
仔细看，仔细看~~~

大胆的尝试

总结：哈哈，其实就是一个简单的道理Postman会使用浏览器记录的Cookie，所以在每次测试的时候（包括Postman请求成功以后也会存到浏览器中），先删除掉浏览器的Cookie再做测试。

另外，针对目标网站我分析结果是：多个网站的分析后，我只会保留User-Agent和Cookie这两个Headers，最后Cookie验证只需user_trace_token=20170511230425-b1fa946e4c77442498aac65a98153141（授人以鱼不如授人以渔，过程不详解，自己去尝试吧）

Postman导出Request代码

步骤：

Send按钮下面的那个Code
选中Python Requests
复制代码到IDLE中就能使用（前提是分析到对的Headers）

Selenium获取cookie的方法

最后付上一段selenum获取cookie的方法，详细Selenium的使用这里不介绍了~~~

import requests
from selenium import webdriver

driver = webdriver.Chrome() # 指定使用的Webderiver，这里使用的是Chrome的
driver.get("https://www.lagou.com") # 目标网址

# 获得cookie信息
# print driver.get_cookies()
# print type(driver.get_cookies())
cookie_tag = driver.get_cookies()[3]["value"] # 这里的代码可能有问题，自己改一下

driver.close() # 关闭浏览器
print cookie_tag
url = "https://www.lagou.com/jobs/positionAjax.json"
querystring = {"city": "广州", "needAddtionalResult": "false", "kd": "python", "pn": "{0}".format(1)}
headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0",
    'cookie': "user_trace_token={0};".format(cookie_tag)
}
response = requests.request("GET", url, headers=headers, params=querystring)
print response.text

代码分析：

webdriver.Chrome():此处需要下载一个Chrome的webdriver
get_cookies() ：获取到所有的cookies，然后按需提取（代码中的提取可能有问题）

以上都是我的跟人观点，如果有不对，或者有更好的方法，欢迎留言指正~~~