关于爬虫，你需要了解的HTTP协议

2019-01-31 本文已影响13人 5a41eb2ceec6

日拱一卒|数据挖掘008

爬虫涉及的技术包括但不限于熟练一门编程语言（这里以 Python 为例） HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。（Python之禅刘志军）

在阅读之前，建议先阅读关于爬虫，你需要知道的HTML知识

常规的爬虫需要模拟浏览器的操作，才能去获取网页的信息；有些网站需要登录，才能获取更多的资料；更有些网站登录后需要保存cookie信息才能继续获取更多资料。解决这些“难题”，需要了解HTTP协议。

一、什么是HTTP协议？

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。协议中规定了客户端应该按照什么格式给服务器发送请求，同时也约定了服务端返回的响应结果应该是什么格式。

HTTP 协议规定，请求从客户端发出，最后服务器端响应该请求并返回。** 即先从客户端开始建立通信的，服务器端在没有接收到请求之前不会发送响应。**

例如：

客户端请求的正确打开方式是什么？服务器正确响应格式又是什么呢？

二、HTTP请求

HTTP 请求由3部分组成，分别是请求行、请求首部、请求体，首部和请求体是可选的，并不是每个请求都需要的。

（一）请求行

请求行是每个请求必不可少的部分，它由3部分组成，分别是请求方法（method)、请求URL（URI）、HTTP协议版本，以空格隔开。

以上图为例，起始行开头的GET表示请求访问服务器的类型，称为方法（method）。随后的字符串 /index.htm 指明了请求访问的资源对象，也叫做请求 URI（request-URI）。最后的 HTTP/1.1，即 HTTP 的版本号，用来提示客户端使用的 HTTP 协议功能。

翻译过来就是：这段请求内容的意思是：请求访问某台 HTTP 服务器上的/index.htm 页面资源。

HTTP协议中最常用的请求方法有：GET、POST、PUT、DELETE。GET 方法用于从服务器获取资源，90%的爬虫都是基于GET请求抓取数据。

请求 URL 是指资源所在服务器的路径地址，比如上图的例子表示客户端想获取 index.html 这个资源，它的路径在服务器 foofish.net 的根目录（/）下面。

关于URL和URI的区别，可看爬虫|URL和URI有什么不一样

（二）请求首部

因为请求行所携带的信息量非常有限，以至于客户端还有很多想向服务器要说的事情不得不放在请求首部（Header），请求首部用于给服务器提供一些额外的信息，比如 User-Agent 用来表明客户端的身份，让服务器知道你是来自浏览器的请求还是爬虫，是来自 Chrome 浏览器还是 FireFox（Python之禅刘志军）。