爬虫基础 - HTTP基本原理

2018-12-02  本文已影响0人  冰度猎魂

HTTP基本原理

URI和URL

URI的全称为Uniform Resource Identifier,即统一资源标志符,URL的全称为Universal Resource Locator,即统一资源定位符。
URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。URI还包括一个子类叫作URN,全称为Universal Resource Name,即统一资源名称。URN只命名资源而不指定如何定位资源,比如urn:isbn:0451450523指定了一本书的ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN。

超文本

超文本,其英文名称叫作hypertext,在浏览器里看到的网页及时超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签,比如img显示图片,p指定显示段落等。浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码HTML就可以称作超文本。

HTTP和HTTPS

URL的开头会有http或https,这就是访问资源需要的协议类型。有事,我们还会看到ftp、sftp、smb开头的URL,它们都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的。
HTTP的全称是Hyper Text Transfer Protocol,中文名叫作超文本传输协议。HTTP协议是用从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTP由万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)共同合作指定的规范,目前广泛使用的是HTTP1.1版本。
HTTPS的全称是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全办,即HTTP下加入SSL层,简称为HTTPS。

HTTP请求过程

我们在浏览器输入一个URL,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器想网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来。

请求

请求,由客户端向服务端发出,可以分为4个内容:请求方法、请求的网址、请求头、请求体。

请求方法

常见的请求方法有两种:GET和POST。
在浏览器中直接输入URL并回车,这便发起了一个GET请求,请求的参数会直接包含到URL例。例如,在百度中搜索Python,这就是一个GET请求,连接为https://www.baidu.com/s?wd=Python,其中URL中包含了请求的参数信息,这里参数wd表示要搜寻的关键字。POST请求大多在表单提交时发起。比如,对于一个登录表单,输入用户名和密码后,点击“登录”按钮,这通常会发起一个POST请求,其数据通常以表单的形式传输,而不会体现在URL中。
GET和POST请求方法有如下区别:

我们平常遇到的绝大部分请求都是GET或POST请求,另外还有一些请求方法,如GET、HEAD、POST、PUT、DELETE、OPTIONS、CONNECT、TRACE等。

请求的网址

请求的网址,即统一资源定位符URL,它可以唯一确定我们想请求的资源。

请求头

请求头,用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等。

请求体

一般承载的内容是POST请求中的表单数据,而对于GET请求,请求体则为空。

响应

响应,由服务端返回客户端,可以分为三部分:响应状态码(Response)、响应头(Response Headers)和响应体(Response Body)。

上一篇 下一篇

猜你喜欢

热点阅读