Selenium的自学之路

笔记9-爬虫基础之HTTP基本原理

2019-01-11  本文已影响0人  路由心定

1.URI、URL、URN的关系

https://github.com/favicon.ico 
由访问协议https+访问路径github.com+资源名称favicon.ico 组成

URL是URI的子集:每个URL都是URI
URN是URI的子集:每个URN都是URI,URN只命名资源不指定具体获得路径例如上面地址URN只给最后面的favicon.ico,没有指明具体路径

URN用的很少,几乎不用,所以几乎所有的URI都是URL

2.超文本-[英文名:hypertext]

3.HTTP与HTTPS

HTTPS的主要作用分为两种:
1.建立一个信息安全通道保证信息传输的安全
2.确认网站真实性

4.HTTP请求过程

4.1实例

1.打开Chrome浏览器
2.点击右上角-->点击更多工具-->点击开发者模式
3.打开http://www.baidu.com

图-2.png
各列含义
1.Name:请求的名称,一般会将URL的最后一部分当做名称
2.Status:响应状态码
3.Type:请求的文档类型
4.Initiator:请求源,标记请求是哪个对象或进程发起的
5.Size:从服务器下载的文件和请求的资源大小,若从缓存中取得资源,则该列显示from cache
6.Time:发起请求到获取响应所用的总时间
7.Waterfall:网络请求的可视化瀑布流

5.请求

5.1请求方法

5.2请求头

请求头:用来说明服务器要使用的附加信息,比如Cookie、Referer、User-Agent等

5.3请求体

6.响应

-响应包含三部分:响应状态码(Response Status Code)响应头(Response Headers)响应体(Response Body)

6.1响应状态码

6.2响应头

-响应头包含了服务器对请求的应答信息,如Content-Type、Server、Set-Cookie
Date:标识响应产生的时间
Last-Modified:指定资源的最后修改时间
Content-Encoding:指定响应内容的编码
Server:包含服务器信息
Content-Type:文档类型
Set-Cookie:设置Cookies,响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies
Expires:指定响应的过期时间

6.3响应体

响应结果

上一篇下一篇

猜你喜欢

热点阅读