http入门

2018-01-10 本文已影响40人 joker731

万维网的来历:

1990年Tim Berners-Lee 发明了用网址就能访问网页的办法，他发明了第一个网页、第一个浏览器和第一个服务器。//那1990年之前的世界是怎么样的?
1965 年，Email 被发明出来，成为互联网的「杀手级」应用，因为你可以瞬间发一封信给远方的人，不需要信纸、邮票和邮递员。
1971 年，用 @ 符号来表示 Email 的方法被发明出来。我挺好奇之前的邮箱地址是怎么表示的。
1979 年，邮件讨论组被发明出来，人们可以在一个话题下公开地互发邮件。
人们通过 FTP 来下载文件附件
1980 年至 1990 年间，人们迫切需要一种更好的上网方式，很多方案被提出，如 HTTP 和 Gopher。后面的事情大家都知道了，HTTP 因为其易用性胜出。当时的邮件内容全都是普通文本，或者是类 Markdown 形式的文本(makedown是总结出来的,不是被发明的,)人们需要一种超级文本用来做页面跳转，也就是我们现在见到的 <a> 标签，不过那时的人还没想到这一点，当时的超集文本方案有很多，HTML 只是其中之一，而且当时的 HTML 也非常简陋，只有 11 个标签。在这种背景之下， Tim Berners-Lee（下文中称为李爵士）在 1989 年至 1992 年间，发明了 WWW万维网,一种适用于全世界的网络。
主要包含三个概念

URI，俗称网址
HTTP，两个电脑之间传输内容的协议//http协议是李爵士发明的,如果没有这个协议呢,服务器不知道怎么把文件传给你
HTML，超级文本，当时主要用来做页面跳转//html也是李爵士发明的

简单来说:URL 的作用是能让你访问一个页面，HTTP 的作用是让你能下载这个页面，HTML 的作用是让你能看懂这个页面。这是一个简单而完美的系统。

李爵士除了发明了这些概念，还付诸了行动：

发明了第一个服务器
发明了第一个浏览器
写出了第一个网页

什么是http?

http全称就是超文本传输协议,简单来说就是一个协议//就是一套规则
url和uri的区别// url是统一资源定位符,uri是统一资源标识符//
身份证号类似于URI，通过身份证号能让我们能且仅能确定一个人。
身份证地址类似于URL://地球/中国/浙江省/杭州市/西湖区/某大学/14号宿舍楼/525号寝/张三.人可以看到，这个字符串同样标识出了唯一的一个人，起到了URI的作用，所以URL是URI的子集。
不论是用定位的方式还是用编号的方式，我们都可以找出唯一确定一个人，都是URl的一种实现，而URL就是用定位的方式实现的URI。
URL就是我们俗称的地址

http其实就是浏览器和服务器之间,在传输数据时所遵守的约定//阮一峰http入门博客

HTTP报文是在HTTP应用程序之间发送的数据块。这些数据块以一些文本形式的元信息开头，描述报文的内容及含义，后面跟着可选的数据部分

请求报文

http是单向,QQ发送消息是双向的
每一个电脑都有很多端口,每个端口只做一件事情,每一个端口都指定了是进行什么工作的
1080是代理服务器端口
80端口是用来服务http协议的
浏览器请求-服务器接受-服务器响应-浏览器渲染出接收到的数据
浏览器只负责发送请求的,服务器是在80端口接受请求的,服务器还负责响应数据,浏览器负责接受渲染数据
http就是指导服务器,浏览器沟通//WTF沟通还要人指导?是的//比如说, 浏览器请求写错了,服务器就显示404//服务器停机了,浏览器请求的时候,服务器返回502
如果不规定这些,当沟通出问题,你也不知道问题出在哪里,也不知道如何解决

请求报文具体作用

这是示例1执行命令行:curl -s -v -H "Frank: xxx" -- "https://www.baidu.com"
GET / HTTP/1.1                                   //这句话的意思:获取根目录内容(因为没写路径,默认根目录);使用http协议;使用http1.1版本
Host: www.baidu.com                     // 这句话意思:访问百度这个网站的域名
User-Agent: curl/7.54.0                 // 这句话的意思:我用的CURL软件;发起当前六句话请求
Accept: */*                                          //这句话意思:我接受你返回的任何内容
Frank: xxx                                            //这句话:随便加的,测试用,证明我可以加东西而已

示例2执行命令行:curl -X POST -s -v -H "Frank: xxx" -- "https://www.baidu.com"
POST / HTTP/1.1
Host: www.baidu.com
User-Agent: curl/7.54.0
Accept: */*
Frank: xxx

示例3执行命令行:curl -X POST -d "1234567890" -s -v -H "Frank: xxx" --  "https://www.baidu.com" 
POST / HTTP/1.1
Host: www.baidu.com
User-Agent: curl/7.54.0
Accept: */*
Frank: xxx
Content-Length: 10
Content-Type: application/x-www-form-urlencoded

1234567890                                              // 这时候你会发现,又多出了一些东西,多了四行东西,其中content-length顾名思义是上传的长度;content-type是上传的格式;空行就是空行;1234567890这是你上传的具体内容,也就是字串//

get和post的区别?//get是获取内容,post是上传内容,别在get的时候上传信息//一般是登录的时候用post,还要写用户名+密码

请求的格式

1 动词路径协议/版本
2 Key1: value1
2 Key2: value2
2 Key3: value3
2 Content-Type: application/x-www-form-urlencoded
2 Host: www.baidu.com
2 User-Agent: curl/7.54.0
3
4 要上传的数据

请求最多包含四部分，最少包含三部分。（也就是说第四部分可以为空）
第三部分永远都是一个回车（\n）
第三部分回车,就是用来区分第二和第四部分的
动词有 GET POST PUT PATCH DELETE HEAD OPTIONS 等
这里的路径包括「查询参数」，但不包括「锚点」//因为锚点#是浏览器看的,服务器不看锚点
如果你没有写路径，那么路径默认为 /
第 2 部分中的 Content-Type 标注了第 4 部分的格式

只要你不按照http协议去做,就出错

用 Chrome 发请求

打开 Network
地址栏输入网址
在 Network 点击，查看 request，点击「view source」
点击「view source」
点击「view source」
点击「view source」
终于点了？可以看到请求的前三部分了
如果有请求的第四部分，那么在 FormData 或 Payload 里面可以看到
响应
请求了之后，应该都能得到一个响应，除非断网了，或者服务器宕机了。

响应示例
上面三个请求示例，前两个请求对应的响应分别为
HTTP/1.1 200 OK
Accept-Ranges: bytes
Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
Connection: Keep-Alive
Content-Length: 2443
Content-Type: text/html
Date: Tue, 10 Oct 2017 09:14:05 GMT
Etag: "5886041d-98b"
Last-Modified: Mon, 23 Jan 2017 13:24:45 GMT
Pragma: no-cache
Server: bfe/1.0.8.18
Set-Cookie: BDORZ=27315; max-age=86400; domain=.baidu.com; path=/

<!DOCTYPE html>
<html> <head> 后面太长，省略了……
HTTP/1.1 302 Found
Connection: Keep-Alive
Content-Length: 17931
Content-Type: text/html
Date: Tue, 10 Oct 2017 09:19:47 GMT
Etag: "54d9749e-460b"
Server: bfe/1.0.8.18

<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8"> 后面太长，省略了……
GET 请求和 POST 请求对应的响应可以一样，也可以不一样
响应的第四部分可以很长很长很长
响应的格式

1 协议/版本号状态码状态解释
2 Key1: value1
2 Key2: value2
2 Content-Length: 17931
2 Content-Type: text/html
3
4 要下载的内容
状态码要背，是服务器对浏览器说的话
1xx 不常用
2xx 表示成功
3xx 表示滚吧
4xx 表示你丫错了
5xx 表示好吧，我错了
状态解释没什么用
第 2 部分中的 Content-Type 标注了第 4 部分的格式
第 2 部分中的 Content-Type 遵循 MIME 规范
用 Chrome 查看响应

打开 Network
输入网址
选中第一个响应
查看 Response Headers，点击「view source」，点击「view source」，点击「view source」
你会看到响应的前两部分
查看 Response 或者 Preview，你会看到响应的第 4 部分

HTTP 协议的底层其实是由 TCP 协议和 IP 协议（简称 TCP/IP）构建的。TCP 传输控制协议（Transmission Control Protocol)

//http规定了请求和响应四部分如何写,但是没有规定怎么传输,TCP就是来管传输的

TCP 和 UDP 的区别是什么
//TCP 可靠(我发的请求成功与否,我是知道的/就像我们访问谷歌首页,成功正常显示首页,不成功会显示具体错误的页面)、面向连接(传输的时候需要建立起两头连接)、相对 UDP 较慢；UDP 不可靠(发送一个请求,成功与否是不知道的)，不面向连接(传输不需要建立连接)、相对 TCP 较快。搞定。
TCP 的三次握手指的是什么
//每次建立连接前，客户端和服务端之前都要先进行三次对话才开始正式传输内容，三次对话大概是这样的：
```
 1\. 客户端：我要连接你了，可以吗
 2\. 服务端：嗯，我准备好了，连接我吧
 3\. 客户端：那我连接你咯。
 4\. 开始后面步骤
```

如果你想更了解 TCP 可以看此文，也可以买一本《TCP/IP 详解（卷一）》（共三卷，先只买一卷即可）。强调一遍，这不是前端的内容，只需稍微了解一下 TCP 即可。

IP 网络协议（英语：Internet Protocol）

只要你在互联网中，那么你就会有一个 IP。通俗上理解，IP 分为「内网 IP」和「外网 IP」

你从电信那里买来带宽，一年一千多。
电信为你提供 DNS 服务。
你买了一个路由器，然后用电脑和手机分别连接路由器广播出来的无线 WIFI。
只要路由器连上电信的服务器，那么路由器就会有一个「外网 IP」，比如「14.17.32.211」就是一个外网 IP。这就是你在互联网中的地址。
但是如果你重启路由器，那么你很有「可能」被重新分配一个「外网 IP」，也就是说 你的路由器没有「固定的外网 IP」
你可以花每年几千块钱租用一个「固定的外网 IP」，但是显然不会这么浪费钱。像腾讯、阿里这样的大公司租用了很多外网 IP，这样才能对我们提供稳定的服务。
但是有个问题，你的路由器的外网 IP 如果是14.17.32.211，那么你的手机和电脑的 IP 又是什么呢？答案是「内网 IP」
路由器会在你家里创建一个内网，内网中的设备使用内网 IP，一般来说这个 IP 的格式都是 192.168.xxx.xxx。
- 一般路由会给自己分配一个好记的内网 IP，如 192.168.1.1
- 然后路由会给每一个内网中的设备分配一个不同的内网 IP，如电脑是 192.168.1.2，手机是 192.168.1.3，以此类推。
- 现在路由器有两个 IP，一个外网 IP（14.17.32.211）和一个内网 IP（192.168.1.1）
  - 内网中的设备可以互相访问（比如你可以用电脑或手机进入 http://192.168.1.1 来查看你的路由器），但是不能直接访问外网，内网设备想要访问外网，就必须经过路由器中转。
  - 外网中的设备可以互相访问（比如 qq.com 可以把首页发送给你的路由器，你的路由器有外网 IP），但是外网中的设备无法访问你的内网设备（这很好理解，内网是一个封闭的网络，外人进不来，所以实际上 qq.com 无法直接把首页放送给你的电脑和手机）
    - 问题来了，那 qq.com 是怎么把首页发送到我的手机上的呢？答案是通过路由器来中转。
    - 路由器接收到 qq.com 的页面后，把页面发送给你的电脑或手机。路由器知道如何给这些信息指路，路由器就是一个指路人，这就是「路由」两个字的来历。
    - 路，就是「必由之路」中的路。由，就是「必由之路」中的由（由是经过、缘由的意思）。所有的信息都要经过路由器，然后被指向一条它该去的路。
  - 也就是说内网和外网就像两个隔绝的空间，无法互通，唯一的联通点就是路由器（因为路由器既有外网 IP 也有内网 IP），所以路由器有时候也被叫做「网关」，这个「关」是「一夫当关，万夫莫开」的「关」。如果路由器到电信的连接中断了，那么内网中所有的设备也就无法上网了。（这很好理解，相当于唯一一条出去的路断了）
除了内网 IP 和外网 IP，还有两个特别特殊的 IP，就是本地 IP：127.0.0.1。本地 IP 永远表示设备自己。不信你可以 ping 127.0.0.1 一下，会发现只需要 0.01 ms 就得到了响应（你 ping qq.com 需要几十毫秒才得到响应）
- 默认情况下，hosts 文件里会有一行127.0.0.1 localhost，意思就是 localhost 指向 127.0.0.1，所以 localhost 也表示设备自己。不信你 ping localhost 试试，会发现实际上是在 ping 127.0.0.1
还有一个特别特殊的 IP：0.0.0.0，它不表示任何设备。这个 IP 不同的地方含义不同，以后我们会用到，用到的时候再说意思。

端口

你想要访问一个设备（前提是你使用的是 TCP 或 UDP 协议。还记得吗，HTTP 就使用了 TCP），只指定 IP 是不够的，还必须指定端口（Port）。

端口其实就是一个编号，并不是一种硬件。

一个服务器（硬件）不一定只提供一种服务，比如一个服务器既提供 HTTP 服务，又提供 FTP 服务，还提供 SMTP 服务（邮件服务），那么只用一个 IP 是无法告诉服务器你想要使用哪种服务。

所以这里有一个重要的原则：一个端口对应一个服务。

比如

要提供 HTTP 服务你最好使用 80 端口（能不能使用别的端口？可以，不过不建议你违反约定）
要提供 HTTPS 服务你最好使用 443 端口（能不能使用别的端口？可以，不过不建议你违反约定）
要提供 FTP 服务你最好使用 21 端口（能不能使用别的端口？可以，不过不建议你违反约定）

问题1：我怎么知道应该使用什么端口？

维基百科把 0 到 1023 号端口对应的服务都告诉你了，点进去看看吧。

问题2：一共由多少端口？

每个机器一共有 65535（2的16次方减1）个端口（这是协议规定的）。不过这些端口的使用由一些规定

0 到 1023（2的10次方减1）号端口是留给系统使用的，你只有拥有了管理员权限后，才能使用这 1024 个端口。
其他端口可以给普通用户使用
如果一个端口正在提供服务，也就是被占用了，那么就不能再使用这个端口。除非你先停掉正在占用这个端口的服务。以后你们会经常遇到这个问题。

总结

上面都是 TCP/IP 相关的知识，如果你记不住，就记住下面这句话：

使用 HTTP 协议访问另一个 IP 时，要同时提供 IP 和端口号，缺一不可。

那么问题来了

我访问 http://qq.com 时并没有提供端口号，为什么我依然可以访问

答：因为浏览器帮你加了默认端口号 80。