http入门
万维网的来历:
1990年Tim Berners-Lee 发明了用网址就能访问网页的办法,他发明了第一个网页、第一个浏览器和第一个服务器。//那1990年之前的世界是怎么样的?
1965 年,Email 被发明出来,成为互联网的「杀手级」应用,因为你可以瞬间发一封信给远方的人,不需要信纸、邮票和邮递员。
1971 年,用 @ 符号来表示 Email 的方法被发明出来。我挺好奇之前的邮箱地址是怎么表示的。
1979 年,邮件讨论组被发明出来,人们可以在一个话题下公开地互发邮件。
人们通过 FTP 来下载文件附件
1980 年至 1990 年间,人们迫切需要一种更好的上网方式,很多方案被提出,如 HTTP 和 Gopher。后面的事情大家都知道了,HTTP 因为其易用性胜出。当时的邮件内容全都是普通文本,或者是类 Markdown 形式的文本(makedown是总结出来的,不是被发明的,)人们需要一种超级文本用来做页面跳转,也就是我们现在见到的 <a> 标签,不过那时的人还没想到这一点,当时的超集文本方案有很多,HTML 只是其中之一,而且当时的 HTML 也非常简陋,只有 11 个标签。在这种背景之下, Tim Berners-Lee(下文中称为李爵士) 在 1989 年至 1992 年间,发明了 WWW万维网,一种适用于全世界的网络。
主要包含三个概念
- URI,俗称网址
- HTTP,两个电脑之间传输内容的协议//http协议是李爵士发明的,如果没有这个协议呢,服务器不知道怎么把文件传给你
- HTML,超级文本,当时主要用来做页面跳转//html也是李爵士发明的
简单来说:URL 的作用是能让你访问一个页面,HTTP 的作用是让你能下载这个页面,HTML 的作用是让你能看懂这个页面。这是一个简单而完美的系统。
李爵士除了发明了这些概念,还付诸了行动:
- 发明了第一个服务器
- 发明了第一个浏览器
- 写出了第一个网页
什么是http?
- http全称就是超文本传输协议,简单来说就是一个协议//就是一套规则
- url和uri的区别// url是统一资源定位符,uri是统一资源标识符//
身份证号类似于URI,通过身份证号能让我们能且仅能确定一个人。
身份证地址类似于URL://地球/中国/浙江省/杭州市/西湖区/某大学/14号宿舍楼/525号寝/张三.人可以看到,这个字符串同样标识出了唯一的一个人,起到了URI的作用,所以URL是URI的子集。
不论是用定位的方式还是用编号的方式,我们都可以找出唯一确定一个人,都是URl的一种实现,而URL就是用定位的方式实现的URI。 - URL就是我们俗称的地址
http其实就是浏览器和服务器之间,在传输数据时所遵守的约定//阮一峰http入门博客
- HTTP报文是在HTTP应用程序之间发送的数据块。这些数据块以一些文本形式的元信息开头,描述报文的内容及含义,后面跟着可选的数据部分
请求报文
- http是单向,QQ发送消息是双向的
- 每一个电脑都有很多端口,每个端口只做一件事情,每一个端口都指定了是进行什么工作的
1080是代理服务器端口
80端口是用来服务http协议的 - 浏览器请求-服务器接受-服务器响应-浏览器渲染出接收到的数据
- 浏览器只负责发送请求的,服务器是在80端口接受请求的,服务器还负责响应数据,浏览器负责接受渲染数据
- http就是指导服务器,浏览器沟通//WTF沟通还要人指导?是的//比如说, 浏览器请求写错了,服务器就显示404//服务器停机了,浏览器请求的时候,服务器返回502
如果不规定这些,当沟通出问题,你也不知道问题出在哪里,也不知道如何解决
请求报文具体作用
这是示例1执行命令行:curl -s -v -H "Frank: xxx" -- "https://www.baidu.com"
GET / HTTP/1.1 //这句话的意思:获取根目录内容(因为没写路径,默认根目录);使用http协议;使用http1.1版本
Host: www.baidu.com // 这句话意思:访问百度这个网站的域名
User-Agent: curl/7.54.0 // 这句话的意思:我用的CURL软件;发起当前六句话请求
Accept: */* //这句话意思:我接受你返回的任何内容
Frank: xxx //这句话:随便加的,测试用,证明我可以加东西而已
示例2执行命令行:curl -X POST -s -v -H "Frank: xxx" -- "https://www.baidu.com"
POST / HTTP/1.1
Host: www.baidu.com
User-Agent: curl/7.54.0
Accept: */*
Frank: xxx
示例3执行命令行:curl -X POST -d "1234567890" -s -v -H "Frank: xxx" -- "https://www.baidu.com"
POST / HTTP/1.1
Host: www.baidu.com
User-Agent: curl/7.54.0
Accept: */*
Frank: xxx
Content-Length: 10
Content-Type: application/x-www-form-urlencoded
1234567890 // 这时候你会发现,又多出了一些东西,多了四行东西,其中content-length顾名思义是上传的长度;content-type是上传的格式;空行就是空行;1234567890这是你上传的具体内容,也就是字串//
- get和post的区别?//get是获取内容,post是上传内容,别在get的时候上传信息//一般是登录的时候用post,还要写用户名+密码
请求的格式
1 动词 路径 协议/版本
2 Key1: value1
2 Key2: value2
2 Key3: value3
2 Content-Type: application/x-www-form-urlencoded
2 Host: www.baidu.com
2 User-Agent: curl/7.54.0
3
4 要上传的数据
- 请求最多包含四部分,最少包含三部分。(也就是说第四部分可以为空)
第三部分永远都是一个回车(\n) - 第三部分回车,就是用来区分第二和第四部分的
- 动词有 GET POST PUT PATCH DELETE HEAD OPTIONS 等
- 这里的路径包括「查询参数」,但不包括「锚点」//因为锚点#是浏览器看的,服务器不看锚点
- 如果你没有写路径,那么路径默认为 /
- 第 2 部分中的 Content-Type 标注了第 4 部分的格式
只要你不按照http协议去做,就出错
用 Chrome 发请求
打开 Network
地址栏输入网址
在 Network 点击,查看 request,点击「view source」
点击「view source」
点击「view source」
点击「view source」
终于点了?可以看到请求的前三部分了
如果有请求的第四部分,那么在 FormData 或 Payload 里面可以看到
响应
请求了之后,应该都能得到一个响应,除非断网了,或者服务器宕机了。
响应示例
上面三个请求示例,前两个请求对应的响应分别为
HTTP/1.1 200 OK
Accept-Ranges: bytes
Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
Connection: Keep-Alive
Content-Length: 2443
Content-Type: text/html
Date: Tue, 10 Oct 2017 09:14:05 GMT
Etag: "5886041d-98b"
Last-Modified: Mon, 23 Jan 2017 13:24:45 GMT
Pragma: no-cache
Server: bfe/1.0.8.18
Set-Cookie: BDORZ=27315; max-age=86400; domain=.baidu.com; path=/
<!DOCTYPE html>
<html> <head> 后面太长,省略了……
HTTP/1.1 302 Found
Connection: Keep-Alive
Content-Length: 17931
Content-Type: text/html
Date: Tue, 10 Oct 2017 09:19:47 GMT
Etag: "54d9749e-460b"
Server: bfe/1.0.8.18
<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8"> 后面太长,省略了……
GET 请求和 POST 请求对应的响应可以一样,也可以不一样
响应的第四部分可以很长很长很长
响应的格式
1 协议/版本号 状态码 状态解释
2 Key1: value1
2 Key2: value2
2 Content-Length: 17931
2 Content-Type: text/html
3
4 要下载的内容
状态码要背,是服务器对浏览器说的话
1xx 不常用
2xx 表示成功
3xx 表示滚吧
4xx 表示你丫错了
5xx 表示好吧,我错了
状态解释没什么用
第 2 部分中的 Content-Type 标注了第 4 部分的格式
第 2 部分中的 Content-Type 遵循 MIME 规范
用 Chrome 查看响应
打开 Network
输入网址
选中第一个响应
查看 Response Headers,点击「view source」,点击「view source」,点击「view source」
你会看到响应的前两部分
查看 Response 或者 Preview,你会看到响应的第 4 部分
HTTP 协议的底层其实是由 TCP 协议和 IP 协议(简称 TCP/IP)构建的。TCP 传输控制协议(Transmission Control Protocol)
//http规定了请求和响应四部分如何写,但是没有规定怎么传输,TCP就是来管传输的
-
TCP 和 UDP 的区别是什么
//TCP 可靠(我发的请求成功与否,我是知道的/就像我们访问谷歌首页,成功正常显示首页,不成功会显示具体错误的页面)、面向连接(传输的时候需要建立起两头连接)、相对 UDP 较慢;UDP 不可靠(发送一个请求,成功与否是不知道的),不面向连接(传输不需要建立连接)、相对 TCP 较快。搞定。 -
TCP 的三次握手指的是什么
//每次建立连接前,客户端和服务端之前都要先进行三次对话才开始正式传输内容,三次对话大概是这样的:1\. 客户端:我要连接你了,可以吗 2\. 服务端:嗯,我准备好了,连接我吧 3\. 客户端:那我连接你咯。 4\. 开始后面步骤
如果你想更了解 TCP 可以看 此文,也可以买一本《TCP/IP 详解(卷一)》(共三卷,先只买一卷即可)。强调一遍,这不是前端的内容,只需稍微了解一下 TCP 即可。
IP 网络协议(英语:Internet Protocol)
只要你在互联网中,那么你就会有一个 IP。通俗上理解,IP 分为「内网 IP」 和「外网 IP」
- 你从电信那里买来带宽,一年一千多。
- 电信为你提供 DNS 服务。
- 你买了一个路由器,然后用电脑和手机分别连接路由器广播出来的无线 WIFI。
- 只要路由器连上电信的服务器,那么路由器就会有一个「外网 IP」,比如「14.17.32.211」就是一个外网 IP。这就是你在互联网中的地址。
- 但是如果你重启路由器,那么你很有「可能」被重新分配一个「外网 IP」,也就是说 你的路由器没有「固定的外网 IP」
- 你可以花每年几千块钱租用一个「固定的外网 IP」,但是显然不会这么浪费钱。像腾讯、阿里这样的大公司租用了很多外网 IP,这样才能对我们提供稳定的服务。
- 但是有个问题,你的路由器的外网 IP 如果是14.17.32.211,那么你的手机和电脑的 IP 又是什么呢?答案是「内网 IP」
- 路由器会在你家里创建一个内网,内网中的设备使用内网 IP,一般来说这个 IP 的格式都是 192.168.xxx.xxx。
- 一般路由会给自己分配一个好记的内网 IP,如 192.168.1.1
- 然后路由会给每一个内网中的设备分配一个不同的内网 IP,如电脑是 192.168.1.2,手机是 192.168.1.3,以此类推。
- 现在路由器有两个 IP,一个外网 IP(14.17.32.211)和一个内网 IP(192.168.1.1)
- 内网中的设备可以互相访问(比如你可以用电脑或手机进入 http://192.168.1.1 来查看你的路由器),但是不能直接访问外网,内网设备想要访问外网,就必须经过路由器中转。
- 外网中的设备可以互相访问(比如 qq.com 可以把首页发送给你的路由器,你的路由器有外网 IP),但是外网中的设备无法访问你的内网设备(这很好理解,内网是一个封闭的网络,外人进不来,所以实际上 qq.com 无法直接把首页放送给你的电脑和手机)
- 问题来了,那 qq.com 是怎么把首页发送到我的手机上的呢?答案是通过路由器来中转。
- 路由器接收到 qq.com 的页面后,把页面发送给你的电脑或手机。路由器知道如何给这些信息指路,路由器就是一个指路人,这就是「路由」两个字的来历。
- 路,就是「必由之路」中的路。由,就是「必由之路」中的由(由是经过、缘由的意思)。所有的信息都要经过路由器,然后被指向一条它该去的路。
- 也就是说内网和外网就像两个隔绝的空间,无法互通,唯一的联通点就是路由器(因为路由器既有外网 IP 也有内网 IP),所以路由器有时候也被叫做「网关」,这个「关」是「一夫当关,万夫莫开」的「关」。如果路由器到电信的连接中断了,那么内网中所有的设备也就无法上网了。(这很好理解,相当于唯一一条出去的路断了)
- 除了内网 IP 和外网 IP,还有两个特别特殊的 IP,就是本地 IP:127.0.0.1。本地 IP 永远表示设备自己。不信你可以 ping 127.0.0.1 一下,会发现只需要 0.01 ms 就得到了响应(你 ping qq.com 需要几十毫秒才得到响应)
- 默认情况下,hosts 文件里会有一行
127.0.0.1 localhost
,意思就是 localhost 指向 127.0.0.1,所以 localhost 也表示设备自己。不信你 ping localhost 试试,会发现实际上是在 ping 127.0.0.1
- 默认情况下,hosts 文件里会有一行
- 还有一个特别特殊的 IP:0.0.0.0,它不表示任何设备。这个 IP 不同的地方含义不同,以后我们会用到,用到的时候再说意思。
端口
你想要访问一个设备(前提是你使用的是 TCP 或 UDP 协议。还记得吗,HTTP 就使用了 TCP),只指定 IP 是不够的,还必须指定端口(Port)。
端口其实就是一个编号,并不是一种硬件。
一个服务器(硬件)不一定只提供一种服务,比如一个服务器既提供 HTTP 服务,又提供 FTP 服务,还提供 SMTP 服务(邮件服务),那么只用一个 IP 是无法告诉服务器你想要使用哪种服务。
所以这里有一个重要的原则:一个端口对应一个服务。
比如
- 要提供 HTTP 服务你最好使用 80 端口(能不能使用别的端口?可以,不过不建议你违反约定)
- 要提供 HTTPS 服务你最好使用 443 端口(能不能使用别的端口?可以,不过不建议你违反约定)
- 要提供 FTP 服务你最好使用 21 端口(能不能使用别的端口?可以,不过不建议你违反约定)
问题1:我怎么知道应该使用什么端口?
维基百科 把 0 到 1023 号端口对应的服务都告诉你了,点进去看看吧。
问题2:一共由多少端口?
每个机器一共有 65535(2的16次方减1)个端口(这是协议规定的)。不过这些端口的使用由一些规定
- 0 到 1023(2的10次方减1)号端口是留给系统使用的,你只有拥有了管理员权限后,才能使用这 1024 个端口。
- 其他端口可以给普通用户使用
- 如果一个端口正在提供服务,也就是被占用了,那么就不能再使用这个端口。除非你先停掉正在占用这个端口的服务。以后你们会经常遇到这个问题。
总结
上面都是 TCP/IP 相关的知识,如果你记不住,就记住下面这句话:
使用 HTTP 协议访问另一个 IP 时,要同时提供 IP 和端口号,缺一不可。
那么问题来了
我访问 http://qq.com 时并没有提供端口号,为什么我依然可以访问
答:因为浏览器帮你加了默认端口号 80。