输入url到页面加载的过程
- 输入地址
- 浏览器查找域名的
IP
地址 - 浏览器向
web
服务器发送一个HTTP
请求 - 服务器的永久重定向响应
- 浏览器跟踪重定向地址
- 服务器处理请求
- 服务器返回一个
HTTP
响应 - 浏览器显示
HTML
- 浏览器发送请求获取嵌入在
HTML
中的资源(如图片、音频、视频、CSS
、JS
等等)
浏览器查找域名的 IP 地址
-
请求一旦发起,浏览器首先要做的事情就是解析这个域名,浏览器会先查看本地硬盘的
hosts
文件,看看其中有没有和这个域名对应的规则,如果有的话就直接使用hosts
文件里面的ip
地址。 -
如果在本地的
hosts
文件没有能够找到对应的ip
地址,浏览器会发出一个DNS
请求到本地DNS
服务器 。本地DNS
服务器一般都是你的网络接入服务器商提供,比如中国电信,中国移动。 -
查询你输入的网址的
DNS
请求到达本地DNS
服务器之后,本地DNS
服务器会首先查询它的缓存记录,如果缓存中有此条记录,就可以直接返回结果,此过程是递归的方式进行查询。如果没有,本地DNS
服务器还要向DNS
根服务器进行查询。 -
根
DNS
服务器没有记录具体的域名和IP
地址的对应关系,而是告诉本地DNS
服务器,你可以到域服务器上去继续查询,并给出域服务器的地址。这种过程是迭代的过程。 -
本地
DNS
服务器继续向域服务器发出请求,在这个例子中,请求的对象是.com
域服务器。.com
域服务器收到请求之后,也不会直接返回域名和IP
地址的对应关系,而是告诉本地DNS
服务器,你的域名的解析服务器的地址。 -
最后,本地
DNS
服务器向域名的解析服务器发出请求,这时就能收到一个域名和IP
地址对应关系,本地DNS
服务器不仅要把IP
地址返回给用户电脑,还要把这个对应关系保存在缓存中,以备下次别的用户查询时,可以直接返回结果,加快网络访问。
浏览器向 web 服务器发送一个 HTTP 请求
拿到域名对应的IP
地址之后,浏览器会以一个随机端口(1024<端口<65535
)向服务器的WEB
程序(常用的有httpd
,nginx
等)80
端口发起TCP
的连接请求。这个连接请求到达服务器端后(这中间通过各种路由设备,局域网内除外),进入到网卡,然后是进入到内核的TCP/IP
协议栈(用于识别该连接请求,解封包,一层一层的剥开),还有可能要经过Netfilter
防火墙(属于内核的模块)的过滤,最终到达WEB
程序,最终建立了TCP/IP
的连接。
建立了TCP
连接之后,发起一个http
请求。一个典型的http request header
一般需要包括请求的方法,例如GET
或者 POST
等,不常用的还有PUT
和DELETE
、HEAD
、OPTION
以及TRACE
方法,一般的浏览器只能发起GET
或者 POST
请求。
客户端向服务器发起http
请求的时候,会有一些请求信息,请求信息包含三个部分:
- 请求方法
URI
协议/版本 - 请求头(
Request Header
) - 请求正文
下面是一个完整的HTTP
请求例子:
GET/sample.jspHTTP/1.1
Accept:image/gif.image/jpeg,*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0)
Accept-Encoding:gzip,deflate
username=jinqiao&password=1234
最后一个请求头之后是一个空行,发送回车符和换行符,通知服务器以下不再有请求头。
- 请求的第一行是
方法URL议/版本
:GET/sample.jsp HTTP/1.1
。 - 请求头(
Request Header
):请求头包含许多有关的客户端环境和请求正文的有用信息。例如,请求头可以声明浏览器所用的语言,请求正文的长度等。
Accept:image/gif.image/jpeg.*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible:MSIE5.01:Windows NT5.0)
Accept-Encoding:gzip,deflate.
- 请求正文:请求头和请求正文之间是一个空行,这个行非常重要,它表示请求头已经结束,接下来的是请求正文。请求正文中可以包含客户提交的查询字符串信息。
username=jinqiao&password=1234
服务器的永久重定向响应
服务器给浏览器响应一个301
永久重定向响应,这样浏览器就会访问“http://www.google.com/”
而非“http://google.com/”
。
为什么服务器一定要重定向而不是直接发送用户想看的网页内容呢?其中一个原因跟搜索引擎排名有关。如果一个页面有两个地址,就像http://www.yy.com/
和http://yy.com/
,搜索引擎会认为它们是两个网站,结果造成每个搜索链接都减少从而降低排名。而搜索引擎知道301
永久重定向是什么意思,这样就会把访问带www
的和不带www
的地址归到同一个网站排名下。还有就是用不同的地址会造成缓存友好性变差,当一个页面有好几个名字时,它可能会在缓存里出现好几次。
301和302的区别。
301
和302
状态码都表示重定向,就是说浏览器在拿到服务器返回的这个状态码后会自动跳转到一个新的URL
地址,这个地址可以从响应的Location
首部中获取(用户看到的效果就是他输入的地址A
瞬间变成了另一个地址B
)——这是它们的共同点。
他们的不同在于。301
表示旧地址A
的资源已经被永久地移除了(这个资源不可访问了),搜索引擎在抓取新内容的同时也将旧的网址交换为重定向之后的网址;
302
表示旧地址A
的资源还在(仍然可以访问),这个重定向只是临时地从旧地址A
跳转到地址B
,搜索引擎会抓取新的内容而保存旧的网址。SEO
对 302
好于301
。
使用301
跳转的大概场景如下:
1、域名到期不想续费(或者发现了更适合网站的域名),想换个域名。
2、在搜索引擎的搜索结果中出现了不带www的域名,而带www的域名却没有收录,这个时候可以用301重定向来告诉搜索引擎我们目标的域名是哪一个。
3、空间服务器不稳定,换空间的时候。
浏览器跟踪重定向地址
现在浏览器知道了 "http://www.google.com/"
才是要访问的正确地址,所以它会发送另一个http
请求。
服务器处理请求
经过前面的重重步骤,我们终于将我们的http
请求发送到了服务器这里,其实前面的重定向已经是到达服务器了,那么,服务器是如何处理我们的请求的呢?
后端从在固定的端口接收到TCP
报文开始,它会对TCP
连接进行处理,对HTTP
协议进行解析,并按照报文格式进一步封装成HTTP Request
对象,供上层使用。
一些大一点的网站会将你的请求到反向代理服务器中,因为当网站访问量非常大,网站越来越慢,一台服务器已经不够用了。于是将同一个应用部署在多台服务器上,将大量用户的请求分配给多台机器处理。
此时,客户端不是直接通过HTTP
协议访问某网站应用服务器,而是先请求到Nginx
,Nginx
再请求应用服务器,然后将结果返回给客户端,这里Nginx
的作用是反向代理服务器。同时也带来了一个好处,其中一台服务器万一挂了,只要还有其他服务器正常运行,就不会影响用户使用。
通过Nginx
的反向代理,我们到达了web
服务器,服务端脚本处理我们的请求,访问我们的数据库,获取需要获取的内容等等。
服务器返回一个 HTTP 响应
经过前面的步骤,服务器收到了我们的请求,也处理我们的请求,到这一步,它会把它的处理结果返回,也就是返回一个HTPP
响应。
HTTP
响应与HTTP
请求相似,HTTP
响应也由3个部分构成,分别是:
- 状态行
- 响应头(
Response Header
) - 响应正文
HTTP/1.1 200 OK
Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122
<html>
<head>
<title>http</title>
</head>
<body>
<!-- body goes here -->
</body>
</html>
状态行:
状态行由协议版本、数字形式的状态代码、及相应的状态描述,各元素之间以空格分隔。
格式: HTTP-Version Status-Code Reason-Phrase CRLF
例如: HTTP/1.1 200 OK \r\n
-- 协议版本:是用http1.0还是其他版本
-- 状态描述:状态描述给出了关于状态代码的简短的文字描述。比如状态代码为200时的描述为 ok
浏览器显示 HTML
在浏览器没有完整接受全部HTML
文档时,它就已经开始显示这个页面了,浏览器是如何把页面呈现在屏幕上的呢?不同浏览器可能解析的过程不太一样,这里我们只介绍webkit
的渲染过程,下图对应的就是WebKit
渲染的过程,这个过程包括:
解析html
以构建dom
树 -> 构建render
树 -> 布局render
树 -> 绘制render
树。
浏览器发送请求获取嵌入在 HTML 中的资源(如图片、音频、视频、CSS、JS等等)
其实这个步骤可以并列在上述步骤中,在浏览器显示HTML
时,它会注意到需要获取其他地址内容的标签。这时,浏览器会发送一个获取请求来重新获得这些文件。比如我要获取外图片,CSS
,JS
文件等,类似于下面的链接:
图片:http://static.ak.fbcdn.net/rsrc.php/z12E0/hash/8q2anwu7.gif
CSS式样表:http://static.ak.fbcdn.net/rsrc.php/z448Z/hash/2plh8s4n.css
JavaScript 文件:http://static.ak.fbcdn.net/rsrc.php/zEMOA/hash/c8yzb6ub.js
这些地址都要经历一个和HTML
读取类似的过程。所以浏览器会在DNS
中查找这些域名,发送请求,重定向等等...
不像动态页面,静态文件会允许浏览器对其进行缓存。有的文件可能会不需要与服务器通讯,而从缓存中直接读取,或者可以放到CDN
中。
参考文章
从浏览器接收url到开启网络请求线程
浏览器渲染过程与性能优化
前端性能优化最佳实践
老生常谈-从输入url到页面展示到底发生了什么
DNS解析的过程是什么,求详细的?