(一)深入web请求过程
随着Web2.0时代的到来,互联网的网络架构已从传统的C/S架构转变为更加方便快捷的B/S架构。这种转变不是没有原因的,下面我们就来说说B/S架构的优点。
B/S:
主要从两方面来阐述B/S的有点:客户端和服务端。
客户端使用统一的浏览器(Browser)。由于浏览器具有统一性,他不需要特殊的配置和网络连接。有效地屏蔽了不同服务提供商提高给用户使用服务的差异性。另外最重要的一点是浏览器的易用性,能使用户更加轻松方便地使用,大大降低了学习门槛。
服务端(Server)基于统一的HTTP。和传统的C/S架构使用自己定义的应用层协议不同,B/S架构使用统一的HTTP。使用统一的HTTP也为服务提供商简化了开发模式。有很多现成的基于HTTP的服务器,比如Apache,IIS,Nginx,Tomcat,JBoss等,不仅如此,连开发服务的通用框架都不需要单独开发,这大大降低了开发门槛,因此也出现了越来越多的互联网服务。
由此可见,B/S是基于HTTP的,那HTTP又是什么呢?它是如何建立连接的呢?
B/S网络架构
B/S网络架构都基于统一的应用层协议HTTP来交互数据,与大多数传统C/S互联网应用程序采用的长连接的交互模式不同,http采用无状态的短连接的通信方式。通常情况下,一次请求就完成了一次数据交互,通常也对应一个业务逻辑,然后这次通信连接就断开了。采用这种方式是为了能够同时服务更多的用户,因为当前互联网应用每天都会处理上亿用户的请求,不可能每个用户访问一次后就一直保持这个连接。
基于http本身的特点,目前B/S网络架构大多采用如下所示的架构设计,既要满足海量用户的访问请求,又要保持用户请求的快速响应,所以现在的网络架构也越来越复杂。
image.png首先,它会请求DNS把这个域名解析成对应的IP地址,然后根据这个IP地址在互联网上找到对应的服务器,向这个服务器发起一个get请求,由这个服务器决定返回默认的数据资源给访问用户。在服务器端实际上还有很复杂的业务逻辑。服务器可能有很多台,到底指定哪台服务器来处理请求,这需要一个负载均衡设备来平均分配所有用户的请求;还有请求的数据是存储在分布式缓存里还是一个静态文件中,或者是在数据库里;当数据返回浏览器时,浏览器解析数据发现还有一些静态资源(如CSS、JS或者图片)时又会发起另外的http请求,而这些请求很可能会在CDN上,那么CDN服务器又会处理这个用户的请求,大体上一个用户请求会涉及这么多的操作。每一个细节都会影响这个请求最终是否会成功。
不管网络架构如何变化,始终有一些固定不变的原则需要遵守。
1、互联网上的所有资源都要用一个URL(统一资源定位符)来表示。
2、必须基于http与服务端交互。不管你要访问的是国内的还是国外的数据,是文本数据还是流媒体,都必须按照套路出牌,也就是都得采用统一打招呼的方式,这样人家才会明白你要的是什么。
3、数据展示必须在浏览器中进行。当你获取到数据资源后,必须在浏览器上才能恢复她的容貌。
如何发起一个请求
如何发起一个http请求?
如何发起一个http请求和如何建立一个socket连接区别不大,只不过outputstream.write写的二进制字节数据格式要符合http。
浏览器在建立socket连接之前必须根据地址栏输入的URL的域名使用DNS解析出IP地址,再根据这个IP地址和默认的80端口与远程服务器建立socket连接,然后浏览器根据这个URL组装成一个get类型的http请求头,通过outputsream.write发送到目标服务器,服务器等待inputstream.read返回数据,最后断开这个连接。
发起一个http请求的过程就是建立一个socket通信的过程。
当然,不同浏览器在如何使用这个已经建立好的连接以及根据什么规则来管理连接上,有个种不同的实现方法。
上面我们已经知道了发起一个http连接本质上就是建立一个socket连接,我们可以模拟浏览器来发起http请求:
1、通过程序实现的方式;如httpclient就是一个开源的通过程序实现的处理http请求的工具包。基本的调用示例如下:
image.png
2、通过Linux命令的形式;如Linux的curl命令,通过curl+URL就可以简单的发起一个http请求。
(1)get请求
curl “http://www.baidu.com” 如果这里的URL指向的是一个文件或者一幅图都可以直接下载到本地
curl -i “http://www.baidu.com” 显示全部信息
curl -l “http://www.baidu.com” 只显示头部信息
curl -v “http://www.baidu.com” 显示get请求全过程解析
wget “http://www.baidu.com“也可以
(2)post请求
curl -d “user=nickname&password=12345” “http://www.baidu.com”
HTTP解析
B/S网络架构的核心是HTTP,要理解http最重要的就是要熟悉http中的http header,http header控制着互联网上成千上万的用户的数据传输,最关键的是,控制着用户浏览器的渲染行为和服务器的执行逻辑。如,当服务器没用用户请求的数据时就会返回一个404状态码,告诉浏览器没有要请求的数据,浏览器展示一个页面不存在的错误信息。
常见的http请求头,响应头,状态码分别如下:
image.png想要查看这些内容,可以通过Firefox的firebug、httpfox或者其他浏览器自带的调试工具(F12键打开)来查看。
浏览器的缓存机制
在我们浏览一个页面发现有异常的时候,通常考虑的就是是不是浏览器做了缓存,一般的做法就是按Ctrl+F5组合件刷新页面,这样浏览器会直接向目标URL发送请求,而不会使用浏览器缓存的数据。其次即使请求发送到服务器端,也有可能访问到的是缓存数据。所以为了保证用户能都看到最新的数据,必须通过http来控制。
当我么使用Ctrl+F5组合键来刷新一个页面时,在http请求头中会增加一些请求头,它告诉服务端我们要获取最新的数据而不是缓存。
http请求头返回缓冲数据:
image.png
使用Ctrl+F5组合键刷新页面时http请求头返回的数据:
image.png