第一章 大型网站架构演化
1.1大型网站软件系统的特点
高并发,大流量:需要面对高并发用户,大流量访问
高可用:系统7*24小时不间断服务
海量数据:需要存储、管理海量数据,需要使用大量服务器
用户分布广泛,网络情况复杂
安全环境恶劣
需求快速变更,发布频繁
渐进式发展
1.2大型网站架构演化发展历程
1.2.1初始阶段的网站架构
应用程序、数据库、文件等资源都在一个服务器上。通常服务器操作系统用Linux,应用程序用PHP开发,部署在apache上,数据库用MySQL
1.2.2应用服务和数据服务分离
应用和数据分离后整个网站使用三台服务器:应用服务器、文件服务器和数据库服务器
应用服务器处理大量业务逻辑,CPU要求高;数据库服务器快速磁盘检索和数据缓存,硬盘内存要求高;文件服务器存储大量用户上传的文件,硬盘要求高
存在问题:用户逐渐增多,数据库压力太大导致访问延迟,影响网站性能和用户体验
1.2.3使用缓存改善网站性能
网络访问特点符合二八定律,大部分业务访问集中在一小部分数据上,把这一小部分数据缓存在内存中,可以减少数据库压力。
网站使用的缓存分两种:缓存在应用服务器上的本地缓存和缓存在专门的分布式缓存服务器上的远程缓存。本地缓存访问速度快,缓存数据量有限,远程分布式缓存可用集群方式,理论上不受内存容量限制
存在问题:单一应用服务器能处理的请求连接有限,在网站访问高峰期,应用服务器成为整个网站的瓶颈。
1.2.4使用应用服务器集群改善网站的并发处理能力
应用服务器实现集群是网站可伸缩性架构设计中较为简单成熟的一种,通过负载均衡调度服务器,将用户浏览器访问请求分发到应用服务器集群的任何一台服务器上。
1.2.5数据库读写分离
网站使用缓存后,绝大部分数据操作访问都可以不通过数据库就能完成,但仍有一部分读操作和全部写操作需要访问数据库,当用户达到一定规模,数据库因负载压力过高而成为网站瓶颈。
目前主流数据库提供主从热备功能,通过配置两台数据库主从关系,可以将一台数据库服务器数据更新同步到另一台服务器。网站利用这一功能,实现数据库读写分离,改善负载压力。
应用服务器写数据时,访问主数据库,主数据库通过主从复制机制将数据更新到从数据库,这样应用服务器读数据就可以通过从数据库获得数据。
1.2.6使用反向代理和CDN加速网站响应
CDN和反向代理的基本原理都是缓存,区别在于CDN部署在网络供应商机房,用户请求网站服务时可以从距离最近的机房获取数据;反向代理则部署在网站中心机房,用户请求到达中心机房后,先访问反向代理服务器,如果反向代理服务器缓存着用户请求的资源,就直接返回给用户。
1.2.7使用分布式文件系统和分布式数据库系统
分布式数据库是网站数据库拆分的最后手段,只有在单表数据规模非常庞大的时候才使用。网站常用的数据库拆分手段是业务分库,将不同业务的数据库部署在不同的物理服务器上。
1.2.8使用NoSQL和搜索引擎
网站需要采用一些非关系数据库技术如NoSQL和非数据库查询技术如搜索引擎
1.2.9业务拆分
大型网站为了应对日益复杂的业务场景,将整个网站业务分成不同的产品线,如大型购物网站将首页、商铺、订单、买家、卖家等拆分成不同的产品线分归不同的业务团队负责。
应用之间通过超链接建立关系,也可以通过消息队列进行数据分发,最多的还是访问同一个数据存储系统来构成一个关联的完整系统。
1.2.10分布式服务
每一个应用都需要执行许多相同的业务操作时,如用户管理、商品管理等,可以将这些共用的业务提取出来,独立部署。由这些可复用的业务连接数据库,提供共用业务服务,而应用系统只需要管理用户界面,通过分布式服务调用公用业务服务完成具体业务操作即可。
1.3大型网站架构演化的价值观
1.3.1大型网站架构技术的核心价值是随网站所灵活应对
1.3.2驱动大型网站技术发展的主要力量是网站的业务发展
1.4网站架构设计误区
1.4.1一味追随大公司的解决方案
1.4.2为了技术而技术
1.4.3企图用技术解决所有问题
技术是用来解决业务问题的,而业务的问题也可以通过业务的手段去解决