读《大型网站技术架构》
0. 前
之前就读过《大型网站技术架构》一书,现拾起览读一遍,还是颇有收获。读书后总是容易就遗忘,故梳理下书中要点,加深印象,也补充自己的一些见解和心得。
该书全面提及目前网站架构的技术,适合架构入门,也可以以书中提到的知识和技术点做为纲要和主线,深入扩展学习。
1. 大型网站架构演化
- 服务器:单台服务器 --> 应用、数据、文件服务器fastdfs
- 应用:单应用 --> 业务拆分 --> 分布式服务 --> 微服务
- DB:单DB --> 读写分离 --> 引入缓存 -- 本地缓存 -- 分布式缓存
- 负载均衡:lvs,f5,nginx
- 反向代理nginx,CDN缓存,CDN就近发送
- NoSQL MongoDB、搜索引擎elasticsearch,solr
架构不是设计出来的,而是演变而来,大型网站架构也是一个演化的过程,可以参考《淘宝技术这十年》提到淘宝技术演化过程。
与业务的需求匹配才是最佳的选择,不要一味追求大公司方案,毕竟架构是为了落地,需要考虑人力、物力成本,所以满足当前业务和未来的发展才是王道,不过再小的应用,也要有灾备,最次也要支持手工快速换掉不可用的服务;而DB为了数据安全,也要支持主从,应用还是DB都必须物理隔离部署。
2. 网站架构模式
- 分层,一般可以将系统横向分为三层
应用层、服务层、数据层
在架构中,分层最大的挑战是合理规划层次边界和接口;实践中,做到禁止跨层次调用和逆向调用。
即使最初发展阶段网站,及时多层架构同部署一台物理机,但代码组织上也要做好业务逻辑区分,便于代码维护还是部署,但网站有大量流出涌入时,分层为支持高并发的分布式部署至关重要。
- 分隔
业务上的纵向分隔,比如将购物、搜索、广告分隔为不同的应用,由独立团队负责,分开部署。 - 分布式
分层和分隔的主要目的也是分布式部署,但分布式部署也带来了很多问题和挑战,如:服务间通信(rpc)、调用链路太长性能、服务调用链监控、运维。
一些部署方案:应用和服务模块分部署部署,以改善网站性能和支持高并发,功能复用。
静态资源分布式部署
大数据分布式部署和存储
分部署计算
zookeeper、spark、hadoop、mapreduce
- 集群
分布式部署后需要将各个服务集群化,统一向外提供服务
负载均衡、无状态化
-缓存
CDN、反向代理、本地缓存、分布式缓存
- 异步
生产者消费者、mq
- 冗余
服务部署冗余、数据部署冗余
- 自动化
自动化过程代码管理、测试、安全检查、发布、报警、故障转移、服务降级、分配资源
- 安全
验证码登录、xss、爬虫、sql注入
大型完整核心要素
- 性能
索引、优化、算法
- 可用性,7x24,99.99%
- 伸缩性,横向扩展-加服务器
- 扩展性
- 安全性
高性能网站
- 网站性能视角
用户体验、开发人员、运维
- 性能指标
相应时间
并发性
吞吐量
性能技术器
- 性能测试方法
性能测试、负载测试、压力测试、稳定性测试
- web前端性能优化
减少http请求次数,合并css,合并javascript,使用浏览器缓存,压缩,减少cookie
CDN加速,反向代理
- 应用服务器性能优化
分部署缓存:命中率、一致性、可用性、预热、穿通
异步
代码级:多线程、资源复用
可用于架构
- 负载均衡转移故障,应用无状态
- 核心服务隔离
- 超时设置、异步调用、
- 服务降级
可以展示关闭低等级服务,保障核心服务;出错时忽略次要服务
- 幂等性设计
同一个操作多次调同返回结果一致,如重复下单、数据更新
- CAP
数据持久性、数据可用性、数据一致性
强一致、用户一致、最终一致
- 数据安全:备份、恢复
高可用质量保障
- 不停机(不停服务)发布、自动化测试、预发布验证、灰度发布、自动化发布、快速回滚
- 监控数据采集:用户行为日志、服务端日志、终端日志、服务端终端性能监控
- 监控管理:系统报警、失效转移、自动系统降级
网站伸缩
- 业务集物理隔离、垂直服务集群化隔离
- 负载均衡:轮询、加权轮询、随机、最少连接、hash映射
- 分布式一致性hash
- 数据:cobar-mysql,noSQL-hbase
网站扩展
- 分布式解耦:事务驱动架构-发布/订阅、分布式消息队列-MQ
网站安全
- XSS、SQL注入、CSRF-跨域攻击
- 防火墙、敏感数据加密或者脱敏、黑名单-布隆算法