《从零开始学习架构》读书笔记之计算高性能
上一篇文章主要讲了如何从存储方面考虑解决高性能的复杂性。这一篇读书笔记将从计算的角度,来分析如何解决高性能的复杂性。
作者认为,高性能架构设计主要集中在两个方面:1.尽量提升单服务器的性能,将单服务器的性能发挥到极致;2.如果单服务器无法支撑性能,则设计服务器集群方案。虽然最终系统能不能实现高性能,还和具体的实现以及编码相关,但架构设计决定了系统性能的上限,实现细节则决定了系统性能的下限。
单服务器高性能
作者认为单服务器高性能的关键之一是服务器采取的并发模型,而并发模型有两个关键设计点:1.服务器如何管理连接;2.服务器如何处理请求;而这两个设计点最终都和操作系统的I/O模型以及进程模型相关。(I/O模型:阻塞、非阻塞、同步、异步;进程模型:单进程、多进程、多线程)
常见的单服务器高性能模式有:PPC、prefork、TPC、Reactor和Proactor.
PPC,指每次有新的连接就新建一个进程去专门处理这个连接请求。这也是传统的UNIX网络服务器锁采用的模型。它的特点是,实现简单,比较适合服务器连接数没那么多的情况。一般情况下,PPC方案能处理的并发连接数量最大也就几百。
prefork,相对于PPC模式中,当连接进来时才创建新进程来处理连接请求,prefork是提前创建进程的。即系统在启动的时候就预先创建好进程,然后才接受用户的请求,当有新的连接进来的时候,就可以省去新建进程的操作。其特点同样是存在父子进程通信复杂、支持的并发连接数量有限的问题。
TPC指每次有新的连接就新建一个线程去专门处理这个连接的请求。解决了PPC模式的新建进程代价高和父子进程通信复杂的问题。但是它也引入了新问题,比如高并发时有性能问题、线程间互斥共享导致的死锁问题等。
prethread,和prefork类似,它会预先创建线程,然后才开始接受用户的请求。Apache服务器的MPM worker模式本质上就是一种prethread方案。
Reactor模式的核心组成包括Reactor和处理资源池,其中Reactor负责监听和分配事件,处理资源池负责处理事件。Reactor模式的具体实现方案灵活多变,作者举例三种方案:单Reactor单进程/线程、单Reactor多线程、多Reactor多进程/线程。这里暂时不展开写(主要是还没有看懂....)
Proactor模型是非阻塞同步网络模式。
这方面我写得有些粗略,主要是还有很多不懂...,通过阅读这些让我对一些脑中零散的知识点建立了联系,后续还需要深入学习这方面的知识。
集群高性能
单服务器无论如何优化,都会有性能天花板,这时可以通过增加更多的服务器来提升系统整体的计算能力。这便是集群。
高性能集群设计的复杂度主要体现在任务分配,设计合理的任务分配策略,将计算任务分配到多台服务器上执行。任务分配器,也叫负载均衡器。想要设计高性能集群,就必不可少的要了解负载均衡的分类、架构以及算法。
常见负载均衡分类有:DNS负载均衡、硬件负载均衡和软件负载均衡。
DNS是最简单、最常见的负载均衡方式,一般用来实现地理级别的均衡。其本质是DNS解析同一个域名可以返回不同的IP地址,比如北方的用户返回北京机房的IP地址,南方的用户返回深圳机房的IP地址。优点是,简单成本低、就近访问提升访问速度;缺点是,更新不及时、扩展性差、分配策略比较简单;
硬件负载均衡,通过单独的硬件设备来实现负载均衡,常见有F5和A10.优点是,功能强大、性能强大、稳定性高、支持安全防护;缺点是,价格昂贵,扩展能力差。
软件负载均衡,通过负载均衡软件来实现负载均衡功能,常见的有Nginx和LVS。优点是,简单、便宜和灵活;缺点是,性能一般、功能没有硬件负载均衡强大;
当然,这几种负载均衡方式可以组合使用,基本原则是,DNS负载均衡用于实现地理级别的负载均衡;硬件负载均衡用于实现集群级别的负载均衡;软件负载均衡用于实现机器级别的负载均衡。
负载均衡算法数量很多,作者根据算法期望达到的目的,将其大致分为四类:任务平分类、负载均衡类、性能最优类和Hash类。
- 任务平分类:负载均衡系统将收到的任务平均分配给服务器进行处理;
- 负载均衡类:负载均衡系统根据服务器的负载进行分配;
- 性能最优类:负载均衡系统根据服务器的响应时间进行任务分配,优先将新任务分配给响应最快的服务器;
- Hash类:负载均衡系统根据任务中的某些关键信息进行hash运算,将相同hash值的请求分配到同一台服务器上。