CAP、BASE、2PC介绍
1.分布式的难点:
1)缺乏全局的时钟
2)面对故障时的独立性
3)很难处理单节点
4)很难处理事务
2.事务要具有ACID. 但是这在分布式系统中很难实现
A:Atomicity原子性
C:Consistency一致性
I:Isolation隔离性
D:Durability持久性
很多数据库都能实现单机事务, 但是一旦构建为分布式系统, 单机的ACID就不能实现了, 有两种选择, 1、放弃事务 2、引入分布式事务;
3.分布式事务的实现:
分布式事物是指事物的参与者、支持事物的服务器、资源服务器以及事物管理器分别位于分布式系统的不同节点上,通常一个分布式事物中会涉及对多个数据源或业务系统的操作。
分布式事务也可以被定义为一种嵌套型的事物,同时也就具有了 ACID事物特性。但由于在分布式事务中,各个子事物的执行是分布式的,因此要实现一种能够保证ACID特性的分布式事物处理系统就显得格外复杂。
4.分布式系统理论模型:
1)2PC --------->Two Phase Commitment Protocol 两段式提交
2PC一次事务首先要准备资源, 所有节点的资源都准备好后, 同时进行Commit, 如果中途中断则会一起ROLLBACK, 从而实现数据一致性
2)CAP:
C:Consistency:一致性,在分布式环境下,一致性是指数据在多个副本之间能否保持一致的特性.在分布式系统中,如果能够做到针对一个数据项的更新操作执行成功后,所有的用户都可以读取到其最新的值,那么 这样的系统就被认为具有强一致性.-------->每一个售票口查询余票的数量必须一致
A:Avaiability:可用性,能够保证系统的可用性(有主机宕机不影响用户)
可用性是指系统提供的服务必须一直处于可用的状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果
P:Partition tolerance:分区容错性
大多数分布式系统都分布在多个子网络。每个子网络就叫做一个区(partition),分区容错约束了分布式系统具有::分布式系统在遇到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性或者可用性的服务,除非是整个网络环境都发生了故障。
CAP的选择:
CA:放弃分区容错性,加强一致性和可用性,相当于传统单机数据库的选择
AP:放弃一致性,追求分区容错性和可用性,是很多分布式系统设计的选择,比如nosql
CP:放弃可用性,追求一致性和分区容错性,基本不会选择网络问题可直接让系统不可用,比如redis,hbase
需要明确的一点是,对于一个分布式系统而言,分区容错性是一个最基本的要求。 既然是一个分布式系统,那么分布式系统中的组件必然需要被部署到不同的节点,否则也就无所谓分布式系统了,因此必然出现子网络。而对于分布式系统而言,网 络问题又是一个必定会出现的异常情况,因此分区容错性也就成为了一个分布式系统必然需要面对和解决的问题。因此系统架构师往往需要把精力花在如何根据业务 特点在C(一致性)和A(可用性)之间寻求平衡
3)BASE:
BASE理论是对CAP中一致性和可用性权衡的结果,其来源于对大规模互联网系统分布式实践的总结, 是基于CAP定理逐步演化而来的。BASE理论的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。接下来看一下BASE中的三要素:
BA: Basically Availibale 基本可用性
基本可用是指分布式系统在出现不可预知故障的时候,允许损失部分可用性----注意,这绝不等价于系统不可用。比如:
(1)响应时间上的损失。正常情况下,一个在线搜索引擎需要在0.5秒之内返回给用户相应的查询结果,但由于出现故障,查询结果的响应时间增加了1~2秒
(2)系统功能上的损失:正常情况下,在一个电子商务网站上进行购物的时候,消费者几乎能够顺利完成每一笔订单,但是在一些节日大促购物高峰的时候,由于消费者的购物行为激增,为了保护购物系统的稳定性,部分消费者可能会被引导到一个降级页面
S: Soft state 接受一段时间的状态不能同步
软状态指允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时
E: Eventually Consistent 最终一致性
最终一致性强调的是所有的数据副本,在经过一段时间的同步之后,最终都能够达到一个一致的状态.最终一致性的本质是需要系统保证最终数据能够达到一致,而不需要实时保证系统数据的强一致性。
相比于ACID而言, 它完全不同于ACID的强一致性模型,而是通过牺牲强一致性来获得可用性,并允许数据在一段时间内是不一致的,但最终达到一致状态.DNS就是最著名的Eventually Consistent的实现