zk技术内幕

2019-05-04  本文已影响0人  小manong

一、系统模型

1、数据模型
2、节点特征

(1) 节点类型:在zk中每一个节点都是有什么周期的,具体生命周期的长度取决于数据节点的节点类型。zk中节点类型分为持久节点(PERSISTENT)、临时节点(EPHEMERAL)和顺序节点(SEQUENTIAL)三类,并通过组合可以组成下面四种类型:

1、持久节点:所谓持久节点就是该数据节点被创建后,就会一直存在于zk服务器中,直到有删除操作来主动清除这个节点。
2、持久顺序节点:在zk中,每一个父节点都会为它的第一级子节点维护一份顺序,用于记录下每个子节点创建的先后顺序,基于这个顺序特性,在创建子节点的时候,可以设置这个标记,那么在创建子节点过程中,zk会自动为给定节点加上一个数字后缀,作为一个新的、完整的节点名。(数字上限为整形最大值)
3、临时节点:临时节点的生命周和客户端的会话绑定在一起,也就是说这个客户端失效,那么这个节点就会被自动清理掉。同时规定,临时节点不能创建子节点,临时节点只能作为叶节点存在。
4、临时顺序节点:就是在临时节点的基础之上,添加了顺序的特性。

(2)状态信息:zk数据节点除了存储了数据内容之外,还存储了数据节点本身的一些状态信息。可以通过get来查看一个数据节点的内容,如图所示,第一行是数据节点的数据内容,第二行开始就是数据节点的状态信息,其实就是数据节点的stat对象的格式化输出

数据节点信息和内容
属性 说明
czxid 表示数据节点被创建时候的事务id
mzid 节点最后一次被更新的事务id
ctime 节点被创建的时间
mtime 节点最后一次被更新的时间
version 数据节点的版本号
cversion 子节点的版本号
aversion 节点acl的版本号
ephemeralOwner 创建临时节点的会话id
dataLength 数据内容的长度
pzxid 该节点的子节点列表最后被修改的事物id
numChildren 当前子节点的个数
3、版本

(1)悲观锁和乐观锁:

悲观锁:称为悲观并发控制(PCC),具有强烈的独占性和排他性,能够有效的额避免不同事务对同一个数据并发更新而造成的数据一致性问题。一般认为,在实际生产中,悲观锁策略适合解决那些对于数据更新竞争十分激烈的场景。
乐观锁:称乐观并发控制(OCC),悲观锁假定事务之间一定会出现互相干扰,而乐观锁则认为多个事务之间在处理过程中不会彼此影响(不总是会影响),因此在事务处理的绝大部分时间里不需要进行加锁处理。但是有并发一定存在者更新数据的冲突。(乐观锁机制就是更新请求提交之前,每一个事务都会首先检查当前事务读取数据后,是否还有其他事务对该数据进行了修改。如果其他事务有更新的话,那么正在提交的事务就需要回滚。)乐观锁通常用在数据并发竞争不大,事务冲突较少的场景中。

(2)乐观锁详解
一般乐观锁对事务的控制分为三阶段:数据读取、写入效验、数据写入,其中写入效验是整个乐观锁关键所在。再写入效验阶段,事务会检查数据在读取节点后是否还有其他事务对数据进行过更新,以确保数据更新的一致性。(实现乐观锁可以基于CAS原理和版本控制)

CAS原理:对于值V,每一次更新前都会对比其值是否是预期值A,只有符合预期值,才会将V原子化的更新为新值B。

(3)zk中版本控制实现乐观锁

加入一个客户端试图进行更新操作,它会携带上次获取到的version值进行更新,如果在这个时间内,zk服务器上该节点的数据恰好已经被其他客户端更新了,那么其数据版本一定也发生了变化,因此肯定与客户端携带的version无法匹配,也就无法更新成功,这样可以有效的避免了一些分布式更新问题。而version这个参数就充当了CAS中的“预期值”

//获取值V
 version = setDataRequest.getVersion();
//获取zk版本号预期值A
            currentVersion = nodeRecord.stat.getVersion();
//如果A是-1,说明没有并不要求使用乐观锁;如果不为-1,那么进行A和V对比
//不匹配就抛出异常
            if (version != -1 && version != currentVersion) {
                throw new BadVersionException(path);
            }
            version = currentVersion + 1;
4、zk数据节点小结

1、每个子目录项如NameService都被称作znode,这个znode是被它所在的路径唯一标识,如Server1这个znode的标识为/NameService/Server1
2、znode可以有子节点目录,并且每个znode可以存储数据,注意EPHEMERAL类型的目录节点不能有子节点目录
3、znode是有版本的,每个znode中存储的数据可以有多个版本,也就是一个访问路径中可以存储多份数据
4、znode可以是临时节点,一旦创建这个znode的客户端与服务器失去联系,这个znode也将自动删除,ZooKeeper的客户端和服务器通信采用长连接方式,每个客户端和服务器通过心跳来保持连接,这个连接状态成为session,如果znode是临时节点,这个session失效,znode也就被删除.
5、znode可以被监控,包括这个目录节点中存储的数据被修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个是ZooKeeper的核心特性.

zk数据结构模型

二、Watch机制

(1)watcher接口

public interface Watcher {
//事件的回调方法,当zk向客户端发送一个watcher事件通知时候,客户端就会
//对相应的process方法进行回调,从而实现对事件的处理
    void process(WatchedEvent var1);
//事件通知类型
    public interface Event {
        public static enum EventType {
            None(-1),
            NodeCreated(1),
            NodeDeleted(2),
            NodeDataChanged(3),
            NodeChildrenChanged(4);
....
        }
//事件通知状态
        public static enum KeeperState {
      ·    //客户端与服务器断开连接(此时处于断开连接状态)
            Disconnected(0),
 //此时处于连接状态(成功连接时候,触发条件创建、删除、节点数据改变、子节点列表发生变化)
            SyncConnected(3),
            AuthFailed(4),
            ConnectedReadOnly(5),
            SaslAuthenticated(6),
          //会话超时
            Expired(-112);
.....

(2)WatchedEvent和WatcherEvent

public class WatchedEvent {
//通知状态
    private final KeeperState keeperState;
//事件类型
    private final EventType eventType;
//节点路径
    private String path;
...
//通过该方法将watchedEvent包装为watcherEvent
    public WatcherEvent getWrapper() {
        return new WatcherEvent(this.eventType.getIntValue(), 
this.keeperState.getIntValue(), this.path);
    }
}
//实现了序列化,可以在网络上传送
public class WatcherEvent implements Record {
    private int type;
    private int state;
    private String path;
...
}

(3)工作机制


watch工作机制图

客户端注册:

在创建ZK客户端实例的时候,可以向构造方法中传入一个默认的Watcher,代表注册watcher(或者getData,getChildren,Exist三个方法进行注册)。注册好了之后,会对该请求request进行标记,标记为:使用了Watcher监听。然后把Watcher的注册信息封装为WatcherRegistration对象。然后再封装为packet对象,packet可以看做是最小的通信协议单元,用于进行网络传输。随后,客户端就像服务器端发送这个请求,同时等待请求的返回。

服务端处理Watcher:

ServerCnxn存储:我们知道ServerCnxn是服务端与客户端进行网络交互的一个接口,代表了客户端与服务端的连接。其底层采用netty实现。所以,在接受到注册请求之后,服务端会将ServerCnxn对象和数据阶段路径保存到WatchManager的watchTable和watch2Paths中。
Watcher触发当watcher监听的对应的额数据节点的数据内容发生变更时候。通过调用WatchManager的triggerWatch方法触发相关的事件。其通过将节点信息和事件类型进行封装成为watchedEvent,并查找到到对应节点的注册的watcher,然后分别调用watcher的回调函数process。而在process函数中其实就是通过封装的ServerCnxn。但本质上并不是客户端Watcher的真正业务逻辑,而是借助当前客户端连接的ServerCnxn对象来实现对客户端的WatchedEvent传递,真正的客户端回调与业务逻辑是在客户端也就是说服务端在完成watchedEvent封装后,会通过网络传送给客户端进行处理

客户端回调Watcher:

对于服务器端的响应,客户端都是由SendThread中的readResponse方法来统一处理的。(反序列化、处理chrootPath、还原为WatchedEvent、回调Watcher)

(4)小结

1、一次性:无论是服务器还是客户端,一旦一个Watcher被触发,就会从相应的存储中移除,这样的设计有利用缓解服务端的压力。但是开发人员要记住的一点就是反复注册!
2、客户端串行执行:客户端回调过程是一个串行的过程,因为要保证顺序。
3、轻量:WatchedEvent是ZK整个通知机制中的最小通知单元,我们说过它只包含三个部分,通知状态、事件类型、节点路径。因此它非常的轻量。但是你必要要记住这一点,它只会告诉客户端发生了事件,不会说明具体内容,你一定要自己重新去主动获取数据。另外我们说过,客户端注册Watcher的时候并不会把真实的Watcher对象传递到服务器,同时服务器端也仅仅是保存了当前连接的ServerCnxn对象。因此真的是非常轻量,网络开销和服务器内存开销都非常廉价。

(5)curator客户端使用watcher

NodeCache:用于监听指定zk数据节点本身的变化,定义了事件处理的回调接口NodeCacheListener,只要数据节点发生变化(这里的变化不包括删除后的变化),就会回调该方法。
PathChildrenCache:用于处理zk数据节点的子节点变化情况,但是无法触发二级子节点的改变。

三、会话

1、会话状态
2、会话创建

session实体:session实体包含sessionID(会话id,用于标识唯一会话)、timeout(会话超时时间)、ticktime(下次会话超时时间)、isclosing(标记一个会话是否已经关闭)四个属性
sessionID:会话id,需要保证其全局唯一性。

//id为服务器id(myid文件中的值)
  public static long initializeNextSession(long id) {
//该算法核心是高8位确定所在机器,后56位使用当前时间的毫秒表示进行随机
        long nextSid = 0L;
        nextSid = System.currentTimeMillis() << 24 >>> 8;
        nextSid |= id << 56;
        return nextSid;
    }

sessionTracker:是zk的服务端的会话管理器,负责会话的创建、管理和清理工作。

public class SessionTrackerImpl extends ZooKeeperCriticalThread implements SessionTracker {
  //根据sessionId管理session实体
    HashMap<Long, SessionTrackerImpl.SessionImpl> sessionsById = new HashMap();
//用于根据当前的会话超时时间点来归档会话,以便进行会话管理和超时检验
    HashMap<Long, SessionTrackerImpl.SessionSet> sessionSets = new HashMap();
//根据sessionId来管理会话的超时时间
    ConcurrentHashMap<Long, Integer> sessionsWithTimeout;
...

创建会话:服务端对于客户端的请求大致分为四个步骤,connectionRequest请求、会话创建、处理器链路处理、会话响应。在zk中由NIOServerCnxn来负责接收来自客户端的会话创建请求,并反序列化connetRequest请求,然后根据zk服务端的配置来完成会话超时时间的协商。随后sessionTracker将会为该会话分配一个sessionId,并将其注册到sessionsById和sessionWithTimeout中,同时进行会话的激活。之后,该会话请求会在zk服务端的各个请求处理器之间进行顺序流转,最后完成会话的创建。

3、会话管理

分桶策略:zk中会话管理由sessionTracker负责,采用“分桶管理策略”。就是说将类似的会话放在同一区块中进行管理,以便于zk对会话进行不同区块的隔离处理以及同一区块的统一处理。
分桶策略的分配原则是每个会话的下次超时时间点ExpirationTime(指的是最近一次可能超时的事件点,会话创建完成ExpirationTime=currenTime+sessionTimout),zk的leader服务器会在运行期间定时的进行会话超时检查,其时间间隔是EXpiratiionInterval(默认是2000毫秒,实际是通过公司计算出来的)
会话激活:为了保证客户端的会话有效性,在zk运行过程中,客户端会在会话超时时间内向服务器发送PING请求来保持会话的有效性,称为心跳检查。同时服务端不断受到客户端的心跳检测,并且需要重新激活对应的客户端会话,这个过程称为TouchSession。会话激活过程不仅能够使服务端检测到对应客户端的存活性,还可以让客户端自己保持连接状态。
会话激活四个过程(检测会话是否关闭、计算该会话的新的超时时间、定位该会话当前区块、迁移会话)。
会话超时检查:sessionTracker中有一个专门的线程用于超时检查,其工作机制就是:逐个依次的对会话桶中剩余的会话进行清理
会话清理:sessionTracker的会话超时检查线程整理出一些已经过期的会话后,就要开始进行会话清理了。

4、会话重连

会出现重连的情况:连接断开、会话过期、会话转移时候

四、zk中各服务器角色以及Leader选举

1、zk各个服务器角色

leader:是整个zk集群工作机制中的核心,主要功能(1)事务请求的唯一调度和处理者,保证集群事务处理的顺序性(2)集群内部各个服务的调度者
follower:是zk集群状态的跟随着,主要功能(1)处理客户端非事物请求,转发事物请求给leader服务器(2)参与事物请求proposal的投票(3)参与leader选举
Observer:与follower唯一区别是,observer不参加任何形式的投票,包括leader选举和proposal的投票。Observer的存在就是在减少投票和选举中性能影响,而达到集群快速扩容的目的。

2、leader选举过程

1、每一个server发出一个投票
2、接收来自各个服务器的投票
3、处理投票(zxid大优先,myid大的优先)
4、统计投票
5、改变服务器状态

运行期间的leader选举(leader挂了后)

1、变更状态(oberver变更为LOOKING)
2、每一个server发出一个投票
3、接收来自各个服务器的投票
4、处理投票(zxid大优先,myid大的优先)
5、统计投票
6、改变服务器状态(原子广播)

3、选举算法

略(后续研究)

五、数据与存储

1、内存数据存储
2、事物日志
3、snapshot-数据快照

六、客户端

客户端核心组件有:zk实例、ClientWatchManager(watch管理器)、HostProvider(客户端地址列表管理器)和ClientCnxn(客户端核心线程,主要由SendThread和EventThread构成,前者负责网络通信,后者负责事件处理)。客户端启动过程:

1、设置默认的watcher
2、设置zk服务器地址列表
3、创建clientCnxn

七、服务端

集群版zk服务端启动过程:

1、预启动(加载配置文件等)
2、初始化(恢复本地数据等)
3、leader选举
4、leader和follow的交互
5、leader和follow的启动

八、ACL


参考:《从paxos到zookeeper分布式一致性原理与实践》

上一篇 下一篇

猜你喜欢

热点阅读