【mongoDB】mongoDB 数据同步和自动故障转移原理

2022-09-11  本文已影响0人  Bogon

一、数据同步的原理

当Primary节点完成数据操作后,Secondary会做出一系列的动作保证数据的同步:
1、检查自己local库的oplog.rs集合找出最近的时间戳
2、检查Primary节点local库oplog.rs集合,找出大于此时间戳的记录
3、将找到的记录插入到自己的oplog.rs集合中,并执行这些操作

PRIMARY> rs.status()

{
    "set" : "test",
    "date" : ISODate("2015-07-02T02:38:15Z"),
    "myState" : 1,
    "members" : [
        {
            "_id" : 2,
            "name" : "192.168.91.144:27017",
            "health" : 1,
            "state" : 7,
            "stateStr" : "ARBITER",
            "uptime" : 1678,
            "lastHeartbeat" : ISODate("2015-07-02T02:38:14Z"),
            "lastHeartbeatRecv" : ISODate("2015-07-02T02:38:14Z"),
            "pingMs" : 1
        },
        {
            "_id" : 1,
            "name" : "192.168.91.135:27017",
            "health" : 1,
            "state" : 2,
            "stateStr" : "SECONDARY",
            "uptime" : 1678,
            "optime" : Timestamp(1435803750, 1),
            "optimeDate" : ISODate("2015-07-02T02:22:30Z"),
            "lastHeartbeat" : ISODate("2015-07-02T02:38:14Z"),
            "lastHeartbeatRecv" : ISODate("2015-07-02T02:38:13Z"),
            "pingMs" : 1,
            "syncingTo" : "192.168.91.148:27017"
        },
        {
            "_id" : 0,
            "name" : "192.168.91.148:27017",
            "health" : 1,
            "state" : 1,
            "stateStr" : "PRIMARY",
            "uptime" : 1698,
            "optime" : Timestamp(1435803750, 1),
            "optimeDate" : ISODate("2015-07-02T02:22:30Z"),
            "electionTime" : Timestamp(1435803023, 1),
            "electionDate" : ISODate("2015-07-02T02:10:23Z"),
            "self" : true
        }
    ],
    "ok" : 1
}
myState:1表示primary
state:1表示primary;7表示arbiter
uptime:成员的在线时间
lastHeartbeat:当前实例到远端最近一次成功接收到心跳包的时间
pingMs:本实例到远端路由包的来回时间
optime:读取oplog.rs集合中本实例最近一次的更改时间

二、mongoDB数据同步的过程:

1:拉取同步节点的oplog。例如:Secondary节点拉去Primary节点的oplog。

2:将拉取的oplog写入到自己的oplog中。例如:Secondary节点从Primary拉去的oplog写入到自己的oplog。

3:请求下一个oplog同步到哪里。例如:Secondary会请求Primary节点同步到哪里了

Secondary节点同步到哪了?

1:Primary节点插入一条数据,同时会把该数据写入到Primary的oplog中,并且记录一个时间戳

2:db.runCommand({getlasterror:1,w:2}) 在Primary节点被调用时,Primary就完成了写入操作,等待其他非仲裁节点来同步数据

3:Secondary节点查询Primary的oplog并且拉取oplog

4:Secondary根据时间戳应用oplog

5:Secondary请求大于本身oplog时间戳的oplog

6:Primary更新时间戳

初始化同步:

1:新增加的节点或者oplog同步时候被覆写的时候都会进行初始化同步

2:从源节点取最新的oplog time,标记为start

3:从源节点克隆所有的数据到目标节点

4:在目标节点建立索引

5:取目标节点最新的oplog time,标记为minValid

6:在目标节点执行start到minValid的oplog(应该是复制过来还没有执行的oplog,没有完成最终一致性的那部分,就是一个oplog replay的过程)

7:成为正常成员

Initial Sync
 
Initial sync copies all the data from one member of the replica set to another member. A member uses initial sync when the member has no data, such as when the member is new, or when the member has data but is missing a history of the set’s replication.
 
When you perform an initial sync, MongoDB:
 
1:Clones all databases. To clone, the mongod queries every collection in each source database and inserts all data into its own copies of these collections. At this time, _id indexes are also built. The clone process only copies valid data, omitting invalid documents.

2:Applies all changes to the data set. Using the oplog from the source, the mongod updates its data set to reflect the current state of the replica set.

3:Builds all indexes on all collections (except _id indexes, which were already completed).
When the mongod finishes building all index builds, the member can transition to a normal state, i.e. secondary.


从哪个成员来同步数据(Who to sync from)?

MongoDB初始化同步数据的时候,可能从主节点同步,也可能是从从节点同步,根据最近的原则,选择最邻近节点去同步数据。(基于ping值)

同时也可以用任选以下一种方式指定从哪个节点来同步数据:

db.adminCommand( { replSetSyncFrom: "[hostname]:[port]" } )
rs.syncFrom("[hostname]:[port]")

新同步过来的数据并不能查看,Secondary默认不可读不可写。
如果需要查看要执行rs.slaveOk(),则当前shell连接上可以查看,后续的其他连接还是不可读不可写。

Primary写处理

master负责接收写请求,具体的流程为:

如果开启journal功能,则先将写请求记录到journal中,然后批量执行,同时将操作记录到oplog中

如果未开启journal功能,则对每个写请求进行单独操作,然后写入oplog

注:oplog是幂等的,当有累加操作inc时,会记录成set操作,从而无论重复执行多少次操作获得的结果都是一样的

从节点同步

如果是一个新的从节点,首先先从master的数据库文件进行复制,同时记录起始时间;当从节点从master的复制完成后,会根据复制的起始时间开始追oplog,进而与master进行同步。

初始化同步完成后的Secondaty定期从Primary的oplog中获取最新的操作,然后对自己的数据副本执行这些操作,从而保证Secondaty的数据与Primary最终一致性。

注意:当slave同步的速度赶不上master更新的速度时,oplog会因为追加了过多的操作而发生将旧记录覆盖掉,这样slave可能无法保证同步所有的数据,这时,slave会开始从头重新同步。

三、 mongoDB故障自动转移

image.png image.png image.png

mongoDB通过lastHeartbeat来实现自动转移。

mongod实例每隔2s就会向其他成员发送一个心跳包,并且通过rs.status()中返回的成员的health来判断成员的状态。

当主节点与集合中的其他成员的通信electionTimeoutMillis时间超过配置的时间段(默认为10秒)时,合格的secondary节点将要求选举,以提名自己为新的主节点。

如果primary节点不可用了,那么复制集中的所有secondary节点都会触发一次选举操作,选出新的primary节点。

群集尝试完成新主数据库的选择并恢复正常操作。

如果secondary节点有多个,则会选举拥有最新oplog时间戳记录的或者有较高权限的节点成为primary。

注意:如果secondary停止时间过长,导致primary节点的oplog内容被循环写覆盖掉了,则需要手动同步secondary节点。

节点类型



任何时间,集群中只有一个活跃节点,其他的都是备份节点。
有几种不同类型的节点可以存在与副本集中:

standard 标准节点
这是常规节点,它存储一份完整的数据副本,参与选举投票有可能成为活跃节点。

passive 被动结点
存储了完整的数据副本,参与投票,不能成为活跃节点,如延时节点。

arbiter 仲裁者
仲裁者只能参与投票,不接收复制的数据,也不能成为活跃节点。 

节点优先级

每个参与节点(非仲裁)有优先权,优先权按照优先值从大到小,默认优先级为1,可以是0-1000(含)。

在节点配置中修改priority键,来配置标准节点或者被动节点:

> members.push({"_id":3,"host":"xx.xx.xx.xx:17017","priority":40})

"arbiterOnly"键可以指定仲裁节点:

members.push({"_id":4,"host":"xx.xx.xx.xx:27017","arbiterOnly":true})

备份节点会从活跃节点抽取oplog,并执行操作,就像活跃备份系统中的备份服务器一样。
活跃节点也会写操作到自己的本地oplog,oplog中的操作包含严格递增的序号,这个序号来判定数据的时效性,所以节点之家的时间同步非常重要!

选举策略

如果活跃节点出现故障,其余节点会选一个新的活跃节点。
选举过程可以由任何非活跃节点发起,新的活跃节点由副本集中的大多数选举产生。
其中仲裁节点也参与选举,避免出现僵局。
新的活跃节点将是优先级最高的节点,优先级相同则数据较新的节点获胜。

不论活跃节点何时变化,新的活跃节点的数据就被假定为系统的最新数据,对其他节点(原活跃节点)的操作都会回滚,即便是之前的活跃节点已经恢复工作了。
为了完成回滚,所有节点连接新的活跃节点后重新同步。这些节点会查看自己的oplog,找出活跃节点没有的操作,然后向活跃节点请求这些操作影响的文档最新副本。
正在执行重新同步的节点被视为恢复中,在完成这个过程之前不能成为活跃节点的候选者。

四、参考

mongoDB中文手册/复写
https://mongodb.net.cn/manual/replication/#replication-flow-control

数据库命令 > 复制命令 > replSetSyncFrom
https://mongodb.net.cn/manual/reference/command/replSetSyncFrom

Replica Set Data Synchronization
https://www.mongodb.com/docs/manual/core/replica-set-sync/#replica-set-initial-sync-source-selection

mongoDB 副本集添加新的节点
https://blog.csdn.net/csdnhsh/article/details/116333686

上一篇下一篇

猜你喜欢

热点阅读