分库分表 结合 分布式id生成算法

2017-07-10  本文已影响0人  乘以零

采用twitter的snowflake 思想 生成一个自增(趋势自增 不连续)的id生成算法

Twitter的分布式自增ID算法snowflake 结构如下(每部分用-分开):

   0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000

第1位 正负标记 id一般为正数 为0

接下来的41位为毫秒级时间,不是存储当前时间的时间截,而是存储时间截的差值(当前时间截 - 开始时间截)

   41位的长度可以使用69年( (1 << 41) / (1000L * 60 * 60 * 24 * 365) = 69   )

接下来5位datacenterId和5位workerId,代表分布式节点(10位的长度最多支持部署 (1<<10=1024)个节点)

最后12位是毫秒内的计数(12位的计数顺序号支持每个节点每毫秒产生(1<<12=4096)个ID序号)

一共加起来刚好64位,为一个Long型。(转换成字符串长度为18)


分库分表

一对一情况

这个没啥好说的 最简单的方法 按照id来取模即可

一对多情况

例如 一个用户 user(uid) 发表多个帖子 topic(tid,uid)

当帖子数据量过多时,topic需要分表(分库也是同样的原理)

上述两种方案都不完美,虽然可以新增一张表(或索引)来快速定位,但需要经过两次查询,影响效率

这里给出种权衡的方案:

多对多情况

这种情况就比较复杂了,还是要根据具体业务来分表
比如说订单系统中,有买家表 buyer(bid),卖家表 seller(sid),订单表 order(oid,bid,sid)
一般不会根据oid来分库,因为根据oid来查询数据的实际情况很少(买家,卖家至少都会登入一个)
可以适当的数据冗余,根据bid维度,存一个库,同时根据sid维度来存一个库
优势:卖家,买家要查自己订单时候,都能快速定位到具体的库中;
劣势:数据冗余

上一篇下一篇

猜你喜欢

热点阅读