作为分布式服务框架,我用大白话给你解释 Zookeeper 的选举机制!
在整个投票过程中我们可以提炼出四个最核心的概念:
候选人能力
:投票的基本原则是选最强的人。遇强改投
:如果后面发现更强的人可以改投票。投票箱
:所有人的票都会放在投票箱。领导者
:得票最多的人即为领导者。
从人类选举的原理我们来简单推导一下 Zookeep
er 的选举原理。
Zookeeper 选举的基本原理
注意如果 Zookeeper 是单机部署是不需要选举的,集群模式下才需要选举。
Zookeeper 的选举原理和人类选举的逻辑类似,套用一下人类选举的四个基本概念详细解释一下 Zookeeper。
个人能力
如何衡量 Zookeeper 节点个人能力?答案是靠数据是否够新
,如果节点的数据越新就代表这个节点的个人能力越强,是不是感觉很奇怪,就是这么定的!
在 Zookeeper 中通常是以事务 id(后面简称zxid
)来标识数据的新旧程度(版本),节点最新的 zxid 越大代表这个节点的数据越新,也就代表这个节点能力越强。
zxid 的全称是
ZooKeeper Transaction Id
,即 Zookeeper 事务 id。
遇强改投
在集群选举开始时,节点首先认为自己时最强的(即数据是最新的),然后在选票上写上自己的名字(包括zxid
和sid
),zxid 是事务 id,sid 唯一标识自己。
紧接着会将选票传递给其他节点,同时自己也会接收其他节点传过来的选票。每个节点接收到选票后会做比较,这个人是不是比我强(zxid 比我大),如果比较强,那我就需要改票
,明明别人比我强,我也不能厚着脸皮对吧。
投票箱
与人类选举投票箱稍微有点不一样,Zookeeper 集群会在每个节点的内存中维护一个投票箱。节点会将自己的选票以及其他节点的选票都放在这个投票箱中。由于选票时互相传阅的,所以最终每个节点投票箱中的选票会是一样的。
领导者
在投票的过程中会去统计是否有超过一半的选票和自己选择的是同一个节点,即都认为某个节点是最强的。一旦集群中有超过半数
的节点都认为某个节点最强,那该节点就是领导者了,投票也宣告结束。
什么场景下 Zookeeper 需要选举?
当 Zookeeper 集群中的一台服务器出现以下两种情况之一时,需要进入 Leader 选举
。
(1)服务器初始化启动。
(2)服务器运行期间 Leader 故障。
启动时期的 Leader 选举
假设一个 Zookeeper 集群中有 5 台服务器,id 从 1 到 5 编号,并且它们都是最新启动的,没有历史数据。
假设服务器依次启动,我们来分析一下选举过程:
(1)服务器 1 启动
发起一次选举,服务器 1 投自己一票,此时服务器 1 票数一票,不够半数以上(3 票),选举无法完成。
投票结果:服务器 1 为 1 票。
服务器 1 状态保持为LOOKING
。
(2)服务器 2 启动
发起一次选举,服务器 1 和 2 分别投自己一票,此时服务器 1 发现服务器 2 的 id 比自己大,更改选票投给服务器 2。
投票结果:服务器 1 为 0 票,服务器 2 为 2 票。
服务器 1,2 状态保持LOOKING
(3)服务器 3 启动
发起一次选举,服务器 1、2、3 先投自己一票,然后因为服务器 3 的 id 最大,两者更改选票投给为服务器 3;
投票结果:服务器 1 为 0 票,服务器 2 为 0 票,服务器 3 为 3 票。 此时服务器 3 的票数已经超过半数(3 票),服务器 3 当选Leader
。
服务器 1,2 更改状态为FOLLOWING
,服务器 3 更改状态为LEADING
。
(4)服务器 4 启动
发起一次选举,此时服务器 1,2,3 已经不是 LOOKING 状态,不会更改选票信息。交换选票信息结果:服务器 3 为 3 票,服务器 4 为 1 票。此时服务器 4 服从多数,更改选票信息为服务器 3。
服务器 4 并更改状态为FOLLOWING
。
(5)服务器 5 启动
与服务器 4 一样投票给 3,此时服务器 3 一共 5 票,服务器 5 为 0 票。
服务器 5 并更改状态为FOLLOWING
。
最终的结果:
服务器 3 是 Leader
,状态为 LEADING
;其余服务器是 Follower
,状态为 FOLLOWING
。
运行时期的 Leader 选举
在 Zookeeper 运行期间 Leader
和 非 Leader
各司其职,当有非 Leader 服务器宕机或加入不会影响 Leader,但是一旦 Leader 服务器挂了,那么整个 Zookeeper 集群将暂停对外服务,会触发新一轮的选举。
初始状态下服务器 3 当选为Leader
,假设现在服务器 3 故障宕机了,此时每个服务器上 zxid 可能都不一样,server1 为 99,server2 为 102,server4 为 100,server5 为 101
运行期选举与初始状态投票过程基本类似,大致可以分为以下几个步骤:
(1)状态变更。Leader 故障后,余下的非 Observer
服务器都会将自己的服务器状态变更为LOOKING
,然后开始进入Leader选举过程
。
(2)每个 Server 会发出投票。
(3)接收来自各个服务器的投票,如果其他服务器的数据比自己的新会改投票。
(4)处理和统计投票,没一轮投票结束后都会统计投票,超过半数即可当选。
(5)改变服务器的状态,宣布当选。
评论