对线面试官 -Redis 八 | 基于哨兵 HA 的原理

作者：派大星

2023-07-13
辽宁
本文字数：2309 字
阅读完需：约 8 分钟

面试官：之前聊了基于哨兵模式的 Redis 高可用，那哨兵如何部署才能保证故障转移成功呢？

派大星：哨兵集群必须部署 2 个以上节点，如果哨兵集群仅仅部署了 2 个哨兵实例，quorum = 1。

如果 master 宕机， s1 和 s2 中只要有 1 个哨兵认为 master 宕机了，就可以进行切换，同时 s1 和 s2 会选举出一个哨兵来执行故障转移。但是同时这个时候，需要 majority，也就是大多数哨兵都是运行的。

2 个哨兵，majority=2

3 个哨兵，majority=2

4 个哨兵，majority=2

5 个哨兵，majority=3

如果此时仅仅是 M1 进程宕机了，哨兵 s1 正常运行，那么故障转移是 OK 的。但是如果是整个 M1 和 S1 运行的机器宕机了，那么哨兵只有 1 个，此时就没有 majority 来允许执行故障转移，虽然另外一台机器上还有一个 R1，但是故障转移不会执行。

经典的 3 节点哨兵集群是这样的：

配置 quorum=2，如果 M1 所在机器宕机了，那么三个哨兵还剩下 2 个，S2 和 S3 可以一致认为 master 宕机了，然后选举出一个来执行故障转移，同时 3 个哨兵的 majority 是 2，所以还剩下的 2 个哨兵运行着，就可以允许执行故障转移。

面试官：哨兵集群的自动发现机制了解吗？

派大星：这个我知道，哨兵之间的发现其实现方式是通过 Redis 的 pub/sub，每个哨兵都会网__sentinel__:hello这个 channel 里发送一个消息，这个时候所有其它哨兵都可以消费到这个消息，并感知到其它哨兵的存在。

同时，每隔两秒钟，每个哨兵都会往自己监控的某个 master+slave 对应的__sentinel__:hellochannel 里发送一个消息，内容是自己 host、ip 和 runid 还有对这个 master 的监控配置。
每个哨兵也会去监听自己监控的每个 master + slave 对应的__sentinel__:hellochannel，然后去感知到同样在监听这个 master+slave 的其它哨兵的存在
每个视频还会和其它哨兵交换对 master 的监控配置，互相进行监控配置的同步

面试官：不错。有了解 slave 配置的自动纠正吗？

派大星：其实是哨兵会负责自动纠正 slave 的一些配置，比如 slave 如果要成为潜在的 master 候选人，哨兵会确保 slave 复制现有 master 的数据，如果 slave 连接到一个错误的 master 上，比如故障迁移之后，那么哨兵会确保它们连接到正确的 master 上

面试官：那你知道对你的选举算法吗？可以聊一聊 slave 选举为 master 的算法吗？

派大星：如果一个 master 被任务odown了，而且 majority(大多数)的数量的哨兵都允许主备切换，那么某个哨兵就会执行主备切换操作，此时首先要选举一个 slave 来，当然如果一个 slave 与 master 断开连接的时间已经超过了down-after-milliseconds的 10 倍，那么 slave 就会被认为不适合选举为 master

(down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state

复制代码

具体 slave 排序规则如下：

首先按照 slave 的优先级排序，slave priority 越低，优先级越高
如果 slave priority 相同，那么看 replica offset，哪个 slave 复制了越多的数据，offset 越靠后，优先级则就越高
如果上两个条件都相同，那么选择一个 run id 比较小的那个 slave。

面试官：好的，刚刚有提到odown什么是odown，能简单解释以下吗？

派大星：可以，

odown 是客观宕机，如果 quorum 数量的哨兵都觉得一个 master 宕机了，那么就是客观宕机
sdown 是主观宕机，就一个哨兵如果自己都觉得一个 master 宕机了，那么就是主管宕机。

简单来说 sdown 达成的条件很简单，如果一个哨兵 ping 一个 master，超过了is-master-down-after-milliseconds指定的毫秒数之后，就主观认为 master 宕机了；如果一个哨兵在指定时间内，收到了 quorum 数量的其它哨兵也认为那个 master 是 sdown 的，那么就是认为是 odown 了。

面试官：好的上面看你有提到 quorum 和 majority，这两个能解释以下吗？

派大星：可以的，首先每一次哨兵要做主备切换，首先需要 quorum 数量的哨兵认为 odown，然后选举出一个哨兵来切换，这个哨兵还需要得到 majority 哨兵的授权才可以进行切换。

如果当 quorum < majority，比如 5 个哨兵，majority 就是 3，quorum 设置为 2，那么就 3 个哨兵授权就可以执行切换。

但是如果 quorum >= majority，那么必须 quorum 数量的哨兵都授权，比如 5 个哨兵，quorum 是 5，那么必须 5 个哨兵都同意授权，才能执行切换。

面试官：了解 configuration epoch 吗？

派大星：哨兵会对一套 redis master+slaves 进行监控，有相应的监控的配置。

执行切换的那个哨兵，会从要切换到的新 master（salve->master）那里得到一个 configuration epoch，这就是一个 version 号，每次切换的 version 号都必须是唯一的。

如果第一个选举出的哨兵切换失败了，那么其他哨兵，会等待 failover-timeout 时间，然后接替继续执行切换，此时会重新获取一个新的 configuration epoch，作为新的 version 号。

面试官：了解 configuration 传播吗？

派大星：哨兵完成切换之后，会在自己本地更新生成最新的 master 配置，然后同步给其他的哨兵，就是通过之前说的 pub/sub 消息机制。

这里之前的 version 号就很重要了，因为各种消息都是通过一个 channel 去发布和监听的，所以一个哨兵完成一次新的切换之后，新的 master 配置是跟着新的 version 号的。其他的哨兵都是根据版本号的大小来更新自己的 master 配置的。configuration 传播

哨兵完成切换之后，会在自己本地更新生成最新的 master 配置，然后同步给其他的哨兵，就是通过之前说的 pub/sub 消息机制。这里之前的 version 号就很重要了，因为各种消息都是通过一个 channel 去发布和监听的，所以一个哨兵完成一次新的切换之后，新的 master 配置是跟着新的 version 号的。其他的哨兵都是根据版本号的大小来更新自己的 master 配置的。

面试官：非常不错，我对你这边的情况还是比较满意的。

派大星：谢谢。

如有问题，欢迎加微信交流：w714771310，或关注微信公众号【码上遇见你】。

发布于: 刚刚阅读数: 5