如何解决 “主节点故障恢复的自动化” 问题？

作者：八点半的Bruce.D

2022 年 8 月 11 日
北京
本文字数：2701 字
阅读完需：约 9 分钟

作者：Bruce.D

github：https://github.com/doukoi-BDB

文章底部有【福利 &通知】，不定更新活动、源码，欢迎来撩~~~

今日主题：

1、恢复主节点的故障，通过 redis 自动化哨兵的方式

2、预计阅读 6 分钟，正文 2700 字。

一、开场介绍

hello，八点半的铁友们，其实在讲文章内容之前，我们先简单来知晓一下，哨兵是什么？用在哪里？等等一系列。这样我们先做一层铺垫，在后续的理解起来会更加容易，快似飞起般的感觉～～～

我们来以 Q&A 的回答方式先来了解一些基础内容

Q：哨兵是什么？

A：网上说：哨兵是一种运行模式；其实可以理解哨兵就是一个进程，因此会独立运行。

Q：哨兵原理 &用在何处？

A：网上说：主节点出现故障，redis 进行通知、转移，来实现高可用；其实可以白话文理解为：哨兵就是通过发送命令，等待 redis 服务响应，从而监控运行 redis 多个实例。

Q：哨兵的应用场景是？

A：主服务器宕机了，那么需要人工处理切换服务器，这多麻烦，还影响业务服务。因此哨兵它来了，带着高可用慢慢的走来了，实现了自动化。

Q：哨兵是怎么使用的？

A：你猜猜难道是....对，就是通过配置的，操作核心的 redis.conf 文件等若干文件

二、实战操作

通过上述开场的基础介绍，想必我们脑子里已经有对哨兵有个相对闭环的了解了吧。话不多说，兄弟们上操作，有不足地方欢迎评论区探讨 &指出你认为应该改变的地方～～～

毕竟刚开始操作，我们就不要想太复杂，我们就简单来一波哨兵系统。

1、准备一台服务器即可（有 money 的准备 3～4 台，换着玩😂），准备一台的玩家需要注意，我们使用端口来区分滴哈。

2、按照网上教程的来，那我们也部署 1 个主 2 个从 2 个哨兵，跟着大佬走，幸福到长久～～～

3、开始部署主 &从节点，配置一样哈，没有特殊化，不需要额外关注其他配置，可以看我插入的代码配置，代码中会标注细节点。

#redis.conf - 这里是主节点，port端口给了一个6379port 6379#守护线程,默认是NOdaemonize yeslogfile "6379.log"dbfilename "dump-6379.rdb" #redis-6300.conf - 这里是从节点，port端口给了一个6300port 6300#守护线程,默认是NOdaemonize yeslogfile "6300.log"dbfilename "dump-6300.rdb"slaveof 192.168.1.1 6379 - 192.168.1.1（模拟服务器ip） #redis-6301.conf - 这里是从节点，port端口给了一个6301port 6301#守护线程,默认是NOdaemonize yeslogfile "6301.log"dbfilename "dump-6301.rdb"slaveof 192.168.1.1 6379 - 192.168.1.1（模拟服务器ip）

复制代码

4、配置就这么愉快的完了，上述代码很详细，还是不懂评论区见，那么接下来需要做什么？

当然是：依次启动 redis 服务的主节点、从节点～～～

redis-server redis-6379.confredis-server redis-6300.confredis-server redis-6301.conf

复制代码

5、启动后，那么我们来个命令看下状态即可，下图标注的命令会有解释：

192.168.1.1:6379> info replication# Replication# 角色role:master# 从节点的连接数connected_slaves:2# 从节点详细信息 IP PORT 状态 命令(单位:字节长度)偏移量 延迟秒数# 主节点每次处理完写操作，会把命令的字节长度累加到master_repl_offset中。# 从节点在接收到主节点发送的命令后，会累加记录偏移量信息slave_repl_offset，同时，也会每秒钟上报自身的复制偏移量到主节点，以供主节点记录存储。# 在实际应用中，可以通过对比主从复制偏移量信息来监控主从复制健康状况。slave0:ip=192.168.1.1,port=6300,state=online,offset=236,lag=1slave1:ip=192.168.1.1,port=6301,state=online,offset=236,lag=0# master启动时生成的40位16进制的随机字符串，用来标识master节点master_replid:acc2aaa1f0bb0fd79d7d3302f16bddcbe4add423master_replid2:0000000000000000000000000000000000000000# master 命令(单位:字节长度)已写入的偏移量master_repl_offset:23866second_repl_offset:-1# 0/1：关闭/开启复制积压缓冲区标志(2.8+)，主要用于增量复制及丢失命令补救repl_backlog_active:1# 缓冲区最大长度，默认 1Mrepl_backlog_size:1048576# 缓冲区起始偏移量repl_backlog_first_byte_offset:1# 缓冲区已存储的数据长度repl_backlog_histlen:23866

复制代码

6、接下来我们配置哨兵的配置，也是大家关注点之一，哨兵的配置简化版，端口区分：

#sentinel-26000.confport 26000#守护线程,默认是NOdaemonize yeslogfile "26000.log"#sentinel monitor mymaster 配置的含义是：#该哨兵节点监控192.168.1.1:6379这个主节点，该主节点的名称是mymaster；#最后2含义与主节点的故障判定有关：至少需要2个哨兵节点同意，才能判定主节点故障并进行故障转移。sentinel monitor mymaster 192.168.1.1 6379 2

复制代码

7、启动哨兵节点

#redis sentinel 是哨兵的英文名redis-server sentinel-26000.conf --sentinel

复制代码

8、全部结束，这个时候整个系统就开始运行了，这个时候想要验证，我们可以通过一个命令来看：

通过redis-cli连接哨兵节点：info sentinel
#sentinelsentinel_master:1sentinel_tilt:0sentinel_running_scripts:0sentinel_scripts_queue_length:0#看到这里主节点名称，以及状态，以及地址，以及从节点数量，哨兵数量master0:name=myaster,status=ok,address=192.168.1.1:6379,salves:2,sentinel:3

复制代码

9、这个时候，我们也可以看下哨兵的配置文件，例如：

打开 sentinel-26000.conf 文件目录，从这里可以看到哨兵已经发现从节点与其他哨兵的一个存在。

复制代码

10、整个配置过程就结束了，我个人建议可以玩玩，挺不错的。

三、总结

兄弟姐妹们能看到现在，必须给个赞👍。基础内容看了，配置也教了；但是整体感觉还差点，那么就对了，还差一波总结，总结就是精华 &核心。看一篇文章，总结一定要看呐，过来人～～～

总结列举：

1、哨兵，又名（redis sentinel），独立运行，进程方式。

2、哨兵，自动化监控服务、切换主从节点，恢复故障。

3、哨兵，也有单点问题，也可以搞集群。

4、哨兵，每秒钟/次的频率向它的 master，salve 以及其他哨兵实例发送一个 ping 命令。

5、哨兵，监控记录，可以查看哨兵所对应的 conf 文件。

6、哨兵，配置种出现 epoch 的参数，是一个从 0 开始的计数器，选举机制。

7、哨兵，故障发现和转移是由哨兵来控制和完成的。

8、哨兵，节点本质上是 redis 节点。

9、哨兵，可以监控多个主节点，通过配置多 sentinel monitor 即可实现。

四、下期预告

下期预告：故障如何转移？它是如何运行 &切换的呢？

感谢各位的阅览 &关注，如果感觉对您或者周围的人不管在面试中还是实际学习中，如有所帮助，欢迎点赞、转发，谢谢。

有任何疑问🤔️或后续想要了解的内容点，欢迎评论区留言，我来帮助你梳理 &总结，你来读。

发布于: 刚刚阅读数: 3

原文链接:【http://xie.infoq.cn/article/147fb4952cec11c29bb563121】。文章转载请联系作者。

八点半的Bruce.D

关注

还未添加个人签名 2021.06.23 加入

欢迎订阅「八点半技术站」 Bruce.D、在北漂中，可交友可聊 GitHub仓库：https://github.com/doukoi-BDB 关注号主，看一个不一样的故事。关注号主、加入社群；一起赚钱，一起成长。

发布

暂无评论

创作场景

如何解决 “主节点故障恢复的自动化” 问题？

一、开场介绍

二、实战操作

三、总结

四、下期预告

八点半的Bruce.D

评论