TiDB 同城双中心监控组件高可用方案
作者: Prest13 原文来源:https://tidb.net/blog/44b9b8b1
背景
在双中心部署 tidb dr-auto sync 集群,出于监控的高可用考虑,在物理分离的两个数据中心分别部署独立的 prometheus+alertmanager+grafana,实现任一监控均可访问。
此部署架构需考虑两套监控组件数据采集的一致性,以及监控告警重复发送的问题。
data:image/s3,"s3://crabby-images/98194/9819415f3ae683a4bc82e2dfa7b761aefc51ce13" alt=""
实现思路
两套 Prometheus 组件各自独立进行集群监控信息的采集和存储;
两套 Grafana 连接各自的 Prometheus 作为数据源;
AlertManager 通过集群配置,基于 gossip 机制,在多个 alertmanager 收到相同告警事件后,由其中之一对外发送监控告警信息。
模拟实现
模拟实现的环境
TiDB v7.1.0 LTS
单个集群部署两套监控
调整监控数据链路
grafana 调整 datasource
data:image/s3,"s3://crabby-images/5cce7/5cce7142251629352f0b05b578868d3f2475dd54" alt=""
data:image/s3,"s3://crabby-images/59953/5995336cc1806ed44c830aefa5ee7fc3b8af7d53" alt=""
确认 prometheus 配置,设置 alertmanager 信息
data:image/s3,"s3://crabby-images/03b6e/03b6eedaa4e240bccfe2b386e97f5b852e498c8e" alt=""
登录 alertmanager,确认多个 alertmanager 组成了集群(此处由 tidb 自动完成配置)
data:image/s3,"s3://crabby-images/9dc03/9dc03bdf683107177dfcf6aa8977e9578ba34d9d" alt=""
需复用 haproxy+keepalive 反向代理多个 prometheus,并修改 dashboard 的 prometheus 数据源,以免单个 prometheus 故障后影响 dashboard 的使用
haproxy 配置略
dashboard 配置如下
data:image/s3,"s3://crabby-images/43034/430346735cdb181c23709e9f74fe32b54e6c668f" alt=""
Webhook 实现
编写 webhook 转换为飞书 api 的 golang 程序
略
测试,使用 HTTP 接口测试工具,确认飞书 webhook 小程序接收并解析了相关告警事件
配置 alertmanager webhook
编写 alertmanager 配置文件模板,添加 reciver 及 webhook 定义,存放在 tiup 中控机的路径下
使用 tiup edit-config,添加 alertmanager_server 下的 config_file,路径指向上一步编写的 alertmanager 配置文件
尝试触发告警,确认未产生多条告警
data:image/s3,"s3://crabby-images/ddb83/ddb831a5d2ee54bae3149681541f2c1ab3a95f5c" alt=""
data:image/s3,"s3://crabby-images/96bc5/96bc565fb68767be3ff5a56a8b0f8a996e392f9f" alt=""
data:image/s3,"s3://crabby-images/b7b9b/b7b9bb725195a2f0cc52369c8779a417348489cf" alt=""
关闭其中一个中心的监控组件,确认是否可以正常告警
data:image/s3,"s3://crabby-images/4604f/4604f8f130423e6587d619a75ea2b093c5238aea" alt=""
启动上一步停止的 tidb 组件,确认可以触发告警的恢复
data:image/s3,"s3://crabby-images/b1a6a/b1a6a559b25ac1d8fd3931ff28e564cbb6368f86" alt=""
data:image/s3,"s3://crabby-images/3afa3/3afa32c59357edf6797cf4a5a283fdd75e8c6d4b" alt=""
(此处为 webhook 代码中的错误,未引用恢复时间)
结论
在多中心环境下,除考虑集群本身的高可用功能外,其监控组件同样应具备高可用能力。本文从多中心监控使用及告警整合的维度,尝试构建了集群监控在多中心的高可用部署及实现方案。
如有疑问,欢迎讨论。
参考:
https://www.prometheus.wang/ha/alertmanager-high-availability.html
https://prometheus.io/docs/alerting/latest/overview/
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/adc0a42a9cdd8b2b799b27b8d】。文章转载请联系作者。
评论