手把手教你修改 TiDB 监控告警阈值
作者: Jasper 原文来源:https://tidb.net/blog/d22a5951
告警阈值重要性
在日常运维过程中,数据库监控告警对于维护数据库系统的稳定性、性能和安全性非常重要。那么如何调整好一个合适的监控告警的阈值就非常重要。 调太高了,会错过重要的告警内容,调太低了,又会被密密麻麻的告警淹没。
TiDB 监控告警架构
Prometheus Server:用于收集和存储时间序列数据。
Grafana :作为可视化组件将 prometheus 收集到的数据进行展示
Alertmanager:用于实现报警机制。
修改告警阈值步骤
获取 告警规则 rule 文件 ,位置在 prometheus 的 depoly 目录下 conf 目录中
tiup 修改集群配置文件,添加 rule_dir ,注意此处 rule_dir 指定的目录为 tiup 中控机上面的目录
创建 rule_dir , 并将第一步获取到的 rule 文件拷贝到第二步创建的目录中
修改告警阈值
此处用 TiDB_tikvclient_backoff_seconds_count 这个指标举例
这个指标属于 tidb 的告警,那么就是要修改 tidb.rules.yml ,此处不清楚想修改的指标含义的可以自行官网搜索。
找到 tidb.rules.yml 中的 对应指标并修改,将 10 修改为你想调整的值。
Reload 监控组件使配置生效
至此,监控告警阈值修改完成
特别提醒
一定要创建单独的 rule_dir ,不能直接对 prometheus 自带的 rule_dir 进行修改。
创建的 rule_dir 位置是位于中控机的目录
建议阈值调整小步慢跑,多次调整。不要一次调整过大或过小,避免丢失重要告警。
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/db6ba4a8515c000640742e394】。文章转载请联系作者。
评论