写点什么

手把手教你修改 TiDB 监控告警阈值

  • 2024-08-09
    北京
  • 本文字数:578 字

    阅读完需:约 2 分钟

作者: Jasper 原文来源:https://tidb.net/blog/d22a5951

告警阈值重要性

在日常运维过程中,数据库监控告警对于维护数据库系统的稳定性、性能和安全性非常重要。那么如何调整好一个合适的监控告警的阈值就非常重要。 调太高了,会错过重要的告警内容,调太低了,又会被密密麻麻的告警淹没。

TiDB 监控告警架构

  • Prometheus Server:用于收集和存储时间序列数据。

  • Grafana :作为可视化组件将 prometheus 收集到的数据进行展示

  • Alertmanager:用于实现报警机制。


修改告警阈值步骤

  1. 获取 告警规则 rule 文件 ,位置在 prometheus 的 depoly 目录下 conf 目录中




  1. tiup 修改集群配置文件,添加 rule_dir ,注意此处 rule_dir 指定的目录为 tiup 中控机上面的目录



  1. 创建 rule_dir , 并将第一步获取到的 rule 文件拷贝到第二步创建的目录中

  2. 修改告警阈值


此处用 TiDB_tikvclient_backoff_seconds_count 这个指标举例


这个指标属于 tidb 的告警,那么就是要修改 tidb.rules.yml ,此处不清楚想修改的指标含义的可以自行官网搜索。


找到 tidb.rules.yml 中的 对应指标并修改,将 10 修改为你想调整的值。



  1. Reload 监控组件使配置生效


至此,监控告警阈值修改完成


特别提醒


  1. 一定要创建单独的 rule_dir ,不能直接对 prometheus 自带的 rule_dir 进行修改。

  2. 创建的 rule_dir 位置是位于中控机的目录

  3. 建议阈值调整小步慢跑,多次调整。不要一次调整过大或过小,避免丢失重要告警。


发布于: 刚刚阅读数: 2
用户头像

TiDB 社区官网:https://tidb.net/ 2021-12-15 加入

TiDB 社区干货传送门是由 TiDB 社区中布道师组委会自发组织的 TiDB 社区优质内容对外宣布的栏目,旨在加深 TiDBer 之间的交流和学习。一起构建有爱、互助、共创共建的 TiDB 社区 https://tidb.net/

评论

发布
暂无评论
手把手教你修改 TiDB 监控告警阈值_集群管理_TiDB 社区干货传送门_InfoQ写作社区