TiDB 监控 Prometheus 磁盘内存问题
作者: 18515065291 原文来源:https://tidb.net/blog/4a40cf8f
TiDB 监控 Prometheus 磁盘内存问题
–2022-01-20 春雷
1、问题
问题: TiDB 的 Prometheus 节点,磁盘报警,内存报警
受影响版本 :5.0.x - 5.2.x
现象 :偶发,目前我们集群碰到 2 个集群有此问题
2、分析
2.1、现象
【基本信息】:
【现象 - 内存占用高】:
【现象 - 磁盘占用大】:
【现象 -prometheus】:
prometheus 会 oom 重启
3、处理
【修改 prometheus 的配置】:
cd /opt/soft/tidbxxx/prometheus-xxx/conf
vim prometheus.yml
找到 job_name: “tikv” 处:添加
metric_relabel_configs:
source_labels: [name]
separator: ;
regex: tikv_thread_nonvoluntary_context_switches|tikv_thread_voluntary_context_switches|tikv_threads_io_bytes_total
action: drop
source_labels: [name,name]
separator: ;
regex: tikv_thread_cpu_seconds_total;(tokio|rocksdb).+
action: drop
如下图:
【重启 prometheus】:
tiup cluster restart xxx–node xxx:xxx
【效果 - 内存使用降低】:
【效果 - 磁盘使用降低】:
【说明】:
方案 :此方案为临时解决方案
情况 :prometheus 的版本也比较老了,新版本支持 wal 的压缩
–storage.tsdb.wal-compression:此标志启用预写日志(WAL)的压缩。根据您的数据,您可以预期 WAL 大小将减少一半,而额外的 CPU 负载却很少。此标志在 2.11.0 中引入,默认情况下在 2.20.0 中启用。请注意,一旦启用,将 Prometheus 降级到 2.11.0 以下的版本将需要删除 WAL。
后续 :
TiDB 会彻底解决此问题
prometheus 的版本后面也会升级
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/2ffd3932242d378a4b2765236】。文章转载请联系作者。
评论