写点什么

K8s 集群 CoreDNS 监控告警最佳实践

  • 2024-01-24
    广东
  • 本文字数:1775 字

    阅读完需:约 6 分钟

K8s集群CoreDNS监控告警最佳实践

本文分享自华为云社区《K8s集群CoreDNS监控告警最佳实践》,作者:可以交个朋友。

一 背景


coreDNS 作为 K8s 集群中的关键组成部分。主要负责 k8s 集群中的服务发现,域名解析等功能。如果在使用过程中出现域名解析失败,域名解析超时等情况,需要引起注意。

二 方案简介


可以通过 CCE 集群插件 kube-prometheus-stack 进行 coreDNS 服务的指标监控,并提供开箱即用的仪表盘视图。时刻观察 coreDNS 的各项运行指标是否处于健康状态。


【加一下怎么到这个图的,选监控-仪表盘】



CCE 普罗监控数据统一吐到华为云 AOM2.0 服务,可以在 AOM2.0 服务中根据展示各种普罗指标数据,并根据业务实际诉求,实现基于指标的的告警通知。


【CCE 普罗对接哪个 AOM 实例】


【加一个 AOM2.0 图,可以看到 AOM 实例指标数据】

三 coreDNS 关键指标


确保 Prometheus 已经成功抓取 coreDNS 相关指标



  • coreDNS 请求速率: sum(rate(coredns_dns_requests_total{}[5m])) by (proto,instance)

  • coreDNS 请求速率(记录类型分组): sum(rate(coredns_dns_requests_total{}[5m])) by (type,instance)

  • coreDNS 请求速率(DO 标志位): sum(rate(coredns_dns_do_requests_total{}[5m])) by (instance)

  • coreDNS UDP 请求数据包大小:P99: histogram_quantile(0.99,sum(rate(coredns_dns_request_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))P90:histogram_quantile(0.90,sum(rate(coredns_dns_request_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))P50:histogram_quantile(0.50,sum(rate(coredns_dns_request_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))

  • coreDNS TCP 请求数据包大小:P99: histogram_quantile(0.99,sum(rate(coredns_dns_request_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))P90:histogram_quantile(0.90,sum(rate(coredns_dns_request_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))P50:histogram_quantile(0.50,sum(rate(coredns_dns_request_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))

  • coreDNS 响应速率(根据响应状态码分组): sum(rate(coredns_dns_responses_total{}[5m])) by(rcode,instance)

  • coreDNS 响应时延:P99: histogram_quantile(0.99,sum(rate(coredns_dns_request_duration_seconds_bucket{}[5m])) by(le,job,instance))P90:histogram_quantile(0.90,sum(rate(coredns_dns_request_duration_seconds_bucket{}[5m])) by(le,job,instance))P50:histogram_quantile(0.50,sum(rate(coredns_dns_request_duration_seconds_bucket{}[5m])) by(le,job,instance))

  • coreDNS UDP 响应数据包大小:P99: histogram_quantile(0.99,sum(rate(coredns_dns_response_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))P90:histogram_quantile(0.90,sum(rate(coredns_dns_response_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))P50:histogram_quantile(0.50,sum(rate(coredns_dns_response_size_bytes_bucket{proto="udp"}[5m])) by(le,proto,instance))

  • coreDNS TCP 响应数据包大小 P99: histogram_quantile(0.99,sum(rate(coredns_dns_response_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))P90:histogram_quantile(0.90,sum(rate(coredns_dns_response_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))P50:histogram_quantile(0.50,sum(rate(coredns_dns_response_size_bytes_bucket{proto="tcp"}[5m])) by(le,proto,instance))

  • coreDNS 缓存的 DNS 记录数: sum (coredns_cache_entries{}) by(type,instance)

  • coreDNS 缓存命中率:sum (rate(coredns_cache_hits_total{}[5m])) by (type,instance)

  • coreDNS 缓存丢失率:sum (rate(coredns_cache_misses_total{}[5m])) by (type,instance)


其中主要关注:p99coreDNS 响应时延coreDNS 请求速率coreDNS 缓存命中率指标,其中 p99coreDNS 响应时延基于域名解析超时时间一般为 2s,可以初步设置高级阈值为 1s,后续再根据实际监控数据根据指标进一步设置一个更加精细阈值。

四: 如何根据 coreDNS 指标进行告警


前往 AOM 告警管理 tab 页


【怎么导入这个图】


配置告警规则


选择指标告警规则,配置方式可使用 PromQL 语句



配置告警通知规则



触发指标告警规则,邮箱收到告警



点击关注,第一时间了解华为云新鲜技术~

发布于: 5 小时前阅读数: 2
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
K8s集群CoreDNS监控告警最佳实践_开发_华为云开发者联盟_InfoQ写作社区