使用 Prometheus-Operator 监控 Calico
Calico
中最核心的组件就是 Felix
,它负责设置路由表和 ACL 规则等,以便为该主机上的 endpoints 资源正常运行提供所需的网络连接。同时它还负责提供有关网络健康状况的数据(例如,报告配置其主机时发生的错误和问题),这些数据会被写入 etcd,以使其对网络中的其他组件和操作人员可见。
由此可见,对于我们的监控来说,监控 Calico 的核心便是监控 Felix
,Felix
就相当于 Calico 的大脑。本文将学习如何使用 Prometheus-Operator
来监控 Calico。
本文不会涉及到
Calico
和Prometheus-Operator
的部署细节,如果不知道如何部署,请查阅官方文档和相关博客。
1. 配置 Calico 以启用指标
默认情况下 Felix 的指标是被禁用的,必须通过命令行管理工具 calicoctl
手动更改 Felix 配置才能开启,需要提前配置好命令行管理工具。
本文使用的 Calico 版本是 v3.15.0
,其他版本类似。先下载管理工具:
接下来需要设置 calicoctl 配置文件(默认是 /etc/calico/calicoctl.cfg
)。如果你的 Calico 后端存储使用的是 Kubernetes API
,那么配置文件内容如下:
如果 Calico 后端存储使用的是 etcd
,那么配置文件内容如下:
你需要将其中的证书路径换成你的 etcd 证书路径。
配置好了 calicoctl
之后就可以查看或修改 Calico 的配置了,先来看一下默认的 Felix
配置:
可以看到默认的配置中没有启用指标,需要手动修改配置,命令如下:
Felix
暴露指标的端口是 9091
,可通过检查监听端口来验证是否开启指标:
2. Prometheus 采集 Felix 指标
启用了 Felix
的指标后,就可以通过 Prometheus-Operator
来采集指标数据了。Prometheus-Operator 在部署时会创建 Prometheus
、PodMonitor
、ServiceMonitor
、AlertManager
和 PrometheusRule
这 5 个 CRD 资源对象,然后会一直监控并维持这 5 个资源对象的状态。其中 Prometheus
这个资源对象就是对 Prometheus Server 的抽象。而 PodMonitor
和 ServiceMonitor
就是 exporter
的各种抽象,是用来提供专门提供指标数据接口的工具,Prometheus 就是通过 PodMonitor
和 ServiceMonitor
提供的指标数据接口去 pull
数据的。
ServiceMonitor
要求被监控的服务必须有对应的 Service
,而 PodMonitor
则不需要,本文选择使用 PodMonitor
来采集 Felix 的指标。
PodMonitor
虽然不需要应用创建相应的 Service
,但必须在 Pod 中指定指标的端口和名称,因此需要先修改 DaemonSet calico-node
的配置,指定端口和名称。先用以下命令打开 DaemonSet calico-node
的配置:
然后在线修改,在 spec.template.sepc.containers
中加入以下内容:
创建 Pod 对应的 PodMonitor
:
有几个参数需要注意:
PodMonitor 的 name 最终会反应到 Prometheus 的配置中,作为
job_name
。
podMetricsEndpoints.port
需要和被监控的 Pod 中的ports.name
相同,此处为http-metrics
。namespaceSelector.matchNames
需要和被监控的 Pod 所在的 namespace 相同,此处为kube-system
。selector.matchLabels
的标签必须和被监控的 Pod 中能唯一标明身份的标签对应。
最终 Prometheus-Operator 会根据 PodMonitor
来修改 Prometheus 的配置文件,以实现对相关的 Pod 进行监控。可以打开 Prometheus 的 UI 查看监控目标:
注意 Labels 中有 pod="calico-node-xxx"
,表明监控的是 Pod。
3. 可视化监控指标
采集完指标之后,就可以通过 Grafana
的仪表盘来展示监控指标了。Prometheus-Operator
中部署的 Grafana 无法实时修改仪表盘的配置(必须提前将仪表盘的 json 文件挂载到 Grafana Pod 中),而且也不是最新版(7.0
以上版本),所以我选择删除 Prometheus-Operator 自带的 Grafana,自行部署 helm 仓库中的 Grafana。先进入 kube-prometheus
项目的 manifests
目录,然后将 Grafana 相关的部署清单都移到同一个目录下,再删除 Grafana:
然后通过 helm
部署最新的 Grafana:
访问 Grafana 的密码保存在 Secret
中,可以通过以下命令查看:
对密码进行解密:
解密出来的信息就是访问密码。用户名是 admin
。通过用户名和密码登录 Grafana 的 UI:
添加 Prometheus-Operator 的数据源:
Calico 官方没有单独 dashboard json,而是将其放到了 ConfigMap 中,我们需要从中提取需要的 json,提取出 felix-dashboard.json
的内容,然后将其中的 datasource
值替换为 prometheus
。你可以用 sed
替换,也可以用编辑器,大多数编辑器都有全局替换的功能。如果你实在不知道如何提取,可以使用我提取好的 json。
修改完了之后,将 json 内容导入到 Grafana:
最后得到的 Felix
仪表盘如下图所示:
如果你对我截图中 Grafana 的主题配色很感兴趣,可以参考这篇文章:Grafana 自定义主题。
版权声明: 本文为 InfoQ 作者【米开朗基杨】的原创文章。
原文链接:【http://xie.infoq.cn/article/d453b6d863a4cc99d57947b40】。文章转载请联系作者。
评论