Operator 安装 TiDB 监控告警
作者:TiDB 社区干货传送门
- 2024-04-26 北京
本文字数:4514 字
阅读完需:约 15 分钟
作者: WalterWj 原文来源:https://tidb.net/blog/76d17a85
安装 Monitor
确定 pv
找个 pv 给监控使用落盘
kubectl get pv |grep Available
local-pv-30334450 196Gi RWO Delete Available backup-storage <unset> 3h12m
local-pv-4d58327b 196Gi RWO Delete Available backup-storage <unset> 3h50m
local-pv-674f6f25 196Gi RWO Delete Available backup-storage <unset> 3h12m
local-pv-6c36381 196Gi RWO Delete Available monitoring-storage <unset> 3h12m
local-pv-7c4c943 196Gi RWO Delete Available monitoring-storage <unset> 3h50m
local-pv-994a98e5 196Gi RWO Delete Available log-storage <unset> 3h1m
local-pv-b8a30e00 196Gi RWO Delete Available monitoring-storage <unset> 3h12m
复制代码
这里使用 monitoring-storage
install yaml
cat > monitor-deploy.yaml << EOF
apiVersion: pingcap.com/v1alpha1
kind: TidbMonitor
metadata:
name: tidb-monitor
spec:
clusters:
- name: tidb-wj
persistent: true
storageClassName: monitoring-storage
storage: 196Gi
prometheus:
baseImage: prom/prometheus
version: v2.27.1
service:
type: NodePort
grafana:
baseImage: grafana/grafana
version: 7.5.11
service:
type: NodePort
initializer:
baseImage: pingcap/tidb-monitor-initializer
version: v7.5.1
reloader:
baseImage: pingcap/tidb-monitor-reloader
version: v1.0.1
prometheusReloader:
baseImage: quay.io/prometheus-operator/prometheus-config-reloader
version: v0.49.0
imagePullPolicy: IfNotPresent
EOF
kubectl apply -f monitor-deploy.yaml -n tidb
复制代码
这里修改了:
metadata:
name: tidb-monitor
spec:
clusters:
- name: tidb-wj
storageClassName: monitoring-storage
storage: 196Gi
initializer:
baseImage: pingcap/tidb-monitor-initializer
version: v7.5.1
复制代码
查看:
$ kubectl get tm -n tidb
NAME AGE
tidb-monitor 47s
$ kubectl get all -n tidb | grep monitor
pod/tidb-monitor-monitor-0 0/4 PodInitializing 0 77s
service/tidb-monitor-grafana NodePort 10.104.117.189 <none> 3000:30420/TCP 77s
service/tidb-monitor-monitor-reloader ClusterIP 10.105.192.205 <none> 9089/TCP 77s
service/tidb-monitor-prometheus NodePort 10.97.132.11 <none> 9090:30236/TCP 77s
statefulset.apps/tidb-monitor-monitor 0/1 77s
# 去对应 PV 节点可以看到:
$ tree /k8s-monitor/mount/
/k8s-monitor/mount/
├── grafana
│ ├── grafana.db
│ └── png
├── latest-rules
│ └── tidb:v7.5.1
└── prometheus
├── chunks_head
│ └── 000001
├── lock
├── queries.active
└── wal
└── 00000000
7 directories, 5 files
复制代码
通过访问 10.104.117.189:3000
即可访问监控
开启 ngmonitor
# 修改配置
cat << EOF | kubectl apply -n tidb -f -
apiVersion: pingcap.com/v1alpha1
kind: TidbNGMonitoring
metadata:
name: tidb-ngmonitor
spec:
clusters:
- name: tidb-wj
namespace: tidb
ngMonitoring:
requests:
storage: 196Gi
version: v7.5.1
storageClassName: monitoring-storage
baseImage: pingcap/ng-monitoring
EOF
$ kubectl get all -n tidb |grep ngmonitor
pod/tidb-ngmonitor-ng-monitoring-0 0/1 ContainerCreating 0 13s
service/tidb-ngmonitor-ng-monitoring ClusterIP None <none> 12020/TCP 13s
statefulset.apps/tidb-ngmonitor-ng-monitoring 0/1 13s
复制代码
开启后,在 pd dashboard 中就能看 top SQL 等面板。
配置告警
独立部署 altermanager 服务
配置编辑
在 k8s 中装一个 alertmanager 服务
使用邮箱告警
ns 为 monitor
使用 kubectl apply -f alertmanager.yaml 方式来安装
kubectl create ns monitor
# 编辑 altermanager 的告警配置
## 1. 编辑一个有想告警配置:
cat > alertmanager.yaml << EOF
global:
# 设置SMTP服务器的主机名和端口。Alertmanager 会通过这个服务器发送邮件。
smtp_smarthost: "smtp.qq.com:465" # 替换为您的SMTP服务器地址和端口
# 设置发送者的邮箱地址。这将显示在邮件的“发件人”字段中。
smtp_from: "xxx@qq.com" # 更改为实际的发件人邮箱地址
# 如果SMTP服务器需要身份验证,提供用户名。
smtp_auth_username: "xxx@qq.com" # SMTP服务器的认证用户名
# 提供SMTP服务器的密码。
smtp_auth_password: "xxx" # SMTP服务器的认证密码
# 如果SMTP服务器要求TLS连接,请取消这行的注释。
smtp_require_tls: true
route:
# 设置默认接收器名称,这里我们指向下方定义的邮件接收器。
receiver: "blackhole"
# 定义如何将进入的告警分组。告警将根据这些标签进行分组。
group_by: ["env", "instance", "alertname", "type", "group", "job"]
# 设置Alertmanager在发送初始通知之前等待的时间,目的是将短时间内的多个告警批量化。
group_wait: 30s
# 设置Alertmanager在首次通知发送后,等待多久发送该组新的告警。
group_interval: 3m
# 设置Alertmanager在成功发送告警后,重新发送通知之前的等待时间。
repeat_interval: 3m
routes: # 这里就是配置子 route 节点
- match_re:
level: "^(critical|emergency)$" # 表示匹配级别为“emergency”和“critical”的告警
receiver: db-alert-email # 级别为“emergency”和“critical”的告警都发送给 pingcap-alert
continue: false # 表示告警是否继续对后面的 route 节点进行匹配,默认值就是 false,false 表示不继续匹配
receivers:
# 定义名为"db-alert-email"的接收器,用于发送电子邮件通知。
- name: "db-alert-email"
email_configs:
- to: "xxx@qq.com" # 收件人邮箱地址,替换为实际接收告警的邮箱
send_resolved: true # 告警解决后也发送通知,确保你了解到问题已解决
require_tls: false
# 黑洞接收器,它实际上不会发送任何告警。可以用作默认接收器,确保没有未配置接收器的告警不会发送出去。
- name: "blackhole"
EOF
## 加密
base64 -w 0 alertmanager.yaml > encoded.txt
## 2. 将文件加密,将加密内容输入到 | 下面
cat > alertmanager-config.yaml << EOF
apiVersion: v1
kind: Secret
metadata:
name: alertmanager-config
namespace: monitor
type: Opaque
data:
alertmanager.yaml: |
# 这里填写 encoded.txt 内容,yaml 格式规范
EOF
# 部署 yaml
cat > alertmanager-deployment.yaml << EOF
apiVersion: apps/v1
kind: Deployment
metadata:
name: alertmanager
namespace: monitor
spec:
replicas: 1
selector:
matchLabels:
app: alertmanager
template:
metadata:
labels:
app: alertmanager
spec:
containers:
- name: alertmanager
image: prom/alertmanager:v0.21.0
args:
- "--config.file=/etc/alertmanager/alertmanager.yaml"
- "--storage.path=/alertmanager"
- "--log.level=info"
ports:
- containerPort: 9093
volumeMounts:
- name: config-volume
mountPath: /etc/alertmanager
- name: data
mountPath: /alertmanager
volumes:
- name: config-volume
secret:
secretName: alertmanager-config
- name: data
emptyDir: {}
EOF
# service 配置
cat > alertmanager-service.yaml << EOF
apiVersion: v1
kind: Service
metadata:
name: alertmanager
namespace: monitor
spec:
type: ClusterIP
ports:
- name: web
port: 9093
protocol: TCP
targetPort: 9093
selector:
app: alertmanager
EOF
复制代码
应用
kubectl apply -f alertmanager-config.yaml
kubectl apply -f alertmanager-deployment.yaml
kubectl apply -f alertmanager-service.yaml
复制代码
部署完成之后,关于 altermanager 的告警配置相关可以用下面方法查看:
# 查看 pod
kubectl get po -n monitor
NAME READY STATUS RESTARTS AGE
alertmanager-5494c78fbf-zs92w 1/1 Running 0 5m22s
# 查看配置文件
kubectl exec -it alertmanager-5494c78fbf-zs92w -n monitor -- cat /etc/alertmanager/alertmanager.yaml
复制代码
如果使用 altermanager 服务,可以使用 service 的 ip
kubectl get all -n monitor
NAME READY STATUS RESTARTS AGE
pod/alertmanager-5494c78fbf-zs92w 1/1 Running 0 5m55s
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/alertmanager ClusterIP 10.99.215.89 <none> 9093/TCP 17m
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/alertmanager 1/1 1 1 17m
NAME DESIRED CURRENT READY AGE
replicaset.apps/alertmanager-5494c78fbf 1 1 1 17m
复制代码
tidb 告警使用
对之前 Prometheus 安装文件中添加 alertmanagerURL 即可:
$ vi monitor-deploy.yaml
kubePrometheusURL: http://10.97.132.11:9090
alertmanagerURL: 10.99.215.89:9093
# 添加配置
kubectl apply -f monitor-deploy.yaml -n tidb
复制代码
这里可以手动删除一个 pd follower 的 pod 来触发告警。
划线
评论
复制
发布于: 刚刚阅读数: 1
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/05afb4377c2977c7f762f1f81】。文章转载请联系作者。
TiDB 社区干货传送门
关注
TiDB 社区官网:https://tidb.net/ 2021-12-15 加入
TiDB 社区干货传送门是由 TiDB 社区中布道师组委会自发组织的 TiDB 社区优质内容对外宣布的栏目,旨在加深 TiDBer 之间的交流和学习。一起构建有爱、互助、共创共建的 TiDB 社区 https://tidb.net/
评论