实时告警与性能监控:通过时序数据库 TDengine、taosKeeper 和 TDinsight 实现无缝监控
小 T 导读:在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
如果没有监控,那么最好的情况是没有问题发生,最糟糕的情况则是问题发生了但没有被发现。——《Prometheus 监控实战》
在今年的 10 月 10 日我收到了 TDengine 官方微信公众号的一条推送,摘要如下:
今天我们非常高兴地宣布,TDengine 3.3.3.0 版本正式发布。本次更新引入了多项重要功能和性能优化,旨在为用户提供更高效、更灵活的数据解决方案。在 3.3.3.0 版本中,我们着重优化了监控和告警功能,新增了多种常见的 MySQL 函数,并增强了对 MongoDB 数据源的支持。这些改进将为用户在物联网和大数据应用中提供更强大的功能,助力大家在数字化转型过程中实现更大的成功。
时序数据库作为软件项目的核心基础设施,其运行状态的实时监控至关重要。今天,我们将体验一下经过重优化的监控和告警功能。早在 TDengine 2.1.2.0 发布时,就可以将 TDengine 的日志数据表内容可视化展示在 Grafana 仪表盘上;随着官方不断增强监控能力,TDinsight 应运而生,成为与 Grafana 深度集成的可视化工具。这篇文章将演示如何通过容器化安装 TDengine 与 TDinsight 监控大盘,并结合 taosKeeper 和 TDinsight 实现对 TDengine 服务状态的监测,以及如何通过钉钉推送告警消息。
虚机资源
在这次实践中,我共用到了 2 台虚机,1 台作为应用服务节点,1 台作为运维监控节点。
基本选用当前最新版本,即将安装的 Grafana 及组件版本信息如下:
Grafana 版本:11.2.0
TDengine 版本:3.3.3.0(自带了 taosAdapter 与 taosKeeper)
系统环境
svc 节点:使用 Docker 安装 TDengine 3.3.3.0
通过 Docker 安装 TDengine 3.3.3.0,创建名为 tdengine 的容器,并挂载数据与日志卷目录。
使用客户端工具验证 TDengine 安装效果
通过浏览器验证 metrics 端点
在浏览器中访问 http://192.168.44.168:6043/metrics,即可查看 TDengine 的监控指标。这些指标默认会被写入 TDengine 的 log
数据库,Grafana 则通过读取该数据库中的数据表来实现监控数据的可视化展示。
注: taosKeeper
是 TDengine 3.0 版本的监控指标导出工具,通过简单配置即可获取 TDengine 的运行状态(这些指标可以导入到 Prometheus,本文直接使用 TDengine 存储)。
ops 节点:使用 Docker Compose 安装 Grafana
参考文章:《云原生之运维监控实践-OpenEuler22.03SP3 上安装 Prometheus 与 Grafana 实现主机状态监测》https://blog.csdn.net/u013810234/article/details/142589059?spm=1001.2014.3001.5501
在安装 Grafana 的主机上,首先需要安装 TDinsight,之后才能在 Grafana 数据源中添加 TDengine 数据源。
TDinsight 监控实战
通过浏览器访问 http://192.168.44.169:3000 进入 Grafana。
配置数据源:
在左侧菜单中点击 “Add new connection”。
选择或搜索 “Data Sources”。
点击 “Add data source”,然后选择 “TDengine Datasource”。
在 “HTTP” 部分,输入 TDengine 的地址,例如:
http://192.168.44.168:6041
。点击 “Save & Test”,确认连接成功。
导入仪表板
查看现成的仪表板
Grafana 官方仪表板目录:https://grafana.com/grafana/dashboards/,在这个页面上,用户可以找到并共享各种现成的 Grafana 仪表板,涵盖系统性能、应用监控、网络流量等多种监控需求。根据需求,用户可以搜索并导入适合的仪表板,提升监控效率和可视化效果。比如,搜索 “TDengine” 后,可以找到 TDinsight for 3.x 仪表板,点击查看详细 UI 效果,并复制仪表板 ID(如:18180)。
导入现成的仪表板:
在 Grafana 右侧菜单中点击 “New” 按钮,选择 “Import”。
在输入框中,直接输入仪表板 ID【常用的主机监控仪表板 ID 是 18180(TDinsight for 3.x)】,或者上传 JSON 文件。
点击 “Load”,然后选择已配置好的数据源。
点击 “Import” 完成导入。
TDinsight 监控效果
TDinsight 是一款结合监控数据库和 Grafana 的 TDengine 监控解决方案。它可以实时可视化集群状态、节点信息、插入与查询请求、资源使用情况等关键指标,同时支持对 vnode、dnode 和 mnode 节点的状态进行异常告警。
TDinsight 告警实战
一个好警报的关键是能够在正确的时间、以正确的理由和正确的速度发送,并在其中放入有用的信息。
告警原理说明:
Grafana 定期查询数据源并评估告警规则中定义的条件。
当条件被触发时,则会触发告警实例。
生成的告警实例根据标签匹配规则,路由至相应的通知策略。
通知会发送到策略中指定的联系点。
配置告警规则
这里我们使用 TDinsight 默认提供的告警规则。要建立一个出色的通知系统,我们需要考虑以下基础信息,而基于 Grafana 的 TDinsight 监控方案做到了:
哪些问题需要通知;
谁需要被告知;
如何告知他们;
多久告知他们一次。
配置推送方式
TDengine 支持多种推送方式,这里选择钉钉推送。首先,从钉钉中获取机器人的 access_token,然后将推送方式命名为 DingDingPush
。在配置中,将消息类型(Message Type)更改为 ActionCard
。
配置通知策略
默认的通知策略是邮件方式,这里直接调整为我们的 DingDingPush 。
模拟压力告警
进入 TDengine 容器内部,执行 taosBenchmark
命令。为了触发告警,我们在 test
数据库中创建了 10000 张表,每张表插入 200 万条数据。由于容器磁盘空间的限制,这将导致磁盘告警的触发,进而导致 DNodes 和 VNodes 停止工作,从而触发相应的告警。
在 TDinsight 的仪表板上可以看到磁盘使用率已到达 95%,根据报警规则设置,即将触发告警。
告警触发推送与告警解除推送
当 taosBenchmark 写入数据逐渐将磁盘空间耗尽时,会触发告警,进而会通过我们配置的告警方式和策略进行推送,本文中我们将通过钉钉接收到推送消息:
当我在 taos 命令行中执行 drop database test;
删除 test
数据库后,TDengine 服务恢复正常。经过一段时间(一个告警监测周期),钉钉上会自动收到各类告警解除的通知。
注意:在 Prometheus 和 AlertManager 的生态中,alertstate
字段表示报警的状态,可能有以下几种取值:
Firing:表示报警已触发。当报警规则条件满足时,报警状态会变为 Firing,表示触发了报警。通常情况下,报警会发送给相关的接收器或通知渠道,以便进行处理。
Resolved:表示报警已解决。当报警条件不再满足时,报警状态会变为 Resolved,表示报警已经解决。这意味着报警规则所监控的指标已经恢复到正常状态,不再需要进一步的处理。
Pending:表示报警处于等待状态。当报警规则的条件满足时,报警状态会从 Firing 变为 Pending,表示报警处于等待状态。在报警状态从 Firing 到 Resolved 之间的过渡期间,报警可能会处于 Pending 状态,这通常是因为报警规则定义了一些延迟或滞后的条件。
结语
If you can’t measure it, you can’t improve it!
没有度量就没有改进。本文介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监测与告警功能,详细记录了在两台虚拟机上进行的安装过程,包括在服务节点上使用 Docker 安装最新版的 TDengine 3.3.3.0,以及在监控节点上配置 Grafana 和 TDinsight 插件。此外,文章还展示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、设置告警规则和通知策略。最后,通过模拟压力测试,演示了如何触发磁盘空间不足的告警,并通过钉钉接收告警推送与解除通知。
本实践充分展示了 TDengine 生态系统在监控和告警方面的强大功能,为数据库管理员和运维工程师提供了高效、可靠的监控解决方案。
Reference
https://github.com/taosdata/TDengine/releases/tag/ver-3.3.3.0
https://github.com/taosdata/TDengine/releases/tag/ver-3.3.3.0
https://grafana.com/grafana/dashboards/18180-tdinsight-for-3-x/
https://docs.taosdata.com/reference/components/taoskeeper/
评论