TDengine 可观测性最佳实践

TDengine 介绍
TDengine 是一款开源、高性能、云原生的时序数据库,专为物联网、车联网、工业互联网、金融、IT 运维等场景优化设计。它不仅提供了高效的数据存储和查询功能,还带有内建的缓存、流式计算、数据订阅等系统功能,能大幅减少系统设计的复杂度,降低研发和运营成本。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
部署 DataKit
DataKit 是一个开源的、跨平台的数据收集和监控工具,由观测云开发并维护。它旨在帮助用户收集、处理和分析各种数据源,如日志、指标和事件,以便进行有效的监控和故障排查。DataKit 支持多种数据输入和输出格式,可以轻松集成到现有的监控系统中。
登录观测云控制台,在「集成」 - 「DataKit」选择对应安装方式,当前采用 Linux 主机部署 DataKit。

采集器配置
进入 DataKit 安装目录下的 conf.d/db
目录,复制 tdengine.conf.sample
并命名为 tdengine.conf
。示例如下:
配置好后,重启 DataKit 即可。
关键指标
标签

指标列表
td_adapter

td_node_usage

td_cluster

场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “TDengine 监控视图”, 选择 “TDengine 监控视图”,点击 “确定” 即可添加视图。





监控器(告警)
TDengine 内存过高检测
指标:mem_engine_percent
简要描述:指 TDengine 引擎使用的内存占系统总内存的百分比。通过监控这个指标,可以了解引擎在内存使用方面的占比,避免因内存过度占用而引发性能问题。当 mem_engine_percent 接近 100% 时,可能会出现内存不足,导致数据库响应缓慢甚至无法正常工作。
告警配置如下图所示:

TDengine 实例存活检测
指标:cpu_engine
简要描述:uptime 记录了从 TDengine 服务节点最近一次启动开始,到当前时刻所持续运行的时长。它反映了服务节点在一段时间内保持稳定运行的状态,是衡量服务稳定性的一个重要指标。
告警配置如下图所示:

TDengine DISK 过高检测
指标:disk_percent
简要描述:代表磁盘空间的使用百分比,即已用磁盘空间占总磁盘空间的比例。磁盘空间是数据库存储数据的基础,disk_percent 过高意味着磁盘快被占满,可能影响新数据的写入和查询操作的性能。当该指标达到一定阈值(如 80% 或 90%)时,就需要考虑清理无用数据或扩展磁盘空间。
告警配置如下图所示:

总结
观测云是一款全链路可观测产品,集成了基础设施监控、应用程序性能监控以及日志管理等功能。借助开源工具 DataKit,用户可以轻松实现对 TDengine 数据的采集,仅需通过简单配置文件并重启系统,即可快速完成相关设置。
TDengine 提供了丰富的关键指标,涵盖客户端访问、资源使用、集群状态以及请求处理等多个方面。在观测云控制台中,用户可以便捷地新建“TDengine 监控视图”。同时,针对 TDengine 的重要指标,如内存使用率(mem_engine_percent)、实例存活情况(uptime、cpu_engine)、磁盘空间占用率(disk_percent)等,用户可以灵活设置告警规则。当这些指标达到特定阈值,例如内存使用率接近 100%、服务运行时间异常或磁盘空间占比过高时,系统将及时发出告警,助力运维人员保障 TDengine 的稳定高效运行。
评论