写点什么

阿里巴巴 Druid 可观测性最佳实践

作者:观测云
  • 2025-04-09
    北京
  • 本文字数:2767 字

    阅读完需:约 9 分钟

阿里巴巴 Druid 可观测性最佳实践

Druid 介绍

阿里巴巴的 Druid 是一个开源的数据库连接池、SQL 解析、监控和扩展功能的工具集合。它不仅是一个高性能的数据库连接池,还提供了强大的监控和管理功能,帮助开发者更好地管理数据库连接、优化 SQL 查询以及监控数据库性能。

在可观测场景中,通常会接入 APM 调用链路和数据库的监控指标, 在 APM 中我们可以看到 SQL 的执行时间,在数据库可观测中可以看到审计日志中的慢 SQL 以及数据库的一些性能指标,如连接数、cpu 、内存等。 但应用到数据库之间的的执行过程是由连接池完成的,连接池可能会出现连接数配置不合理导致 SQL 执行排队、连接池设置过大导致数据库性能瓶颈等, 因此,对连接池的可观测变得非常重要。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

部署 DataKit

DataKit 是一个开源的、跨平台的数据收集和监控工具,由观测云开发并维护。它旨在帮助用户收集、处理和分析各种数据源,如日志、指标和事件,以便进行有效的监控和故障排查。DataKit 支持多种数据输入和输出格式,可以轻松集成到现有的监控系统中。

登录观测云控制台,在「集成」 - 「DataKit」选择对应安装方式,当前采用 Linux 主机部署 DataKit。



数据采集

DataKit 配置

DataKit 安装完成后,可以自定义开启采集器,本集成需要开启如下两个采集器。

  • 开启 StatsD 采集器

# 开启采集器cp /usr/local/datakit/conf.d/statsd/statsd.conf.sample /usr/local/datakit/conf.d/statsd/statsd.conf# 重启 Datakitdatakit service -R
复制代码
  • 开启链路采集

# 开启采集器cp /usr/local/datakit/conf.d/ddtrace/ddtrace.conf.sample /usr/local/datakit/conf.d/ddtrace/ddtrace.conf# 重启 Datakitdatakit service -R
复制代码

客户端配置

以 Java Demo 应用为例,采集调用链路和 Druid 连接池指标。Demo 项目中连接池配置如下:

spring.datasource.type=com.alibaba.druid.pool.DruidDataSourcespring.datasource.druid.url=jdbc:mysql://xx.xx.xx.xx:3306/test?useSSL=falsespring.datasource.druid.username=rootspring.datasource.druid.password=*******spring.datasource.druid.driver-class-name=com.mysql.cj.jdbc.Driverspring.datasource.druid.initial-size=5spring.datasource.druid.min-idle=5spring.datasource.druid.max-active=20spring.datasource.druid.test-on-borrow=truespring.datasource.druid.validation-query=SELECT 1
复制代码

接入 APM ,配置采集 jmx ,应用启动增加如下参数,启动命令如下:

java \-javaagent:/xxx/dd-java-agent.jar \-Ddd.agent.port=9529 \-Ddd.service=demo \-Ddd.jmxfetch.check-period=1000 \-Ddd.jmxfetch.enabled=true \-Ddd.jmxfetch.config.dir=/xxx/ \-Ddd.jmxfetch.config=druid.yaml \-jar xxxx.jar 
复制代码

dd-java-agent.jar Guance 版下载地址:

wget -O dd-java-agent.jar 'https://static.guance.com/dd-image/dd-java-agent.jar'
复制代码

其中 -Ddd.jmxfetch.config.dir 和 -Ddd.jmxfetch.config=druid.yaml 需要把 druid.yaml 放到 Java 启动可以读取到的地址。 druid.yaml 内容如下,无需修改:

init_config:  is_jmx: true  collect_default_metrics: true
instances: - jvm_direct: true name: duird-DruidDataSource-monitoring collect_default_jvm_metrics: false collect_default_metrics: false refresh_beans: 60 conf: - include: bean_regex: "com.alibaba.druid:type=DruidDataSource,id=\\d+" tags: pool: druid attribute: MaxActive: metric_type: gauge alias: druid.max_active ConnectCount: metric_type: gauge alias: druid.connect_count WaitThreadCount: metric_type: gauge alias: druid.wait_thread_count ActivePeak: metric_type: gauge alias: druid.active_peak InitialSize: metric_type: gauge alias: druid.initial_size ConnectErrorCount: metric_type: gauge alias: druid.connect_error_count ActiveCount: metric_type: gauge alias: druid.active_count CloseCount: metric_type: gauge alias: druid.close_count PoolingCount: metric_type: gauge alias: druid.pooling_count RecycleCount: metric_type: gauge alias: druid.recycle_count CreateCount: metric_type: gauge alias: druid.create_count DestroyCount: metric_type: gauge alias: druid.destroy_count CommitCount: metric_type: gauge alias: druid.commit_count RollbackCount: metric_type: gauge alias: druid.rollback_count MaxWait: metric_type: gauge alias: druid.max_wait MinIdle: metric_type: gauge alias: druid.min_idle MaxIdle: metric_type: gauge alias: druid.max_idle
复制代码

关键指标


场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Druid”, 选择 “Druid 监控视图”,点击 “确定” 即可添加视图。



监控器(告警)

  • 服务连接池排队获取连接数过多

简要描述:检测指标 wait_thread_count , 5 分钟内平均值超过 5 则触发警告,如下图:



  • 服务连接池连接失败出现频率过高

简要描述:检测指标 connect_error_count , 出现错误的次数大于 1 个/秒,则触发告警,如下图:



  • 服务服务连接池使用率告警

简要描述:检测指标 active_count/max_active ,当使用率超过 80%,触发告警,如下图:



总结

这些指标提供了连接池运行状态的全面视图,帮助开发者和运维人员监控和优化数据库连接池的性能。通过合理配置和监控这些指标,可以确保连接池在高并发场景下高效运行,同时避免资源浪费和性能瓶颈。

用户头像

观测云

关注

还未添加个人签名 2021-02-08 加入

云时代的系统可观测平台

评论

发布
暂无评论
阿里巴巴 Druid 可观测性最佳实践_Druid_观测云_InfoQ写作社区