写点什么

Apollo 可观测性最佳实践

作者:观测云
  • 2025-05-09
    上海
  • 本文字数:2297 字

    阅读完需:约 8 分钟

Apollo 可观测性最佳实践

简介

Apollo(阿波罗)是一款可靠的分布式配置管理中心,诞生于携程框架研发部,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端,并且具备规范的权限、流程治理等特性,适用于微服务配置管理场景,提供 Java 和 dotNET 原生客户端,提供了 Spring 的集成支持,其他语言通过 HTTP API 使用。


Apollo 在分布式部署时包含由三类进程 Portal、ConfigService、AdminService 扮演的众多角色,例如为测试和生产环境分别部署专用的 ConfigService、AdminService 实现不同环境间的隔离,Apollo 官方部署架构文档详细讨论了这一主题。在可观测方面,Apollo 的所有进程在 /prometheus 端口暴露指标,因此需要在每个进程采集指标,且需要通过进程角色类别、进程实例名称两类标签对部署的进程做出区分。


了解 Apollo 的工作机制是通过指标观测 Apollo 的前提,Apollo 官方设计文档详细讨论了这一主题,这里列出 Apollo 的配置发布过程:


  1. 用户登录 Portal 发布配置;

  2. Portal 调用 AdminService 接口进行配置发布;

  3. AdminService 发布配置后,向所有 ConfigService 发送 ReleaseMessage;

  4. ConfigService 收到 ReleaseMessage 后通过监听器通知对应客户端拉取配置;

  5. 客户端以 HTTP 长轮询方式连接监听器,60 秒内没有客户端相关的配置发布时连接器返回 304,客户端重新建立连接,有相关配置发布时监听器立即返回,客户端根据返回信息拉取配置,此外,客户端会定时拉取配置,配置信息缓存在内存和本地文件中。


以上过程中 ReleaseMessage 的发送过程是典型的消息消费场景,但是 Apollo 为了轻量化设计采用了以下设计方案:


  1. AdminService 在配置发布后向 ReleaseMessage 表插入记录:AppId+Cluster+Namespace;

  2. ConfigService 每秒扫描一次 ReleaseMessage 表,如发现新消息则通知所有的消息监听器;

  3. 消息监听器得到 ReleaseMessage 后通知对应客户端。

观测云

观测云采集器 DataKit 支持 Prometheus 指标采集插件,能够从指标端点自动拉取指标,并在指标上报时附加由用户定义的标签。

部署 DataKit

登录观测云控制台,点击「集成」-「DataKit」-「Linux」,复制安装命令在服务器执行即可。


开启 Promv2 插件

这里以一个较为简单的部署架构说明采集配置,Portal、ConfigService、AdminService 部署在同一服务器中,部署架构如下:



他们分别监听在 8070、8080、8090 端口,按照以下说明创建采集配置:


# 进入 Prometheus 采集器配置文件目录cd /usr/local/datakit/conf.d/prom
# 为每个角色复制配置文件,文件名能够标识一个进程,此处采用的命名规则为:<应用>-<进程类别>-<环境>-<实例编号>cp promv2.conf.sample apollo-portal-prod-1.confcp promv2.conf.sample apollo-config-prod-1.confcp promv2.conf.sample apollo-admin-prod-1.conf
复制代码


修改配置文件,以 apollo-portal-prod-1.conf 为例,修改以下字段的值:


  • source,DataKit 显示的采集器别名,与配置文件名保持一致,例如:apollo_portal_prod_1;

  • url,采集端点,例如:http://localhost:8070/prometheus

  • measurement_name,指标集名称:apollo;

  • guance_role_name,角色标签,可选值:portal、admin_service、config_service;

  • guance_instance_name,进程标签,例如:portal_prod_1,表示 Portal 生产环境实例 1。


完整配置示例:


# {"version": "1.65.1", "desc": "do NOT edit this line"}
[[inputs.promv2]] ## Collector alias. source = "apollo_portal_prod_1"
url = "http://127.0.0.1:8070/prometheus"
## (Optional) Collect interval: (defaults to "30s"). interval = "30s"
## Measurement name. ## If measurement_name is empty, split metric name by '_', the first field after split as measurement set name, the rest as current metric name. ## If measurement_name is not empty, using this as measurement set name. measurement_name = "apollo"
## Keep Exist Metric Name ## If the keep_exist_metric_name is true, keep the raw value for field names. keep_exist_metric_name = true
## TLS config # insecure_skip_verify = true ## Following ca_certs/cert/cert_key are optional, if insecure_skip_verify = true. # ca_certs = ["/opt/tls/ca.crt"] # cert = "/opt/tls/client.root.crt" # cert_key = "/opt/tls/client.root.key"
## Set to 'true' to enable election. election = true
## Add HTTP headers to data pulling (Example basic authentication). # [inputs.promv2.http_headers] # Authorization = ""
[inputs.promv2.tags] # some_tag = "some_value" # more_tag = "some_other_value" guance_role_name = "portal" guance_instance_name = "portal_prod_1"
复制代码


按照以上方式修改其他配置文件。修改完成后执行命令 datakit service -R 重启 DataKit,启用采集器,可执行命令 datakit monitor 查看采集器运行情况。


稍后,可在观测云「指标」-「指标管理」页面搜索指标集 apollo 查看指标。

关键指标


场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Apollo”, 选择 “Apollo 监控视图” ,点击 “确定” 即可添加视图。


Apollo 监控视图包含 HTTP 请求、Hikaricp 连接池、JVM、进程指标相关的聚合,可针对角色、实例、HTTP URI 和请求结果进行过滤。



监控器

观测云已内置部分监控器,在「监控」-「监控器」页面启用 Apollo 检测库。




总结

通过采集 Apollo 信息,可以实时分析服务运行状况,分析数据、对未来可能发生的故障提前介入,防患于未然。

用户头像

观测云

关注

还未添加个人签名 2021-02-08 加入

云时代的系统可观测平台

评论

发布
暂无评论
Apollo 可观测性最佳实践_Apollo_观测云_InfoQ写作社区