写点什么

客户案例|某车企建设统一监控平台实践

  • 2025-01-23
    广东
  • 本文字数:3744 字

    阅读完需:约 12 分钟

客户案例|某车企建设统一监控平台实践

选型背景


某汽车客户在拥抱腾讯云过程中,监管控的体系成熟度成为运维团队核心 KPI,同时也决定着业务能否在腾讯云上迅速铺开。腾讯云团队与客户联合梳理了现状诉求。以下腾讯云可观测平台 Prometheus 监控服务简称云 Prometheus,腾讯云日志服务 CLS 简称 CLS



在团队初建期,需要更快速地构建统一监控平台的骨架和能力,云产品 Exporter 开箱即用的能力打动了客户团队。客户团队可以更聚焦研发业务,通过标签方式自动识别新增资源,减少人力维护投入。客户运维团队无需冗余 Prometheus 部署资源,随着业务量增长,云 Prometheus 可以做到动态水平拓展。


综上,腾讯云取得了客户的认可,选型通过云 Prometheus 的方案参与到统一监控平台的建设。


实现方案


客户业务组网

双账号:通过云联网构成各自的云内和云下互通链路,并基于云下 IDC 的专线互通实现云上双账号的资源互访。

多云:腾讯云+IDC,需要构建云下和云上结合的可观测能力。



多云场景的技术选型,需要考虑多云的技术栈的适配性,很多车企客户更愿意使用原生 Prometheus,并定制开发告警规则、告警中心等能力。

但对于多云场景,逐一开发适配云产品监控采集能力成本较高,很多云厂商对开源的云产品 Exporter 已经不维护,导致指标接入周期长。客户也在寻求多云场景下统一监控平台的快速构建方案,这往往也是运维团队核心 KPI。


云 Prometheus 构建云产品可观测能力

我们作为一线团队,需要考虑灵活的方案,以应对复杂的客户业务环境。首要思考的是客户的诉求“快速落地”,这样云产品的优势就能完美体现。


云 Prometheus 的优势

  • 一键集成:有丰富的集成中心,天然适配腾讯云各类云服务,TKE 创建时即可关联 Prometheus。


  • 弹性扩容:适配客户活动护航观测场景,快速弹性扩容,节省部署时间。


  • 告警通知:集成云监控和 CLS 能力,减少告警模版开发成本,某汽车客户通过 Alertmanager & 云可观测告警 & CLS 告警,快速丰富告警的能力。


  • 腾讯云 Grafana 预置:集成预置的 Grafana 模版,减少用户实现成本。



抓住客户对对统一监控平台构建快、能力要求丰富的心理,推动云 Prometheus 的落地。


云 Prometheus + Thanos 联邦方案

腾讯云团队使用云 Prometheus 解决云产品 metric、log 的快速实现,客户聚焦 IDC 或友商云产品的自建 Prometheus 的接入。云 Prometheus+自建 Prometheus 的联邦解决方案更符合客户诉求,既能解决客户多云监控诉求,又能带动云 Prometheus 的售卖。

  • Thanos Sidecar:作为一个单独的进程和已有的 Prometheus 实例运行在一个 Server 上,互不影响。Sidecar 可以视为一个 Proxy 组件,所有对 Prometheus 的访问都通过 Sidecar 来代理进行。通过 Sidecar 还可以将采集到的数据直接备份到云端对象存储服务器。


  • Thanos Store:Thanos Query 提供的查询语句为 PromQL 语法格式,对象存储是无法识别的,需要在查询前进行转换为查询对象存储的格式,例如去哪个 Bucket 取哪个对象等。


  • Thanos Compactor:主要用于对采集到的数据进行压缩,实现将数据存储至对象存储时节省空间。


  • Thanos Ruler:主要是管理多个 AlertManager 告警规则配置统一管理的问题。


  • Thanos Query:负责从多个 Sidecar、对象存储中获取数据,并做去重等操作返回给 Grafana 显示。


  • Thanos Receiver:支持 Prometheus 的 Remote Write 功能,允许 Prometheus 将数据直接推送到 Thanos Receiver。


(基于云顾问绘制 Thanos 联邦架构)


车企接入云 Prometheus 实践

为了丰富可观测能力(log、metric、trace),我们结合 CLS、云 Prometheus 和自建 Prometheus 构成了三位一体监控能力。指标聚合在统一监控平台,同时使用一套 Grafana 实现多维的 Dashboard。


日志改造


为了减少运维对日志平台的管理成本,减少业务经常找不到对应 Kibana 查询日志的情况,客户选型 CLS 接入作为统一日志接入平台。同时 CLS 可以作为统一的数据源,将日志加工成时序指标推送至 Prometheus。


结合日志的改造,我们与客户更快速的将三位一体监控体系建立。

  • log:CLS 数据加工+定时 SQL,将日志转化为指标,通过 Remote Write 接入客户自建云 Prometheus,实现业务指标监控,时延 1-2min


  • metric:

  • 云产品基础指标:云监控对接云 Prometheus,Remote Write 同步至客户自建集群。一键集成,无需开发 API 接口。


  • 自建组件监控:通过原生 Exporter 上报至自建 Prometheus


  • trace:端到端实现 traceid,通过 traceid 结合 APM 平台做链路追踪,同时日志上报 CLS,实现根据 traceid 实现全局日志检索的能力。


  • 事件:云产品事件转化为指标,通过自建事件管理时光机,将事件转化为指标,接入自建 Prometheus。


方案架构图(基于云顾问绘制车云业务场景统一监控平台解决方案



收益

自建 Prometheus 无法采集的指标,云 Prometheus 可以互补,丰富统一监控平台可观测指标。基于日志和云 Prometheus 在业务团队铺开,实现三位一体监控后,真实地做到了让客户用好云。


服务专业且有温度


EMR 指标完善

腾讯云弹性 MapReduce(以下简称 EMR) 上报至云产品的监控非常多 26 款组件 2600+的监控项,但客户实践过程中关注 Spark 组件的监控丰富度(组件开源指标有几百+)。对于客户的诉求,EMR 团队、云 Prometheus 团队、TAM 团队和行业团队组成攻坚小组。

  • 行业:稳住客户 leader,给予产研开发时间。


  • TAM:梳理 EMR 各组件可观测指标,联合行业团队安抚客户。


  • EMR 产研:紧急开发 ems-exporter,兼容原生 hadoop 生态的采集能力。


  • 云 Prometheus:制定云 Prometheus 与 ems-exporter 打通方案,同时梳理开源各类组件 Exporter 接入文档,手动配合客户进行接入。


EMR 指标接入

  • 历史方案:EMR 监控指标通过云可观测平台的方式接入 Prometheus,该方案存在指标丰富度不足,如 HDFS 和 YARN 等仅有十几项上报至云可观测平台。


  • 临时方案:手动部署 jmx-exporter,需要用户完善部署和探活能力。


  • 正式方案:产品完善 ems-exporter 能力,集成 jmx 开源采集指标,推送 Prometheus,完成 EMR 和 Prometheus 的一键集成。


手工方式部署 jmx-exporter

  • 下载 jar 包


wget https://rig-1258344699.cos.ap-guangzhou.myqcloud.com/prometheus-jmx-exporter/jmx_prometheus_javaagent-0.18.0.jar -O /usr/local/service/jmx_prometheus_javaagent-0.18.0.jar
复制代码
  • 配置采集要求,默认收集所有指标


rules:- pattern: ".*"
复制代码
  • 配置 EMR NN 节点启动参数


-javaagent:/usr/local/service/jmx_prometheus_javaagent-0.18.0.jar=27001:/usr/local/service/namenode_config.yml
复制代码

完成上述配置,即可对 EMR 对应服务进行监控,但是不同服务需要单独配置采集和启动参数(修改监听端口号等)。


EMR 接入 Prometheus 产品化方案

在 Prometheus 的控制台集成中心中,安装 EMR 组件,同时对填写任务名、EMR 集群所在地域、EMR 实例 ID 进行调整,即可完成采集。



收益

EMR 监控,一键集成:腾讯云 Prometheus 对 EMR 大数据平台的一键集成,大大提升了为大数据平台构建可观测性的效率,从天级接入降为分钟级接入,且全托管、一站式,彻底免去为 27 个 EMR 组件搭建和运维采集代理的成本。

弹性扩容,无惧洪峰:在某汽车客户的的新车发布直播和双十一大促时,流量比平时高出数倍。而借力腾讯云 Prometheus + Grafana 的弹性扩容能力,就能避免自建的 Prometheus + Grafana 触及性能瓶颈,从而保证重大活动期间监控的流畅性,极大地降低了流量洪峰下的运维风险。

通过客户和腾讯云团队的努力,帮助客户在 1 个月内完成建设统一监控平台的核心 KPI,同时对客户不同场景的监控需求,推动产品团队完善了 EMR 27 个组件接入 Prometheus 的可观测需求。


云 Prometheus 切入客户案例


案例一

问题背景

某 TOP 车企客户反馈基于 CVM 自建的 starrocks 集群节点异常,节点指标采集中断。客户侧判断为 CVM 故障,需要腾讯云团队协助应急并尽快输出故障报告。

问题现象

客户判断机器故障是基于节点监控中断,重启之后监控指标恢复。



实际情况

并非客户理解的节点故障,通过对节点的诊断和排障,分析是系统盘 IO 被打满,导致 OS 无法响应。



系统盘被打满的监控情况如下:



切入点

Q:腾讯云为什么能监控到磁盘 IO 高,而他们自建 Prometheus 无法监控。

A:腾讯云 CBS 有自身监控能力,并上报到云监控,通过云监控也可以观测到 CBS IO 被打满。

Q:如何补齐这部分能力?

A:腾讯云 Prometheus 通过不同产品视角补齐节点异常的可观测能力



案例二

问题背景

某 TOP 车企客户大数据业务场景读写 COS 频繁触发流控频控,但该产品监控指标接入自建统一监控平台还需要开发周期。



切入点

Q:腾讯云 COS 指标是否能监控到频控和流控?

A:腾讯云 COS 支持频控的监控,流控可以通过上下行带宽进行监控。

Q:运维团队接入 COS 排期还需两个月,如何快速补齐这部分能力?

A:腾讯云 Prometheus 可以通过集成中心快速适配云监控已采集的云产品指标,并通过 Remote Write 的方式推送至自建 Prometheus,快速让自建 Prometheus 具备统一告警,Grafana 统一观测的能力。


结语


腾讯云可观测平台已广泛应用于出行行业的绝大多数领先车企,涵盖了行业内的头部企业。通过与这些车企的合作,腾讯云可观测平台积累了丰富的行业案例和最佳实践,为出行行业提供了可靠的数据监测和性能优化解决方案。

若有任何可观测需求,欢迎随时前来咨询。腾讯云将会继续用专业且有温度的服务来帮助到您。


联系我们

如有任何疑问,欢迎加入官方技术交流群


用户头像

全栈一体化监控 2024-01-04 加入

腾讯云可观测平台基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。 多款产品免费试用15天,欢迎各位前来体验~

评论

发布
暂无评论
客户案例|某车企建设统一监控平台实践_Prometheus_腾讯云可观测平台_InfoQ写作社区