写点什么

嘉为蓝鲸监控中心:助力大型运营商解决烟囱工具式监控难题

作者:嘉为蓝鲸
  • 2024-06-11
    广东
  • 本文字数:2254 字

    阅读完需:约 7 分钟

直达原文:嘉为蓝鲸监控中心:助力大型运营商解决烟囱工具式监控难题


随着业务和 IT 信息化的发展建设,为确保基础设施的全面监控,企业积极采购了多样化的监控设施,这些设施广泛覆盖了操作系统、关键组件以及硬件等多个层面,从而初步完成了 IT 技术设施和运维管理工具的建设。然而,随着业务的迅速增长,现有的运维设施和系统开始暴露出诸多挑战,资源分散,缺乏有效的统一规范化管理,导致监控覆盖不全,告警治理变得困难重重。此外,监控配置成本高昂、效率低下,且团队协作难度增加,这些因素都使得企业难以迅速响应业务的变化和需求。在这个背景下,建设一体化监控平台的诉求逐渐成为各个企业的监控建设重心。

 

面对这些问题,某大型运营商企业基于嘉为蓝鲸监控中心,启动了基础设施运维管理系统建设工程,通过重塑运维体系,构建统一的一体化监控平台,全方位提升监控管理水平,提升运维管理效率,为 IT 系统的安全、持续、不间断运行提供有力的支撑。

 

业务场景

该企业在多年的运维监控中,通过自行搭建 Zabbix、Prometheus 等开源监控平台,自行实施了大量操作系统、组件服务的监控,同时外采了硬件监控产品补足硬件监控能力。但随着企业的发展,这种缺乏完整监控体系的管理模式逐渐暴露出监控缺乏监管——覆盖率低、没有统一规范——策略配置混乱、各监控系统混合部署——运维管理复杂等问题。传统的监控管理模式越发难以推进,亟需建设统一的监控平台。

 

分析痛点

该公司目前的监控建设正处于烟囱工具式监控建设阶段,且各类监控场景尚不完备。客户期望在补足监控能力的同时,建立成熟的一体化监控平台。从各个运维场景下看,企业目前具备以下痛点:

操作系统监控:已部署 Zabbix 和 Prometheus,由各业务系统自行配置监控,没有统一的指标体系、阈值规范,整体监控处于缺乏管控状态;

组件监控:原监控系统对于组件监控过于简单,缺少核心指标的采集,且没有策略模板,不清楚如何配置监控;

容器监控:容器监控能力缺失,容器资源及容器组件服务整体处于未监控状态,系统运行保障风险极高;

统一监控平台:已采购第三方硬件监控产品,独立管理,每次使用时都需单独登录硬件管理平台进行配置,授权和管理体系复杂,使用不便。期望能通过一体化监控平台进行统一管理。

 

解决方案

操作系统监控 —— 基于蓝鲸 Agent 的指标采集

嘉为蓝鲸监控中心以蓝鲸 Agent 为核心,内置操作系统采集插件,只要部署了蓝鲸 Agent,就会自动采集操作系统相关指标数据,无需手动配置。通过 One Agent 的方式,该公司实现内部操作系统的统一监控、采集。

 

组件监控 —— 强大的采集扩展能力,积累丰富

监控中心采用 Agent+Plugins 的设计模式,支持通过系统脚本、SQL 语句、Exporter、Datadog 插件等模式快速扩展各类监控对象的监控,解决 Agent 模式下各类组件对象的监控数据采集问题。

 

同时监控中心支持通过协议/接口(支持 SNMP、IPMI、JMX、SQL、BK-Pull 等)模式进行扩展,远程收集数据,解决了各种无代理场景下的组件监控问题。

 

基于上述模式,监控中心同时还积累内置了大量标准化插件,覆盖绝大部分主流数据库、中间件。同时具备成熟的指标体系建设,提供最佳实践配置模板,引导用户进行监控检测。


 

容器监控 —— 覆盖容器资源、容器服务指标,全方位监控

基于 K8s 原生的 Prometheus 监控方案优化改造,该公司实现以下场景的容器监控:

支持对容器内各类资源对象进行发现,并采集相关性能指标,包括 Cluster、Workload、Pod、Container、Node

支持容器上部署的组件服务监控,可通过以下方式进行数据采集:

- 支持 serviceMonitor(主推)和 podMonitor

- sidecar 方式( 以 sidecar 模式部署 exporter 抓取器暴露出 metrics,结合 serviceMonitor 进行采集)

- 中心远程统一采集 (组件本身暴露了/metrics,结合 serviceMonitor 进行采集)

 

统一监控 —— 第三方监控源数据接入,建立一体化监控平台

该公司通过嘉为蓝鲸监控系统,实现第三方监控数据接入,通过开发监控源插件进行对接,抓取或接收其他监控系统数据。如果对数据进行一定的数据结构清洗,还可将接入数据与蓝鲸 CMDB 实例进行关联,从而在指标管理、数据检测、可视化等能力上与嘉为蓝鲸监控中心自采集数据完全持平,建设真正的一体化监控平台。

 

成果展示

操作系统监控 —— 基于蓝鲸 Agent 的指标采集

同步 CMDB 操作系统配置信息

 

基于蓝鲸 Agent 的操作系统指标采集

 

组件监控 —— 企业内核心数据库、中间件监控接入,策略配置

MySQL 数据展示

 

Kafka 数据展示

 

容器资源发现、展示列表

 

容器监控 —— K8s 容器管理平台监控接入

容器资源发现、展示列表

 

容器资源性能指标

 

集群内 ServiceMonitor、PodMonitor

 

容器内组件服务指标

 

统一监控 —— 第三方监控源数据接入,建立一体化监控平台

第三方硬件监控系统指标数据接入

 

建设成效

 

场景适用性

嘉为蓝鲸监控中心目前已在各个运维分层场景中,具备了完整的监控方案和最佳实践引导,可以帮助企业尽可能多地完成监控覆盖;同时提供成熟的监控数据集成方案,既能与第三方监控系统进行数据对接,也能在数据处理、存储、可视化等层面提供完全一致的能力与体验。适用于以下类型的企业:

监控接入不规范,各个业务系统独立运行,监控体系没有统一治理的企业;

已实施了基础的监控采集,但是缺乏有效的指标体系建设,监测告警配置不规范的企业;

监控覆盖率不高,容器监控、硬件监控等场景缺失,希望补足这些场景的监控能力的企业;

烟囱式监控环境,各类场景监控系统虽具备,但完全独立,管理复杂,亟需建设统一监控平台的企业。

 

直达原文:嘉为蓝鲸监控中心:助力大型运营商解决烟囱工具式监控难题

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
嘉为蓝鲸监控中心:助力大型运营商解决烟囱工具式监控难题_监控_嘉为蓝鲸_InfoQ写作社区