写点什么

嘉为蓝鲸监控中心:助力大型金融企业实现各类监控场景全覆盖

作者:嘉为蓝鲸
  • 2024-06-20
    广东
  • 本文字数:1988 字

    阅读完需:约 7 分钟

直达原文:嘉为蓝鲸监控中心:助力大型金融企业实现各类监控场景全覆盖


随着业务和 IT 信息化的发展建设,传统的运维分层模型已不足以描述企业内复杂的运维场景,除了操作系统层、组件层、硬件层外,云原生、PaaS 层等各种运维场景不断发展,已衍生出以容器监控为代表的多种复杂监控场景。相比较传统的监控,这些监控场景有着目标多、变化快、实例不唯一等各种不稳定因素,极大地提高了企业监控运维的难度。在这个背景下,一个可以覆盖各类监控场景的一体化监控平台的诉求逐渐成为各个企业的监控建设重心。

面对这些问题,某大型金融企业以嘉为蓝鲸监控中心为底座,启动了基础设施运维管理系统建设工程,通过重塑运维体系,构建统一的一体化监控平台,全方位提升监控管理水平,提升运维管理效率,为 IT 系统的安全、持续、不间断运行提供有力支撑。

 

建设背景

该企业在多年的运维监控中,其各类场景的监控模式和监控指标体系建设全凭自身探索,因此对于操作系统层、组件层的监控缺乏最佳实践;对于硬件层,也只实现了 Zabbix 的 SNMP Trap 采集能力;而在容器侧,更是完全缺失了监控。补足这几个方面的监控能力也是客户目前最核心的建设方向。

 

痛点分析

该企业在云原生转型后,企业内的监控运维对象发生了巨大变化,构建云上云下一体化的监控平台面临诸多挑战,其主要体现在如下几点:

  • 组件监控:原监控系统对于组件监控过于简单,不仅多种组件缺少监控方式,对于已监控的组件,也缺失核心指标的采集和策略模板,不清楚如何配置监控。

  • 容器监控:容器监控能力缺失,容器资源及容器组件服务整体处于未监控状态,系统运行保障风险极高。

  • 硬件监控:老旧的硬件监控只支持 SNMP Trap 上报的形式对目标进行监控,当设备真正失联时往往不能产生有效的告警,且监控能力严重缺乏可拓展性。

  • 业务系统指标监控:企业内各业务系统出于自身业务场景需求,通过 Prometheus 自行采集了一批指标,这批指标目前没有统一的管理途径与规范。

 

解决方案

基础监控 —— 强大的采集扩展能力,积累丰富

嘉为蓝鲸监控中心采用 Agent+Plugins 的设计模式,支持通过系统脚本、SQL 语句、Exporter、Datadog 插件等模式快速扩展各类监控对象的监控,解决 Agent 模式下各类组件对象的监控数据采集问题。

基于上述模式,监控中心同时还积累内置了大量标准化插件,覆盖绝大部分主流数据库、中间件;同时具备成熟的指标体系建设,为该企业提供最佳实践配置模板,引导用户进行监控检测。

 

容器监控 —— 覆盖容器资源、容器服务指标,全方位监控

基于 K8s 原生的 Prometheus 监控方案优化改造,该企业实现以下场景的容器监控:

  1. 支持对容器内各类资源对象进行发现,并采集相关性能指标,包括 Cluster、Workload、Pod、Container、Node;

  2. 支持容器上部署的组件服务监控,可通过以下方式进行数据采集:

  • 支持 serviceMonitor(主推)和 podMonitor;

  • sidecar 方式( 以 sidecar 模式部署 exporter 抓取器暴露出 metrics,结合 serviceMonitor 进行采集);

  • 中心远程统一采集 (组件本身暴露了/metrics,结合 serviceMonitor 进行采集)。

 

同时,我们还为该企业提供容器最佳实践方案,在对容器监控缺乏认知的情况下,引导其进行容器监控建设。

 

硬件监控 —— 无需开发门槛,SNMP 插件在线制作

嘉为蓝鲸监控中心提供在线制作 SNMP 插件能力,只要掌握需监控设备的 MIB 库或 OID,便可在产品页面内通过手写或工具生成的方式定义 SNMP 采集插件,并通过主动采集的方式进行监控,确保能在设备失联时产生异常告警。

 

此外,我们为该企业提供硬件监控最佳实践方案以及明细的 OID 清单,手把手指导用户进行硬件监控。

 

Prometheus 数据对接 —— Exporter 数据接口轻松对接,无需开发

嘉为蓝鲸监控中心内的 BK-Pull 插件协议支持直接对接已有的 Exporter 数据接口,只需填写 URL 等参数即可直接进行数据纳管。

 

 

成果展示

组件监控 —— 企业内核心数据库、中间件监控接入,策略配置

MySQL 数据展示

 

Kafka 数据展示

 

容器监控 —— K8s 容器管理平台监控接入

容器资源发现、展示列表

 

容器资源性能指标

 

集群内 ServiceMonitor、PodMonitor

 

容器内组件服务指标

 

硬件监控 —— 内置主流硬件插件,新型号适配简单易上手

内置的主流硬件插件

 

建设成效

 

场景适用性

嘉为蓝鲸监控中心目前已在各个运维分层场景中,具备了完整的监控方案和最佳实践引导,可以帮助企业尽可能多地完成监控覆盖;同时提供成熟的监控数据集成方案,既能与第三方监控系统进行数据对接,也能在数据处理、存储、可视化等层面提供完全一致的能力与体验。适用于以下类型的企业:

  • 监控接入不规范,各个业务系统独立,监控体系没有统一治理的企业;

  • 企业内已实施了基础的监控采集,但是缺乏有效的指标体系建设,检测告警配置不规范的企业;

  • 容器监控缺失,没有对应监控能力,希望补足容器监控场景的企业;

  • 硬件监控能力不足,设备适配困难,期望补足硬件监控能力的企业。


直达原文:嘉为蓝鲸监控中心:助力大型金融企业实现各类监控场景全覆盖

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
嘉为蓝鲸监控中心:助力大型金融企业实现各类监控场景全覆盖_监控_嘉为蓝鲸_InfoQ写作社区