【运维思考】运维对象快速扩展,监控如何精准实时的覆盖?
关于监控
同样,从运维管理的目标职责,监控建设需要解决的两个核心问题就是:优先用户发现问题和快速定位解决问题。
如何优先用户发现问题:需要具备监控的眼睛足够多,针对运维对象从物理设备、系统组件以及应用层对象能够全面覆盖,以及针对不断增长的运维对象能够持续扩展。
如何快速定位解决问题:不仅需要针对告警信息的多维关联分析,同时还需具备针对告警事件的闭环处理以及故障自愈管理,支撑运维人员快速解决故障。
平台化监控设计
基于传统建设监控系统的方式,你会发现如果想要覆盖全面的运维对象,所需建设各种场景监控系统就会越来越多,海量无效的告警事件接踵而来,同时围绕同一故障的告警信息都分布在各个监控系统中,这么一来就很难实现快速的告警定位分析。
为了满足不断变化的监控需求,我们得换一种建设思路,通过平台+场景的建设思路,不仅能够满足监控覆盖全面性的要求,还能够持续扩展监控场景以满足变化的需求。
监控平台
聚焦监控数据链路能力,从数据采集 → 数据存储 → 数据加工 → 数据监测 → 告警管理 → 故障闭环 → 监控可视化能力。
数据采集:
监控数据采集类型包括指标(Metrics)、日志(Logs)、跟踪(Trace),针对不同的数据采用的数据采集方式也不同,如:Agent 代理采集、脚本插件采集、日志采集、协议采集、进程采集、Web 拨测、APM 探针以及 API 接口等。
因此在考虑监控平台采集能力设计的时候,需要具备灵活扩展的采集器扩展能力,能够支持适配当下主流监控系统的不同采集器的方法。
数据存储:
针对采集的各类监控数据,以及数据检测分析的场景,支持不同类型的数据存储能力,如关系型数据库 MySQL、时序数据库 InfluxDB、全文检索数据库 ElasticSearch,以及数据采集传输过程中的消息队列及缓存数据库。
数据分析:
针对监控数据分析能力,包括数据清洗、数据丰富、数据计算以及数据检测能力,如数据丰富过程中的 CMDB 字段丰富,数据计算支持各种运算规则(AVG\SUM\MAX\MIN\COUNT),数据检测支持静态阈值、同比、环比以及机器学习扩展。
告警管理:
提供告警事件的统一管理,包括告警收敛、告警聚合、告警屏蔽以及告警通知等功能:
告警收敛:支持防抖收敛、时间收敛、同实例收敛、同指标收敛,以及组合条件收敛、高可用收敛等。
告警聚合:支持按对象进行聚合、按应用进行聚合、按时间进行聚合、基于 CMDB 拓扑关系进行聚合、以及按负责人进行聚合。
告警屏蔽:支持变更维护期内告警屏蔽,屏蔽维度支持时间、对象、策略等。
告警通知:支持微信、短信、语言、邮件告警通知,以及 API 或自定义渠道通知。
故障闭环:
实现告警事件的快速跟进和闭环管理,如对接工单系统自动生成事件工单,对接自动化系统实现故障自愈。
监控可视化:
基于监控视图的可视化展示,实时展现监控对象的状态信息以及告警事件的信息。
监控场景
基于监控指标数据采集能力,以及监控后台的数据存储和监测分析能力,构建各种运维对象的监控场景,如硬件监控、云监控、系统监控、组件监控、日志监控,以及应用服务和性能监控等:
硬件设备监控:
监控对象:网络设备、存储设备、物理机;
采集方式:基于通用协议采集 SNMP、IPMI。
云监控:
监控对象:虚拟化、私有云公有云平台健康性,以云产品的容量、性能监控;
采集方式:基于云平台 API 采集插件。
系统组件监控:
监控对象:系统、数据库、中间库、进程等;
采集方式:基于 Agent、脚本、插件采集,支持持续扩展。
应用服务监控:
监控对象:应用网站服务、应用协议服务以及 C\S 应用可用性;
采集方式:基于 Selenium、RPA 技术,持续扩展脚本、协议以及模拟采集。
日志监控:
监控对象:文本日志、系统日志,关键字的监控;
采集方式:基于系统层日志采集。
应用性能监控:
监控对象:应用性能、调用链分析、接口调用分析等;
采集方式:APM 探针或应用 SDK。
智能监控有效延展
运维监控的建设,从系统化 → 平台化 → 智能化的演进过程, 基于平台化的集中监控数据管理,赋予运维大数据平台的数据分析、数据开发、数据建模的能力,实现体系化智能监控场景,如动态阈值、异常检测、根因定位以及容量预测等。
企业统一监控建设阶段
第一阶段:统一告警事件管理
基于企业现有运维体系的建设现状,多多少少都已经有了各种监控工具系统的建设,有些是采用传统商用监控系统,如 IBM_Tivovi、HP_OVO、SCOM、SolarWinds、听云、Dynatrace 等,也有些是采用开源监控系统,如 Zabbix、Prometheus、Pinpoint 等。
基于已建设监控系统现状,监控系统覆盖已经达到一定程度,但运维人员面临的痛点问题更多是海量告警、无效告警等,因此可以优先考虑告警事件的统一管理,实现告警事件的闭环管理。
告警源接入,支持各种常用监控系统集成,以及标准告警事件 API 接口:
告警事件,集成企业 ITSM 系统,自动创建事件工单:
实现整体告警事件的端到端闭环管理:
第二阶段:集中监控数据处理
基于企业级监控平台的设计,通过可扩展的统一监控采集插件能力,持续建设监控覆盖面,同时基于平台层的数据链路服务能力,建设集中多维度数据分析服务以及监控数据仓库,从而支撑企业上层运维端、用户端的个性化监控场景。
自有监控平台化数据链路能力:
监控系统数据集成,构建集中数据仓库,实现数据智能分析和建模能力赋能:
基于后台监控数据服务能力,构架个性化场景监控工具系统:
第三阶段:一体化运维监控平台
基于企业 ITOM 运维管理一体化建设中,监控平台与周边运维系统,如配置管理、云资源管理、运维流程管理以及自动化管理,彼此相互依赖及融合。
版权声明: 本文为 InfoQ 作者【嘉为蓝鲸】的原创文章。
原文链接:【http://xie.infoq.cn/article/45e41b5d1d1cf09d91c5837b1】。文章转载请联系作者。
评论