写点什么

国产 IT 运维监控系统标杆之选:Gartner 推荐的嘉为蓝鲸全栈智能可观测中心——IBM Tivoli 国产化替代实践

作者:嘉为蓝鲸
  • 2025-07-03
    广东
  • 本文字数:4744 字

    阅读完需:约 16 分钟

国产IT运维监控系统标杆之选:Gartner推荐的嘉为蓝鲸全栈智能可观测中心——IBM Tivoli国产化替代实践

在数字化转型与国产化替代的双重驱动下,企业对国产 IT 运维监控系统的需求迎来爆发式增长。以 IBM Tivoli 为代表的国外监控产品,因厂商支持力度减弱、本土化服务退化及技术架构陈旧等问题,已难以满足企业对国产化、自主可控和云原生环境的迫切需求。而国产运维监控系统——嘉为蓝鲸全栈智能可观测中心・鲸眼(以下简称 “全栈智能可观测中心”)凭借自主研发优势、深度适配本土 IT 生态、快速响应服务等特性,正成为企业构建自主可控运维体系的核心选择。

作为腾讯大规模 IT 生产环境锤炼出的国产运维监控系统,基于腾讯蓝鲸平台打造的嘉为蓝鲸全栈智能可观测中心,不仅具备一体化融合设计、开箱即用的信创生态支持、云原生监控能力及本土化服务优势,为企业替代 Tivoli 提供了高性价比的全栈观测解决方案。更凭借在国产运维监控系统与运维监控领域的技术创新,多次获得 Gartner 推荐:

  • 2024 年,嘉为蓝鲸入选《2024 年中国基础设施战略成熟度曲线》报告,成为中国 AIOps、中国 APM 和可观测性、OpenTelemetry 三大领域的代表厂商;

  • 2022 年,Gartner 在《Toolkit: Vendor Identification for Infrastructure Monitoring Tools in China》中对其予以推荐;

  • 2025 年,嘉为蓝鲸日志中心与应用性能观测中心(APM)更入选 Gartner《中国智能 IT 监控与日志分析工具市场指南》,成为专用工具提供商。

本文将通过现状分析、场景覆盖、国产化适配等维度,解析全栈智能可观测中心如何破解传统监控工具困局,助力企业构建自主可控的智能运维体系。


01.全栈智能可观测中心与 Tivoli 现状分析


1)全栈智能可观测中心:深度融合,自主可控

  • 自腾讯大规模 IT 生产环境孕育诞生的解决方案级别的产品平台,从数据模型到流程管控再到功能操作和展现,全部是一体化融合设计,而非简单的产品组合和模块堆叠;

  • 作为国产运维监控系统,所有开发测试和部署运营支持团队均在国内,产品持续迭代,快速服务响应,完全自主可控;

  • 一体化融合设计的国产运维监控系统,支持不同规模的 IT 环境运维监控需求,支持容器云部署和弹性伸缩;

  • 单一 Agent(GSE Agent)结合采集插件方式,实现运维监控相关的不同类型数据采集获取、自动化操作(作业脚本与命令)和文件分发,体现国产运维监控系统的高效性;

  • 集成告警中心、监控中心、日志中心、应用性能观测中心(APM)和业务监控五大产品能力,形成全栈智能可观测的国产运维监控系统。


2)Tivoli:多源技术组合,本土化适配受阻

  • 核心产品能力通过收购业界优秀公司实现技术组合,如系统应用监控产品 ITM/ITCAM,收购自 20 多年前的 Candle,Netcool 系列产品(OMNIbus, Impact, ITNM, NCM,NPM 等)收购来自十多年前的 Micromuse 公司,Instana 也是三年前新收购的公司;

  • 产品专业性虽强,但可视化效果一般,且操作和使用门槛很高,遇到产品问题时可能都需要原厂商的专业人员才能支持解决;

  • 传统产品如 ITM/ITCAM,及 Netcool 系列产品均为单体式架构设计,需要搭建之初量体裁衣,无弹性伸缩,后续扩充也需要用户投入大量人力时间;

  • 本地服务支持团队近年萎缩严重,最近更是关闭了 IBM 中国研发实验室,这也说明在国内已经终止了 IBM 产品相关的所有本地化开发和支持工作;

  • 传统产品如 ITM/ITCAM、Netcool/OMNIbus 等已陆续宣布停止厂商支持,迫使存量客户要么选择继续复购升级,要么寻找其他监控替代品。


3)全栈智能可观测中心与 Tivoli 的监控能力替换

备注:容量管理与服务器管理属于基础设施运维范畴,不在可观测性(Observability)的能力覆盖范围内。作为全栈可观测平台,全栈智能可观测中心当前暂未集成这两类功能模块。但嘉为蓝鲸已提供独立的解决方案,包括智能报表系统和自动化运维平台,可有效满足国产运维监控系统用户的相关需求。


(1)全栈智能可观测中心的全面性

  • 唯一支持所有 16 项能力:在容器监控、中间件监控等关键领域填补了 Tivoli 产品的空白。

  • 告警管理全覆盖:支持全链路告警功能(列表、去重、丰富化、规则、自动化响应、关联分析),而 ITCAM 告警能力几乎全线缺失。


(2)Tivoli 系列产品的局限性

能力割裂严重:

  • ITM:强于基础监控(操作系统/数据库/硬件),但缺失 APM、中间件、容器及告警去重/丰富化能力。

  • ITCAM:专注 APM 和容量管理,但告警功能全面缺失(仅支持 5/16 项能力)。

  • Omnibus:仅擅长告警管理(支持 6 项告警功能)和 MIB 管理,基础监控能力为 0(操作系统/数据库等均❌)。

容器监控全军覆没:

三款产品均不支持容器监控,无法满足云原生需求。


(3)国产方案的不可替代性

  • 容器与云原生支持:全栈智能观测中心是唯一支持容器监控的方案,适配现代 IT 架构。

  • 告警闭环能力:集成告警全流程管理,而 Tivoli 需组合多产品(如 ITM+Omnibus)才能部分实现。

  • 关键能力补足:在 Tivoli 的薄弱项(如中间件监控、硬件监控)上均提供支持。


国产化替代的核心价值


以下将通过具体场景对比,进一步阐述全栈智能可观测中心的核心价值与落地实践。


02.全栈智能可观测中心与 Tivoli 的监控场景对比

IBM Tivoli 需通过多个子产品组合实现监控(ITM 负责基础架构、ITCAM 侧重组件监控、Omnibus 处理事件管理),复杂度高且维护成本大。而全栈智能可观测中心作为现代化国产运维监控系统,旨在提供一个更现代化、更统一、更能开箱即用的全栈可观测平台,在大部分的监控场景中,全栈智能可观测中心一个产品就能实现 Tivoli 三个子产品的效用:


1)基础架构与组件监控

国产运维监控系统全栈智能可观测中心提供开箱即用的监控能力,覆盖操作系统、数据库、中间件等基础组件,支持通过插件化方式对接各类信创环境。相较于 ITM 的基础资源监控和 ITCAM 的组件级监控,全栈智能可观测中心通过统一数据模型实现指标、日志、追踪、告警数据的融合采集,显著降低了多系统集成的复杂度。平台提供 SDK、标准协议和自定义插件三种接入方式,满足国产运维监控系统的企业级全栈观测需求。





2)虚拟化与容器监控

全栈智能可观测中心这款国产运维监控系统不仅支持 OpenStack、VMware ESX 等虚拟化平台监控,还能一体化纳管云环境,通过插件化扩展实现公有云、私有云的全面监控。在容器监控领域,其支持原生 Kubernetes 接入,提供从基础设施到 PaaS 层的完整监控链路,有效支撑企业云原生转型,而 Tivoli 对容器技术的适配能力薄弱,难以满足国产运维监控系统用户的现代化架构需求。




3)硬件设备监控

在硬件设备监控领域,Tivoli 主要依赖 SNMP 协议监控网络设备,对物理机、存储设备的监控能力有限。而作为国产运维监控系统,全栈智能可观测中心支持 SNMP、IPMI、SMI-S、Trap 和 Syslog 等多协议,实现硬件设备的指标、日志、告警统一监控,覆盖网络、物理机、存储等全品类硬件,体现国产运维监控系统的全面性。



4)应用性能监控

Tivoli 体系中的 ITCAM 虽然提供 APM 能力,但常局限于对特定应用的监控,如 SAP 和其他企业资源规划 (ERP) 应用程序。与其他 APM 工具相比,ITCAM 的集成能力非常有限,且安装复杂,用户界面陈旧等原因难以在国内推广。

而国产运维监控系统全栈智能可观测中心则采用现代化的探针埋点服务进程的方式,自动探测分布式服务端到端调用链路,自动生成服务调用拓扑,从应用、服务、接口、调用 4 个层次层层深入,监控应用的健康状态和调用性能;并支持基础资源监控进行联动和下钻分析,辅助问题根因分析,提升问题定位效率。同时还支持应用服务调用视角、应用资源关联视角、服务分析视角、接口分析视角、Trace 调用链路视角多视角分析查看和追踪问题。




5)告警事件闭环能力

Tivoli 将高级事件处理能力(如去重、丰富、关联)集中于 Netcool/OMNIbus,子产品 ITM 中只具备基本的告警列表、规则和处理能力,并且事件规则的配置需要专门的技能进行脚本化配置和维护。

全栈智能可观测中心则将从告警管理、规则配置、处理、自动化转工单到抑制、屏蔽、丰富、关联分析等全流程能力内建于平台。其核心优势在于提供了可视化的告警规则配置界面,大幅降低了使用门槛,使普通运维人员也能轻松掌握和维护,促进告警规则的持续优化和知识沉淀,从而不断提升告警的准确性和有效性。


Omnibus复古的配置页面,理解和配置门槛都很高





03.全栈智能可观测中心替换 Tivoli 事件规则实操

截至目前,已有近十个项目成功将 IBM Tivoli 替换为国产运维监控系统全栈智能可观测中心。一个核心且常见的需求是将 Tivoli 系统中长期积累的事件规则迁移至全栈智能可观测中心平台。然而,这项任务面临一个关键挑战:Tivoli 的事件规则通常以脚本形式存在,这些脚本往往缺乏清晰的文档记录,甚至客户自身也难以完全解读其复杂的逻辑。这种不透明性直接导致在全栈智能可观测中心中准确、完整地复现这些关键规则变得异常困难。

过去,这一迁移过程高度依赖具备深厚 Tivoli 专业知识的专业人员进行人工分析和解读,不仅耗时费力,实施效率也因此受到极大限制,项目周期常常被拉长。

幸运的是,随着大语言模型(LLM)技术的兴起与应用,全栈智能可观测中心团队探索并实践了一套创新的解决方案。我们现在可以利用大模型对 Tivoli 的规则脚本进行自动化分析,智能地生成一份详尽且易于理解的规则说明清单。

具体操作流程得以显著简化:实施团队现在只需将客户提供的 Tivoli 规则脚本文件,输入大模型进行分析,即可快速获得一份清晰、结构化的规则逻辑描述文档。基于这份文档,运维人员便可以参照具体的说明,在全栈智能可观测中心友好的可视化界面中高效、准确地完成相应告警规则的配置。

Tivoli导出的规则脚本清单


自动化分析后的脚本说明清单


04.更多全栈可观测能力

全栈智能可观测中心作为嘉为蓝鲸倾力打造的一款全栈可观测产品,作为成熟的国产运维监控系统,经过持续迭代,已覆盖业务全栈系统资源监控、K8s 容器监控、云平台监控、硬件设备监控、网站服务拨测、日志统一管理、应用性能观测、业务场景监控、告警闭环管理等多个领域的可观测场景,满足国产运维监控系统用户的多样化需求。

为了实现上述各种观测场景的落地,产品设计上结合 PaaS+SaaS 的理念,抽象各个场景的公共能力,融合成一套底层能力框架,并且能够和企业内的运维体系工具联动集成,支撑上层的场景扩展,以适应企业不断变化的可观测场景和管理诉求。

图中由下而上,依次是监控对象、数据集成、数据中台、能力中心、观测场景五层以及外部集成模块。


  • 监控对象:按照业务系统分层逻辑,划分归纳企业内需要监控对象,分别有数据中心的机房机柜动环对象,计算、存储、网络、安全等硬件设备,虚拟化、云、OS、容器等系统资源,数据库、中间件等通用基础组件,业务、应用场景、服务等业务应用,全面覆盖国产运维监控系统的监控范畴。

  • 数据集成:基于 Agent、Plugin、SNMP、Script、JMX、JDBC/ODBC、OT 协议、SDK 探针、拨测、数据上报管道等多种数据接入的渠道,实现性能指标数据、日志数据、Trace 链路数据、事件数据、告警数据的集中接入,保障国产运维监控系统的数据全面性。

  • 数据中台:集中提供数据清洗、数据传输、数据存储、数据查询、数据计算能力,为国产运维监控系统的高效运行提供支撑。

  • 能力中心:按数据类型提供不同的数据处理能力。例如指标数据的检测、预测、关联、检索能力;日志数据的解析、关键字、聚类、检索能力;Trace 数据的链路、拓扑、关系、分析能力;告警数据的去重、收敛、关联、根因分析能力;以及面向用户的仪表盘、报表、数据检索的视图能力,构建国产运维监控系统的核心技术壁垒。

  • 观测场景:按照可观测领域划分的监控中心、日志中心、应用观测中心、业务监控、告警中心五大核心场景,基于这些通用场景之上的数据联动分析场景,以及用户基于观测能力自行构造的场景,丰富国产运维监控系统的应用维度。

  • 外部集成:可以两部分考虑:一是从外部系统采集数据,例如对接第三方的监控、告警、日志系统获取对应的数据进行集中管理;二是对接外部的系统进行联动管理,例如对接外部 CMDB 进行监控对象管理,对接外部的自动化系统和工单系统进行告警处置等,增强国产运维监控系统的生态适配性。


05.结论

总的来说,在国产化替代与云原生转型趋势下,全栈智能可观测中心作为领先的国产运维监控系统,凭借一体化云原生架构、全栈端到端可观测能力及信创生态支持,全面突破 IBM Tivoli 因架构陈旧、国产化适配不足、多产品割裂导致的运维瓶颈,助力企业通过优先替换容器监控、云平台监控及业务观测等 Tivoli 薄弱环节,快速实现从“被动救火”到“智能预防”的运维模式升级,彰显国产运维监控系统在数字化转型中的核心价值。

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
国产IT运维监控系统标杆之选:Gartner推荐的嘉为蓝鲸全栈智能可观测中心——IBM Tivoli国产化替代实践_AIOPS_嘉为蓝鲸_InfoQ写作社区