嘉为蓝鲸 2025 年应急灾备中心 V2.0:精细化权限管控,全流程打通保障业务连续

官网原文(免费申请演示):嘉为蓝鲸应急灾备中心V2.0全新升级:智能故障排查定位,应急全流程打通,应急效率与体验全面革新
嘉为蓝鲸应急灾备管理中心•鲸盾(简称:应急灾备中心)是一款致力于建立一套完整的 IT 应急灾备管理体系,以快速恢复业务为核心目标,从故障应急和灾难应急两个方面,持续提升业务连续性保障能力的产品。故障应急通过故障预防、故障发现、故障响应、故障定位、故障恢复、复盘改进 6 个环节形成故障应急闭环管理;灾难应急是 IT 应急的最后一道防线,通过平时的常规演练以及战时的随时可切,保障业务的可持续性。

01. 发布总览
2025 年秋季,嘉为蓝鲸应急灾备中心 V2.0 全新升级!新版本已实现智能故障排查定位能力,沉淀运维专家故障排查处置经验,并引入 AI 大模型实现智能分析诊断;实现应急事中全流程打通,包括告警事件可配置化接入、新增故障排查定位环节、业务指标观测、主动进群进会、自动生成 ITSM 故障单等功能,全面提升应急效率和体验;实现灾备切换服务升级,包括灾备切换流程的一键式导入、多层级精细化耗时统计以及丰富的灾切演练大屏,进一步提升用户使用体验;实现插件管理、ITSM 审批和精细化权限管理,满足外部接口可插拔式对接,合规管理以及应急数据安全管控的需求。
02. 智能故障排查定位
应急事件处置恢复效率的提升包括三个方面,一是响应与协同;二是排查与定位,三是处置与恢复,故障排查定位是提升应急处置效率的关键技术环节,确定了问题所在等同于问题解决了一半。嘉为蓝鲸应急灾备中心基于应急项目的实践经验,将故障排查定位能力回流到产品,补齐应急事中的关键环节。
通过沉淀运维专家排查诊断经验并结合 AI 大模型智能分析总结,可实现已知故障场景的精准定位,通过一键式执行,大大提升排查定位效率。

内置丰富排查定位插件,支持可配置化扩展:内置告警数据查询、监控指标查询、日志数据查询、CMDB 对象数据查询、数据统计分析、AI 智能分析等插件,并可根据客户实际需求进行原子插件开发和可配置化扩展。

支持全局变量、条件分支和格式化输出:支持全局变量与上下文传参,支持条件分支判断,保证最小化的输入与精细化的条件分支决策;支持输出参数的格式化输出,包括文本、表格、markdown 三种格式,保证输出数据的可读性。

03. 应急事中全流程打通
实现了告警事件可配置化接入、新增故障排查定位环节、业务指标观测、主动进群进会、自动生成 ITSM 故障单等功能,打通了应急事中全流程,全面提升应急效率和体验。

告警事件可配置化接入:对接嘉为蓝鲸告警中心,通过告警策略配置中的消息通知渠道,将疑似应急事件的告警主动推送到应急事件管理。

一键式故障智能排查定位:新增应急事中故障排查定位环节,用户可一键式执行故障排查定位流程,对当前故障事件进行排查定位。

故障排查流程通过告警查询、对象查询进行分析判断,识别告警对象与告警类型,同时联动相关告警指标以及日志信息进行综合分析判断,得出初步结论,最终将所有数据信息给到 AI 大模型,得出最终结论。

AI 分析结论:

业务指标观测、阶段计时、主动进群进会、自动生成 ITSM 故障单:丰富和完善应急事中能力,包括业务指标观测、应急各阶段计时、一键建群拉会之后的主动进群进会、事件解除时自动创建 ITSM 故障单等功能,提供一站式应急服务。

04. 灾备切换服务升级
实现灾切流程的一键式导入、多层级精细化耗时统计以及丰富的灾切演练大屏,进一步提升用户使用体验。
灾切流程一键式导入:支持通过 excel 流程模板导入自动生成系统切换流程,简化用户操作,提升用户使用体验。

导入模板:

演练报告展示切换执行流程多层级、精细化的耗时统计:支持流程步骤、节点、子节点的耗时统计,支持总耗时和 RTO 耗时统计,支持部分步骤耗时不计入 RTO 耗时统计。

支持丰富的大屏展示:默认支持两块灾备演练大屏的展示,可动态展示各步骤、节点的切换执行展示,耗时统计、应用切换进度统计、日志输出等。


05. 可扩展式插件管理
实现外部接口通过插件的方式进行统一接入与管理,便于同类型接口替换时只需上传对应插件包即可正常使用。比如 IM 工具的对接,对于不同的客户,聊天工具的选择分别对应企微、飞书或钉钉,那么用户只需要替换对应的插件包上传、调试成功后即可正常使用,大幅提升了产品的可扩展性,并实现快速交付。

06. 精细化权限管理
应急灾备管理中心实现页面访问权限、操作按钮权限和数据权限的精细化管理,保证应急数据与应急操作安全管控。
应急系统接入蓝鲸平台权限中心,实现页面访问权限与功能操作按钮的统一管理。

应急系统在各功能模块页面,实现实例数据的编辑、审批和执行权限的细粒度管控,实现数据权限的精细化管理。

嘉为蓝鲸应急灾备中心V2.0 版本以“自动化”和“智能化”为核心,通过沉淀专家经验并与 AI 智能分析相结合,实现应急事件的快速排查定位与处置;通过丰富完善应急事中排查处置手段与可观测业务指标,并联动鲸眼告警与 ITSM 故障事件,实现应急全流程的打通;通过一键式流程导入,丰富的可视化大屏与精细化演练报告,全面提升用户体验;通过可扩展式插件管理,和精细化权限管理,实现产品的快速交付与信息安全管控。
未来版本将会持续升级应急灾备中心的“自动化”与“智能化”能力,包括告警精准匹配,排查定位流程自动化执行、预案自动推荐、故障排查手段进一步丰富完善等,同时沉淀更多通用化排查处置场景,打造新一代的“自动化”“智能化”“场景化”的应急灾备管理平台。
评论