银行业运维指标体系建设实战
背景
银行 IT 系统在云化、容器化、中心化、微服务等架构迭代演化进程中,系统架构和业务调用关系复杂,运维管理难度日益凸显。银行业务系统多采取烟囱式建设方法,数据互通困难,运维团队无法做到及时响应、及时发现并解决问题。目前,银行业整体上已具备结合业务场景收集比较完整的 IT 指标数据的能力,亟待一套指标数据分析体系为 IT 管理与业务分析提供可量化、可视化、集约化的决策支撑。
然而,中国银行业在实践指标管理体系的过程中会遇到以下几方面的挑战:
统筹全局运维数据源的挑战
中国银行业正处于传统向互联网转型期,云计算、大数据等新兴技术也在逐步开展,而且银行业需要海量的 IT 计算力和实时的响应速度才可以满足持续推出创新业务的诉求。简言之,银行业运维数据源的数据量级在增加,而业务部门对实时处理响应时间的期望值在减短。
此外,对于单个业务部门的指标数据,可以依赖个人对业务场景的经验快速作出判断并应用于 IT 运维管理工作。但银行系统时时刻刻都会产生海量的指标数据,IT 管理人员无法判断指标数据对于业务的重要性、优先级,更无从下手梳理指标数据与业务的关联性,从而无法聚焦某个业务场景内的指标数据,导致指标数据无法发挥出其潜在价值。
持续创新智能算法库的挑战
中国银行业数字化转型正在挑战 IT 的组织和管理方式,技术正在越来越多地集成于业务,IT 不再局限于支持技术,更是创新的推动力。银行业由于自身的特性,对于加速创新业务的诉求迫在眉睫,而针对业务场景创新的智能算法模型正是解决此类诉求的不二法宝。
跟跑智能运维新理论的挑战
智能运维虽然已经发展多年,但仍处于探索阶段。指标管理体系实践过程中需要持续学习、吸收智能运维领域中像 ITIL 4 和 IT4IT 等标准的新理论体系,才能让指标管理体系发挥出对业务智能运维的巨大推动作用。
银行指标管理体系落地实战
一套完善的指标管理体系应基于企业业务和 IT 运维管理的顶层规划,将各个业务系统的孤立数据进行分类、分层管理,从而通过更系统、更有层次的方式来展示业务场景的指标数据,使之成为以数据为驱动、面向业务运维监控与管理的落地抓手,让 IT 管理员能够将繁杂的 IT 管理工作升维从简,在改善 IT 管理方式的同时提升企业整体的 IT 运营效率。
01 落地实施方案
某银行指标管理体系的实施落地项目基于顶层指标管理驱动,从业务视角切入,以业务场景为主题、以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建了一套具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的指标管理体系。
首先,从银行的核心业务场景开始,通过专业运维数据库平台对应用系统的 IT 数据源及业务数据源进行统一数据采集、指标提取和数据存储;之后,针对银行业务的特点及业务部门的需求,进行指标管理体系咨询、调研,对 IT 数据和业务数据进行指标梳理和方案建设,形成指标规范与实施制度;然后,结合指标规范与实施制度进行指标体系管理,最终以功能模块及平台模式的方式完成该银行指标管理体系的建设。同时,根据银行业日常运维场景,在指标管理体系平台的上层应用中实现工作台、可视化管控和 AIOps 等功能模块的落地。
02 指标体系建设
1. 业务调研:聚焦业务场景、梳理业务指标
通过业务调研,梳理该银行的核心业务,包括线下支付(比如:柜面存款)、线上支付(比如:手机银行)、财富管理等,根据业务关注度和用户体验影响度,同时结合业务部门的汇报报表和领导决策时参考的业务指标,梳理出核心业务场景的关键指标,示例如下:
2. 数据接入:拓扑 IT 调用链、度量技术指标
经过调研银行 IT 系统及自动化配置平台的数据,梳理出支撑银行核心业务的应用系统,比如全渠道支付系统、支付前置系统、支付清算系统等;每个业务系统都有完备的 IT 系统,根据核心业务系统的监控现状和指标关注度,按照自上而下调用链的依赖关系分为五层的技术指标监控体系:应用层、服务层、中间件层、进程层(虚拟层)、主机层,结合多个银行案例的指标管理体系建设经验对监控源进行指标管理体系建设,搭建各层指标之间依赖拓扑的关系矩阵,示例如下:
上述各层的技术指标都是一条独立的实时序列数据流,通过银行自动化配置平台的配置项数据建立各层技术指标之间的调用链拓扑关系网,示例如下:
3. 模型配置:量化业务关注度、建模指标健康度
搭建完成指标管理体系的架构分层后,结合核心业务指标,以结果导向的逆向思维对各层指标的权重进行评定:业务指标的稳定依赖业务子系统的稳定、业务子系统的稳定依赖 IT 应用系统的稳定、IT 应用系统的稳定依赖 IT 系统各层级的稳定、IT 系统各层级的稳定依赖于各项技术指标的稳定,那么当原子级的技术指标不稳定时如何风险升级向上渗透呢?通过对技术指标进行级别评定、权重分配的方式加权计算量化各项技术指标的影响力。
例如,柜面存款是最核心的基础业务系统,需要从生死线指标、关键指标和标准指标三个维度对柜面存款业务的健康度进行模型配置:
柜面存款的生死线指标:交易成功率;体现业务可用性的单个指标。
交易成功率的计算方式:单位时间内的交易成功数除以相同单位时间的交易总数。
柜面存款的关键指标:请求成功率、平均响应时间;直接影响业务态势的一组技术指标。
指标解读:当成功率低于预期阈值时,直接说明终端用户在使用柜面存款功能时,业务操作频繁失败,进而影响用户的使用体验,导致客户流失率提升。
柜面存款的标准指标:内存使用率、CPU 使用率;与业务态势相关的单个监控类技术指标。
指标解读:当主机层物理资源的 CPU 使用率、内存使用率突升时,可能会引起 IT 应用系统单节点的不稳定,但在微服务化、分布式架构的背景下该风险不会蔓延影响到业务层。
对指标进行生死线指标、关键指标、标准指标的分类评级是为了更准确的量化定义每个指标对业务主题健康度的权重,是建模业务场景健康度的重要影响因子,即通过加权计算所有技术指标的权重获得业务场景的健康度评分。
经过定义健康度、设置权重后,建立起覆盖柜面存款业务的健康度模型,示例如下:
4. 全局概览:工作台概览业务场景、应用墙俯瞰指标态势
工作台作为指标管理体系的上层应用,承载了指标体系管理的设计理念,即支持从业务场景墙、应用墙、服务墙、中间件墙、主机墙等页签查看各层的健康度态势;通过统一管理业务指标与 IT 指标的健康度,进而支持从业务场景墙联动查看 IT 系统各层的技术指标健康状态,最终保障业务运维的连续性。
• 业务部门的运维视角
业务部门通过业务场景墙概览各个业务场景的健康度评分,点击业务场景下查看该业务场景依赖的子业务系统拓扑图,通过颜色标识(绿色表示健康、橙色表示危险、红色表示灾难)直观地了解业务子系统中各 IT 应用系统的运行态势,点击 IT 应用系统支持查看各项关键指标的运行状态及趋势图,赋能分析业务场景的健康状态,精准定位源头、提升跨部门沟通效率。
业务视角-业务子系统依赖拓扑图
业务视角-业务子系统运维态势深度分析
• 技术部门的运维视角
运维部门通过应用墙、服务墙、中间件墙、主机墙概览 IT 应用系统各层技术指标的健康度评分,点击查看部门负责的 IT 应用系统后看到该 IT 系统各层的指标体系拓扑图,点击各层的实例对象查看该实例对象的各个指标对象的运行状态、趋势图等实时数据,赋能排查 IT 系统技术指标的异常项,预防于事前、告警于事中、回溯于事后,改变运维方式、提升运维效率。
运维视角-应用系统的立体拓扑图
运维视角-实例对象指标态势的深度分析
总结与展望
上述银行指标管理体系实战取得的成果可归纳为如下两方面:
• 通过分层串联调用链的立体化构建理念增强了运维流程的完整度:打通了 IT 运维流程各层级应用系统的调用关联,做到端到端覆盖,保障 IT 系统运维连续性、提升整体系统运维效率。
• 通过结合业务与运维的拓扑可视化设计理念提升了业务运维效率:提高了业务黏合衔接运维的透明度,基于度量驱动流程进行优化,从而建立高效协作、高度授权和持续改进的组织文化。
银行业的 IT 系统建设正在升级演进阶段,业务运维的瓶颈点也在“闪转腾挪”。指标管理体系也会在流程精细化、算法智能化、运维一体化的方向上乘胜追击、乘势而为。
评论