什么技术,让浩鲸科技拿下中国移动大奖?
导读:为进一步强化 IT 系统的支撑服务能力,保障业务连续性,切实提升客户感知,自 2021 年 9 月 17 日至 12 月 26 日,中国移动信息技术公司组织开展了“百日无故障”专项活动。
浩鲸科技受邀参加,在高效、高质量产品保障支撑下,集中结算业务系统实现了全年稳定运行,并在获得了由中国移动信息计费清结算中心颁发的“融合提升奖”奖项。
我们将走进获奖背后的故事,为大家介绍其中的技术。
剑出“鲸”庐—打造一体化运维体系
随着集团各省份租户陆续上线,后期业务快速发展,纯手工运维出账严重影响出账效率。每月上百项出账任务,错综复杂,都需要人为进行判断以及执行,稍有不慎,就会引发系统故障以及客户投诉。据此,我们突破现状,根据集团特有的租户理念,打造租户一屏运维,创建多维工作平台,实现运维可视化、自动化、可移植化,使得效能大大提升。
01
一屏运维,实现运维在线闭环管控
集团租户一屏运维,提供在线事务管理功能及日常运维在线处理功能。其涵盖运维出账、数据稽核全程事务,每月定时进行实例化任务项,每天定时启动需要执行的任务项,实时结算,实时稽核异常数据,实现租户运维闭环管控,提升租户的运维能力。
运维出账事项在线化:针对省份梳理出的上百项出账任务,上千个出账环节步骤进行了在线配置,通过一屏运维界面,采用日历展示方式,清晰查阅本月每天执行事务并全流程跟踪。
运维出账事项自动化:对配置好的各项事务流程环节步骤,到点自动执行,并对执行后的结果数据进行自动稽核及告警。
运维出账事项闭环化:对结算数据进行自动稽核后,根据预判进入异常修复流程,进行自动化重处理,生产出满足出账要求的结算数据。
租户间出账事务复制:针对租户的新增,支持扩展引擎支撑网格结算,提供租户之间复制功能及全流程向导式配置指引(避免了租户成百上千的出账稽核流程、环节、步骤重复配置),减少人员投入,提升运维配置效率。
02
多维工作台,支撑结算运营可视化
多维工作台,是根据租户的多层次多角色管理,针对不同角色定义功能各异的工作台,各角色人员能够基于各自的关注点在此平台参与其结算工作。以“千人千面”的运维理念,提供不同角色关注点各异的日报、月报和工作台,通过多维在线报告掌握系统状况,促进各角色人员的事务提醒和快速处理。
集团领导视图:提供各省业务结算情况、同环比波动、系统健康度展示
集团管理员视图:提供当前业务结算情况、运维事务进展、各层告警视图展示
省份管理员视图:处理事务和告警、本省各业务结算情况、出账事务进展情况、系统业务各项指标展现
系统管理员视图:全景事务、各层告警情况、业务各项指标、出账情况、结算业务情况展示
系统运维人员视图:待处理事务和告警情况、出账事务进展情况,系统运行各项指标展现
日、月报展示:自动生成业务日、月报和运维日、月报, 无需人工整理输出, 系统根据日常出账情况数据,以及稽核过程数据,自动生成
03
结算智库和规则库,工于积累,传承有序
多维工作平台,不仅通过多维度的运维数据,稽核数据汇聚成各层面视图报告,推送到各角色人员进行查看,实时关注集中结算业务系统结算动态,高效地拉通了运维人员、管理人员及客户之间的协作,提升了系统运维效率,还提供共享规则库和结算智库的功能,快速落实新租户的交付和实施。
建设预置共享规则库,提供共性规则库从集团到租户间同步操作,加快新租户实施提升 SAAS 级租户模式,让新租户具备快速运营业务的能力。
根据租户的共性,建设结算智库,针对运维过程进行知识沉淀,对于重要功能进行引导,加快操作人员熟悉使用,完善落地全线文档,促进经验传承和分享。
编外:落地效果
一屏运维、多维工作平台的成功使用,使得结算产品的可用性、可维护性、可移植性都得到了大大的提升,极大改进了生产能力,2021 年,移动集团集中结算项目端到端人力投入从原来 45 人降低到 24 人,人效提升至 48W,人力与人效都直接提升 50%。
在移动集中结算三期实施中,根据各省业务特性,将进一步对一体化运维进行提升优化,总结实践经营,推广到电信佣金省份,提升结算相关产品运维效率。
众剑铄鲸-组建一体化团队
团队应该按项目的特征要求组建,不同的产品以及不同的阶段都会对团队的构成模式提出不同的要求,针对性越强必然越高效。围绕建立一体运维体系的目标,组建一体化团队进行支撑亦成必然。
01
组建端到端运维团队,进行全程总控
设立项目一号位,负责需求落地全过程管控。首先,统一负责需求任务入口和拆解,确保需求的可行性、有效性和有价性;其次各团队间,统一调度管控,打破团队壁垒,协调团队间合作,提升团队效率,促进团队良性发展;再次实时跟踪项目各环节和过程,确保需求按时按质交付到生产,对过程问题进行闭环跟踪处理,让需求从调研到落地流程化管控,保障需求的顺利实施。
02
规范研发团队管理,提升版本研发质量
采用敏捷研发模式,进行快速高效研发。首先,对需求进行场景、业务、流程的学习,明确需求业务场景;其次,组织站会,快速回顾前一天成果和问题复盘,不留问题积压;再次,定期开展学习沙龙,全员学习 Head First 设计模式,研究共性模块公用研发、通读 spring 源码、juc 源码等,提升代码质量和效能;按照季度进行代码互查,增强代码规范;最后,参与实施,进行业务场景扩充和深入了解,提升业务技能,通过一系列措施,加上研发人员对底层源码的精益求精摸索,全年版本研发故障率控制在 7%以下。
03
提高测试要求,保证版本交付质量
首先,测试工作前置,提前熟悉需求,进行需求分析,输出测试场景,负责产品版本测试,深入参与一线,支撑现场运维;其次,引入自动化测试,配置自动化测试案例,定时进行系统版本的回归测试;再次,增加现场版本验证环节,用于版本发布前验收测试,通过全场景数据覆盖以及深入一线支撑运维的方式,测试人员的业务能力和交付效能直线提升,全年版本交付故障泄露率控制在 1%以下。
通过需求、研发、测试流程可控有效规范管理,并采用自动化运维工具,充分调动各团队力量,保证了版本的计划、研发和交付质量,缩短了版本交付周期,让业务生产稳定运行无故障。
剑指一线-垂直交付
一体化团队造就了垂直交付模式。研发团队积极配合现场运维,深入一线,充分利用一屏运维和多维工作台的自动化功能,简化运维,提升运维支撑能力,让项目实施规范化、标准化。
第一,在现场构建模拟生产环境,进行功能场景、性能等验证,确保版本质量,稳健实施,针对重要的新功能进行高亮式操作指引,加快用户对新功能的熟悉,提升用户的体验。
第二,充分运用一屏运维和多维工作平台,将 100 多项出账事务配置到平台,进行出账事务可视化管理,自动化出账,建立预置数据,创建共性规则库,实现规则模板化,进行租户同步,快速落地新租户交付运营。
第三,提前稽核发现出账过程问题,根据系统运维自检输出配置不规范的报告,提前发现效率低下的配置进行调整,保证出账性能的稳定。
最后,需求积极结合版本实施,进行业务场景的可持续更新,实时跟踪,进行需求的迭代更新和规划,保证新旧场景的有序稳定更迭。
总之,规范、管理、技术上尽可能地以“围绕需求、追踪计划、堵住故障、截掉泄露”中心路线不偏移;坚持以不变应万变的,以万变应不变的心态;明确角色职责,坚持以让自己和客户都满意的目标,形成既定的打法和风格。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/0cc45986380fbc782041b07e8】。文章转载请联系作者。
评论