写点什么

华为云确定性运维,为政务云平台稳定可靠运行保驾护航

  • 2022-10-14
    中国香港
  • 本文字数:2329 字

    阅读完需:约 8 分钟

华为云确定性运维,为政务云平台稳定可靠运行保驾护航

本文分享自华为云社区《华为云确定性运维,为政务云平台稳定可靠运行保驾护航》,作者: SRE 确定性运维 。


当人们要办护照,希望户政 APP 是可用的;当人们要取公积金,希望网上行政大厅是可用的;当人们要扫场所码,希望健康码 APP 是可用的……


近年来, 数字化经济下, 云上业务规模的快速增长与深入云化改造, 让系统的复杂度不断提升, 对云上的运维也提出了新的挑战。6 月 23 日,国务院印发《国务院关于加强数字政府建设的指导意见》(下面简称《指导意见》),指出“持续优化利企便民数字化服务,提升公共服务能力。”电子政务已经与我们生活的方方面面紧密联系在了一起,持续稳定地提供服务是政务系统的目标,也是面临的挑战。各厂家的云平台早就引入了微服务、云原生技术,也早就用上了 DevOps 开始模式,业务规模也在快速增长。


面对这些挑战,在“一切皆服务”的战略下,华为云基于积累的综合治理经验,提出并实践了“确定性运维”方案,继在公有云平台取得了很好的应用效果后,希望也能帮助政府用好云、管好云,增强政务云平台的稳定可靠性,满足政府对一站式服务和业务全流程贯通的需求。


什么是“确定性运维”


稳定可靠是平台的生产力与核心竞争力。华为云首先通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,在持续挑战零故障的同时,采用一定的技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,把云化带来的“不确定性”通过运维变成“确定性”。


基于开发团队与运维团队高度协同的合作模式,通过设计和落地高可用架构的产品来提升云平台的可靠性、可恢复性以及缩小故障影响范围,并采用动态清零的风控方法阻断风险。为给客户提供低成本、高质量、高效率的运维服务,华为云重点投入并开发了高度智能的运维服务平台。


其中,高可用架构目的是做到现网少出事(变更自动化、灰度发布、故障自愈、冗余设计、安全生产)、故障恢复快(容灾双活、过载流控、服务依赖管理、应急预案与演练,变更回退)、不出恶性事件(基于站点的架构、随机分片、区域隔离、可用区独立)。


动态清零风控是用 AI 能力实现风险冒泡,并及时清除;持续提升监控、定界与快速恢复能力;构建混沌工程等主动运维能力;用数据智能支撑持续的自我改进。


高度智能的运维框架依托数据中台,结合先进的算法,实现智能告警、智能故障定界、自动恢复等。



“确定性运维”模式的应用


《指导意见》指出“到 2025 年,与政府治理能力现代化相适应的数字政府顶层设计更加完善、统筹协调机制更加健全”。“坚持整体协同。强化系统观念,加强系统集成,全面提升数字政府集约化建设水平,统筹推进技术融合、业务融合、数据融合……”。


政务云作为保障城市稳定运行的数字底座和基石,其承载的民生应用也越来越多,每个应用的架构稳定性能力、弹性能力、监控能力各不相同,如何加强一个“城市”的统筹能力,提升整体数字化、智能化水平?


华为云“确定性运维”实践中有一个“直营与加盟”的运作模式,目的是为了“一体化”管理云上 200 多个云服务应用,对运维流程、工具、人力进行治理,做到一套管理体系、一套技术标准、一个统一的平台,最终实现高质量的运维结果。其原则有四条:


1、运维指挥中心和产品技术能力中心解耦;


2、“直营店”:部分业务由运维中心直接管理和构建能力;


3、“加盟店”:部分业务由伙伴团队管理和构建能力,遵循运维中心“行管”;


4、“统一平台”:所有业务逐步纳管到统一运维平台上进行监控。


在管理政务云上大量应用的时候,可以参考以下方式:


1、组建运维中心,梳理分工,区分“直营”或“加盟”。针对负责关键应用技术运维的团队,完成对关键应用的“直营”。重点组建可用性技术团队统一构建关键能力和标准,组建运维管理团队对所有应用的稳定性、账号安全等进行管理;


2、梳理运维流程体系,梳理可用性架构标准和运维平台对接标准,全网统一推行;


3、构建统一的智能运维平台,逐步完成应用统一纳管、统一监控、统一大屏展示;


4、例行召集运维经理联席会,对“加盟”团队的运维质量和能力建设加强管理。


“确定性运维”成熟度模型的应用


为了帮助云上应用提升运维能力,“确定性运维”有一套成熟度模型帮助云上应用对自身能力进行评估,并拟定能力提升目标。比如“基本运维”能力向“标准化运维”进阶,然后再进一步向“SRE 转型”,进而再提升到“初步确定性”。运维能力提升不仅是运维团队的工作,还需要拉通产研等周边团队共同运作,是一个“一把手”工程。基于实践经验,第一级到第二级通常要三个月,第二级升级到第三级至少半年以上,第三级到第四级则需要一年以上,第四级到第五级则是更加复杂而细致的工作,需要一个长期的投入。


在应用向“确定性”进阶的过程中,可以先针对具体的能力项进行评估,灵活选择待优化的项目。基于实践经验,目前政务云处于应用大量上云的过程中,在第一阶段应优先完善“上线管理”,“监控设计”能力,并同步梳理“应急恢复能力”;此外,还需同步完善 ITSM 等运维工具,提升运维的标准化和效率。基于第一阶段,下一阶段可以逐步着手改善产品的可用性架构,同步构建“混沌工程”,如此可尽可能地提升效率。



云上运维在实践中能够发挥价值,背后也离不开工具、运作机制的支撑。随着政务应用上云,需要将一切风险因素考虑在内,华为云确定性运维解决方案基于在公有云平台的实战演练经验,构建了一套完整的面向政务云云上应用的一体化运维服务,以此来保障政务云云上应用的持续稳定可靠运行。


未来,华为云将持续关注政府侧的数字化应用需求,与行业伙伴共同探讨运维能力升级路径与方法,共同构建“确定性”的运维世界,以匠心打磨极致服务,努力解决政府在用云、管云中的“疑难杂症”,为政务云平台稳定可靠运行保驾护航。


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 4
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
华为云确定性运维,为政务云平台稳定可靠运行保驾护航_云计算_华为云开发者联盟_InfoQ写作社区