云上的米开朗基罗:在不确定时代,寻找建筑般的确定性
文艺复兴三杰之一的米开朗基罗,被称为“天才建筑师”。其实他一生留下的建筑并不多,仅仅有美第奇礼拜堂、卡比多广场、圣彼得大教堂穹顶等寥寥几座。但米开朗基罗却凭借对建筑层次与结构的精妙把握,影响了此后数百年的建筑风格。很多人认为,米氏特别擅长在立体的空间与繁杂的结构中,寻求建筑的最大确定性。得益于此,像圣彼得大教堂穹顶这样原本被认为不可能的作品才最终问世——探寻确定性,也就此成为建筑设计师的目标之一。
在今天,数字化和云化正在容纳一切。每天,不计其数的硬件连接云端,软件完成云上开发、迭代。这让云端变成了一个空前复杂的赛博空间,同时也产生了海量的不确定性。但是,这种不确定性又是必须被治愈和解决的。根据 GIV 预测,至 2025 年,全球企业云技术使用率将达到 100%。全面云化的不可逆趋势下,企业必须确保自身数字化、智能化过程中的安全、稳定与可靠。
(华为云贵安数据中心)
谁来再为全球企业寻得云时代的确定性呢?答案是运维团队。
过去,我们普遍认为运维应该是消防员,哪里着火扑灭哪里;但在云时代的浩瀚业务与海量数据面前,这种模式显然杯水车薪。于是,SRE 应运而生,云服务商和企业用户开始追寻确定性的运维价值。运维人需要成为“云上的建筑师”,去设计可靠的建筑结构,去预知建筑可能面临的种种风险,去构建安全与稳定的结构闭环。
在这样的背景下,华为云 SRE 团队,是国内成长最快、发展最好的 SRE 团队之一。他们不仅肩负起了华为云业务体系的运维确定性,同时还为行业带来了充沛的溢出价值。
今天,我们走进华为云 SRE,去了解一个运维人从消防员变成建筑师的故事,一个如何成为“云上的米开朗基罗”的故事。
图纸之下:不确定性叠加的云纪元
SRE,即 Site Reliability Engineering,站点可用性工程师。这个概念起源于 2003 年,主要针对传统 IT 运维中人工为主的操作模式,希望以整体设计、自动化工具取而代之。简单来说,SRE 的核心就是用软件而非人工,来解决运维与安全问题。
当时代的钟摆悄悄回荡,SRE 的价值愈发凸显了出来。因为在不经然中,我们已经来到了一个不确定性叠加的云纪元。
一个全云化的业务与服务系统,究竟会面临多少安全问题?可能谁也无法给出精准答案。网络异常、软件故障、流量洪峰、硬件老化、机房断电,都可能带来一次运维问题。甚至一次技术人员的岗位调换,都可能造成意想不到的考验。
而伴随着云原生的落地,云上承载的软件开发与业务上新更加频繁。增加新的业务模块,也将考验现网的稳定性与可靠性。随着云上软件开发与业务迭代成为常态,运维效率会成为考验运维团队与运维能力的最大难题。
另一个云时代的不确定性,来自云计算网络急速发展。随着现网规模的不断壮大,云服务体系连接的计算节点、用户节点都在不断增多,同时参加运维的人员规模也在不断增加。这种网络规模扩张,让运维不确定性呈现出几何级增长。传统意义上“头疼医头,脚疼医脚”的运维模式,将难以抵御网络规模的海量冲击。
这种情况下,就需要有一种工程性的方法,可以在承认这种不确定性的前提下,依旧能够保障云服务体系的稳定可靠。比如说,让运维能力参与到前端设计中来;强化运行中的动态风险治理;建设高可用,可用容纳故障与风险的业务架构——这些方法的统合,就是 SRE。
或许可以这样理解,SRE 就像是在充满不确定性的云时代,画上一张确定性的建筑图纸。它不是具体解决哪个运维安全问题,而是带来宏观的安全与可靠。
华为云 SRE,就是看到了这种必然趋势,同时积极进行了尝试与探索。
建筑师的眼与手:先一步成长的华为云 SRE
未来,云计算将会像水、电一样触手可及,随取随得。这个结论可以推导出一个必然:云计算体系,必须像电网、水网一样安全可靠。如今,我们再也不会常备蜡烛,预防停电。这背后的努力,是电网进行了大量运维工作来保障高可用——云计算也将如此。
在华为云的眼中,这个结论清晰可见。于是华为云自成立的那一天起,就成立了 SRE 团队。SRE 负责维护华为云的整体质量,看护整个云计算网络的安全与稳定运行。
(在新华社智库《中国云计算创新活力报告》中,华为云斩获安全可靠能力排名第一)
如今,华为云 SRE 这位建筑师,已经用双手画出了一张宏伟的“确定性”建筑图纸。在全球范围内,支撑着华为云在全球 170 多个国家和地区,超过 240 个云服务、370 万开发者和海量企业业务,以及百万级别的节点实例。这样庞大的业务蓝图,都需要 SRE 团队统一参与开发与部署规范,确保上线运维安全。
在这个过程中,华为云 SRE 的“看家法宝”,就是构筑了华为云的高可用架构,让云服务在产品开发的前端就具备高可靠、高可用特性。整体而言,高可用结构在应对故障时可分为三个维度考量:首先是软件具有确定性的失效率,确保不会频繁发生故障,将软件问题控制在一定范围之内;其次是给出确定性的恢复时长,明确可以在怎样的时间之内进行业务恢复;接下来是构筑确定性的爆炸半径,确保单点的故障扩散范围有限,只影响到很小的范围,而不影响整体业务。
在这样的架构下,最终华为云 SRE 实现了将可靠性、可恢复性、影响范围控制的特性全面融入,真正面向万千企业提供安全、可靠、高质量的服务承诺。从实际结果来看,在近几年华为云业务高速发展的同时,其出现的故障概率与故障烈度显著低于全球主流云厂商。或许可以说,华为云 SRE 的运维能力做到了与公司业务规模一同成长,甚至先一步成长。
米开朗基罗的“溢出”效应:让千万企业从 SRE 中受益
我们知道,数字化技术会在发展到一定程度时,出现明显的“溢出”效应。比如说数字化价值赋能,就从虚拟经济溢出到实体经济,带来了“数实融合”的发展契机。
对于华为云 SRE“建筑师”们而言,其也在云上运维的探索上展现出了明显的“溢出”效应。
华为云 SRE 的基础价值,就是通过确保华为云服务与网络的稳定,带给客户更好、更优质的云体验,尤其是在 Devops 的场景下,保障了华为云用户敏捷创新、快速迭代的开发模式。让用户不仅能够上云,还可以有质量地用云、有保障地用好云。
再向前走一步,华为云 SRE 通过服务客户与无数应用的经验总结,提出了“确定性运维”的发展方向与方法论,继而梳理出适用于云上业务的“确定性运维”能力体系和成熟度模型,供千行百业的企业进行参考。
这一业界独有“确定性运维”能力体系成熟度模型包含:第一级基本运维,即基础运维的能力构建,以此确保业务基本生存;第二级标准化运维,其能够将运维带到更加规律、规范的发展阶段,确保业务的稳定可靠;第三级 SRE 转型,意味着运维团队开始从“消防员”转型为“建筑师”,开始勾勒整体的确定性运维蓝图;在第四级,企业获得 SRE 带来的初步确定性,而到第五级企业将获得高度确定性。
在可见的未来,大部分企业都会上云,每一家企业都需要开发、运营软件的时代里,确定性运维可以说是一种刚性需求。即使每家企业的业务诉求与业务种类不同,但对稳定可靠的追求其实是高度统一的。
面向这一趋势,华为云 SRE 的一系列自我成长,都可以变成赋能万千企业的成熟价值。比如,通过智能运维工具提升组织的效率和可靠性;通过全质量管理的流程理念,形成组织人员管理的可控性;运维团队变成设计师,参与前端标准设计,构筑高可用架构。
这些由华为云 SRE 综合和探索出的技术与方法,或许是每一家企业的决策者、管理者,都应该看到的现实价值。
在全云化纪元,每家企业都需要运维能力的提升,那或许每家企业也都可以成为“云上的米开朗基罗”。SRE 的核心文化,依旧需要各界携手去探索和发扬。但就像运维所需的确定性那样,SRE 探索对每家企业的未来价值来说,也是充满确定性的。
评论