基础架构部如何推动新一代云原生架构变革
一、背景
受持续不断的疫情、toC 市场用户到顶、股市波动等因素影响,各厂基础架构部从疫情前的快速扩张模式,转向维持或者收缩模式。但服务还在运行,工作还要继续,系统的治理复杂度还在不断增加,微博热搜榜上不断出现 A 服务宕机、B 服务挂了、C 服务崩了这种新闻,其中更是不乏各头部大厂,近期的西安一码通故障更是引发了轩然大波。裁员、减服务器、控成本,如何在错综复杂的环境下掌控局势成为各厂基础架构部负责人的巨大挑战。
作为主要服务于各厂基础架构部的云原生基础引擎厂商,星汉未来希望站在各厂基础架构部背后,通过推动新一代云原生架构变革,充分协同公有云厂商、开源社区、软件厂商等力量,借助巨大的技术创新红利来实现以有限的人力支撑不断增长的服务需求。虽然星汉未来是个初创公司,但公司的创始团队拥有数个亿级 DAU 架构技术体系建设、技术变革等经验,近 20 位研发骨干来自美团、抖音、快手、腾讯、滴滴、微博等头部大厂,研发团队在不到 3 个月的时间构建了三大云原生基础引擎,将会是各厂基础架构部的有力外援。
二、挑战
但凡变革,皆属不易。难以选择的路线、因循守旧的习惯、潜在的风险、巨大的机会成本、多样的部门利益等等都是新一代云原生架构变革之路的拦路虎。但同样,从 20 分钟 1000 台弹性到 1 分钟 1000 台弹性只用了四年时间,从千兆网卡到 25G 网卡甚至百 G 网卡也就是几年时间,K8s 从小众到普及也就五六年时间,新的技术、新的硬件、新的理念也在蓬勃发展,已有摧枯拉朽之势。当前机会与挑战并存,但总体上讲变革的力量已经压倒保守的力量,最近了解到不少厂已经在各自推进在离线混部、自动扩缩容、K8s 容器平台等变革。
既然各厂已经在各自推动云原生架构改造,新一代云原生架构变革是否会像前几年的高可用架构变革一样快速得到普及?目前看云原生架构变革进展很不尽如人意:在离线混部概念喊了很多年了,真正大规模落地的也就头部几个大厂;Service Mesh 更是声势浩大,但全面落地的更是没几家;K8s 容器平台管理的计算资源超过 80%的应该也是屈指可数。目前普遍的情况是,大家都在做,也都会有些试点,但普遍推广的难度和挑战很大。那么问题在哪里那?为什么几年前同样一拨人高可用架构落地要快很多?以笔者经历为例,2012 年做某个项目的高可用改造时投入只有几个人,2016 年做某个云原生项目时投入则高达 30 人,还历经波折。现在总结来看,主要的挑战点在于高可用改造只是对某一个系统或业务,大厂一般会有几十甚至上百个类似系统或业务,单个的改造难度确实不大。而要开展云原生架构改造,就需要同时面对几十个系统或者业务,需要将几十个系统或者业务都迁移到新架构,这个挑战可想而知了。云原生架构改造的背后不仅是技术问题,更是组织问题、共识问题、优先级问题、时机问题。
三、应对
需求很迫切,挑战又非常巨大,那有没有办法来加速这个过程,让更多的厂更快的享受新技术的红利?答案是肯定的,星汉未来公司也是为这个使命而生的。
首先,由于系统的复杂度数量级提升,单个厂单个部门单打独斗的模式已经不再适合。动不动 30 人、50 人的研发投入,已经超过了小团队的能力范围。充分借助云厂商、开源社区、软件厂商等提供的成熟产品与解决方案成为必选项,各厂聚焦在各自的技术战略关键点进行建设就好,全面建设一则搞不定二则成本非常高。如果想复用但复用不了怎么办?这就要归功于过去几年公有云集中化、私有云标准化、容器与 K8s 普及等基础设施方面的进步,跟车同轨书同文、铁路与高速公路系统建设促进全国市场发展一样,逐步统一的基础设施是各种软件与服务可以复用的必要前提。
其次,经过过去几年的演进与打磨,10 亿级 DAU 系统的架构经验也已经成熟,高可用、缓存、存储、消息队列等最佳实践已经足够成熟,故障的原因有哪些、流量模型有哪些对各大厂也不是问题。这就代表已有的问题和场景已经覆盖了 99%以上的情况,即使有新的类型的问题概率也很低。这样也代表一套或几套系统就能覆盖绝大多数的问题和场景,满足绝大多数的需求,综合各大厂最佳实践的系统将有很大的概率统一市场。
再次,如何推动组织变革以适应新一代的云原生架构也有了不少最佳实践,可以快速学习借鉴。比如一开始就联合研发、运维、成本、QA、安全等相关部门代表成立联合项目组就是很好的实践,基础架构变革不仅需要基础架构部主导和投入,其他部门也都要有很大的投入,至少支持这件事件就没办法做其他的事情了。所以,变革的关键是明确利益分配的规则,整体的、模块的、阶段的收益如何分配都要提前讲清楚,权责利一致了项目也就能快速推进了。再比如优先在一两个较核心的业务进行试点也是不错的实践。大家一般推新技术喜欢采用从边缘到核心的策略,这样很稳健但速度会非常慢。可以先选个很小的业务做原型和最初的试点,然后就应该扩展到核心的业务,很多有挑战的场景也就核心业务有,做再多的边缘业务能力也不会增加很多。核心业务改造的挑战和风险虽然大,但搞定了在全公司推都很简单了,而且也是绕不过去的,晚搞定不如早搞定。
四、结语
挑战依然艰巨,阻力依然巨大,但变革的号角已经吹响,也有不少变革的先锋已经开始行动。以业务需求和场景为中心,以先进的云原生技术为手段,广泛借鉴头部大厂的各种最佳实践,各厂基础架构部与云厂商、开源社区密切分工协作,新一代云原生架构的变革定会快速推进,给各厂带来巨大的回报。欢迎想推动变革的同仁与我们联系(微信 @liudaoru 请备注公司及部门),一同推进变革!
关于星汉未来:
星汉未来(Galaxy-Future)是一家云原生基础引擎提供商,提供三大算力引擎:算力调度引擎BridgX、数据物流引擎DTExpress、智能运维引擎CudgX,基于三大引擎也提供了标准化智能运维产品SchedulX和运维可观测产品ComandX,同时,也为企业提供解决方案和咨询服务,希望能帮助企业在上云过程中实现:云使用成本降低50%-80%,同时,开发效率能提升10倍。
相关产品GitHub地址:
算力调度引擎BridgX:
GitHub地址:
https://github.com/galaxy-future/bridgx
智能运维引擎CudgX
:
GitHub地址:
https://github.com/galaxy-future/cudgx
标准化智能运维产品SchedulX
:
GitHub地址:
评论