写点什么

崩溃的阿里云,并非是单纯的坏事?

作者:ToB行业头条
  • 2023-11-13
    北京
  • 本文字数:3064 字

    阅读完需:约 10 分钟

崩溃的阿里云,并非是单纯的坏事?

来源  /   ToB 行业头条  (ID:wwwqifu)  

作者 /   海阳 


就在双十一购物节庆典结束后的次日,阿里系的多款产品突然出现崩溃,此事件在当天 18 时左右迅速攀升至各平台的热搜榜单,引发了广大公众的强烈关注。



针对公众的关注,阿里云方面也是立即做出反应,公开发声称于当日 17 点 44 分阿里云监控发现云产品控制台访问及 API 调用出现异常,目前阿里云工程师正在紧急介入排查,争取尽早恢复产品运行。

并且在之后,阿里云方面也陆续公开每一步的故障处理进度,其中包括在 18:54 时表示杭州、北京等地域控制台及 API 服务已恢复;19:20 工程师通过分批重启组件服务,将绝大部分地域控制台及 API 服务恢复等。 



而根据所有的公告反馈,此次故障处理完成共花费了三个半小时左右,影响到淘宝、钉钉、云盘、语雀、瑞幸、蜜雪冰城、虎牙等多个自家及客户的业务服务,覆盖国内、中东、东南亚等多个区域,在资损以及品牌形象方面影响不小。

且值得一提的是,就在 2022 年 12 月 18 日,阿里云香港 Region 可用区 C 也发生过大规模服务中断事件,当时市场对此也产生了热议,引发了后续一段时间内人们对于阿里云安全性、服务稳定性的质疑,给阿里云带来了不小的负面影响。

如今未到一年,阿里云再度出错,想必一定会让其客户和潜在客户考虑与之持续合作的可能性……

不过话说回来,随着阿里云连番出现问题,究竟是哪方面短板需要补足呢?阿里云此次故障事件后,又会对国内云计算产业带来什么影响呢?

01

云计算

如今不需要太多的大刀阔斧

对于阿里云所出现的故障问题,其根本原因可能涉及以下三个方面:

首先,系统故障是主要原因之一。阿里云的云平台是一个由众多服务器、网络、存储等组件构建的复杂系统,任何一个组件出现故障都可能引发整个系统的崩溃。例如,服务器过载、网络连接中断或存储设备损坏都可能导致云平台的全面故障。

其次,人为因素也是不可忽视的原因。阿里云的云平台由众多工程师负责维护和管理。如果在维护过程中出现错误,如错误的配置或错误的代码部署,都可能导致全线服务的崩溃。这种类型的故障可能是由于维护人员的疏忽或错误导致的,也可能是由于新员工对系统的不熟悉或操作不当引起的。

最后,外部因素也可能导致阿里云云平台的故障。例如,自然灾害如地震、洪水或网络攻击等外部因素可能对云平台造成影响,导致其无法正常运行。然而,根据最新的消息反馈,近期并没有相关报道显示阿里云的数据中心附近出现大规模的自然灾害以及强烈的网络攻击等情况,因此可以初步排除外部因素的可能性。

综上所述,根据目前的信息和排除法分析,阿里云出现故障的原因大概率可能是由于系统故障或人为因素所致,而这两个原因都能解释为什么在云平台出现故障后,阿里云的异地容灾服务未起到良好效果。

因此,阿里云需要对其云平台的系统架构和运维管理进行深入调查和改进,以避免类似故障的再次发生。

当然不只是阿里云,要知道仅讨论云计算平台的研发与运维能力,阿里云在国内服务商间也是名列前茅的存在,但即便如此,其也是出现了这次故障。这或许也说明了当下国内云计算服务商们在研发与运维方面可能都需要持续优化。

就以研发来说,按照以往的节奏,研发的目标总是追求足够的新颖性,这种新颖性不仅要求能够随时匹配不断变化的需求,甚至要能够预测市场需求的出现并提前做好准备。

然而,这种对新颖性的过度追求往往导致了对稳定性的忽视。这种倾向在云计算服务日益复杂的情况下尤为明显。随着云计算服务的不断发展,其架构也变得越来越复杂,这也使得稳定性成为越来越重要的问题。在这种情况下,“不够稳”的架构容易在不断“堆新”的过程中出现问题,从而影响到整个系统的性能和稳定性。

因此,在研发过程中,不仅要注重新颖性,更要注重稳定性。只有将稳定性和新颖性结合起来,才能够开发出更加优秀、更加可靠的云计算服务。

至于 IT 运维方面,对比过往,当下企业与服务商们有关运维的重视度已经有所提升,大家也在某种程度上认可运维工作、运维人员存在的必要性,但是这并不够。

如今,还是有许多企业、服务商更关注运维工作的投入成本,而忽视了运维工作带来的价值和效益,这导致了许多企业在运维方面的投入不足,无法满足实际需求。

此外,当下还是有些企业、云计算服务商对运维人才不够重视,认为仅需招聘一些基础运维人员即可应对,从而在出现问题时,运维人员往往束手无策,需要经过长时间的排查和定位才能解决问题,进而给企业和服务商造成了更多的损失。

因此,为了提高运维工作的效率和效益,企业和服务商需要更加重视运维工作,增加对运维的投入,提高运维人员的专业水平和技能,建立健全的运维体系,以更好地应对和解决问题。

就当下云计算的发展而言,在历经十余年的发展过后,国内的云计算已经积累了很多丰厚果实,继续延续大刀阔斧的发展步伐,不仅存在颇大的失败概率,同样可能会破坏到过往积累的果实,小步稳走,保证研发“新”度与服务稳定性的并行才是当下最后的方式。

02

晴天修屋顶

撬动「多云」

阿里云故障事件,除了带来的不只是云服务商们在服务上的反思,对于日后整个云计算发展格局或许也会产生一定影响,这种影响在于企业采用“多云战略”的进一步加速规模化。

多云战略的价值,其对企业客户来说可能是一个更具稳定性且更具性价比的新用云方式。当企业客户不再将所有的数据和业务都放在同一个云平台上,而是选择使用多个云服务提供商的多个云平台时,可以获得更高的稳定性和更好的性价比。

首先,多云战略可以提高企业的业务连续性。由于不同的云平台有着不同的特点和优势,企业可以通过使用多个云平台来确保其应用程序和数据在任何情况下都能够得到保护。如果一个云平台发生故障,其他云平台可以继续提供服务,从而确保企业的业务连续性。

其次,多云战略可以提高企业的灵活性和可扩展性。使用多个云平台可以让企业根据其业务需求灵活地选择最适合其应用程序和数据的云平台。同时,企业还可以根据其业务需求的变化来调整使用的云平台和资源,从而实现更好的可扩展性。

此外,多云战略还可以降低企业的成本。由于不同的云平台有着不同的定价模型和优惠措施,企业可以通过比较不同云平台的定价和优惠来选择最经济实惠的云服务。同时,使用多个云平台还可以让企业更好地利用云计算的规模经济效应,从而降低其成本。

沃尔玛基础设施服务副总裁 Kevin Evans 就曾指出,使用多个云平台比单一云平台更加经济,而且选择权有助于更好地管理成本。正是基于这种认识,沃尔玛坚决采取了多云战略,成功地将云计算支出降低了 10%至 18%,并解决了公有云和私有 IT 环境之间的数据移动复杂性问题。

综上所述,多云战略是一种更具稳定性、性价比和灵活性的新用云方式,这对于拥有一定大用户量,存在峰值使用高峰、多业务系统同时又追求云计算服务稳定性的企业而言,属实是一个不错的选择。

尤其,在阿里云此次出现故障问题之后,很多企业想必也意识到“鸡蛋放在一个篮子里”的危险性,这势必会让本就备受关注的“多云战略”进一步受到重视,甚至会加速企业采用“多云战略”的进程,提升其市场规模……

但转过头想一想,本文虽聚焦于阿里云在 11 月 12 日出现的故障进行深入探讨,但并无质疑其在技术和服务能力方面的意图。毕竟,阿里云作为国内云服务行业的领军者,其卓越的技术实力和优质的服务能力已被广泛印证。


换一个角度思考,即使是阿里云这样的大型云服务提供商也会遇到此类故障,那么其他云计算服务商是否能够保证万无一失呢?此次的故障是否会成为国内云计算行业的最后一次?没有人敢给出确切答案。因此,大家应该时刻保持警惕,做好预防措施,以便在遇到问题时能够迅速应对。晴天修屋顶,未雨绸缪,终究不会是错的事……

用户头像

还未添加个人签名 2020-07-13 加入

ToB行业头条,关注ToB领域的新产品、新公司、新趋势,专注以原创报道ToB行业的人物、金钱与故事。

评论

发布
暂无评论
崩溃的阿里云,并非是单纯的坏事?_ToB行业头条_InfoQ写作社区