写点什么

最近,我们做了一次“实景”容灾演练

作者:云布道师
  • 2023-04-18
    浙江
  • 本文字数:2208 字

    阅读完需:约 7 分钟

最近,我们做了一次“实景”容灾演练

保障头部新闻客户端的业务连续性,阿里云帮助客户在真实场景下完成容灾演练。

云计算和新闻 APP,能有什么关系?


2021 年,传媒行业某头部媒体的新闻客户端进行了全新改版并升级上线,以 “内容+技术”的融合驱动效率提升,加速其新媒体业务的数字化转型进程。


该客户端作为这一媒体在移动互联网端发布新闻的重要渠道,客户对发稿的时效性、直播的流畅性等方面有着极高的要求。具体到云平台侧,客户要求除了要保障云平台整体的稳定性外,还需要云平台能在极端情况下具备容灾逃逸能力,同时针对可用区级别的容灾提出了更高的 RTO 和 RPO 要求。


客户的命题看起来似乎很简单:“一个机房挂了,另一个机房要能用,这样不会影响到稿件的正常及时发布,保证新闻的时效性”。


这个命题对于阿里云团队来说,意味着要基于同城双 AZ 容灾架构,保证平台的可用性,进而提升客户业务的连续性。


更有挑战性的是,对于这个命题的解答,客户要求不能仅仅提留在“理论”层面,还需要阿里云接受“实实在在的实景考验”,即在预期时间范围内,在设定的故障场景下,我们要验证:当第一个 AZ 故障后,云平台具备切换至第二个 AZ 的能力,证明阿里云的云平台具备在 AZ 之间 30 分钟内完成切换的能力,同时在修复主机房的故障之后完成回切。

看似简单,实则不然


从拿到命题,到交卷,这用了近五个月时间,其中规划期就用了近 2 个月。同城双 AZ 架构本身并不算是很复杂的架构形式,但这道题的难点在于客户业务作为新闻客户端的特殊性。新闻具有突发性和时效性,业务难以被预测,所以每一次给到阿里云进行变更的窗口期都很珍贵,且不能失败,这对于技术和评估就提出了很高要求。


其次,客户对于这次容灾演练也是既谨慎又大胆,愿意创新突破,但同时也因为担心影响到真实的业务而非常忐忑。虽然该传媒客户没有金融级客户对于数据的强一致性要求,但是因为容灾演练要基于真正的生产环境,对于可用性的要求极高,云产品的所有组件在演练完成后都要尽快回到切换前的终态。此外,容灾演练需要联动云平台和上层应用,不仅涉及云平台,还要考虑到云外的网络和公共云等因素,要求对业务的影响时段和影响面可控。


最终,阿里云 TAM 团队现场调研、摸底,并结合产研团队的技术评审,针对平台业务、产品、所有组件进行了多轮摸底调研,制定了数百个 CHK 项,对客户应用负载、调用链路、应用配置、部署形态等多方面进行了全面的诊断和治理。全程阿里云团队通过了 20 多次灰度切换验证,熬过 6 个通宵,涉及十几个演练场景,对原有产品、演练方案进行了 30 个改进项的完善和落地,还做了一个模拟客户业务访问的模型 demo 监控,来确保演练在最终实施时的可行性。

一次充满“反差感”的演练


就这样,来到了真实演练的那一天,整个过程并没有想象中的惊心动魄,反而是平稳顺利。在主机房注入故障后的 10 分钟内,整个云平台就完成了应急切换;历时 7 个小时,顺利完成带生产业务的机房级容灾演练,整个过程对业务影响不超过 1 小时,并进行了全场景、全流程的业务测试,通过率 100%。演练过程中,阿里云进行了多次预案执行的有效性和应急处置,拟定好的组织、角色按演练 SOP 有效执行,确保了整个演练流程的规范和有序。


在孤岛演练之后的三天内,阿里云和该客户进行了无业务影响的长尾问题修复,使平台恢复到演练前状态。这次演练不仅验证了云平台、业务的容灾能力,还帮助客户完善了网络容灾能力的建设,进一步增强了客户对于云平台灾备能力的信心。

容灾,何以成为阿里云的竞争力?


阿里云飞天企业版同城容灾解决方案,让云平台的容灾能力全面覆盖网络产品、云计算产品、数据库产品、存储产品、中间件产品等核心云产品,采用网络互备、数据主备模式构建了整个云平台同城双 AZ 容灾能力。


除了覆盖产品广,阿里云飞天企业版还配备全栈式灾备管理平台,针对不同机房级故障提供一键式容灾切换能力(如下图);一旦发生灾难(如主机房掉电/网络孤岛故障/单产品故障等),可通过灾备管理平台进行一键式切换,提高云平台抵御自然灾害、设备故障、系统故障等突发事件的能力,提升云平台及云上客户业务连续性。


相较于传统的容灾方案,阿里云专有云同城容灾架构提供了一致性的容灾切换体验,对客户业务透明,使用户能更加聚焦于业务开发,降低应用开发难度,提供更加便捷的体验。


阿里云飞天企业版灾备管理平台界面


在此基础上,TAM 团队针对客户业务的使用场景,结合项目现场运维和各类容灾架构平台的演练实施经验,不仅安全高效地完成方案实施落地,更在实施过程中不断发现方案与现场环境的缺陷并予以纠正迭代,使得解决方案更加完善;贴合客户平台真实环境,真正做到了最贴近真实故障、最小化业务影响、最快速应急恢复的技术目标。


通过产品技术能力和现场运维能力的双剑合璧,阿里云飞天企业版同城灾备方案得以无缝平滑落地,顺利完成本次容灾演练。

风雨后再回首,是更广阔的天空


回看这次容灾演练,带着真实业务做测试,就好像在飞机飞行中换引擎。阿里云 TAM 运维团队与产研团队携手,不仅建成了阿里云在传媒行业首个同城双 AZ 容灾云平台,更基于双方的紧密配合和对于平台的精细化管理,熟悉现场环境和故障应急处理的全流程,完成了平台上的不中断业务演练任务,让客户真正看到并相信了阿里云同城双 AZ 的容灾能力。


这说明了阿里云飞天企业版的容灾能力,并没有停留在文档或是方案里。这个能力是可被演练、可被验证的。而这份底气,是我们前进的意义,也是客户信任的根基。


最近,我们做了一次“实景”容灾演练

用户头像

云布道师

关注

大道至简、教学相长、知行合一 2022-11-07 加入

聚焦“云&科技”领域,每日收获前沿技术与科技洞见。

评论

发布
暂无评论
最近,我们做了一次“实景”容灾演练_阿里云_云布道师_InfoQ写作社区