写点什么

服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与 SRE 的结合

作者:雅菲奥朗
  • 2024-07-22
    上海
  • 本文字数:2144 字

    阅读完需:约 7 分钟

服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与SRE的结合

​2024 年 5 月 24 日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和 SRE 创新联合体(中关村人才协会 SRE 专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等 150 余位 SRE 领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及 SRE 和人工智能领域的最新发展、创新和未来趋势。


在当今数字化转型的浪潮中,企业面临的最大挑战之一是如何确保其技术系统的可靠性和稳定性。为了应对这一挑战,混沌工程(Chaos Engineering)与服务韧性工程(SRE)的结合应运而生,成为提升系统可靠性与运维效率的创新实践。在本次 2024 第二届服务韧性工程(SRE)论坛上,中国移动信息技术中心的技术专家晁元宁,分享其在 SRE 与混沌工程结合的实践和经验,深入探讨这一主题。


中国移动信息技术中心技术专家、中国移动磐基 CMChaos 平台负责人 晁元宁


中国移动信息技术中心技术专家,中国移动磐基 CMChaos 平台负责人晁元宁分享了《混沌工程与 SRE 的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入 SRE 体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混沌工程不仅是运维工具还是有效管理工具、混沌工程是检验防护体系很好的手段


一、SRE 框架和混沌工程


SRE 是一种由谷歌提出并广泛采用的工程实践,它将软件工程技术应用于运维领域,以提高系统的可靠性和可维护性。SRE 的核心在于服务级别目标和协议(SLO/SLA)、监控和报警、自动化工具、故障管理和应急响应以及持续改进和文化建设。这些要素共同构成了 SRE 的框架,确保了服务的高可用性和快速响应能力。


混沌工程则是一种更为激进的方法,它通过在生产环境中主动引入故障来测试系统的弹性。这种方法的核心理念是通过主动制造混乱,观察系统在异常情况下的表现,从而发现并改进系统的潜在薄弱环节。混沌工程不仅是一种测试方法,更是一种受控的模拟危机,它能够帮助开发人员在代码中添加弹性,提升应用程序在紧急情况下的服务能力



在实施 SRE 的过程中,企业可能会遇到多个方面的痛点和挑战。首先是战略规划的挑战,如何在快速变化的技术环境中制定有效的运维策略;其次是资源分配问题,如何合理地分配有限的资源以支持不断增长的业务需求;再者是团队协作的难题,不同团队之间如何高效协同工作,共同应对运维挑战;风险管理也是关键,如何识别和缓解潜在的技术风险;最后是文化变革,如何在组织内部培养一种持续改进和学习的文化。


二、中国移动 CMChaos 平台,如何解决企业痛点问题?


中国移动在混沌工程领域拥有丰富的经验,其 CMChaos 平台通过创新的混沌工程实践,为这些痛点提供了有效的解决方案,帮助企业构建起更加健壮和可靠的系统。为了解决上述痛点,中国移动推出了混沌工程平台 CMChaos,它通过提供从基础层到应用层的故障注入能力,帮助客户快速构建起高可用的模拟演练场景。CMChaos 平台采用微服务部署架构,确保了平台的高可用性和稳定性,同时支持主机类、应用类、网络类、存储类、安全类、信创兼容类以及中间件等多种复杂的演练事件和混沌实验场景。



CMChaos 平台的工作过程包括定义目标和指标、选择混沌工具、实施混沌实验、结果分析、培养混沌工程文化和扩展应用。这一过程不仅帮助团队通过模拟故障情景来强化系统的韧性,而且通过持续的监控、实验和系统改进,帮助团队预防真实世界的故障,从而显著降低系统运行风险


中国移动混沌工程平台结合了 SRE 的创新应用,通过自动化故障注入和实时监控,验证并提升系统的弹性和可靠性。它确保在突发故障和高负载情况下系统能够快速恢复,并满足服务级别目标(SLO),推动持续改进和跨团队协作。此外,CMChaos 平台还提供了丰富的实践亮点,包括混沌工程演练、混沌可视化、监控信息、个性化脚本设计、实验记录和报告等,这些功能使得平台成为一个强大的工具,帮助企业应对运维工作中的各种挑战。



三、中国移动 CMChaos 平台,有哪些优势?


在体系化建设解决方案方面,CMChaos 提供了服务全生命周期的支持,包括专业服务、行业解决方案、上云迁移和安全加固等。平台拥有 1000+实践场景和 300+原子事件,以及专家经验库和应急演练管理功能,这些都是确保企业能够有效应对各种挑战的关键因素.



业务线流程服务链是 CMChaos 平台的另一个重要优势。它支持从架构设计到生产发布的全流程,涉及编码、需求分析、测试环境部署、系统测试等各个环节。通过混沌工程的集成,为研发、运维、测试等不同角色提供定制化的支持和工具,确保了系统的稳定性和兼容性。


总结:

中国移动的实践证明,通过混沌工程与 SRE 的结合,能够为企业提供一个全面的系统可靠性解决方案。通过结合 SRE 框架的精髓与混沌工程的主动故障注入方法,中国移动 CMChaos 平台不仅提升了系统的弹性和可靠性,还促进了团队间的协作和文化的持续改进。随着技术的不断进步和企业需求的不断演变,CMChaos 平台将继续引领混沌工程和 SRE 实践的潮流,帮助企业在复杂多变的技术环境中保持领先地位。

发布于: 刚刚阅读数: 4
用户头像

雅菲奥朗

关注

专注于“互联网时代”的IT培训和咨询 2024-07-04 加入

雅菲奥朗是国内知名的IT培训与咨询公司,是SRE的实践者与引领者。我们秉承“知识创新、方法创新、实践创新”的核心理念,基于在多家知名企业的成功落地经验,持续引入国际先进SRE的理念和方法论。

评论

发布
暂无评论
服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与SRE的结合_SRE_雅菲奥朗_InfoQ写作社区