写点什么

混沌演练实践(二)- 支付加挂链路演练 | 京东云技术团队

  • 2023-05-24
    北京
  • 本文字数:1433 字

    阅读完需:约 5 分钟

混沌演练实践(二)-支付加挂链路演练 | 京东云技术团队

1. 背景

当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性,避免因为单点失效引起整个链路的故障。

2. 目标

通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现,对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。

3. 演练链路

对真实的业务场景进行混沌演练,就需要对业务场景的相关服务和调用关系进行链路梳理,一般需要根据实际业务场景,画出系统交互图,通过链路串联、数据追踪、和上下游确认等方式整理链路图。

4. 演练计划

混沌演练之前,一定要好可行性评估,评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等,然后决策演练场景,进行实践操作。


5. 内容加载演练实践

5.1 链路梳理

内容加载链路演练,通过内容加载的系统交互梳理出加载链路:摹略引擎执行-AB 分流-CMS 资源获取-鹰眼内容发送


5.2 接口梳理

根据调链路调用关系用梳理出具体的接口:


5.3 制定演练计划

演练时间:2023.03.28 14:00-22:00


演练攻击人员:孙 X 英、陈 X 然; 演练防守人员:张 X 雷、付 X 军、刘 X、韩 X


针对链路接口设计演练场景,一般根据系统特色来设计更容易发生的故障,比如应用偏计算比较消耗 CPU 的话,故障设计包含CPU 满载,应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。


本次链路故障场景设计如下:



具体演练场景设计可参考:https://xie.infoq.cn/article/6bd2e2b6983e80718ce7173c9

5.4 演练执行

目前借助天权自动化运维平台进行混沌攻防演练,进入工具市场—演练类,选择不同的故障方案,点击“立即执行”;


如选择 Java 进程满载场景演练,选择满载率 100%,满载核数为演练应用部署服务的 CPU 核数,演练时长是执行满载的持续时间,选择演练的具体应用和指定 IP,执行演练计划。


演练示例,根据演练的场景配置好故障参数,如下图为精准触达系统-消息触达方法延迟增加 30ms 参数设定:



演练执行结果检查,下图为分流服务-JAVA 进程满载,指定分流进程 CPU 满载,故障执行结果:


5.5 演练监控

使用监控工具实时收集服务器在混沌演练运行期间的性能状态,如系统层面的 CPU、内存等使用情况,观察方法的响应时间、成功率等指标,一方面验证在混沌场景执行期间系统状态是否达到预期的效果,同时记录演练期间发生的问题,记录现场,另一方面通过监控发现有风险问题进行人工干预,立刻终止演练。


场景一:精准触达系统-消息触达方法延迟增加 30ms


演练监控方法执行的成功率和 TP 999:



场景二:分流服务-JAVA 进程满载,指定分流进程 CPU 满载


监控平台实时观测系统的 CPU 使用率:


5.6 演练反馈

检查系统故障发生时候监控手段是否完善,研发人员是否可以根据系统告警,快速的定位并解决问题。检查团队的响应、协同效率。


邮件事故告警:



事故恢复告警:


5.7 环境恢复

场景演练可等待演练时长结束后自行中止,也可根据手工取消、终止演练场景。


演练完成后建议需要重启容器,保证服务恢复正常状态。

5.8 演练复盘

演练结束之后,我们需要对演练进行复盘。不同的故障下,系统的表现以及整体业务场景所受到的影响,演练过程中所发现的问题,需要在复盘报告中呈现出来。


6.总结

链路演练通过提前主动注入故障,发现系统之间的强弱依赖,对链路进行检验,降低生产环境中故障发生的概率。


“居安思危,思则有备,有备无患。”


作者:京东科技 孙民英

内容来源:京东云开发者社区

发布于: 刚刚阅读数: 3
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
混沌演练实践(二)-支付加挂链路演练 | 京东云技术团队_微服务_京东科技开发者_InfoQ写作社区