写点什么

生产环境全链路压测建设历程 28:FAQ 之 混沌工程

发布于: 2021 年 01 月 14 日

问题: 整个系统可能有很多地方可能成为瓶颈点,但是如何找到核心短板?比如系统依赖了分布式缓存,NOSQL 和关系型数据库、还依赖了外部的第三方,如何分析核心流程的关键依赖。

当前做的比较多的是,单独对某个第三方进行超时或者熔断的演练,模拟故障后,查看业务的实际表现是否符合预期。分析核心的业务场景,根据这些场景从代码维度展开分析全部可能的资源依赖,再进行测试验证。

a) 回答:安装了探针后,对带有压测标记的流量进行相关的故障注入,演练。 D 快递公司我们第二期就给他们做了这样的场景,用压测流量在生产环境进行混沌工程,相对于真实流量,效率会更高。


问题:如何实施压测?是否有方法论,构建可例行进行业务压测的能力

  1. 有标准的实施 SOP

  2. 按照我们和客户合作的成功经验,由产品+实施+指导,自己跳到客户的坑里,然后爬出来,接着再带着客户爬出来。 合作过的客户,都能自己玩好。


问题: 在压测的时候,如何尽量降低对第三方的影响(甚至不对第三方有影响)。简单说就是,压测不要把我们的下游第三方压挂了。

  1. 白名单准入

  2. Mock 挡板

问题:如何与混沌工程联系起来,实现端到端的压测结果评估

当前的做法,是提前分析好压测涉及的接口(大多是单接口、或者少量核心接口)涉及到的服务,在压测过程中,基于当前已经具备的 AIOps 检测能力,进行接口时延,成功率,第三方接口调用量,缓存命中率等检测。这里能否做到更智能?

被压测的系统(部署单元),本身都会安装 Java 探针。 数列科技的很多客户,都是默认带上我们这边的探针启动。。。,作为基础设施之一。


发布于: 2021 年 01 月 14 日阅读数: 56
用户头像

还未添加个人签名 2017.12.21 加入

还未添加个人简介

评论

发布
暂无评论
生产环境全链路压测建设历程 28:FAQ 之 混沌工程