生产环境全链路压测建设历程 28:FAQ 之 混沌工程
问题: 整个系统可能有很多地方可能成为瓶颈点,但是如何找到核心短板?比如系统依赖了分布式缓存,NOSQL 和关系型数据库、还依赖了外部的第三方,如何分析核心流程的关键依赖。
当前做的比较多的是,单独对某个第三方进行超时或者熔断的演练,模拟故障后,查看业务的实际表现是否符合预期。分析核心的业务场景,根据这些场景从代码维度展开分析全部可能的资源依赖,再进行测试验证。
a) 回答:安装了探针后,对带有压测标记的流量进行相关的故障注入,演练。 D 快递公司我们第二期就给他们做了这样的场景,用压测流量在生产环境进行混沌工程,相对于真实流量,效率会更高。
问题:如何实施压测?是否有方法论,构建可例行进行业务压测的能力
有标准的实施 SOP
按照我们和客户合作的成功经验,由产品+实施+指导,自己跳到客户的坑里,然后爬出来,接着再带着客户爬出来。 合作过的客户,都能自己玩好。
问题: 在压测的时候,如何尽量降低对第三方的影响(甚至不对第三方有影响)。简单说就是,压测不要把我们的下游第三方压挂了。
白名单准入
Mock 挡板
问题:如何与混沌工程联系起来,实现端到端的压测结果评估
当前的做法,是提前分析好压测涉及的接口(大多是单接口、或者少量核心接口)涉及到的服务,在压测过程中,基于当前已经具备的 AIOps 检测能力,进行接口时延,成功率,第三方接口调用量,缓存命中率等检测。这里能否做到更智能?
被压测的系统(部署单元),本身都会安装 Java 探针。 数列科技的很多客户,都是默认带上我们这边的探针启动。。。,作为基础设施之一。
版权声明: 本文为 InfoQ 作者【数列科技杨德华】的原创文章。
原文链接:【http://xie.infoq.cn/article/7d7793e1800c9735c643d059e】。文章转载请联系作者。
评论