生产环境全链路压测建设历程 16：淘宝网高可用历程的总结

数列科技杨德华

关注

发布于: 2020 年 12 月 22 日

在系统的性能稳定性保障的流程，大概有如下六个事情

1.系统峰值评估

toC 的业务，从登录到交易，其实系统是有物理上限的，而人民群众对于系统的热爱是不可阻挡的。所以在评估系统峰值的时候，是需要和业务部门，约定好系统到底要支撑多少峰值，以此作为容量评估的依据。

也会有一种情况，是业务部门也不知道该支撑多少，这时候，根据以往的监控数据，乘以一个倍数来让业务方选择即可。

还有一种情况，是新接口或者线上未监控的接口，不存在历史数据，且不存在类似功能接口的数据可供参数考，此时需要估算峰值，常用方法有 8/2 原则——一天内 80%的请求会在 20%的时间内到达。

top QPS = (总 PV 0.8) / (60 60 * 24 * 0.2)

RT 如无特殊要求，一般采用默认值：

单服务单表类，RT<100ms

较复杂接口，RT<300ms

大数据量或调用链较长的接口，RT<1s

电商秒杀活动，预估同时有 1000w 人参与，简单起见假设总 QPS 是 1000w。由于前端不同的秒杀倒计时形式使得请求有 2s 的打散，再加上 nginx 等 webserver 做了 20%几率拒绝请求的策略，所以下单接口总 QPS = 1000w / 2 * (1 - 0.2) = 400w/s，最终压测目标为 400w/s 的 QPS。

电商全天低价抢购活动：根据 8/2 原则，预估在午休（12-1）和晚上下班后（7-10）共 4h 是流量高峰，估算接口峰值 QPS = 活动全天接口 PV / (4*3600s)。

2.依赖梳理 &上下游流量评估

微服务架构下，服务的调用网络呈现出网状模型，如果本身有分布式链路追踪的工具，可以比较快速的进行依赖梳理。

什么是上游、下游？

下游的输入来自于上游的输出，假设有服务 A、B，A 调用了 B（或者说 A 依赖 B），那 B 就是 A 的上游，A 就是 B 的下游，因为 A 的输入来自于 B 的输出（A 调用了 B，获取 B 的输出）

上下游流量评估，主要是结合上面的系统峰值，来判断上下游的流量情况。

3.单链路压测

链路这个词，很容易产生歧义。我和不同的人交流过，对这个词语都会不同的理解。

如何避免产生歧义呢，其实很简单，按照一个 http 或者 dubbo 的入口来作为原子链路，是最不容易产生歧义的。

为什么要做单链路的压测？

在微服务架构下，整体链路的性能瓶颈，取决于短板（木桶原理）。

因此，单机单链路基准测试的目的，是在全链路压测开始前进行性能摸底，定位排查链路瓶颈。

4.系统优化、扩容

在做单链路的压测完毕后，定位瓶颈点。对瓶颈点进行优化完毕后，根据系统峰值进行扩容。

5.生产环境全链路压测

在完成了单链路的压测、优化、扩容后，就可以进入到全链路压测的阶段了。

一般来说，在开始全链路压测前，还要做一波预热，预先跑一部分流量使得该缓存的数据提前缓存起来。

正式压测时细分有几种压测策略：

峰值脉冲：流量是逐渐变大的一个小坡，还是骤升后保持高峰；

系统摸高：关闭熔断降级限流等 fallback 功能，提高压力观察系统性能转折点；

fallback 策略验证：开启熔断限流等 fallback 功能，这些功能是否生效，系统是否还能扛得住；

破坏性测试：主要为了验证预案的有效性，类似于容灾演练时的预案执行演练，验证后手抢救方案。

6.预案评审、演练 &应对手册输出

专项预案主要包括如下几项：限流、降级、熔断、脉冲、破坏性验证等五种场景。

进行预案演练的目的主要有如下几项：

1、验证预案是否生效；

2、针对预案设定阈值进行测试调优；

3、验证预案生效时服务本身的性能表现；

4、针对上述专项场景进行实战演练；

思考总结

生产环境全链路压测是提升系统稳定性的关键抓手；

阿里的生产全链路压测的实现方式，是否适合其他企业？

发布于: 2020 年 12 月 22 日阅读数: 110

原文链接:【http://xie.infoq.cn/article/df2ebd83d192a43850d89d639】。文章转载请联系作者。

数列科技杨德华

关注

还未添加个人签名 2017.12.21 加入

还未添加个人简介

发布

暂无评论

创作场景

生产环境全链路压测建设历程 16：淘宝网高可用历程的总结

1.系统峰值评估

2.依赖梳理 &上下游流量评估

3.单链路压测

为什么要做单链路的压测？

4.系统优化、扩容

5.生产环境全链路压测

6.预案评审、演练 &应对手册输出

思考总结

数列科技杨德华

评论