写点什么

生产环境全链路压测建设历程之十一:生产压测给淘宝网带来的价值

发布于: 2020 年 12 月 16 日

上一篇讲到,淘宝网的研发团队,对生产压测这一新鲜事物的看法,经历了质疑、到死马当活马医(将信将疑)、再到又不相信、再到压测成功等多个阶段。



这让我想起来微信、苹果手机、特斯拉电动车,刚出来的时候也是问题一大堆,也不被很多人看好,但现在是大城市里面特斯拉满地跑,苹果手机几乎人手一台。



似乎新事物的出现,如果是有特别大的价值,大家也都能容忍一些非关键问题,然后不断的完善,就变成了事实的标准。





价值一:提前发现了大量的隐患、大幅提升稳定性

2013年第一年进行生产压测,在双十一前发现了近700多个问题;

2014年第二年进行生产压测,在双十一前发现了近500多个问题;

2015年第二年进行生产压测,在双十一前发现了近400多个问题;

2016年第二年进行生产压测,在双十一前发现了近600多个问题;

价值二:技术团队在面对每年不断攀升的交易量,心态确实越来越淡定,不用那么累了。



2012年双十一,交易额191亿,系统在前30分钟,交易成功率只有50%。整个团队陷入不断加班去排查问题,特别特别忙的困境,对双十一有惧怕感。



2013年双十一,交易额350亿,用户体验流畅,2013年已经搬到了西溪淘宝总部了,那时候整个团队的心态都是比较轻松的,有过节的感觉。



2014年双十一,交易额571亿,用户体验流畅,大家备战双十一的节奏已经是很有节奏感了。

价值三:备战双十一的人员减少,时间长度降低

随着2013年的第一炮打响,生产压测有很多手工的事情。

但随着经验的沉淀,最佳实践的积累,沉淀了很多实用的功能出来。

目前每年的双十一只投入不到100人,具体干活的已经不用那些老家伙了

每个月进行1轮生产压测的成本极低。

价值四:提升了应用的处理性能

拉平了系统间的水位,同样数量的机器提供了更大业务吞吐量

根据木桶原理,木桶最短的板也就是容量最小的系统决定了整体系统的能力。

需要做的是识别短板,通过调整长短板之间的机器配比达到拉平系统水位的目的,那么即使是同样数量的机器也可以提供更大的业务吞吐量,甚至不用额外扩容

价值五:起到了红蓝对抗的效果

在军事领域,演习是专指军队进行大规模的实兵演习,演习中通常分为红军、蓝军,演习多以红军守、蓝军进攻为主。

类似于军事领域的红蓝军对抗,网络安全中,红蓝军对抗则是一方扮演黑客(蓝军),一方扮演防御者(红军)。



在生产压测这样一个具体的事情里面,通过模拟发起指定峰值的压测流量,对业务系统进行核心链路的瞬间同时发起压力,也起到了蓝军的效果。倒逼各个系统研发、运维进行一系列的限流、降级演练,而不是到大促才手忙脚乱应战。



我们那时候也是从2013年开始,通过生产压测,验证各个预案是否有效。

价值六:降低了管理、沟通成本

有这么一句话:衡量一个人的能力,最好的办法不是听其言,而是观其行。是骡子是马,拉出来遛遛就知道 。



换到一个大型复杂的分布式系统,衡量一个系统到底能撑多少访问量,光是靠测试环境来搞,往往在测试环境都没问题,一上线,访问量稍微大一点,就是各种应急救火。



淘宝网自从具备了生产压测能力后,各个业务团队之间的沟通变得很简单直接。比如核心订单相关的接口调用,一般是不允许超过200ms的。这种第一反应,是因为出过太多问题,被写入到DNA里面了。



下一篇的内容

计划会列一些生产压测发现的问题,从saas、paas、iaas几个层面来写



发布于: 2020 年 12 月 16 日阅读数: 26
用户头像

还未添加个人签名 2017.12.21 加入

还未添加个人简介

评论

发布
暂无评论
生产环境全链路压测建设历程之十一:生产压测给淘宝网带来的价值