生产环境全链路压测建设历程 13:淘宝网稳定性近十年发展历程 2009 年 -2019 年
前几篇有提到,2009年淘宝网业务飞速发展,而那时候基础设施不是那么完善,整年的不可用时长接近2天。整个SLA仅仅能达到99.5%。
2010年,综合分析了2009年的诱发不可用的因素,加上投入大量的人力,SLA达到了99.8%。整年累计不可用的时长,降低到8小时左右。
2011年,为了提升效率,很多人工处理的事情,总结了很多套路,大家就开始做很多自动化、半自动的工具,再加上一些真实演练来验证。比如MySQL的主备自动切换,挑选一些非核心的MySQL,直接kill mysqld的进程,或者是从OS层面把网卡关闭,做了一系列的操作,逐步补齐了一些短板。
2012年,因为双十一零点的超卖,影响范围较大,数据就比较难看了,也就不放出来了。
2013年,因为2012年各个团队都有极大的痛点,逼着大家有了统一的目标,在生产环境上做全链路压测。 也因为这样一个技术创新,2013年的双十一平稳过渡。整体2013年的SLA达到了99.98%的新高度。
从2014年到2019年,随着生产环境的全链路压测的实施成本极低,所有的产品线都在生产环境上面进行压测。新技术的出现,会倒逼以前很多说不清道不明的问题得到解决;所以自从2014年以后,虽然天猫双十一的交易额逐年攀升,但整体的SLA仍然能保持在99.99%。
版权声明: 本文为 InfoQ 作者【数列科技杨德华】的原创文章。
原文链接:【http://xie.infoq.cn/article/5511fb606a6258a27696a9900】。文章转载请联系作者。
评论