写点什么

生产环境全链路压测建设历程 13:淘宝网稳定性近十年发展历程 2009 年 -2019 年

发布于: 2020 年 12 月 19 日





前几篇有提到,2009年淘宝网业务飞速发展,而那时候基础设施不是那么完善,整年的不可用时长接近2天。整个SLA仅仅能达到99.5%。



2010年,综合分析了2009年的诱发不可用的因素,加上投入大量的人力,SLA达到了99.8%。整年累计不可用的时长,降低到8小时左右。



2011年,为了提升效率,很多人工处理的事情,总结了很多套路,大家就开始做很多自动化、半自动的工具,再加上一些真实演练来验证。比如MySQL的主备自动切换,挑选一些非核心的MySQL,直接kill mysqld的进程,或者是从OS层面把网卡关闭,做了一系列的操作,逐步补齐了一些短板。



2012年,因为双十一零点的超卖,影响范围较大,数据就比较难看了,也就不放出来了。



2013年,因为2012年各个团队都有极大的痛点,逼着大家有了统一的目标,在生产环境上做全链路压测。 也因为这样一个技术创新,2013年的双十一平稳过渡。整体2013年的SLA达到了99.98%的新高度。



从2014年到2019年,随着生产环境的全链路压测的实施成本极低,所有的产品线都在生产环境上面进行压测。新技术的出现,会倒逼以前很多说不清道不明的问题得到解决;所以自从2014年以后,虽然天猫双十一的交易额逐年攀升,但整体的SLA仍然能保持在99.99%。



发布于: 2020 年 12 月 19 日阅读数: 15
用户头像

还未添加个人签名 2017.12.21 加入

还未添加个人简介

评论

发布
暂无评论
生产环境全链路压测建设历程13:淘宝网稳定性近十年发展历程 2009年-2019年